Direkte juks er sjelden i klinisk forskning, men konklusjonene kan også bli feil ved dårlig plan for forskningsprosjektet eller feilaktig databehandling. Feil kan også skyldes dårlig redaksjonsarbeid eller villedende formidling i media. Enkeltartikler og oppslag bør derfor vurderes kritisk. Mest pålitelig beskrives forskningsbasert god klinisk praksis som regel i de internasjonale retningslinjene.
Knut Gjesdal, prof. emeritus, Hjertemedisinsk avdeling, OUS Ullevål og Institutt for Klinisk Medisin, UiO
Sverre E. Kjeldsen, prof. emeritus, Hjertemedisinsk avdeling, OUS Ullevål og Institutt for Klinisk Med, UiO
«Forskning viser at…» er en vanlig innledning til en påstand. Veien fra en forskers hypotese frem til konklusjonen som når et publikum, er imidlertid lang og sårbar. På bakgrunn av egne forskningserfaringer, erfaringer som redaktører i internasjonale tidsskrifter innen hjerte- og karsykdommer og tilgjengelig litteratur gis en oversikt over vanlige manipulasjoner og fallgruver, med håp om at leseren kan bli mer årvåken og kritisk til det som skrives. Mest alvorlige er de tre kardinalsyndene fabrikkering, forfalskning og plagiering av data.
Forfalskede og fabrikkerte data er de sjeldne, men groveste formene for overlagt fusk. I 1983 kom sjokket fra det verdensledende hjerteforskningsmiljøet rundt Braunwald i Boston: andre forskere kunne ikke reprodusere funnene til den lovende postdoc John Darsee, som skrev skjellsettende artikler på løpende bånd (figur 1). I alt 83 av hans artikler ble trukket tilbake (1). Dette utløste en intens debatt om veilederes og medforfatteres plikter og ansvar, og i dag kreves solidaransvar for forfattere med mindre det klart fremgår hvem som har gjort hva. Heller ikke i Skandinavia har vi gått fri: I Norge publiserte Jon Sudbø falske registerdata om antiflogistika og kreft (2), i Danmark diktet Milena Penkowa opp stamcellestudier hos rotter (3), og i Sverige ga Paolo Maccharini stamcellebelagt plasttrachea til pasienter og forskjønnet de katastrofale resultatene (4). Jukset i Norge ble raskt oppdaget av Camilla Stoltenberg, mens både i Sverige og Danmark var det uvilje oppover i systemet til å tro det var mulig, så avsløringene tok lang tid. Felles for svindlerne var at de var dyktige forskere som ikke hadde behøvd å bedra.
Forfalskede data kan gi store konsekvenser: Lancet-artikkelen fra 1998 ble først tolv år senere trukket tilbake. Den viste oversykelighet etter trippelvaksinen (tarmsykdom, retardert mental utvikling) (5), og bidro sterkt til vaksineskepsisen vi fortsatt sliter med.
Amerikanske FDA hastegodkjente hydroxyklorokin mot COVID-19, Donald Trump beordret innkjøp av 29 millioner behandlingsdoser, pågående behandlingsstudier ble forstyrret, og så ble den «overbevisende» publikasjonen trukket tilbake (6).
Mistenksom fagfellevurdering av manuskripter kan trengs, for det er mange falsknerier. «Retraction watch» er en blogg som drives av Center for Scientific Integrity, og retractiondatabase. org (søkt 9.1.2021) inneholder 24.757 artikler som er trukket tilbake eller korrigert. Dessverre blir bedrag ofte sent avslørt, og selv artikler som er trukket, kan bli sitert i årevis etterpå (7). Konsekvensen jukserne får, er stort sett begrenset til tapt akademisk fremtid og skadet anseelse for institusjon og hjemland. I Norge mistet Sudbø sin autorisasjon som lege/tannlege etter sitt forskningsjuks (2). Det er stygg manipulering å utgi observasjonelle data for å være randomiserte. Et stort randomisert diettforsøk viste i 2013 en betydelig helsegevinst når det vanlige spanske kostholdet ble sammenlignet med intervensjonsgrupper som fikk «middelhavsdiett » med tillegg av enten olivenolje eller nøtter. Publikasjonen fikk stor oppmerksomhet i media, men ble trukket tilbake da det ble oppdaget uregelmessigheter ved randomiseringen. En revidert artikkel med langt mer forsiktig konklusjon ble trykket i 2018 (8).
I store studier kan mangelfull randomisering ofte avsløres av statistisk usannsynlige forskjeller mellom gruppene ved studiestart (9). Det kan være tilfelle ved en «randomisert» spansk studie som viser at død og komplikasjoner forebygges bedre av kveldsdosert sammenliknet med morgendosert blodtrykksmedisin (10). Budskapet er farlig fordi medikamentetterlevelsen er dårligere om kvelden, og sårbare grupper kan få hjerneslag og andre komplikasjoner av for lavt blodtrykk på etternatten (11).
Plagiat, dobbeltpublisering, gaveforfatterskap er forhold som alle tidsskriftredaktører møter. I Tromsø fikk vi på 1970-tallet «turistbesøk» av en kjent engelsk kollega, beryktet for å stjele andres ideer for så raskt å kjøre forsøkene og komme dem i forkjøpet med sin artikkel. Alt på labben ble gjemt, men han fikk et artikkelsærtrykk (12), gjentok forsøket og publiserte det senere i Lancet uten sitering (13).
Dobbeltpublisering er som regel lett å oppdage i databaser som PubMed, men hvis tittel, forfatterliste og deler av innholdet er omskrevet, må det brukes spesialsøk, som bare skjer ved mistanke. «Hvis jeg tar med deg, og du meg på alt vi skriver, får vi begge mange publiseringspoeng»; antallet medforfattere på hver artikkel har økt med 2-3 ganger i vår generasjon (14). Det kan være tegn på godt tverrfaglig samarbeid, men er dessverre snarere misbruk.
Manipulering av studiedesign kan gjøres sofistikert ved å velge forsøksrammene ut fra egne ønsker. Hvis for eksempel bivirkningene ved to blodtrykksmedisiner skal sammenlignes, og den ene gir hovne ben og den andre reduserer fysisk maksytelse, vil en overvekt av yngre menn favorisere det første, og eldre kvinner det andre preparatet. En bør også være skeptisk til firmasponsede studier, særlig hvis det er brukt «ghost writers», statistikkarbeidet er utført av sponsor, eller forfatterne har mange andre oppdrag for firmaet. Uavhengige studier må derfor tillegges størst vekt.
En farlig fristelse er å gjøre observasjonene først og generere testhypotesene etterpå. Eksempel på det er fagmiljøet som hadde sett flere plutselige uventede dødsfall hos sine unge flekainid-behandlede, ellers hjertefriske pasienter. Fortjenstfullt undersøkte de det nærmere, men inkluderte de allerede døde pasientene, og fant, naturlig nok, overdødelighet i forhold til kontrollene (15). Funnet ble avkreftet da de i samme avhandlingen undersøkte en større, uselektert pasientgruppe (16). Dette kan sees som eksempel på «the Texas sharpshooter fallacy» (figur 2).
En tromsølege hadde merket seg at nyrestenpasienter ofte fikk hjerteinfarkt. Siden for mye D-vitamin kan gi nyresten, ville han undersøke om mengden D-vitamin i kosten korrelerte med infarktforekomsten. Prospektive studier tar lang tid, så han valgte en testgruppe med uføretrygdede hjertepasienter i Troms fylke. Kontrollgruppen med friske fantes allerede i Tromsø by. Ikke overraskende spiste Tromspasientene fra distriktet mer fisk enn byborgerne i kontrollgruppen, og fordi fagfellevurdererne ikke så forskjellen mellom Troms og Tromsø, trykket British Medical Journal artikkelen om at mange fiskemåltider kan øke infarktfaren (17) – i strid med senere viten.
En kongresspresentasjon i 2019 rapporterte at hos 600.000 danske blodtrykkspasienter var det færre komplikasjoner hos de influensavaksinerte enn hos uvaksinerte (18). Her kan det være seleksjonsbias: Ikke fremmøtte har generelt dårligere helse, og gode leger gir også annen god behandling.
Augustinerkorherren Mendel, genetikkens far, publiserte sine krysningsforsøk og dokumenterte grunnprinsippene for arv. Statistikeren Fisher regnet på rådataene, og fant dem usannsynlig gode. I dag mistenker få Mendel for villet fusk; kanskje han stoppet opptellingen når det passet, eller bare hadde utrolig flaks (19). Moderne statistiske metoder brukes nå adskillig for å avsløre manipulasjon av data.
Utsagnet “If you torture the data long enough, they will confess» er tillagt økonomen Ronald Coase. Hypotesene bør derfor være protokollført på forhånd, og man bør stille strengere signifikanskrav hvis man har testet mange. Begrepet statistisk styrke blir ofte glemt; relativt små studier med sensasjonelle funn slås opp uten diskusjon av muligheten for at de er tilfeldige. I en studiepopulasjon med gode leveutsikter kreves titusener inkludert for å undersøke dødelighet; hvis en randomisert studie med for eksempel 500 deltakere i hver gruppe viser «signifikant» forskjell i dødelighet, er det trolig et tilfeldig funn. Mangler adekvat styrkeberegning, er dataene verdiløse.
Forfattere vil gjerne at deres studier skal vekke oppmerksomhet og få betydning. Da er det fristende å bagatellisere forskjellene mellom celleforsøk i reagensglass, studier på dyremodeller og kliniske studier, eller svakheter med selve forsøksoppsettet. En herlig illustrasjon er studien «Beskytter hvitløk mot vampyrer?», der man testet vampyrsurrogatet blodiglers attraksjon til hender med og uten påsmurt hvitløk, og konkluderte med å fraråde bruk av hvitløk mot vampyrer (20). Her handler det om humor, men budskapet er klart: «djevelen ligger i detaljene», så metodeavsnittet i en artikkel er ofte det viktigste.
Sponsorer og forskere kan ha egeninteresser. Det gir et langt bedre inntrykk av en behandling når det står at «dødeligheten ble halvert» enn at «NNT (numbers needed to treat) var 750» for en kostbar medisin med mye bivirkninger eller en operasjon med betydelige komplikasjoner.
Antall siteringer er en konkurransefaktor både for tidsskrifter og forskere. Når man sender inn sitt manus kan det være taktisk klokt å legge inn mange siteringer fra nettopp det aktuelle tidsskriftet. I European Heart Journal «bør man» endatil krysse av for at man har sitert guidelines-versjonen derfra. Noen siterer den nest beste artikkelen hvis den er skrevet av en venn, en potensiell fagfellebedømmer eller én i et ansettelsesråd eller bevilgningsutvalg. Legemiddelindustrien kan også fristes til selektiv sitering, men tydeligst er misbruket rundt «dokumentasjonen» av såkalte alternative behandlinger; generelt har disse studiene ofte vesentlige metodefeil, er små og publisert i obskure tidsskrifter.
Ibsen tar opp temaet i «En folkefiende »: Dr. Stockmann presses av samfunnets støtter til ikke å offentliggjøre funn om at byens økonomisk viktige badeanstalt er helsefarlig.
Tobakksindustrien holdt tilbake og motarbeidet informasjon om røykingens helseskader, og produsenter av antiarytmika (21) og antiflogistika (22), er eksempler på at firmaer er blitt anklaget for forsinket rapportering av alvorlige bivirkninger. Metaanalyser av publiserte studier viser gjerne mer positive resultater enn hvis man inkluderer resultater fra kongressabstrakts som senere ikke er blitt fullstendig rapportert (23). Det kan avspeile at sponsorer er mindre interessert i publisering, selv om redaktørers preferanse for positive studier også kan spille inn.
Det viktigste er etisk bevissthet og skolering av forskerne og solidaransvar hos medforfatterne. Kvaliteten høynes ved protokollgodkjenning fra lokale forskningsråd og etikkutvalg. Alle kliniske behandlingsstudier skal være forhåndsregistrert i en database som f.eks. clinical.trials. gov, slik at man kan få oversikt også over upubliserte studier. Rådata skal lagres og helst være tilgjengelige for andre forskere. Tidsskriftene bruker fagfellevurdering, siterings- og plagiatkontroll, og når en artikkel er trykket, finleses den av andre forskere på området. Retraction watch er databasen som fungerer som en gapestokk.
Veien fra en forskers hypotese frem til konklusjonen som når et publikum, er imidlertid lang og sårbar
Odelstingsproposisjon nr. 58 (2005-2006) om lov om behandling av etikk og redelighet i forskning trekker opp rammene, og prosjektet «Forskningsintegritet i Norge (RINO)» ved universitetet i Bergen kartlegger utbredelsen av uredelighet og diskutable forskningspraksiser ved norske universiteter, høgskoler og forskningsinstitutter (24). Internasjonalt kan man likevel lure på om dette fungerer optimalt. Konkurransen mellom Lancet og New England Journal of Medicine er nå så skarp at sistnevnte journal reduserte «fast track»-tiden for fagfellevurdering fra standard tre til én måned, og nå publiseres omtrent alle store og betydningsfulle randomiserte studier der. Men prisen er at det – i hvert fall i hjertefaget – kan stilles spørsmål om kvalitet og habilitet ved en rekke av deres senere publikasjoner.
Mang en forfatter har latt seg friste til å overselge betydningen av sine funn, og media er generelt lite interessert i alle forbeholdene den hederlige forskeren kommer med. Nå i Covid-19-tiden har innsendte artikler ofte blitt lagt ut på nettet før fagfellevurdering, og da blir det svært ujevn kvalitet. Hensikten har vært å få ut informasjonen så raskt som mulig for bruk i fagmiljøene, men for media og folk flest blir det ofte svært sprikende og forvirrende. Et grovt eksempel er undersøkelsen av smittespredning på treningssentra; hvis man gjør undersøkelsen på et tidspunkt da det er lite Covid-19 smitte i befolkingen, blir det naturlig nok ingen smitte på treningssentra.
«Å ta en spansk en» var et uttrykk på folkemunne som uttrykte å ta en innersving som ikke var berettiget, eller bokstavelig talt juks. Vi har ovenfor kommentert en spansk forskningsgruppe (10) som har vært velkjent for å fabrikkere data. Men de har gjort lite skade fordi de fabrikkerte artiklene har vært publisert i uvesentlige og bortgjemte tidsskrifter. Men da en av deres forfalskninger nylig slapp forbi uskolerte reviewere og redaktører i et så profilert tidsskrift som European Heart Journal (10), oppsto en storm av protester i leserinnlegg og andre steder. Redaktørene foretok en egen «granskning» men fant intet galt (25). Her ligger vårt viktigste bidrag i kampen mot forskningsjuks; sammen med andre som kjenner bakgrunnen med fabrikasjon av data har vi påpekt at man av og til må granske databasen eller kildedata for å synliggjøre jukset (26). Gransking av kildedata har avslørt flere japanske og spanske hypertensjonsstudier de siste årene som så har blitt trukket tilbake. Aktuelle publikasjon (10) inneholder multiple uforklarlige og inkonsistente sammenhenger som lett avsløres hvis man får tilgang til kildedata.
Kritisk vurdering av forskning er vesentlig for alle leger. Selv de beste tidsskrifter byr både på fusk og feil, og det bør være et godt beslutningsgrunnlag før man endrer sin praksis. De internasjonale retningslinjene med nasjonale tilpasninger er trolig den faglig tryggeste plattformen vår, selv om noen synes det blir vel sendrektig.