Fusk og feil i forskning og forskningsformidling – også i vårt fag?

Direkte juks er sjelden i klinisk forskning, men konklusjonene kan også bli feil ved dårlig plan for forskningsprosjektet eller feilaktig databehandling. Feil kan også skyldes dårlig redaksjonsarbeid eller villedende formidling i media. Enkeltartikler og oppslag bør derfor vurderes kritisk. Mest pålitelig beskrives forskningsbasert god klinisk praksis som regel i de internasjonale retningslinjene.

Knut Gjesdal, prof. emeritus, Hjertemedisinsk avdeling, OUS Ullevål og Institutt for Klinisk Medisin, UiO
Sverre E. Kjeldsen, prof. emeritus, Hjertemedisinsk avdeling, OUS Ullevål og Institutt for Klinisk Med, UiO

«Forskning viser at…» er en vanlig innledning til en påstand. Veien fra en forskers hypotese frem til konklusjonen som når et publikum, er imidlertid lang og sårbar. På bakgrunn av egne forskningserfaringer, erfaringer som redaktører i internasjonale tidsskrifter innen hjerte- og karsykdommer og tilgjengelig litteratur gis en oversikt over vanlige manipulasjoner og fallgruver, med håp om at leseren kan bli mer årvåken og kritisk til det som skrives. Mest alvorlige er de tre kardinalsyndene fabrikkering, forfalskning og plagiering av data.

Forfalskede og fabrikkerte data

Forfalskede og fabrikkerte data er de sjeldne, men groveste formene for overlagt fusk. I 1983 kom sjokket fra det verdensledende hjerteforskningsmiljøet rundt Braunwald i Boston: andre forskere kunne ikke reprodusere funnene til den lovende postdoc John Darsee, som skrev skjellsettende artikler på løpende bånd (figur 1). I alt 83 av hans artikler ble trukket tilbake (1). Dette utløste en intens debatt om veilederes og medforfatteres plikter og ansvar, og i dag kreves solidaransvar for forfattere med mindre det klart fremgår hvem som har gjort hva. Heller ikke i Skandinavia har vi gått fri: I Norge publiserte Jon Sudbø falske registerdata om antiflogistika og kreft (2), i Danmark diktet Milena Penkowa opp stamcellestudier hos rotter (3), og i Sverige ga Paolo Maccharini stamcellebelagt plasttrachea til pasienter og forskjønnet de katastrofale resultatene (4). Jukset i Norge ble raskt oppdaget av Camilla Stoltenberg, mens både i Sverige og Danmark var det uvilje oppover i systemet til å tro det var mulig, så avsløringene tok lang tid. Felles for svindlerne var at de var dyktige forskere som ikke hadde behøvd å bedra.

Forfalskede data kan gi store konsekvenser: Lancet-artikkelen fra 1998 ble først tolv år senere trukket tilbake. Den viste oversykelighet etter trippelvaksinen (tarmsykdom, retardert mental utvikling) (5), og bidro sterkt til vaksineskepsisen vi fortsatt sliter med.

Amerikanske FDA hastegodkjente hydroxyklorokin mot COVID-19, Donald Trump beordret innkjøp av 29 millioner behandlingsdoser, pågående behandlingsstudier ble forstyrret, og så ble den «overbevisende» publikasjonen trukket tilbake (6).

Mistenksom fagfellevurdering av manuskripter kan trengs, for det er mange falsknerier. «Retraction watch» er en blogg som drives av Center for Scientific Integrity, og retractiondatabase. org (søkt 9.1.2021) inneholder 24.757 artikler som er trukket tilbake eller korrigert. Dessverre blir bedrag ofte sent avslørt, og selv artikler som er trukket, kan bli sitert i årevis etterpå (7). Konsekvensen jukserne får, er stort sett begrenset til tapt akademisk fremtid og skadet anseelse for institusjon og hjemland. I Norge mistet Sudbø sin autorisasjon som lege/tannlege etter sitt forskningsjuks (2). Det er stygg manipulering å utgi observasjonelle data for å være randomiserte. Et stort randomisert diettforsøk viste i 2013 en betydelig helsegevinst når det vanlige spanske kostholdet ble sammenlignet med intervensjonsgrupper som fikk «middelhavsdiett » med tillegg av enten olivenolje eller nøtter. Publikasjonen fikk stor oppmerksomhet i media, men ble trukket tilbake da det ble oppdaget uregelmessigheter ved randomiseringen. En revidert artikkel med langt mer forsiktig konklusjon ble trykket i 2018 (8).

I store studier kan mangelfull randomisering ofte avsløres av statistisk usannsynlige forskjeller mellom gruppene ved studiestart (9). Det kan være tilfelle ved en «randomisert» spansk studie som viser at død og komplikasjoner forebygges bedre av kveldsdosert sammenliknet med morgendosert blodtrykksmedisin (10). Budskapet er farlig fordi medikamentetterlevelsen er dårligere om kvelden, og sårbare grupper kan få hjerneslag og andre komplikasjoner av for lavt blodtrykk på etternatten (11).

Plagiat, dobbeltpublisering, gaveforfatterskap

Plagiat, dobbeltpublisering, gaveforfatterskap er forhold som alle tidsskriftredaktører møter. I Tromsø fikk vi på 1970-tallet «turistbesøk» av en kjent engelsk kollega, beryktet for å stjele andres ideer for så raskt å kjøre forsøkene og komme dem i forkjøpet med sin artikkel. Alt på labben ble gjemt, men han fikk et artikkelsærtrykk (12), gjentok forsøket og publiserte det senere i Lancet uten sitering (13).

Figur 1. Det kan være fristende å fuske. (ill. Leonid Schneider, med tillatelse)

Dobbeltpublisering er som regel lett å oppdage i databaser som PubMed, men hvis tittel, forfatterliste og deler av innholdet er omskrevet, må det brukes spesialsøk, som bare skjer ved mistanke. «Hvis jeg tar med deg, og du meg på alt vi skriver, får vi begge mange publiseringspoeng»; antallet medforfattere på hver artikkel har økt med 2-3 ganger i vår generasjon (14). Det kan være tegn på godt tverrfaglig samarbeid, men er dessverre snarere misbruk.

Studiedesignet kan manipuleres, være dårlig eller fravikes

Manipulering av studiedesign kan gjøres sofistikert ved å velge forsøksrammene ut fra egne ønsker. Hvis for eksempel bivirkningene ved to blodtrykksmedisiner skal sammenlignes, og den ene gir hovne ben og den andre reduserer fysisk maksytelse, vil en overvekt av yngre menn favorisere det første, og eldre kvinner det andre preparatet. En bør også være skeptisk til firmasponsede studier, særlig hvis det er brukt «ghost writers», statistikkarbeidet er utført av sponsor, eller forfatterne har mange andre oppdrag for firmaet. Uavhengige studier må derfor tillegges størst vekt.

En farlig fristelse er å gjøre observasjonene først og generere testhypotesene etterpå. Eksempel på det er fagmiljøet som hadde sett flere plutselige uventede dødsfall hos sine unge flekainid-behandlede, ellers hjertefriske pasienter. Fortjenstfullt undersøkte de det nærmere, men inkluderte de allerede døde pasientene, og fant, naturlig nok, overdødelighet i forhold til kontrollene (15). Funnet ble avkreftet da de i samme avhandlingen undersøkte en større, uselektert pasientgruppe (16). Dette kan sees som eksempel på «the Texas sharpshooter fallacy» (figur 2).

En tromsølege hadde merket seg at nyrestenpasienter ofte fikk hjerteinfarkt. Siden for mye D-vitamin kan gi nyresten, ville han undersøke om mengden D-vitamin i kosten korrelerte med infarktforekomsten. Prospektive studier tar lang tid, så han valgte en testgruppe med uføretrygdede hjertepasienter i Troms fylke. Kontrollgruppen med friske fantes allerede i Tromsø by. Ikke overraskende spiste Tromspasientene fra distriktet mer fisk enn byborgerne i kontrollgruppen, og fordi fagfellevurdererne ikke så forskjellen mellom Troms og Tromsø, trykket British Medical Journal artikkelen om at mange fiskemåltider kan øke infarktfaren (17) – i strid med senere viten.

En kongresspresentasjon i 2019 rapporterte at hos 600.000 danske blodtrykkspasienter var det færre komplikasjoner hos de influensavaksinerte enn hos uvaksinerte (18). Her kan det være seleksjonsbias: Ikke fremmøtte har generelt dårligere helse, og gode leger gir også annen god behandling.

Tvilsom håndtering av data

Augustinerkorherren Mendel, genetikkens far, publiserte sine krysningsforsøk og dokumenterte grunnprinsippene for arv. Statistikeren Fisher regnet på rådataene, og fant dem usannsynlig gode. I dag mistenker få Mendel for villet fusk; kanskje han stoppet opptellingen når det passet, eller bare hadde utrolig flaks (19). Moderne statistiske metoder brukes nå adskillig for å avsløre manipulasjon av data.

Utsagnet “If you torture the data long enough, they will confess» er tillagt økonomen Ronald Coase. Hypotesene bør derfor være protokollført på forhånd, og man bør stille strengere signifikanskrav hvis man har testet mange. Begrepet statistisk styrke blir ofte glemt; relativt små studier med sensasjonelle funn slås opp uten diskusjon av muligheten for at de er tilfeldige. I en studiepopulasjon med gode leveutsikter kreves titusener inkludert for å undersøke dødelighet; hvis en randomisert studie med for eksempel 500 deltakere i hver gruppe viser «signifikant» forskjell i dødelighet, er det trolig et tilfeldig funn. Mangler adekvat styrkeberegning, er dataene verdiløse.

Tolkningen av studiene

Forfattere vil gjerne at deres studier skal vekke oppmerksomhet og få betydning. Da er det fristende å bagatellisere forskjellene mellom celleforsøk i reagensglass, studier på dyremodeller og kliniske studier, eller svakheter med selve forsøksoppsettet. En herlig illustrasjon er studien «Beskytter hvitløk mot vampyrer?», der man testet vampyrsurrogatet blodiglers attraksjon til hender med og uten påsmurt hvitløk, og konkluderte med å fraråde bruk av hvitløk mot vampyrer (20). Her handler det om humor, men budskapet er klart: «djevelen ligger i detaljene», så metodeavsnittet i en artikkel er ofte det viktigste.

Sponsorer og forskere kan ha egeninteresser. Det gir et langt bedre inntrykk av en behandling når det står at «dødeligheten ble halvert» enn at «NNT (numbers needed to treat) var 750» for en kostbar medisin med mye bivirkninger eller en operasjon med betydelige komplikasjoner.

Selektiv sitering

Antall siteringer er en konkurransefaktor både for tidsskrifter og forskere. Når man sender inn sitt manus kan det være taktisk klokt å legge inn mange siteringer fra nettopp det aktuelle tidsskriftet. I European Heart Journal «bør man» endatil krysse av for at man har sitert guidelines-versjonen derfra. Noen siterer den nest beste artikkelen hvis den er skrevet av en venn, en potensiell fagfellebedømmer eller én i et ansettelsesråd eller bevilgningsutvalg. Legemiddelindustrien kan også fristes til selektiv sitering, men tydeligst er misbruket rundt «dokumentasjonen» av såkalte alternative behandlinger; generelt har disse studiene ofte vesentlige metodefeil, er små og publisert i obskure tidsskrifter.

Unnlatt, forsinket eller selektivt valg av publiseringskanal – er det fusk?

Ibsen tar opp temaet i «En folkefiende »: Dr. Stockmann presses av samfunnets støtter til ikke å offentliggjøre funn om at byens økonomisk viktige badeanstalt er helsefarlig.

Figur 2. The Texas sharpshooter: Se på data først, og lag deretter hypotesen. (ill. Dirk-Jan Hoek, med tillatelse). Forskeren («the shooter») formulerer målet for undersøkelsen når dataene er kjent, eller som her, skyter først og maler «target» i etterkant.

Tobakksindustrien holdt tilbake og motarbeidet informasjon om røykingens helseskader, og produsenter av antiarytmika (21) og antiflogistika (22), er eksempler på at firmaer er blitt anklaget for forsinket rapportering av alvorlige bivirkninger. Metaanalyser av publiserte studier viser gjerne mer positive resultater enn hvis man inkluderer resultater fra kongressabstrakts som senere ikke er blitt fullstendig rapportert (23). Det kan avspeile at sponsorer er mindre interessert i publisering, selv om redaktørers preferanse for positive studier også kan spille inn.

Beskyttelsesmekanismer mot fusk

Det viktigste er etisk bevissthet og skolering av forskerne og solidaransvar hos medforfatterne. Kvaliteten høynes ved protokollgodkjenning fra lokale forskningsråd og etikkutvalg. Alle kliniske behandlingsstudier skal være forhåndsregistrert i en database som f.eks. clinical.trials. gov, slik at man kan få oversikt også over upubliserte studier. Rådata skal lagres og helst være tilgjengelige for andre forskere. Tidsskriftene bruker fagfellevurdering, siterings- og plagiatkontroll, og når en artikkel er trykket, finleses den av andre forskere på området. Retraction watch er databasen som fungerer som en gapestokk.

Veien fra en forskers hypotese frem til konklusjonen som når et publikum, er imidlertid lang og sårbar

Odelstingsproposisjon nr. 58 (2005-2006) om lov om behandling av etikk og redelighet i forskning trekker opp rammene, og prosjektet «Forskningsintegritet i Norge (RINO)» ved universitetet i Bergen kartlegger utbredelsen av uredelighet og diskutable forskningspraksiser ved norske universiteter, høgskoler og forskningsinstitutter (24). Internasjonalt kan man likevel lure på om dette fungerer optimalt. Konkurransen mellom Lancet og New England Journal of Medicine er nå så skarp at sistnevnte journal reduserte «fast track»-tiden for fagfellevurdering fra standard tre til én måned, og nå publiseres omtrent alle store og betydningsfulle randomiserte studier der. Men prisen er at det – i hvert fall i hjertefaget – kan stilles spørsmål om kvalitet og habilitet ved en rekke av deres senere publikasjoner.

Formidling til media og deres budskap videre

Mang en forfatter har latt seg friste til å overselge betydningen av sine funn, og media er generelt lite interessert i alle forbeholdene den hederlige forskeren kommer med. Nå i Covid-19-tiden har innsendte artikler ofte blitt lagt ut på nettet før fagfellevurdering, og da blir det svært ujevn kvalitet. Hensikten har vært å få ut informasjonen så raskt som mulig for bruk i fagmiljøene, men for media og folk flest blir det ofte svært sprikende og forvirrende. Et grovt eksempel er undersøkelsen av smittespredning på treningssentra; hvis man gjør undersøkelsen på et tidspunkt da det er lite Covid-19 smitte i befolkingen, blir det naturlig nok ingen smitte på treningssentra.

Betydningen av kildedata

«Å ta en spansk en» var et uttrykk på folkemunne som uttrykte å ta en innersving som ikke var berettiget, eller bokstavelig talt juks. Vi har ovenfor kommentert en spansk forskningsgruppe (10) som har vært velkjent for å fabrikkere data. Men de har gjort lite skade fordi de fabrikkerte artiklene har vært publisert i uvesentlige og bortgjemte tidsskrifter. Men da en av deres forfalskninger nylig slapp forbi uskolerte reviewere og redaktører i et så profilert tidsskrift som European Heart Journal (10), oppsto en storm av protester i leserinnlegg og andre steder. Redaktørene foretok en egen «granskning» men fant intet galt (25). Her ligger vårt viktigste bidrag i kampen mot forskningsjuks; sammen med andre som kjenner bakgrunnen med fabrikasjon av data har vi påpekt at man av og til må granske databasen eller kildedata for å synliggjøre jukset (26). Gransking av kildedata har avslørt flere japanske og spanske hypertensjonsstudier de siste årene som så har blitt trukket tilbake. Aktuelle publikasjon (10) inneholder multiple uforklarlige og inkonsistente sammenhenger som lett avsløres hvis man får tilgang til kildedata.

Konklusjon

Kritisk vurdering av forskning er vesentlig for alle leger. Selv de beste tidsskrifter byr både på fusk og feil, og det bør være et godt beslutningsgrunnlag før man endrer sin praksis. De internasjonale retningslinjene med nasjonale tilpasninger er trolig den faglig tryggeste plattformen vår, selv om noen synes det blir vel sendrektig.

Referanser:

  1. https://en.wikipedia.org/wiki/John_Darsee (Lest 18.01.2021)
  2. https://khrono.no/ho-avslorte-sudbo-men-kvaer- det-som-gjer-at-nokre-forskarar-tek-ein-snarveg/ 421248 (Lest 18.01.2021)
  3. https://nyheder.ku.dk/penkowa/ (Lest 18.01.2021)
  4. https://forskning.no/forskningssvindel-om-forskningforskningsetikk/ syv-forskere-felt-for-fusk-i-macchiarini- skandalen/1194127 (Lest 18.01.2021)
  5. Wakefield AJ, Murch SH, Anthony A, et al., Ileallymphoid- nodular hyperplasia, non-specific colitis, and pervasive developmental disorder in children. Lancet 1998;351:637-41
  6. Dinis-Oliveira RJ. COVID-19 research: pandemic versus “paperdemic”, integrity, values and risks of the “speed science”. Forensic Sciences Research 2020;5:174-87
  7. Schneider J, Ye D, Hill AM, Whitehorn AS. Continued postretraction citation of a fraudulent clinical trial report, 11 years after it was retracted for falsifying data. Scientometrics 2020;125:2877–913
  8. Estruch R, Emilio Ros E, Jordi SalasSalvadó J, et al. Retraction and Republication: Primary Prevention of Cardiovascular Disease with a Mediterranean Diet. N Engl J Med 2013;368:1279-90. N Engl J Med 2018;378:2441-2
  9. Carlisle JD. Data fabrication and other reasons for non-random sampling in 5087 randomised, controlled trials in anaesthetic and general medical journals. Anaesthesia 2017; 72: 944-52
  10. Hermida RC, Crespo JJ, Domínguez-Sardiña M, et al. Bedtime hypertension treatment improves cardiovascular risk reduction: the Hygia Chronotherapy Trial. Eur Heart J 2020;41:4565–76
  11. Burnier M , Kreutz R, Narkiewicz K, et al. Circadian variations in blood pressure and their implications for the administration of antihypertensive drugs: is dosing in the evening better than in the morning? J Hypertens 2020;38:1396-1406
  12. Nordøy A, Strøm E, Gjesdal K. The effect of alimentary hyperlipaemia and primary hypertriglyceridaemia on platelets in man. Scand J Haematol 1974;12:329-40
  13. O’Brien JR, Etherington MD, Jamieson S. Acute platelet changes after large meals of saturated and unsaturated fats. Lancet 1976;1(7965):878-80
  14. Tsao CI, Roberts LW. Authorship in scholarly manuscripts: practical considerations for resident and early career physicians. Acad Psychiatry 2009;33:76- 9
  15. Almroth H, Andersson T, Fengsrud E, et al. The safety of flecainide treatment of atrial fibrillation: long-term incidence of sudden cardiac death and proarrhythmic events. J Intern Med. 2011;270:281-90
  16. Almroth H, Friberg L, Bodin L, Rosenqvist M. Safety of flecainide for atrial fibrillation: the Swedish atrial fibrillation cohort study. Preprint i Digitala vetenskapliga arkivet. 2012. http://www.diva-portal.org/smash/ record.jsf?pid=diva2%3A527999&dswid=-9951
  17. Lindén V. Vitamin D and myocardial infarction. Br Med J 1974:3(5932):647-50
  18. Modin D, Claggett B, Joergensen ME. The flu vaccine and mortality in hypertension. A Danish nationwide cohort study. Eur Heart J 2019;40:Suppl 1,019, ehz748.0047, https://doi.org/10.1093/eurheartj/ ehz748.0047
  19. Franklin A, Edwards AWF, Fairbanks DJ, et al. The Mendel-Fisher Controversy. An overview. University of Pittsburg Press 2008. https://www.colorado.edu/ physics/sites/default/files/attached-files/mendelfishercontroversy. pdf
  20. Sandvik H, Bærheim A. Beskytter hvitløk mot vampyrer? En eksperimentell studie. Tidsskr nor legeforen 1994;114:3583-6
  21. Moore TJ. Deadly Medicine; Why tens of thousands of heart patients died in America’s worst drug disaster. Simon & Schuster, New York 1995
  22. The Vioxx story: would it have ended differently in the European Union? Am J Law Med 2006;32:365-80
  23. McGauran N, Wieseler B, Kreis J, et al. Reporting bias in medical research – a narrative. Review. Trials 2010;11:37
  24. https://www.uib.no/rino/107245/om-prosjektet (Lest 18.01.2021)
  25. Lüscher TF, Fox K, Hamm C, Carter RE, Taddei S, Simoons M, Crea F. Scientific integrity: what a journal can and cannot do. Eur Heart J 2020;41:4552-5.
  26. Brunström M, Kjeldsen SE, Kreutz R, Gjesdal K, Narkiewicz K, Burnier M, Oparil S, Mancia G. Missing verification of source data in hypertension research: The HYGIA PROJECT in Perspective. Hypertension 2021;78:555–8.