Vi rangerer effekten av kosttilskuddet eller aktiviteten basert på mengden og kvaliteten av forskningen.
Vurderingen gjort på kosttilskudd er hentet fra Examine.com sin database som vurderer forskningen gjort på det enkelte kosttilskuddet eller aktiviteten.
For eksempel har kreatin en høy grad av god forskning som gir en poengsum på 26 for muskelstyrke. Av de randomiserte kontrollstudiene gjort på kreatin kan vi gradere kvaliteten utifra forskningen utført. Kreatin har to klasse A vurderinger hvorav en klasse A betyr 5 poeng, og en klasse B vurdering gir 2 poeng, og en klasse C vurdering gir 1 poeng.
Klasse A: 5 poeng
Klasse B: 2 poeng
Klasse C: 1 poeng
Klasse D: 0 poeng
Klasse A: Vi har sterk tillit til at kosttilskuddet har betydelig positiv effekt.
Klasse B: Vi har middels tillit til at kosttilskuddet har en betydelig positiv effekt.
Klasse C: Vi har begrenset tillit til at kosttilskuddet har en positiv effekt.
Klasse D: Vi har lite eller ingen tillit til at kosttilskuddet har en positiv effekt.
Formelen for poengsummen tar utgangspunkt i noe som er omfattende og grundig studert.
Vurdering av kosttilskudd og aktiviteter blir kontinuerlig oppdatert ettersom ny forskning kommer.
Les mer om forskjellige typer studier nedenfor.
Det blir listet opp hvor mange studier og deltakere det er gjort på kosttilskuddet eller aktiviteten.
For eksempel har ashwagandha 35 randomiserte kontrollstudier og 2021 deltakere. Dette gir en pekepinn om hvor omfattende kosttilskuddet er forsket på.
Ikke alle tips og anbefalinger er basert på publiserte tidsskrifter eller studier.
Noe er bare sunn fornuft og trenger ikke å bli bevist av studier.
Det mange som vegrer seg mot å gjøre noe før det er bevis på aktiviteten, kostholdet eller kosttilskuddet. For eksempel: Selv om det ikke er en studie som beviser at friske menn i 20-årene forbedrer mental helse ved å gå en tur i skogen, trenger man ikke å vente på at en forskningsartikkel bevis det. Det er bare sunn fornuft.
Handler om det som viser seg for deg og fra ditt perspektiv. Hva som funker for deg.
Problemet med fenomenologi
Et typisk eksempel kan være en influenser får andre til å gjøre en viss aktivitet eller ta et kosttilskudd fordi det virket på vedkommende. Alle er forskjellige, og en sunn dose fenomenologi i hva enn du foretar deg er en god tommelfingerregel.
Selv om forskning viser et tydelig bevis at kreatin virker på mange folk, betyr det nødvendigvis ikke at det virker på deg. Prøv selv, og kjenn etter om dette er for deg.
For eksempel: Mange idrettsutøvere bruker kreatin som et ytelsesfremmende middel, men dersom du får vondt i magen eller ikke merker noen effekt, skal du ikke fortsette med det, eller i hvert fall justere dosen.
Markedsføringspåstander støttet av «vitenskapelig bevis» gjennomsyrer helse- og treningsindustrien. Kosttilskuddprodusenter selger stoffer som grønn kaffeekstrakt (hvor det knapt finnes noen menneskelige studier) som om deres effekter var like godt etablert som de av kreatin (som det finnes hundrevis av menneskelige forsøk på). Noen ganger fører papirsporet av en markedsføringspåstand til en ekte, publisert studie – men ikke alle studier er like. For å unngå å kaste bort penger på ineffektive produkter, må du være i stand til å vurdere forskjellige aspekter av en studie, som dens troverdighet, anvendelighet og den kliniske relevansen av de rapporterte effektene.
1. En rottestudie fant ut av sukker gjorde at rottene beveget seg mer og brant mer fett.
2. Studien viste også at rottene var sykelig overvektige økte kortisol og førte til tidligere død og en rekke andre helseulemper, men var utelatt.
3. OptiBody begynner markedsfører «Fast Fat Burn SP» som en mirakelpille.
4. Originalstudien blir trukket tilbake og dataen kan ikke verifiseres.
5. Daniel tar 2 piller om morgenen og 2 piller om kvelden i om å brenne av valpefettet til sommeren.
6. Daniel får bare dårligere søvn og øker kortisol over tid som fører til en rekke negative helseeffekter, og valpefettet blir til bikkjefett.
Ikke gjør som Daniel. Lær deg å lese studier.
Dårlig gjennomførte studier kan føre til eksepsjonelle resultater. Det er vanligvis best å vente og se om resultatene kan gjenskapes før man trekker en konklusjon.
Denne pyramiden gir en grei oversikt over hvilke studier som veier best. Den er riktignok på dansk, men forståelig.
Randomiserte, dobbeltblinde, placebokontrollerte studier blir ofte sett på som gullstandarden innen biomedisinsk forskning. I slike studier blir deltakerne tilfeldig tildelt enten en intervensjonsgruppe (de som faktisk får behandlingen) eller en kontrollgruppe (som vil motta et placebo), og verken de eller forskerne som utfører eksperimentet vet hvilke deltakere som tilhører hvilken gruppe.
ℹ️ Gruppen som får behandlingen, kalles ofte intervensjonsgruppen eller eksperimentgruppen.
En studie er delt inn i seksjoner. Disse seksjonene varierer mellom studier, men de inkluderer vanligvis et sammendrag, en introduksjon, en metodeseksjon (som gir demografisk informasjon, presenterer studiens design og noen ganger utdyper de valgte endepunktene) og en konklusjon (som ofte er delt mellom «resultater» og «diskusjon»).
Sammendraget er et kortfattet sammendrag som dekker hovedpunktene i en studie. Siden det er mye informasjon å pakke inn i noen få avsnitt, kan et sammendrag være utilsiktet villedende. Fordi det ikke gir kontekst, gjør sammendraget ofte ikke klart begrensningene i et eksperiment eller hvor anvendelige resultatene er i den virkelige verden. Før du siterer en studie som bevis i en diskusjon, må du sørge for å ha lest hele artikkelen, da den kan vise seg å ha svake bevis.
Introduksjonen setter scenen. Den skal tydelig identifisere forskningsspørsmålet forfatterne håper å svare på med studien. Her oppsummerer forfatterne vanligvis tidligere beslektet forskning og forklarer hvorfor de bestemte seg for å undersøke videre. For eksempel viste det ikke-kaloriske søtstoffet stevia seg å være lovende som en måte å bidra til å forbedre blodsukkerkontrollen, spesielt hos diabetikere. Så forskere satte i gang med å utføre større, mer grundige forsøk for å bestemme om stevia kunne være en effektiv behandling for diabetes. Introduksjoner er ofte et flott sted å finne ytterligere lesemateriale, siden forfatterne ofte vil referere til tidligere, relevante, publiserte studier.
Å lese flere studier på et gitt emne vil gi deg mer informasjon og data, selv når du ikke vet hvordan man foretar en metaanalyse. Hvis du for eksempel så at en studie om kreatin sin effekt på testosteron, og du så at det hadde en økning, kan du nå si at 100% av dataen du foreløpig har lest tyder på at kreatin øker testosteron. Men hvis du ser på 9 andre studier som viser at kreatin ikke øker testosteron, vil kun 10% av dataen vise til en økning på testosteron. På samme måte kan store og griske aktører i kosttilskudds-bransjen skape villedende markedsføring som foreløpig såvidt er innenfor lovens bøyelige grenser.
⚠️ Viktig: Informasjonen er relevant i forhold til hvor mye data som er tilgjengelig.
For eksempel: 9 studier viser at fiskeolje forbedrer hjernehelse, mens 1 studie viser at den forverrer hjernehelse. Hvis du er kun presentert med den ene studien, vil du tro at fiskeolje forverrer hjernehelse.
(Dette er et forenklet eksempel der vi brukte «stemmetelling»: Vi sammenlignet antallet studier som fant en effekt med antallet studier som ikke fant noen effekt. Metaanalyser er imidlertid mye mer kompliserte enn det: De må ta hensyn til forskjellige kriterier, som studiens design, antall deltakere og skjevhetene som påvirker resultatene, i stedet for å redusere hver studie til et positivt eller negativt resultat.) Ikke overraskende er det vanlig at kosttilskuddsfirmaer plukker ut studier selektivt. Hvis et selskap ønsker å selge deg kreatin som en testosteronbooster, vil de nevne den ene studien som fant en økning i testosteron, ikke de ni som ikke fant noen økning.
Det er vanlig for motparter å kaste studier på hverandre for å bevise deres poenger. Hvis du leter etter en studie som viser at en lavfett-diett er bedre enn en høyfett-diett for vekttap vil du finne det. Det er viktig å søke sannheten isteden for å bare finne mer bevis på hva du tror fra før er riktig, som blir ofte kalt en selvoppfyllende profeti. Søk heller på “hvilken diett fungerer best for vekttap” enn “hvilken lavfett diett er best for vekttap”. Se på helheten av studiene og bevisene og vurder nøye om studiene som ikke er enig med meningen du hadde. Det kan være ukomfortabelt og måtte bytte mening om en ting, men det gjelder å ha et åpent syn for å finne sannheten.
I den forbindelse, husk at selskaper ikke er alene om å plukke ut studier selektivt. Forskere gjør det noen ganger også. Hvis du vet at et felt er kontroversielt, men et dokument bare nevner studier som støtter forfatternes konklusjoner, kan det hende du vil søke etter andre dokumenter om emnet på egen hånd (alltid en god ide uansett).
En artikkels forskningsmetode (eller «materialer og metoder») -seksjon gir informasjon om studiens design og deltakere. Ideelt sett bør det være så klart og detaljert at andre forskere kan gjenta studien uten å måtte kontakte forskerne som lagde studien. Du må undersøke denne delen for å bestemme studiens styrker og begrensninger, som begge påvirker hvordan studiens resultater skal tolkes.
Demografi
«Metoder»-delen starter vanligvis med å gi informasjon om deltakerne, som alder, kjønn, livsstil, helsestatus og rekrutteringsmetode. Denne informasjonen vil hjelpe deg med å avgjøre hvor relevant studien er for deg, dine nærmeste eller dine klienter.
Demografisk informasjon kan være lang, og du kan bli fristet til å hoppe over den, men den påvirker både studiens pålitelighet og anvendelighet.
Pålitelighet
Jo større utvalgsstørrelse en studie har (dvs. jo flere deltakere den har), desto mer pålitelige er resultatene. Merk at en studie ofte starter med flere deltakere enn den ender med; kostholdsstudier ser spesielt ofte et betydelig antall frafall.
Anvendelighet
Innen helse og trening betyr anvendelighet at et stoff eller en intervensjon (dvs. trening, diett, kosttilskudd) som er nyttig for én person, kan være bortkastet penger – eller verre, en fare – for en annen. For eksempel, mens kreatin er allment anerkjent som trygt og effektivt, er det «ikke-respondenter» som dette tilskuddet ikke forbedrer treningsprestasjonen for.
Din erfaring kan variere, som kreatin-eksempelet viser, men en studie sin demografiske informasjon kan hjelpe deg med å vurdere studiens anvendelighet. Hvis en studie bare rekrutterte menn, for eksempel, bør kvinner som leser studien huske at resultatene kan være mindre relevante for dem. På samme måte kan en intervensjon testet på studenter gi forskjellige resultater når den utføres på mennesker fra et sykehjem.
Videre vil forskjellige rekrutteringsmetoder tiltrekke seg forskjellige demografier og dermed kunne påvirke anvendeligheten av en studie. I de fleste tilfeller vil forskere bruke en form for «tilgjengelighetsutvalg». For eksempel vil studier utført av universiteter ofte rekruttere blant sine studenter. Imidlertid vil noen forskere bruke «tilfeldig utvalg» for å gjøre resultatene fra studien mer gjeldende for den generelle befolkningen. Slike studier kalles generelt «forsterkede randomiserte kontrollerte studier». Forvekslingsfaktorer Til slutt vil den demografiske informasjonen vanligvis nevne om personer ble ekskludert fra studien, og hvis ja, av hvilken grunn. Oftest er grunnen eksistensen av en forvekslingsfaktor – en variabel som ville forvirre (dvs. påvirke) resultatene.
For eksempel, hvis du studerer effekten av et styrketreningsprogram på muskelmasse, vil du ikke at noen av deltakerne skal ta muskelbyggende kosttilskudd mens andre ikke gjør det. Enten vil du at alle sammen skal ta de samme kosttilskuddene, eller mer sannsynlig, vil du ikke at noen av dem skal ta noen. På samme måte, hvis du studerer effekten av et muskelbyggende kosttilskudd på muskelmasse, vil du ikke at noen av deltakerne skal trene mens andre ikke gjør det. Du vil enten at alle sammen skal følge det samme treningsprogrammet, eller mindre sannsynlig, vil du ikke at noen av dem skal trene. Det er selvfølgelig mulig for studier å ha mer enn to grupper. Du kan for eksempel ha en studie om effekten av et styrketreningsprogram med følgende fire grupper:
• Styrketreningsprogram + ingen kosttilskudd
• Styrketreningsprogram + kreatin
• Ingen styrketrening + ingen kosttilskudd
• Ingen styrketrening + kreatin
Men hvis studien din har fire grupper i stedet for to, må du ha dobbelt så mange deltakere for hver gruppe for å beholde den samme utvalgsstørrelsen – noe som gjør studien din vanskeligere og dyrere å gjennomføre. Når det kommer til stykket, er eventuelle forskjeller mellom deltakerne variable og dermed potensielle forvekslingsfaktorer. Det er derfor forsøk på mus bruker prøver som er genetisk veldig like hverandre. Det er også derfor forsøk på mennesker sjelden prøver å teste en intervensjon på et mangfoldig utvalg av mennesker. Et forsøk begrenset til eldre kvinner, for eksempel, har i praksis eliminert alder og kjønn som forvekslingsfaktorer.
Som vi så over, med en stor nok utvalgsstørrelse, kan vi ha flere grupper. Vi kan til og med lage flere grupper etter at studien har gått sin gang ved å utføre en undergruppeanalyse. For eksempel, hvis du utfører en observasjonsstudie om effekten av rødt kjøtt på tusenvis av mennesker, kan du senere skille dataene for «mann» fra dataene for «kvinne» og kjøre en separat analyse på hver delmengde av data. Imidlertid anses undergruppeanalyser av denne typen som utforskende snarere enn bekreftende og kan potensielt føre til falske positive resultater. (Når en blodprøve for eksempel feilaktig oppdager en sykdom, kalles det et falskt positivt resultat.)
Design og endepunkter “Metoder”-delen vil også beskrive hvordan studien ble utført.
Designvarianter inkluderer enkeltblindede forsøk, der bare deltakerne ikke vet om de får en placebo; observasjonsstudier, der forskere bare observerer en demografisk gruppe og tar målinger; og mange flere. Mer spesifikt er dette stedet der du vil lære om studiens lengde, doseringene som ble brukt, treningsregimet, testmetodene og så videre. Ideelt sett, som vi nevnte, bør denne informasjonen være så klar og detaljert at andre forskere kan gjenta studien uten å måtte kontakte forfatterne. Til slutt kan “Metoder”-delen også klargjøre endepunktene forskerne vil se på. For eksempel kan en studie om effektene av et styrketreningprogram bruke muskelmasse som sitt primære endepunkt (hovedkriteriet for å bedømme studiens resultat) og fettmasse, muskelstyrke og testosteronnivåer som sekundære endepunkter. En triks som studier som ønsker å finne en effekt (noen ganger slik at de kan fungere som markedsføringsmateriale for et produkt, men ofte rett og slett fordi studier som viser en effekt er mer sannsynlig å bli publisert) er å samle mange endepunkter, og deretter gjøre artikkelen om endepunktene som viste en effekt, enten ved å nedtone de andre endepunktene eller ved å ikke nevne dem i det hele tatt. For å forhindre slik «data-graving/fisking» (en metode som ble demonstrert gjennom den hysteriske sjokolade-trikset), presser mange forskere for forhåndsregistrering av studier.
Å snuse ut triksene som brukes av de mindre skruppelløse forfatterne, er dessverre en del av ferdighetene du må utvikle for å vurdere publiserte studier.
«Metoder»-delen avsluttes vanligvis med en grundig diskusjon om statistikk. Å avgjøre om en passende statistisk analyse ble brukt for en gitt studie er et helt eget forskningsfelt, så vi foreslår at du blir helt opphengt i detaljene. Prøv heller å fokusere på det store bildet.
Først skal vi avklare to vanlige misforståelser. Du kan ha lest at en effekt var signifikant, bare for å senere oppdage at den var veldig liten. På samme måte kan du ha lest at det ikke ble funnet noen effekt, men når du leste artikkelen, oppdaget du at intervensjonsgruppen hadde mistet mer vekt enn placebogruppen. Hva foregår her?
Problemet er enkelt: de eksentriske forskerne snakker ikke som normale mennesker gjør. For forskere betyr ikke signifikant viktig – det betyr statistisk signifikant. En effekt er signifikant hvis dataene som ble samlet inn i løpet av forsøket, ville være usannsynlige hvis det virkelig ikke var noen effekt.
Derfor kan en effekt være signifikant, men veldig liten – for eksempel 0,2 kg vekttap over et år. Mer presist kan en effekt være signifikant, men ikke klinisk relevant (det vil si at den ikke har noen merkbar effekt på helsen din).
På samme måte betyr ingen effekt for forskere vanligvis ingen statistisk signifikant effekt. Derfor kan du gjennomgå målingene som ble samlet inn i løpet av et forsøk og legge merke til en økning eller reduksjon, men lese i konklusjonen at ingen endringer (eller ingen effekter) ble funnet. Det var endringer, men de var ikke signifikante. Med andre ord var det endringer, men så små at de kan skyldes tilfeldige svingninger (de kan også skyldes en faktisk effekt, men vi kan ikke være sikre).
Vi så tidligere, i «Demografi»-delen, at jo større utvalgsstørrelse en studie har, desto mer pålitelige er resultatene. I tillegg er den større utvalgsstørrelsen i en studie, desto større er evnen til å finne ut om små effekter er signifikante. En liten endring er mindre sannsynlig å skyldes tilfeldige svingninger når den blir funnet i en studie med tusen mennesker, la oss si, enn i en studie med ti personer.
Dette forklarer hvorfor en meta-analyse kan finne signifikante endringer ved å samle dataene fra flere studier som, uavhengig av hverandre, ikke fant noen signifikante endringer.
Som oftest sies en effekt å være signifikant hvis den statistiske analysen (utført av forskerne etter studien) gir en P-verdi som ikke er høyere enn en viss terskel (satt av forskerne før studien). Vi vil kalle denne terskelen for signifikansterskel.
Å forstå hvordan man tolker P-verdier riktig kan være vanskelig, selv for spesialister, men her er en intuitiv måte å tenke på dem:
Tenk på et myntkast. Kast en mynt 100 ganger, og du får omtrent en 50/50 fordeling av kron og mynt. Ikke veldig overraskende. Men hva om du kaster denne mynten 100 ganger og får kron hver gang? Det er overraskende! For ordens skyld er sannsynligheten for at det faktisk skjer 0,00000000000000000000000000008 %.
Du kan tenke på P-verdier i form av å få kron hver gang du kaster en mynt.
• En P-verdi på 5 % (p = 0,05) er ikke mer overraskende enn å få kron på 4 myntkast.
• En P-verdi på 0,5 % (p = 0,005) er ikke mer overraskende enn å få kron på 8 myntkast.
• En P-verdi på 0,05 % (p = 0,0005) er ikke mer overraskende enn å få kron på 11 myntkast.
I motsetning til populær oppfatning står «P» i «P-verdi» ikke for «sannsynlighet». Sannsynligheten for å få 4 kron på rad er 6,25 %, ikke 5 %. Hvis du vil konvertere en P-verdi til myntkast (teknisk kalt S-verdier) og en sannsynlighetsprosent, kan du sjekke omformeren her.
Som vi så, er en effekt signifikant hvis dataene som ble samlet inn i løpet av studien, ville være usannsynlige hvis det virkelig ikke var noen effekt. Nå kan vi legge til at jo lavere P-verdien er (under signifikansterskelen), jo mer sikre kan vi være på at en effekt er signifikant.
Er du med så langt?
Greit da. Advarsel: vi kommer til å bli nerdete. Eller, mer nerdete. Du kan hoppe over denne delen med mindre du elsker P-verdier!
Fortsatt med oss? Greit, da — la oss sette i gang. Som vi har sett, kjører forskere statistiske analyser på resultatene av studien deres (vanligvis én analyse per endepunkt) for å bestemme om intervensjonen hadde en effekt eller ikke. De tar vanligvis denne beslutningen basert på P-verdien av resultatene, som forteller deg hvor sannsynlig et resultat minst like stort som det som ble observert ville være hvis nullhypotesen, blant andre forutsetninger, var sann.
Åh, fagspråk! Ikke få panikk, vi vil forklare og illustrere disse begrepene.
I hvert eksperiment er det generelt to motstridende uttalelser: nullhypotesen og den alternative hypotesen. La oss forestille oss en fiktiv studie som tester vekttapstilskuddet «Vita Fit» mot en placebo. De to motstridende uttalelsene ville se slik ut:
• Nullhypotese: sammenlignet med placebo, øker eller reduserer ikke Vita Fit vekten. (Hypotesen er at tilskuddets effekt på vekten er null.)
• Alternativ hypotese: sammenlignet med placebo, øker eller reduserer Vita Fit vekten. (Hypotesen er at tilskuddet har en effekt, positiv eller negativ, på vekten.)
Formålet er å se om effekten (her, på vekt) av intervensjonen (her, et tilskudd kalt «Vita Fit») er bedre, dårligere eller den samme som effekten av kontrollen (her, en placebo, men noen ganger er kontrollen en annen, godt studert intervensjon; for eksempel kan en ny medisin bli studert mot et referanselegemiddel).
Til dette formålet setter forskerne vanligvis en terskel for signifikans (α) før forsøket. Hvis, ved slutten av forsøket, P-verdien (p) fra resultatene er mindre enn eller lik denne terskelen (p ≤ α), er det en signifikant forskjell mellom effektene av de to behandlingene som ble studert. (Husk at, i denne sammenhengen, betyr signifikant statistisk signifikant.)
Det mest brukte signifikansnivået er 5% (α = 0,05). Det betyr at hvis nullhypotesen (dvs. ideen om at det ikke var noen forskjell mellom behandlingene) er sann, så vil forskerne, etter å ha gjentatt eksperimentet et uendelig antall ganger, få en falsk positiv (dvs. oppdage en signifikant effekt der det ikke er noen) høyst 5% av gangene (p ≤ 0,05). Vanligvis er P-verdien et mål på konsistens mellom resultatene av studien og ideen om at de to behandlingene har samme effekt. La oss se hvordan dette ville spille seg ut i vår bedre vekttap forsøk, der en av behandlingene er et tilskudd og den andre en placebo:
• Scenario 1: P-verdien er 0,80 (p = 0,80). Resultatene er mer konsistente med nullhypotesen (dvs. ideen om at det ikke er noen forskjell mellom de to behandlingene). Vi konkluderer med at Vita Fit ikke hadde noen signifikant effekt på vekttap sammenlignet med placebo.
• Scenario 2: P-verdien er 0,01 (p = 0,01). Resultatene er mer konsistente med alternativhypotesen (dvs. ideen om at det er en forskjell mellom de to behandlingene). Vi konkluderer med at Vita Fit hadde en signifikant effekt på vekttap sammenlignet med placebo.
Selv om p = 0,01 er et signifikant resultat, er også p = 0,000001 det. Så hvilken informasjon gir oss mindre P-verdier? De gir oss større tillit til funnene. I vårt eksempel vil en P-verdi på 0,000001 gi oss større tillit til at Vita Fit hadde en betydelig effekt på vektendring.
Husk at en signifikant effekt ikke nødvendigvis er klinisk relevant. La oss si at vi fant et signifikant resultat på p = 0,01 som viser at Vita Fit forbedrer vekttap. Fellen: Vita Fit produserte bare 0,2 kg mer vekttap sammenlignet med placebo etter ett år – en forskjell som er for liten til å ha noen meningsfull effekt på helsen. I dette tilfellet, selv om resultatet er statistisk signifikant, er den virkelige effekten for liten til å rettferdiggjøre bruk av dette tilskuddet. (Dette scenariet er mer sannsynlig å skje når studien er stor, fordi, som vi så, jo større prøvestørrelsen i en studie er, jo større er evnen til å finne ut om små effekter er signifikante.)
Til slutt bør vi nevne at, selv om det mest brukte signifikansnivået er 5% (p ≤ 0,05), krever noen studier større sikkerhet. For eksempel, for genetiske epidemiologer å erklære at en genetisk assosiasjon er statistisk signifikant (for eksempel å erklære at et gen er assosiert med vektøkning), er signifikansgrensen vanligvis satt til 0,0000005% (p ≤ 0,000000005), som tilsvarer å få alle hoder på 28 myntkast. Sannsynligheten for at dette skjer er 0,00000003%.
Til slutt, husk at selv om P-verdier er viktige, er de ikke den endelige avgjørelsen om en studiekonklusjon er nøyaktig.
Vi så at forskere som er for ivrige etter å finne en effekt i studien sin, kan ty til «fisking» (også kalt p-hacking, signifikansjakt, selektiv inferens, «data dredging», kirsebærplukking og data-tortur». De kan også prøve å senke P-verdier på forskjellige måter: for eksempel kan de kjøre forskjellige analyser på samme data og bare rapportere de signifikante P-verdiene, eller de kan rekruttere flere og flere deltakere til de får et statistisk signifikant resultat. Disse dårlige vitenskapelige praksisene er kjent som «p-hacking» eller «selektiv inferens». (Du kan mer om forskningsetikk her.)
Mens en studie statistisk analyse vanligvis tar hensyn til variablene forskerne prøvde å kontrollere for, kan P-verdier også bli påvirket (med vilje eller ikke) av studie design, skjulte forvirrende faktorer, typer statistiske tester som brukes, og mye, mye mer. Når du vurderer styrken i en studie design, forestill deg selv i forskerens sko og vurder hvordan du kunne torturere en studie for å få den til å si det du ønsker og fremme karrieren din i prosessen.
For å konkludere, diskuterer forskere det primære utfallet, eller det de var mest interessert i å undersøke, i en seksjon som vanligvis kalles «Resultater» eller «Resultater og diskusjon». Det kan være fristende å hoppe rett til denne delen etter å ha lest sammendraget, men det fører ofte til feiltolkning og spredning av feilinformasjon. Les aldri resultatene uten å først lese «Metoder»-delen; å vite hvordan forskerne kom fram til en konklusjon er like viktig som selve konklusjonen.
En av de første tingene å se etter i «Resultater»-delen er en sammenligning av egenskaper mellom de testede gruppene. Store forskjeller i grunne egenskaper etter randomisering kan bety at de to gruppene ikke er virkelig sammenlignbare. Disse forskjellene kan være et resultat av tilfeldigheter eller at randomiseringsmetoden blir brukt feil.
Forskere må også rapportere frafall og etterlevelsesgrad. Livet kommer ofte i veien for vitenskapen, så nesten alle forsøk har sin andel av deltakere som ikke fullførte forsøket eller ikke fulgte instruksjonene. Dette gjelder spesielt for forsøk som er lange eller begrensende (for eksempel kostholdsstudier). Likevel bør en for stor andel frafall eller ikke-etterlevende deltakere vekke oppsikt, spesielt hvis en gruppe har en mye høyere frafallsrate enn de andre.
Forskere bruker spørreskjemaer, blodprøver og andre metoder for å samle data, som alle kan vises gjennom diagrammer og grafer. Sørg for å sjekke på den vertikale aksen (y-aksen) skalaen resultatene er representert på; det som først kan se ut som en stor endring, kan faktisk være veldig liten.
I vårt Vita Fit vekttap forsøk, produserte tilskuddet bare 0,2 kg mer vekttap sammenlignet med placebo etter ett år. Ved å endre y-aksen, kan vi imidlertid gjøre dette svake resultatet mye mer imponerende:
«Resultater»-delen kan også inkludere en sekundær analyse, som en undergruppeanalyse eller en sensitivitetsanalyse.
Undergruppeanalyse
Som vi så på slutten av vår «Forvekslingsfaktorer»-del, består den i å utføre analysen på nytt, men bare på et delsett av deltakerne. For eksempel, hvis forsøket ditt inkluderte både menn og kvinner i alle aldre, kunne du utføre analysen din bare på «kvinnelige» data eller bare på «over 65»-dataene for å se om du får et annet resultat.
Sensitivitetsanalyse
Du vil kanskje sjekke om resultatene forblir de samme når du utfører en annen analyse eller når, som i en undergruppeanalyse, du utelukker noe av dataene (du kan for eksempel, i en meta-analyse, fjerne en studie og kjøre meta-analysen på nytt).
Som vi så i «Demografi»-delen, avhenger påliteligheten til en studie av prøvestørrelsen. Hvis du ekskluderer noen av deltakerne fra analysen, reduseres prøvestørrelsen, og risikoen for falske positive kan øke. Det betyr også at hvis du leker nok med dataene, kan du til slutt få et positivt resultat.
La oss lage et ekstremt eksempel: La oss si at en forsker blir betalt for å bevise at «Vita Fit» fungerer. Han testet Vita Fit på 20 deltakere av begge kjønn, med alder som varierte fra 21 til 87. Dessverre, av de 19 deltakerne, var det bare én som gikk ned i vekt. Det skjedde med en kvinne på 65 år. Forskeren kunne bestemme seg for å utføre en undergruppeanalyse som utelukker alle menn og alle personer som ikke er 65 år gamle. Han kan deretter konkludere med at «Vita Fit» er effektivt for kvinner på 65 år.
Noen ganger er konklusjonen delt mellom «Resultater» og «Diskusjon».
I «Diskusjon»-delen utdyper forfatterne verdien av arbeidet deres. De kan også klargjøre tolkningen av resultatene eller foreslå en virkningsmekanisme (dvs. biokjemien som ligger til grunn for effekten). Ofte vil de sammenligne studien sin med tidligere studier og foreslå nye eksperimenter som kan utføres basert på resultatene fra studien deres. Det er kritisk viktig å huske at en enkelt studie bare er en del av et større puslespill. Hvor passer denne inn i helheten av bevis på dette emnet?
Forskerne bør legge frem hva styrkene og svakhetene ved studien deres var. Undersøk disse kritisk. Gjorde forfatterne en god jobb med å dekke begge deler? Unnlot de en kritisk begrensning? Du trenger ikke å ta rapporteringen deres for god fisk. Analyser den.
Som introduksjonen gir konklusjonen verdifull sammenheng og innsikt. Hvis det høres ut som forskerne generaliserer til demografiske grupper utenfor studiens omfang, eller overdriver resultatene, ikke nøl med å lese studien igjen (spesielt «Metoder»-delen).
Interessekonflikter, hvis de eksisterer, blir vanligvis oppgitt etter konklusjonen. Interessekonflikter kan oppstå når personer som utformer, utfører eller analyserer forskning har et motiv for å finne bestemte resultater. Den mest åpenbare kilden til en interessekonflikt er økonomisk – når studien er sponset av et selskap, for eksempel, eller når en av forfatterne jobber for et selskap som vil tjene på at studien støtter en viss effekt.
Dessverre antydet en studie at manglende opplysning om interessekonflikter er relativt vanlig. I tillegg kan det som anses som en Interessekonflikt av en tidsskrift, ikke være det av et annet, og noen tidsskrifter kan selv ha Interessekonflikter, men de trenger ikke å opplyse om dem. Et tidsskrift fra et land som eksporterer mye av en viss urt, for eksempel, kan ha skjulte insentiver til å publisere studier som støtter fordelene med den urten – så det er ikke fordi en studie handler om en urt generelt og ikke et spesifikt produkt at du kan anta at det ikke er noen Interessekonflikt.
Interessekonflikter må vurderes nøye. Ikke anta automatisk at de ikke eksisterer bare fordi de ikke er oppgitt, men anta heller ikke at de nødvendigvis påvirker resultatene hvis de eksisterer.
Som vi så i «Demografiske» delen, gjelder resultatene av en studie sjelden for alle. For eksempel ble de første studiene om glutamin utført på brannskadde personer, som har mangel på denne aminosyren på grunn av skadene deres. Senere studier viste at personer som ikke har mangel på glutamin, ikke ville oppleve de samme fordelene som brannskadde ofre.
Å bevisst velge en viss demografi gir mening for forskere som leter etter en måte å hjelpe en spesifikk type pasient, men det kan også være en strategi for å fremme visse resultater. Derfor er det ikke uvanlig at nye «fettforbrennere» støttes av studier som bare rekrutterte overvektige postmenopausale kvinner. Når denne typen informasjon utelates fra sammendraget og journalistene hopper over «Metoder»-delen (eller til og med hele artikkelen), blir folk ført bak lyset.
Anta aldri at media har lest hele studien. En undersøkelse som vurderer kvaliteten på bevisene for kostholdsråd gitt i britiske nasjonale aviser fant at mellom 69% og 72% av helsepåstander var basert på mangelfulle eller utilstrekkelige bevis. For å møte frister er overarbeidede journalister ofte avhengige av pressemeldinger om studiene, som ofte ikke klarer å oppsummere studienes funn på en nøyaktig måte. Til slutt er det ingen erstatning for å vurdere studien selv, så når du er i tvil, les «Metoder»-delen på nytt for å bedre vurdere styrkene og potensielle begrensningene.
Å gå gjennom og vurdere bare én artikkel kan være mye arbeid. Faktisk flere timer. Å kjenne til grunnleggende prinsipper for studievurdering er viktig, men vi forstår også at folk har liv å leve. Ingen enkeltperson har tid til å lese alle de nye studiene som kommer ut, og visse studier kan dra nytte av å bli lest av fagfolk med forskjellige ekspertiseområder. Med grader innen folkehelse, idrettsvitenskap, kinesiologi, ernæring, farmakologi, toksikologi, mikrobiologi, molekylær biofysikk, biomedisinsk vitenskap, nevrovitenskap, kjemi og mer, er medlemmene av teamet til Examine.com (der vi henter informasjonen til forskningsbasert.no) alle akkrediterte eksperter, men med svært forskjellige bakgrunner. På denne måten får vi det fulle bildet når vi vurderer forskningen. Videre har vi hvert vårt eget nettverk å kalle på når vi trenger å kontakte de fremste spesialistene innen et gitt felt.
Fagpersoner som livnærer seg på å få pålitelig informasjon, stoler på Examine.com for å holde dem oppdatert om den nyeste ernæringsforskningen; de stoler på dem for å undersøke hver studie med største omhu og rapportere om den klart, kortfattet og nøyaktig. Men selv om du ikke er en helsepersonell, kan du dra nytte av forskningsbasert.nos ekspertise ved å besøke med titalls av gratis artikler om kosttilskudd og helsekategorier som er i stadig vekst og blir oppdatert jevnlig. Velkommen!
Vi har dekket mye i denne veiledningen, så her er en forenklet sjekkliste å ha for hånden neste gang du vil dykke ned i en studie om ernæring.
• Hva er hovedhypotesen? (Hvilket spørsmål prøvde studien å svare på?)
• Beskriver artikkelen tydelig og presist studiens design?
• Hvilken type studie er det?
• Hvor lenge varte studien?
• Hva var de primære og sekundære endepunktene?
• Hvis det er en studie, kan du reprodusere den med informasjonen som er gitt i artikkelen?
• Var studien randomisert? Hvis ja, hvordan?
• Var studien blindet? Hvis ja, var den enkeltblindet, dobbeltblindet eller trippelblindet?
• Hvilke behandlinger ble gitt? (Er det gitt tilstrekkelige detaljer om hva både intervensjons- og kontrollgruppene fikk og ikke fikk?)
• Hvilken demografi ble studert?
• Hva er utvalgsstørrelsen? (Hvor mange deltakere ble rekruttert?)
• Er inkluderings- og ekskluderingskriteriene tydelig angitt?
• Hvordan ble deltakerne rekruttert?
• Hva viste analysen?
• Hvor mange avbrudd var det i hver gruppe?
• Var resultatene statistisk signifikante?
• Er resultatene anvendelige i den virkelige verden?
• Var resultatene klinisk relevante?
• Basert på demografien som ble studert, hvem kan resultatene gjelde for?
• Var dosene realistiske?
• Var det noen bivirkninger eller uønskede hendelser?
• Hvis ja, hvor alvorlige var de?
• Hvis ja, hvor ofte oppstod de?
• Hva var kildene til potensiell skjevhet?
• Var det veldig ulike avbrudd mellom gruppene? Hvis ja, hvorfor?
• Fulgte intervensjonsgruppen faktisk intervensjonen?
• Var studien forhåndsregistrert, for å forhindre «data dredging»?
• Hva var interessekonfliktene, om noen?
Mange studier er av dårlig kvalitet
Vær oppmerksom på feil i studien
Pass på at P-verdiene ikke har blitt tuklet med
Pass på å få med deg alt fra P-verdier til interessekonflikter
Forskere kan tukle med P-verdiene, så dobbeltsjekk dette
Dette er viktig for å støtte under studiens kredibilitet
Det er mange røvertidsskrifter med økonomiske insentiver