Kun je met statistiek werkelijk alles bewijzen?

Vergelijkbare documenten
HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Les 2: Toetsen van één gemiddelde

Beschrijvende statistiek

Dagelijkse dosis visolie verbetert de prestaties van leerlingen bij nationale examens

Niet-Parametrische Statistiek

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Hoofdstuk 3 Statistiek: het toetsen

Wat is een klinische studie?

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Meten en experimenteren

Verschillendedesigns beantwoorden verschillende vragen

8.2. Onderdelen van het klassieke experimentele ontwerp

Methoden van het Wetenschappelijk. Onderzoek. Zin en onzin van statistiek

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

Data analyse Inleiding statistiek

werkcollege 7 - D&P10: Hypothesis testing using a single sample

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

Studie type Populatie Patiënten kenmerken Interventie Controle Dataverzameling

Evidence based richtlijnontwikkeling (EBRO) training voor patiënten. Ton Kuijpers, Epidemioloog

Toetsen van hypothesen

Veiligheid en methodologie of Waarom voortijdig stoppen? Job van der Palen METC Twente

Kansrekening en Statistiek

werkcollege 6 - D&P10: Hypothesis testing using a single sample

Voorwoord... iii Verantwoording... v

Belangrijke concepten & conventies

Remimazolam. S.J.A. van Bilsen

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Kansrekening en Statistiek

Evidence piramide. Gecontroleerde studies. Welk studie type? 19/02/ me ta.eu. Niet dezelfde piramide voor elke vraag. me ta.eu. me ta.

Methoden van het Wetenschappelijk Onderzoek: Deel II Vertaling pagina 83 97

Centrum klinische farmacologie: deelnemen aan een klinische studie

Examen Data Analyse II - Deel 2

Meten en experimenteren

Experimenteel Onderzoek en Experimentele Controle

Literatuuronderzoek. Systematische Review Meta-Analyse. KEMTA Andrea Peeters

1 Basisbegrippen, W / O voor waar/onwaar

President BeCRO organisatie van bedrijven die aktief zijn in het organiseren van klinische studies. Wat is? Medicament geneesmiddel device therapie?

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

Masterclass: statistical analysis 101. Bianca de Greef Sander van Kuijk Afdeling KEMTA

Volkert Siersma. Statistiek in de Deense gezondheidszorg

Omgaan met genomische informatie als wetenschapper

Therapeutisch versus niet-therapeutisch onderzoek bij minderjarige en wilsonbekwame proefpersonen

Deelnemen aan een klinische studie. informatie voor patiënten

Statistiek voor A.I.

Workshop. Dataverzameling. Van onderzoeksvraag naar data

Bij gebrek aan bewijs

DEELNAME AAN EEN KLINISCHE STUDIE

SOCIALE STATISTIEK (deel 2)

Meten en experimenteren

Kansverdelingen Inductieve statistiek met Geogebra 4.2

FYSIOTHERAPIE en het behandelen van patiënten met SCHOUDERKLACHTEN. Januari 2014, blok 3, Gerard Koel.

SURVEILLANCE VAN DE MULTIRESISTENTE STAPHYLOCOCCUS AUREUS (MRSA) IN DE BELGISCHE ZIEKENHUIZEN

Ondersteuningsproject bij de uitvoering van de reemonitoring in het Zoniënwoud

Populaties beschrijven met kansmodellen

Huntexil bij symptomen van de Ziekte van Huntington: Waar zijn we nu?

Gegevensverwerving en verwerking

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke

Les 5: ANOVA. Koen Van den Berge Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 19 november 2018

Examen Statistiek II: Project

Inhoud. Voorwoord prof. dr. P.H. Dejonckere bij de eerste druk 10. Woord vooraf bij de tweede, geheel herziene druk 12

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Voorwoord van Hester van Herk... iii Voorwoord van Foeke van der Zee... iv Verantwoording... vi

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Statistiek voor A.I. College 14. Dinsdag 30 Oktober

Statistiek Voor studenten Bouwkunde College 1

Waarom studies voortijdig stoppen. Job van der Palen METC Twente

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

Beschrijvend statistiek

Modelexamen Statistiek

Klinische studies. Veel meer dan een extra tube

Feedback rapport per huisarts

INHOUDSTAFEL. Inhoudstafel - Lijst van tabellen en figuren Incidentie van nosocomiaal verworven MRSA 5

WAAR JE ZIT IS WAAR JE STAAT

In hoofdstuk 4 hebben we het design van de gerandomiseerde gecontroleeerde studie en de economische evaluatie van HypoBewust beschreven.

Deelname aan een klinische studie informatie voor patiënten

gegevens analyseren Welk onderzoekmodel gebruik je? Quasiexperiment ( 5.5) zonder controle achtergronden

FYSIOTHERAPIE en het behandelen van patiënten met SCHOUDERKLACHTEN. Januari 2015, blok 3, Gerard Koel.

Wereldstemdag, Uden Evidence-based handelen: richtlijnen of niet? 16 april (c) Hanneke Kalf 1. Evidence-based handelen: richtlijnen of niet?

Wereldstemdag, Uden Evidence-based handelen: richtlijnen of niet? 16 april (c) Hanneke Kalf 1. Evidence-based handelen: richtlijnen of niet?

Cognitieve flexibiliteitstaken bij autismespectrumstoornissen:

Les 5: ANOVA. Elke Debrie 1 Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 28 november 2018

Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing

Examen Statistiek I Feedback

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Borstkankerscreening

Methodologie voor sociaalwetenschappelijk onderzoek. Foeke van der Zee

Janneke Horn. Calcium Antagonists in Stroke Wasted experiments on humans and animals

Formulier voor het beoordelen van de kwaliteit van een artikel over een diagnostische test of screeningsinstrument.

Voeding en buikklachten: Van wetenschap tot voedingsadvies. 10 april 2017, Dr Nicole M de Roos

Systematic Reviews Dr. Hester Vermeulen

Exponentiële Functie: Toepassingen

Wetenschappelijk Instituut Volksgezondheid. Verwerking van gecensureerde waarden

BART CAPÉAU (ECARES ULB) LIEVE EEMAN, STEVEN GROENEZ, MIET LAMBERTS (HIVA KULEUVEN)

Methodologie voor onderzoek in zorg, welzijn en hulpverlening. Foeke van der Zee

Kritische reflectie over alternatieve geneeswijzen voor rugpijn

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Deel één Ȃ communicatie over het levenseinde in Europa: een vergelijkend onderzoek.

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Formulier voor het beoordelen van de kwaliteit van een artikel over een interventieonderzoek (bij voorkeur een RCT)

KWALITEITSINDICATOREN VOOR ONCOLOGIE: INVASIEVE BORSTKANKER ( )

Transcriptie:

Kun je met statistiek werkelijk alles bewijzen? Geert Verbeke Biostatistisch Centrum, K.U.Leuven International Institute for Biostatistics and statistical Bioinformatics geert.verbeke@med.kuleuven.be http://perswww.kuleuven.be/geert verbeke 25 februari 2008

INLEIDING Lessen voor de eenentwintigste eeuw 1

Het belang van de statistiek Steeds meer data verzameld, over steeds meer mensen, in steeds meer contexten Inzicht krijgen in de data Statistiek wint aan belang: Opleidingen Vakliteratuur Lessen voor de eenentwintigste eeuw 2

Gebruik en misbruik van de statistiek García-Berthou & Alcaraz (Med. Res. Meth. 2004): Jaargang 2001 van Nature en British Medical Journal 38% en 25% van artikelen bevat een statistische fout 11%: fouten tegen interpretatie 4%: besluit spreekt evidentie tegen Gevolg: Niet ale gepubliceerde resultaten zijn correct Tegenstrijdige en niet-reproduceerbare resultaten Lessen voor de eenentwintigste eeuw 3

Implicatie Met statistiek kun je alles bewijzen Lessen voor de eenentwintigste eeuw 4

Stappen in het verzamelen van evidentie 1. Het experiment en de dataverzameling 2. De statistische analyse 3. De besluitvorming Lessen voor de eenentwintigste eeuw 5

DEEL 1 Het experiment en de dataverzameling Populatie versus steekproef Placebo-gecontroleerde studies Blinde en dubbelblinde experimenten Randomisatie en causaliteit Lessen voor de eenentwintigste eeuw 6

Populatie versus steekproef Aantonen dat een nieuwe behandeling werkt Ideaal: Ganse populatie behandelen Praktisch haalbaar: Een kleine steekproef van patiënten behandelen Lessen voor de eenentwintigste eeuw 7

P O PU L A T IE RANDOM S T EE K PR O EF Lessen voor de eenentwintigste eeuw 8

De steekproef moet een afspiegeling zijn van de populatie en moet dus willekeurig (random) gekozen worden: Vergelijkbare leeftijdsverdeling Vergelijkbare geslachtsverdeling... Een volledig random steekproef samenstellen is vaak zeer moeilijk Lessen voor de eenentwintigste eeuw 9

Placebo-gecontroleerde studies Een geobserveerd effect na behandeling is niet steeds toe te schrijven aan de behandeling: Natuurlijke, gunstige evolutie? Psychologische effecten?... Placebo: Niet actief Zelfde uitzicht, smaak, toediening,... Ethisch niet steeds verantwoord (bvb. standaard behandeling) Lessen voor de eenentwintigste eeuw 10

Blinde en dubbelblinde experimenten Patiënten met standaard therapie kunnen effect over-/onderschatten Patiënten met nieuwe therapie kunnen effect over-/onderschatten Soms is het effect moeilijk objectief te meten Blind: patiënt onwetend Dubbelblind: patiënt en arts onwetend Niet steeds mogelijk (radio- vs. chemotherapie) Lessen voor de eenentwintigste eeuw 11

Randomisatie en causaliteit Een geobserveerd verschil is niet steeds oorzakelijk Wat indien behandelingsgroepen verschillen wat betreft leeftijdsverdeling? geslachtsverdeling?...? Lessen voor de eenentwintigste eeuw 12

Causaliteit kan alleen maar besloten worden indien groepen gelijk zijn voor alle gekende en ongekende karakteristieken Oplossing: Randomisatie: Behandelingen willekeurig toewijzen aan patiënten Randomisatie niet steeds mogelijk (bvb. roken) Lessen voor de eenentwintigste eeuw 13

DEEL 2 De statistische analyse Beschrijvende statistiek Inferentiële statistiek p-waarde en significantie Een statistisch kookboek? Lessen voor de eenentwintigste eeuw 14

Beschrijvende statistiek Lessen voor de eenentwintigste eeuw 15

De geobserveerde gegevens worden samengevat De vorm van statistiek waar het brede publiek mee vertrouwd is: Gemiddelden, percentages,... Grafieken en tabellen Kranten, TV,... Dit laat geen veralgemening naar populatie toe Inferentiële statistiek Lessen voor de eenentwintigste eeuw 16

Inferentiële statistiek Effect van een bloeddrukverlagende behandeling in 15 proefpersonen: Gemiddelde (mm Hg) Voor: 112.3 Nadien: 103.1 Lessen voor de eenentwintigste eeuw 17

Herhaling van het experiment zou leiden tot nieuwe patiënten, en dus tot nieuwe observaties: Groter effect? Kleiner effect? Het geobserveerde effect zou dus toeval kunnen geweest zijn Is het geobserveerde effect voldoende evidentie om te besluiten dat de behandeling effect heeft bij toekomstige patiënten, m.a.w., in de totale populatie? Lessen voor de eenentwintigste eeuw 18

P O PU L A T IE? Effect in totale populatie RANDOM S T EE K PR O EF Effect van 9mmHg in 15 personen Lessen voor de eenentwintigste eeuw 19

p-waarde en significantie Hoe waarschijnlijk is een verschil van 9mmHg in een experiment van 15 personen, indien de behandeling geen effect zou hebben (toeval)? Heel waarschijnlijk = weinig evidentie voor effect Weinig waarschijnlijk = sterke evidentie voor effect Lessen voor de eenentwintigste eeuw 20

De p-waarde is de kans om door toeval een verschil van 9mmHg te observeren In ons voorbeeld is er p = 0.001 = 0.1% kans om door puur toeval een verschil van 9mmHg te observeren. Significantieniveau α: p α = geen significant effect p < α = een significant effect Lessen voor de eenentwintigste eeuw 21

Standaard wordt α = 0.05 = 5% gekozen Een significant effect is dan een effect dat minder dan 5% kans heeft om voor te vallen door puur toeval Lessen voor de eenentwintigste eeuw 22

Een statistisch kookboek? Berekening van p afhankelijk van: Type gegevens Studie opzet Specifieke vraagstelling Modelveronderstellingen... Foute keuzes leiden tot foute resultaten Keuze van correcte techniek vereist kennis en ervaring, en kan dus niet geautomatiseerd worden. Lessen voor de eenentwintigste eeuw 23

DEEL 3 De besluitvorming Evidentie versus bewijs Fouten Significantie versus relevantie Equivalentie Herhaaldelijk testen Lessen voor de eenentwintigste eeuw 24

Evidentie versus bewijs Significantie is geen bewijs van een aanwezig effect Bvb., p < 0.0001 sluit niet uit dat het geobserveerd effect puur toeval is Niet-significantie is geen bewijs van afwezigheid van effect Bvb., p = 0.99 sluit niet uit dat een reëel effect niet gedetecteerd werd Statistiek kwantificeert de evidentie in de observaties voor de aan- of afwezigheid van een effect in de populatie Lessen voor de eenentwintigste eeuw 25

Fouten Geen effect Realiteit Wel effect Test resultaat Geen effect OK Type II fout Wel effect Type I fout OK Type I fout: Onterecht beslissen dat er effect is Type II fout: Onterecht beslissen dat er geen effect is Lessen voor de eenentwintigste eeuw 26

Fouten zijn niet uit te sluiten Fouten kunnen onder controle gehouden worden, alleen door veel data te verzamelen Lessen voor de eenentwintigste eeuw 27

Significantie versus relevantie De kans om een aanwezig effect te missen is klein bij grote studies Een aanwezig effect, hoe klein ook, zal dus vroeg of laat gededecteerd worden, indien de studie voldoende groot is. Bvb., een bloeddrukverlagend produkt, uitgetest op 10000 patiënten kan leiden tot een significant effect (p < 0.0001) van gemiddeld 0.1mmHg Een gemiddelde daling van 0.1mmHg is klinisch niet relevant Statistische significantie Klinische relevantie Lessen voor de eenentwintigste eeuw 28

Equivalentie Soms wil men aantonen dat twee behandelingen even effectief zijn: Minder nevenwerkingen Gemakkelijker toe te dienen Goedkoper... Vaak wordt equivalentie besloten op basis van niet-significantie Klassieke testen zoeken naar evidentie in de data voor aanwezigheid van effecten Lessen voor de eenentwintigste eeuw 29

Men hoopt dan dat, indien er verschillen zijn, men die niet ontdekt, m.a.w. dat een type II fout gemaakt wordt. Dit impliceert dat equivalentie het best zou kunnen aangetoond worden door zo weinig mogelijk gegevens te verzamelen Besluit: Niet-significantie equivalentie Equivalentietesten zijn ontwikkeld om evidentie te zoeken dat effecten voldoende klein zijn, om ze als klinisch verwaarloosbaar te kunnen beschouwen. Lessen voor de eenentwintigste eeuw 30

Voorbeeld: Shatari et al. (Col.Dis. 2004) Lessen voor de eenentwintigste eeuw 31

Geen significanties! Lessen voor de eenentwintigste eeuw 32

Fout! Lessen voor de eenentwintigste eeuw 33

Herhaaldelijk testen Omdat fouten nooit helemaal uitgesloten kunnen worden zullen ze zich vroeg of laat voordoen Bij herhaaldelijk testen wordt dus vroeg of laat een type I gemaakt Implicatie: Hoe meer testen worden uitgevoerd, hoe groter de kans dat iets gevonden wordt wat berust op puur toeval Dit probleem van herhaaldelijk testen komt voor onder verschillende vormen Lessen voor de eenentwintigste eeuw 34

Voorbeeld: Het aula experiment Verdeel het auditorium in twee delen: Links en rechts Test voor verschillen in gewicht, lengte, leeftijd, geslacht, haarkleur, lengte pink, dikte linker grote teen,... Vroeg of laat worden significante verschillen ontdekt, bvb. voor de grootte van de neus Zitten lange neuzen systematisch meer rechts??? Lessen voor de eenentwintigste eeuw 35

Voorbeeld: Krantenartikel Volgende wetenschappelijke bevinding was in Belgische krant te lezen: Er werd verder vermeld dat diegenen die opstaan voor 7u21 significant hogere stress waarden hebben dan diegenen die na 7u21 opstaan Lessen voor de eenentwintigste eeuw 36

Herhaaldelijk testen: Implicaties Significante resultaten bekomen door herhaaldelijk te testen worden overgeïnterpreteerd Indien het aantal testen gerapporteerd wordt, dan kan de lezer het belang van de resultaten inschatten Problematisch indien enkel significante resultaten gerapporteerd worden, zonder vermelding van het aantal testen Dit leidt tot resultaten die niet reproduceerbaar zijn Lessen voor de eenentwintigste eeuw 37

Bvb., een nieuw aula experiment zou geen evidentie meer bieden voor een verschil in neuslengte, maar misschien wel voor een verschil in...? Bvb., een nieuw slaap experiment toont misschien geen relatie tussen stress en moment van ontwaken, of misschien vindt men enkel significantie indien men ontwaakt voor...? Waren gerapporteerde effecten a priori te verwachten? Hoe aanneembaar is het dat het experiment werd opgezet om dit specifiek effect te bestuderen? Lessen voor de eenentwintigste eeuw 38

BESLUIT Lessen voor de eenentwintigste eeuw 39

Met statistiek kun je alles bewijzen Statistiek kwantificeert enkel evidentie gevonden in de data Geen formeel bewijs Resultaten mogelijks sterk afhankelijk van assumpties Zelfs met correcte statistiek kun je niets bewijzen Lessen voor de eenentwintigste eeuw 40

The End! Lessen voor de eenentwintigste eeuw 41