Proefdierkunde 3: Poweranalyse. Prof. Kurt Barbé Biostatistiek en medische informatica (BISI)

Proefdierkunde 3: Poweranalyse Prof. Kurt Barbé Biostatistiek en medische informatica (BISI)

Quotes over statistiek Any experiment needs statistics but if your experiment needs a statistician, you ought to design your experiment far better Ernest Rutherford (fysicus) Data do not speak for themselves, they need context and sceptical evaluation through statistics Allen Wilcox (epidemioloog) If you torture data enough, nature will confess any hypothesis regardless of its truth Ronald Coase (Nobelprijswinnaar Economie) Alles start met een goed experiment en correct gebruik van statistiek. Statistiek is geen oracle waarbij rommel data omgevormd wordt tot kwaliteitsvolle conclusies.

Doelstelling van dit onderdeel 1. Een poweranalyse opstellen gegeven een bepaald experiment: hoe starten we? 2. Inzicht in de rekentechniciteit van poweranalyse: hoe werkt het? 3. Gpower software een handige tool: hoe voeren we dit uit?

Inleidend voorbeeld Radiotherapie wordt getoetst voor de bestrijding van een type tumor in een dierproef: 2 groepen: behandelingsgroep versus placebogroep Experiment: In een periode van 20 dagen wordt een tumor geïnduceerd. De ene groep krijgt radiotherapie om de tumorgroei te bestrijden terwijl in de placebogroep geen behandeling wordt toegepast. Na 20 dagen wordt de tumorgrootte gemeten indien de tumor de grootte van 1500 mm3 niet bereikte, indien de grootte 1500 mm3 wordt het dier geëuthanaseerd. Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd. Analyse: ongepaarde t-toets

Inleidend voorbeeld Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1134 mm3) met standaarddeviatie = 160 mm3. Steekproefgrootte: 4, 7 en 15 dieren per groep.

Inleidend voorbeeld Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1134 mm3) met standaarddeviatie = 160 mm3. Steekproefgrootte: 7 en 15 dieren per groep. Betrouwbaarheidsintervallen snijden en de groepsgemiddelden liggen in elkaars interval Geen te verwachten effect met p-waarde groter dan 0.05.

Inleidend voorbeeld Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1134 mm3) met standaarddeviatie = 160 mm3. Steekproefgrootte: 7 en 15 dieren per groep. De eenzijdige p-waarde is gelijk aan: 0.083 GEEN significante werking van de therapie

Inleidend voorbeeld Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1134 mm3) met standaarddeviatie = 160 mm3. Steekproefgrootte: 7 en 15 dieren per groep. Betrouwbaarheidsintervallen snijden MAAR de groepsgemiddelden liggen NIET in elkaars interval Te verwachten zwak effect met p-waarde tussen 0.01 en 0.05.

Inleidend voorbeeld Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1134 mm3) met standaarddeviatie = 160 mm3. Steekproefgrootte: 7 en 15 dieren per groep. De eenzijdige p-waarde is gelijk aan: 0.02 Significante werking van de therapie

Inleidend voorbeeld: Analyse Beide conclusies kunnen niet samen correct zijn. Er is volgens de data weinig verschil behalve de steekproefgrootte. Het gemiddelde en standaarddeviaties zijn voor beide groepen en voor beide steekproefgroottes precies gelijk. In één van beiden wordt een statistische fout gemaakt zij het een type-i fout of type-ii fout.

Inleidend voorbeeld: Analyse Beide conclusies kunnen niet samen correct zijn. Er is volgens de data weinig verschil behalve de steekproefgrootte. Het gemiddelde en standaarddeviaties zijn voor beide groepen en voor beide steekproefgroottes precies gelijk. In één van beiden wordt een statistische fout gemaakt zij het een type-i fout of type-ii fout. Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd. Geobserveerde reductie in tumorgroei:. Dit levert slechts een reductie op van 10% zodat deze reductie niet klinisch relevant is wat geen significantie hoort op te leveren.

Inleidend voorbeeld: Analyse Beide conclusies kunnen niet samen correct zijn. Er is volgens de data weinig verschil behalve de steekproefgrootte. Het gemiddelde en standaarddeviaties zijn voor beide groepen en voor beide steekproefgroottes precies gelijk. In één van beiden wordt een statistische fout gemaakt zij het een type-i fout of type-ii fout. Correcte analyse Type I-fout Indien een type-i fout geïnduceerd wordt door een te hoge steekproefgrootte dan heten we het experiment overpowered.

Definitie 1 Een experiment heet overpowered indien de steekproefgrootte te hoog is zodat de toets te kleine verschillen (kleiner dan bepaald door de onderzoekshypothese) tussen de groepen als significant verklaart die klinisch irrelevant zijn. In dat geval impliceert de te hoge power een type-i fout. Een experiment heet underpowered indien de steekproefgrootte te laag is zodat de toets niet in staat het verschil (bepaald door de onderzoekshypothese) tussen de groepen als significant te verklaren terwijl het verschil klinisch relevant is. In dat geval impliceert de te lage power een type-ii fout.

Definitie 1 Een experiment heet overpowered indien de steekproefgrootte te hoog is zodat de toets te kleine verschillen (kleiner dan bepaald door de onderzoekshypothese) tussen de groepen als significant verklaart die klinisch irrelevant zijn. In dat geval impliceert de te hoge power een type-i fout. Een experiment heet underpowered indien de steekproefgrootte te laag is zodat de toets niet in staat het verschil (bepaald door de onderzoekshypothese) tussen de groepen als significant te verklaren terwijl het verschil klinisch relevant is. In dat geval impliceert de te lage power een type-ii fout. In een volgend voorbeeld gaan we op basis van dezelfde doelstelling een situatie maken die underpowered is.

Voorbeeld: Underpowered Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1008 mm3) met standaarddeviatie = 160 mm3. Steekproefgrootte: 3 en 7 dieren per groep. Betrouwbaarheidsintervallen snijden EN de groepsgemiddelden liggen in elkaars interval We verwachten GEEN effect met p-waarde groter dan 0.05.

Voorbeeld: Underpowered Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1008 mm3) met standaarddeviatie = 160 mm3. Steekproefgrootte: 3 en 7 dieren per groep. De eenzijdige p-waarde is gelijk aan: 0.063 Geen significante werking van de therapie

Voorbeeld: Underpowered Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1008 mm3) met standaarddeviatie = 160 mm3. Steekproefgrootte: 3 en 7 dieren per groep. Betrouwbaarheidsintervallen snijden amper MAAR de groepsgemiddelden liggen NIET in elkaars interval We verwachten een sterk effect met p-waarde rond 0.01.

Voorbeeld: Underpowered Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1008 mm3) met standaarddeviatie = 160 mm3. Steekproefgrootte: 3 en 7 dieren per groep. De eenzijdige p-waarde is gelijk aan: 0.006 Sterk significante werking van de therapie

Voorbeeld underpowered: Analyse Beide conclusies kunnen niet samen correct zijn. Er is volgens de data weinig verschil behalve de steekproefgrootte. Het gemiddelde en standaarddeviaties zijn voor beide groepen en voor beide steekproefgroottes precies gelijk. In één van beiden wordt een statistische fout gemaakt zij het een type-i fout of type-ii fout.

Voorbeeld underpowered: Analyse Beide conclusies kunnen niet samen correct zijn. Er is volgens de data weinig verschil behalve de steekproefgrootte. Het gemiddelde en standaarddeviaties zijn voor beide groepen en voor beide steekproefgroottes precies gelijk. In één van beiden wordt een statistische fout gemaakt zij het een type-i fout of type-ii fout. Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd. Geobserveerde reductie in tumorgroei:. Dit levert de beoogde reductie op van 20% zodat deze reductie klinisch relevant is wat significantie hoort op te leveren.

Voorbeeld underpowered: Analyse Beide conclusies kunnen niet samen correct zijn. Er is volgens de data weinig verschil behalve de steekproefgrootte. Het gemiddelde en standaarddeviaties zijn voor beide groepen en voor beide steekproefgroottes precies gelijk. In één van beiden wordt een statistische fout gemaakt zij het een type-i fout of type-ii fout. Type II-fout Correcte Analyse Indien een type-ii fout geïnduceerd wordt door een te lage steekproefgrootte dan heten we het experiment underpowered.

Poweranalyse: Doelstelling Een poweranalyse berekent de nodige steekproefgrootte opdat klinische relevantie en statistische significantie samenvallen.

Inhoudstafel Een poweranalyse berekent de nodige steekproefgrootte opdat klinische relevantie en statistische significantie samenvallen. 1. Steekproefgroottebepaling t-toetsen 2. Steekproefgroottebepaling f-toetsen 3. Posthoc analyse: Bonferroni 4. Heteroscedasticiteit: Welch-Sattertwaith correctie Aanbevolen software: Gpower

Ongepaarde t-toets: herhaling Beschouw twee groepen met metingen Merk op dat indien ongebalanceerd noemt. men het experiment gebalanceerd noemt versus de situatie dat men

Ongepaarde t-toets: herhaling Beschouw twee groepen met metingen Merk op dat indien ongebalanceerd noemt. men het experiment gebalanceerd noemt versus de situatie dat men In de onderstelling de x-observaties en y-observaties een normale verdeling volgen, toetsen we de hypotheses versus waarvoor we de t-toets gebruiken: Berekende gemiddelde uit data Berekende variantie uit data

Ongepaarde t-toets: herhaling Indien de data een normale verdeling volgt dan is de verdeling van T indien de nulhypothese geldt ook bij benadering een normale verdeling. Doelstelling: Bewijskracht voor dit alternatief indien p of T p-waarde: De kans dat bij herhaling van het experiment nog extremere bewijskracht voor het alternatief gevonden wordt, dan de bewijskracht aangeleverd door het huidige experiment. Extra bewijskracht in een ander experiment onwaarschijnlijk dus hoge bewijskracht in het huidige experiment.

Ongepaarde t-toets: herhaling Indien de data een normale verdeling volgt dan is de verdeling van T indien de nulhypothese geldt ook bij benadering een normale verdeling. Doelstelling: Bewijskracht voor dit alternatief indien of p T p-waarde: De kans dat bij herhaling van het experiment nog extremere bewijskracht voor het alternatief gevonden wordt, dan de bewijskracht aangeleverd door het huidige experiment. Extra bewijskracht in een ander experiment onwaarschijnlijk dus hoge bewijskracht in het huidige experiment.

Ongepaarde t-toets: herhaling Indien de data een normale verdeling volgt dan is de verdeling van T indien de nulhypothese geldt ook bij benadering een normale verdeling. Doelstelling: Bewijskracht voor dit alternatief indien of wat impliceert dat p p -T T p-waarde: De kans dat bij herhaling van het experiment nog extremere bewijskracht voor het alternatief gevonden wordt, dan de bewijskracht aangeleverd door het huidige experiment. Extra bewijskracht in een ander experiment onwaarschijnlijk dus hoge bewijskracht in het huidige experiment.

Ongepaarde t-toets: Cohen d-effectgrootte Alles start bij de onderzoekshypothese: Geen hypothese is geen poweranalyse! Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd. Verwachting referentiegroep (kwalitatieve inschatting) De inschatting van de te onderzoeken parameters worden bepaald door een combinatie van: - Ervaring Wetenschappelijke literatuur Peer assessment

Ongepaarde t-toets: Cohen d-effectgrootte Alles start bij de onderzoekshypothese: Geen hypothese is geen poweranalyse! Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd. Hypothese rond standaarddeviatie: De inschatting van de standaarddeviatie wordt steeds wetenschappelijk gestaafd: - Wetenschappelijke literatuur Bereikbepaling (zie case studies) Nooit door ervaring (Bad practice) De steekproefberekening is zeer gevoelig aan wijzigingen in de standaarddeviatie zodat wetenschappelijk referentie absoluut noodzakelijk is

Ongepaarde t-toets: Cohen d-effectgrootte Alles start bij de onderzoekshypothese: Geen hypothese is geen poweranalyse! Cohen d effectgrootte: De toetsstatistiek (van de t-toets) waarbij de hypothetische parameters werden ingevoerd zonder de steekproefgrootte in rekening te brengen. De berekening van de effectgrootte onderstelt gebalanceerde designs (groep zijn even groot) en homoscedasticiteit (zelfde standaarddeviatie over de verschillende groepen) t-toets: Effectgrootte:

Ongepaarde t-toets: Cohen d-effectgrootte Alles start bij de onderzoekshypothese: Geen hypothese is geen poweranalyse! Cohen d effectgrootte: De toetsstatistiek (van de t-toets) waarbij de hypothetische parameters werden ingevoerd zonder de steekproefgrootte in rekening te brengen. De berekening van de effectgrootte onderstelt gebalanceerde designs (groep zijn even groot) en homoscedasticiteit (zelfde standaarddeviatie over de verschillende groepen) t-toets: Voorbeeld: Effectgrootte: met een effectgrootte

Ongepaarde t-toets: effect- en steekproefgrootte? Doelstelling: Significantie indien wat het geval is wanneer

Ongepaarde t-toets: effect- en steekproefgrootte? Doelstelling: Significantie indien wat het geval is wanneer Bijgevolg bekomen we: Deze formule houdt alleen rekening met de significantie of type-i fout. Op dezelfde manier kunnen we ook rekening houden met de type-ii fout of gewenste kracht.

Ongepaarde t-toets: effect- en steekproefgrootte? Doelstelling: Significantie indien wat het geval is wanneer Bijgevolg bekomen we: 0 0.63 1.25 1.88 2.5 0 32 8 4 3 Voor

Ongepaarde t-toets: effect- en steekproefgrootte? Doelstelling: Bijgevolg bekomen we: -T T Een tweezijdige toets kan eenvoudig in de formule worden ingebracht door de significantie te delen door twee.

Steekproefgrootte inleidende voorbeeld Radiotherapie wordt getoetst voor de bestrijding van een type tumor in een dierproef: 2 groepen: behandelingsgroep versus placebogroep Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd. Analyse: Het gewenste alternatief is eenzijdig. We kiezen bijvoorbeeld een power van 80% en een significantie van 5%. Een power van 90% impliceert

Steekproefgrootte: gpower Gpower is een gratis en academisch gevalideerde software om een poweranalyse uit te voeren. Andere website die een poweranalyse uitvoeren bevatten vaak fouten. Formules versus Gpower: Gpower is correcter aangezien de formules benaderend zijn! De formules geven een indicatie maar zijn vaak optimistisch. De reden ertoe is dat de formule geen rekening houdt met de t-verdeling en de normale verdeling als benadering toepassen. Gpower gebruikt ook de formules maar zal in de buurt van diens uitkomst de oplossing aan de hand van de t-verdeling verfijnen tot het gewenste resultaat.

gpower t-toets: inleidend voorbeeld Radiotherapie wordt getoetst voor de bestrijding van een type tumor in een dierproef: 2 groepen: behandelingsgroep versus placebogroep Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd. Ingeven hypothetische parameters gewenst significantie en power Steekproefbepaling en bereikte power In het geval van een ongebalanceerd design

Steekproefgroottebepaling t-toets: voorbeeld 2 Een vaak voorkomende complicatie bij een hartbypass is een postoperatieve long dysfunctie ten gevolge van een substantiële reductie van het aantal grote rode bloedcellen. Patiënten krijgen supplementen foliumzuur om deze reductie tegen te werken. In dit voorbeeld wensen we de efficiëntie van supplementen foliumzuur te evalueren tegen een dieet rijk aan foliumzuur. De foliumzuur concentratie (μg) in de groep die foliumzuur supplementen en de groep die een verrijkt dieet wordt geëvalueerd.

Steekproefgroottebepaling t-toets: voorbeeld 2 Een vaak voorkomende complicatie bij een hartbypass is een postoperatieve long dysfunctie ten gevolge van een substantiële reductie van het aantal grote rode bloedcellen. Patiënten krijgen supplementen foliumzuur om deze reductie tegen te werken. In dit voorbeeld wensen we de efficiëntie van supplementen foliumzuur te evalueren tegen een dieet rijk aan foliumzuur. De foliumzuur concentratie (μg) in de groep die foliumzuur supplementen en de groep die een verrijkt dieet wordt geëvalueerd. Onderzoekshypothese: De twee groepen vertonen een verschil van 70 (μg) foliumzuur concentratie. tweezijdig: het teken is onbelangrijk. Onzekerheid: De literatuur beschrijft onzekerheden tussen μg foliumzuur naargelang de bron. Voorlopig nemen we het midden of midrange van de informatie beschikbaar uit de literatuur:

Steekproefgroottebepaling t-toets: voorbeeld 2 Onderzoekshypothese: De twee groepen vertonen een verschil van 70 (μg) foliumzuur concentratie. tweezijdig: het teken is onbelangrijk. Onzekerheid: De literatuur beschrijft onzekerheden tussen μg foliumzuur naargelang de bron. Voorlopig nemen we het midden of midrange van de informatie beschikbaar uit de literatuur: De effectgrootte is: De steekproefgrootte per groep voor een significantie van 95% met een power van 90% wordt:

Steekproefgroottebepaling t-toets: voorbeeld 2 Dezelfde effectgrootte wordt bekomen. Gpower maakt opnieuw gebruik van de t-verdeling in plaats van de normale verdeling en komt tot een correctere bepaling van de steekproef zodat in plaats van 10 dieren per groep, 11 dieren per groep wordt geadviseerd.

Steekproefgroottebepaling t-toets: voorbeeld 3 Glaucoom of groene staar is een oogaandoening waarbij er beschadiging optreedt aan de uitlopers van de oogzenuw leidend tot een beperkter zichtveld. De symptomen zijn een direct gevolg van verhoging van de oogdruk. Normale druk ligt voor 99% van de populatie in het interval [10,21] mmhg. Men wenst te onderzoeken of cafeïne de oogdruk actief reduceert t.o.v. een placebogroep. De onderzoekshypothese stelt dat cafeïne de oogdruk met 15% afneemt. Onderstel dat men de analyse wenst uit te voeren met een betrouwbaarheid van 95% en kracht van 85%.

Steekproefgroottebepaling t-toets: voorbeeld 3 Glaucoom of groene staar is een oogaandoening waarbij er beschadiging optreedt aan de uitlopers van de oogzenuw leidend tot een beperkter zichtveld. De symptomen zijn een direct gevolg van verhoging van de oogdruk. Normale druk ligt voor 99% van de populatie in het interval [10,21] mmhg. Men wenst te onderzoeken of cafeïne de oogdruk actief reduceert t.o.v. een placebogroep. De onderzoekshypothese stelt dat cafeïne de oogdruk met 10% afneemt. Onderstel dat men de analyse wenst uit te voeren met een betrouwbaarheid van 95% en kracht van 85%. Statistische hypotheses: versus Een reductie van 10% kunnen we kwantificeren door te onderstellen dat cafeïne een te verwachten druk impliceert van 15.5 mmhg (midden van het interval van de oogdruk in het gezonde bereik) terwijl zonder cafeïne dit stijgt naar 17.05 mmhg wat een toename weerspiegelt van 10%. Bijgevolg klinische relevantie wordt gezien bij:

Steekproefgroottebepaling t-toets: voorbeeld 3 Statistische hypotheses: versus Een reductie van 10% kunnen we kwantificeren door te onderstellen dat cafeïne een te verwachten druk impliceert van 15.5 mmhg (midden van het interval van de oogdruk in het gezonde bereik) terwijl zonder cafeïne dit stijgt naar 17.05 mmhg wat een toename weerspiegelt van 10%. Bijgevolg klinische relevantie wordt gezien bij: Opgepast: De keuze 15.5 mmhg moet kwalitatief gemotiveerd worden aangezien de keuze waarbij cafeïne een oogdruk oplevert van 21 mmhg (bovengrens van het normale gebied) terwijl zonder cafeïne een druk van 23.1 mmhg ook een toename weerspiegelt van 10%. Echter stelt men op dat moment dat relevantie wordt bepaald door: Statistisch effect is absoluut en niet relatief

Steekproefgroottebepaling t-toets: voorbeeld 3 Onderstel dat er geen informatie beschikbaar is in de literatuur wat de standaarddeviatie betreft, kunnen we gebruik maken van het interval waarin de oogdruk verwacht wordt. Het interval [10,21] mmhg wordt gesteld het 99% interval te weerspiegelen. Indien de aanname gemaakt wordt dat de oogdruk een normale verdeling volgt, beschrijft het 99% interval ongeveer 6 standaarddeviaties aangezien: Dit leidt op basis van een gegeven interval tot volgende inschatting van de standaarddeviatie: Expertenkennis laat vaak toe om een bereik te specifiëren terwijl het abstracter is om een standaarddeviatie in te schatten. Deze redenering laat toe om een bereik om te vormen tot een standaarddeviatie.

Steekproefgroottebepaling t-toets: voorbeeld 3 De effectgrootte wordt nu berekend voor met. De effectgrootte is. Bij een betrouwbaarheid van 95% en power van 85% impliceert dit een steekproefgrootte per groep van:

Steekproefgroottebepaling t-toets: voorbeeld 3 De effectgrootte wordt nu berekend voor met. De effectgrootte is. Bij een betrouwbaarheid van 95% en power van 85% impliceert dit een steekproefgrootte per groep met behulp van gpower van:

One-Way variantie-analyse (ANOVA): herhaling Beschouw K groepen in plaats van 2 waarbij de doelstelling is om 1 paar te onderscheiden zodat dat paar als significant verschillend wordt bestempeld. Data: Groep 2 Voorlaatste punt van groep 2 voorlaatste punten per groep Hypothese: Opmerking: ANOVA zoomt in op het sterkste verschil

One-Way variantie-analyse (ANOVA): herhaling Beschouw K groepen in plaats van 2 waarbij de doelstelling is om 1 paar te onderscheiden zodat dat paar als significant verschillend wordt bestempeld. Data: Aanname power analyse: - Hypothese: gebalanceerd design: Homoscedasticiteit: alle groepen leveren data uit een normale verdeling aan met mogelijk andere gemiddelden maar gelijke standaarddeviaties

One-Way variantie-analyse (ANOVA): herhaling Beschouw K groepen in plaats van 2 waarbij de doelstelling is om 1 paar te onderscheiden zodat dat paar als significant verschillend wordt bestempeld. Data: Aanname power analyse: - Hypothese: Toetsstatistiek (onder aannames): Globaal gemiddelde: gebalanceerd design: Homoscedasticiteit: alle groepen leveren data uit een normale verdeling aan met mogelijk andere gemiddelden maar gelijke standaarddeviaties

One-Way variantie-analyse (ANOVA): Cohen f-effectgrootte Beschouw K groepen in plaats van 2 waarbij de doelstelling is om 1 paar te onderscheiden zodat dat paar als significant verschillend wordt bestempeld. Data: Toetsstatistiek (onder aannames): Cohen f-effectgrootte in het kwadraat

One-Way variantie-analyse (ANOVA): Steekproefgrootte Beschouw K groepen in plaats van 2 waarbij de doelstelling is om 1 paar te onderscheiden zodat dat paar als significant verschillend wordt bestempeld. Data: Effectgrootte: Benaderende formule:

Steekproefgroottebepaling ANOVA: voorbeeld 1 Voor de revalidatie van patiënten na een zwaar verkeersongeval wordt de effectiviteit van 3 oefeningenreeksen bestudeerd gedurende kinesithereapiesessies. Alle patiënten volgen één van de 3 reeksen gedurende 1 maand nadat men de motoriek meet aan de hand van een vragenlijst. De bewegingsscore is een percentage op een schaal van 100: 0 (verlamd) versus 100 (perfect mobiel).

Steekproefgroottebepaling ANOVA: voorbeeld 1 Voor de revalidatie van patiënten na een zwaar verkeersongeval wordt de effectiviteit van 3 oefeningenreeksen bestudeerd gedurende kinesithereapiesessies. Alle patiënten volgen één van de 3 reeksen gedurende 1 maand nadat men de motoriek meet aan de hand van een vragenlijst. De bewegingsscore is een percentage op een schaal van 100: 0 (verlamd) versus 100 (perfect mobiel). De onderzoekshypothese stelt dat de score als een functie van de oefeningenreeksen volgende verwacht inhoudt: De standaarddeviatie (over verschillende patiënten) blijkt uit de literatuur:

Steekproefgroottebepaling ANOVA: voorbeeld 1 Voor de revalidatie van patiënten na een zwaar verkeersongeval wordt de effectiviteit van 3 oefeningenreeksen bestudeerd gedurende kinesithereapiesessies. Alle patiënten volgen één van de 3 reeksen gedurende 1 maand nadat men de motoriek meet aan de hand van een vragenlijst. De bewegingsscore is een percentage op een schaal van 100: 0 (verlamd) versus 100 (perfect mobiel). De onderzoekshypothese stelt dat de score als een functie van de oefeningenreeksen volgende verwacht inhoudt: De standaarddeviatie (over verschillende patiënten) blijkt uit de literatuur: De effectgrootte f-cohen is: De steekproefgrootte per groep wordt: betrouwbaarheid: 95%, power=80%

Steekproefgroottebepaling ANOVA: voorbeeld 1 Gpower analysis: Totale steekproefgrootte Power bereikt OVERPOWERED! Dringt balanced design op

Steekproefgroottebepaling ANOVA: voorbeeld 1 Gpower analysis: Totale steekproefgrootte Power bereikt OVERPOWERED! Dringt balanced design op We verlagen de steekproefgrootte tot de power naar 80% streeft

Steekproefgroottebepaling ANOVA: voorbeeld 1 Gpower analysis: Totale steekproefgrootte Power bereikt De power ligt dicht bij 80% maar de steekproefgrootte 7 is niet deelbaar door 3 We verlagen de steekproefgrootte tot de power naar 80% streeft

Steekproefgroottebepaling ANOVA: voorbeeld 2 6 type slaapmedicatie wordt getoetst waarbij 3 merken behoren tot slaapmedicatie die helpen om de slaap te vatten terwijl 3 andere merken bedoeld zijn om een langere nachtrust te bekomen.

Steekproefgroottebepaling ANOVA: voorbeeld 2 6 type slaapmedicatie wordt getoetst waarbij 3 merken behoren tot slaapmedicatie die helpen om de slaap te vatten terwijl 3 andere merken bedoeld zijn om een langere nachtrust te bekomen. De hypothetische gemiddelden per groep zijn: 6.193, 6.961, 5.834, 6.7538, 7.1758, 6.5993 uur per nacht. Een inschatting van de standaarddeviatie: Typische nachtrust heeft een bereik tussen [6,12] uur wat aanleiding geeft tot s=6/6=1 uur. Cohen f-effectgrootte wordt: De steekproefgrootte per groep wordt voor een power van 90% met betrouwbaarheid 95%:

Steekproefgroottebepaling ANOVA: voorbeeld 2 Gpower: Onbelangrijk De steekproefgrootte geeft een totaal van 90 of 15 per groep wat een power aangeeft van 91.68%

Post-hoc analyse: Bonferroni correctie Post-hoc analyse versus variantieanalyse: - Variantieanalyse detecteert significante verschillen tussen minstens 1 paar Verwachte klinische relevantie tussen meerdere paren

Post-hoc analyse: Bonferroni correctie Post-hoc analyse versus variantieanalyse: - Variantieanalyse detecteert significante verschillen tussen minstens 1 paar Verwachte klinische relevantie tussen meerdere paren Waarom Bonferroni correctie? - Elke keer een paar wordt getoetst maak je een type-i fout. Deze fout neemt toe proportioneel als het aantal te toetsen paren. De Bonferroni correctie is een (overcompensatie) van de type-i fout zodat deze fout beperkt blijft. De Bonferroni correctie is heel eenvoudig in gebruik maar deze drijft de steekproefgrootte soms hoog op waar onnodig. Alternatieven zijn: Dunn correctie, Tuckey correctie,...

Post-hoc analyse: Bonferroni correctie Je bepaalt het aantal paren die je wenst te onderzoeken opdat er significante verschillen gedetecteerd worden. We heten dit aantal M. Je herhaalt de steekproefgroottebepaling maar met een significantie van: Opgepast: Aangezien de steekproefgrootte verhoogt, is het wijs om niet te veel paren te onderzoeken. Beperk het aantal tot die paren die klinisch relevant zijn.

Bonferroni correctie: voorbeeld 1 Voor de revalidatie van patiënten na een zwaar verkeersongeval wordt de effectiviteit van 3 oefeningenreeksen bestudeerd gedurende kinesithereapiesessies. Alle patiënten volgen één van de 3 reeksen gedurende 1 maand nadat men de motoriek meet aan de hand van een vragenlijst. De bewegingsscore is een percentage op een schaal van 100: 0 (verlamd) versus 100 (perfect mobiel). De onderzoekshypothese stelt dat de score als een functie van de oefeningenreeksen volgende verwacht inhoudt: De standaarddeviatie (over verschillende patiënten) blijkt uit de literatuur: Stel dat we onderling de 3 paren op significantie willen toetsen met een betrouwbaarheid van 95% of significantie van 5%. We herhalen de steekproefgrootteberekening met dezelfde effectgrootte maar significantie 5/3%

Bonferroni correctie: voorbeeld 1 De effectgrootte f-cohen blijft onveranderd: De steekproefgrootte per groep wordt: betrouwbaarheid: 98.33%, power=80% Bijgevolg leidt dit niet tot een verhoging van de steekproefgrootte. Het blijft aangewezen om 2 dieren per groep te hanteren of een totaal van 6 dieren.

Bonferroni correctie: voorbeeld 1 Gpower: Adviseert een steekproefgrootte van 3 dieren per groep. Dit aantal is hoger dan aangegeven door de benaderende formule.

Bonferroni correctie: voorbeeld 2 6 type slaapmedicatie wordt getoetst waarbij 3 merken behoren tot slaapmedicatie die helpen om de slaap te vatten terwijl 3 andere merken bedoeld zijn om een langere nachtrust te bekomen. Onderstel dat alle paren interessant zijn om nader te onderzoeken dan is er een totaal van M=15 paren. De Bonferroni-correctie vraagt het toepassen van een significantie van 0.0033 of een betrouwbaarheid van 99.67%.

Bonferroni correctie: voorbeeld 2 De effectgrootte f-cohen blijft onveranderd: De steekproefgrootte wordt nu per groep: Dit is een toename van 15 naar 22 per groep ten aanzien van de ANOVA.

Bonferroni correctie: voorbeeld 2 Gpower: De steekproefgrootte is in totaal 138 of per groep 23 dieren. Dit is in de lijn van wat de benaderende formule aanlevert.

Heteroscedasticiteit: Welch-Sattertwaith correctie De standaarddeviaties zijn niet dezelfde voor elke groep. Op dat moment is de onzekerheid in sommige groepen groter dan in andere groepen waardoor meer dieren nodig zijn. Men spreekt over efficiëntieverlies ten gevolge van de heteroscedasticiteit. De Welch-Sattertwaith formule berekent het efficiëntieverlies wat een percentage aanlevert met dewelke de steekproef wordt vergroot.

Heteroscedasticiteit: voorbeeld We hernemen het initiële voorbeeld: radiotherapie wordt getoetst voor de bestrijding van een type tumor in een dierproef. 2 groepen: behandelingsgroep versus placebogroep Experiment: In een periode van 20 dagen wordt een tumor geïnduceerd. De ene groep krijgt radiotherapie om de tumorgroei te bestrijden terwijl in de placebogroep geen behandeling wordt toegepast. Na 20 dagen wordt de tumorgrootte gemeten indien de tumor de grootte van 1500 mm3 niet bereikte, indien de grootte 1500 mm3 wordt het dier geëuthanaseerd. Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd.

Heteroscedasticiteit: voorbeeld Hierbij stelden we dat de placebogroep (gemiddelde = 1260 mm3) en behandelingsgroep (gemiddelde = 1008 mm3). Nu gaan we onderstellen dat de respectievelijke standaarddeviaties 160 mm3 en 100 mm3. Stap 1: Steekproefgroottebepaling onder homoscedasticiteit We gaan de standaarddeviatie poolen

Heteroscedasticiteit: voorbeeld Hierbij stelden we dat de placebogroep (gemiddelde = 1260 mm3) en behandelingsgroep (gemiddelde = 1008 mm3). Nu gaan we onderstellen dat de respectievelijke standaarddeviaties 160 mm3 en 100 mm3. Stap 1: Steekproefgroottebepaling onder homoscedasticiteit We gaan de standaarddeviatie poolen Stap 2: Effectgrootte Cohen-d: zodat de steekproefgrootte per groep voor een kracht van 80% en betrouwbaaheid van 95% gelijk wordt aan:

Heteroscedasticiteit: voorbeeld Hierbij stelden we dat de placebogroep (gemiddelde = 1260 mm3) en behandelingsgroep (gemiddelde = 1008 mm3). Nu gaan we onderstellen dat de respectievelijke standaarddeviaties 160 mm3 en 144 mm3. Stap 3: Welch-Sattertwaith correctie Efficiëntieverlies (minstens 1 indien de standaarddeviaties gelijk zijn) We concluderen dat 5 dieren per groep aangewezen lijkt.

Heteroscedasticiteit: voorbeeld Gpower: Eenzelfde conclusie van 5 dieren per groep wordt door Gpower berekend.

Heteroscedasticiteit: One-way ANOVA Gpower kan de heteroscedasticiteit alleen in rekening brengen voor een t-toets. Voor een one-way ANOVA kan het standaard niet. Gelukkig is de Welch-Sattertwaith formule makkelijk uit te breiden naar K groepen. Stap 1: Steekproefgroottebepaling onder homoscedasticiteit Stap 2: Efficiëntieverlies berekenen via de Welch-Sattertwaith formule

Heteroscedasticiteit: one-way ANOVA Voor de revalidatie van patiënten na een zwaar verkeersongeval wordt de effectiviteit van 3 oefeningenreeksen bestudeerd gedurende kinesithereapiesessies. Alle patiënten volgen één van de 3 reeksen gedurende 1 maand nadat men de motoriek meet aan de hand van een vragenlijst. De bewegingsscore is een percentage op een schaal van 100: 0 (verlamd) versus 100 (perfect mobiel). De boxplot laat zien dat de Inter-kwartielafstand en bijgevolg ook de standaarddeviaties ongelijk zijn. Deze zijn respectievelijk: 3.7499, 4.8651 en 2.1111 De onderzoekshypothese stelt dat:

Heteroscedasticiteit: one-way ANOVA 1. Steekproefgroottebepaling onder homoscedasticiteit We maken gebruik van de gepoolde standaarddeviatie: Dit was de gebruikte standaarddeviatie in het eerste voorbeeld voor ANOVA. Dit leidde tot de Cohen f-effect size en steekproefgroottebepaling:

Heteroscedasticiteit: one-way ANOVA 2. Welch-Sattertwaith correctie De steekproef wordt groter met 31.111% In deze specifieke situatie leidt de heteroscedasticiteit niet tot een verhoging van de steekproef per groep. De verschillen in standaarddeviaties is niet voldoende groot opdat een correctie nodig is. Merk op dat in dit specifieke geval men dan mag verwachten dat de Levene s test voor homogeniteit der varianties deze verschillen niet als significant zal bestempelen.

Heteroscedasticiteit: post-hoc tests Welch-Sattertwaith correctie kan ook toegepast worden op de post-hoc tests. Je kan dus de Bonferroni met de Welch-Sattertwaith correctie combineren. In het vorige voorbeeld leidde de Bonferroni correctie tot volgende steekproefgroottebepaling waarbij homoscedasticiteit werd ondersteld:

Heteroscedasticiteit: post-hoc tests Welch-Sattertwaith correctie kan ook toegepast worden op de post-hoc tests. Je kan dus de Bonferroni met de Welch-Sattertwaith correctie combineren. In het vorige voorbeeld leidde de Bonferroni correctie tot volgende steekproefgroottebepaling waarbij homoscedasticiteit werd ondersteld: Rekeninghoudende met de Welch-Sattertwaith correctie voor heteroscedasticiteit impliceert dit: Bijgevolg leidt dat opnieuw niet tot een verhoging van de steekproefgrootte.

Bio-statistiekgroep (BISI) De biostatistiekgroep biedt advies aan, aan onderzoekers op campus Jette (UZ-Brussel + faculteit GF). https://gf.vub.ac.be/statistiek-en-data-analyse.php