M, M & C 7.3 Optional Topics in Comparing Distributions: F-toets 6.4 Power & Inference as a Decision 7.1 The power of the t-test 7.3 The power of the sample t- Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen test Jacob Cohen (193-1998) Introduceerde Power en Effect Size in de psychologie Statistical Power Analysis for the Behavioral Sciences (nd Ed. 1988) Cohen's κ (interrater reliability) 1
Voorbeeld: vergelijking van varianties In een experiment wordt de reactie van kinderen op stress tijdens een leestoets, onderzocht. Idee: sommige kinderen presteren beter onder stress, anderen juist minder. stress controle inhoudelijke vraag: 30 45 worden de verschillen tussen kinderen groter 40 48 in een stress situatie (t.o.v. controle)? 47 49 gemeten: score op leestoets 50 50 statistische hypothese? 53 51 60 5 70 55 x 50.0 50.0 s 169.7 1.0 n 7 7 30 40 50 60 70 1
F-toets: gelijkheid / homogeniteit van varianties We verwachten in één groep grotere verschillen dan in een andere. We vertalen dit als: steekproeven, één van grootte n 1 uit N(µ 1, σ 1 ) en één van grootte n uit N(µ, σ ). De statistische hypothesen zijn: H 0 : σ 1 = σ H a : σ 1 σ of H a : σ 1 > σ Deze hypothesen kunnen we toetsen met de toetsstatistiek s F = met df = n s 1 1 en n 1. 1 Voor opzoeken van overschrijdingskansen in tabel nemen we de grootste als s 1, en de kleinste als s,, zodat altijd F > 1 is. F is een ratio, omdat een ratio niet afhangt van de meet-eenheden. De steekproevenverdeling van F heet de F-verdeling (F van Fisher). 3
Verdeling van ratio van geschatte varianties: de F-verdeling F is altijd positief F-verdeling is scheef naar rechts piek ligt in de buurt van 1 0 1 3 4 5 6 heeft vrijheidsgraden voor (teller, noemer): voor iedere combinatie ziet de verdeling er anders uit Dichtheidscurve voor F(9, 10) verdeling. NB. Voor een -zijdige F toets waarbij we op α-niveau willen toetsen moeten we de kritische waarde F* opzoeken bij α/ (of, als we een P-waarde hebben benaderd via de tabel, moeten we deze verdubbelen). 4
Het Stress voorbeeld: deel In het stress voorbeeld zijn de steekproefvarianties voor groep 1 (stress) en groep (controle): s 1 s = 169.7 = 1.0 k k 1 = 6 = 6 F = 0 4 6 8 10 169.7 1.0 = 8.1 F*(6, 6) volgens Tabel E in M,M&C: P F*.100 3.05.050 4.8.05 5.8.010 8.47.001 0.03 Conclusie: 5
Mogelijke problemen met robuustheid van F-toets MM&C waarschuwen tegen het gebruik van de F-toets, omdat deze niet robuust is wanneer de data scheef verdeeld zijn. Men komt F-toets niettemin vaak tegen, in drie situaties: Om te checken of we de t-toets met gepoolde varianties mogen doen met roeiboot kijken of oceaanstomer kan uitvaren. Als centrale hypothese (zoals stress voorbeeld) zeer zorgvuldig nagaan of data normaal verdeeld zijn zonder uitbijters Als centrale toets in de variantie analyse, waarin meerdere gemiddelden met elkaar vergeleken worden hier wel robuust! (Experimenteel en Correlationeel Onderzoek). Betere werkwijze (bij gebruik t-toets): gebruik de -steekproeven t-toets die niet aanneemt dat de varianties homogeen (gelijk) zijn. 6
Wat is de kans om een effect niet te vinden, dat er wel is? 14 Artikelen uit Journal of Personality & Social Psychology en Journal of Abnormal Psychology werden onderzocht (Cohen, 1988). Resultaat: deze kans is ongeveer 50%. Hoe kan dit? Voorbeeld: de IQtest (µ = 100, σ = 15). Een docent claimt door training de score van deelnemers aan de IQtest minstens 5 punten te kunnen verhogen. Hij doet na de training een onderzoek bij 5 deelnemers: x = 105.5. Dit leidt tot verwerping van H 0 met α = 5%. Welke kans had de docent om in dit onderzoek H 0 te verwerpen, als zijn claim klopt? Stel als ondergrens van zijn claim µ a = 105. 7
Bekijk de verdelingen van x voor H 0 en H a en huiver. H 0 niet verwerpen met n=5 en α = 5% dus z 1.645, d.w.z. als: x 100 1.645 15 5 x 104.935 90 95 100 105 110 Als H a correct is, krijg je in dit soort onderzoek (met n=5) waarden van x waarmee in 50% v.d. gevallen H 0 gehandhaafd wordt. 8
Hypothese toetsing en Beslissen Uw beslissing Verwerp H0 Handhaaf H0 Toestand in de wereld H 0 is waar H 0 is niet waar Type I fout: Zeggen dat iets NIET WAAR is. (gullibility risk) α = P (type I fout) Juiste beslissing 1 α Juiste beslissing 1 β = Power Type II fout: Niet zeggen dat iets WAAR is. (blindness risk) β = P (type II fout) 9
Onderscheidend vermogen (power) van een toets Het onderscheidend vermogen (Power) van een toets is de kans dat deze toets H 0 verwerpt terwijl H a waar is. 1 α µ 0 α β 1 β µ a α = P (Type-I fout) = P (verwerp H 0 H 0 waar) Men concludeert ten onrechte dat er een verschil is. 1 β=1 P (Type-II fout) =P (verwerp H 0 H a waar) Men concludeert terecht dat er een verschil is. DUS: lage power grote kans op een negatief resultaat (=geen resultaat) 10
Hoe berekenen we de power van de z-toets: 1? 1) Formuleer H 0 en H a, specificeer α en de specifieke waarde van µ onder H a die we willen kunnen opsporen: µ a. Beoordeel het absolute verschil tussen µ o en µ a met behulp van de effect size maat Cohen s d: d 0 a µ µ σ Vuistregel: small effect: d = 0. medium effect: d = 0.5 large effect: d = 0.8 = De grootte van de effect size geeft inzicht in de verwachte toetssituatie, los van de steekproef(grootte). De grootte van de effect size geeft daarmee globaal aan wat er nodig is om dit verschil tussen µ o en µ a te vinden. 11
Voorbeelden van d en power in Werkgroep 4 Eekhoorntjes: d: 0.5, Power: 0.38. Benodigde n: 4 ipv 8. Studieduur: d: 0.5, Power: 0.54. Benodigde n: 10 ipv 50. SSHA: d: 0.7, Power: 0.65. Benodigde n: 56 ipv 38. Frustratie/Agressie: d: 0.5, Power: 0.43. Benodigde n: 4 ipv 9 (paren). 1
13 Hoe berekenen we de power van de z-toets:? µ 0 α 1 α ) Bepaal grenswaarde van x voor verwerping van H 0 : * x n z x z n x σ µ σ µ + = = * * * * 0 0 3) Kans op x > * x, als H a waar = n x z P x x P a σ µ * *) ( µ a β 1 β Wanneer tevreden? Als de power 0.8.
Voorbeeld: de IQtest 1 H 0 : µ o = 100 H a : µ a > 105 α=0.05, n=5, σ=15 3 d = (105-100)/15 = 0.33 critical z = 1.64485 σ x > µ 0 + z * n x* = 100 + 1.645 β 15 5 α x* = 104.935 104.935 105 P( x x*) = P z = P( z 0.017) = 0.508 3-3 - -1 0 1 3 14
Power van de t-toets voor één steekproef Om het onderscheidend vermogen van de t-toets te bepalen kunnen we gelijk te werk gaan als bij de z-toets: Formuleer H 0 en H a, specificeer α en de specifieke waarde van µ die we willen kunnen opsporen: µ a. Bepaal de waarden van x die leiden tot verwerping van H 0 onder de t-verdeling: x µ 0 + t * s = x n Bereken de kans P( x x*) in de H a verdeling met µ =µ a. Gebruik de normale verdeling als benadering van de H a verdeling. * 15
Power van de t-toets voor één steekproef: voorbeeld Uitgangspunt: de IQ test van sheet 13, maar nu hebben we uit de steekproef met n= 5 een s bepaald van 15. df=4 α=0.05 t*=1.711 x *? Wat is de kans op x * x > als H a geldt? 15 s x = = 3 5 x* = 100 + 1.711 3 = 105.133 105.133 105 P( x 105.133) = P z = 3 0.484 16
De powerbepaling van toetsen Moore, McCabe & Craig laten in 7.3 zien hoe de power voor de t- toets voor twee steekproeven exact kan worden bepaald met de noncentrale t-verdeling (voor liefhebbers), maar dan houdt het op. Het probleem is dat de H a verdeling ongelijk is aan de H 0 verdeling, voor alle toetssituaties, behalve voor de z-toets, er i.h.a. geen tabellen voor H a verdelingen bestaan In de praktijk gebruikt men software (zie practicum) tabellen die de power geven voor bepaalde toetsen en voor combinaties van n, d (of andere effectmaat) en α (zie bijv. Cohen (1988)) 17
Hoe kiezen we een steekproefgrootte: 1? Gebruik i.h.a. voor bepaling van de steekproefgrootte software of tabellen. Voor de 1 sample z-toets is het eenvoudig uit te rekenen. Voorbeeld: Stel: α = 0.05 β = 0., power = 0.8 Vraag: Steekproevenverdelingen van x voor H o en H a H o H a Wat is n om met deze α en β een verschil (µ a - µ o ) tussen H o en H a te kunnen vinden? NB in afbeelding rechts is σ/ n = 1-3 - -1 0 1 3 x β α 18
Hoe kiezen we een steekproefgrootte:? Eerst het IQtest probleem met µ o =100, µ a =105 en σ =15. Bepaal x * onder H o : 100 + z α 15/ n = 100 + 1.645 15/ n Bepaal x * onder H a : 105 + z β 15/ n = 105 0.84 15/ n Dus: 100 + 1.645 15/ n = 105 0.84 15/ n 105 100 = 1.645 15/ n + 0.84 15/ n 5 =.487 15/ n n =.487 (15/5) = 7.461 n = 55.66 19
Hoe kiezen we een steekproefgrootte: 3? Nu het algemene geval: Bepaal x * onder H o : µ o + z α σ/ n = µ o + 1.645 σ/ n Bepaal x * onder H a : µ a + z β σ/ n = µ a 0.84 σ/ n Dus: µ o + 1.645 σ/ n = µ a 0.84 σ/ n µ a µ o = 1.645 σ/ n + 0.84 σ/ n µ a µ o =.487 σ/ n n = (.487 σ/(µ a µ o )) =.487 (1/d) n = 6.19/d 0
Hoe wordt de power van een toets zo groot mogelijk? Conceptuele formule: Toegepast Significantie toets = (Effect Size)(Omvang Studie) t Gepoolde t-toets = (Hedges' g)(omvang Studie) = s p x1 x x1 x n1 n t = 1 + 1 s p n1 + n n n 1 Uit deze formule blijkt dat we power van een toets kunnen optimaliseren door: de gemiddelden zoveel mogelijk te laten verschillen; een homogenere steekproef te gebruiken; De omvang van de studie (=n) te vergroten. Deze factoren + het α-niveau, beïnvloeden de power. 1
power 0.0 0. 0.4 0.6 0.8 1.0 Power als functie van afstand tussen Gemiddelden Power als functie van de afstand tussen µ o = 40 en µ a H 0 µ = 40 H a µ > 40 n=5 σ=10 α =0.05 40 4 44 46 48 50 µ a
power 0.0 0. 0.4 0.6 0.8 1.0 Invloed van steekproefgrootte Power bij n=5 en 100 n=5 n=100 40 4 44 46 48 50 µ a H 0 µ = 40 H a µ > 40 σ=10 α =0.05 3
power 0.0 0. 0.4 0.6 0.8 1.0 Invloed van significantieniveau Power bij α=0.05 en 0.01 α=0.05 α=0.01 H 0 µ = 40 H a µ > 40 n=5 σ=10 40 4 44 46 48 50 µ a 4
Tot Besluit VROEGER: de significantie toets was dominant en er werd vaak gedacht in termen van een beslissingsprobleem (aanleiding tot veel controverses) NU: men kijkt vaker naar de P-waarde, geeft α prioriteit boven β, maar verwacht wel rapportage van effect size en verwacht ook steekproefgroottes die leiden tot een power 0.8. Stof volgende week: Moore, McCabe & Craig,.5, 9 Inference for Two-Way Tables.5 Data analysis for Two-WayTables 9.1 Inference for Two-Way Tables 9. Formulas and Models for Two-Way Tables 9.3 Goodness of Fit. 5