Kansrekening en Statistiek College 14 Donderdag 28 Oktober 1 / 37
2 Statistiek Indeling: Hypothese toetsen Schatten 2 / 37
Vragen 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden gemiddelde was 0.1%. Er werd hen ook gevraagd hoeveel % van de tijd zij liegen om iemands gevoelens te sparen. Het gevonden gemiddelde was 1%. Zijn deze data consistent? 3 / 37
Vragen NRC 23 Oktober 2010: Visolie slikken van weinig nut tijdens zwangerschap. Maakt visolie intelligent? Een groep moeders kreeg tijdens de zwangerschap visolie toegediend en een controlegroep niet. Anderhalf jaar later werden hun kinderen onderzocht. De kinderen in de testgroep bleken niet snuggerder dan die in de controlegroep. Er worden hier twee steekproefgemiddeldes vergelijken. Hoe werd hier getoetst? 4 / 37
Hypothese toetsen 5 / 37
Hypothese toetsen: de zijde Def. Bij toetsen waarbij de gemiddeldes van twee populaties vergeleken worden zijn de hypothesen van de vorm: tweezijdig H 0 : µ 1 = µ 2 (µ 1 µ 2 = 0) H a : µ 1 µ 2 (µ 1 µ 2 0) linkszijdig H 0 : µ 1 µ 2 (µ 1 µ 2 0) H a : µ 1 < µ 2 (µ 1 µ 2 < 0) rechtszijdig H 0 : µ 1 µ 2 (µ 1 µ 2 0) H a : µ 1 > µ 2 (µ 1 µ 2 > 0) 6 / 37
Hypothese toetsen: criterium voor verwerpen H 0 Def. Criterium voor het verwerpen van de nulhypothese: Voor een zekere constante x k (xk l en xr k ) wordt op grond van de twee steekproeven met gemiddeldes X 1 en X 2 : H 0 verworpen als (X 1 X 2 ) x r k of (X 1 X 2 ) x l k H 0 verworpen als (X 1 X 2 ) x k H 0 verworpen als (X 1 X 2 ) x k (tweezijdige toets) (rechtszijdige toets) (linkszijdige toets). 7 / 37
Hypothese toetsen: kritisch gebied Def. De kritische waarde of de p-waarde (p-value) is de waarde x k (x r k en xl k ) waarvoor P((X 1 X 2 ) xk r of (X 1 X 2 ) xk l µ 1 = µ 2 ) = α P((X 1 X 2 ) x k µ 1 = µ 2 ) = α P((X 1 X 2 ) x k µ 1 = µ 2 ) = α (tweezijdige toets) (rechtszijdige toets) (linkszijdige toets). Het kritische gebied (region of rejection) zijn die waardes x die liggen in de intervallen (, xk l ] of [xr k, ) (tweezijdige toets) [x k, ) (rechtszijdige toets) (, x k ] (linkszijdige toets). Als (X 1 X 2 ) in the kritisch gebied ligt, dan geldt dat onder de aanname H 0 de kans dat het verschil tussen de twee steekproefgemiddelde gelijk aan (X 1 X 2 ) is, α is. Daarom wordt H 0 verworpen als (X 1 X 2 ) in het kritische gebied ligt en aangenomen als (X 1 X 2 ) niet in het kritische gebied ligt. 8 / 37
Hypothese toetsen: variantie bekend Def. Wanneer het significantieniveau eenmaal gekozen is, kan de kritische waarde berekend worden als de verdeling P van (X 1 X 2 ) gegeven µ 1 = µ 2, bekend is. De verdeling van (X 1 X 2 ) heet de verdeling van het verschil tussen de steekproefgemiddeldes. Stel dat n 1 en n 2 de groottes van de steekproeven zijn en dat standaardafwijkingen van de populaties bekend en gelijk zijn (de aanname van homogeniteit van de variantie). Dan wordt vaak aangenomen dat P de normale verdeling P s is met gemiddelde µ 1 µ 2 en standaardafwijking s σ X 1 X 2 = σ 2 ( 1 n 1 + 1 n 2 ), waarbij σ de standaardafwijking van de populaties is. σ X 1 X 2 heet de standaardfout van het verschil tussen de gemiddeldes. Aangenomen wordt dus dat P( (X 1 X 2 ) (µ 1 µ 2 ) ) de standaard normale verdeling σ X 1 X 2 heeft. 9 / 37
Hypothese toetsen: variantie onbekend Def. Stel dat standaardafwijkingen van de populaties onbekend maar verondersteld worden gelijk te zijn (de aanname van homogeniteit van de variantie). Stel dat s1 2 en s2 2 de varianties van de twee steekproeven zijn. Dan wordt vaak aangenomen dat P de t-verdeling P t is bij (n 1 + n 2 2) vrijheidsgraden, met gemiddelde µ 1 µ 2 en standaardafwijking s s s X 1 X 2 = s 2 ( 1 n 1 + 1 n 2 ) = s ( 1 n 1 + 1 n 2 ), waarbij s 2 is: s 2 = P n1 i=1 (X 1 i X 1 ) 2 + P n 2 j=1 (X 2 j X 2 ) 2 n 1 + n 2 2 = s2 1 (n 1 1) + s2 2(n 2 1). n 1 + n 2 2 s X 1 X 2 heet de geschatte standaardfout van het verschil tussen de gemiddeldes. s 2 heet de pooled estimate of the population variance. Aangenomen wordt dus dat P( (X 1 X 2 ) (µ 1 µ 2 ) ) de standaard t-verdeling heeft bij s X 1 X 2 n 1 + n 2 2 vrijheidsgraden. 10 / 37
Hypothese toetsen Vb. Mac wil testen of het gemiddeld aantal klachten µ 1 dat zij per dag in de eerste tien weken na het op de markt brengen van iphone 4 ontvingen significant lager is dan dat (µ 2 ) voor iphone 3. De steekproeven hebben beide dus grootte n 1 = n 2 = 10 7 = 70. Als significantieniveau wordt 0.0005 genomen. H 0 : (µ 1 µ 2 ) 0 H a : (µ 1 µ 2 ) < 0. Voor de kritische waarde x k moet gelden dat P((X 1 X 2 ) x k µ 1 = µ 2 ) = α = 0.0005. Uit de steekproef voor iphone 4 komt X 1 = 1000 en standaardafwijking s 1 = 5 en voor iphone 3 X 2 = 1005 en s 2 = 9. Dus is de Pooled estimate of the population variance: s 2 = s2 1 (n 1 1) + s2 2(n 2 1) 25 69 + 81 69 = = 53. n 1 + n 2 2 70 + 70 2 s s X 1 X = s 2 ( 1 + 1 r 2 ) = 53 2 n 1 n 2 70 = 1.23. Bij 138 vrijheidsgraden (neem ) geldt (C.3): P t(z 3.291) = 0.0005. Daaruit volgt dat x k = (µ 1 µ 2 ) + ( 3.291)s X 1 X 2 = 0 (3.291)(1.23) = 4.04793. (X 1 X 2 ) < 4.04793 : H 0 wordt verworpen. 11 / 37
Schatten 12 / 37
Schatten Statistisch schatten wordt toegepast wanneer men de waarde van een parameter wil benaderen. Op grond van de statistiek van een steekproef wordt de corresponderende waarde van de populatie geschat/benaderd. Sommige schatters produceren meerdere waarden (vaak een interval) en sommige schatters produceren één waarde. Vraag: Hoe accuraat is de schatter? 13 / 37
Schatten: betrouwbaarheidsinterval Def. Wanneer de standaardafwijking van de populatie σ bekend is dan is het betrouwbaarheidsinterval met betrouwbaarheidsniveau (1 α) op grond van een statistiek X van een steekproef ter grootte n: CI = (X z kw σ X, X + z kw σ X ), waarbij z kw de standaard kritische waarde corresponderend met significantieniveau α (twee-zijdig) op grond van de normale verdeling is. Wanneer de standaardafwijking van de populatie onbekend is dan is het betrouwbaarheidsinterval CI = ( X t kw s X, X + t kw s X ). waarbij t kw de standaard kritische waarde corresponderend met α (twee-zijdig) op grond van de t-verdeling bij (n 1) vrijheidsgraden is. CI wordt ook wel het (1 α)%-procent betrouwbaarheidsinterval genoemd. 14 / 37
Schatten Vb. Aan 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden gemiddelde was 0.4%. Aan een andere groep van 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen om iemands gevoelens te sparen. Het gevonden gemiddelde was 1%. Zijn die data 95% betrouwbaar, d.w.z. kunnen beide 95%-betrouwbaarheidsintervallen de ware gemiddeldes bevatten? Een 95% betrouwbaarheidsinterval op grond van de eerste steekproef, waarbij gegeven is dat s X = 0.0015, is CI 1 = (X t kw s X, X + t kw s X ) = (0.001, 0.007). Een 95% betrouwbaarheidsinterval op grond van de tweede steekproef, waarbij gegeven is dat s X = 0.0013, is CI 2 = (X t kw s X, X + t kw s X ) = (0.0074, 0.0126). Stel, Amerikanen liegen in werkelijkheid µ 1 % van de tijd en liegen µ 2 % van de tijd om iemands gevoelens te sparen. Dan moet gelden µ 1 µ 2. Omdat CI 2 rechts van CI 1 ligt kan het niet zo zijn dat beide intervallen de werkelijke gemiddeldes bevatten (CI i bevat µ i ). Het onderzoek is niet 95% betrouwbaar. 15 / 37
Finis 16 / 37