werkcollege 6 - D&P10: Hypothesis testing using a single sample

cursus huiswerk opgaven Ch.9: 1, 8, 11, 12, 20, 26, 36, 37, 71 werkcollege 6 - D&P10: Hypothesis testing using a single sample Activities 9.3 en 9.4 van schatting naar toetsing vorige bijeenkomst: populatie-kenmerk (p, µ, σ, σ 2 ) schatten op basis van een steekproef deze bijeenkomst: beslissing nemen over populatiekenmerk, op basis van een steekproef: steekproeven en hypothesen Steekproefgegevens kunnen worden gebruikt om te beslissen of een claim of hypothese over een populatiekenmerk plausibel is (P&D p458) hypothese toetsen twee hypothesen empirische cyclus H 0 : in eerste instantie nemen we aan dat H 0 waar is, tenzij het tegendeel (H 0 onwaar) overtuigend wordt aangetoond H a : komt overeen met onderzoeks-idee, H 0 en H a sluiten elkaar logisch uit H 0 is het tegengestelde van onderzoeksidee (tertium non datur; derde mogelijkheid bestaat niet) bewijzen dat iets waar is ( alle zwanen zijn wit, vormt geen overtuigend bewijs daarvoor (Hume) falsificatie-criterium van Popper: we kunnen alleen proberen H 0 te verwerpen, en daar wel of niet in slagen observatie idee inductie hypothese deductie voorspelling toetsing resultaten conclusie Hypothese H a is uitwerking van onderzoeks-idee. Positief bewijs voor H a is niet overtuigend (!). Negatief bewijs voor het tegendeel van H a, genaamd H 0, is wel overtuigend. Karl Popper (1902-1994): Kennis groeit alleen door falsificatie van hypothesen. idee

goede hypothesen kiezen When deciding which alternative hypothesis to use, keep the research objectives in mind. (P&D p461) falsificatie van H 0 is de enige manier om aan te tonen dat H a plausibel is verstandige H a en H 0 kiezen is heel belangrijk voor goed, valide en zinvol empirisch onderzoek! twee mogelijke uitkomsten verwerp H 0 (reject), overtuigend bewijs tegen H 0 accepteer H 0 (failure to reject), geen overtuigend bewijs tegen H 0...maar elk van deze mogelijke beslissingen kan ook fout zijn! want gebaseerd op steekproef verwerpen van H 0 : niet verwerpen van H 0 : asymmetrie kies H a kies niet! geen bewijs van schuld onschuldig absence of evidence is not evidence of absence (Carl Sagan) twee mogelijke fouten verwerp H 0 ten onrechte, [overtuigend bewijs tegen H 0 gevonden hoewel H 0 in werkelijkheid waar is] Type-I fout accepteer H 0 ten onrechte, [geen overtuigend bewijs tegen H 0 gevonden hoewel H 0 in werkelijkheid onwaar is] Type-II fout kansen op twee fouten Type 1 fout: onterecht verwerpen H 0 = onterechte ondersteuning voor H a Type 2 fout: onterecht accepteren H 0 = onterecht niet steunen van H a P(Type-I fout) = α = significantie-nivo [onterechte ondersteuning voor H a ] P(Type-II fout) = β [onterecht niet steunen van H a ] α kleiner α groter β groter β kleiner don t make α smaller than it needs to be. -- P&D p465

alfa = P(onterecht verwerpen van een ware H 0 ) keuze voor grens voor α bepaalt β p r i n c i p e Als H 0 waar is, is van de betrokken sample statistic (bv. x ) de kansverdeling bekend als de kans P op de gevonden waarde van de sample statistic onwaarschijnlijk klein is onder H 0, verwerp dan H 0 (overtuigend bewijs tegen H 0 ) toets van proportie p, grote n dwz H 0 stelt dat populatieproportie p is test statistic voor steekproef met uitkomst p^ is z = (p^-p) / (p(1- p)/n ) (p469,p476) afwijking (van waarde p volgens H 0 ) met kansverdeling van standaard-normale-verdeling (zie tabel op kaft P&D) let op richting van H a : linkszijdig (lower-tailed test): P(z<z grens ) bv H 0 : p =.3 H a : p <.3 rechtszijdig (upper-tailed test): P(z>z g ) bv H 0 : p =.3 H a : p >.3 tweezijdig (two-tailed test): P(z<-z g )+P(z>+z g ) bv H 0 : p =.3 H a : p 0.3 als P-waarde α : verwerp H 0 (α bv 0.05) als P-waarde > α : niet-verwerpen H 0 significantie We verwerpen bijvoorbeeld H 0 op significantie-niveau α (bv 0.05) en accepteren H a op significantie-niveau α voorbeeld zaak Castaneda vs. Partida: is de selectie van juryleden (uit kiezers) biased tegen Mexican Americans? p = 143661/181535 =.791 proportie van Mex.Am. in populatie van kiezers in county We schrijven dan (p<0.05) dwz er is een kans van ten hoogste 5% dat we een onjuiste conclusie trekken (Type-1 fout) p^ = 339/870 =.390 σ p^ = (p*(1-p)/n) =.01378 proportie van Mex.Am. in steekproef van juryleden standard error van proportie p

voorbeeld 95%Confidence Interval is 95% C.I. van p^ p^ ± z* σ p^ =.390 ± 1.96(0.01378) omvat niet p=.791 =.390 ± 0.027 H 0 : p^ = p =.791 als we aannemen dat H 0 waar is, dan is de kansverdeling van p^ bekend. hoe groot is de kans op een steekproef met p^ =.390, als die willekeurig getrokken is (met n=870) uit een populatie waarin p=.791? volgens Centraal Limiet Theorema kunnen we dat bepalen met standaard-normaalverdeling (z) voorbeeld z = (p^ - p) / σ p^ = -0.401/0.01378 = -29.1 P( z = -29.1 (p^= p)) ~ 0 toetsingsgrootheid (test statistic) z, zie p.432 kans op Type I fout P<.05, significant P(z H 0 ) (lees: kans of deze z-waarde gegeven H 0 ) is extreem klein, dus overtuigend bewijs tegen H 0 het Supreme Court (USA) hanteert een criterium van z=2 of z=3 voor significantie notatievoorbeeld The proportion of Mexican Americans is significantly lower among jury members in county X than in the general population of voters in that county (z=-29.1, p<.001). toets voor µ (populatie gemiddelde) Case 1, σ bekend test statistic is x µ x µ z = = σ σx met kansverdeling van standaard-normaalverdeling (zie boek) zowel µ als σ zijn gepostuleerd of bekend n toets voor µ (populatie-gemiddelde) Case 2, σ onbekend x µ test statistic is t = s n met kansverdeling van t-verdeling, met n-1 d.f. (zie Table 4, p745) alleen µ is gepostuleerd, s uit steekproef n > 30 (of sampledistributie ~normaal)

meestal t omdat σ onbekend is richting van hypothese etc. identiek als bij behandeling van proportie maar voor grote n toch weer z voorbeeld 10.13 (P&D p485) vertraagde tijdschatting tijdens afkicken van roken? H 0 : µ = 45 H a : µ >45 rechtszijdige toets en α=.05 (let op: negatief effect is dus niet toetsbaar) t = 6.50 voldaan aan assumpties, p486 P ( t > 6.50 H 0 ) 0 ( betekent gegeven H 0 ) kans is dus extreem klein om deze t-waarde in een steekproef te vinden, per toeval, als H 0 waar is overtuigend bewijs tegen H 0 : verwerp dus H 0 significant = interessant? example 10.16 (p.489, testscore van kinderen) H 0 : µ = 100, H a : µ>100, α =.001 steekproef: x = 101.0, s = 15, n = 2500 dan t = 3.3 en p <.0001 verwerp H 0, maar verschil tussen 100 en101 niet interessant (bij zeer grote n, worden de kleinste verschillen wel een keer significant: dat zegt nog niets) indien n=250, dan t=1.054, p=.146 geen overtuigend bewijs tegen H 0 significantie en power P(Type-I fout) = α = significantie-nivo P(verwerp H 0 H 0 waar) P(Type-II fout) = β P(niet-verwerpen H 0 H 0 onwaar) power = P(verwerp H 0 ) en dus het accepteren H a significantie en power (p493) power = P(verwerp H 0 ) alfa = P(onterecht verwerpen van een ware H 0 ) kleinere α, grotere β, kleinere power vooral interessant indien H 0 onwaar is P(verwerp H 0 H 0 onwaar) = 1 - P(niet-verwerpen H 0 H 0 onwaar) = 1 - β bestudeer voorbeeld 10.17 (p496)!

alfa = P(onterecht verwerpen van een ware H 0 ) groter verschil tussen en werkelijk: β kleiner, power groter alfa = P(onterecht verwerpen van een ware H 0 ) grotere steekproef, kleinere standaardfout: β kleiner, power groter power berekenen werkelijke waarde van µ is onbekend je kunt de power alleen voor gekozen waarden van µ berekenen bestudeer voorbeeld 10.17 (p496): H 0 : µ = 1.5 versus H a : µ > 1.5 α=0.01 maar stel dat µ werkelijk = 1.6 of 1.65 wat is dan de kans dat H 0 wordt verworpen (=power)? power bij t-tests (ex.10.19) β te vinden in Appendix tabel 5 (p.748) β is afhankelijk van d = (µ true µ Ho ) / σ α significantie-nivo n steekproefgrootte en df bekijk opgave 10.60! σ conservatief schatten t het beste als de populatie normaal verdeeld is, dan heeft t-toets de grootst mogelijke power huiswerk opgaven P&D Ch.10 2(p461), 11, 12(p466), 17, 45, 60, 64, 82