Kansrekening en Statistiek College 11 Dinsdag 25 Oktober 1 / 27
2 Statistiek Vandaag: Hypothese toetsen Schatten 2 / 27
Schatten 3 / 27
Vragen: liegen 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden gemiddelde was 0.4%. Er werd hen ook gevraagd hoeveel % van de tijd zij liegen om iemands gevoelens te sparen. Het gevonden gemiddelde was 1%. Zijn deze data consistent? 4 / 27
Hypothese toetsen 5 / 27
Hypothese toetsen: toepassingen Vb. Een medicijn wordt aan een groep patiënten toegediend en aan een controlegroep niet. Er moet besloten worden of het medicijn werkt of niet. Men wil vaststellen of een zekere ziekte meer voorkomt onder Aziaten dan Afrikanen. Men wil vaststellen of een zeker spamfilter beter functioneert dan een ander. 6 / 27
Hypothese toetsen: twee steekproeven Def. Een test naar de gelijkheid van de gemiddelden van twee populaties P 0 en P 1 heeft de volgende vorm. µ 1 en µ 2 zijn de gemiddelden van de populaties en σ1 2 en σ2 2 de varianties. X 1, X 2 zijn de gemiddelden van de twee steekproeven en s1 2 en s2 2 de varianties. De aanname dat σ1 2 = σ2 2 (die wel of niet gehanteerd kan worden) is de homogeniteit van variantie. De methode is hetzelfde als die voor het toetsen met 1 gemiddelde, alleen de verdelingen en hypotheses zelf hebben een iets andere vorm. 7 / 27
Hypothese toetsen: twee steekproeven Def. De hypotheses zijn van de vorm tweezijdig H 0 : µ 1 µ 2 = 0 H a : µ 1 µ 2 linkszijdig H 0 : µ 1 µ 2 0 H a : µ 1 < µ 2 rechtszijdig H 0 : µ 1 µ 2 0 H a : µ 1 > µ 2 De statistiek is X 1 X 2. 8 / 27
Hypothese toetsen: twee steekproeven Def. Bij hypothese toetsen over het gemiddelden van twee populaties waarvan de varianties σ 2 bekend en gelijk zijn, wordt de verdeling van X 1 X 2 benaderd door een normale verdeling met gemiddelde µ 1 µ 2 en standaardafwijking σ X 1 X 2 = s σ 2` 1 n 1 + 1 n 2. σ X 1 X 2 is de standaardfout van het verschil. Wanneer de varianties gelijk maar onbekend zijn, wordt de verdeling van X 1 X 2 benaderd door een t-verdeling bij n 1 + n 2 2 vrijheidsgraden en gemiddelde µ 1 µ 2, en standaardafwijking σ X 1 X 2 = s s 2` 1 n 1 + 1 n 2, waarbij s 2 de gezamenlijke schatting van de populatievariantie is: P n1 i=1 (X i1 X 1 ) 2 + P n 2 j=1 (X j2 X 2 ) 2. n 1 + n 2 2 9 / 27
Hypothese toetsen Vb. 44 mannelijke en 44 vrouwelijke apen werd een pop en een speelgoedauto aangeboden. X 1 en X 2 zijn het percentage van de tijd dat de mannelijke en vrouwelijke apen met de pop speelden. De gevonden waardes zijn X 1 = 9 en X 2 = 11. De twee populaties zijn alle mannelijke en alle vrouwelijke apen op aarde. µ 1 en µ 2 zijn het percentage van de tijd dat alle mannelijke en vrouwelijke apen met de pop zouden spelen. Stel dat de variantie in speeltijd voor beide populaties bekend en gelijk aan 16% is. Er wordt linkszijdig getoetst: Er geldt σ X 1 X 2 = H 0 : µ 1 µ 2 0 H a : µ 1 < µ 2. r 16` 1 44 + 1 r 16 2 = 44 44 = 0.85. Bij significatieniveau α = 0.1 is de standaard kritische waarde z kw = 1.282, want P s(z 1.282) = 0.1. De kritische waarde is dus (µ 1 µ 2 ) 1.282σ X 1 X 2 = 1.282 0.85 = 1.1. Het kritische gebied is (, 1.1]. De teststatistiek is 2, dus H 0 wordt verworpen: mannelijke apen spelen minder met poppen dan vrouwelijke apen. 10 / 27
Hypothese toetsen: vroege colleges Vb. Aantal glazen alcohol per week (x-as) tegen aantal vroege colleges dat je bijwoont (y-as). stat14c 0 20 40 60 80 100 De Pearson correlatiecoëfficiënt: -0.43. 0 5 10 15 stat14b Leuk onderzoek aan de UU: http://www.uu.nl/university/bachelors/nl/psychologie/ studieprogramma/pages/suzannebijl.aspx?refer=/university/bachelors/nl/psychologie/ studieprogramma/suzannebijl 11 / 27
Hypothese toetsen: alcohol Vb. Drinken mannelijke studenten KI aan de UU significant meer dan de vrouwelijke studenten? Als significantieniveau wordt 0.1 genomen. Aangenomen wordt dat de varianties van de populatie gelijk zijn, doch onbekend. De hypotheses vormen een rechtszijdige toets: H 0 : µ 1 µ 2 0 H a : µ 1 > µ 2. Er wordt een steekproef X 1 ter grootte 20 uit de mannelijke en ter grootte onder 10 uit de vrouwelijke studenten X 2 genomen: X 1 = 6.5 en X 2 = 5. Omdat de variantie onbekend is wordt getoetst met een t-verdeling met 28 vrijheidsgraden: dat geeft standaard kritische waarde t kw = 1.313. Verder geldt dat de gezamenlijke schatting van de populatievariantie is: Dat geeft s 2 = P n1 i=1 (X i1 X 1 ) 2 + P n 2 j=1 (X j2 X 2 ) 2 σ X 1 X 2 = n 1 + n 2 2 s s 2` 1 n 1 + 1 n 2 = 2.14. = 30.58. De kritische waarde is dus x kw = 1.313 2.14 = 2.81 en het kritische gebied [2.81, ). De teststatistiek is 6.5 5 = 1.5, waaruit volgt dat H 0 niet wordt verworpen. 12 / 27
Hypothese toetsen: kritiek Bij toenemende n wordt het kritische gebied groter en neemt de kans dat de nulhypothese verworpen wordt toe. Met een grote steekproef kan elke hypothese verworpen worden. Bij hypothese toetsen wordt de uitkomst van de toets niet gebruikt om de test aan te passen. Bij Bayesiaans leren is dat anders. 13 / 27
Schatten 14 / 27
Schatten Statistisch schatten wordt toegepast wanneer men de waarde van een parameter wil benaderen. Op grond van de statistiek van een steekproef wordt de corresponderende waarde van de populatie geschat/benaderd. Sommige schatters produceren meerdere waarden (vaak een interval) en sommige schatters produceren één waarde. Vraag: Hoe accuraat is de schatter? 15 / 27
Schatten: betrouwbaarheidsinterval Def. Wanneer de standaardafwijking van de populatie σ bekend is dan is het betrouwbaarheidsinterval met betrouwbaarheidsniveau (1 α) op grond van een statistiek X van een steekproef ter grootte n: CI = (X z kw σ X, X + z kw σ X ), waarbij z kw de standaard kritische waarde corresponderend met significantieniveau α (twee-zijdig) op grond van de normale verdeling is. Wanneer de standaardafwijking van de populatie onbekend is dan is het betrouwbaarheidsinterval CI = (X t kw s X, X + t kw s X ). waarbij t kw de standaard kritische waarde corresponderend met α (twee-zijdig) op grond van de t-verdeling bij (n 1) vrijheidsgraden is. CI wordt ook wel het (1 α)100%-betrouwbaarheidsinterval genoemd. 16 / 27
Schatten: verband met hypothese toetsen Merk op: Als X = µ, dan is het betrouwbaarheidsinterval het complement van het kritsche gebied. St. Als µ in the (1 α)100%-betrouwbaarheidsinterval rond X ligt wordt een tweezijdige nulhypothese H 0 bij significantieniveau α niet verworpen. Een manier om veel hypotheses tegelijk te testen: Construeer het (1 α)100%-betrouwbaarheidsinterval rond X. Voor elke a die niet in het interval ligt wordt een nulhypothese van de vorm µ = a, bij significantieniveau α op grond van X verworpen. 17 / 27
Hypothese toetsen: vroege colleges Vb. Aantal websites waar je inloggegevens hebt (x-as) tegen aantal wachtwoorden dat je daarvoor gebruikt (y-as). stat12b 1 2 3 4 5 6 7 8 10 20 30 40 50 stat12a De Pearson correlatiecoëfficiënt: 0.46. 18 / 27
Hypothese toetsen: vroege colleges Vb. Uitslag geheugentest (onthoud tien woorden) (x-as) tegen aantal wachtwoorden dat je voor websites gebruikt (y-as). stat12b 1 2 3 4 5 6 7 8 4 5 6 7 8 9 10 stat12c De Pearson correlatiecoëfficiënt: 0.44. 19 / 27
Hypothese toetsen: geheugen Vb. Op grond van de voorafgaande steekproef is er een 99%-betrouwbaarheidsinterval rond het gemiddeld aantal woorden dat jullie tijdens de geheugentest onthielden, te maken. Uit de steekproef volgt dat n = 18, X = 6.889, s = 1.875. Dus s X = s/ n = 0.443. De standaard kritische waarde in een t-verdeling met 17 vrijheidsgraden (twee-zijdig) bij 0.01 is 2.898. Daarmee wordt het 99%-betrouwbaarheidsinterval: (X t kw s X, X +t kw s X ) = (6.889 2.898 0.443, 6.889+2.898 0.443) = (5.605, 8.173). Voor a 8.173 of a 5.605 wordt de hypothese H 0 : µ = a door uitkomst X bij significantieniveau 0.01 verworpen. 20 / 27
Vb. Lengte (x-as) tegen lengte oor (y-as). Schatten stat11c 5.0 5.5 6.0 6.5 7.0 160 170 180 190 200 stat11a De Pearson correlatiecoëfficiënt: 0.56. 21 / 27
Schatten Vb. Leeftijd (x-as) tegen lengte oor (y-as). stat11c 5.0 5.5 6.0 6.5 7.0 18 20 22 24 26 28 stat11b Gemiddelde lengte oor is X = 6.02 cm. en standaarafwijking steekproef is s = 0.52. Omdat de grootte van de steekproef 27 is, geldt s X = 0.52/ 27 = 0.1. Het 95%-betrouwbaarheidsinterval is (X t kw s X, X + t kw s X ) = (6.02 2.056 0.1, 6.02 + 2.056 0.1) = (5.81, 6, 23). 22 / 27
Schatten: betrouwbaarheidsinterval De interpretatie van een betrouwbaarheidsinterval: St. Voor alle steekproeven van een vaste grootte uit een populatie met gemiddelde µ waarvan het steekproefgemiddelde normaal verdeeld is, geldt dat 100(1 x)% van de 100(1 x)%-betrouwbaarheidsintervallen µ bevat en 100x% van de intervallen bevat µ niet. Bew. µ ligt in het 100(1 x)%-betrouwbaarheidsinterval rond X als geldt dat µ z kw σ X < X < µ + z kw σ X. (1) Voor z kw geldt dat P s(z z kw ) = x. Omdat X normaal verdeeld is met gemiddelde µ 2 en standaardafwijking σ X volgt daaruit dat de kans op (1) gelijk aan (1 x) is. Merk op: Voordat de steekproef heeft plaatsgehad is de kans dat het 100(1 x)%-betrouwbaarheidsinterval µ bevat (1 x). Nadat de steekproef heeft plaatsgehad, is die kans 0 of 1: het betrouwbaarheidsinterval bevat µ niet of wel. 23 / 27
Antwoord op een vraag: liegen Vb. Aan 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden gemiddelde was 0.4%. Aan een andere groep van 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen om iemands gevoelens te sparen. Het gevonden gemiddelde was 1%. Zijn die data 95% betrouwbaar, d.w.z. kunnen beide 95%-betrouwbaarheidsintervallen de ware gemiddeldes bevatten? Een 95% betrouwbaarheidsinterval op grond van de eerste steekproef, waarbij gegeven is dat s X = 0.0015, is CI 1 = (X t kw s X, X + t kw s X ) = (0.001, 0.007). Een 95% betrouwbaarheidsinterval op grond van de tweede steekproef, waarbij gegeven is dat s X = 0.0013, is CI 2 = (X t kw s X, X + t kw s X ) = (0.0074, 0.0126). Stel, Amerikanen liegen in werkelijkheid µ 1 % van de tijd en liegen µ 2 % van de tijd om iemands gevoelens te sparen. Dan moet gelden µ 1 µ 2. Omdat CI 2 rechts van CI 1 ligt kan het niet zo zijn dat beide intervallen de werkelijke gemiddeldes bevatten (CI i bevat µ i ). Het onderzoek is niet 95% betrouwbaar. 24 / 27
Schatten: zuivere schatters Def. Als een parameter θ van een populatie benaderd/geschat wordt door een statistiek t, dan is t een zuivere schatter als E(t) = θ. Hierbij is E(t) de verwachtingswaarde van t op grond van alle steekproeven van een vaste grootte uit de populatie. 25 / 27
Finis 26 / 27