Zin en onzin van normale benaderingen van binomiale verdelingen

Zin en onzin van normale benaderingen van binomiale verdelingen Johan Walrave, docent EHSAL 0. Inleiding Voordat het grafisch rekentoestel in onze school ingevoerd werd, was er onder de statistiekdocenten onenigheid over de impact van het rekentoestel op de didactische aanpak en de inhoud van het vak Statistiek. Sommigen beweerden dat alleen de tabellen zouden verdwijnen, anderen beweerden dat onze syllabus in de papiermand zou belanden. Nu drie jaar na de invoering kunnen we stellen dat de waarheid ergens in het midden ligt. Zo zijn bijvoorbeeld de tabellen effectief verdwenen en worden kansen meer en meer gevisualiseerd. Het standaardiseren heeft aan belang ingeboet maar is niet verdwenen en de benaderingen worden nog steeds gebruikt maar in andere situaties dan vroeger. Benaderen als er exact kan gewerkt worden, is onzin. Benaderen als een kans niet exact kan berekend worden, is uiteraard zinvol. Aan de hand van negen voorbeelden probeer ik het bovenstaande te illustreren. 1. De normale verdelingen Vroeger hadden we bij oefeningen over de normale verdeling een aantal vaste stappen : een schets maken, standaardiseren, alles in functie van de verdelingsfunctie schrijven en tenslotte de tabellen raadplegen. Sinds de invoering van het grafisch rekentoestel is het visueel aspect enorm toegenomen: kansen worden effectief berekend als oppervlaktes onder de kansdichtheid (zie Voorbeeld 1). Het ontbreken van een parameter is geen probleem meer, de Solver lost dit eenvoudig op (zie Voorbeeld 2). Als de twee parameters niet gekend zijn, dan blijft standaardiseren de handigste oplossing, het rekenwerk dat daarna komt wordt nu door het rekentoestel overgenomen (zie Voorbeeld 3). Voorbeeld 1 : Het IQ van Vlamingen is normaal verdeeld met een verwachte waarde van 100 en een standaardafwijking van 15. a. Maak een grafiek van de kansdichtheid van het IQ van Vlamingen. b. Bereken de kans dat een willekeurige Vlaming een IQ heeft dat gelegen is tussen 95 en 112. Oplossing: a. De kansdichtheid heeft als voorschrift 2 ( x 100) 2 2*15 1 fiq ( x) = e = normalpdf(x, 100, 15). 2 π *15 We voeren deze functie in, bepalen de grenzen van het tekenvenster en maken een grafiek, 1

b. De kans dat het IQ tussen 95 en 112 gelegen is, is gelijk aan de oppervlakte onder de kansdichtheid gelegen boven het interval [95, 112]. We berekenen (via CALCULATE) deze oppervlakte eerst grafisch en daarna via de functie normalcdf(ondergrens, bovengrens, µ, σ ). 2

Voorbeeld 2 : Het gewicht van een mandarijntje is normaal verdeeld. Gemiddeld weegt een mandarijntje 73g. De kans dat een mandarijntje meer dan 85g weegt bedraagt 5%. a. Bereken de standaardafwijking van het gewicht van één mandarijntje. b. De mandarijntjes worden in 3 categorieën verdeeld: klein, gewoon en groot. De categorie gewoon bevat 3 keer zo veel mandarijntjes als de categorie klein, die evenveel mandarijntjes bevat als de categorie groot. Hoeveel moet een mandarijntje wegen om tot de categorie gewoon te behoren? Oplossing: a. A1s X het gewicht in g is van een mandarijntje, dan weten we dat X normaal verdeeld is met µ = 73 en σ niet gekend. We weten wel dat PX> ( 85) = 0.05. Als we deze laatste gelijkheid in rekentoesteltaal vertalen geeft dit normalcdf(85, E99, 73, σ) -0.05 = 0. Dit is een vergelijking met 1 onbekende en die lossen we op met de Solver. b. De categorie gewoon bestaat uit de 60% middelste mandarijntjes qua gewicht. Dit betekent dat links van de ondergrens 20% gelegen is en links van de bovengrens 80% gelegen is, via de functie invnorm(oppervlakte links, µ, σ) berekenen we de gevraagde grenzen. Gewone mandarijntjes zijn mandarijntjes met een gewicht tussen 66.86g en 79.14g. 3

Voorbeeld 3 : Het gewicht van tennisspeelsters is normaal verdeeld. Nu blijkt dat 10% van de tennisspeelsters meer dan 70kg weegt en slechts 2,5% minder dan 50kg. Bereken de kans dat een willekeurig gekozen tennisspeelster minder dan 60kg weegt. Oplossing : Als G het gewicht in kg van een tennisspeelster is, dan weten we dat G normaalverdeeld is en dat PG ( < 50) = 0.025 en PG ( > 70) = 0.1. Het rekentoestel biedt hier weinig soelaas, daarom standaardiseren we eerst en krijgen we dat of nog 50 µ 70 µ = invnorm(0.025) en = invnorm(0.9) σ σ µ + invnorm(0.025) σ = 50 µ + invnorm(0.9) σ = 70 We zetten deze coëfficiënten in de matrix A en via de functie rref([a]) krijgen we de gezochte verwachte waarde en standaardafwijking. We lezen af dat µ = 62.1kg en σ = 6.17kg. De gevraagde kans is gelijk aan 0.3672. Conclusie: - de student kan zelf veel meer grafisch werken en veel minder abstract - geen tabellen meer nodig en standaardiseren wordt minder belangrijk - het rekenwerk wordt tot een minimum herleid 4

2. De binomiale verdelingen Door de beperktheid van de tabellen moesten we vroeger vrij snel overstappen op een benadering, dat is nu niet meer het geval. Dankzij het rekentoestel kunnen we veel meer kansen exact berekenen en kunnen we grafieken maken van de binomiale verdelingen (zie Voorbeeld 4). Het niet kennen van de kans op succes π is geen probleem meer, de solver lost dit vrij snel op. Zelfs het aantal herhalingen n bepalen is geen enkel probleem, het rekentoestel genereert de kanstabel van bijna alle binomiale verdelingen (zie Voorbeeld 5). Alleen als n zeer groot wordt, laat het rekentoestel ons in de steek (zie Voorbeeld 6). Voorbeeld 4: Uit een onderzoek blijkt dat 13.2% van de bevolking linkshandig is. Een groep van 63 willekeurig gekozen personen komt samen en we willen het aantal linkshandigen bestuderen. a. Maak een grafiek met daarop de kansfunctie van het aantal linkshandigen in deze groep. Duid op deze grafiek het modale aantal linkshandigen aan. b. Bereken de kans dat er meer dan 10 linkshandigen zijn in zo n groep. c. Men wil met minstens 95% zekerheid minstens 50 linkshandigen, hoeveel personen moet men dan minstens uitnodigen? Oplossing: a. We zetten de kanstabel van deze toevalsvariabele in de lijsten L1 en L2 en zetten vervolgens de STAT PLOT aan. Als we een mooie grafiek willen, dan moeten we een idee hebben waar dit staafdiagram gelegen is en wat zijn spreiding is. De verwachte waarde 63*0.132 = 8.316 is een kengetal van ligging en de standaardafwijking 8.316*(1 0.132) = 2.6867 leert ons iets over de spreiding. Na het instellen van het tekenvenster, tekenen we het gevraagde staafdiagram. 5

Uit de laatste grafiek volgt dat het modaal aantal linkshandigen 8 zal zijn, met een kans van 0.1483. Een pientere student merkt vanzelf op dat de grafiek de vorm heeft van een normale kansdichtheid. b. Grafisch is de gevraagde kans niets anders dan de oppervlakte van alle staafjes boven 11, 12, 13, 14,,63. Als we nu een benaderende normale kansdichtheid tekenen, kunnen we de oppervlakte helemaal grafisch berekenen. We tekenen op dezelfde grafiek de kansdichtheid van de normale verdeling met dezelfde kengetallen als de binomiale die we willen benaderen. Bij het berekenen van de benaderende oppervlakte moeten we goed nadenken wat we als ondergrens nemen. Het staafje boven 11 begint bij 10.5 en de studenten ontdekken vanzelf de continuïteitscorrectie. De exacte kans is gelijk aan 1 binomcdf(63, 0.132,10) = 0.2034. c. We definiëren X als het aantal linkshandigen in een groep van n willekeurig geselecteerde personen. X is binomiaal verdeeld met parameters n en 0.132. Nu zoeken we n zodanig dat PX ( 50) 0.95 of nog PX ( 49) 0.05. Deze laatste ongelijkheid vertalen we in rekentoesteltaal : binomcdf(n, 0.132, 49) 0.05 en kan op verschillende manieren opgelost worden. Een manier is het maken van een tabel (via TABLE en TBLSET) waarbij de n varieert en we deze n zoeken waarbij de gegeven kans voor het eerst onder de 5% duikt. 6

Als 13.2% van de bevolking linkshandig is, dan zullen we meer dan 400 mensen nodig hebben om met 95% zekerheid minstens 50 linkshandigen te hebben. De stap nemen we aanvankelijk van grootte 10 zodat we snel kunnen vaststellen dat het gezochte aantal gelegen is tussen 460 en 470. We verfijnen de stap tot grootte 1 en dit vanaf 460 Er moeten minstens 465 mensen uitgenodigd worden om met minstens 95% zekerheid minstens 50 linkshandigen te hebben. Voorbeeld 5: In een studie over adoptie door homo-koppels beweert men dat met 95% zekerheid meer dan 90% van een groep van 120 willekeurige Nederlanders voor adoptie door homokoppels is. Hoe groot is de kans dat een willekeurige Nederlander tegen homo-adoptie is? Oplossing : We definiëren X als het aantal Nederlanders dat voor homo-adoptie is in een groep van 120 Nederlanders. Deze toevalsvariabele is binomiaal verdeeld met parameters 120 en π = de kans dat een willekeurige Nederlander voor homo-adoptie is. Verder weten we dat PX> ( 108) = 0.95 of P(X 108)=0.05, deze laatste gelijkheid vertalen we in rekentoesteltaal : binomcdf(120, π, 108) = 0.05 en laten we oplossen door de Solver. De kans dat een willekeurige Nederlander tegen homo-adoptie is bedraagt 1 0.9413 = 0.0587. Conclusie: - de student kan zelf veel meer grafisch werken en veel minder abstract - geen tabellen meer nodig zodat er met realistische waarden kan gewerkt worden - er moet veel minder benaderd worden door een andere verdeling 7

3. Zin en onzin van benaderingen Voorbeeld 6 : In de veronderstelling dat het IQ van een Vlaming normaal verdeeld is met verwachte waarde 100 en standaardafwijking 15 en dat het IQ van de ene Vlaming onafhankelijk is van het IQ van een andere Vlaming, bereken dan de kans dat er a. meer dan 950 000 Vlamingen zijn met een IQ kleiner dan 85. b. meer dan 1 Vlaming is met een IQ groter dan 175. Je mag veronderstellen dat er 6 miljoen Vlamingen zijn. Oplossing: a. Eerst berekenen we de kans dat een willekeurige Vlaming een IQ heeft dat kleiner is dan 85: normalcdf(-e99, 85, 100, 15) = 0.1587. Daarna berekenen we de kans dat er op 6 miljoen Vlamingen meer dan 950 000 Vlamingen een IQ hebben dat kleiner is dan 85. Wie dit probeert via binomcdf( krijgt een foutmelding omdat het eerste argument (= het aantal herhalingen) kleiner dan 1 miljoen moet zijn. Kunnen we dan niets zeggen over deze kans? Jawel, we mogen de binomiale in dit geval benaderen door een normale verdeling met dezelfde kengetallen, namelijk µ = 951 931.5574 en σ = 894.9316. Een benadering voor de gevraagde kans is dan normalcdf(950 000.5, E99, µ, σ) = 0.9845. b. Eerst berekenen we de kans dat een willekeurige Vlaming een IQ heeft dat groter is dan 175: normalcdf(175, E99, 100, 15) = 2.871*10-7. Daarna berekenen we de kans dat er op 6 miljoen Vlamingen meer dan 1 Vlaming een IQ heeft dat groter is dan 175. Via binomcdf( lukt dit niet, maar kunnen we dan niets zeggen over deze kans? Jawel, we mogen de binomiale in dit geval benaderen door een Poisson verdeling met als parameter 6 000 000 * 2.871*10-7 = 1.7226. Een benadering voor de gevraagde kans is dan 1- poissoncdf(1.7226, 1) = 0.5137. De exacte kans kan in dit geval berekend worden via de complementregel en de kansfunctie van de binomiale, 8

De som van twee onafhankelijke binomiale verdelingen met dezelfde kans op succes is opnieuw binomiaal verdeeld, maar wat als de kans op succes verschillend is? Voorbeeld 7 : Van de 15-jarigen rookt 18.3% van de jongens en 19.1% van de meisjes. We selecteren aselect een groep van 45 15-jarige jongens en 54 15-jarige meisjes. Bereken dan de volgende kansen: a. de kans dat er juist 20 rokers zijn b. de kans dat er meer dan 20 rokers zijn Oplossing: Definieer X als het aantal jongens op 45 dat rookt, dan is X binomiaal verdeeld met parameters 45 en 0.183. Deze mag benaderd worden door XB, een normale verdeling met verwachte waarde 8.235 en variantie 6.728. Definieer Y als het aantal meisjes op 54 dat rookt, dan is Y binomiaal verdeeld met parameters 54 en 0.191. Deze mag benaderd worden door YB, een normale verdeling met verwachte waarde 10.314 en variantie 8.344. We kunnen nu X+Y benaderen door XB + YB een normale verdeling met verwachte waarde 8.235 + 10.314 = 18.549 en variantie 6.728 + 8.344 = 15.072. a. PX ( + Y= 20) P(19.5 XB+ YB 20.5) = normalcdf(19.5,20.5,18.549, 15.072 ) = 0.0956. We berekenen deze kans exact met het rekentoestel: b. De gevraagde kans is PX ( + Y> 20) en kan benaderd worden door PXB ( + YB> 20.5) = normalcdf(20.5,e99, 8.235 + 10.314, 6.728 + 8.344 ) = 0.3076. 9

Voorbeeld 8 : Er wordt beweerd dat 35% van de Vlaamse leerkrachten zou uitkijken naar een andere job. We willen deze uitspraak testen en nemen daarom een aselect staal van 100 leerkrachten. Uit een anonieme enquête blijkt dat 27 van hen effectief uitkijkt naar een andere job. Doe een 90% betrouwbare uitspraak over de gestelde bewering. Oplossing: We moeten een hypothesetest uitvoeren voor de populatieproportie π = het percentage Vlaamse leerkrachten dat uitkijkt naar een andere job. 1. H0 : π = 0.35 2. Ha : π 0.35 3. a = 0.1 4. Testfase : we confronteren de voorgestelde hypothese met het steekproefresultaat: Met behulp van de ingebouwde 1-PropZtest krijgen we een p-waarde die kleiner is dan 10%, waaruit we besluiten om de nulhypothese met 90% betrouwbaarheid te verwerpen. Als controle hebben we het 90% betrouwbaarheidsinterval ook berekend. We komen tot hetzelfde besluit, 0.35 is geen betrouwbare waarde voor π als we werken met 90% betrouwbaarheid. Voor alle zekerheid berekenen we de p-waarde exact en wat blijkt: de exacte p-waarde is groter dan 10%, dus kunnen we de nulhypothese niet verwerpen. 10

Hoe ziet het exacte 90% betrouwbaarheidsinterval van π er dan uit? We zoeken die populatieproporties die betrouwbaar zijn bij dit steekproefresultaat met als betrouwbaarheid 90%. We zoeken dus die proporties π 0 die niet verworpen worden bij een tweezijdige hypothesetoets: 1. H0 : π = π 0 2. Ha : π π 0 3. a = 0.1 4. Testfase : als H0 juist is, is 100 Pˆ binomiaal verdeeld met parameters 100 en π 0. We veronderstellen eerst dat π 0 groter is dan 0.27, de éénzijdige p-waarde is P( 100P ˆ 27 ) en we zoeken die waarden zodanig dat deze p-waarde gelijk is aan 5% We veronderstellen dan dat π 0 kleiner is dan 0.27, de éénzijdige p-waarde is P( 100P ˆ 27) = 1 P(100Pˆ 26) ) en we zoeken die waarden zodanig dat deze p-waarde gelijk is aan 5% Hieruit blijkt dat het exacte betrouwbaarheidsinterval [0.1979, 0.3526] is, wat toch niet hetzelfde is als het benaderend interval [0.197, 0.343]. We besluiten ook hier dat 0.35 een betrouwbare waarde is. 11

Voorbeeld 9 : In opdracht van Testaankoop werd een onderzoek gestart naar de veiligheid in Vlaamse zonnecentra. Een aselect staal van 50 zonnecentra werd onderzocht en 5 van deze zonnecentra voldeden helemaal niet aan de voorgeschreven veiligheidsnormen. Geef een 99% betrouwbaarheidsinterval voor het percentage onveilige zonnecentra in Vlaanderen. Oplossing: Op het eerste gezicht lijkt een betrouwbaarheidsinterval op basis van een normale benadering geen probleem, er zijn immers 50 herhalingen en 5 successen. We gebruiken daarom de ingebouwde functie van het rekentoestel. Met 99% betrouwbaarheid kunnen we stellen dat het percentage onveilige zonnecentra gelegen is tussen 1% en 21%. Maar liggen proporties niet altijd in het interval [0, 1]? Effectief, de normale benadering zorgt ervoor dat er nonsens verschijnt op ons rekentoestel. Het exacte betrouwbaarheidsinterval moet opgesteld worden. Om niet telkens de volledige constructie te moeten doorlopen, hebben we een programma geschreven dat exacte betrouwbaarheidsintervallen berekent voor proporties. Dit ziet er al veel beter uit, met 99% betrouwbaarheid ligt het percentage onveilige zonnecentra in Vlaanderen tussen 2% en 25.8%. Conclusie: - benaderen blijft nuttig, maar exact werken is altijd beter en dankzij het rekentoestel kan de exacte oplossing vaak effectief berekend worden. 12