TOETSEN VAN HYPOTHESEN 9 9.1 EEN TOETS VOOR DE POPULATIEPROPORTIE Probleem 1 Anna beweert bij hoog en bij laag dat door een dobbelsteen te schudden voor gebruik, je het resultaat in je voordeel kunt beïnvloeden. Haar broer Jorre gelooft hier niets van. Ze besluiten 120 keer te gooien met een (onvervalste) dobbelsteen. Anna schudt telkens de dobbelsteen en doet de wens een 6 te gooien. Ze gooit 27 keer een 6. Wat bewijst deze steekproef? Bespreking Jorre gelooft zoals de meeste mensen dat de kans op het gooien van 6 ogen gelijk is aan 1 op 6. Hij verwacht dus in de steekproef ongeveer 20 zessen. Het toeval speelt uiteraard mee in deze steekproef. De vraag is nu of gooien van 27 keer 6 zo uitzonderlijk is dat we kunnen vermoeden dat het schudden hier iets mee te maken heeft. Hoe groot is de kans dat we met een eerlijke dobbelsteen minstens 27 van de 120 keer een 6 gooien? Noem X de stochast die het aantal zessen in de steekproef telt. De stochast X is binomiaal verdeeld met n = 120 en p =. Dus is 1 2 In zowat 6 % van de gevallen zal de steekproef dus minstens 27 zessen opleveren. Anna en Jorre spraken vooraf af dat, indien de uitkomst van het experiment zo extreem zou zijn dat het slechts in 5 % van de gevallen voorkomt, Jorre zijn mening zou herzien. Gezien de uitslag blijft Jorre dus bij zijn standpunt. BEGRIPPEN De nulhypothese H 0 is de bewering die ter discussie staat. In het probleem was H 0 : De kans op het werpen van een 6 is altijd. Dus H 0 : p =. De hypothese van diegenen die H 0 betwisten, is de alternatieve hypothese H a. In het probleem was H a : De kans op het werpen van een 6 is bij het schudden groter dan. Dus H a : p >. De P-waarde van de uitkomst van een experiment is de kans op waarden die minstens even extreem zijn als die uitkomst (in de richting van de alternatieve hypothese), gesteld dat de nulhypothese waar is. 1
TOETSEN VAN HYPOTHESEN 9.1 POPULATIEPROPORTIE De P-waarde van de uitkomst 27 in het experiment is 6 %, dit wil zeggen 6 % van de steekproeven zal een uitkomst opleveren die minstens even sterk in de richting van de alternatieve hypothese wijst. Hoe kleiner de P-waarde van de uitkomst, hoe meer de proef erop wijst dat H 0 moet verworpen worden. Vanaf welke P-waarde de nulhypothese verworpen wordt, is een afspraak. Meestal neemt men hiervoor 5 % of 1 %. Deze bij afspraak vastgelegde waarde noemt men het significantieniveau. Is de P-waarde van de uitkomst kleiner dan het significantieniveau, dan is het verschil tussen de uitkomst en de verwachte uitkomst significant (betekenisvol) genoeg om H 0 in twijfel te trekken. Voorbeeld Beschouw opnieuw het probleem van de dobbelsteen. a) Vanaf hoeveel zessen in de steekproef wordt de nulhypothese verworpen? b) Veronderstel dat Jorre een significantieniveau van 1 % eist. Vanaf hoeveel zessen in de steekproef wordt de nulhypothese nu verworpen? Oplossing Om de P-waarden van alle mogelijke uitkomsten van het experiment te zien, genereren we deze lijst op de rekenmachine. De lijst L 1 bevat alle mogelijke uitkomsten (gegenereerd via het commando seq(x,x,0,120) in de lijsthoofding). Nu is bijvoorbeeld de P-waarde die hoort bij 26 gelijk aan. We genereren deze P-waarden in lijst L 2 via het commando in de lijsthoofding. a) De P-waarde van 28 bedraagt 3,7 %. Dit is de eerste P-waarde onder de 5 %. Worden minstens 28 zessen geworpen, dan aanvaardt Jorre zijn ongelijk. Deze waarde 28 wordt soms ook wel het kritiek punt genoemd. b) De P-waarde van 31 bedraagt 0,7 %. Dit is de eerste P-waarde onder de 1 %. Bij een significantieniveau van 1 % aanvaardt Jorre zijn ongelijk vanaf 31 zessen. Opgelet! Gelijk krijgen is in de statistiek geen synoniem voor gelijk hebben. Zo is het goed mogelijk dat het schudden wel invloed heeft op de worp met de dobbelsteen, maar dat dit toevallig in deze steekproef niet tot uiting kwam. In dat geval hebben we Jorre ten onrechte gelijk gegeven. Op dezelfde manier is het mogelijk dat Jorre gelijk had, maar bij toeval heel veel zessen in de steekproef verschenen. In dat geval hebben we Anna ten onrechte gelijk gegeven. 2
9.1 POPULATIEPROPORTIE TOETSEN VAN HYPOTHESEN Probleem 2 Het slaagcijfer bij een eerste deelname aan het rijexamen bedraagt 55 %. Rijschool 2-PK beweert een slaagcijfer van 70 % te behalen. We bekijken het aantal kandidaten dat de laatste maand les volgde bij 2-PK : hieruit blijkt dat van de 100 kandidaten, er 64 slaagden voor het examen. a) Formuleer de nulhypothese en de alternatieve hypothese. b) Wat is de conclusie van een test met significantieniveau 5 %? c) Wat is de conclusie van een test met significantieniveau 1 %? Bespreking a) Stel het slaagpercentage voor door p. Op het eerste gezicht is er geen reden om aan te nemen dat de rijschool 2-PK betere prestaties zou behalen, daarom is H 0 : p = 55 % en H a : p = 70 % b) De P-waarde van de uitkomst is:. Aangezien deze P-waarde kleiner is dan 5 %, verwerpen we de nulhypothese. We besluiten dat rijschool 2-PK een grotere slaagkans biedt. c) Aangezien de P-waarde groter is dan 1 %, verwerpen we de alternatieve hypothese. We besluiten dat rijschool 2-PK geen grotere slaagkans biedt. Probleem 3 Pienter, onze jobstudent uit hoofdstuk 1, doet een tevredenheidsonderzoek bij de klanten van het stofzuigerbedrijf Al Lergie. Hij besluit dat 70 % tevreden is. Het statistisch bureau waar hij werkt heeft weinig vertrouwen in Pienter, en controleert zijn besluit via een steekproef. a) Formuleer de nulhypothese en de alternatieve hypothese. b) Van de 75 ondervraagden in de steekproef blijken er 45 tevreden. Wat kunnen we besluiten na een toets met significantieniveau 5 %? Bespreking a) Stel het percentage tevreden klanten voor door p. Het bureau heeft (voor de steekproef) geen aanwijzingen in de richting van een groter of een kleiner percentage, de alternatieve hypothese is dus gewoon dat het cijfer 70 % niet klopt. H 0 : p 70 % en H a : p 70 % Omdat hier bij voorbaat geen vermoeden is dat het echte percentage groter of kleiner dan 70 % is, noemt men dit een tweezijdige toets. 3
TOETSEN VAN HYPOTHESEN 9.2 POPULATIEGEMIDDELDE b) Een significantieniveau van 5 % wil zeggen dat we de nulhypothese verwerpen als de uitkomst van de steekproef bij de 5 % meest toevallige waarden ligt. Aangezien we hier tweezijdig toetsen, moeten we de toevallige waarden zowel links als rechts van de verdeling bekijken. We verwerpen de nulhypothese dus als de uitkomst van de steekproef bij de 2,5 % grootst of bij de 2,5 % kleinst mogelijke uitkomsten hoort. Nu is P(X 45) = binomcdf(75,0.7,45) 4 %. De nulhypothese wordt dus niet verworpen. 9.2 EEN TOETS VOOR HET POPULATIEGEMIDDELDE Probleem 4 Het gemiddelde geboortegewicht in Vlaanderen is normaal verdeeld met gemiddelde 3,3 kg en standaardafwijking 0,55 kg. Men wil onderzoeken of het roken van de moeder tijdens de zwangerschap een lager geboortegewicht veroorzaakt. Men voert een steekproef bij 50 rokende moeders uit. Het gemiddelde geboortegewicht van de baby s blijkt hier 3,15 kg te zijn. a) Formuleer de nulhypothese en de alternatieve hypothese. b) Wat is de conclusie van een test met significantieniveau 5 %? c) Wat is de conclusie van een test met significantieniveau 1 %? Bespreking a) H 0 : µ = 3,3 kg en H a : µ 3,3 kg b) Uit paragraaf 8.3 weten we dat het steekproefgemiddelde normaal verdeeld is met gemiddelde µ = 3,3 en standaardafwijking. Hieruit volgt P( 3,15) = normalcdf ( E99,3.15,3.3,0.08) 3 % < 5 %. De nulhypothese wordt verworpen. c) In dit geval wordt de nulhypothese niet verworpen. 4
OEFENINGEN TOETSEN VAN HYPOTHESEN OEFENINGEN BIJ 9.1 1 Zijn er evenveel mannen als vrouwen op de festivalweide in Werchter? Om dit te onderzoeken doet men een steekproef bij 100 mensen uit het publiek. Daarvan zijn 46 mannen en 54 vrouwen. Wat kunnen we daaruit afleiden? 2 Het bedrijf Pepsi-cola beweert dat de smaak van hun brouwsel niet te onderscheiden is van echte cola. De makers van echte cola vechten dit aan. Uit een steekproef met 54 ervaren proevers blijkt dat 30 onder hen de echte cola blindelings onderscheiden van Pepsi-cola. Wat is het besluit uit deze test, als het significantieniveau 5 % is? 3 Het pizzabedrijf Pizza Minuta, een gevestigde waarde in de stad, gaat er prat op 70 % van de leveringen binnen de 10 minuten af te leveren. Het bedrijf krijgt concurrentie van Pizza Seconda, dat beweert 85 % van de leveringen binnen de 10 minuten te kunnen bestellen. Pizza Minuta doet een geheim onderzoek en stelt vast dat van 45 leveringen, hun concurrent er 35 binnen de 10 minuten levert. Onderzoek het gevolg van de keuze van de nulhypothese op het besluit van de test. 4 Een ouder klaagt bij uitgeverij Van In dat het werken met de cd-rom van Pienter verslavend werkt voor zijn kinderen. Volgens zijn bevindingen komt deze verslaving bij 30 % van de Pienter-gebruikers voor. Uitgeverij Van In stelt een onderzoek in. Uit een steekproef bij 150 leerlingen blijkt dat 60 onder hen aan een cd-romverslaving lijden. Wat leert die steekproef? Test met een significantieniveau van 5 % 5 Bekijk opnieuw probleem 3 uit paragraaf 9.1. Veronderstel dat het statistisch bureau voor de steekproef sterke aanwijzingen heeft dat de tevredenheid lager ligt dan 70 %. Formuleer opnieuw de nulhypothese en de alternatieve hypothese en test met een significantieniveau van 5 %. 6 De Engelsman Kerrich was tijdens de Tweede Wereldoorlog krijgsgevangen. Om de tijd te doden gooide hij 10 000 keer met een munt en registreerde hoeveel keer kop boven kwam. Na 100 keer gooien verkreeg hij 44 keer kop; na 10 000 keer gooien was dat 5 067 keer. Ging het om een eerlijke munt? a) Vergelijk de relatieve frequentie van het aantal keer kop na 100 en 10 000 keer. b) Test zowel na 100 keer als na 10 000 keer met een significantie van 5 %. c) Wanneer kunnen we er het zekerst van zijn dat deze munt eerlijk is: na 100 of na 10 000 worpen? Vergelijk de resultaten van a) en b). 5
TOETSEN VAN HYPOTHESEN OEFENINGEN 7 In 2002 werden in ons land 111 225 kinderen geboren: 57 044 jongens en 54 181 meisjes. Wat kunnen we uit deze cijfers afleiden over de hypothese dat de kans op een jongen of een meisje even groot is? 8 De eigenaar van een casino aan de Belgische kust beweert dat het roulettewiel perfect gebalanceerd is. Een perfect wiel komt gemiddeld 18 keer op 37 op rood. Een gokker die intussen bankroet is klaagt het casino aan voor oneerlijke praktijken. Een steekproef toont dat bij 2 000 keer spelen, het wiel 895 keer op rood kwam. Wie heeft de gunstigste kaarten tijdens de rechtszaak: de casino-uitbater of de gokker? 9 In 1954 testte men het Salk-vaccin tegen polio uit in een experiment. Van de 40 000 kinderen betrokken bij het experiment, kreeg de éne helft het vaccin toegediend, de andere helft een placebo. In de eerste groep stelde men 57 gevallen van polio vast, in de andere groep 142. Wat kan men uit het experiment besluiten over de werking van het vaccin? Test met een significantie van 1 %. 10 11 Een bepaalde wijk wordt geteisterd door inbraken. Als reactie hierop richt men een buurtwacht op, die elke avond patrouilleert in de wijk. Volgens het buurtcomité zijn de resultaten verbazingwekkend: vorig jaar werden 71 inbraken of inbraakpogingen geregistreerd, dit jaar (na de oprichting van de buurtwacht) zijn dat er slechts 49. Is dit verschil inderdaad significant? De fabrikant van een bepaald soort nicotinepleister beweert dat zijn product in 60 % van de gevallen werkt. a) Een huisarts vermoedt dat de fabrikant overdrijft, en probeert het middel uit onder zijn rokende patiënten, en stelt vast dat hij bij 12 van de 24 rokers goede resultaten bereikt. Wat leert een toets met significantie 5 %? b) Zijn collega heeft een groepspraktijk en test ook het middel uit. Bij 45 van de 90 rokers bereikt hij resultaat. Wat leert de toets nu? c) Verklaar wat we vaststellen bij het vergelijken van a) en b). 6
12 13 OEFENINGEN Bekijk het krantenartikel (Nieuwsblad, januari 2002). a) Is de conclusie van de Poolse onderzoekers terecht? b) Hoeveel keer moet het Poolse muntstuk van twee zloty met de kop naar boven belanden, om een even significant verschil op te leveren? TOETSEN VAN HYPOTHESEN Euromunten landen vaker met Albert boven D e Belgische euromunt landt vaker met de kopzijde de beeltenis van Albert II naar boven dan andersom. Dat hebben Poolse wiskundigen uitgevlooid nadat ze kop of munt speelden met onze nationale euro. Tomasz Gliszcynski en Waclaw Zawadowski van de Podlaska-academie van Siedlce probeerden de Belgische euromunt 250 keer en stelden vast dat koning Albert 140 keer boven kwam te liggen. Wanneer eurocenten werden gebruikt, eindigde de kopzijde nog vaker boven. De euro is asymmetrisch. Hetzelfde fenomeen doet zich voor bij de Poolse stukken van twee zloty, die we 10.000 keer hebben opgegooid, legt Gliszcynski uit. De Poolse vorsers lieten de munten ronddraaien op een tafel, maar beweren dat dezelfde tendens zich voordoet wanneer de munten worden opgegooid. (Belga) Piet Zeur vermoedt dat een bepaalde dobbelsteen vervalst is: hij heeft de indruk dat de 1 veel vaker voorkomt dan normaal. a) Bepaal de nulhypothese en de alternatieve hypothese. b) Piet doet een steekproef van 50 worpen en test met een significantieniveau van 5 %. Bepaal het kritiek punt (dit wil zeggen het kleinste aantal keer 1 dat in de steekproef moet voorkomen opdat Piet de nulhypothese verwerpt.) c) Hoe groot is de kans dat de dobbelsteen eerlijk is, en Piet na de steekproef toch tot het besluit komt dat de steen vervalst is? d) Veronderstel dat de steen vals is, en de kans op een 1 eigenlijk is. Hoe groot is de kans dat Piet na de steekproef toch besluit dat de steen eerlijk is? e) Herhaal vragen b), c) en d) indien getoetst wordt met een significantieniveau van 1 %. Vergelijk de resultaten met de toets bij een significantie van 5 %. OEFENINGEN BIJ 9.2 14 15 De machines bij een conservenbedrijf zijn ingesteld voor het vullen van blikjes van 500 gram. Het gewicht van de gevulde blikjes is normaal verdeeld met standaardafwijking 4,5 gram. Van een bepaalde oudere machine vermoedt men dat er iets fout loopt. Daarom doet men een steekproef van 100 blikjes. Daaruit blijkt dat die blikjes gemiddeld 499 gram bevatten. Wat vertelt een toets met significantieniveau 5 % over de betrouwbaarheid van de machine? Volgens cijfers van het Belgische leger was de gemiddelde lengte van de 18-jarige dienstplichtigen in 1977 normaal verdeeld met gemiddelde 180,1 cm en standaardafwijking 7,2 cm. Sinds enige tijd blijken de uniformen te krap. Men vermoedt dus dat de gemiddelde lengte is toegenomen. In een steekproef van 30 rekruten blijkt de gemiddelde lengte 182,6 cm te zijn. Is dit verschil significant op het 5 %-niveau? 7
TOETSEN VAN HYPOTHESEN SAMENVATTING KENNEN: Procedure bij het uitvoeren van een toets in verband met een proportie: a) Formuleer de nul- en de alternatieve hypothese. De nulhypothese is van de vorm p = p 0. De alternatieve hypothese is van de vorm p p 0, p p 0, p p 0 of p p 1. b) Spreek een significantieniveau af (meestal 5 % of 1 %). c) Voer een steekproef uit. Bepaal de P-waarde van de uitkomst. Dit is de kans op waarden die even extreem zijn als die uitkomst, gegeven dat de nulhypothese geldig is. d) Is de P-waarde kleiner dan het significantieniveau, dan wordt de nulhypothese verworpen. In het andere geval wordt de alternatieve hypothese verworpen. KUNNEN: De nulhypothese en de alternatieve hypothese formuleren. Een toets met een gegeven significantieniveau uitvoeren. 8