5 Toetsen. 5.1 Nulhypothese en Alternatieve Hypothese

Vergelijkbare documenten
Hoofdstuk 3 Statistiek: het toetsen

Toetsen van Hypothesen. Het vaststellen van de hypothese

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

Hoofdstuk 6 Twee populaties: parametrische toetsen

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Sheets K&S voor INF HC 10: Hoofdstuk 12

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Toetsen van hypothesen

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Verklarende Statistiek: Toetsen. Zat ik nou in dat kritische gebied of niet?

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, uur.

Kansrekening en Statistiek

Toegepaste Statistiek, Week 6 1

Samenvatting Statistiek

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

Toegepaste Statistiek, Week 3 1

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

Statistiek voor A.I.

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor A.I. College 10. Donderdag 18 Oktober

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Wiskunde B - Tentamen 2

15.1 Beslissen op grond van een steekproef [1]

Data analyse Inleiding statistiek

Bijlage Bijlage 3. Statistische toetsing: werkwijze, toetsen, formules, toepassing

Wiskunde B - Tentamen 1

Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Kansrekening en Statistiek

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Lesbrief hypothesetoetsen

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

Statistiek = leuk + zinvol

Opgeloste Oefeningen Hoofdstuk 8: Het Toetsen van Hypothesen

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 4 Hypothese toetsen

Inleiding Statistiek

Oefenvragen bij Statistics for Business and Economics van Newbold

Kansrekening en Statistiek

werkcollege 6 - D&P10: Hypothesis testing using a single sample

Statistiek voor A.I. College 14. Dinsdag 30 Oktober

Voorbeeldtentamen Statistiek voor Psychologie

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

Hoofdstuk 8: Het Toetsen van Hypothesen (Extra Oefeningen)

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31

Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing

Examen Statistiek I Feedback

Kansrekening en Statistiek

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Statistiek ( ) eindtentamen

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

Voorbeelden van gebruik van 5 VUSTAT-apps

Examen G0N34 Statistiek

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

11.0 Voorkennis. Wanneer je met binomcdf werkt, werk je dus altijd met een kans van de vorm P(X k)

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Kansrekening en Statistiek

Inleiding Applicatie Software - Statgraphics

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Populaties beschrijven met kansmodellen

Voorbehouden voor de correctoren Vraag 1 Vraag 2 Vraag 3 Vraag 4 Vraag 5 Totaal. Toets Kansrekenen I. 28 maart 2014

werkcollege 7 - D&P10: Hypothesis testing using a single sample

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

Uitwerkingen Mei Eindexamen VWO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Tentamen Kansrekening en statistiek wi2105in 25 juni 2007, uur

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Medische Statistiek Kansrekening

Hoofdstuk 5: Steekproevendistributies

Hertentamen Biostatistiek 3 / Biomedische wiskunde

Kansrekening en Statistiek

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

. Dan geldt P(B) = a d. 3 8

Correctievoorschrift VWO. Wiskunde A (oude stijl)

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK

Examen G0U13 Bewijzen en Redeneren Bachelor 1ste fase Wiskunde. vrijdag 31 januari 2014, 8:30 12:30. Auditorium L.00.07

Zeldzame en extreme gebeurtenissen

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen.

Transcriptie:

5 Toetsen Bij wetenschappelijk onderzoek, in de industrie en in het dagelijks leven is het vaak gewenst na te gaan of bepaalde vragen al dan niet bevestigend beantwoord kunnen worden. Helpt een bepaalde therapie? Speelt leeftijd of sekse van de patiënt hierbij een rol? Is het ene type auto veiliger dan het andere? Bevat een partij excessief veel defecte artikelen? Gaat het ene type lamp langer mee dan het andere? Komt het DNA-profiel van de verdachte overeen met het DNA-profiel dat gevonden is op de plaats van het misdrijf? Zijn de log returns van beurswaarden op verschillende dagen onafhankelijk? Et cetera. Antwoorden op dergelijke vragen worden gebaseerd op de uitkomsten van experimenten of onderzoeken. In veel gevallen laten de uitkomsten van die experimenten echter geen ondubbelzinnig antwoord toe. Als een nieuwe therapie bij 100 patiënten wordt beproefd, en in 64 gevallen goede resultaten geeft, terwijl dat bij de oude therapie in 50% van de patiënten het geval is, is de nieuwe therapie dan ook werkelijk beter dan de oude of hebben we geluk gehad? Als bij 75 van de 100 patiënten verbetering optreedt kan van toeval toch geen sprake meer zijn,... of toch wel? Is een waargenomen steekproefcorrelatiecoëfficiënt van 0.17 significant verschillend van 0? De toetsingstheorie is erop gericht dit beslissingsproces, waarin gekozen moet worden tussen twee conflicterende hypothesen, te formaliseren. 5.1 Nulhypothese en Alternatieve Hypothese De beslissing tussen conflicterende hypothesen wordt gebaseerd op een geschikt statistisch model voor de waarneming X. De hypothesen worden gecodeerd in parameterwaarden die de kansverdelingen in het statistische model indiceren. We zullen ons hier beperken tot twee hypothesen. De para-

5.1: Nulhypothese en Alternatieve Hypothese 107 meter θ behoort ofwel tot een verzameling Θ 0, corresponderend met de ene hypothese, ofwel tot het complement Θ 1 = Θ \ Θ 0, waarbij Θ = Θ 0 Θ 1 een disjuncte splitsing van de gehele parameterruimte Θ is. We noemen de hypothese H 0 : θ Θ 0 de nulhypothese en de hypothese H 1 : θ Θ 1 de alternatieve hypothese. In de standaard toetsingsaanpak (die door de meeste gebruikers van de statistiek wordt gevolgd) worden de nul- en alternatieve hypothese niet symmetrisch behandeld. Het gaat er vooral om te weten te komen of de alternatieve hypothese juist is. Mocht de data hiervoor onvoldoende aanwijzing opleveren, dan besluiten we niet noodzakelijkerwijze dat de alternatieve hypothese onjuist is (en de nulhypothese juist); het is ook mogelijk dat voor geen van beide hypothesen voldoende bewijs is. De statistische analyse kan zo tot twee conclusies leiden: - Verwerp H 0 (en accepteer H 1 als zijnde correct). - Verwerp H 0 niet (maar accepteer H 0 niet als correct). De eerst mogelijke conclusie is een sterke conclusie; de tweede is eigenlijk geen conclusie. De tweede conclusie moet worden begrepen als een uitspraak dat meer informatie nodig is om tot een conclusie te komen. Doen we op grond van onze waarnemingen uitspraken over de hypothesen, dan kunnen we twee soorten fouten maken, corresponderend met het ten onrechte besluiten tot één van de twee mogelijke conclusies: - Een fout van de eerste soort is H 0 verwerpen als H 0 correct is. - Een fout van de tweede soort is H 0 niet verwerpen als H 0 incorrect is. Een fout van de eerste soort correspondeert met het ten onrechte besluiten tot de sterke conclusie. We beschouwen dit als zeer ongewenst. Een fout van de tweede soort correspondeert met het ten onrechte besluiten tot de zwakke conclusie. Dit is ongewenst, maar omdat de zwakke conclusie eigenlijk geen conclusie is, minder erg. Vanwege de asymmetrische behandeling van de hypothesen H 0 en H 1 bij de keuze van een toets, mag aan het niet-verwerpen van H 0 niet veel betekenis worden gehecht. Het is daarom van groot belang de nulhypothese en de alternatieve hypothese geschikt te kiezen. In principe kiezen we de uitspraak die we willen aantonen als alternatieve hypothese. Vervolgens stellen we ons als het ware op het H 0 -standpunt: we verwerpen H 0 alleen als er sterke aanwijzingen tegen H 0 zijn. Voorbeeld 5.1 (Multinomiale verdeling). Bij het spelen met oneerlijke dobbelstenen zijn de kansen op het werpen van de verschillende aantallen ogen, p 1,..., p 6, niet allemaal gelijk aan 1/6. Zo gebruikt James Bond in de film Octopussy tijdens een spelletje backgammon verzwaarde dobbelstenen waarmee hij met kans (nagenoeg) gelijk aan 1 zes ogen gooit. Voor zijn dobbelstenen geldt (p 1, p 2, p 3, p 4, p 5, p 6 ) (0, 0, 0, 0, 0, 1). Het onderliggende statistische model is dat het aantal ogen bij een enkele worp X, multinomiaal verdeeld is met parameters (1, θ), met θ = (p 1,..., p 6 ). In het statistische model kunnen we de parameterruimte voor θ gelijk nemen aan Θ = {(p 1, p 2, p 3, p 4, p 5, p 6 ) [0, 1] 6 : 6 i=1 p i = 1}.

108 5: Toetsen Stel dat we de dobbelstenen van onze tegenstander in een spelletje backgammon niet vertrouwen. We vermoeden dat hij de kansen op de verschillende uitkomsten kunstmatig heeft veranderd. De nulhypothese om formeel te toetsen of een dobbelsteen oneerlijk is, luidt dan H 0 : p i = 1/6, i = 1,..., 6 en de alternatieve hypothese is H 1 : p i 1/6 voor tenminste één i {1,..., 6}. De nulhypotheseruimte Θ 0 is dan een deelruimte van Θ bestaande uit slechts één punt: Θ 0 = {(1/6, 1/6, 1/6, 1/6, 1/6, 1/6)}. Wanneer alleen de uitkomst van zes ogen ons interesseert, kunnen we de nulhypothese H 0 : p 6 = 1/6 versus H 1 : p 6 1/6 toetsen. In dat geval is de nulhypotheseruimte gelijk aan Θ 0 = {(p 1, p 2, p 3, p 4, p 5, 1/6) [0, 1] 6 : 5 i=1 p i = 5/6}. Voorbeeld 5.2 (Twee steekproeven). Figuur 5.1 toont boxplots van de mate van expressie van een gen in twee verschillende typen tumoren. De steekproeven zijn respectievelijk 26 en 15 tumoren groot. De vraag is of het gen in het ene type tumor meer tot expressie is gekomen dan in het andere type tumor. De boxplot geeft niet onmiddellijk uitsluitsel op deze vraag. Weliswaar ligt de doos van de tweede steekproef hoger dan die voor de eerste, maar er is een duidelijke overlap en het bereik van de tweede steekproef ligt duidelijk binnen het bereik van de eerste steekproef. Dit laatste zou betekenis kunnen hebben, maar ook een gevolg kunnen zijn van het feit dat de steekproeven ongelijke groottes hebben. Een formele toets kan helpen de vraag te beantwoorden. Een redelijk statistisch model is dat de twee steekproeven X 1,..., X 26 en Y 1,..., Y 15 onafhankelijke steekproeven zijn uit de normale verdelingen met, respectievelijk, parameters (µ, σ 2 ) en (ν, τ 2 ). We willen dan de nulhypothese H 0 : µ = ν tegen het alternatief H 1 : µ ν toetsen. De parameter kunnen we hier gelijk nemen aan θ = (µ, ν, σ 2, τ 2 ) met parameterruimte Θ = R 2 (0, ) 2. De nulhypothese is de deelverzameling Θ 0 = {(µ, µ): µ R} (0, ) 2. Voorbeeld 5.3 (Aanpassing). Het Black-Scholes model voor log returns op aandelen (zie Voorbeeld 3.9) zegt dat deze log returns kunnen worden opgevat als onafhankelijke trekkingen uit een normale verdeling. De verdeling van de log returns is belangrijk zowel voor risk management als voor het prijzen van derivaten (zoals opties). Als normaliteit wordt aangenomen, maar de log returns bezitten in werkelijkheid een verdeling met dikkere staarten (veel extreme waarden), dan loopt een houder van deze aandelen meer risico dan is ingecalculeerd, en een optieprijs zal niet reëel zijn. Daarom is het interessant om de aanname van normaliteit te toetsen. Kunnen de log returns worden opgevat als een steekproef uit een normale verdeling, of niet? In Hoofdstuk 3 hebben we gezien hoe de verdeling van een steekproef ook grafisch, bijvoorbeeld middels een QQ-plot, kan worden beoordeeld.

5.2: Toetsingsgrootheid en Kritiek Gebied 109-0.6-0.4-0.2 0.0 0.2 0.4 Figuur 5.1. Boxplots van de mate van expressie van een gen gemeten in twee groepen van 26 (links) en 15 (rechts) tumoren. Het is niet de bedoeling deze grafische methoden nu te vervangen door formele toetsen; veeleer beschouwen we de toetsen als een aanvulling. De formele opzet van de toetsingstheorie is een voordeel vanwege de helderheid, maar heeft als nadeel dat alleen een wel/niet antwoord wordt verkregen, zonder inzicht te krijgen in het soort afwijkingen van normaliteit in het geval het antwoord niet is. Aan de andere kant is de toetsingsmethode zeer geschikt om een vermeende afwijking in een QQ-plot op een objectieve wijze te bevestigen of te ontkennen. Naast de marginale verdeling van een steekproef kunnen we ook andere aspecten met behulp van een toets onderzoeken. In het geval van de log returns is bijvoorbeeld de tijdsafhankelijkheid interessant. Toetsen om na te gaan of de verdeling van een waarneming tot een bepaalde familie behoort worden aanpassingstoetsen (Engels: goodness-of-fit tests) genoemd. In Paragraaf 5.5.4 gaan we nader in op dit probleem. 5.2 Toetsingsgrootheid en Kritiek Gebied Op basis van de waarneming X moeten we besluiten of er voldoende aanwijzingen tegen de nulhypothese H 0 zijn, zodat we H 0 willen verwerpen en de bewering onder de alternatieve hypothese als correct willen beschouwen. De waarden van X waarvoor de aanwijzingen sterk genoeg zijn vormen het zogenaamde kritieke gebied K. Voor deze waarden van X hebben we voldoende vertrouwen in de alternatieve hypothese om de H 0 te verwerpen. Definitie 5.4. Bij een gegeven nulhypothese H 0 wordt een statistische

110 5: Toetsen toets (Engels: test) gegeven door een een verzameling K van mogelijke waarden van de waarneming X, het kritieke gebied. Veronderstel dat x is waargenomen. Als x K, dan verwerpen we H 0 ; als x / K, dan verwerpen we H 0 niet. Met name als X = (X 1,..., X n ) een vector van waarnemingen is, is het vaak lastig om op basis van X in te zien of de uitspraak onder de alternatieve hypothese juist kan zijn. Daarom vatten we de data vaak samen in een toetsingsgrootheid. Een toetsingsgrootheid is een reëelwaardige grootheid T = T (X) die gebaseerd is op de data en informatie geeft over de juistheid van de nul- en de alternatieve hypothese; de toetsingsgrootheid hangt dus niet van de onbekende parameter af. Het kritieke gebied K heeft veelal de vorm {x: T (x) K T }, of kortweg {T K T }, voor een toetsingsgrootheid T en een verzameling K T in het bereik van T. In de praktijk wordt de verzameling K T vaak ook wel het kritieke gebied genoemd. Hoe het kritieke gebied K of K T opgesteld kan worden, bespreken we in de volgende paragraaf. Voorbeeld 5.5 (Gauss-toets). Veronderstel dat X 1,..., X n een steekproef vormen uit de normale verdeling met onbekende verwachting µ en bekende variantie σ 2. We willen graag de nulhypothese H 0 : µ µ 0 toetsen tegen het alternatief H 1 : µ > µ 0, voor µ 0 een vast gekozen getal, bijvoorbeeld voor µ 0 = 0. Dit probleem doet zich bijvoorbeeld voor bij de kwaliteitscontrole van producten in een fabriek. Omdat het te duur geacht wordt om alle producten te controleren, meet men een kwaliteitsmaat bij een steekproef van producten. Uit eerder onderzoek is bekend dat de kwaliteitsmaatstaf normaal verdeeld is. Men wil bevestigen dat de gemiddelde kwaliteit van de gehele productie groter dan µ 0 is. (De aanname van een bekende σ 2 is niet realistisch, maar vergemakkelijkt het voorbeeld. In de praktijk veronderstelt men dat σ 2 onbekend is en gebruikt men bijna altijd de t-toets uit Voorbeeld 5.26.) Het gemiddelde X is de maximum likelihood-schatter voor µ en kan daarom gebruikt worden om een idee te krijgen over de juistheid van de nul en de alternatieve hypothese. Als het waargenomen gemiddelde x groter is dan µ 0 dan wijst dit op het waar zijn van de alternatieve hypothese en hoe groter x is hoe sterker deze aanwijzing is. Het gemiddelde X kunnen we dus gebruiken als toetsingsgrootheid en we verwerpen H 0 voor grote waarden van de toetsingsgrootheid. Het kritieke gebied heeft dan de vorm K = {(x 1,..., x n ): x c} voor een zekere waarde c. Maar, hoe groot moet c worden genomen opdat we genoeg vertrouwen hebben in de juistheid van de alternatieve hypothese als x c en de fout van de eerste soort klein genoeg is?

5.2: Toetsingsgrootheid en Kritiek Gebied 111 Stel dat voor een statistische toets het kritieke gebied de vorm K = {x: T (x) K T } heeft waar T een toetsingsgrootheid is en K T een deelverzameling in het bereik van T. De verzameling K T hangt af van de keuze van de toetsingsgrootheid T. Bij een andere toetsingsgrootheid T hoort in het algemeen een andere verzameling K T. Het kritieke gebied K kan echter in beide gevallen hetzelfde zijn; bij twee verschillende toetsingsgrootheden kan hetzelfde kritieke gebied K horen (zie Opgave 5.11). 5.2.1 Onbetrouwbaarheid en Onderscheidend Vermogen Wanneer bij het toetsen van H 0 : θ Θ 0 tegen H 1 : θ Θ 1 de ware waarde van θ tot Θ 0 behoort, is de nulhypothese waar. Als in dat geval x K, dan verwerpen we H 0 ten onrechte en maken we een fout van de eerste soort. Voor een goede toets moet daarom de kans P θ (X K) voor θ Θ 0 klein zijn. Aan de andere kant willen we in het geval dat de nulhypothese niet waar is (θ Θ 1 ) juist dat P θ (X K) groot is. De kwaliteit van een toets kan daarom worden afgemeten aan de functie θ P θ (X K). Definitie 5.6. Het onderscheidend vermogen (Engels: power function) van een toets K is π(θ; K) = P θ (X K). We zoeken dus een kritiek gebied waarvoor het onderscheidend vermogen kleine waarden (dichtbij 0) aanneemt als θ Θ 0, en grote waarden (dichtbij 1) als θ Θ 1. In Figuur 5.2 zijn van twee toetsen het onderscheidend vermogen weergegeven (als functie van θ op de horizontale as), een ideale toets met kans op beide soorten fouten gelijk aan 0 en een reële toets. 0.0 0.2 0.4 0.6 0.8 1.0 Figuur 5.2. Onderscheidend vermogen van een ideale toets (doorgetrokken) en een reële toets (gestippeld). De parameterruimte onder de nul- en de alternatieve hypothese (Θ 0 en Θ 1) zijn het gedeelte van de horizontale as waar het onderscheidend vermogen van de ideale toets gelijk aan 0, respectievelijk gelijk aan 1 is.

112 5: Toetsen Definitie 5.7. De onbetrouwbaarheid (Engels: size) van een toets K met onderscheidend vermogen π( ; K) is het getal α = sup θ Θ 0 π(θ; K). Een toets is van niveau α 0 (Engels: level α 0 ) als α α 0. De asymmetrie tussen de twee hypothesen wordt nu formeel gemaakt door een afspraak die zeker stelt dat de kans op een fout van de eerste soort hoogstens α 0 is. Afspraak 5.8. In iedere praktijksituatie kiezen we eerst een vast getal α 0, de onbetrouwbaarheidsdrempel. Vervolgens gebruiken we alleen toetsen van niveau α 0. Met andere woorden, we laten alleen toetsen toe waarvan het onderscheidend vermogen π( ; K) onder de nulhypothese ten hoogste α 0 is: sup π(θ; K) α 0. θ Θ 0 Het lijkt aantrekkelijk de onbetrouwbaarheidsdrempel α 0 extreem klein te kiezen, zodat we vrijwel nooit een fout van de eerste soort maken. Dit kunnen we alleen bereiken door K bijzonder klein te maken. In dat geval zal echter ook het onderscheidend vermogen voor θ Θ 1 klein worden. De kansen op een fout van de tweede soort P θ (X / K) = 1 π(θ; K), θ Θ 1, worden nu dus erg groot, hetgeen ook ongewenst is. De eisen om de kansen op fouten van eerste en tweede soort beide klein te maken werken elkaar tegen. We behandelen de twee soorten fouten niet symmetrisch; we streven er bijvoorbeeld niet naar de som van de maximale kansen op fouten van de eerste en tweede soort te minimaliseren. In de praktijk kiest men α 0 vaak gelijk aan het magische getal 0.05. Deze keuze leidt ertoe dat, als we vaak toetsen, we ons niet mogen verbazen als we 1 op de 20 keer de nulhypothese ten onrechte verwerpen (en een fout van de eerste soort maken). Eigenlijk zouden we α 0 afhankelijk moeten kiezen van de mogelijke consequenties van een fout van de eerste soort. Zijn deze buitengewoon ernstig, dan is α 0 = 0.05 wellicht veel te groot. Wat betreft de fouten van de eerste soort beschouwen we Afspraak 5.8 als voldoende garantie dat de kans hierop klein is. Meestal zullen veel toetsen (met evt. verschillende toetsingsgrootheden) aan deze afspraak voldoen. Van deze toetsen geven we de voorkeur aan die toets met de kleinste kansen op een fout van de tweede soort. Hoe klein deze kansen zijn hangt af van de situatie, onder meer van het aantal waarnemingen en de gekozen onbetrouwbaarheidsdrempel α 0. Bij te grote kansen op fouten van de tweede soort is de toets natuurlijk weinig zinvol, omdat we dan bijna altijd H 0 niet verwerpen en de tweede, niet-conclusie zullen kiezen.

5.2: Toetsingsgrootheid en Kritiek Gebied 113 Afspraak 5.9. Gegeven de onbetrouwbaarheidsdrempel α 0, geven we de voorkeur aan een toets van niveau α 0 met een zo groot mogelijk onderscheidend vermogen π(θ; K) onder θ Θ 1. Volgens deze afspraak prefereren we bij een gegeven onbetrouwbaarheidsdrempel α 0 een toets K 1 boven een toets K 2, als beide toetsen van niveau α 0 zijn en K 1 een groter onderscheidend vermogen bezit dan K 2 voor alle θ Θ 1 : sup π(θ; K i ) α 0, i = 1, 2 en π(θ; K 1 ) π(θ; K 2 ), θ Θ 1, θ Θ 0 met strikte ongelijkheid voor tenminste één θ Θ 1. We noemen de toets K 1 meer onderscheidend (Engels: more powerful) dan de toets K 2 in zekere θ Θ 1 als π(θ; K 1 ) > π(θ; K 2 ). We noemen K 1 uniform meer onderscheidend als de ongelijkheid geldt voor alle θ Θ 1. In principe zoeken we nu de uniform meest onderscheidende toets van niveau α 0 ; dat is een toets waarvan (bij een gegeven onbetrouwbaarheidsdrempel) het onderscheidend vermogen maximaal is voor alle θ Θ 1. Net als bij het vergelijken van verwachte kwadratische fouten van schatters, vergelijken we hier twee functies, en het is mogelijk dat de ene toets meer onderscheidend is voor bepaalde θ Θ 1, en de andere toets juist voor andere θ Θ 1. Welke toets we dan moeten prefereren is niet onmiddellijk duidelijk. Deze vraag komt in dit boek niet aan de orde. In uitzonderlijke gevallen bestaat een uniform meest onderscheidende toets (Engels: uniformly most powerful test) onder alle toetsen van niveau α 0. Dan is er een absoluut beste toets en is er geen probleem van niet-vergelijkbare toetsen. In Hoofdstuk 7 zullen we hier voorbeelden van zien. Voorbeeld 5.10 (Binomiale toets). Zij p de kans op succes bij een nieuwe therapie voor een willekeurig gekozen patiënt. Men wil deze therapie vergelijken met een oude therapie, die slechts in de helft van de gevallen succesvol is. Omdat men alleen geïnteresseerd is in de nieuwe therapie wanneer die beter blijkt dan de oude, vergelijken we de onbekende succeskans p van de nieuwe therapie met 0.5; de (bekende) succeskans van de bestaande therapie is. We willen bewijzen dat de nieuwe therapie beter is dan de oude. We nemen de uitspraak p > 0.5 daarom als alternatieve hypothese. De nulen alternatieve hypothese zijn dan gelijk aan H 0 : p 0.5 en H 1 : p > 0.5. Wanneer we H 0 kunnen verwerpen, zullen we overgaan op de nieuwe therapie. De nieuwe therapie wordt bij 100 patiënten toegepast. We noteren het aantal patiënten waarvoor de nieuwe therapie succesvol is als de waarneming X en veronderstellen dat X bin(100, p)-verdeeld is. Het ligt voor de hand T (X) = X als toetsingsgrootheid te nemen, en het kritieke gebied van de vorm K = {c α0, c α0 + 1,..., 100}.

114 5: Toetsen Een grote waarde van X geeft immers een aanwijzing dat H 0 onjuist is. De waarde c α0 moet zo worden gekozen dat de onbetrouwbaarheid van de toets ten hoogste α 0 is. De onbetrouwbaarheid van de toets wordt gegeven door α = sup P p (X c α0 ) = P 0.5 (X c α0 ). p 0.5 Het supremum wordt aangenomen in p = 0.5, omdat P p (X c α0 ) als functie van p monotoon stijgend is. Deze monotonie is met enige moeite analytisch te bewijzen, maar is ook intuïtief duidelijk. De functie p P p (X c α0 ) is voor c α0 = 59 getekend in Figuur 5.3. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 p Figuur 5.3. De functie p P p(x 59) voor X bin(100, p) verdeeld. Veronderstel dat we α 0 = 0.05 kiezen. Als we vervolgens c 0.05 = 59 nemen, is de onbetrouwbaarheid α = P 0.5 (X 59) = 0.044 kleiner dan α 0 = 0.05, terwijl voor c 0.05 = 58 de onbetrouwbaarheid P 0.5 (X 58) = 0.067 > 0.05. Voor c 0.05 58 is de toets dus niet van niveau 0.05 en daarom niet toegestaan bij deze waarde van de onbetrouwbaarheidsdrempel. We moeten daarom c 0.05 59 kiezen. Ter illustratie geeft Figuur 5.4 de functie x P 0.5 (X x). Volgens Afspraak 5.9 moeten we het kritieke gebied zo kiezen dat het onderscheidend vermogen zo groot mogelijk is. Dit komt er op neer dat we het kritieke gebied zo groot mogelijk moeten kiezen, zodat onder H 1 de kans op het (terecht) verwerpen van de nulhypothese, P p (X K), zo groot mogelijk is. We kiezen daarom K = {59, 60,..., 100}. Onder alle toetsen van de gegeven vorm is dit de toets van niveau 0.05 met het grootste onderscheidend vermogen. De functie p P p (X 59) in Figuur 5.3 is precies het onderscheidend vermogen van deze toets. Vindt men 64 successen bij de nieuwe therapie, dan wordt H 0 dus verworpen op niveau 0.05 en luidt de conclusie dat de nieuwe therapie een grotere succeskans heeft dan de oude therapie. Bij 58 successen hadden we deze conclusie niet kunnen trekken: H 0 was dan niet verworpen.

5.2: Toetsingsgrootheid en Kritiek Gebied 115 0.0 0.2 0.4 0.6 0.8 1.0 0 20 40 60 80 100 x Figuur 5.4. De functie x P 0.5 (X x) voor X binomiaal verdeeld met parameters 100 (en 0.5). Deze functie is linkscontinu in punten waar x een waarde in N aanneemt. De horizontale lijn is ter hoogte 0.05. In het geval van een eendimensionale parameter θ spreken we van een eenzijdige hypothese wanneer de nulhypothese van de vorm H 0 : θ θ 0 of H 0 : θ θ 0 is, waarbij θ 0 een vast gegeven getal is. De alternatieve hypothese is dan van de vorm H 1 : θ > θ 0 respectievelijk H 1 : θ < θ 0. De eerste hypothese noemen we rechtseenzijdig en de tweede hypothese linkseenzijdig. Wanneer de nul- en alternatieve hypothese de vorm H 0 : θ = θ 0 en H 1 : θ θ 0 hebben, spreken we van een tweezijdige hypothese. Voor een toetsingsgrootheid T heeft het kritieke gebied vaak een van de volgende vormen K T = {T c α0 }, K T = {T c α0 }, K T = {T c α0 } {T d α0 }, voor getallen c α0 en d α0 met c α0 < d α0 in het laatste kritieke gebied. Welke vorm het kritieke gebied aanneemt is afhankelijk van de opgestelde hypothesen en de keuze voor de toetsingsgrootheid. De eerste twee vormen van K T heten eenzijdig, de laatste tweezijdig. De getallen c α0 en d α0 heten de kritieke waarden. Is de waarde van de toetsingsgrootheid extremer dan de kritieke waarde, dan wordt de nulhypothese verworpen. Merk op dat extremer zowel groter dan als kleiner dan kan betekenen, afhankelijk van de context en de toetsingsgrootheid. De Gauss-toets in Voorbeeld 5.11 is een voorbeeld van een toets waar een eenzijdige nulhypothese leidt tot een eenzijdig kritiek gebied K T en een tweezijdige nulhypothese tot een tweezijdig kritiek gebied K T. Dit is echter niet in het algemeen het geval; de vorm van het kritiek gebied hangt af van de opgestelde hypothesen en de keuze van de toetsingsgrootheid. In Paragraaf 5.6 (likelihood-ratiotoetsen)

116 5: Toetsen zien we bijvoorbeeld een tweezijdige nulhypothese met daarbij een eenzijdig kritiek gebied K T. Voorbeeld 5.11 (Gauss-toets, vervolg). Stel dat X 1,..., X n een steekproef is uit de N(µ, σ 2 )-verdeling, waarbij σ 2 een bekende constante is. Beschouw het toetsingsprobleem H 0 : µ µ 0 tegen H 1 : µ > µ 0, waarbij µ 0 een vast gegeven getal is (bijvoorbeeld µ 0 = 0). In Voorbeeld 5.5 hebben we gezien dat het gemiddelde X een geschikte toetsingsgrootheid zou kunnen zijn. Het blijkt echter handiger te zijn om deze grootheid te standaardiseren tot T = n X µ 0, σ zodat T onder de aanname µ = µ 0 een N(0, 1)-verdeling bezit. Zowel µ 0 als σ 2 zijn bekende gegeven getallen, waardoor T ook daadwerkelijk een toetsingsgrootheid is. Omdat X en T een 1 1-duidig verband hebben, is het kritieke gebied K voor beide toetsingsgrootheden gelijk (zie Opgave 5.11). Grote waarden van X, groter dan µ 0, en dus van T, zijn waarschijnlijker onder H 1 dan onder H 0. Immers X is normaal verdeeld met verwachting µ en variantie σ 2 /n, en deze verdeling schuift naar rechts als µ toeneemt. We kiezen daarom een kritiek gebied, gebaseerd op de toetsingsgrootheid T, van de vorm K = { } (x 1,..., x n ): T c α0. In de volgende twee alinea s beargumenteren we dat de juiste keuze voor c α0 wordt gegeven door het (1 α 0 )-kwantiel ξ 1 α0 van de standaard normale verdeling. (We noteren met ξ α het getal zodanig dat Φ(ξ α ) = α, waarbij Φ de standaard normale verdelingsfunctie is.) Volgens Afspraak 5.8 zoeken we een toets met een onbetrouwbaarheid die hoogstens α 0 is, dat wil zeggen: (5.1) sup µ µ 0 P µ ((X 1,..., X n ) K) = sup µ µ 0 P µ (T c α0 ) α 0. Omdat n(x µ)/σ, als µ de ware parameterwaarde is, de standaard normale verdeling volgt, is de kans P µ (T c α0 ) gelijk aan P µ ( n X µ 0 σ ) ( n X µ c α0 = P µ c α0 + n µ 0 µ ) σ σ ( = 1 Φ c α0 + n µ 0 µ ). σ Deze kans is een stijgende functie van µ (hetgeen ook intuïtief duidelijk is uit het feit dat de normale verdeling met verwachting µ naar rechts schuift als µ toeneemt), zodat het supremum sup µ µ0 P µ (T c α0 ) wordt aangenomen voor de grootst mogelijke waarde van µ, µ = µ 0. De eis (5.1) dat de onbetrouwbaarheid hoogstens α 0 is, reduceert dus tot P µ0 (T c α0 ) α 0.

5.2: Toetsingsgrootheid en Kritiek Gebied 117 Aangezien T standaard normaal verdeeld is onder de aanname dat µ = µ 0, volgt hieruit dat c α0 ξ 1 α0. Onder de toetsen van niveau α 0 (van bovenstaande vorm) zoeken we nu de meest onderscheidende toets, volgens Afspraak 5.9. Dit is natuurlijk de toets met het grootste kritieke gebied, dat wil zeggen met een zo klein mogelijke kritieke waarde c α0. In combinatie met de ongelijkheid in de vorige alinea nemen we c α0 = ξ 1 α0. Merk op dat de onbetrouwbaarheid nu precies gelijk is aan de onbetrouwbaarheidsdrempel α 0. Samengevat, de toets verwerpt de nulhypothese H 0 : µ µ 0 voor waarden van X zodanig dat T = n(x µ 0 )/σ ξ 1 α0. Dit is de gebruikelijke toets voor dit probleem, de Gauss-toets (genoemd naar de wiskundige die als een van de eersten de normale verdeling hanteerde). Het bijbehorende kritieke gebied is gelijk aan { K = {(x 1,..., x n ): T K T } = (x 1,..., x n ): n x µ 0 ξ 1 α0 }. σ De verzameling K T is dus gelijk aan [ξ 1 α0, ). Merk op dat de gevonden kritieke waarde c α0 = ξ 1 α0 niet afhangt van de waarden van µ 0 en σ 2. Voor alle waarden van µ 0 en σ 2 wordt hetzelfde kritieke gebied K T = [ξ 1 α0, ) gevonden. Dit is het voordeel van de gestandaardiseerde toetsingsgrootheid T boven X als toetsingsgrootheid. Daarom is het bij de Gauss-toets gebruikelijk de gestandaardiseerde toetsingsgrootheid te gebruiken. De verzameling K T = [ξ 1 α0, ) wordt dan ook vaak het kritieke gebied genoemd van de rechtseenzijdige Gauss-toets. Op analoge wijze kan de nulhypothese H 0 : µ µ 0 worden getoetst tegen de alternatieve hypothese H 1 : µ < µ 0. Voor deze toets hanteert men dezelfde toetsingsgrootheid T. De nulhypothese H 0 wordt bij onbetrouwbaarheidsdrempel α 0 verworpen als T = n(x µ 0 )/σ ξ α0 = ξ 1 α0. Het kritieke gebied voor het toetsen van de nulhypothese H 0 : µ = µ 0 tegen het tweezijdige alternatief H 1 : µ µ 0 bij onbetrouwbaarheidsdrempel α 0 wordt gevonden door samenvoeging van de kritieke gebieden van de beide eenzijdige toetsen met elk onbetrouwbaarheid α 0 /2. Dit leidt tot verwerping van de nulhypothese als n(x µ 0 )/σ ξ α0 /2 of n(x µ 0 )/σ ξ 1 α0 /2, of, equivalent, als n X µ 0 /σ ξ 1 α0/2. Uiteraard bezit de tweezijdige toets een kleiner onderscheidend vermogen dan de linkseenzijdige toets voor waarden µ < µ 0 en dan de rechtseenzijdige toets voor waarden µ > µ 0, zie Figuur 5.5. Is men alleen in één van deze typen alternatieven geïnteresseerd, dan verdient een geschikte eenzijdige toets dus de voorkeur boven een tweezijdige toets. Dit kan bijvoorbeeld het geval zijn als men overweegt een nieuwe productiemethode in te voeren of een nieuw apparaat aan te schaffen. Men is dan niet zozeer geïnteresseerd in de vraag of deze innovatie tot achteruitgang kan leiden, maar men wil weten of een verbetering te verwachten is. De keuze tussen eenzijdig en tweezijdig toetsen hangt dus af van de praktische vraagstelling. Als men het idee achter onbetrouwbaarheid serieus wil nemen, dan mag men zich

118 5: Toetsen 0.0 0.2 0.4 0.6 0.8 1.0 3 2 1 0 1 2 3 mu Figuur 5.5. Onderscheidend vermogens als functie van µ van de twee eenzijdige Gausstoetsen (gestreept en gestippeld) en de tweezijdige Gauss-toets (doorgetrokken) voor µ 0 = 0 bij α 0 = 0.05 en n = 5. bij die keuze niet laten leiden door de uitkomsten van de experimenten! In het bijzonder zou het verkeerd zijn bijvoorbeeld voor de rechtseenzijdige toets te kiezen nadat is vastgesteld dat X > µ 0. In het bovenstaande hebben we de Gauss-toets geïntroduceerd middels een ad hoc argument. Behalve intuïtief redelijk zijn deze toetsen ook de best mogelijke. Men kan namelijk bewijzen dat de eenzijdige Gauss-toetsen uniform meest onderscheidend zijn; dat wil zeggen dat bij deze toetsen het onderscheidend vermogen in alle mogelijke waarden onder de alternatieve hypothese maximaal zijn (zie Paragraaf 7.3). De tweezijdige Gauss-toets is uniform meest onderscheidend onder de zuivere toetsen. Zuivere toetsen zijn toetsen met π(θ 0 ) α 0 π(θ 1 ) voor alle θ 0 Θ 0 en θ 1 Θ 1 en voor α 0 de onbetrouwbaarheidsdrempel. Voorbeeld 5.12 (Binomiale toets, vervolg). Voorbeeld 5.10 betreft een speciaal geval van de volgende binomiale toets. Veronderstel dat voor een vast gekozen getal p 0 (0, 1) we de nulhypothese H 0 : p p 0 willen toetsen tegen H 1 : p > p 0 op grond van een bin(n, p)-verdeelde waarneming X. We kiezen X zelf als toetsingsgrootheid en verwerpen H 0 voor grote waarden van X. Het kritieke gebied heeft derhalve de vorm {x {0, 1,..., n}: x c α0 } = {c α0,..., n}. We kiezen de kritieke waarde c α0 {0,..., n} zodanig dat de onbetrouwbaarheid van de toets kleiner dan of gelijk is aan α 0 en, onder deze nevenvoorwaarde, het onderscheidend vermogen maximaal is (vergelijk Voorbeeld 5.10). De onbetrouwbaarheid van deze toets is gelijk aan α = sup P p (X c α0 ) = P p0 (X c α0 ), p p 0 aangezien de kans P p (X x) stijgend is in p bij vaste x. Om het onderscheidend vermogen zo groot mogelijk te maken onder de alternatieve

5.2: Toetsingsgrootheid en Kritiek Gebied 119 hypothese, nemen we kriteke gebied zo groot mogelijk, ofwel de kritieke waarde zo klein mogelijk: } = min {t {0,..., n}: P p0 (X t) α 0. c α0 Uiteraard geldt dan dat α α 0. Vanwege het sprongkarakter van de binomiale verdelingsfunctie zal deze ongelijkheid strikt zijn voor de meeste waarden van α 0. Voor niet te kleine waarden van n kunnen we de kans P p0 (X t) normaal benaderen en zijn de sprongen in de verdelingsfunctie van X te verwaarlozen. Voor de onbetrouwbaarheid van de binomiale toets levert dit ) ( ) ( α 0 P p0 X cα0 = Pp0 X cα0 1 2 ( X np 0 = P p0 np0 (1 p 0 ) c α 0 np 0 1 ) 2 np0 (1 p 0 ) cα0 np 0 1 Φ( 1 ) 2 np0 (1 p 0 ) waarbij het -teken volgt uit de benadering van de binomiale verdelingsfunctie door de normale verdelingsfunctie en de term 1/2 in de teller de continuïteitscorrectie is (zie Appendix 9). Bij gegeven α 0 is de waarde van c α0 het kleinste gehele getal waarvoor geldt dat (5.2) ξ 1 α0 c α 0 np 0 1 2 np0 (1 p 0 ). Aanpassingen van deze eenzijdige toets voor het geval van het andere eenzijdige probleem, H 1 : p < p 0, of het tweezijdige probleem, H 1 : p p 0, liggen voor de hand. Voorbeeld 5.13 (Verschoven exponentiële verdeling). Veronderstel dat X 1,..., X n een steekproef is uit de verschoven exponentiële verdeling met intensiteitsparameter 1 en een onbekende verschuivingsparameter θ (, ). De bijbehorende dichtheid wordt gegeven door p θ (x) = e θ x voor x θ, en p θ (x) = 0 voor x < θ. Veronderstel dat we de nulhypothese H 0 : θ 0 willen toetsen tegen de alternatieve hypothese H 1 : θ > 0 bij een onbetrouwbaarheidsdrempel α 0. De maximum likelihood-schatter voor θ wordt gegeven door de eerste ordestatistiek X (1) = min{x 1,..., X n } (zie Voorbeeld 4.16). Het ligt dan voor de hand X (1) als toetsingsgrootheid T te nemen en de nulhypothese te verwerpen voor grote waarden van T ; immers als T positief is, is dit een teken dat de alternatieve hypothese waar zou kunnen zijn. Het kritieke gebied heeft derhalve de vorm K = {(x 1,..., x n ): x (1) c α0 }. De volgende stap is het bepalen van de kritieke waarde c α0 zodanig dat de onbetrouwbaarheid van de toets ten hoogste α 0 is en het onderscheidend vermogen maximaal. De onbetrouwbaarheid van de toets wordt gegeven door sup θ 0 P θ ((X 1,..., X n ) K) = sup P θ (X (1) c α0 ). θ 0

120 5: Toetsen Voor θ < c α0 is de kans P θ (X (1) c α0 ) = ( P θ (X 1 c α0 ) ) n = e n(θ c α0 ) stijgend in θ. Het supremum in de uitdrukking voor de onbetrouwbaarheid van de toets wordt dus aangenomen in θ = 0. De kritieke waarde c α0 moet nu voldoen aan de ongelijkheid e nc α 0 α 0, ofwel c α0 n 1 log α 0. Om het onderscheidend vermogen van de toets zo groot mogelijk te maken moet het kritieke gebied zo groot mogelijk zijn. Hieruit volgt dat c α0 = n 1 log α 0. Het kritieke gebied is daarmee gelijk aan { K = (x 1,..., x n ): x (1) 1 } n log α 0, en de onbetrouwbaarheid van de toets is precies gelijk aan α 0. De toets verwerpt de nulhypothese als X (1) n 1 log α 0. Merk op dat n 1 log α 0 > 0 voor α 0 (0, 1). Natuurlijk hadden we ook een andere toetsingsgrootheid kunnen kiezen, bijvoorbeeld de momentenschatter voor θ: X 1. Dat geeft een ander kritiek gebied. Om te bepalen welke van de twee toetsen beter is, zal het onderscheidend vermogen van de twee toetsen voor waarden van θ onder de alternatieve hypothese, θ (0, ), vergeleken moeten worden. Voorbeeld 5.14 (Toepassing, vervuild zwembadwater). De richtlijn voor het aantal colibacteriën in zwembadwater luidt: maximaal 10000 in een monster van 100 ml. Omdat het aantal bacteriën niet exact bepaald kan worden hanteren we als norm dat de kans op meer dan 10000 colibacteriën in een monster van 100 ml hoogstens 5% mag zijn. In Voorbeeld 4.21 is een procedure uitgelegd die gebruikt kan worden om het aantal colibacteriën in (vervuild) water te schatten. Definieer X als het aantal colibacteriën in een monster van 100 ml zwembadwater. We veronderstellen dat X Poissonverdeeld is met onbekende parameter µ. Voor p µ = P µ (X 10000) kan de norm formeel getoetst worden aan de hand van de hypothesen H 0 : p µ 0.05 versus H 1 : p µ > 0.05. De kans p µ = P µ (X 10000) is monotoon stijgend in µ. Er geldt P µ=9836 (X 10000) = 0.050 terwijl P µ (X 10000) > 0.050 voor µ > 9836. Daarom is het toetsen van bovenstaande hypothesen equivalent aan het toetsten van de hypothesen H 0: µ 9836 versus H 1: µ > 9836. Men verdeelt het monster vermengd met zuiver water over 10000 kweekbakken van 1 liter. Net als in Voorbeeld 4.21 definiëren we X i als het In de praktijk gaat het niet precies zoals in dit voorbeeld staat beschreven. In het echt neemt men meerdere monsters op verschillende plaatsen in het bad. Van deze monsters moet minimaal 95 % aan de richtlijn voldoen. In dit voorbeeld is deze praktijksituatie vertaald naar een kans van minstens 95 % per monster.

5.2: Toetsingsgrootheid en Kritiek Gebied 121 aantal colibacteriën in de i e liter en Y i als de indicatorvariabele die aangeeft of er zich een kolonie vormt in de i e kweekbak. De variabelen X 1,..., X 10000 veronderstellen we onafhankelijk en Poisson-verdeeld met parameter µ/10000. De variabelen Y 1,..., Y 10000 worden verondersteld identiek en alternatief verdeeld te zijn met parameter q µ = P µ (Y i = 1) = 1 e µ/10000. Omdat q µ monotoon stijgend is in µ en 1 e 9836/10000 = 0.626 zijn de hypothesen H 0 en H 1 gelijkwaardig met H 0 : q µ 0.626 versus H 1 : q µ > 0.626. Deze nulhypothese, H 0, kan getoetst worden op basis van de toetsingsgrootheid T = 10000 i=1 Y i, die binomiaal verdeeld is met parameters 10000 en q µ. De nulhypothese kan daarom getoetst worden met de eenzijdige binomiale toets, zoals wordt beschreven in Voorbeeld 5.12. De normale benadering is zeker gerechtvaardigd omdat 10000 0.626 (1 0.626) = 2341 > 5 (zie Appendix 9). De kritieke waarde is op te lossen uit Vergelijking 5.2. Hieruit volgt dat bij een onbetrouwbaarheidsdrempel van α 0 = 0.05 de nulhypothese H 0 verworpen wordt als 10000 i=1 Y i 6341. Wanneer we in minstens 6341 kweekbakken een kolonie aantreffen, nemen we aan dat q µ > 0.626, ofwel dat µ > 9836 (we verwerpen dan dus ook H 0 en nemen H 1 aan), en dus verwerpen we in dat geval onze aanvankelijke nulhypothese H 0 en nemen aan dat p µ = P µ (X 10000) > 0.05. We concluderen dat het zwembadwater niet voldoet aan de norm wanneer in ten minste 6341 kweekbakken een kolonie wordt gevormd. 5.2.2 Steekproefgrootte Het onderscheidend vermogen van een toets is doorgaans sterk afhankelijk van de hoeveelheid beschikbare data. Uiteraard kan met meer data een groter onderscheidend vermogen worden behaald. Doorgaans kan met oneindig veel data het ideale onderscheidend vermogen uit Figuur 5.2 worden bereikt. De nul- en alternatieve hypothese kunnen dan zonder fouten precies van elkaar worden onderscheiden. In praktische situaties kunnen we fouten van de eerste en tweede soort niet vermijden, maar we kunnen wel de helling van het onderscheidend vermogen als in Figuur 5.2 positief beïnvloeden door de toetsingsprocedure op meer data te baseren. In de praktijk leidt dit tot de vraag van de zogenaamde minimale steekproefomvang. Bedoeld wordt de minimale grootte van de steekproef opdat de corresponderende toets in een zeker alternatief θ Θ 1 een groter onderscheidend vermogen bezit dan een gegeven ondergrens. Het is duidelijk uit deze precisering dat de minimale steekproefomvang alleen goed gedefinieerd is als zowel het bewuste alternatief als de te bereiken kans op een fout van de tweede soort zijn vastgelegd, naast natuurlijk de gewenste onbetrouwbaarheid. In de meeste gevallen betekent dit dat een integere statisticus geen eenvoudig antwoord op de vraag van een minimale steekproefomvang zal kunnen uitspreken.

122 5: Toetsen We illustreren dit met twee voorbeelden, waarin de berekeningen min of meer expliciet zijn. Voorbeeld 5.15 (Gauss-toets, vervolg). De Gauss-toets verwerpt de nulhypothese H 0 : µ µ 0 voor waarden van T = n(x µ 0 )/σ groter dan of gelijk aan ξ 1 α0 ; het kritieke gebied voor de toetsingsgrootheid T is K T = [ξ 1 α0, ). Het onderscheidend vermogen van de Gauss-toets is de functie µ π(µ; K) = P µ ( n X µ 0 σ = P µ ( n X µ σ ξ 1 α0 ) ξ 1 α0 n µ µ 0 σ ) ( = 1 Φ ξ 1 α0 n µ µ 0 σ Gebruik makend van het feit dat x Φ(x) een monotoon stijgende functie is, en dus ξ 1 α dalend in α is, lezen we hieruit de volgende eigenschappen af: hoe groter n, des te groter het onderscheidend vermogen in µ > µ 0 (meer informatie is beschikbaar); hoe groter µ, des te groter het onderscheidend vermogen in µ (µ ligt dan verder van de nulhypothese); hoe groter σ, des te kleiner het onderscheidend vermogen in µ > µ 0 (de grotere spreiding in de waarnemingen maakt het moeilijker iets over hun verwachting te zeggen); hoe groter α 0, des te groter het onderscheidend vermogen in µ > µ 0, maar ook des te groter de kans op een fout van de eerste soort. Veronderstel nu dat we voor een gegeven onbetrouwbaarheidsdrempel α 0 en een gegeven alternatief µ > µ 0 een onderscheidend vermogen van minstens 1 β wensen, d.w.z. de kans op een fout van de tweede soort in µ is kleiner dan β. Uit de formule voor het onderscheidend vermogen volgt dat dit het geval is mits ( Φ ofwel, met β = Φ(ξ β ), mits ξ 1 α0 n µ µ 0 σ ) β ). n µ µ 0 σ ξ 1 α0 ξ β. De minimale waarde van n waarvoor aan deze eis is voldaan is gelijk aan (ξ 1 α0 ξ β )σ/(µ µ 0 ). Hierbij merken we op dat alle natuurlijke keuzes voor α 0 en β voldoen aan 1 α 0 > β, zodat ξ 1 α0 ξ β positief is. Voorbeeld 5.16 (Binomiale toets, vervolg). De standaard toets voor de nulhypothese H 0 : p p 0 gebaseerd op een grootheid X met de binomiale verdeling met parameters n en p, verwerpt voor waarden van X in het

5.2: Toetsingsgrootheid en Kritiek Gebied 123 kritieke gebied K = {c α0,..., n} waarbij c α0 opgelost uit vergelijking (5.2), bij benadering kan worden c α0 np 0 1 2 np0 (1 p 0 ) ξ 1 α 0. Het onderscheidend vermogen van de toets is gelijk aan de functie cα0 np p P p (X c α0 ) 1 Φ( 1 2 ). np(1 p) Deze functie is geschetst in Figuur 5.6 voor n = 10 en n = 25, α 0 = 0.05 en p 0 = 1 2. Duidelijk blijkt dat voor p > 0.5 het onderscheidend vermogen bij n = 25 veel groter is dan bij n = 10: bij meer waarnemingen kunnen we beter uitmaken of H 1 al dan niet waar is en verwerpen we H 0 met grotere kans als H 1 waar is. (Merk op dat ook de onbetrouwbaarheid van de toets bij n = 25 iets groter is; we hebben de waarde c α0 in beide gevallen gekozen volgens onze twee afspraken.) 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Figuur 5.6. Onderscheidend vermogen van de toets voor H 0: p 1 2 bij onbetrouwbaarheidsdrempel α 0 = 0.05 gebaseerd op een waarneming uit de binomiale verdeling voor n = 10 (doorgetrokken curve) en n = 25 (gestippeld curve). De normale benadering is zeer geschikt om de minimale steekproefomvang te bepalen voor het bereiken van een voorgeschreven onderscheidend vermogen. Veronderstel bijvoorbeeld dat we H 0 : p 1 2 willen toetsen tegen H 1 : p > 1 2 bij onbetrouwbaarheidsdrempel α 0 = 0.05 en wel zo, dat het onderscheidend vermogen in p = 0.6 minstens 0.8 bedraagt. Hoe groot moet n dan zijn? Dit leidt tot het stelsel vergelijkingen: c 0.05 n0.5 1 2 n0.5(1 0.5) ξ 0.95 = 1.64,

124 5: Toetsen c 0.05 n0.6 1 2 n0.6(1 0.6) ξ 0.2 = 0.84. Uit de gelijkheid volgt c 0.05 n/2+1.64 n/2+1/2 en substitutie van deze waarde voor c 0.05 in de ongelijkheid, geeft dat n 12.32 en dus n 152. Voorbeeld 5.17 (Verschoven exponentiële verdeling, vervolg). Veronderstel dat X 1,..., X n een steekproef is uit de verschoven exponentiële verdeling met intensiteitsparameter gelijk aan 1 en een onbekende verschuivingsparameter θ R. In Voorbeeld 5.13 is afgeleid dat de nulhypothese H 0 : θ 0 wordt verworpen als X (1) n 1 log α 0 met α 0 de onbetrouwbaarheid van de toets. Voor een onderscheidend vermogen van minstens 0.8 in θ = 0.1 kunnen we de minimale steekproefgrootte bepalen. Door de verdelingsfunctie van X (1) uit te drukken in de marginale verdelingsfunctie (van X 1 ) kan het onderscheidend vermogen van de toets worden bepaald voor elke θ, π(θ, K) = P θ (X (1) 1 ) n log α 0 = ( P θ ( X1 1 n log α 0) ) n = α0 e nθ. De eis dat π(0.1, K) 0.8 bij α 0 = 0.05 leidt tot de ongelijkheid 0.05e n0.1 0.80. Hieruit volgt direct dat n 27.7. 5.3 Statistische Significantie De algemene opzet van de toetsingstheorie zoals hiervoor is beschreven is zowel tamelijk ingewikkeld, als verbluffend eenvoudig, omdat er slechts twee beslissingen mogelijk zijn. In veel praktijksituaties is de eenvoud misleidend. Een effect wordt statistisch significant genoemd als de relevante nulhypothese wordt verworpen, bij de gegeven onbetrouwbaarheidsdrempel. Dit moet als volgt worden geïnterpreteerd: het effect dat we in de data hebben waargenomen is waarschijnlijk niet aan toevalsvariatie te wijten; zouden we het hele experiment herhalen, dan zouden we waarschijnlijk hetzelfde effect opnieuw vinden. Dit hoeft geenszins te betekenen dat het effect praktisch significant is. Het is heel denkbaar dat de toetsingsprocedure terecht heeft aangetoond dat de nieuwe therapie beter is, maar dat de verbetering verwaarloosbaar klein is. Als de oude therapie kans p = 0.5 op succes heeft, en de nieuwe kans p = 0.500001, dan zullen we dit effect vinden en H 0 verwerpen mits we voldoende waarnemingen doen, maar praktisch gesproken zal het ons waarschijnlijk weinig uitmaken welke therapie we volgen.

5.4: Overschrijdingskansen 125 Om deze reden is het wenselijk een toetsingsprocedure die leidt tot verwerping van H 0 altijd aan te vullen met een schattingsprocedure die een indicatie geeft van de grootte van een mogelijk effect. De context bepaalt dan of dit effect van praktisch belang is. Een andere mogelijkheid om de discrepantie tussen statistische en praktische significantie te overbruggen zou zijn om de nulhypothese anders te formuleren. We zouden bijvoorbeeld de nulhypothese kunnen toetsen dat het verschil p 2 p 1 in kans op succes bij de nieuwe therapie en de oude therapie minstens 0.2 is, in plaats van de hypothese dat p 2 p 1 > 0. De waarde 0.2 zou dan de praktische significantie kunnen uitdrukken. In de praktijk is men echter meestal tevreden met het vaststellen van een kwalitatief verschil en toetst men de hypothese H 1 : p 2 p 1 > 0. 5.4 Overschrijdingskansen In het voorgaande hebben we toetsen middels een toetsingsgrootheid T en een kritiek gebied K beschreven. Veronderstel dat het kritieke gebied de vorm K = {x: T (x) d α0 } bezit waarbij de constante d α0 het kleinste getal is zodanig dat een toets van deze vorm niveau α 0 heeft. Dat wil zeggen { } (5.3) d α0 = min t: sup P θ (T t) α 0. θ Θ 0 Veelal correspondeert het minimaal nemen van d α0 met het maximaliseren van het onderscheidend vermogen in Θ 1. De formule is daarom een gevolg van Afspraak 5.9. De gelijkheid (5.3) impliceert dat, voor iedere t R, sup P θ (T t) α 0 t d α0. θ Θ 0 We kunnen de toets daarom op de volgende wijze uitvoeren: gegeven dat de waarde t is waargenomen voor de toetsingsgrootheid T, bereken de overschrijdingskans of p-waarde (Engels: observed significance level, of, p-value) sup P θ (T t). θ Θ 0 Is de overschrijdingskans kleiner dan of gelijk aan α 0, dan verwerpen we H 0 ; anders verwerpen we H 0 niet. Dit voorschrift geeft precies de toets met kritiek gebied K = {x: T (x) d α0 }, want de overschrijdingskans is kleiner dan of gelijk aan α 0 dan en slechts dan als t d α0. Bovenstaande wordt met behulp van de Gauss-toets in Figuur 5.7 geïllustreerd. In de figuur is duidelijk te zien dat voor waarden t in het kritieke gebied geldt dat sup µ µ0 P µ0 (T t) α 0, en anders om. In woorden is de overschrijdingskans het maximum over alle mogelijkheden onder de nulhypothese van de kans dat bij een identiek experiment

126 5: Toetsen 0.0 0.2 0.4 0.6 0.8 1.0 2 0 2 4 Figuur 5.7. Rechter overschrijdingskans t sup µ µ0 P µ (T t) = P µ0 (T t) (doorgetrokken curve) voor de Gauss-toets met µ 0 = 0. Op de hoogte van α 0 = 0.05 is een stippellijn getekend. De dik gedrukte lijn is het bijbehorende kritieke gebied. een extremere waarde van de toetsingsgrootheid wordt gevonden dan de waarde t van het uitgevoerde experiment. Het supremum over alle mogelijkheden onder de nulhypothese maakt de overschrijdingskans enigszins gecompliceerd. In veel gevallen is het supremum overbodig omdat één van de parameters θ 0 Θ (vaak een randpunt van Θ 0 ) altijd de maximumkans geeft. In dat geval is de overschrijdingskans gelijk aan P θ0 (T t). De overschrijdingskans zoals we hem zojuist hebben gedefinieerd is specifiek voor kritieke gebieden van de vorm {x: T (x) d α0 }. Een uitbreiding naar kritieke gebieden van de vorm {x: T (x) c α0 } ligt voor de hand, waarbij nu de aanname is dat { } c α0 = max t: sup P θ (T t) α 0. θ Θ 0 Gegeven de waargenomen waarde t berekenen we de overschrijdingskans sup θ Θ0 P θ (T t). Is dit getal kleiner dan of gelijk aan α 0, dan verwerpen we H 0. Tweezijdige kritieke gebieden van de vorm {x: T (x) c} {x: T (x) d} bestaan vaak uit een combinatie van twee eenzijdige gebieden in de zin dat c = c α0/2 en d = d α0/2 voor c α0 en d α0 als eerder gedefinieerd. De onbetrouwbaarheidsdrempel α 0 wordt dus gesplitst in twee gelijke delen van α 0 /2 in de linker- en rechterstaart. In dit geval wordt de overschrijdingskans bij waargenomen waarde t gedefinieerd als ( 2 min sup P θ (T t), sup P θ (T t) θ Θ 0 θ Θ 0 Is dat getal kleiner dan of gelijk aan α 0, dan verwerpen we H 0 ; anders verwerpen we H 0 niet. Dit komt neer op het kijken of één van de twee ).

5.4: Overschrijdingskansen 127 eenzijdige overschrijdingskansen kleiner is dan of gelijk is aan α 0 /2: 2 min(a, b) α 0 dan en slechts dan als a α 0 /2 of b α 0 /2. Toetsen middels overschrijdingskansen verdient in de meeste gevallen de voorkeur boven toetsen middels een kritiek gebied, omdat de resulterende uitspraak informatiever is. Bij rapportering van de overschrijdingskans is het immers mogelijk alsnog (en op heel eenvoudige wijze) de hypothese bij ieder gewenste onbetrouwbaarheidsdrempel α 0 te toetsen, terwijl bij rapportering van het kritieke gebied en de waarde van de toetsingsgrootheid bij een vaste α 0 dit niet mogelijk is. Bovendien geeft, bijvoorbeeld, een heel kleine overschrijdingskans onmiddellijk aan dat H 0 overduidelijk wordt verworpen. Voorbeeld 5.18 (Binomiale toets, vervolg). In Voorbeeld 5.10 werd geconcludeerd dat bij 64 successen de nulhypothese wordt verworpen bij α 0 = 0.05, terwijl bij 58 successen de nulhypothese niet wordt verworpen. De overschrijdingskansen bij 64 en 58 successen zijn respectievelijk sup P p (X 64) = P 0.5 (X 64) = 0.0033 p 0.5 sup P p (X 58) = P 0.5 (X 58) = 0.0666. p 0.5 De eerste kans is heel klein en inderdaad kleiner dan 0.05 en de tweede is groter dan 0.05. We zien bovendien dat de nulhypothese bij 64 successen verworpen wordt voor alle onbetrouwbaarheidsdrempels α 0 0.0033. De overschrijdingskans geeft dus meer informatie dan alleen de vaststelling dat de nulhypothese wordt verworpen bij α 0 = 0.05, hetgeen de conclusie was in Voorbeeld 5.10. Voorbeeld 5.19 (Binomiale toets, vervolg). De overschrijdingskans van de binomiale toets voor de nulhypothese H 0 : p p 0, bij waargenomen waarde x, is gelijk aan sup P p (X x) = P p0 (X x). p p 0 We verwerpen H 0 : p p 0 als deze kans kleiner is dan of gelijk is aan α 0. Voor bekende p 0, α 0, n en x kunnen we de overschrijdingskans opzoeken in een tabel, dan wel berekenen met een statistisch computerpakket. Voor grote n kunnen we ook de normale benadering toepassen, x np0 P p0 (X x) 1 Φ( 1 ) 2. np0 (1 p 0 ) Voor de linkeroverschrijdingskans kan eveneens de normale benadering worden toegepast, met de continuïteitscorrectie in de andere richting.

128 5: Toetsen Voorbeeld 5.20 (Gauss-toets, vervolg). De Gauss-toets verwerpt de nulhypothese H 0 : µ µ 0 voor grote waarden van T = n(x µ 0 )/σ. De kritieke waarde ξ 1 α0 van de toets voldoet aan (5.3). De overschrijdingskans van de toets is daarom gelijk aan, bij waargenomen waarde x, ( sup P µ T n x µ 0 µ µ 0 σ ) = P µ0 ( T n x µ 0 σ ) ( n x µ 0 = 1 Φ σ Is deze kans kleiner dan of gelijk aan α 0, dan wordt H 0 verworpen op niveau α 0. De overschrijdingskans voor het toetsen van de andere eenzijdige nulhypothese H 0 : µ µ 0 tegen de alternatieve hypothese H 1 : µ < µ 0 wordt gegeven door de kans P µ0 (T n(x µ 0 )/σ). We verwerpen de nulhypothese als deze kans kleiner dan of gelijk is aan α 0. De tweezijdige Gauss-toets is niets anders dan de combinatie van de twee eenzijdige toetsen, ieder met onbetrouwbaarheidsdrempel α 0 /2. We kunnen deze toets daarom uitvoeren door het berekenen van zowel de linkerals de rechteroverschrijdingskans. De overschrijdingskans van de tweezijdige toets is dan gelijk aan twee maal het minimum van de linker- en rechteroverschrijdingskans. Is één van de twee overschrijdingskansen kleiner dan of gelijk aan α 0 /2, dan is de overschrijdingskans kleiner dan of gelijk aan α 0 en verwerpen we de nulhypothese H 0 : µ µ 0. Voorbeeld 5.21 (Toepassing, Poisson-voorraden). Veronderstel dat een distributiecentrum wekelijks een bepaald bederfelijk artikel inkoopt om verschillende filialen te voorzien (zie Voorbeeld 2.6 ). Omdat het artikel slechts een beperkte houdbaarheid heeft, wil men niet te veel inkopen; niet verkochte artikelen worden aan het einde van de week weggegooid. Anderzijds, wanneer er te weinig wordt ingekocht en niet aan de vraag kan worden voldaan dan geeft dat ontevredenheid en verlies van klanten. Men heeft daarom besloten wekelijks een vast aantal (C) artikelen in te kopen zodat de kans op een tekort maximaal 10 % bedraagt. Echter, de laatste tijd is het aantal ingekochte artikelen regelmatig niet toereikend om aan de vraag van de filialen te voldoen. Blijkbaar is de wekelijkse vraag gestegen. Dit wil men met een statistische toets nagaan. We veronderstellen dat de totale wekelijkse vraag Z Poisson-verdeeld is met parameter θ. Bij een gegeven wekelijks ingekocht aantal artikelen C kan dan bepaald worden wat de maximale parameterwaarde θ 0 is waarbij nog aan de norm van 10% wordt voldaan: θ 0 = max{θ: P θ (Z > C) 0.10}. Om te toetsen of de huidige wekelijkse vraag hoger geworden is dan waarop het inkoopbeleid is gebaseerd, willen we de nulhypothese H 0 : θ θ 0 tegen het alternatief H 1 : θ > θ 0 toetsen. Daartoe houden we gedurende n weken de totale wekelijkse vraag bij. Dit geeft als waarnemingen Z 1,..., Z n. Verondersteld wordt dat Z 1,..., Z n onderling onafhankelijk en Poisson-verdeeld zijn met parameter θ. Om bovenstaande hypothese te toetsen, nemen we als ).