Aanbevolen literatuur

Maat: px
Weergave met pagina beginnen:

Download "Aanbevolen literatuur"

Transcriptie

1 Inhoud Les 1 Beschrjvende statstek Representate van gegevens Grafsche representate van gegevens Typsche waarden Spredng Momenten Les Steekproeven De normale verdelng Aselecte steekproeven Het gemddelde van een steekproef De standaardafwjkng van een steekproef Student t-verdelng en χ -verdelng Les 3 Schatters en betrouwbaarhedsntervallen Puntschatters Intervalschatters Betrouwbaarhedsntervallen bj gegeven varante Betrouwbaarhedsntervallen bj onbekende varante Betrouwbaarhedsntervallen voor de varante Les 4 Toetsen van hypothesen Hypothesen Toetsen en betrouwbaarhedsntervallen Toetsen op verschllen tussen twee verdelngen Les 5 Vergeljken van verdelngen De χ -aanpassngstoets χ -toets voor contngentetabellen Les 6 Varante-analyse (ANOVA) Varante bnnen en tussen steekproeven De F-verdelng van Fsher en de F-toets Varante-analyse tabellen Les 7 Regresse en correlate Regresse De regresseljn Varante-analyse en de correlatecoëffcënt Het lneare regresse model Correlate

2 Aanbevolen lteratuur Larray Gonck, Woollcott Smth: The Cartoon Gude to Statstcs. HarperResource, 1993, 40 p., ISBN: nederlandse vertalng hervan: Larray Gonck, Woollcott Smth: Het strpverhaal van de statstek. Epslon Utgaven 3, 004, 40 p., ISBN: A.G.P.M. Njst, J.Th.M. Wjnen: Kansrekenng en Statstek. Wolter- Noordhoff, 1980, 388 p., ISBN: Murray R. Spegel, Larry J. Stephens: (Schaum s Outlne of Theory and Problems of) Statstcs. McGraw-Hll Companes, 1999, 51 p., ISBN:

3 Les 1 Beschrjvende statstek In de statstek gaat het erom, vanut waargenomen gegevens een model te ontwkkelen dat de gegevens goed kan verklaren. Meestal houdt het model een kansverdelng n, daarom bestaat er een grote overlap tussen de methoden van de statstek en van de kansrekenng. Het verschl lgt ern dat men n de kansrekenng een proces veronderstelt dat volgens een kansverdelng waarden met zekere kansen produceert, terwjl men n de statstek van gegevens utgaat de een zekere frequenteverdelng hebben en probeert concluses over een her achter lggende kansverdelng te trekken. In zekere zn bekjken dus kansrekenng en statstek dezelfde vraagstukken ut verschllende nvalshoeken. 1.1 Representate van gegevens In de statstek gaat het vooral om het onderzoeken van gegevens de op een of ander maner verzameld zjn, bjvoorbeeld door één of meerdere metngen of door een enquête. Om utspraken over de gegevens te kunnen doen en structuren ern te kunnen herkennen, s het belangrjk om een overzcht van de gegevens te krjgen. Voorbeeld: We zullen n deze les vaker naar het volgende voorbeeld van gegevens kjken (resultaten bj een zekere toets): 54,41,59,45,34, 49,58,30, 61, 47,43, 48, 80,7,56, 45. Meestal s het net zo handg, de gegevens gewoon op een rj te zetten, omdat de structuur dan verborgen bljft. Daarom worden verschllende maneren toegepast om gegevens grafsch te representeren. We gaan ervan ut dat we het over gegevens hebben, de numereke waarden voor een egenschap van zekere ndvduën zjn. Denk herbj aan de utslagen van studenten bj een tentamen, de lengte van knderen op tenjarge leeftjd of ets dergeljks. Het s dudeljk dat het beschrjven van de type van de gegevens afhangt, deze kunnen dscrete waarden, zo als aantallen hebben, maar ook contnue waarden, waar n prncpe elke waarde mogeljk s. Natuurljk zjn er ook gegevens de net numerek zjn, zo als egenschappen, hobbes etc., maar deze kunnen we als gegevens met dscrete waarden behandelen, door bjvoorbeeld de verschllende mogeljkheden te nummeren. In de praktjk bestaan er egenljk bjna noot gegevens met echt contnue waarden. Als je bjvoorbeeld naar de resultaten van een compette n het versprngen kjkt, dan zjn de altjd op centmeters nauwkeurg aangegeven, terwjl we toch ook makkeljk mllmeters zouden kunnen meten. Hetzelfde geldt voor tjden, de worden bjvoorbeeld bj het zwemmen n honderdste seconden aangegeven, ook al worden ze nauwkeurger gemeten (nameljk mnstens op duzendsten). 3

4 Bj de olympsche spelen van München 197 hadden er over de 400m wsselslag bj het zwemmen de zweed Gunnar Larsson en de amerkaan Tm McKee een tjd van 4:31,98 mnuten. Maar er werden ook duzendsten seconden gemeten en de precezere tjden waren 4:31,981 voor Larsson en 4:31,983 voor McKee. Men heeft toen Larsson de gouden en McKee de zlveren medalle toegekend. Maar sndsden s er besloten, om de metngen achter de honderdste seconden gewoon te negeren en bj een dead race twee gouden medalles ut te reken. Vaak worden waarden door afronden gedscretseerd, alle waarden de n een zeker nterval lggen worden herbj door dezelfde waarde vervangen. We zouden ons daarom op gegevens met dscrete waarden kunnen beperken, maar we zullen zen dat het vaak handg s, een verdelng just wel door een contnue functe te beschrjven. Let op: Bj het rekenen met afgeronde waarden neemt de nauwkeurghed (n het algemeen) bj elke bewerkng af. Het s daarom verstandg, zo lang mogeljk met hoge nauwkeurghed te rekenen en pas het utendeljke resultaat af te ronden. Bj het optellen worden de absolute fouten bj elkaar opgeteld, want (x + x) + (y + y) = (x + y) + ( x + y). Bj het vermengvuldgen worden de relateve fouten bj elkaar opgeteld, want ut (x + x) (y + y) = x y + x y + y x + x y volgt voor (x y) = (x + x) (y + y) x y: (x y) x y x x + y y waarbj we de term met twee s hebben weggelaten. Als dus de zjden van een blok met een nauwkeurghed van 5% gemeten kunnen worden en het volume van de blok als product van de zjden wordt berekend, heeft het volume slechts nog een nauwkeurghed van 15%. Stengel-en-blad dagram Een eenvoudge mogeljkhed om waarden te representeren bestaat ern, de waarden op een ljn te markeren. Dt geeft soms al een overzcht waar de waarden lggen en waar bjvoorbeeld veel punten dcht bj elkaar lggen en hoe ver ze verspred zjn. Voor ons voorbeeld zet dt er zo ut: Natuurljk s er een probleem als we twee keer dezelfde waarde hebben, wat natuurljk vooral bj dscrete gegevens het geval s. We kunnen dt (zo als n het 4

5 plaatje) bjvoorbeeld oplossen, door punten voor dezelfde waarde boven elkaar te zetten. Een representate de dt dee oppakt s het stengel-en-blad dagram, waarbj we alle waarden n een zeker nterval naast elkaar schrjven. In het voorbeeld nemen we het eerste cjfer van een waarde (de tenen) als waarde op de stengel, het laatste cjfer komt dan als blad erachter te staan. Vervolgens worden de bladeren de achter een waarde op de stengel staan op volgorde gesorteerd. Voor ons voorbeeld zet het stengel-en-blad dagram er als volgt ut: Deze maner om waarden samen te vatten s al een specaal voorbeeld voor het vormen van klassen de we nu gaan behandelen. Klassen Vaak s het handg om verschllende waarden samen te vatten de op een of ander maner op elkaar ljken. De zo samengevatte waarden noemt men dan een klasse van waarden. Als voorbeelden van klassen hebben we al ntervallen gezen, waarbj alle waarden tussen zekere grenzen n een pot gegood worden. Maar er zjn ook heel andere klassen mogeljk, bjvoorbeeld kunnen de woorden n een tekst op totaal verschllende maneren n klassen ngedeeld worden: aantal letters n het woord; aantal klnkers n het woord; syntactsche klasse (werkwoord, naamwoord, artkel enz.); semantsche klasse (wskundg begrp, kleur, utdrukkng van bewegng). Als we endg veel gegevens op klassen verdelen, krjgen we een frequenteverdelng voor de klassen, en als we naar de relateve frequentes van de klassen kjken, voldoen deze aan de esen van een kansverdelng. Merk op dat er een subtel verschl s tussen een kansverdelng en de frequenteverdelng van klassen: Bj een kansverdelng veronderstellen we een proces de waarden met zekere kansen produceert, terwjl de frequenteverdelng gewoon een verzamelng van gegevens beschrjft. Maar natuurljk s het vaak nuttg een waargenomen frequenteverdelng met bekende kansverdelngen te vergeljken. De ndelng n klassen s een belangrjke voorwaarde voor de nterpretate van de gegevens. Te veel klassen geven vaak alleen maar versplnterde nformate 5

6 omdat heel weng gegevens n een klasse terecht komen, terwjl te weng klassen geen structuur meer laten herkennen. Als vustregel wordt soms gehanteerd, een verzamelng van n gegevens n (ongeveer) 1 + log(n) klassen n te delen, maar ook dt s net veel meer dan een heurstsche gok. Soms kan zelfs een verschuvng van de grenzen van de klassen krtek voor de nterpretate van de gegevens zjn, omdat op deze maner bjvoorbeeld een dudeljk grootste klasse over twee ongeveer even grote maar veel klenere klassen verdeeld zou kunnen worden. We zullen her straks een voorbeeld van zen. 1. Grafsche representate van gegevens De frequenteverdelngen van gegevens of klassen van gegevens laten zch op verschllende maneren grafsch representeren. We zullen de meest belangrjke vormen kort bespreken. Hstogram Bj een hstogram worden de klassen door balken vertegenwoordgd, waarbj de oppervlakte van de balken de frequentes representeert. Als de balken ook dezelfde breedte hebben, zjn natuurljk ook de hoogtes van de balken proportoneel met de frequentes. In Fguur 1 zjn twee hstograms voor ons voorbeeld te zen: In het lnkerplaatje zjn de klassen ntervallen van breedte 10, n het rechterplaatje zjn de klassen automatsch zo gekozen dat elke klasse even veel (n dt geval 4) punten bevat, en de balken dezelfde oppervlakte hebben Fguur 1: Hstograms met balken van dezelfde en verschllende breedtes. Als we n ons voorbeeld het aantal klassen volgens de formule 1 + log(n) kezen, hebben we 5 klassen nodg. De hstograms n Fguur laten zen dat een 6

7 opspltsng n 5 of 6 klassen een dudeljk kwaltatef verschl n de hstograms veroorzaakt: In het eerste geval s er een dudeljk grootste klasse, n het tweede geval zjn er twee grootste klassen en men kan zen dat er een utscheter s, omdat er een gat tussen de klasse met de maxmale waarde en de andere klassen valt Fguur : Hstograms met 5 en 6 klassen. Er kunnen ook hstograms van meerdere verzamelngen gegevens n een grafek gecombneerd worden. Dt wordt vaak gebrukt om de ontwkkelng over de tjd te laten zen. De volgende tabel geeft het aantal zetels n de Tweede Kamer weer voor de verkezngen tussen 1989 en 003 (beperkt tot partjen de n een van de verkezngen mnstens 10 zetels heeft behaald). Partj CDA PvdA VVD D GroenLnks LPF Als we voor eder partj een hstogram voor het aantal zetels n de verschllende verkezngen maken, zet de combnate van deze hstograms er ut als n Fguur 3 te zen. Natuurljk kan men ook de verdelngen van zetels n een verkezng als hstogram zen, dan worden n deze grafek gewoon verschllende hstograms naast elkaar gezet. Taart-dagram Bj een taart-dagram (pe chart) wordt een crkelschjf zo onderverdeeld dat de oppervlaktes van de sectoren de frequentes van de klassen representeren. Omdat de oppervlakte van een sector evenredg s met de hoek van de sector, 7

8 zetels CDA PvdA VVD D66 GL LPF Fguur 3: Verdelng van zetels n de Tweede Kamer. geven ook de hoeken van de sectoren de frequentes weer. Voor de verkezngen van 003 s dt n Fguur 4 te zen. SGP CU LPF CDA VVD SP D66 PvdA GL Fguur 4: Taart-dagram voor de verdelng van zetels n de Tweede Kamer. Frequentepolygoon In plaats van verschllende hstograms n een grafek te combneren, kan men ook de waarden van verschllende verdelngen over de tjd door frequentepolygonen aangeven. Herbj worden de waarden voor verschllende tjdstppen door ljnstukken verbonden. Merk op dat de tussenwaarden meestal geen betekens hebben. Ook al kun je op een ljnstuk tussen de verkezngen van 1994 en 1998 een waarde voor het jaar 1996 aflezen, zegt dat nets over een mogeljke utslag van verkezngen n het jaar De ontwkkelng van het aantal zetels n de Tweede Kamer de n Fguur 3 door een combnate van hstograms beschreven werd, wordt n Fguur 5 door frequentepolygonen gerepresenteerd. 8

9 zetels CDA PvdA VVD D66 GroenLnks LPF Fguur 5: Frequentepolygonen voor de verdelng van zetels n de Tweede Kamer. Vervalsende representate Het kezen van een vorm van representate houdt altjd een manpulate van de gegevens n. Dt hoeft net per se negatef te zjn, want een plaatje zegt meer dan duzend woorden. Maar door een specfeke keuze van representate kan er wel een zekere tendente aan de gegevens gegeven worden. Dt ledt soms - bewust of onbewust - tot een vervalsng van de gegevens. Een paar typsche maneren om gegevens te vervalsen zjn: Schalng van de assen. Herdoor wordt het stjgen of dalen stjler of vlakker en de veranderngen worden versterkt of verzwakt weergegeven. Afbreken van de y-as boven het nulpunt. Herdoor ljken veranderngen veel extremer dan ze n werkeljkhed zjn. Slmme keuze van klassen. Herdoor kunnen effecten kunstmatg voortgebracht of onderdrukt worden. Representeren van de frequente door een motef of fguur waarvan de hoogte proportoneel met de frequente s. Omdat net de hoogte maar de oppervlakte als grootte van de fguur waargenomen wordt, ljkt een twee keer zo hoge fguur ver keer zo groot. Suggereren van een ontwkkelng door representate mddels frequentepolygonen. 1.3 Typsche waarden Om verschllende verzamelngen van gegevens te kunnen vergeljken, s het vaak handg om een typsche waarde voor een verzamelng aan te geven. Er zjn 9

10 verschllende mogeljkheden, om gegevens door een bepaalde waarde te karakterseren, en edere maner benadrukt een ets ander aspect. In het bjzonder s er net zo ets als dé typsche waarde, de een verzamelng gegevens op de juste maner beschrjft. Het gemddelde Het rekenkundg gemddelde (meestal kort gemddelde genoemd) van waarden x 1,x,...,x n s gedefneerd door x := 1 n n x. =1 De nterpretate hervan s dat de gegevens bj elkaar opgeteld worden en vervolgens de som geljkvormg over de ndvduën verdeeld wordt. Een karakterserng van het gemddelde s de egenschap dat de verschllen tussen de gegevens en het gemddelde bj elkaar opgeteld 0 geven, dus dat n (x x) = 0. =1 Maar de belangrjkste egenschap van het gemddelde x s, dat het just de waarde x s waarvoor de som van de kwadratsche afstanden van de x mnmaal wordt, dus waarvoor de functe f(x) := n (x x) =1 mnmaal wordt. Deze egenschap wordt vaak zelfs als defnte van het gemddelde gebrukt. Een mnmum van f(x) vnden we als nulpunt van de afgelede f (x). Er geldt f (x) = n =1 (x x ) en dus f (x) = 0 voor n x = n =1 x = n =1 x. Omdat de functe f(x) een naar boven geopende parabool s, s dus x = x het eendudge mnmum van de functe. We kunnen het gemddelde ook n samenhang met kansverdelngen nterpreteren. Als we ons voorstellen dat de x waarden van een stochast X zjn, de met kans p x het resultaat x oplevert, dan zullen we de waarde x n een verzamelng van n waarden ongeveer p x n keer verwachten. Maar als we nu bj het gemddelde x net meer de som over de x maar over de waarden x met hun frequentes nemen, zen we dat x een benaderng van de verwachtngswaarde E[X] = x x p x van de stochast X s. Met een analoog argument zen we voor een stochast X met contnue kansverdelng met dchthedsfuncte f(x) dat het gemddelde x ook her een benaderng van de verwachtngswaarde E[X] = x f(x) dx s. 10

11 De medaan De medaan x van een verzamelng gegevens s gedefneerd als de waarde de n het mdden van de geordende waarden lgt. Dt wl zeggen dat er even veel waarden klener dan x zjn als er waarden groter zjn. Als we aannemen, dat de waarden opstjgend geordend zjn, dus x 1 x... x n, dan s voor oneven n = m + 1 de medaan x just de mddelste waarde x m. Voor een even aantal n = m neemt men gewoon het gemddelde van de twee mddelste waarden, dus x = 1 (x m + x m+1 ). Voor opstjgende waarden x 1 x... x n hebben we dus: { x n+1 als n oneven x = 1 (x n + x n +1 ) als n even. We hebben gezen dat de som van de verschllen tussen de waarden x en het gemddelde x nul geeft en dat het gemddelde x de kwadratsche afstanden mnmalseert. De medaan heeft de egenschap dat hj de gewone afstanden mnmalseert, dus dat x de waarde s waarvoor mnmaal wordt. g(x) := n x x =1 Deze egenschap van de medaan zet men (voor oneven n) als volgt n: Stel we hebben x > x, dan lggen er r waarden rechts van x en l waarden lnks van x en we hebben l > r. Als we nu x om x naar rechts schuven, dan neemt g(x) om x(l r) toe, als we x om x naar lnks schuven, neemt g(x) om x(l r) af. Dus s g(x) net mnmaal als l > r s. Met hetzelfde argument, toegepast of x < x, zen we dat g(x) ook voor l < r net mnmaal s. Dus moet l = r gelden, en herut volgt x = x. Voor even n = m s g(x) op het nterval [x m, x m+1 ] horzontaal met mnmale waarde. Men neemt daarom het mddelpunt van dt nterval als medaan. De modus Een verdere mogeljkhed om een typsche waarde te defnëren s de modus ˆx de de waarde aangeeft de met de hoogste frequente optreedt. In veel gevallen geeft de modus een goede beschrjvng de ook redeljk dcht bj het gemddelde en de medaan lgt, maar dt hangt sterk van de stuate af. Het kan bjvoorbeeld zjn, dat een verdelng twee dudeljke sptsen heeft, dan s de modus de hogere van de twee sptsen, maar gemddelde en medaan lggen waarschjnljk tussen de sptsen. Een verdelng met twee sptsen heet bmodaal, een verdelng met nog meer sptsen multmodaal. Het lnkerplaatje n Fguur 6 laat een bmodale verdelng zen. De modus van deze verdelng s ˆx = 1, de medaan s x 1.9 en het gemddelde s x =.. 11

12 x x 4 8 Fguur 6: Bmodale en multmodale verdelngen. In het rechterplaatje van Fguur 6 vnden we een multmodale verdelng met ver sptsen. In dt geval s de modus ˆx =, de medaan s x 0.39 en het gemddelde s x = 0.4. Soms kan ook bj een multmodale verdelng de modus nteressant zjn, maar meestal s het n dt geval nodg de verdelng als combnate van een aantal unmodale verdelngen te beschrjven en door de typsche waarden van deze verdelngen te karakterseren. Relate tussen gemddelde, medaan en modus Als een verzamelng van gegevens een symmetrsche unmodale verdelng heeft, vallen de waarden van het gemddelde, de medaan en de modus redeljk goed samen. Als de verdelng net symmetrsch s en een langere staart naar rechts heeft, noemt men de verdelng naar rechts scheef. In dt geval s ˆx < x < x. Omgekeerd heet een verdelng naar lnks scheef als hj een langere staart naar lnks heeft. In dt geval geldt x < x < ˆx. Een typsche naar rechts scheve verdelng s f(x) = λ xe λx met x = 1, x λ λ, ˆx = 1 λ. Deze verdelng s n Fguur 7 voor de parameter λ = 1 te zen. In het plaatje lgt dus de modus bj ˆx = 1, de medaan bj x en het gemddelde bj x =. Omdat de modus of medaan vaak net eenvoudg te berekenen vallen, wordt er voor unmodale verdelngen soms een heurstsche formule voor de samenhang tussen modus, medaan en gemddelde toegepast, nameljk x ˆx = 3(x x). 1

13 x Fguur 7: Naar rechts scheve verdelng f(x) = xe x. Voor de boven aangegeven verdelng f(x) = λ xe λx zen we dat deze vustregel verrassend goed werkt, want n dt geval s x ˆx = 1 = 1 en 3(x x) = = Maar let wel dat dt bj multmodale verdelngen meestal vreseljk ms gaat, n het voorbeeld ut het rechterplaatje van Fguur 6 krjgen we bjvoorbeeld x ˆx = 0.4 = 1.6 en 3(x x) = 3 ( ) = Merk op: Het gemddelde s veel gevoelger voor utscheters dan de medaan. Op de modus heeft een utscheter helemaal geen nvloed. Als het erom gaat een robuuste schattng voor de typsche waarde te hebben en er gevaar op utscheters bestaat, s de medaan soms een betere keuze dan het gemddelde. In ons voorbeeld van de tentamen resultaten kunnen we het gemddelde en de medaan makkeljk bepalen, we hebben x = en x = Voor de modus moeten we naar klassen kjken, als we bjvoorbeeld als klassen de ntervallen van breedte 10 nemen, lgt de modus n het nterval [40,50] en men neemt hervoor de mddelste waarde van het nterval, dus ˆx = 45. Als we nu de utslag van 80 punten als utscheter beschouwen en weglaten, verandert dt het gemddelde behoorljk, we krjgen dan als neuwe gemddelde x = 46.47, terwjl de medaan veel mnder verandert en nu x = 47 wordt. De modus bljft onveranderd. We kunnen zelfs algemeen aangeven hoe veel het weglaten van een waarde het gemddelde verandert. Stel we hebben bj n waarden en gemddelde x en wllen de waarde x weglaten. Het neuwe gemddelde wordt dan n x x n 1 en voor het verschl van het oude en het neuwe gemddelde krjgen we: x n x x n 1 = (n 1) x n x + x n 1 = x x n 1. Het gemddelde verandert dus om de afstand van de utscheter van het gemddelde, gedeeld door n 1. 13

14 Andere gemddelden Soms s het rekenkundg gemddelde net geschkt om een typsche waarde van de gegevens te beschrjven. Dt s bjvoorbeeld het geval als de gegevens x een varabel beschrjven de net opgeteld maar vermengvuldgd wordt, zoals bj groeprocessen: Stel een populate groet n n jaren met factoren x 1,x,...,x n, dan s de totale groe het product n =1 x van de x. Om nu een gemddelde groe te berekenen, waarmee n n jaren dezelfde totale groe berekt wordt, moeten we een waarde x 0 vnden zo dat x n 0 = n =1 x. We moeten dus ut het product de n-de wortel trekken, dt geeft x 0 = n x 1 x... x n en x 0 heet het meetkundg gemddelde van de x. Een andere vorm van gemddelde bestaat bj gegevens waarvoor egenljk x 1 opgeteld moet worden. Een beroemd voorbeeld hervoor s het probleem van de ploot de op de heenweg wnd tegen heeft maar de vertragng op de terugweg door de wnd mee weer n te halen denkt. We noemen de afstand van de twee vlegvelden s, de tjd voor de heenweg t 1 en de tjd voor de terugweg t. Als de ploot zonder wnd met een snelhed van v 0 vlegt, zou hj zonder wnd de tjd t = s v + s v = s v nodg hebben. Bj wnd met snelhed w s de snelhed op de heenweg v 1 = v 0 w en op de terugweg v = v 0 + w. De tjden voor heen- en terugweg zjn dan t 1 = s v 1 en t = s v. De vraag s nu, of t 1 + t geljk aan t s. Voor de gemddelde snelhed v = s t 1 +t geldt: v = Men noemt s t 1 + t = s s v 1 + s = v 1 v = v 1v v v = v 1v v 1 + v = en dus 1 1 v 1 + v v = v v 1 v v het harmonsch gemddelde van v 1 en v en dt s gewoon het nverse van het rekenkundg gemddelde van de nversen van v 1 en v. In het geval met v 1 = v 0 w en v = v 0 + w hebben we v = (v 0 w)(v 0 + w) (v 0 w) + (v 0 + w) = (v 0 w ) = v 0 w < v 0. v 0 v 0 De vlegres duurt dus bj wnd steeds langer dan zonder wnd. Tussen de verschllende gemddelden bestaat altjd de volgende keten van ongeljkheden: mnmum harmonsch meetkundg rekenkundg maxmum.. 14

15 1.4 Spredng Het s dudeljk dat een verzamelng gegevens met een gemddelde waarde (of zelfs de verschllende soorten van gemddelden) nog net goed beschreven s, want de verdelngen kunnen er nog erg verschllend ut zen. Bjvoorbeeld kan het zjn dat bj een tentamen met een gemddelde van 7 edereen het gehaald heeft, omdat er even veel 6en als 8en en geen 9en en 10en waren. Maar het kan ook zjn, dat slechts 40% het gehaald hebben, omdat 40% een 10 en 60% en 5 gehaald hebben (dt s een typsch voorbeeld van een bmodale verdelng). Men wl daarom ook een utspraak over de afwjkng van de waarden van het gemddelde hebben. Ook hervoor zjn er verschllende mogeljkheden. Standaardafwjkng We hebben al gezen dat het gemddelde x de waarde s waarvoor de kwadratsche afstanden van de gegevens mnmaal s. De wortel ut dt mnmum heet de standaardafwjkng s, we hebben dus s := 1 n (x x). n =1 Voor veel (en belangrjke) verdelngen lgt een groot deel van de waarden bnnen een afstand van s van het gemddelde. Voor de normale verdelng zjn dt bjvoorbeeld 68% (en 95% lggen bnnen een afstand van s). Met behulp van het gemddelde en de standaardafwjkng laten zch gegevens normalseren: De verschuvng x := x x geeft een verzamelng gegevens met gemddelde 0 en de transformate z := x x s geeft een verzamelng gegevens met gemddelde 0 en standaardafwjkng 1. Men noemt de waarde z := x x s de z-waarde van x. De z-waarde geeft de afwjkng van een waarde van het gemddelde van een verzamelng gegevens n veelvouden van de standaardafwjkng aan. Men zegt daarom ook soms dat een waarde een afstand van 3 standaardafwjkngen heeft, als de z-waarde 3 s. Als we de standaardafwjkng weer voor waarden bekjken de volgens een kansverdelng voor een stochast X geproduceerd zjn, zen we dat s een benaderng van de varante V ar(x) = E[(X E[X]) ] s. Voor een dscrete kansverdelng s deze gegeven door V ar(x) = x (x E[X]) p x, en voor een contnue kansverdelng met dchthedsfuncte f(x) door V ar(x) = (x E[X]) f(x) dx. In de kansrekenng hebben we de wortel ut de varante ook de standaardafwjkng genoemd en toen met σ genoteerd. Het s nderdaad gebrukeljk, grootheden van kansverdelngen zo als verwachtngswaarde en standaardafwjkng met grekse letters (µ, σ) te noteren, terwjl grootheden bj verdelngen van gegevens met latjnse letters genoteerd worden. Let wel dat net edere auteur dt soort conventes behartgt. 15

16 Kwartelen Net als de medaan voor de helft van de waarden worden ook kwartelen gedefneerd waar een kwart van de waarden beneden of boven lgt. Het onderste kwartel of eerste kwartel s de waarde waar een kwart van de waarden onder en dre kwart boven lggen en s dus de medaan van de onderste helft van de waarden. Net zo s het bovenste kwartel of derde kwartel de waarde waar dre kwart onder en een kwart boven lgt, dus de medaan van de bovenste helft van de waarden. De medaan zelfs heet soms ook het tweede kwartel. Algemeen noemt men de waarde waar p procent van de waarden onder en 100 p procent boven lggen het p-percentelpunt en noteert dt met P p. De medaan s dus het 50-percentelpunt P 50, het onderste kwartel het 5- percentelpunt P 5 en het bovenste kwartel het 75-percentelpunt P 75. Meestal zal een p-percentelpunt net preces op een waarde vallen, en ook net op het mddelpunt tussen twee waarden. Bj n (geordende) waarden heeft het p- percentelpunt n de ljst de ndex t = 1+ p 100 (n 1). Als we t schrjven als +r met een natuurljk getal en 0 r < 1, dan berekenen we de waarde voor het p-percentelpunt als gewogen gemddelde van x en x +1 met gewchten (1 r) en r, dus als P p = (1 r) x + r x +1. Als we n ons voorbeeld van 16 waarden het 15-percentelpunt zouden wllen vnden, hebben we t = = = Het 15-percentelpunt lgt dus tussen x 3 en x 4, maar op een verde van de afstand van x 3 naar x 4. We zouden dus n dt geval het 15-percentelpunt berekenen door 0.75 x x 4. Percentelpunten worden ook gebrukt om parameters van systemen vast te leggen. Bjvoorbeeld geeft een spraakherkennngssysteem voor elke herkennng een score de aangeeft hoe goed de kwaltet van de herkennng was. Dt geeft n het algemeen net de kans op een correcte herkennng weer, maar slechts een heurstsche waarde de met toenemende kwaltet stjgt. Als men met het automatsche systeem nu 90% van de aanvragen wl behandelen en de rest naar een menseljke operator doorstuurt, dan moet men op een testset van aanvragen het 90-percentelpunt van de scores bepalen en dt als grens vastleggen waaronder aanvragen naar de operator doorgestuurd worden. De afstand tussen de kwartelen geeft nformate over de spredng van de waarden. Het nterval tussen de kwartelen P 5 en P 75 heet het nterkwartelberek, hun verschl de nterkwartelafstand IQR (voor nter quartle range). Vaak wordt ook de helft van de nterkwartelafstand gebrukt, de semnterkwartelafstand 1 IQR := P 75 P 5. De nterkwartelafstand wordt vaak toegepast om utscheters aan te wjzen. Helaas s er geen zuvere defnte mogeljk wanneer een waarde de ut het algemene patroon van een verzamelng valt als utscheter te behandelen s. Over dt probleem kan de geïnteresseerde leze een omvangrjke lteratuur raadplegen. 16

17 Een veel gehanteerde vustregel s echter, waarden als utscheters te beschouwen de meer dan 1.5 IQR buten het nterkwartelberek lggen, dus: x < P IQR of x > P IQR x s een utscheter. Voor waarden de volgens dt crterum utscheters zjn, moet men met de hand beslssen of het gewoon extreme maar geldge waarden zjn of ongeldge waarden de ut het bestand verwjderd moeten worden (bjvoorbeeld omdat er bj een meetng ets ms s gegaan). Voor verdelngen de net erg scheef zjn, bestaat er een verband tussen de standaardafwjkng s en de sem-nterkwartelafstand 1 IQR, nameljk 1 IQR 3 s. Dt s afgeled van de standaard-normale verdelng, waarvoor 1 IQR geldt. Natuurljk leveren naast de kwartelen ook de mnmale en de maxmale waarde nformate over de spredng van een verdelng. Dt soort nformate wordt vaak n een doos-en-snorren fguur (box-and-whskers plot of kort box-plot) samengevat. Dt s een doos tussen de kwartelen met de medaan gemarkeerd. Voor de enden van de snorren zjn er verschllende conventes: mnmale en maxmale waarden; mnmale en maxmale waarden de bnnen een afstand van 1.5 IQR van de kwartelen lggen, de andere waarden worden als utscheters beschouwd (en soms wel als punten weergegeven); 5-percentelpunt en 95-percentelpunt. In ons voorbeeld van de tentamenresultaten hebben we P 50 = 47.5, P 5 = 4 en P 75 = 57. Herut volgt IQR = 15. Omdat = 19.5 klener s dan alle waarden, hebben we volgens het genoemde crterum geen utscheters naar beneden. Aan de andere kant s = 79.5, dus s de waarde 80 net een utscheter. Het doos-en-snorren fguur voor het voorbeeld zet er dus als volgt ut: Het doos-en-snorren fguur wordt soms horzontaal (zo als her) en soms vertcaal getekend. De vertcale verse heeft het voordeel dat de fguren voor verschllende verdelngen makkeljk naast elkaar geplaatst kunnen worden. 17

18 1.5 Momenten We hebben al een paar keer ets over de scheefhed van een verdelng gezegd. Natuurljk laat zch dt aan de hand van een grafek meestal goed aflezen, maar het s handg hervoor ook een kwanttatef begrp te hebben. Hervoor zjn de momenten van een verdelng handg. Het k-de moment van een verzamelng gegevens s gedefneerd door n m k := 1 n =1 x k en het k-de centrale moment rond het gemddelde s gegeven door m k := 1 n n (x x) k. =1 De eerste en tweede momenten zjn oude bekenden, we hebben m 1 = x, m 1 = 0 en m = s (dus s = m ). Om momenten voor verschllende verdelngen goed te kunnen vergeljken, s het gebrukeljk om ze te normalseren. Dt gebeurt net als bj de z-waarde door delen door de standaardafwjkng en men krjgt a k := m k s k = m k m k. Momenten worden op een analoge maner ook voor kansverdelngen gedefneerd. Voor een stochast X met een dscrete kansverdelng met kansen p x zjn de k-de momenten µ k en de k-de centrale momenten µ k gedefneerd door µ k := x x k p x en µ k := x (x E[X]) k p x. Voor een stochast X met een contnue kansverdelng met dchthedsfuncte f(x) geldt µ k := x k f(x) dx en µ k := In het bjzonder s µ 1 = E[X] en µ = V ar(x). (x E[X]) k f(x) dx. Let op: De hogere momenten hoeven net voor alle verdelngsfunctes van contnue kansverdelngen te bestaan. Zo heeft bjvoorbeeld de ntegraal 1 1+x dx de waarde π, maar de ntegralen x 1 1+x dx en x4 1 1+x dx hebben geen endge waarde. Scheefhed Omdat voor een scheve verdelng de waarden n de langere staart een hoger gewcht krjgen, s het derde centrale moment een maat voor de scheefhed (skewness) van de verdelng. Bj posteve waarden van m 3 of a 3 s de verdelng 18

19 scheef naar rechts, bj negateve waarden scheef naar lnks. Men noemt a 3 ook de coëffcënt van scheefhed. Verdelngen de symmetrsch ten opzchte van hun gemddelde zjn (zo als de normale verdelng), hebben natuurljk scheefhed 0. In Fguur 8 zjn de grafeken van twee naar rechts scheve verdelngen te zen. De functe n het lnkerplaatje s f(x) := λ x e λx (voor λ = 1), de functe n het mddelste plaatje s g(x) := 1 π x e x. Voor de dudeljkhed zjn de twee dchthedsfunctes n het rechterplaatje gezamenljk afgebeeld x x x Fguur 8: Vergeljk van twee naar rechts scheve verdelngen. De momenten voor f(x) zjn x = m 1 = λ, s = m = λ en m 3 = 4 λ 3. Herut volgt dat de coëffcënt van scheefhed a 3 = m 3 m 3 = s. Merk op dat a 3 onafhankeljk van de parameter λ s. De momenten voor g(x) zjn x = m 1 = 3, s = m = 6 en m 3 = 4. Herut volgt dat g(x) de coëffcënt van scheefhed a 3 = m 3 3 m = heeft. Zo als ook ut het rechterplaatje n Fguur 8 bljkt, heeft g(x) een grotere scheefhed dan f(x). Een alternateve mogeljkhed om de scheefhed aan te geven, gebrukt het verschl van gemddelde en modus, bjvoorbeeld x ˆx s. Als we her nog de heurstsche benaderng x ˆx = (x x) voor de modus op toepassen, krjgen we 3(x x) s als utdrukkng voor de scheefhed, de alleen maar van het gemddelde en de medaan afhangt. Ook met behulp van de kwartelen of percentelen laat zch de scheefhed utdrukken, bjvoorbeeld door (P 75 x) ( x P 5 ) P 75 P 5 = P 75 x + P 5 P 75 P 5 of (P 90 P 50 ) (P 50 P 10 ) P 90 P 10 = P 90 P 50 + P 10 P 90 P 10. Herbj wordt gekeken hoe ver de p-percentelpunten P 50 x en P 50+x, de bj een symmetrsche verdelng even grote afstanden van de medaan moeten hebben, van een symmetrsche poste afwjken. 19

20 Scherptoppghed Het verde moment zegt ets erover of een verdelng spts of plat s, dus over de scherptoppghed of gepekthed (kurtoss) van de verdelng. Hervoor vergeljkt men het genormalseerde verde moment a 4 met het verde moment van de standaard-normale verdelng dat de waarde 3 heeft en noemt a 4 ook de coëffcënt van scherptoppghed. Voor a 4 > 3 noemt men een verdelng gepekt (leptokurtc, van het grekse lepto- = smal) omdat de verdelng dan een scherpere top heeft dan de normale verdelng en de staarten dunner zjn. Voor a 4 < 3 noemt men de verdelng afgeplat (platykurtc, van platy- = plat) omdat ze een plattere top heeft dan de normale verdelng. Een verdelng met a 4 3 heet mesokurtc (van meso- = gemddeld). Merk op: In de lteratuur wordt vaak ook a 4 3 als coëffcënt van scherptoppghed gehanteerd, een posteve waarde hervan staat dan voor een gepekte verdelng, een negateve waarde voor een afgeplatte verdelng. Als eenvoudg voorbeeld bekjken we de symmetrsche unforme verdelng op het nterval [ c,c], deze heeft de dchthedsfuncte f(x) = 1 c. Er geldt m = c c x 1 c dx = 1 c x3 3 c c = 1 3 c en m 4 = c c x4 1 c dx = 1 c x5 5 c c = 1 5 c4. Herut volgt a 4 = m 4 m = 9 5 < 3, dus s de unforme verdelng afgeplat. Merk op dat de schalngsfactor c geen nvloed op de scherptoppghed van de verdelng heeft. Een nteressanter voorbeeld s de verdelng met dchthedsfuncte f(x) = 3 π x 6 de n het mddelste plaatje van Fguur 9 te zen s. Her hebben we m = x f(x) dx = 1 en m 4 = x4 f(x) dx = 1, dus s a 4 = m 4 = 4 en m f(x) s een gepekte verdelng. Dt wordt ook n het vergeljk met de normale verdelng n het rechterplaatje van Fguur 9 dudeljk, want bj de normale verdelng zt meer kansmassa n de staarten x x x Fguur 9: Vergeljk van de normale verdelng met een gepekte verdelng. Merk op dat de scherptoppghed vooral bj (redeljk) symmetrsche verdelngen een rol speelt. Bj scheve verdelngen heeft de scheefhed een groot nvloed 0

21 op de coëffcënt van scherptoppghed en s het vergeljken met symmetrsche verdelngen meestal net bjzonder verklarend. Belangrjke begrppen n deze les stengel-en-blad dagram klassen, frequenteverdelng hstogram, taart-dagram gemddelde, medaan, modus un-, b-, multmodale verdelngen kwartelen, p-percentelpunten standaardafwjkng, nterkwartelafstand doos-en-snorren fguur momenten, scheefhed, scherptoppghed Opgaven 1. Gegeven s de rj waarnemngen , , , , 15.70, Bereken het gemddelde en de standaardafwjkng van deze gegevens () zonder af te ronden; () met op twee decmalen achter de komma afgeronde waarden; () met op een decmaal achter de komma afgeronde waarden.. Dt s een standaardafwjkngs-wedstrjd: Kes als gegevens 4 getallen ut de getallen 0, 1,..., 10, waarbj herhalngen toegestaan zjn. () Vnd getallen zo dat hun standaardafwjkng mnmaal s. Is het antwoord eendudg? () Vnd getallen zo dat hun standaardafwjkng maxmaal s. Is het antwoord eendudg? () Behandel () en () met 3 n plaats van 4 getallen. 3. Zj X het aantal ogen dat geworpen wordt met twee wtte en één zwarte dobbelsteen, waarbj het aantal ogen van de zwarte dobbelsteen dubbel wordt geteld. In een experment met 50 werpen zjn de volgende resultaten verkregen:

22 () Bereken de verwachtngswaarde E[X] en de varante V ar(x) van de stochast X (dt hangt net van de verkregen resultaten af). () Bereken het gemddelde x en de standaardafwjkng s van de 50 waarnemngen. () Maak een hstogram voor een znvolle ndelng van de waarnemngen n klassen. 4. De aantallen van stemmen voor de kanddaat presdenten n de VS n de verkezngen snds 1960 (dus snds Kennedy) waren: jaar Republcans Democrats anderen ,108,157 34,6, ,178,188 43,19, ,785,480 31,75,166 9,906, ,169,911 9,170,383 1,099, ,147,973 40,830, , ,899,48 36,481,435 5,719, ,455,075 37,577, ,886,097 41,809, ,104,545 44,909,889 19,74, ,198,755 47,40,357 8,085, ,456,00 50,999,897,88, ,668,61 56,17,64 0 Met utzonderng van de verkezngen n 000 s steeds de kanddaat met de meeste stemmen presdent geworden. () Maak frequentepolygonen voor de relateve aantallen stemmen voor de verschllende partjen. () Bepaal de verdelng van de stemaandelen de de gekozen presdent n de verschllende verkezngen heeft behaald. Maak een doos-en-snorren fguur voor deze verdelng. Zjn er utscheters? Kun je dt verklaren? () We beperken ons nu tot de stemmen voor de republkanen en de demokraten. In het jaar 000 heeft dan bjvoorbeeld de kanddaat van de republkanen 50, 456, 00 van 50, 456, 00+50, 999,897 = 101, 455, 899 stemmen, dus 49.73% van deze stemmen gehaald, en de kanddaat van de demokraten 50.7%. De afstand tussen republkanen en demokraten defnëren we als het verschl van deze aandelen, dus 0.54% voor het jaar 000 (let op het teken). Bepaal de verdelng van deze afstanden, hun gemddelde, standaardafwjkng, medaan, kwartelen en nterkwartelafstand. Men zegt dat er een aardverschuvng heeft plaatsgevonden als de afstand bj een verkezng sterk verschlt van de afstand bj de vorge verkezng. Defneer een crterum, wanneer er sprake van een aardverschuvng s en geef aan bj welke verkezngen een aardverschuvng heeft plaatsgevonden. 5. Zj x 1,...,x n een verzamelng gegevens waarbj de x alleen maar de waarden 0 of 1 kunnen hebben. Stel er zjn p n gegevens met de waarde 0 en (1 p) n gegevens met de waarde 1. () Bereken het gemddelde x en de centrale momenten m k voor k = 1,, 3, 4. () Geef de scheefhed en scherptoppghed van deze verzamelng gegevens aan. () Laat zen dat de scheefhed 0 s dan en slechts dan als p = 0.5, dus als de verdelng over de twee mogeljke waarden symmetrsch s.

23 Les Steekproeven We zullen n deze les bekjken, hoe we gegevens van een populate zoals het gemddelde en de spredng kunnen schatten, zonder naar elk ndvdu van de populate te kjken. Het dee herbj s, n plaats van de volledge populate slechts naar een deel van de populate te kjken, dt noemt men een steekproef. Men gaat ervan ut dat de steekproef typsch (representatef) voor de hele populate s en bepaalt de gegevens van de populate op de steekproef. De crucale vraag s hoe dcht de schattng op de steekproef bj de ware waarde voor de hele populate lgt, d.w.z. wat voor een afwjkng we moeten verwachten omdat we net naar de hele populate hebben gekeken. Voor dat we ons hermee gaan bemoeen, moeten we een aantal feten over de normale verdelng verzamelen (herhalen), omdat deze verdelng de bass voor de analyse van steekproeven vormt..1 De normale verdelng De meest belangrjke verdelng n de statstek s de normale verdelng. Deze wordt volledg bepaald door de verwachtngswaarde µ en de varante σ (of de standaardafwjkng σ) en heeft de dchthedsfuncte f µ,σ (x) := 1 π σ e 1 ( x µ σ ) = 1 π σ e (x µ) σ. Een stochast X de een kansverdelng met deze dchthedsfuncte heeft, heet normaal verdeeld en wordt vaak met X N(µ,σ ) genoteerd. De verdelngsfuncte voor een normaal verdeelde stochast kan net zonder ntegraal geschreven worden, er geldt F(x) := P(X x) = x f µ,σ (t) dt. Voor een normaal verdeelde stochast X met verwachtngswaarde µ en varante σ heeft de genormalseerde stochast Z := X µ σ de verwachtngswaarde 0 en varante 1. De stochast Z heet een standaardnormaal verdeelde stochast, zjn dchthedsfuncte s de standaard-normale verdelng met de eenvoudgere dchthedsfuncte f(x) := f 0,1 (x) := 1 π e 1 x. De parameters µ en σ van een normale verdelng kunnen aan de grafek van de dchthedsfuncte f(x) afgelezen worden zoals dt n Fguur 10 geïllustreerd s: 3

24 0. y x 8 10 Fguur 10: Normale verdelng met µ = 3 en σ = en raakljn aan de grafek n x = µ + σ. De verwachtngswaarde µ s het punt waar f(x) zjn maxmum heeft. Omdat de normale verdelng symmetrsch s, s dt ook de medaan en de modus van de kansverdelng. De standaardafwjkng σ vnden we op bass van het fet dat de grafek van f(x) just n de punten x = µ σ en x = µ + σ van krommng verandert. Op de punten waar en grafek van krommng verandert s de stjgng van de grafek maxmaal of mnmaal en heeft de afgelede van de functe dus een maxmum of mnmum (en dus de tweede afgelede een nulpunt). Omdat de verdelngsfuncte F(x) van de normale verdelng net makkeljk te berekenen s, worden de waarden vaak n tabellen aangegeven. Herbj s het voldoende, de waarden voor de standaard-normale verdelng aan te geven, voor een wllekeurge normale verdelng worden de waarden op de z-waarden van de standaard-normale verdelng genormalseerd. Voor z = x µ σ en Z = X µ σ geldt mmers: P(X x) = P(Z z) = x µ σ 1 π e 1 t dt. De tabellen voor de standaard-normale verdelng worden op twee maneren aangegeven: (1) De waarden P(Z z) voor waarden van z n regelmatge afstanden, bjvoorbeeld afstanden van 0.05 tussen z = 3 en z = 3. () Krteke waarden van z zo dat P(Z z) = p voor zekere kansen p, bjvoorbeeld kansen n afstanden van 0.01 tussen 0 en 1. Voorbeeld: Voor een normaal verdeelde stochast X met verwachtngswaarde 3 en standaardafwjkng wllen we de kans P(1 X 4) weten, dat een waarde tussen x 1 = 1 en x = 4 lgt: 4

25 De genormalseerde z-waarden zjn z 1 = x 1 3 = 1 3 = 1 en z = x 3 = 4 3 = 0.5. De gezochte kans s dus P(Z 0.5) P(Z 1) voor de standaard-normaal verdeelde stochast Z. Voor deze twee kansen vnden we n een tabel de waarden P(Z 1) en P(Z 0.5) De gezochte kans s dus = Als we omgekeerd wllen weten voor welke waarde van x de kans P(X x) = 0.8 s, vnden we n een tabel dat dt voor de z-waarde het geval s, dus voor x = σ z + µ = = Inmddels wordt het aflezen van waarden van de normale verdelng ut tabellen meestal vervangen door statstek programma s, de de benodgde waarden berekenen, maar het doet geen kwaad om ook het prncpe van de tabellen goed te begrjpen. De redenen voor de centrale stellng van de normale verdelng n de statstek zjn veelvoudg, de volgende opmerkngen geven her een dee van: (1) Voor zekere parameters worden andere kansverdelngen zoals de bnomale verdelng of de Posson-verdelng door de normale verdelng goed benaderd. () De combnate van een groot aantal resultaten met bjna wllekeurge kansverdelngen levert (bj benaderng) een normale verdelng. (3) De frequenteverdelngen van de utkomsten van veel expermenten worden goed weergegeven door een normale verdelng, bjvoorbeeld kenmerken van populates (grootte, gewcht), herhaald meten van gegevens, resultaten van een grote groep mensen bj een test, enz. Dt s ten dele een consequente ut het punt (), want vaak s een groothed bepaald door een aantal engszns onafhankeljke factoren en de combnate daarvan geeft een normale verdelng. De punten (1) en () zullen we nu ets nader toelchten. Normale benaderng van andere kansverdelngen Stel een toevalsexperment levert met kans p een succes op, dan heeft de stochast X de het aantal successen n n pogngen telt een bnomale verdelng en er geldt ( ) n P(X = k) = b(n,p;k) = p k (1 p) k. k Een bnomaal verdeelde stochast X heeft de verwachtngswaarde E[X] = np en de varante V ar(x) = np(1 p). We transformeren X met behulp van 5

26 E[X] en V ar(x) op een stochast Z de verwachtngswaarde 0 en varante (of standaardafwjkng) 1 heeft. Hervoor defnëren we: Z := X np np(1 p). Als we n laten groeen, maakt de stellng van De Movre en Laplace een belangrjke utspraak over de stochast Z: X np Stellng van De Movre en Laplace: De lmet lm s een n np(1 p) standaard-normaal verdeelde stochast. Omgekeerd betekent dt, dat voor net te klene waarden van n de bnomale verdelng met parameters n en p door de normale verdelng met parameters µ = np en σ = np(1 p) benaderd kan worden. We noemen dt de normale benaderng van de bnomale verdelng. De benaderng s beter als p n de buurt van 1 lgt en slechter als p dcht bj 0 of 1 lgt. Als vustregel wordt vaak gehanteerd, dat de normale benaderng van de bnomale verdelng toegestaan s als np 5 en n(1 p) 5 (soms wordt ook np 10 en n(1 p) 10 geëst) k k Fguur 11: Normale benaderng van de bnomale verdelng met parameters n = 5 en p = 0. (lnks) en van de Posson-verdelng met parameter λ = 5 (rechts). We weten dat we voor een stochast X van zeldzame gebeurtenssen (dus met klene p) de bnomale verdelng door de Posson-verdelng met parameter λ = np kunnen benaderen. Voor de kansen bj de Posson-verdelng geldt P(X = k) = po λ (k) = λk k! e λ en de stochast X heeft verwachtngswaarde E[X] = λ en varante V ar(x) = λ. 6

27 Nadat we de bnomale verdelng behandeld hebben, zal het nu geen verrassng meer zjn, dat ook de Posson-verdelng door de normale verdelng benaderd kan worden, als de parameter λ net te klen s. Ut de stellng van De Movre en Laplace volgt nameljk, dat voor een stochast X de Posson-verdeeld met parameter λ s, de stochast Z = X λ λ bj benaderng standaard-normale verdeeld s. Omgekeerd noemt men de normale verdelng met µ = λ en σ = λ de normale benaderng van de Posson-verdelng met parameter λ. Analoog met de bnomale verdelng wordt ook her als vustregel van de toepasbaarhed van de benaderng meestal λ 5 gehanteerd. Dat de benaderngen voor de aangegeven grenzen nderdaad redeljk goed zjn, kunnen we aan de voorbeelden n Fguur 11 zen. Merk op dat de bnomale verdelng en de Posson-verdelng scheef naar rechts zjn. Daarom lgt de modus van de twee n Fguur 11 aangegeven verdelngen lnks van 5 (bj 4.69 voor de bnomale verdelng en bj 4.49 voor de Posson-verdelng) en s de normale verdelng dus telkens de verdelng met het maxmum meer rechts. Centrale lmetstellng De utspraak van één van de meest belangrjke (en msschen ook meest verbazngwekkende) stellngen n de kansrekenng en statstek s ruwweg, dat de combnate van mn of meer wllekeurge kansverdelngen bj benaderng een normale verdelng geeft. Deze stellng heet de Centrale lmetstellng en de preceze formulerng ludt als volgt: Stellng: Als X 1,X,... onafhankeljke stochasten zjn met verwachtngswaarde E[X ] en varante V ar(x ), dan s de lmet n =1 lm (X E[X ]) n n =1 V ar(x ) onder zwakke verdere voorwaarden aan de X een standaard-normaal verdeelde stochast. In het bjzonder wordt aan de voorwaarden voldaan als alle X dezelfde standaardafwjkng σ hebben, n dt geval convergeert 1 n σ ( n =1 X E[X ] ) tegen de standaard-normale verdelng. Ut deze stellng kunnen we omgekeerd concluderen dat de normale verdelng met verwachtngswaarde µ = n =1 E[X ] en varante σ = n =1 V ar(x ) een benaderng geeft voor de kansverdelng van de stochast X := n =1 X. Hoe goed deze benaderng s, hangt van de verdelngen van de enkele stochasten X en natuurljk van n af. Als voorbeeld kjken we naar de combnate van n stochasten X met unforme verdelngen op het nterval [ 1, 1 ]. Omdat de verdelngen symmetrsch 7

28 x x x 3 Fguur 1: Benaderng van de som van n unforme verdelng door een normale verdelng voor n =, n = 4 en n = 8. rond 0 lggen, s E[X ] = 0 en voor de varante geldt V ar(x ) = 1 1. De som X X n wordt dus benaderd door de normale verdelng met µ = 0 en σ = n 1. In Fguur 1 s de benaderng voor n =, n = 4 en n = 8 te zen. Het s dudeljk, dat al voor n = 4 de normale verdelng een heel goede benaderng geeft.. Aselecte steekproeven We hebben n de eerste les gezen hoe we ut een verzamelng gegevens utspraken kunnen afleden over typsche waarden, spredng, scheefhed, enz. van de gegevens. Herbj hebben we altjd gebruk gemaakt van de kenns van alle gegevens. In de praktjk s dt vaak ondoenljk of onwenseljk, omdat we utspraken wllen maken over een verzamelng gegevens waarvan we net eder ndvdu te pakken krjgen. In zo n geval nemen we een deel van de gegevens - een steekproef - en proberen ut de resultaten op de steekproef concluses over de volledge verzamelng gegevens te trekken. Voorbeelden van deze stuate zjn: Verkezngen: Om de percentages van de verschllende optes (verschllende partjen, ja/nee bj een referendum) bj een toekomstge verkezng te schatten, wordt n een enquête een steekproef van typsch 1000 of 000 mensen ondervraagd. Kwaltetstoetsen: Om de percentage defecte stukken n een producte te schatten, nemen we een steekproef en testen de gekozen stukken. Het relateve aantal defecte stukken n de steekproef nemen we als gok voor de percentage n de volledge producte. Gemddelde waarden: Om de gemddelde ntellgentequotënt of bodymass-ndex n de bevolkng te schatten, bepalen we deze voor een geselecteerde groep mensen. Het dee achter het nemen van een steekproef zt n de veronderstellng, dat de steekproef representatef voor de volledge verzamelng s. De maner hoe een 8

29 steekproef wordt genomen, heeft natuurljk een grote nvloed erop of dt nderdaad klopt. Het s bjvoorbeeld bekend dat verkezngsresultaten tussen zekere groepen n de bevolkng dudeljk verschllen, afhankeljk van nkomen, leeftjd of burgerljke staat van de mensen n een groep. Men moet daarom ervoor zorgen, dat deze factoren n de steekproef met de juste relateve frequentes gerepresenteerd zjn. Een voorbeeld van een slechte steekproef s, bj een enquête gewoon de eerste 100 mensen te vragen de je tegenkomt. Dt zou bjna noot representatef zjn, omdat je op zekere plekken vooral mensen met gemeenschappeljke egenschappen tegenkomt, op het staton bjvoorbeeld mensen de naar hun werkplek rezen en op de campus van de unverstet studenten. Ook als je n de telefoongds wllekeurg nummers kest, s dt meestal net representatef, omdat je mensen zonder telefoon buten beschouwng laat en afhankeljk van de tjd verschllende bewoners van een wonng berekt. Het juste kezen van een steekproef s een moeljke taak waarmee zch een belangrjk specaal gebed van de statstek bezg houdt. We zullen ons echter n dt college net verder met de vraag van het juste opzetten van steekproeven bemoeen, we gaan er vanaf nu van ut dat we het goed hebben gedaan en het met een aselecte steekproef te maken hebben. Een aselecte steekproef (zoals we de vanaf nu als gegeven veronderstellen) s een steekproef de aan de volgende twee esen voldoet: (1) De steekproef s onbevooroordeeld (unbased): Elk ndvdu heeft dezelfde kans om gekozen te worden. () De steekproef s onafhankeljk: De keuze van één ndvdu voor de steekproef heeft geen nvloed op de kansen van de andere ndvduen om n de steekproef te komen..3 Het gemddelde van een steekproef Vaak berekenen we het gemddelde van een steekproef en gebruken dt als schattng voor het gemddelde (of de verwachtngswaarde) van de volledge populate. Als we bjvoorbeeld bj een kwaltetstoets de kans op een foutef stuk n een producteproces wllen bepalen, nemen we hervoor als schattng de relateve frequente van fouteve stukken n een (aselecte) steekproef. De vraag s nu, hoe goed de schattng vanut de steekproef voor de echte kans s, dus hoe sterk het gemddelde van de steekproef van het gemddelde van de populate afwjkt. Het crucale dee, om bj deze vraag verder te komen, s dat we ons voorstellen, het nemen van de steekproef vaak te herhalen en de utslagen van de enkele steekproeven als toevalsexperment, dus als stochast te beschouwen. 9

30 Stel we hebben een steekproef x 1,...,x n. Dan kunnen we eder element x n de steekproef als resultaat van een stochast X beschouwen en als we veronderstellen dat de elementen n de steekproef op grond van hetzelfde proces geproduceerd worden, hebben de stochasten X alle dezelfde kansverdelng. Merk op dat we bj deze aanpak ets over het onderlggende proces veronderstellen, bjvoorbeeld dat bj de producte van de gecontroleerde stukken nderdaad elk stuk met kans p defect s en dat dt bj de verschllende stukken onafhankeljk gebeurt. Als we nu naar alle mogeljke steekproeven x 1,...,x n wllen kjken, kunnen we dt met behulp van de stochasten X 1,...,X n beschrjven, want X geeft just de kans aan waarmee het resultaat x voorkomt. Op deze maner krjgen we n het bjzonder voor het steekproefgemddelde x = 1 n (x x n ) de stochast X = 1 n (X X n ) de de verdelng van de steekproefgemddelden over alle mogeljke steekproeven aangeeft. Merk op: Het s n de lteratuur gebrukeljk, een concrete steekproef met klene letters (zoals x 1, x, y) aan te geven, terwjl hoofdletters (zoals X 1, X, Y ) de stochasten voor de verdelng over alle steekproeven aangeven. Voorbeeld: Zj X de stochast van een Bernoull-experment met parameter p, d.w.z. er geldt P(X = 1) = p en P(X = 0) = 1 p. De verwachtngswaarde E[X] s dan E[X] = p 1 + (1 p) 0 = p en de varante V ar(x) s V ar(x) = p (1 p) + (1 p) p = p(1 p). Als we een steekproef van grootte n nemen, herhalen we het Bernoullexperment n keer onafhankeljk en hebben herbj n stochasten X 1,...,X n met dezelfde verdelng als X. Voor de stochast X := 1 n (X X n ) de de relateve frequente van 1en bj n pogngen aangeeft, hebben we E[X] = 1 n (p p) = 1 n np = p dus s de verwachtngswaarde van de steekproefgemddelden nderdaad de juste parameter p. Als we dus meerdere steekproeven nemen, kunnen we ervan utgaan dat de ware waarde van p ongeveer het gemddelde van de steekproefgemddelden s. 30

31 Het fet dat we n plaats van (bjvoorbeeld) 10 steekproeven met grootte n apart te nemen ook meteen een grotere steekproef van grootte 10n hadden kunnen nemen om de waarde van p te schatten, ledt tot de nteressante vraag hoe ver het steekproefgemddelde van de juste waarde van p afwjkt. Maar herover maakt just de varante V ar(x) van de stochast X een utspraak, we kunnen nameljk verwachten dat het steekproefgemddelde meestal net meer dan één standaardafwjkng σ X van p afwjkt, en de standaardafwjkng σ X s gegeven door σ X = V ar(x). De varante van X laat zch berekenen door V ar(x) = 1 n (p(1 p) p(1 p)) = 1 n np(1 p) = 1 p(1 p). n p(1 p) n Dt betekent dat het steekproefgemddelde een standaardafwjkng van heeft. In het bjzonder neemt de onzekerhed van de schattng van p met de wortel ut de grootte van de steekproef af. Omdat we steeds van een aselecte steekproef utgaan, s voor het n keer herhalen van een Bernoull-experment de Centrale lmetstellng van toepassng en we krjgen voor net te klene n als verdelng voor de waarde van X (bj benaderng) een normale verdelng. Dt betekent dat het steekproefgemddelde met een kans van ongeveer 68% n het nterval [ ] p(1 p) p(1 p) p n, p + lgt, want dt s just de kansmassa de bj de normale verdelng tussen µ σ en µ + σ lgt. n Merk op dat we n het voorbeeld een alternateve verdelng met parameter p verondersteld hebben, en hermee ets over de verdelng van X konden zeggen. Dt s de stuate van een hypothese de we over de onderlggende kansverdelng hebben en de we met de realsates x = 1 n n =1 x van X op concrete steekproeven kunnen toetsen. Het probleem van het toetsen van hypothesen zullen we later n deze cursus behandelen. Het resultaat van het voorbeeld met het Bernoull-experment geldt nderdaad algemeen voor het bepalen van het gemddelde van gegevens: Stel we wllen het gemddelde van een zekere groothed bepalen, dan zen we elke metng als het resultaat van een kansexperment met een stochast X de een zekere kansverdelng heeft. We veronderstellen dus een stochast X met verwachtngswaarde E[X] en standaardafwjkng σ = σ X = V ar(x). Bj een steekproef van n metngen beschouwen we het steekproefgemddelde x = 1 n (x x n ) als utkomst voor de neuwe stochast X = 1 n (X X n ), waarbj de stochasten X dezelfde kansverdelng als de veronderstelde stochast X hebben. Voor de stochast X van het steekproefgemddelde geldt nu: E[X] = 1 n (E[X 1] E[X n ]) = 1 n E[X] = E[X] n 31

32 en V ar(x) = 1 n (V ar(x 1) V ar(x n )) = 1 n n V ar(x) = 1 n σ X dus geldt voor de varante σ X en de standaardafwjkng σ X van X: σ X = 1 n σ X en σ X = 1 n σ X. De verdelng van het steekproefgemddelde heeft dus dezelfde verwachtngswaarde als de onderlggende kansverdelng en de standaardafwjkng van de steekproefgemddelden neemt met de wortel ut de grootte van de steekproef af. Merk op dat we bj het berekenen van de varante van X weer gebruk ervan hebben gemaakt dat de X onafhankeljk zjn, dus dat we het met een aselecte steekproef te maken hebben. Strkt genomen geldt σ = 1 X n σ X voor de varante van X alleen maar als we een steekproef ut een onendge populate nemen of als we de steekproef door trekken met terugleggen verkrjgen. Dt s bjvoorbeeld bj herhaalde metngen van een waarde van toepassng, want n prncpe kunnen we onendg lang doorgaan met de metngen en de populate s dus onendg. Als een steekproef van grootte n ut een endge populate met N elementen door trekken zonder terugleggen genomen wordt, geldt voor de varante van het steekproefgemddelde σ X = 1 ( ) N n n σ X. N 1 Maar deze correcte kunnen we n de praktjk bjna altjd verwaarlozen, omdat N veel groter s dan n (anders zouden we geen steekproef nemen, maar de hele populate bekjken) en dus N n N 1 heel dcht bj 1 lgt. Het probleem s nu, dat we over de kwaltet van onze schattng voor het gemddelde E[X] alleen ets kunnen zeggen als we de standaardafwjkng σ X van X kennen..4 De standaardafwjkng van een steekproef Net zo als we het steekproefgemddelde als het gemddelde x = 1 n (x x n ) van de waarden n een steekproef hebben gedefneerd, kunnen we ook een steekproefvarante en een steekproefstandaardafwjkng defnëren. De voor de hand lggende gedachte zou zjn, de steekproefvarante door 1 n ((x 1 x) (x n x) ) te defnëren. Maar met het steekproefgemddelde s al een afhankeljkhed tussen de x gegeven, als we nameljk x 1,...,x n 1 en x kennen, lgt x n vast. Men zegt daarom, dat we slechts nog n 1 vrjhedsgraden hebben, omdat we met x een afhankeljkhed tussen de x ngevoerd hebben. In plaats van de som van de kwadratsche afstanden door n te delen, delen we door 3

33 het aantal n 1 van onafhankeljke waarden n de steekproef en defnëren de steekproefvarante s en de steekproefstandaardafwjkng s als volgt: s := 1 n (x x) en s := 1 n (x x) n 1 n 1. =1 =1 Er s ook een mnder heurstsche verklarng voor het gebruken van n 1 n plaats van n n de noemer. Dt hangt samen met de theore van schatters de we n de volgende les gaan bedscussëren. Het crucale punt s, dat we graag wllen dat de verwachtngswaarde van de steekproefvarante de ware varante σ van de onderlggende verdelng geeft, net zo als de verwachtngswaarde E[X] van het steekproefgemddelde de ware verwachtngswaarde E[X] s. Om de verdelng van de steekproefvarante over verschllende steekproeven te analyseren, defnëren we weer een stochast X met de onderlggende kansverdelng en nemen aan dat alle mogeljke steekproeven door onafhankeljke stochasten X 1,...,X n met dezelfde kansverdelng als X worden beschreven. De verwachtngswaarde en varante van X noteren we met µ := E[X] en σ := V ar(x). We weten dat σ = E[X ] E[X], dus s E[X ] = σ + µ. De stochast X voor het steekproefgemddelde s weer gedefneerd door X = 1 n n X = 1 n (X X n ). =1 Er geldt (X X) = (X 1 n ( j X j )) = X n X ( j X j ) + 1 n X j X k. j,k Als we dt over alle ndces optellen, krjgen we (X X) = X X X j + n 1 n n X j X k,j j,k = X 1 X j X k = X n 1 n ( j,k X ). Er geldt E[X ] = σ + µ, E[ X ] = nµ en V ar( X ) = nσ. Herut volgt E[( X ) ] = V ar( X ) + E[ X ] = nσ + n µ en hermee krjgen we E[ (X X) ] = E[ X ] 1 n E[( X ) ] = n(σ + µ ) 1 n (nσ + n µ ) = nσ + nµ σ nµ = (n 1)σ. 33

34 We moeten dus de steekproefvarante als s := 1 n 1 ( (x x) ) defnëren, om als verwachtngswaarde van de steekproefvarante over alle steekproeven de varante σ te krjgen. De stochast de de verdelng van de steekproefvarantes beschrjft noemen we S en defnëren deze door S := 1 n 1 ( (X X) )..5 Student t-verdelng en χ -verdelng Student t-verdelng Bj een stochast X krjgen we de verdelng van de z-waarden door Z := X µ σ en analoog krjgen we bj een steekproef van n waarden de z-waarde van het steekproefgemddelde als z := x µ s = x µ n n s waarbj we de onbekende standaardafwjkng σ door de steekproefstandaardafwjkng s vervangen. Om de verdelng van de z-waarden van het steekproefgemddelde te beschrjven, nterpreteren we de elementen x van een steekproef weer als realsates van stochasten X, dan wordt de verdelng van de z-waarden beschreven door de stochast T := X µ = X µ 1 n met X := S n S n n X en S := =1 1 n 1 n (X X). Voor een normaal verdeelde stochast X heet de kansverdelng van T de Student t-verdelng met n 1 vrjhedsgraden. De Student t-verdelng s platter dan de standaard-normale verdelng maar komt voor groeende n steeds dchter bj de standaard-normale verdelng. De oorzaak hervoor s de onzekerhed over de varante de de steekproefgemddelden sterker om de ware waarde van het gemddelde verspredt. =1 De rare naam van deze verdelng gaat terug op Wllam Sealey Gosset ( ), de 1908 een artkel herover gepublceerd heeft. Omdat hj als medewerker van de Gunness brouwerj net onder zjn egen naam mocht publceren, koos hj het pseudonem Student voor zjn wetenschappeljke artkelen. Een beschrjvng van hem zegt: To many n the statstcal world Student was regarded as a statstcal advsor to Gunness s brewery, to others he appeared to be a brewer devotng hs spare tme to statstcs. De dchthedsfuncte van de Student t-verdelng met n vrjhedsgraden s f n (x) := C n (1 + x n+1 ) n 34

35 waarbj de normalserngsconstante C n gegeven s door C n := Γ(n+1 ) 1 Γ( n ). πn De herbj optredende Gamma-functe Γ(t) s gedefneerd door Γ(t) = 0 x t 1 e x dt. Ook dt s (net als de verdelngsfuncte van de normale verdelng) een functe de net zonder ntegraal te schrjven s. Ut de egenschappen Γ(t + 1) = tγ(t) en Γ(1) = 1 volgt dat Γ(n + 1) = n! voor natuurljke getallen n. De Gamma-functe s dus een soort nterpolate van de facultet en speelt daarom n veel gebeden van de wskunde een belangrjke rol. Omdat de Student t-verdelng symmetrsch s, heeft een stochast T met deze verdelng de verwachtngswaarde E[T] = 0. Heeft T een verdelng met n 3 vrjhedsgraden, dan geldt V ar(t) = n n, de varante s dus nderdaad groter dan bj de standaard-normale verdelng x Fguur 13: Student t-verdelng voor n = 1 en n = 3 n relate tot standaardnormale verdelng. χ -verdelng Met de Student t-verdelng wordt de verdelng van de steekproefgemddelden bj onbekende onderlggende varante beschrjven. Een andere klasse van functes s geschkt om de verdelng van de steekproefvarantes te beschrjven. Voor n standaard-normaal verdeelde stochasten X 1,...,X n heet de verdelng van de stochast Y = X X n een χ -verdelng met n vrjhedsgraden. Het betekens van deze verdelng lgt n het verband met de verdelng van de steekproefvarantes: 35

36 Voor de stochast S van de steekproefvarantes geldt S = 1 n 1 (X X) = σ n 1 ( ) X X. σ Nu s X X σ zelf net standaard-normaal verdeeld, maar voor de stochast X µ σ geldt dt wel, dus s (X µ σ ) een χ -verdelng met n vrjhedsgraden. Met behulp van de relate (X X) = (X µ) n(x µ) laat zch aantonen dat (X X σ ) nderdaad wel een χ -verdelng met n 1 vrjhedsgraden s, dus geldt samengevat: n 1 σ S = ( X X ) heeft een χ -verdelng met n 1 vrjhedsgraden. σ Ook de χ -verdelngen kunnen we explcet aangeven, de χ -verdelng met n vrjhedsgraden heeft de dchthedsfuncte f n (x) = { Cn x n 1 e x voor x > 0 0 voor x 0, waarbj C n = ( n Γ( n )) x Fguur 14: χ -verdelngen voor n = 3, n = 5 en n = 10. Voor een stochast Y met χ -verdelng met n vrjhedsgraden geldt E[Y ] = n en V ar(x) = n en voor n wordt de χ -verdelng steeds beter benaderd door een normale verdelng met µ = n en σ = n. 36

37 We zullen de χ -verdelng n het kader van betrouwbaarhedsntervallen en het toetsen van hypothesen n dt cursus nog vaker tegen komen. Belangrjke begrppen n deze les normale verdelng normale benaderng Centrale lmetstellng steekproef, aselecte steekproef steekproefgemddelde, -varante, -standaardafwjkng Student t-verdelng χ -verdelng Opgaven 6. Laten X 1,..., X n onafhankeljke normaal verdeelde stochasten zjn met E[X ] = µ en V ar(x ) = σ. Er geldt dat ook de lneare combnate Y = a 1X a n X n een normaal verdeelde stochast s. Bereken de verwachtngswaarde E[Y ] en de varante V ar(y ) van Y. 7. Een populate bestaat ut de ver waarden 3, 7, 11 en 13. Een mogeljke methode om het gemddelde van de populate te schatten, s steekproeven van elementen met terugleggen te nemen en hervan het gemddelde te bepalen. Algemeen noemt men een methode om een parameter van een populate te schatten ook een schatter. () Bereken het gemddelde van de schattngen over alle mogeljke steekproeven (dus de verwachtngswaarde van de schatter). Vergeljk dt met het echte gemddelde van de populate. () Bepaal de standaardafwjkng van deze schatter voor het gemddelde van de populate. () Bj een alternateve schatter neem je steekproeven van elementen zonder terugleggen. Bepaal weer de verwachtngswaarde en de standaardafwjkng van deze schatter, dus het gemddelde van de steekproefgemddelden over alle mogeljke steekproeven en de standaardafwjkng van de verzamelng van alle steekproefgemddelden. 8. Bj een steekproef van n stukken worden s defecte stukken gevonden, de schattng voor de kans p op een defect stuk s dus p = s n. Voor een gegeven waarde van p laat zch de kwaltet van de schattng makkeljk toetsen, omdat n dt geval de standaardafwjkng van de verdelng van schattngen (dus de standaardafwjkng van p(1 p) de schatter) gegeven s door n. Maar n veel gevallen s de ware waarde van p onbekend en we moeten onze concluses alleen ut de steekproef trekken. 37

38 () Bj een steekproef van 100 stukken werden 0 defecte stukken gevonden. Bepaal de mnmale en de maxmale waarde van p zo dat de schattng p = 0. bnnen één standaardafwjkng (van de schatter) van p lgt. () We noteren de grootste waarde van p waarvoor de schattng p nog net bnnen één standaardafwjkng van p lgt met p max. Geef een formule afhankeljk van p max, p en n aan, waar p max aan voldoet. (Hnt: Bepaal een functe van p de p max als nulpunt heeft. Het nulpunt van deze functe kan net explcet bepaald worden, maar moet numerek benaderd worden.) Geef ook een formule voor de klenste waarde p mn van p aan, waarvoor p nog bnnen één standaardafwjkng van p lgt. () Stel emand beweert dat zjn schattng van p = 0. bnnen één standaardafwjkng van 0.01 van de ware waarde van p lgt. Hoe groot moet zjn steekproef voor deze bewerng mnstens zjn? 9. Zj X een stochast met de dre mogeljke utkomsten 1, 0 en 1 en met de kansverdelng P(X = 1) = P(X = 1) = 1 p en P(X = 0) = 1 p de van een parameter 0 p 1 afhangt. Zj T 0 de stochast de het aantal 0en n een steekproef van grote n aangeeft, en T 1 de stochast de het aantal 1en aangeeft. Laat zen dat de verwachtngswaarden van 1 n (n T 0) en van n T 1 geljk aan p zjn. 10. Bj een zeker chemsch proces wordt de afgegeven energe (warmte) gemeten en er wordt verondersteld dat de afgegeven energe door een stochast X met verwachtngswaarde µ en varante σ wordt beschreven. Bj 10 metngen zjn de volgende resultaten verkregen: x 1 = 144, x = 1198, x 3 = 11, x 4 = 135, x 5 = 145, x 6 = 1190, x 7 = 10, x 8 = 10, x 9 = 133, x 10 = 108. () Bepaal het steekproefgemddelde x en de steekproefvarante s van de metngen. () In plaats van over alle steekproefwaarden te mddelen, zou men ook het gemddelde van de eerste en de laatste waarde, of het gemddelde van de waarden x 3 t/m x 8 kunnen nemen. Dt geeft aanledng tot de schatters Y := 1 (X 1+X 10 ) en Z := 1 6 (X 3 + X 4 + X 5 + X 6 + X 7 + X 8 ). Bepaal de schattngen voor het gemddelde van de aangegeven steekproef met deze twee schatters. () Laat zen dat voor de schatters Y en Z ut () geldt dat E[Y ] = E[Z] = E[X]. Bepaal ook de varantes van deze schatters. (v) De schatter Y voor de verwachtngswaarde µ van X kunnen we ook voor een algemeen steekproef van grote n defnëren door Y := 1 (X 1 + X n ). Laat zen dat deze schatter Y verwachtngswaarde E[Y ] = µ en varante V ar(y ) = σ heeft. 38

39 Les 3 Schatters en betrouwbaarhedsntervallen In de vorge les hebben we erna gekeken hoe we bjvoorbeeld het gemddelde en de varante van een populate kunnen schatten, door deze gegevens op steekproeven te bepalen. We hebben daarbj het net erg verrassende resultaat ngezen dat de nauwkeurghed van een schattng met de grootte van de steekproef toeneemt, bjvoorbeeld neemt de steekproefstandaardafwjkng neemt met 1 de factor n af. We zullen n deze les de vraag nagaan, hoe we utspraken erover kunnen maken dat een nterval rond een schattng de juste waarde met een gegeven kans bevat. Zo n nterval noemt men een betrouwbaarhedsnterval. Herbj moeten we n het bjzonder preces formuleren, wat de utspraak een waarde lgt met een betrouwbaarhed van 95% n een zeker nterval egenljk betekent. Tot nu toe hebben we het begrp schattng van een waarde engszns ntuïtef gehanteerd. Om de concepten achter betrouwbaarhedsntervallen goed te kunnen begrjpen, moeten we nu echter enkele egenschappen van het proces beschrjven, waarmee schattngen verkregen worden. Zo n proces noemt men een schatter. Herbj zjn twee gevallen belangrjk: Een schattng de een enkele waarde oplevert noemt men een puntschatter, een schattng de een nterval geeft, heet een ntervalschatter. 3.1 Puntschatters We hebben tot nu al vaker gezegd dat het steekproefgemddelde x := 1 n n =1 x een schattng voor het gemddelde van de populate s. We zullen nu kort het abstracte begrp van een schattng toelchten. De meeste kansverdelngen de n de statstek een rol spelen, hangen van een of meerdere parameters af, de normale verdelng bjvoorbeeld van de verwachtngswaarde µ en de varante σ en de exponentële verdelng met dchthedsfuncte f(x) = λe λx van de ntenstet λ. Defnte: Zj X een stochast met een kansverdelng de van de parameter θ afhangt. () Een schattng s een functe (of procedure) de ut een steekproef x 1,...,x n een waarde voor de parameter θ van de kansverdelng van X bepaalt. Deze waarde hangt alleen maar van de gegevens n de steekproef af en wordt berekent volgens een functe t(x 1,...,x n ). () Als we de elementen x n de steekproef als realsates van stochasten X zen de alle dezelfde kansverdelng hebben als X, dan noemen we de stochast T = t(x 1,...,X n ) de de verdelng van de schattngen over alle steekproeven aangeeft een schatter voor θ. We hebben n de vorge les al voorbeelden van schatters gezen: 39

40 X := 1 n n =1 X s een schatter voor de verwachtngswaarde µ = E[X] van X. S := 1 n 1 n =1 (X X) s een schatter voor de varante σ = V ar(x) van X. Defnte: We zeggen dat een schatter T zuver (unbased) s, als voor elke waarde van de parameter θ voor de kansverdelng van de stochast X geldt, dat de verwachtngswaarde E[T] just θ oplevert. We hebben gezen dat X en S zuvere schatters zjn. Deze egenschap van S was just de reden om bj de steekproefvarante door n 1 en net door n te delen. Voor de schatter T := 1 n n =1 (X X) hadden we nameljk gezen dat E[T] = n 1 n σ σ s als de stochast X varante σ heeft. Omdat lm n E[T] = σ noemt men T een asymptotsch zuvere schatter. Dt betekent, dat de schatter voor grote steekproeven wel een goede schattng geeft. Alhoewel S = 1 n n 1 =1 (X X) een zuvere schatter voor de varante σ 1 n s, s S = n 1 =1 (X X) geen zuvere schatter voor de standaardafwjkng σ, d.w.z. n het algemeen s E[S] σ. Dt lgt smpelweg eraan dat a + b a + b. Er zjn verschllende algemene prncpes hoe men schatters voor de parameters van kansverdelngen construeert. We zullen twee van de meest gebrukeljke van deze prncpes nu kort bekjken. Momentenschatters Meestal s een kansverdelng de van een aantal parameters θ 1,...,θ s afhangt door een dchthedsfuncte f(x) gegeven, de van deze parameters afhangt. Als we voor zo n verdelng de momenten µ k (of centrale momenten µ k) berekenen, hangen deze natuurljk ook van de parameters θ 1,...,θ s af. Bj de normale verdelng met parameters µ en σ hebben we bjvoorbeeld µ 1 = µ en µ = σ + µ. Vaak s het mogeljk, deze vergeljkngen naar de parameters op te lossen, waarbj men steeds net zo veel momenten n aanmerkng neemt als er parameters zjn. Voor de normale verdelng geeft dt bjvoorbeeld de relates µ = µ 1 en σ = µ µ 1. Het dee van een momentenschatter s nu, als schattng voor de momenten µ k de steekproefmomenten m k := 1 n n =1 xk te bepalen en M k := 1 n n =1 Xk als schatter voor het k-de moment µ k te defnëren. Door de schatters voor de momenten n de relates tussen parameters en momenten n te vullen, krjgen we zo schatters voor de parameters. 40

41 Bj de normale verdelng levert dt als schatter voor µ de oude bekende X = 1 n X n en als schatter voor σ krjgen we. 1 n n X n (1 X ) = 1 n n n ( X 1 n n ( X ) ) = 1 n =1 =1 =1 =1 =1 n (X X) = n 1 n S. De momentenschatter s dus n het bjzonder net noodzakeljk een zuvere schatter. Maxmum lkelhood schatters Als een dchthedsfuncte f(x) van parameters θ 1,...,θ s afhangt, kunnen we dt ook explcet utdrukken door f(x) = f(x;θ 1,...,θ s ) te schrjven. Voor een steekproef x 1,...,x n s dan het product n L(θ 1,...,θ s ) := f(x ;θ 1,...,θ s ) =1 een maat voor de aannemeljkhed waarmee een stochast X met parameters θ 1,...,θ s de elementen van de steekproef geproduceerd heeft. Hoe groter deze aannemeljkhed, hoe beter past de verdelng van de stochast bj de gevonden steekproef. De maxmum lkelhood schatter (meest aannemeljke schatter) bepaalt daarom de waarden θ 1,...,θ s zo, dat de aannemeljkhed maxmaal wordt. Bj een aantal van kansverdelngen s het mogeljk dt explcet met behulp van afgeleden ut te rekenen. Voorbeeld: We kjken naar een exponentële verdelng met parameter λ. De dchthedsfuncte s f(x;λ) = λe λx en als aannemeljkhed voor een steekproef x 1,...,x n krjgen we n L(λ) = λe λx = λ n e λ(p x). =1 De aannemeljkhed s maxmaal als L (λ) = 0 en voor de afgelede krjgen we =1 L (λ) = nλ n 1 e λ(p x ) λ n e λ(p x ) ( x ) = λ n 1 e λ(p x ) (n λ( x )) en er geldt L (λ) = 0 als n λ( x ) = 0, dus voor λ = n x = 1 x. Dt s natuurljk preces het verwachte resultaat. In fete geeft de maxmum lkelhood schatter voor de veel van de gebrukeljke verdelngen de meest voor de hand lggende schattng. 41

42 Omdat de aannemeljkhed L(θ) = f(x 1 ; θ)... f(x n ; θ) een product van n utdrukkngen n θ s, s het vaak onhandg de afgelede van deze functe te bepalen. Wegens de productregel krjgt men herbj nameljk erg veel termen. Het s daarom vaak handg, n plaats van de functe L(θ) zelfs de logartme log(l(θ)) te bekjken, omdat log(l(θ)) = log(f(x 1 ; θ)) log(f(x n ; θ)). Omdat de logartme een monotoon stjgende functe s, neemt log(l(θ)) preces voor dezelfde waarde van θ zjn maxmum aan als L(θ), daarom kan men n plaats van de nulpunten van L (θ) ook de nulpunten van log(l(θ)) bepalen. Voor de normale verdelng levert de maxmum lkelhood schatter hetzelfde resultaat als de momentenschatter, dus krjgt men ook her net n elk geval een zuvere schatter. Er laat zch wel aantonen dat de maxmum lkelhood schatters altjd asymptotsch zuver zjn. 3. Intervalschatters De schatters de we tot nu toe hebben bekeken, noemt men puntschatters omdat ze voor een gegeven steekproef een preceze waarde voor een parameter opleveren. Bjvoorbeeld levert de schatter X := 1 n n =1 X voor het gemddelde van een populate op een gegeven steekproef x 1,...,x n de schattng x = 1 n n =1 x. In tegenstellng hertoe geeft een ntervalschatter voor een gegeven steekproef een nterval aan waarn de juste waarde θ van de parameter moet lggen. Herbj wordt altjd een level γ van betrouwbaarhed geëst, waarmee het nterval de juste waarde bevat. De betrouwbaarhed γ wordt als volgt geïnterpreteerd: Voor een gegeven waarde van θ s γ de kans dat een steekproef een nterval oplevert dat θ bevat. We kjken dus weer naar alle mogeljke steekproeven en analyseren de verdelng van de schattngen. Merk op: Een betrouwbaarhed van 95% voor een nterval betekent net dat de juste waarde θ met kans 95% n het nterval lgt, maar dat onze methode om het nterval te schatten voor 95% van de mogeljke steekproeven een nterval oplevert, dat θ bevat. Bj een betrouwbaarhed van γ = 0.8 zouden we dus bj vjf steekproeven verwachten, dat de juste parameter ver keer n het geschatte nterval lgt, bjvoorbeeld zo als n het volgende plaatje met de ntervallen rond de schattngen x () aangegeven. x (4) x (5) x () x (3) θ x (1) 4

43 In de taal van stochasten en schatters levert dt dee van betrouwbaarhed het volgende concept op: Zj X een stochast met dchthedsfuncte f(x) := f(x; θ) en verdelngsfuncte F(x) := F(x;θ) de van een parameter θ afhangen, dan berekenen we de kansen voor X door P(X x) = P θ (X x) = F(x) = x f(t) dt. Defnte: We noemen een paar (T 1,T ) van schatters een ntervalschatter van betrouwbaarhed γ voor θ als P(T 1 θ T ) = γ voor elke mogeljke waarde van de parameter θ. Een realsate van een ntervalschatter op een concrete steekproef x 1,...,x n heet een betrouwbaarhedsnterval van betrouwbaarhed γ voor θ. Omdat we de waarde van θ van twee zjden ngeschakeld hebben, noemen we het paar (T 1,T ) ook een tweezjdge ntervalschatter. Als we n de praktjk een betrouwbaarhedsnterval voor de verwachtngswaarde µ := E[X] schatten, zal het nterval bjna altjd symmetrsch rond het steekproefgemddelde x lggen. Dt s geen noodzakeljke voorwaarde maar wel heel gebrukeljk. Er laat zch aantonen dat voor een normaal verdeelde stochast X het symmetrsche nterval rond x de klenste lengte van alle ntervallen met betrouwbaarhed γ heeft. Soms s het nteressant om alleen maar een boven- of een benedengrens voor een parameter te schatten. Dt levert éénzjdge ntervalschatters. We noemen een schatter T 1 een rechtséénzjdge ntervalschatter van betrouwbaarhed γ als P(T 1 θ) = γ voor elke mogeljke waarde van de parameter θ en we noemen een schatter T een lnkséénzjdge ntervalschatter van betrouwbaarhed γ als P(θ T ) = γ voor elke mogeljke waarde van de parameter θ. De reden waarom de schatter T 1 met P(T 1 θ) = γ rechtséénzjdg heet, hangt met de éénzjdge toetsen samen de we n de volgende les gaan behandelen. 3.3 Betrouwbaarhedsntervallen bj gegeven varante Een belangrjk voorbeeld van een ntervalschatter s het bepalen van een betrouwbaarhedsnterval voor de verwachtngswaarde µ van een normaal verdeelde stochast X met bekende varante σ. Hetzelfde prncpe werkt bj benaderng ook voor de verwachtngswaarde van net normaal verdeelde stochasten, n het bjzonder voor de verwachte kans op succes bj een bnomale verdelng. 43

44 De centrale lmetstellng zegt dat de som van onafhankeljke stochasten goed benaderd wordt door een normale verdelng. Herut volgt dat de vorm van de onderzochte stochast X geen grote rol speelt als de steekproefgrootte n net te klen s. Maar er zjn wel andere problemen, waardoor de verdelng van schattngen van de normale verdelng afwjkt. Deze hebben vooral met de veronderstellng te maken dat we een aselecte steekproef hebben genomen. Dt s n de praktjk vaak lastg, omdat mensen bjvoorbeeld een enquête wegeren, maar dt net representatef over de populate gebeurt. Ook s het vaak net realstsch, dat de verschllende steekproefelementen onafhankeljk van elkaar genomen worden. Het s de kunst van de nsttuten voor opneonderzoek deze factoren zo ver mogeljk te onderdrukken of de resultaten navenant te corrgeren. Stel we hebben een normaal verdeelde stochast X N(µ,σ ) dan weten we dat X := 1 n n =1 X een zuvere schatter voor µ s. Omdat X normaal verdeeld s, geldt dt ook voor X (de som van onafhankeljke normaal verdeelde stochasten s weer normaal verdeeld) en we weten dat V ar(x) = σ n. Herut volgt dat de stochast standaard-normaal verdeeld s. Z := X µ σ n = (X µ) n σ Als X een net-normaal verdeelde stochast met verwachtngswaarde µ en varante σ s, geldt voor X nog steeds dat E[X] = µ en V ar(x) = σ n, maar X s net meer normaal verdeeld. Ut de Centrale lmetstellng volgt echter dat voor een net te klene n de verdelng van X sterk op een normale verdelng ljkt en herdoor goed benaderd kan worden. Voor een stochast Z N(0, 1) met standaard-normale verdelng defnëren we nu de z-waarde z α van level α := 1 γ door P(Z > z α ) = α. Voor een betrouwbaarhed van 95% s dus α = 0.05 = en geeft z α de waarde aan, waarvoor slechts 5% van de waarden van Z boven z α lggen en de waarden van Z dus met betrouwbaarhed 95% hoogstens z α zjn. De level α = 1 γ wordt ook wel de onbetrouwbaarhed genoemd. Omdat de normale verdelng symmetrsch rond 0 s, geldt Herut volgt n het bjzonder: P(Z < z α ) = α en dus P( Z > z α ) = α. P( z α Z z α ) = 1 α = γ. De waarden van de standaard-normale verdelng lggen dus met kans γ = 1 α tussen z α en z α. In Fguur 15 s dt voor γ = 0.9 aangedud. Het wtte 44

45 stuk onder de grafek bevat 90% van de totale oppervlakte onder de grafek, de resterende 10% lggen n de grjze staarten, dus telkens 5% n de lnker- en rechterstaart. De z-waarde z 0.05 s dus just het punt waar de rechterstaart begnt x 4 Fguur 15: Standaard-normale verdelng met betrouwbaarhedsnterval voor γ = 0.9. Als we de relate P( z α Z z α) = γ nu op de standaard-normaal verdeelde stochast Z = (X µ) n σ toepassen, krjgen we voor de betrouwbaarhed γ en onbetrouwbaarhed α := 1 γ: P( z α Z z α ) = γ P( z α (X µ) n σ P( z α P(µ z α P(X z α σ n X µ z α σ n X µ + z α z α ) = γ σ ) = γ n σ n µ X + z α σ n ) = γ σ n ) = γ. We weten dus dat de schatter X voor het steekproefgemddelde met kans γ net meer dan z α σ n van de juste waarde µ afwjkt. Als ntervalschatter voor het gemddelde µ nemen we dus (T 1,T ) met σ T 1 := X z α n σ en T := X + z α n en het betrouwbaarhedsnterval voor µ s een realsate van de ntervalschatter voor een concrete steekproef, dus het nterval [ x z α σ n,x + z α ] σ. n Omdat P(µ z α σ n X µ + z α σ n ) = P(X z α σ n µ X + z α σ n ) geldt, s het betrouwbaarhedsnterval preces het nterval 45

46 van de waarden van µ waarvoor x bnnen het symmetrsche nterval rond µ met kansmassa γ valt. Merk op dat de lengte van het betrouwbaarhedsnterval alleen maar van de gekozen betrouwbaarhed γ, de grootte n van de steekproef en de varante σ van de stochast X afhangt. Voor éénzjdge betrouwbaarhedsntervallen kunnen we op dezelfde maner als bj de tweezjdge ntervallen argumenteren. Voor een rechtséénzjdg nterval met betrouwbaarhed γ en α := 1 γ krjgen we: P(Z z α ) = γ P( (X µ) n σ z α ) = γ P(X µ z α n ) = γ σ σ σ P(X µ + z α n ) = γ P(X z α n µ) = γ dus s T 1 := X z α σ n een rechtséénzjdge ntervalschatter en een concrete steekproef geeft het rechtséénzjdge betrouwbaarhedsnterval [ ] σ x z α n,. Dt s preces het nterval van de waarden van µ waarvoor x bnnen het naar rechts begrensde en naar lnks open nterval rond µ met kansmassa γ valt. We zen her dus de reden waarom de schatter T 1 met P(T 1 µ) = γ een rechtséénzjdg betrouwbaarhedsnterval geeft. De waarden van µ de n dt éénzjdge betrouwbaarhedsnterval lggen, zjn nameljk just de waarden waarvoor x een plausbele schattng aangeeft, als we met plausbel bedoelen, dat de schattng x net te ver rechts van de ware waarde lgt. Analoog krjgen we voor het lnkséénzjdge betrouwbaarhedsnterval met betrouwbaarhed γ de lnkséénzjdge ntervalschatter T := X + z α σ n met P(µ T ) = P(µ X + z α σ n ) = γ en een concrete steekproef geeft het lnkséénzjdge betrouwbaarhedsnterval [ ] σ,x + z α n. Aanpassen van betrouwbaarhedsntervallen Typsche waarden de voor de betrouwbaarhed γ gehanteerd worden, zjn 90%, 95% en 99%. In Tabel 1 zjn de z α - en z α-waarden voor een aantal gebrukeljke betrouwbaarheden aangegeven. 46

47 α γ α z α z α Tabel 1: Krteke waarden voor de standaard-normale verdelng. We hebben gezen dat betrouwbaarhedsntervallen door dre parameters beschreven worden: () De grote n van de steekproef. () De gewenste betrouwbaarhed γ. () De lengte van het betrouwbaarhedsnterval. Als we de betrouwbaarhed wllen verhogen, moeten we of de steekproef vergroten of een groter nterval accepteren. Omgekeerd kunnen we het betrouwbaarhedsnterval alleen maar klener maken door of de steekproef te vergroten of een lagere level van betrouwbaarhed te kezen. Bj een gegeven grootte van de steekproef zjn dus de lengte van het betrouwbaarhedsnterval en de level van betrouwbaarhed parameters, de elkaar tegenstrjdg beïnvloeden. Bj het opzetten van een experment (bjvoorbeeld een enquête) heeft men vaak andere voorwaarden: Voor een gegeven level γ van betrouwbaarhed s er een maxmale lengte l van het betrouwbaarhedsnterval dat als acceptabel beschouwd wordt. Herdoor wordt de noodzakeljke grootte van de steekproef bepaald, nameljk door: z α σ ( l n z α n σ ) = z σ α l l. Betrouwbaarhedsnterval voor relateve frequentes Als we de kans p schatten waarmee een Bernoull-experment een succes oplevert, tellen we het aantal k van successen bj n pogngen een nemen p := k n als schattng voor p. In dt geval vormen dus de n pogngen een steekproef van grootte n. De stochast X de de verdelng van het aantal successen bj n pogngen beschrjft, s bnomaal verdeeld met parameter p en er geldt E[X] = np en V ar(x) = np(1 p). Voor de stochast P := X n de de verdelng van de relateve aantallen over alle steekproeven van n pogngen beschrjft, geldt dus E[P] = p en V ar(p) = p(1 p). n Als n net te klen en p net te dcht bj 0 of 1 s, kunnen we met de normale benaderng van de bnomale verdelng werken, d.w.z. we kunnen aannemen dat 47

48 P normaal verdeeld s. Onder deze aanname wordt de stochast Z := P p p(1 p) n = (P p) n p(1 p) goed door de standaard-normale verdelng benaderd. We kunnen nu weer de redenerng van de normale verdelng toepassen en krjgen: ( ) p(1 p) p(1 p) P P z α p P + z α = γ. n n Dt geeft het betrouwbaarhedsnterval [ p z α p(1 p) n,p + z α p(1 p) ] n voor de schattng van de parameter p. Het probleem bj de bnomale verdelng s, dat de varante p(1 p) n en dus ook de lengte van het betrouwbaarhedsnterval van de gezochte parameter p afhangt. In de praktjk wordt dt meestal opgelost door p gewoon door p te vervangen, men gebrukt hervoor de standaard fout (standard error) p(1 p) SE(p) := n van p. De standaard fout s dus een schattng voor de standaardafwjkng V ar(p) van de schatter P. Met behulp van de standaard fout krjgt men het betrouwbaarhedsnterval [ p z α p(1 p) n,p + z α ] p(1 p) = n [ p z α SE(p),p + z α SE(p) ]. Bj een preceze analyse komt men erachter dat de zuvere grenzen voor het betrouwbaarhedsnterval p + z α n ± z α 1 + z α n p(1 p) n + z α 4n zjn, maar voor np 50 en n(1 p) 50 kunnen de correcte termen velg verwaarloosd worden. Ook n het geval van de relateve frequentes kan men de benodgde grootte van de steekproef afschatten om een betrouwbaarhed γ en een maxmale lengte van l voor het betrouwbaarhedsnterval te bereken. Er geldt dezelfde relate als bj de normale verdelng, met σ vervangen door p(1 p), dus n z p(1 p) α l. 48

49 Merk op dat we ook herbj weer de gezochte relateve frequente p nodg hebben. Omdat we just wllen bepalen, hoe groot we de steekproef moeten kezen om p te bepalen, kunnen we her natuurljk net de schattng p voor p nvullen. Maar we kunnen wel een gok doen wat voor een waarde van p we verwachten en hermee een (grove) schattng voor p(1 p) maken. Voorbeeld: Bj een enquête onder 1000 mensen hebben 5% aangegeven voor de Europese grondwet te stemmen. Een betrouwbaarhedsnterval op de p(1 p) n = level 99% geeft een nauwkeurghed van z α voor de schattng p = 0.5 van de echte proporte van toestemmng. Het betrouwbaarhedsnterval s dus [47.9%,56.1%]. Natuurljk s de nteressante vraag, of de toestemmng boven de 50% lgt. Om herover een utspraak met betrouwbaarhed 99% te kunnen doen, moet de lengte van het betrouwbaarhedsnterval tot 4% worden beperkt. De benodgde grootte van de steekproef hervoor s n z α p(1 p) l = Herbj hebben we voor p de schattng p = 0.5 ngevuld, voor p = 0.5 zouden we n 4140 krjgen, dus bjna hetzelfde. 3.4 Betrouwbaarhedsntervallen bj onbekende varante We zjn er tot nu toe van utgegaan dat we het met een normaal verdeelde stochast X met bekende varante te maken hebben. Omdat dt n de praktjk net realstsch s, kjken we nu naar het geval van een stochast met onbekende varante. In dt geval hebben we helaas nets meer aan de stochast Z := (X µ) n σ, omdat we de varante σ gewoon net kennen. Maar we weten wel, dat S := 1 n n 1 =1 (X X) een zuvere schatter voor σ s, dus kunnen we proberen de onbekende varante σ door de schatter S te vervangen. Dt geeft de stochast T := X µ S n = (X µ) n S de we al n de laatste les zjn tegengekomen: Voor een normaal verdeelde stochast X heeft T de Student-t verdelng met n 1 vrjhedsgraden. We weten dat deze verdelng voor klene n meer utgespred s dan de standaard-normale verdelng en voor grote n steeds meer op de standaard-normale verdelng ljkt. Met dezelfde argumenten als n het geval van bekende varante komen we nu weer naar betrouwbaarhedsntervallen, als we de standaard-normale verdelng altjd door de Student-t verdelng met n 1 vrjhedsgraden vervangen. Analoog met de standaard-normale verdelng defnëren we de t-waarde t α := t n 1,α van level α = 1 γ door P(T > t α ) = α waarbj het aantal n 1 van vrjhedsgraden meestal net aangeven wordt, omdat het ut de samenhang dudeljk s. 49

50 Een soortgeljke berekenng als boven geeft: P( t α T t α ) = γ P( t α (X µ) n S P(µ t α P(X t α t α ) = γ S n X µ + t α S n µ X + t α S n ) = γ S n ) = γ. Voor een steekproef x 1,...,x n met steekproefgemddelde x = 1 n n =1 x en 1 steekproefstandaardafwjkng s = n n 1 =1 (x x) noemen we (net als bj de bnomale verdelng) de schattng s n voor de standaardafwjkng V ar(x) van de schatter X de standaard fout van x en noteren dt met SE(x). Hermee krjgen we het betrouwbaarhedsnterval [ ] s s [ ] x t α,x + t α = x t α SE(x),x + t α SE(x) n n van betrouwbaarhed γ voor µ. Net zo als bj de standaard-normale verdelng worden de t-waarden voor de meest gebrukeljke levels van betrouwbaarhed en voor de verschllende vrjhedsgraden n tabellen opgeslagen. Inmddels worden n plaats van tabellen meestal software pakketten gebrukt, de de t-waarden voor een gewenste betrouwbaarhed γ en een gegeven aantal van vrjhedsgraden utrekenen. Typsche waarden van t n,α zjn n Tabel te zen (waarbj we met n = de waarden voor de standaard-normale verdelng aangeven): n\α Tabel : Krteke waarden t n,α voor de Student-t verdelngen met n vrjhedsgraden. s n = Voorbeeld: Men neemt aan dat het aantal ljnen de n een grote telefooncentrale tjdens het sptsuur n gebruk zjn normaal verdeeld s. Ut een steekproef over 11 dagen bljkt een steekproefgemddelde van x = 10 voor het aantal ljnen, met een steekproefstandaardafwjkng van s = 10. Als we een betrouwbaarhedsnterval op level 99% voor het gemddelde aantal µ van ljnen n gebruk wllen bepalen, hebben we de t-waarde t 10,0.005 nodg, want n = 11 en α = In de tabel vnden we t 10,0.005 = 3.169, dus s de afwjkng t α [110.4, 19.6] voor µ en we krjgen het betrouwbaarhedsnterval 50

51 3.5 Betrouwbaarhedsntervallen voor de varante We hebben n de vorge les aangegeven dat voor standaard-normaal verdeelde stochasten X de stochast Y := n 1 n σ S = ( X X ) σ een χ -verdelng met n 1 vrjhedsgraden heeft. Deze stochast Y s nu geschkt om een betrouwbaarhedsnterval voor de varante aan te geven. Analoog met de z-waarde voor de standaard-normale verdelng en de t- waarde voor de Student-t verdelng defnëren we de χ -waarde χ α := χ n 1,α door P(Y > χ α ) = α waarbj de ndex voor het aantal vrjhedsgraden weer weggelaten s. Omdat de χ -verdelng net symmetrsch s, kunnen we net meer zo makkeljk ut χ α een waarde χ β afleden zo dat P(Y < χ β ) = P(Y > χ α) = α s. Maar ut P(Y > χ 1 α ) = 1 α volgt dat tussen χ 1 α en χ α de kansmassa (1 α ) α = 1 α = γ lgt. =1 Bj symmetrsche verdelngen zo als de normale verdelng laat zch aantonen dat de symmetrsche betrouwbaarhedsntervallen de ntervallen van mnmale lengte voor een gegeven betrouwbaarhed zjn. De χ - verdelng s net symmetrsch, en men kan voor het nterval rond Y dat de kansmassa γ bevat ook een wllekeurg nterval van de vorm [χ γ+c, χ c] kezen. Zo n nterval heeft nderdaad net voor c = α de mnmale lengte, maar de waarde c waarvoor de lengte mnmaal s lgt n de praktjk meestal zo dcht bj α dat men dt verwaarloost. Met een analoge redenerng als eerder krjgen we voor de stochast Y : P(χ 1 α Y χ α) = 1 α = γ P(χ 1 α n 1 S χ α) = γ P(χ 1 α σ σ (n 1)S P( χ α n 1 S µ + χ α σ σ n 1 ) = γ (n 1)S χ ) = γ. 1 α Voor een concrete steekproef x 1,...,x n met steekproefvarante s krjgen we herut als betrouwbaarhedsnterval van betrouwbaarhed γ voor σ het nterval [ ] (n 1)s (n 1)s χ, α χ. 1 α We kunnen ook een betrouwbaarhedsnterval voor de standaardafwjkng σ aangeven, want worteltrekken geeft P n 1 n 1 S σ S = P χ α χ 1 α 51 ( (n 1)S χ α σ ) (n 1)S χ = γ 1 α

52 en herut krjgen we het betrouwbaarhedsnterval n 1 n 1 s, s χ α χ 1 α van betrouwbaarhed γ voor de standaardafwjkng σ. Belangrjke begrppen n deze les puntschatter momentenschatter maxmum lkelhood schatter betrouwbaarhed tweezjdge / éénzjdge ntervalschatter betrouwbaarhedsntervallen z-waarde, t-waarde, χ -waarde standaard fout Opgaven 11. We hebben gezen dat X := 1 n n =1 X een zuvere schatter voor de verwachtngswaarde µ = E[X] s. Laat zen dat X geen zuvere schatter voor µ s. 1. Zj X een stochast met unforme verdelng op het nterval [0, θ], dan s P(X x) = x θ voor 0 x θ. We wllen ut een steekproef x 1,...,x n een schattng voor θ maken. () Laat zen dat de schattng t := n (x x n ) een zuvere schatter T := n (X X n ) = X voor θ geeft. () Een andere mogeljke schattng voor θ s het maxmum van de gevonden waarden, dus t max := max(x 1,..., x n ). Laat zen dat voor de schatter T max := max(x 1,...,X n ) geldt dat P(T x) = ( x θ )n en concludeer dat T de dchthedsfuncte f(x) = n xn 1 θ heeft. n Ga na dat T max geen zuvere schatter, maar wel een asymptotsch zuvere schatter voor θ s, door te laten zen dat E[T] = θ 0 xn dx = 1 n+1 θn+1.) () Laat zen dat n+1 n T max een zuvere schatter voor θ s. n n+1 θ. (Hnt: Er geldt 13. Voor een stochast X met unforme verdelng op het nterval [0, θ] wordt van een steekproef x 1, x van twee waarden de schattng t := 3 x 1 x voor θ gemaakt. Laat zen dat T := 3 X 1 X een zuvere schatter voor θ s. 5

53 14. Laat zen dat voor een stochast X met unforme verdelng op het nterval [0, θ] de schatter T max := max(x 1,..., X n ) de maxmum lkelhood schatter s. (Hnt: Ga na dat de aannemeljkhed L(θ) voor een steekproef x 1,..., x n gegeven s door L(θ) = 0 als θ < max(x 1,...,x n ) en L(θ) = 1 θ n als θ max(x 1,...,x n ).) 15. Zj X een unform verdeelde stochast op het nterval [θ 1, θ + 1 ] en zj x 1,...,x n een steekproef voor deze stochast. Laat zen dat [mn(x 1,...,x n ), max(x 1,...,x n )] een betrouwbaarhedsnterval voor θ s (dus de realsate van een ntervalschatter) en bepaal de level γ van betrouwbaarhed van dt nterval. 16. Bj het bedrjf Bonanza Banana heeft een steekproef van 5 aanvragen een gemddelde verwerkngstjd van x = 7 jerks opgeleverd. Ut langdurge ervarng s bekend dat de standaardafwjkng voor de verwerkngstjd σ = 3 jerks bedraagt. () Bepaal een betrouwbaarhedsnterval voor de level 95% voor de gemddelde verwerkngstjd. () Hoe groot moet de steekproef mnstens zjn om op level 95% een betrouwbaarhedsnterval van lengte hoogstens 0.5 jerks te hebben? 17. In een aselecte steekproef van 100 studenten geven 18 studenten aan dat ze bekend met de bnomale verdelng zjn. () Bepaal betrouwbaarhedsntervallen op de levels 90%, 95% en 99% voor het relateve aantal p van studenten de de bnomale verdelng kennen. () Hoe groot moet voor eder van de dre levels ut () de steekproef zjn om de lengte van het betrouwbaarhedsnterval op hoogstens 0.05 te beperken? 18. Gegeven s een aselecte steekproef (1.05, 1.71, 1.5, 1.40, 1.15, 1.94, 1.00, 1.40, 1.49, 1.33, 1.37) van 11 waarnemngen van een normaal verdeelde stochast met onbekende verwachtngswaarde µ en (bekende) standaardafwjkng σ = 0.3. () Bereken een betrouwbaarhedsnterval op level 95% voor µ. () Bereken een lnkséénzjdg betrouwbaarhedsnterval op level 90% voor µ. () Vergeljk het betrouwbaarhedsnterval ut () met het betrouwbaarhedsnterval op level 95% bj onbekende standaardafwjkng σ. 19. Een onderzoek naar het atoomgewcht van thallum leverde de volgende waarden op: 03.68, , , , , () Bereken een betrouwbaarhedsnterval van level 95% voor het atoomgewcht. () Hoeveel waarnemngen moeten er extra worden gedaan om op level 95% het atoomgewcht met een nauwkeurghed van 0.00 te kunnen bepalen? 0. Iemand werpt 600 keer met een dobbelsteen en vndt 70 keer een 6. Geef een betrouwbaarhedsnterval op level 95% voor de kans op een 6 bj deze dobbelsteen. Doe hetzelfde voor de levels 99% en 99.9%. Ljkt je dt een eerljke dobbelsteen? 53

54 Les 4 Toetsen van hypothesen We hebben tot nu toe engszns algemeen naar grootheden van populates gekeken en bedscusseerd hoe we deze grootheden ut steekproeven kunnen schatten. Vaak hebben we echter redeljk concrete voorstellngen over de waarde van een zeker parameter. In dt geval kan het resultaat van een steekproef onze dee over de parameter steunen of aanduden dat we ons waarschjnljk vergssen. Vaak wordt deze stuate door het opstellen van een hypothese gerealseerd en een steekproef kan wel of net evdente voor het verwerpen van de hypothese geven. We zullen zen dat het toetsen van een hypothese mn of meer een herformulerng van de deeën achter ntervalschatters en n het bjzonder betrouwbaarhedsntervallen zjn. 4.1 Hypothesen In een hypothese maken we een utspraak over een egenschap van een stochast, bjvoorbeeld over de verwachtngswaarde. Hervoor geven we aan dat een parameter θ waarvan de kansverdelng van de stochast afhangt een zekere waarde heeft. Vervolgens proberen we aan de hand van een steekproef voor de stochast evdente voor of tegen de hypothese te vnden. Als we bjvoorbeeld de hypothese hebben dat de gemddelde Nederlander 180cm groot s, dan geeft een (aselecte) steekproef van 1000 Nederlanders met een steekproefgemddelde van 190cm her sterke evdente tegen, terwjl een steekproefgemddelde van 181cm dt net doet. Hypothesen worden altjd n paren bekeken: () De nulhypothese H 0 zegt dat een parameter θ een zekere waarde θ 0 heeft. () De alternateve hypothese H 1 of H a zegt dat de parameter θ van θ 0 afwjkt. In het eenvoudgste geval zen de hypothesen er dus als volgt ut: H 0 : θ = θ 0 H 1 : θ θ 0. In het voorbeeld van de gemddelde grootte houdt de alternateve hypothese de mogeljkheden n, dat de gemddelde Nederlander (dudeljk) groter of klener s dan 180cm. Dt geval ledt tot een tweezjdge toets. Vaak s men echter alleen maar geïnteresseerd of een parameter n een zekere rchtng van de nulhypothese afwjkt. Bjvoorbeeld wl een sporter weten of hj door een neuwe tranng methode (of door een neuw dopngmddel) harder kan lopen dan eerder. In dt geval zjn de hypothesen H 0 : θ θ 0 H 1 : θ > θ 0 en dt geeft aanledng tot een rechtséénzjdge toets, want met de alternateve hypothese gaan we na of de parameter θ naar rechts van de nulhypothese afwjkt. Analoog test men met een lnkséénzjdge toets of de parameter θ naar lnks van de nulhypothese afwjkt, n dt geval zjn de hypothesen H 0 : θ θ 0 H 1 : θ < θ 0. 54

55 Defnte: Een toets s een procedure de op grond van een steekproef beslst of de nulhypothese verworpen wordt of net. Bj een toets kunnen er twee soorten van fouten gemaakt worden omdat het gemddelde van een steekproef (met een gernge kans) sterk van het gemddelde van de volledge populate kan afwjken: I: De nulhypothese wordt verworpen terwjl hj just s. Dt heet een type I fout of een fout van de eerste soort. De kans α op een type I fout heet de onbetrouwbaarhed (of onbetrouwbaarhedsdrempel) van de toets. II: De nulhypothese wordt net verworpen terwjl hj onjust s. Dt heet een type II fout of een fout van de tweede soort. De kans β op een type II fout levert het onderschedngsvermogen (power) 1 β van de toets. We kunnen deze termnologe n het volgende schema weergeven: H 0 net verwerpen H 0 verwerpen H 0 s just H 0 s onjust juste beslssng type II fout kans 1 α kans β type I fout juste beslssng kans α kans 1 β Het s natuurljk heel eenvoudg, de kans op een type I fout te mnmalseren door de nulhypothese bjna noot te verwerpen. Maar dt betekent dat veel resultaten van steekproeven als net strjdg met H 0 geaccepteerd worden de egenljk evdente voor de alternateve hypothese geven. In dt geval s dus de kans op een type II fout hoog en het onderschedngsvermogen van de toets slecht. Merk op dat het onderschedngsvermogen 1 β van een toets alleen bepaald kan worden als de alternateve hypothese H 1 : θ θ 0 vervangen wordt door een concrete alternateve hypothese H 1 : θ = θ 1. Vaak worden toetsen vergeleken, door bj een vaste onbetrouwbaarhed α naar het onderschedngsvermogen te kjken. De betere toets heeft dan het hogere onderschedngsvermogen. Men kan ook het onderschedngsvermogen 1 β als functe van de onbetrouwbaarhed opvatten, dt geeft de zogeheten operatng characterstc. (Let wel: Er zjn ongeveer zo veel defntes van operatng characterstc als er auteurs zjn, maar de achterlggende gedachten zjn hetzelfde.) Een deale toets zou al voor zeer klene waarden van α naar een onderschedngsvermogen 1 β dcht bj 1 stjgen. 55

56 In Fguur 16 s het concept van type I en type II fouten geïllustreerd. We kjken herbj naar de nulhypothese H 0 : θ = 1 en kezen een onbetrouwbaarhed α van α = Het zwarte gebed onder de lnker normale verdelng heeft just de oppervlakte 0.05, dus leden steekproefwaarden θ de n dt gebed vallen tot verwerpen van de nulhypothese. Als we als alternateve hypothese H 1 : θ = 4 nemen, dan s de kans op een type II fout de oppervlakte onder de rechter normale verdelng, waar we de nulhypothese net verwerpen, dus het grjze gebed. In het voorbeeld s deze oppervlakte ongeveer , dus s het onderschedngsvermogen van deze toets ongeveer 9.% x 6 Fguur 16: Gebeden voor type I (zwart) en type II fouten (grjs). 4. Toetsen en betrouwbaarhedsntervallen Aan de hand van het begrp van een type I fout kunnen we nu een verband leggen tussen toetsen en betrouwbaarhedsntervallen. We hadden een betrouwbaarhedsnterval op level γ rond een schattng θ van een parameter zo gekozen, dat over alle mogeljke steekproeven gezen het nterval de juste waarde van θ met kans γ bevat. Dt was equvalent met de utspraak, dat de schattng θ met kans γ bnnen het nterval rond θ met dezelfde lengte als het betrouwbaarhedsnterval valt, omdat dt nterval just de kansmassa γ bevat. Deze aanpak kunnen we nu omdraaen om een toets met onbetrouwbaarhed α = 1 γ te krjgen: Voor de nulhypothese H 0 : θ = θ 0 kezen we een nterval [θ,θ + ] rond θ 0 zo dat onder de aanname dat H 0 just s de kans op een steekproefwaarde θ buten dt nterval hoogstens α s, dus P(θ θ θ + ) = 1 α = γ. Als de schattng θ buten het nterval [θ,θ + ] lgt, wordt dt als evdente tegen de nulhypothese H 0 beschouwd omdat dt slechts met de (klene) kans α gebeurt en n dt geval wordt de nulhypothese verworpen. Bj éénzjdge toetsen s het nterval [θ,θ + ] aan een kant open, omdat we de nulhypothese alleen maar bj afwjkng n één rchtng verwerpen: 56

57 Bj een rechtséénzjdge toets wordt H 0 verworpen, als de schattng θ buten het nterval [,θ + ] lgt, dus als θ te sterk naar rechts van de nulhypothese afwjkt. Bj een lnkséénzjdge toets wordt H 0 verworpen, als de schattng θ buten het nterval [θ, ] lgt, dus als θ te sterk naar lnks van de nulhypothese afwjkt. Merk op: Het ljkt op het eerste gezcht verwarrend, dat bj een rechtséénzjdge toets het nterval [,θ + ] waarvoor we de nulhypothese net verwerpen naar lnks open s, terwjl het rechtséénzjdge betrouwbaarhedsnterval voor een schattng naar rechts open s. Maar dt schjnbare paradox maakt just het verband tussen toetsen en betrouwbaarhedsntervallen dudeljk: Stellng: Het betrouwbaarhedsnterval op level γ = 1 α rond een schattng θ bevat preces de waarden θ 0 waarvoor θ bj een toets met onbetrouwbaarhed α geen aanledng geeft om de nulhypothese θ = θ 0 te verwerpen. Andersom: Een toets met onbetrouwbaarhed α verwerpt de nulhypothese H 0 : θ = θ 0 op grond van de schattng θ dan en slechts dan als θ 0 buten het betrouwbaarhedsnterval van level γ = 1 α rond θ valt. Toetsen voor gemddelden In de meeste stuates zal onder de voorwaarde dat de nulhypothese just s de schatter T voor de schattngen θ een normale verdelng met gemddelde θ 0 en varante σ n hebben. Dt s n het bjzonder het geval als T de schatter voor het gemddelde van een normale verdelng s, maar bj benaderng ook voor de schatter van het gemddelde van net-normale verdelngen (als n net te klen s). In dt geval weten we dat de stochast Z := T θ 0 σ n = (T θ 0) n σ standaard-normaal verdeeld s en we kunnen daarom net zo als bj de betrouwbaarhedsntervallen met behulp van de z-waarden makkeljk een nterval aangeven, dat een tweezjdge toets met onbetrouwbaarhed α oplevert, want er geldt P ( θ 0 z α σ n T θ 0 + z α σ n ) = 1 α. We zullen bj deze toets de nulhypothese dus verwerpen als de schattng θ meer dan z α σ n van θ 0 afwjkt, dus als σ θ θ 0 > z α. n Dt zou nameljk onder de aanname van H 0 slechts met kans α gebeuren en omdat de kans α laag s, geeft dt evdente tegen H 0. De kans α dat de beslssng om H 0 te verwerpen onjust s, s just de kans op een type I fout. 57

58 Merk op: De foutmarge rond θ 0 de we toelaten zonder H 0 te verwerpen s preces hetzelfde als de foutmarge de we voor het betrouwbaarhedsnterval rond θ hebben gekozen. Dt s geen toeval, omdat de defnte van een toets met onbetrouwbaarhed α n prncpe alleen maar een herformulerng van de defnte van een betrouwbaarhedsnterval van level 1 α s. Als we een rechtséénzjdge toets met onbetrouwbaarhed α wllen hebben, moeten we een nterval [,θ + ] vnden zo dat P(T > θ + ) = α. Maar omdat ( ) σ P T θ 0 + z α n = 1 α, s [,θ 0 + z α σ n ] zo n nterval en we verwerpen H 0 : θ θ 0 als θ > θ 0 + z α σ n. Analoog krjgen we een lnkséénzjdge toets met onbetrouwbaarhed α door H 0 te verwerpen als θ < θ 0 z α σ n, want P(T < θ 0 z α σ n ) = α, of te wel P ( T θ 0 z α σ n ) = 1 α. Voorbeeld: Een eerhandelaar koopt een grote partj eeren van een kppenfokker. We mogen aannemen dat het gewcht X van de eeren n een homogene partj normaal verdeeld s en dat de standaardafwjkng van de gewchten 6g s. De fokker garandeert dat het gemddelde van de eeren n deze partj boven de 60g lgt. De handelaar neemt nu een steekproef van 5 eeren en constateert dat deze samen 75g wegen. Hj wl de leverng alleen maar reclameren als hj de nulhypothese H 0 : µ = 60 op een onbetrouwbaarhedslevel van α = 0.05 kan verwerpen. Omdat hj natuurljk alleen maar bj te lchte eeren gaat reclameren, past hj een lnkséénzjdge toets toe. Er geldt z 0.05 = en dus zal hj de nulhypothese verwerpen, als zjn schattng µ voldoet aan 6 µ < 60 z Zjn steekproef geeft µ = 75 5 = 55, dus zal hj nderdaad reclameren. Aanpassngen bj klene steekproeven We zjn er tot nu toe van ut gegaan dat de schatter T voor de schattngen θ de varante σ n heeft. Vaak s de hervoor benodgde varante σ van de onderlggende kansverdelng echter onbekend, n dt geval wordt de varante σ n vervangen door de schattng s n, waarbj s de steekproefvarante s. Maar het vervangen van σ door de schattng s ledt ertoe dat de getransformeerde stochast (T θ 0 ) n s 58

59 geen normale verdelng maar een Student-t verdelng met n 1 vrjhedsgraden heeft. We moeten dus de z-waarden n de boven aangegeven ntervallen voor de verschllende toetsen vervangen door de t-waarden van de Student-t verdelng, net zo als bj de betrouwbaarhedsntervallen. We krjgen dus een tweezjdge toets met onbetrouwbaarhed α door de nulhypothese H 0 te verwerpen als s θ θ 0 > t n 1, α. n Bj de rechts- en lnkséénzjdge toetsen zjn de crtera voor het verwerpen van de nulhypothese analoog s s θ > θ 0 + t n 1,α en θ < θ 0 t n 1,α. n n Als n groot s (meestal wordt her n 50 als vustregel gehanteerd), lgt de Student-t verdelng met n 1 vrjhedsgraden zo dcht bj de standaard-normale verdelng, dat deze correcte verwaarloosd kan worden omdat dan z α t n 1,α s. Maar bj onbekende varante σ en klene steekproeven moeten de toetsen nderdaad zo als aangegeven aangepast worden. Toetsen voor relateve frequentes Stel we wllen de hypothese toetsen dat defecte stukken bj een producte met kans p 0 optreden, dus dat de parameter p van een bnomale verdelng geljk s aan p 0. Hervoor tellen we met de stochast X het aantal k van successen bj n pogngen en krjgen hermee de schattng p = k n voor p. We weten dat bj een net te klene steekproef (np 0 5, n(1 p 0 ) 5) de stochast Z := X np 0 np0 (1 p 0 ) bj benaderng standaard-normaal verdeeld s. Voor de de standaard-normale verdelng geldt (ze boven) dat P( z α Z z α) = 1 α, dus s ( P np 0 z α np0 (1 p 0 ) X np 0 + z α np0 (1 p 0 )) = 1 α, dus zullen we bj een tweezjdge toets met onbetrouwbaarhed α de nulhypothese H 0 : p = p 0 verwerpen als bj een steekproef met k successen n n pogngen geldt dat k np 0 > z α np0 (1 p 0 ). Als we bede zjden door n delen, kunnen we dt ook rechtstreeks als crterum voor de relateve frequentes formuleren, we verwerpen de nulhypothese als p0 (1 p 0 ) p p 0 > z α. n De rechts- en lnkséénzjdge toetsen kunnen we nmddels zonder na te denken afleden, we verwerpen bj de relateve frequentes de nulhypothese H 0 als p > p 0 + z α p0 (1 p 0 ) n (rechts) of p < p 0 z α p0 (1 p 0 ) n 59 (lnks).

60 Voorbeeld: Een handelaar verkoopt een grote partj goederen en deelt de koper mee dat er hoogstens 5% ondeugdeljke exemplaren n ztten. Om dt te verfëren neemt de koper een steekproef van 150 stuks. Hj zal reclameren als hj op een onbetrouwbaarhedslevel van α = 0.05 de bewerng van de handelaar kan verwerpen. Omdat = 7.5 > 5, kunnen we de normale benaderng van de bnomale verdelng toepassen. Te koper zal natuurljk alleen maar bj een te hoog aantal ondeugdeljke exemplaren reclameren, daarom moeten we een rechtséénzjdge toets toepassen. Er geldt z 0.05 = , n = 150 en p 0 = 0.05, dus s z α np0 (1 p 0 ) 4.39, de koper zal dus vanaf , dus vanaf 1 ondeugdeljke stukken reclameren. Als een steekproef te klen s om de normale benaderng toe te passen, s het meestal mogeljk de kans op een steekproef met k of meer successen explcet met de bnomale verdelng te berekenen, nameljk door P(X k) = n =k ( ) n p 0(1 p 0 ) n. Bj een rechtséénzjdge toets wordt H 0 verworpen als P(X k) < α. Analoog berekent men met P(X k) = k =0 ( ) n p 0(1 p 0 ) n de kans op een steekproef met hoogstens k successen en verwerpt bj een lnkséénzjdge toets de nulhypothese als P(X k) < α. Bj een tweezjdge toets hangt het crterum ervan af of k > np 0 of k < np 0. Als kans dat een steekproef zo sterk van p 0 afwjkt als p krjgt men n dt geval mn(p(x k), P(X k)) omdat ook met de afwjkng n de andere rchtng rekenng gehouden moet worden. Als crterum voor het verwerpen van de nulhypothese krjgt men zo mn(p(x k), P(X k)) < α. Sgnfcante en P-waarden Als we een toets zo opzetten dat we de nulhypothese verwerpen als de schattng voor een parameter θ buten het betrouwbaarhedsnterval van level γ = 1 α rond de nulhypothese θ 0 lgt, dan noemen we α ook de sgnfcante level van de toets. De sgnfcante s dus geljk aan de kans op een type I fout onder de aanname dat de nulhypothese just s. We noemen een resultaat dus sgnfcant op level α als de kans dat dt resultaat optreedt terwjl de nulhypothese geldt, hoogstens α s. Het woord sgnfcant (van het Latjnse sgnum = teken) s gekozen om aan te duden, dat het gevonden resultaat ets betekent en net meer als toevallge afwjkng beschouwd kan worden. 60

61 Soms lgt een schattng θ veel verder af van de nulhypothese dan het betrouwbaarhedsnterval op de gekozen level α aangeeft. De schattng geeft dus zelfs op een hogere level nog evdente tegen de nulhypothese. In dt geval kjkt men vaak naar de hoogste mogeljke waarde van α, zo dat de schattng nog net tot verwerpen van de nulhypothese zou leden en noemt dt de P-waarde van de schattng: Defnte: De P-waarde p van een schattng θ geeft aan dat onder de aanname van de nulhypothese H 0 : θ = θ 0 steekproeven de verder dan θ van θ 0 afwjken slechts met kans p voorkomen. De P-waarde van een schattng maakt dus een kwanttateve utspraak over de evdente tegen de nulhypothese, terwjl een gewone toets met sgnfcante level α alleen maar aangeeft of de evdente sterker dan een gekozen level s of net. Soms wordt de mate van sgnfcante met zekere ntervallen van P- waarden verbonden, men leest bjvoorbeeld aandudngen zo als P < 0.001: zeer sterk sgnfcant < P < 0.01: sterk sgnfcant 0.01 < P < 0.05: zwak sgnfcant maar er bestaan geen conventes de engszns unform gehandhaafd worden. 4.3 Toetsen op verschllen tussen twee verdelngen We hebben tot nu toe naar de stuate gekeken dat we een hypothese over een parameter van een kansverdelng hebben en deze hypothese met een steekproef wllen toetsen. In de praktjk s echter vaak een ets andere vraag van belang, nameljk of een parameter bj twee verdelngen dezelfde waarde heeft, dus bjvoorbeeld of twee verdelngen hetzelfde gemddelde hebben. In dt geval s het net zo nteressant wat de waarden van de gemddelden zjn, maar alleen maar of hun verschl 0 s of net. In plaats van een enkele steekproef moeten we her voor eder van de twee verdelngen een aparte steekproef nemen, en de verdelngen van de schattngen met behulp van deze steekproeven worden door twee onafhankeljke schatters T 1 en T beschreven. We gaan ervan ut dat T 1 een zuvere schatter voor de parameter θ 1 van de eerste verdelng en T een zuvere schatter voor de parameter θ van de tweede verdelng s. Verder veronderstellen we dat de varantes σ1 en σ van de twee verdelngen bekend zjn en we steekproeven van grootte n 1 en n nemen. In dt geval geldt E[T 1 T ] = θ 1 θ en V ar(t 1 T ) = σ 1 n 1 + σ n. De nulhypothese s dat de parameters θ 1 en θ geljk zjn, dus H 0 : θ 1 = θ of θ 1 θ = 0. 61

62 Als we weer veronderstellen dat T 1 en T bj benaderng normaal verdeeld zjn dan s Z := (T 1 T ) (θ 1 θ ) σ 1 n 1 + σ n (bj benaderng) een standaard-normale verdelng en we kunnen weer de z- waarden gebruken om een toets te formuleren: Als de steekproef voor de eerste verdelng de schattng θ 1 en de steekproef voor de tweede verdelng de schattng θ oplevert, dan wordt op sgnfcante level α de nulhypothese θ 1 = θ verworpen als θ 1 θ > z α σ 1 n 1 + σ n. Voorbeeld: Stel de normaal verdeelde stochast X heeft varante σx = 0.09 en de normaal verdeelde stochast Y heeft varante σy = Een steekproef van 9 stuk geeft een gemddelde van x = 1.7 voor X en een steekproef van 4 stuk geeft een gemddelde van y = 1. voor Y. Kunnen we op een onbetrouwbaarhedslevel van α = 0.05 de nulhypothese verwerpen dat X en Y hetzelfde gemddelde hebben? Er geldt z 0.05 = 1.96 en σ X n 1 + σ Y n = 0.05, dus zullen we de nulhypothese nderdaad verwerpen omdat x y = 0.5 > Ook éénzjdge toetsen spelen her weer een belangrjke rol, bjvoorbeeld wl men aantonen dat een neuwe medcjn beter s dan een oude. Als de parameter θ 1 de oude en de parameter θ de neuwe medcjn beschrjft, s de nulhypothese H 0 : θ θ 1 en men probeert met een rechtséénzjdge toets evdentes ervoor te vnden om deze hypothese te verwerpen, dus θ > θ 1 te ondersteunen. Met dezelfde redenerngen de we eerder hebben toegepast, geeft dt op sgnfcante level α het crterum θ θ 1 > z α σ 1 n 1 + σ n. om de nulhypothese te verwerpen. De schattng voor het verschl tussen de neuwe en oude medcjn moet dus een zekere marge overschrjden om met hoge kans een toevallg effect ut te kunnen sluten. Aanpassngen bj klene steekproeven We zjn weer ervan utgegaan dat de varantes σ1 en σ van de twee onderlggende verdelngen bekend zjn. Als dt net het geval s, moeten we net als bj de toetsen voor een enkele verdelng de varantes door de geschatte steekproefvarantes s 1 en s vervangen. Het probleem s, dat de verdelng van T := (T 1 T ) (θ 1 θ ) s 1 n 1 + s n 6

63 geen Student-t verdelng meer s en we dus net zonder meer met de t-waarden kunnen werken. Maar gelukkg laat zch de verdelng van T wel door een Student-t verdelng benaderen, alleen moet men hervoor nog een geschkt aantal ν van vrjhedsgraden bepalen. Men kan nzen, dat het aantal vrjhedsgraden groter dan het mnmum van n 1 1 en n 1 moet zjn, omdat dt de vrjhedsgraden voor de aparte stochasten T 1 en T zjn. Aan de andere kant kan het aantal vrjhedsgraden ook net groter dan n n 1 = n 1 + n zjn, want dt zou men bj samenvoegen van de twee steekproeven krjgen. Als men aan de conservateve kant zt en de nulhypothese net te snel wl verwerpen, s ν := mn(n 1 1, n 1) een mogeljke keuze voor het aantal vrjhedsgraden. Maar meestal wordt het aantal vrjhedsgraden ut de grootten van de steekproeven en de steekproefvarantes berekend, bjvoorbeeld door ν := 1 n 1 1 ( s 1 n 1 + s n ) s 1 n n 1 s n De stuate s ets eenvoudger en overzchteljker als bekend s dat de twee verdelngen dezelfde (onbekende) varante hebben. In dt geval noemt men het gewogen gemddelde s = (n 1 1)s 1 + (n 1)s n 1 + n van de steekproefvarantes de gepoolde varante van de twee steekproeven. Het dee achter de gepoolde varante s, de twee steekproeven samen te vatten en ut de verzamelde waarden een schattng voor de varante te maken. Stel X en Y zjn stochasten met dezelfde varante σ. Voor een steekproef van grootte n 1 s S1 := 1 n1 n 1 1 =1 (X X) een zuvere schatter voor σ en net zo s S := 1 n n 1 j=1 (Y Y ) een zuvere schatter voor σ. Herut volgt, dat (n 1 1)S1 +(n 1)S een zuvere schatter voor (n 1 + n )σ s, en dus s S := (n 1 1)S 1 + (n 1)S n 1 + n een zuvere schatter voor σ. De gepoolde varante s dus just de realsate van deze zuvere schatter voor σ op twee concrete steekproeven. Het voordeel van de gepoolde varante s, dat men hermee weer naar een Student-t verdelng met een bekend aantal vrjhedsgraden komt, er geldt nameljk dat T := (T 1 T ) (θ 1 θ ) = s n 1 + s n (T 1 T ) (θ 1 θ ) s 1 n n een Student-t verdelng met n 1 + n vrjhedsgraden s. 63

64 Een tweezjdge toets zou n deze stuate de nulhypothese H 0 : θ 1 = θ verwerpen als θ 1 θ > t n1 +n, α s 1 n n. De vraag of de aanname dat twee steekproeven ut verdelngen met dezelfde varante σ1 = σ = σ komen just s, kan zjnerzjds ook weer met een toets onderzocht worden. Hervoor kjkt men naar het quotënt σ 1, waarvoor s σ 1 een schattng s en de verdelng van deze schattngen s heet de F-verdelng. De nulhypothese s H 0 : σ 1 = 1 en de zogeheten σ F-toets geeft aan, wanneer H 0 op een zekere onbetrouwbaarhedslevel moet worden verworpen. In dt college gaan we de F-toets echter alleen maar n verband met de varante-analyse behandelen. Verschllen tussen relateve frequentes De deeën de we net hebben bedscusseerd, kunnen we ook toepassen op de vraag of twee relateve frequentes sgnfcant verschllen. Als P 1 een zuvere schatter voor de relateve frequente p 1 s en P een zuvere schatter voor de relateve frequente p, dan s P 1 P een schatter met verwachtngswaarde E[P 1 P ] = p 1 p en met varante V ar(p 1 P ) = p 1(1 p 1 ) n 1 + p (1 p ) n, waarbj n 1 en n de grootten van de steekproeven zjn. Als we wllen laten zen, dat de twee relateve frequentes verschllend zjn, s de nulhypothese natuurljk dat p 1 en p geljk zjn, dus H 0 : p 1 = p. Onder de aanname dat de nulhypothese just s, s dus V ar(p 1 P ) = p 1 (1 p 1 )( 1 n n ) = p (1 p )( 1 n n ). Omdat we net ervan kunnen utgaan dat p 1 of p bekend s, moeten we her weer een schattng nvullen, en hervoor nemen we de schattng p 0 de we ut de combnate van de twee steekproeven krjgen, dus p 0 := n 1p 1 + n p n 1 + n. Als de steekproeven net te klen zjn (dus weer n 1 p 1 5 en n p 5, d.w.z. n eder steekproef hebben we mnsten 5 successen) s de stochast Z := P 1 P p 0 (1 p 0 )( 1 n n ) bj benaderng standaard-normaal verdeeld en we kunnen hermee weer met behulp van de z-waarden tweezjdge en éénzjdge toetsen formuleren. 64

65 Als we de schattngen p 1 en p voor de relateve frequentes n de twee steekproeven vnden, zullen we bj een tweezjdge toets de nulhypothese H 0 : p 1 = p verwerpen als p 1 p > z α p 0 (1 p 0 )( 1 n n ). Bj een éénzjdge toets krjgen we analoog, dat we de nulhypothese moeten verwerpen als p p 1 > z α p 0 (1 p 0 )( ) of p 1 p < z α p 0 (1 p 0 )( ) n 1 n n 1 n afhankeljk ervan of we wllen aantonen dat p groter of klener s dan p 1. Belangrjke begrppen n deze les nulhypothese, alternateve hypothese toets (tweezjdg, éénzjdg) onbetrouwbaarhed van een toets onderschedngsvermogen van een toets type I fout, type II fout sgnfcante P-waarde aanpassngen bj klene steekproeven gepoolde varante Opgaven 1. Men past op elk van twee (aselecte, onafhankeljke) steekproeven een toets met onbetrouwbaarhed α toe. Hoe groot moet α worden gekozen zo dat de kans dat mnstens één van de nulhypothesen ten onrechte wordt verworpen hoogstens 10% s?. Het gewcht van snaasappels was tot nu toe normaal verdeeld met gemddelde µ 0 = 50g en standaardafwjkng σ = g. Van een neuwe goedkopere behandelng van de snaasappelbomen wordt beweerd dat ze mnstens even zware vruchten oplevert. Een kweker wl deze bewerng toetsen tegen het alternatef dat µ < 50g (waarbj de standaardafwjkng onveranderd bljft). De snaasappels n een steekproef van 100 stuks hebben een gemddeld gewcht van 49.65g. Heeft de kweker op een onbetrouwbaarhedslevel van α = 0.05 reden om de neuwe methode net toe te passen? 65

66 3. Zj X een normaal verdeelde stochast met standaardafwjkng σ = 10 en onbekende gemddelde µ. Op grond van een steekproef wllen we de hypothese H 0 : µ = 50 rechtséénzjdg toetsen met onbetrouwbaarhed α = We esen daarbj dat het onderschedngsvermogen bj de alternateve hypothese H 1 : µ = 5 geljk aan 90% moet zjn. () Hoe groot moet de steekproef mnstens zjn? () Hoe groot s bj de steekproefgrootte ut () het onderschedngsvermogen bj de alternateve hypothese µ = 51? 4. In een fabrek staan vulmachnes, A en B, waarmee flessen worden gevuld. Bj een juste nstellng van de machnes s de nhoud van de flessen normaal verdeeld met een gemddelde van 50g. De standaardafwjkng s onafhankeljk van de nstellng steeds.5g. Om na te gaan of de machnes goed zjn ngesteld wordt voor elke machne de nhoud van 4 net gevulde flessen nauwkeurg bepaald. De gemddelde nhoud voor flessen van machne A bedraagt 51.68g, terwjl hj 5.68g voor flessen van machne B s. () Toets met onbetrouwbaarhed α = 0.05 of de machnes A en B op het juste vulgewcht van 50g ngesteld zjn. () Toets met onbetrouwbaarhed α = 0.05 of de nstellngen van de machnes A en B onderlng verschllen. 5. Een examen bestaat ut 0 vragen met telkens 4 mogeljke antwoorden. De kanddaten zjn geslaagd als op mnstens 10 vragen het just antwoord s gekozen. Beschouw het tentamen als een statstsche toets. () Formuleer een nulhypothese H 0 en een alternateve hypothese H 1. () Defneer de groothed de voor de toets ut de steekproef bepaald wordt en bepaal de kansverdelng van deze groothed onder de aanname van H 0. () Bereken de onbetrouwbaarhed van de toets. (v) Bereken het onderschedngsvermogen van de toets als de kans op het geven van het juste antwoord door een kanddaat per vraag 1 s. 6. Ut een baal katoen werd een aselecte steekproef genomen van 4000 draden om de vezellengte te bepalen. De gemddelde lengte was.33cm en de standaardafwjkng 0.48cm. Ut dezelfde baal werd een andere steekproef genomen van 00 draden volgens een andere methode dan de eerste. Van deze tweede steekproef was de gemddelde vezellengte.54cm. Aangenomen mag worden dat de vezellengte normaal verdeeld s. Toets met onbetrouwbaarhed α = 0.05 of er verschl s tussen de twee steekproefmethoden. 7. Een fabrkant betrekt al jaren transstoren van A, de hem gemddeld 8% kapotte levert. Van een vertegenwoordger van B koopt hj 75 stuks de wat duurder zjn, maar waarvan beweerd wordt dat er mnder kapot zjn. Bj controle bljken 5 van deze 75 transstoren ondeugdeljk te zjn. Zjn de percentages kapotte exemplaren n de producten van A en B op een sgnfcante level van α = 0.05 verschllend? 8. Een medcus beweert dat de kans op een jongengeboorte groter s dan de op de geboorte van een mesje. Hj komt tot deze concluse omdat 51% van de pasgeboren baby s ut zjn praktjk jongens zjn. Hoeveel geboorten moeten dat zjn om deze concluse of een onbetrouwbaarhedslevel van α = 0.05 te rechtvaardgen? 66

67 Les 5 Vergeljken van verdelngen In de vorge les hebben we naar toetsen voor hypothesen gekeken, waarbj de hypothese een utspraak over een parameter van een kansverdelng was, bjvoorbeeld over het gemddelde of een relateve frequente. Maar als we bjvoorbeeld wllen toetsen, of een dobbelsteen eerljk s, zullen we na 10 worpen net alleen maar het gemddelde en de varante bepalen, maar kjken of de getallen 1 t/m 6 alle ongeveer 0 keer gevallen zjn. Op deze maner zouden we natuurljk onmddelljk zen, dat de stochast X met P(X = 1) = 5 4, P(X = ) = 1, 6 1 P(X = 3) = 1, P(X = 4) = 0, P(X = 5) = 13, 4 P(X = 6) = 0 geen eerljke dobbelsteen beschrjft, terwjl E[X] = en V ar(x) = 1, net zo als bj een eerljke dobbelsteen (ga dt na). We zouden dus met toetsen op het gemddelde en de varante net aan het lcht kunnen brengen dat de dobbelsteen oneerljk s, maar natuurljk zouden we dt ook net op zo n stomme maner proberen te toetsen. De vraag of een dobbelsteen eerljk of oneerljk s, s een voorbeeld van een vraagstuk, waar we net alleen maar een parameter van een kansverdelng wllen toetsen, maar waar we de volledge verdelng wllen bekjken. De nulhypothese, de we n dt geval zouden toetsen s H 0 : P(X = 1) = 1 6, P(X = ) = 1 6,..., P(X = 6) = 1 6 en de alternateve hypothese ludt, dat net alle van deze kansen geljk aan 1 6 zjn. Natuurljk kunnen we net verwachten, dat we bj een steekproef preces de kansen van de nulhypothese vnden, maar naarmate de steekproef groter wordt, zouden we steeds klenere afwjkngen verwachten. Het vergeljken van de onder de nulhypothese verwachte aantallen en de daadwerkeljk waargenomen aantallen geeft aanledng tot een belangrjke klasse van toetsen voor hypothesen over kansverdelngen, nameljk de χ -toetsen, de we n deze les gaan bekjken. 5.1 De χ -aanpassngstoets De stuate de we nu gaan bekjken s als volgt: Gegeven s een stochast X met een zekere kansverdelng, bjvoorbeeld de unforme verdelng voor een eerljke dobbelsteen. De nulhypothese ludt, dat een steekproef door de stochast X s voortgebracht en we wllen toetsen of deze hypothese plausbel s. De algemene aanpak s, de mogeljke utkomsten van de stochast X n een aantal klassen n te delen. Voor een stochast met een dscrete kansverdelng zjn de klassen vaak de verschllende mogeljke utkomsten, maar soms s het handg verschllende utkomsten n één klasse samen te vatten. 67

68 Voor contnue kansverdelngen kest men als klassen meestal ntervallen, deze zjn vaak van dezelfde breedte, maar dt s net noodzakeljk zo. Voorbeeld: Voor een stochast X N(µ,σ ) waarvoor men een normale verdelng met verwachtngswaarde µ en varante σ veronderstelt, worden de ntervalgrenzen vaak op veelvouden van de standaardafwjkng σ vastgelegd. Men krjgt zo bjvoorbeeld de klassen K 1 : < X < µ 3σ, K : µ 3σ X < µ σ, K 3 : µ σ X < µ σ, K 4 : µ σ X < µ, K 5 : µ < X µ + σ, K 6 : µ + σ X < µ + σ, K 7 : µ + σ X < µ + 3σ, K 8 : µ + 3σ X <. Als de mogeljke utkomsten van X n k klassen ngedeeld zjn, wordt voor edere klasse de kans p bepaalt, dat X een utkomst n de -de klasse produceert. Bj een steekproef van n stuks zullen we dan (onder de aanname van de nulhypothese) np waarden n de -de klasse verwachten. In het voorbeeld van de normale verdelng met 8 klassen kunnen we ut de standaard-normale verdelng de volgende kansen afleden: p We beschrjven nu met een stochast X het aantal utkomsten n een steekproef van n stuks, de n de -de klasse vallen. Ut de verschllen van X en np moeten we nu een toets afleden, de aangeeft of het plausbel s dat de steekproef volgens de veronderstelde kansverdelng s voortgebracht. Afwjkngen van de verwachte aantallen Voor het specale geval van slechts klassen hebben we dt probleem al eerder bekeken, n dt geval vallen de utkomsten met kans p n de eerste klasse en met kans q = 1 p n de tweede klasse. Maar dt betekent, dat X de stochast van een Bernoull-experment met kans p s en de stochast X 1 de het aantal utkomsten n de eerste klasse (het aantal successen bj n pogngen) beschrjft, s bnomaal verdeeld met parameters n en p. Evenzo s de stochast X de het aantal utkomsten n de tweede klasse (het aantal mslukkngen bj n pogngen) beschrjft, bnomaal verdeeld met parameters n en q = 1 p. De relateve frequente p van een bnomale verdelng hadden we n de vorge les getoetst, door X 1 op een (bj benaderng) standaard-normale verdelng te transformeren, nameljk door Z := X 1 np np(1 p). Als Z standaard-normaal verdeeld s, heeft Z een χ -verdelng met 1 vrjheds- 68

69 graad en we kunnen Z als volgt herschrjven: Z = (X 1 np) np(1 p) = (1 p) (X 1 np) np(1 p) + p (X 1 np) np(1 p) = (X 1 np) np = (X 1 np) np + ((n X 1) n(1 p)) n(1 p) + (X nq). nq We zen dus dat we Z kunnen beschrjven als som van de kwadratsche afwjkngen tussen waargenomen aantallen n de twee klassen en verwachte aantallen voor deze klassen, waarbj de kwadratsche afwjkngen op de verwachte aantallen genormeerd worden. In plaats van de waarde van Z met de z-waarden van de standaard-normale verdelng te vergeljken, kunnen we de waarde van Z tegen de waarden χ α van een χ -verdelng met 1 vrjhedsgraad toetsen de gedefneerd zjn door P(Z > χ α) = α want er geldt P(Z > χ α) = P(Z > z α ) = α. De veralgemenng van tot k klassen s nu engszns voor de hand lggend: De gekwadrateerde afwjkngen van de waargenomen aantallen van de verwachte aantallen worden door de verwachte aantallen gedeeld en deze hoeveelheden worden voor de verschllende klassen bj elkaar opgeteld. Het dee achter de normerng op het aantal verwachte utkomsten n een klasse s dat bj een verwacht aantal van 100 utkomsten een afwjkng van 3 mnder sterk weegt dan bj een verwacht aantal van 10 utkomsten. Defnte: Bj een kansexperment met k mogeljke (klassen van) utkomsten zj p de kans op een utkomst n de -de klasse. Het aantal van utkomsten n de -de klasse bj n pogngen wordt door de stochast X beschreven. De afwjkng tussen de waargenomen verdelng en de verwachte verdelng wordt beschreven door de stochast χ de gedefneerd s door χ := k =1 (X np ) np = (X 1 np 1 ) np (X k np k ) np k. De naam χ voor deze stochast s natuurljk met opzet gekozen, er laat zch aantonen dat χ voor n nderdaad een χ -verdelng met k 1 vrjhedsgraden heeft. Voor het geval k = hebben we dt boven ngezen, want we hebben aangetoond dat ( ) (X 1 np 1 ) + (X np ) X 1 np 1 = np 1 np np1 (1 p 1 ) en het laatste heeft voor n nderdaad een χ -verdelng met 1 vrjhedsgraad. Het bewjs voor algemene k vergt behoorljk meer moete en wordt her onderdrukt. 69

70 We geven wel een ets handgere maner aan om χ ut te rekenen: Ut (X np ) = X X np +n p volgt dat (X np ) np = X np X +np. We hebben k =1 p = 1 en omdat de som van de X het totaal aantal n van waargenomen utkomsten aangeeft, geldt k =1 X = n. Hermee krjgen we χ := k =1 (X np ) np = k X k k X + np np =1 =1 =1 ( k ) ( X k = n + n = np =1 =1 X np ) n. De kansverdelng de de verdelng van n utkomsten over k klassen beschrjft, waarbj een utkomst met kans p n de -de klasse valt, heet de multnomale verdelng met parameters p 1,...,p k (de aan p p k = 1 moeten voldoen). Er geldt P(X 1 = n 1, X = n,...,x k = n k ) = n! n 1! n!... n k! pn1 1 pn... pn k k waarbj n n k = n s. De multnomale verdelng voor het specale geval k = s natuurljk just de bnomale verdelng. Toets op de afwjkngen Het dee van een toets op de afwjkngen tussen waargenomen en verwachte aantallen, de zogeheten χ -aanpassngstoets of kort χ -toets, s n prncpe hetzelfde als bj de toetsen de we n de vorge les hebben gezen: Voor de verschllende aantallen ν van vrjhedsgraden en de verschllende levels α van onbetrouwbaarhed worden waarden χ ν,α bepaald zo dat P(χ > χ ν,α ) = α. Onder de aanname van de nulhypothese geeft een steekproef dus (slechts) met kans α een χ -waarde de zo groot of groter s dan χ ν,α en de nulhypothese wordt verworpen als een waarde χ wordt gevonden de groter s dan χ ν,α voor de gekozen level α. Vaak wordt ook n het kader van χ -toetsen de P-waarde van χ bepaald, dus de kans waarmee de stochast X van de nulhypothese een steekproef produceert de een χ -waarde heeft de groter s dan de gevonden waarde χ. Merk op: Een belangrjke voorwaarde voor de toepasbaarhed van de χ - toets s, dat voor edere klasse de verwachte aantallen np 5 zjn, want anders wordt de verdelng van de χ -waarden net nauwkeurg genoeg door een χ - verdelng benaderd. Dt est soms dat men klassen samenvoegt de anders te weng waarnemngen laten verwachten. 70

71 In het voorbeeld van de normale verdelng heeft de klasse K 1 de verwachte relateve frequente p 1 = : Om her op np 1 5 te komen, moeten we een steekproef van grootte n 3847 hebben. Als dt net haalbaar s, kunnen we bjvoorbeeld de klassen K 1 en K samenvoegen, de gecombneerde kans voor deze twee klassen s p 1 = en om nu aan de voorwaarde np 1 5 te voldoen s al een steekproef van grootte n 0 voldoende. Voorbeeld: We nemen aan dat we voor onze oneerljke dobbelsteen met kansen ( 5 4, 1 6, ,0, 4,0) bj een steekproef met n = 10 worpen preces de juste aantallen vnden, dus (5, 0, 10, 0, 65, 0). Bj een eerljke dobbelsteen s p 1 =... = p 6 = 1 6 en we zouden dus voor elke klasse 0 utkomsten verwachten. De waarde voor χ s n dt geval χ = (5 0) + 0 (0 0) + 0 (10 0) + 0 (0 0) + 0 = 1 ( ) = (65 0) (0 0) Voor α = 0.01 vndt men n de tabellen voor een χ -verdelng met 5 vrjhedsgraden de waarde χ 5,0.01 = 15.1 en zelfs voor α = s χ 5,0.001 = 0.5 veel klener dan de gevonden waarde voor χ. De P-waarde voor χ = s n fete dus s het nagenoeg utgesloten dat een resultaat met zo n grote waarde voor χ toevallg door een eerljke dobbelsteen opgeleverd zou worden. Voorbeeld: Van een bepaalde plantensoort komen volgens de wetten van Mendel ver varates voor n de verhoudng 9 : 3 : 3 : 1. De verwachte relateve frequentes zjn dus p 1 = 9 16, p = 3 16, p 3 = 3 16 en p 4 = In een steekproef van 160 exemplaren vndt men de volgende aantallen n, de met de verwachte aantallen np vergeleken worden: varate totaal n np Omdat de verdelng 4 klassen bevat, hebben we de krteke waarden van de χ -verdelng met 3 vrjhedsgraden nodg. Voor α = 0.1 s χ 3,0.1 = 6.5 en voor α = 0.05 s χ 3,0.05 = Als waarde voor χ krjgen we χ = (88 90) 90 + (35 30) 30 + (4 30) 30 + (13 10) dus geeft dt experment net eens op een onbetrouwbaarhedslevel van 10% evdente tegen de wetten van Mendel. De P-waarde van χ =.98 s 0.395, dt betekent dat 39.5% van de steekproeven mnstens een χ -waarde van.98 zou opleveren, dus s onze steekproef zeker geen atypsch resultaat. Tweezjdge χ -toetsen Meestal wordt de χ -aanpassngstoets als rechtséénzjdge toets toegepast, de aangeeft wat de kans s dat een steekproef n het geval van de nulhypothese een 71

72 zo grote χ -waarde geeft. Er zjn echter ook gevallen waarbj een tweezjdge χ -toets toegepast wordt, omdat men steekproeven ook verdacht vndt, als ze te goed bj de nulhypothese passen. Een voorbeeld hervoor s het toetsen van een mplementate van een pseudorandomgenerator de toevalsgetallen moet voortbrengen. Voor toevalsgetallen tussen 0 en 1 kan men als klassen bjvoorbeeld de deelntervallen van lengte 0.1 kezen. Als een toevalsgenerator nu toevalsgetallen produceert, zou men ongeveer 1000 getallen n eder deelnterval verwachten en men berekent hervoor de waarde van χ. Natuurljk mag χ n dt geval net te groot zjn, omdat dt evdente tegen de nulhypothese geeft dat de toevalsgenerator onbevooroordeeld (unform verdeeld) s. Maar omgekeerd geeft een te klene χ -waarde aanledng tot de aanname dat er te veel regelmaat n de toevalsgetallen zt en de rj toevalsgetallen voorspelbaar s. Dt s evdente tegen de nulhypothese dat de toevalsgenerator de getallen onafhankeljk van elkaar produceert. Men zou n dt geval de toevalsgenerator als ongeschkt verwerpen als de χ -waarde net tussen χ 0.05 en χ 0.95 lgt. Een van de grondleggers van de statstek, R.A. Fsher, heeft de χ - toets op de expermenten van Gregor Mendel met erwten toegepast, waardoor deze tot de ontdekkng van de genen werd geled (zonder ze zo te noemen). Fsher kwam tot het resultaat dat χ een P-waarde van had, dus slechts 4 n steekproeven zouden een zo klene χ -waarde opleveren. Het ljkt erop dat Mendel s tun assstent preces wst, welke utslag Mendel bj zjn expermenten verwachte en her een handje bj heeft geholpen. De waarden χ ν,α De χ ν,α-waarden zjn net zo als de z-waarden en t-waarden voor verschllende parameters ν en α n tabellen opgeslagen of worden door software pakketten berekend. Voor grotere aantallen van vrjhedsgraden zjn er zekere benaderngen de op het verband van de χ -verdelng met de normale verdelng berusten. (1) Voor een stochast χ met een χ -verdelng met ν vrjhedsgraden s Z := χ ν 1 bj benaderng standaard-normaal verdeeld, waarbj deze benaderng zeker voor ν > 100 toegepast mag worden. Door dt naar χ op te lossen, volgt dat men χ ν,α met behulp van de z α -waarden kan benaderen door χ ν,α 1 ( zα + ν 1 ). () Een betere benaderng krjgt men ut het fet dat ook 3 χ ν Z := (1 9ν ) 9ν 7

73 bj benaderng standaard-normaal verdeeld s. Oplossen hervan naar χ geeft de benaderng ( χ ν,α ν 1 ) 3 9ν + z α. 9ν Er wordt soms aangegeven dat de benaderng (1) voor ν > 100 toegepast mag worden en de betere benaderng () voor ν > 30, maar met deze grenzen speelt men zeker aan de velge kant. Voor ν = 50 en α = 0.05 s bjvoorbeeld de juste waarde χ 50,0.05 = , benaderng (1) geeft χ 50, en benaderng () χ 50, Zelfs voor ν = 10 en α = 0.05 s de fout van de twee benaderngen nog klen, de juste waarde s her χ 10,0.05 = , benaderng (1) geeft χ 10, en benaderng () χ 10, Verschllende krteke waarden χ ν,α zjn n Tabel 3 te vnden. Merk op dat n deze tabel het aantal vrjhedsgraden met n (n plaats van ν) aangegeven s en dat de krteke waarden n de vorm χ n,1 α aangegeven zjn, d.w.z. de waarde vndt men bjvoorbeeld n de kolom onder 1 α = χ,0.05 Voor aantallen van vrjhedsgraden de net n de tabel genoteerd zjn, kan men (voor voldoende grote ν) de boven aangegeven benaderngen toepassen, of een waarde voor een hoger aantal vrjhedsgraden kezen, de wel genoteerd s. Op deze maner wordt n eder geval de kans op een type I fout net vergroot. Onbekende parameters In veel gevallen wl men toetsen of een steekproef door een stochast met een zeker type van kansverdelng geproduceerd s, bjvoorbeeld met een bnomale verdelng of een normale verdelng. In dt geval hangt de verdelng voor de nulhypothese van onbekende parameters af de ut de steekproef geschat moeten worden. Bj een schatter voor het gemddelde van een kansverdelng hebben we gezen dat door het vervangen van de varante door een schattng de verdelng breder wordt, omdat er meer onzekerhed n de schattng zt. We moesten daarom de normale verdelng door de Student-t verdelng vervangen. Iets soortgeljks gebeurt ook bj de χ -toetsen. Als we de parameters van de verdelng waarmee we de verwachte kansen p voor de klassen berekenen door schattngen vervangen, passen we de kansen p n fete al aan de steekproef aan. Herdoor wordt de afwjkng tussen waargenomen en verwachte aantallen klener tegenover het geval van bekende parameters. Op een gegeven onbetrouwbaarhedslevel α moeten de krteke waarden vanaf waar we de nulhypothese verwerpen dus scherper gekozen worden. 73

74 Tabel 3: Krteke waarden χ n,1 α voor de χ -verdelngen met n vrjhedsgraden. Gelukkg laat zch bewjzen dat de aanpassng van de krteke waarden op een overzchteljke maner gebeurt, er moet nameljk voor elke parameter de we ut de steekproef schatten één vrjhedsgraad afgetrokken worden. Er geldt: Stellng: Als voor het berekenen van de verwachte kansen p voor een utkomst n de -de klasse r parameters voor de kansverdelng van X met een maxmum lkelhood schattng worden bepaald, dan heeft χ := k (X np ) =1 np voor n een χ -verdelng met k 1 r vrjhedsgraden. Merk op: Voor het gemddelde µ van een verdelng s de maxmum lkelhood schattng gewoon het steekproefgemddelde x = 1 n n =1 x en voor de parameter p van een bnomale verdelng s p = k n de maxmum lkelhood schattng, waarbj k het aantal successen bj n pogngen s. Aan de andere kant geldt dat de maxmum lkelhood schattng voor de varante net de steekproefvarante s = 1 n n 1 =1 (x x) s, maar 1 n n =1 (x 74

75 x) = n 1 n s. Maar omdat de verdelng van χ toch alleen maar voor n een χ - verdelng geeft, maakt het net zo veel ut of we de varante σ door de (zuvere) schattng s of door de asymptotsch zuvere maxmum lkelhood schattng n 1 n s vervangen. Vaak wordt daarom n de lteratuur ook alleen maar aangegeven, dat een parameter door een schattng wordt vervangen, maar net of door de maxmum lkelhood schattng of door een andere schattng. Voorbeeld: Om het uur worden ut een producteproces steekproeven genomen van 5 stuks en het aantal defecte stukken wordt genoteerd. In 00 zulke steekproeven zjn de volgende resultaten gevonden: aantal defecte stukken aantal steekproeven We wllen toetsen of het aantal defecte stukken een bnomale verdelng heeft omdat dt het geval zou zjn als de kans op defecte stukken over de tjd constant gebleven s. Omdat de parameter p van de bnomale verdelng net bekend s, moeten we deze ut de steekproeven schatten. We krjgen hervoor p = ( ) = = Als ndelng van de steekproeven n klassen kezen we de aantallen defecte stukken n een steekproef (van 5 stuks). De verwachte relateve frequente p voor de -de klasse (met defecte stukken) s dan volgens de bnomale verdelng met parameters m = 5 en p = p = 0.15 gegeven door ( ) ( ) m 5 p = p (1 p) m = en voor de n = 00 steekproeven krjgen we als verwachte aantallen voor de klassen defect p np Omdat de verwachte aantallen voor de klassen met 3, 4 en 5 defecte stukken te klen zjn, voegen we deze samen tot één klasse met 3 defecte stukken. We krjgen zo de volgende statstek waarvoor we de χ -waarde moeten bepalen: defect n np Omdat we de parameter p van de bnomale verdelng ut de steekproeven hebben geschat, heeft de χ -verdelng = vrjhedsgraden. Op de levels α = 0.05 en α = 0.01 hebben we de krteke waarden χ,0.05 = 5.99 en = 9.1. Er geldt nu χ,0.01 χ = ( ) ( ) (6 7.64) (1 5.3)

76 dus kunnen we de nulhypothese van een bnomale verdelng zelfs op de onbetrouwbaarhedslevel α = 0.01 velg verwerpen. De P-waarde van χ = s n fete , een veel te lage waarde voor de aanname dat de afwjkng van de bnomale verdelng toevallg s. We zouden dus concluderen, dat de kans p op defecte stukken n het producteproces over de tjd net constant was. 5. χ -toets voor contngentetabellen We hebben met de χ -aanpassngstoets getoetst of een steekproef bj een zekere kansverdelng past. Vaak komt men echter een ets andere vraag tegen, nameljk of twee of meer steekproeven bj een gemeenschappeljke kansverdelng horen, waarbj het net nodg s deze gemeenschappeljke verdelng nader te bepalen. Dt probleem wordt meestal met een varate van de χ -toets ut de vorge secte aangepakt, waarbj men de verwachte aantallen ut de steekproeven bepaald. Herbj gebrukt men een contngentetabel. Stel we hebben r steekproeven met omvangen n 1,...,n r. Ieder van de steekproeven wordt op k klassen verdeeld, dt geeft de aantallen n j van elementen n de -de steekproef, de n de j-de klasse vallen. We krjgen zo een r k- matrx met als elementen de hoeveelheden van elementen n de doorsnede van een steekproef en een klasse en deze matrx noemen we een contngentetabel. Met n := r =1 n = n n r noteren we de gemeenschappeljke omvang van alle steekproeven. We defnëren nu p j := n 1j n rj n als kans voor een utkomst n de j-de klasse, dt s just de relateve frequente van utkomsten de n de j-de klasse vallen, bepaald over alle steekproeven. Met de kansen p j krjgen we als verwachte waarde op poste (,j) n de contngentetabel de waarde n p j, want dt s het aantal utkomsten n de j-de klasse de we bj een steekproef van omvang n zouden verwachten. We vatten nu de cellen van de contngentetabel als neuwe klassen op en berekenen voor deze klassen de χ -waarde, dus χ := r k =1 j=1 (n j n p j ) n p j. Er laat zch ook n dt geval aantonen, dat χ voor n een χ -verdelng heeft, en het aantal vrjhedsgraden van deze χ -verdelng s ν = (r 1)(k 1). Dt kunnen we als volgt nzen: Als de p j bekend waren, hadden we voor edere steekproef k 1 vrjhedsgraden, dus n het geheel r(k 1) vrjhedsgraden. Maar omdat we de p j ut de steekproeven schatten, moeten we hervan k 1 aftrekken (net k, want p k laat zch door p k = 1 p 1... p k 1 ut de andere schattngen berekenen). Dt geeft dus ν = r(k 1) (k 1) = (r 1)(k 1) vrjhedsgraden. 76

77 Voorbeeld: Bj een enquête n dre steden A, B en C werd een contngentetabel met de volgende resultaten gevonden: stad voor tegen neutraal geen antwoord totaal A B C totaal We hebben dus n 1 = 40, n = 453, n 3 = 309, n = 118, p 1 = , p = , p 3 = , p 4 = en dt geeft als tabel met de verwachte aantallen n p j : stad voor tegen neutraal geen antwoord A B C Als we nu de waarde van χ berekenen, zjn de cellen van de tabellen de neuwe klassen en we krjgen χ = ( ) ( ) ( ) Dt moeten we vergeljken met de krteke waarden van de χ -verdelng met (3 1) (4 1) = 6 vrjhedsgraden. We hebben χ 6,0.05 = 1.6 en χ 6,0.01 = 16.8, dus zjn de resultaten van de dre steden op de level α = 0.01 sgnfcant verschllend. In het geval van r = steekproeven hebben we natuurljk al eerder toetsen op verschllen van de verdelngen gezen, bjvoorbeeld toetsen op hetzelfde gemddelde. Het hangt vaak van de vraagstukken af, of een χ -toets her beter geschkt zou zjn. In het algemeen s de χ -toets mnder scherp dan een toets op verschllen van de gemddelden, aan de andere kant kan deze ook nog verschllen detecteren als de gemddelden wel overeenkomen. In het bjzonder s de χ -toets ook toepasbaar, als de veronderstellng van een normaal verdeelde schatter net meer houdbaar s. Voorbeeld: Bj een net nader toegelcht experment met mogeljke utslagen 1,...,10 worden met twee verschllende methoden I en II de volgende aantallen utslagen berekt: methode totaal I II totaal

78 Als geschatte kansen p j voor de utkomsten krjgen we j p j en als we hermee de χ -waarde berekenen, krjgen we χ Voor een χ -verdelng met ( 1) (10 1) = 9 vrjhedsgraden hebben we χ 9,0.1 = 14.7, dus geeft de χ -toets met onbetrouwbaarhed α = 0.1 geen evdente voor een verschl van de twee methoden. De P-waarde van χ = 11.1 s Maar we kunnen met onze kenns ut de vorge les natuurljk ook toetsen, of de twee methoden hetzelfde gemddelde hebben. Hervoor kjken we naar de steekproefgemddelden x I en x II en de steekproefvarantes s I en s II voor de twee steekproeven met omvangen n I = 00 en n II = 150. We hebben x I = 1 00 ( ) = 5.05, x II = 1 ( ) = s I = 4.9, s II = 3.86 en herut bepalen we als waarden voor de gepoolde varante s en standaardafwjkng s: s = (n I 1)s I + (n II 1)s II n I + n II = 199 s I s II 348 = 4.11, s =.03. Als t-waarde de we met de krteke waarden van de Student-t verdelng met 348 vrjhedsgraden moeten toetsen, hebben we t = x II x I.8. s 1 n + 1 I n II De verdelng van t s nagenoeg een standaard-normale verdelng en als P-waarde voor t =.8 vnden we 0.004, dus vnden we met deze toets een sgnfcant verschl voor de gemddelden van de twee methoden. Toets op onafhankeljkhed van kenmerken Een varate op het vergeljken van r steekproeven geeft een toets op onafhankeljkhed van twee kenmerken n een steekproef. Bjvoorbeeld wl men weten, of het nteresse n verschllende studevakken onafhankeljk s van het geslacht van de student. Men nterpreteert nu de studenten van de verschllende studevakken als verschllende steekproeven en de ndelng vrouw/man als ndelng n klassen. De nulhypothese s, dat de kenmerken studevak en geslacht onafhankeljk zjn, n dt geval zou de kansverdelng voor edere steekproef hetzelfde zjn en we zjn terug bj de stuate van de vorge secte. Voor het gemak nemen we aan dat het eerste kenmerk de waarden {1,...,r} kan hebben en het tweede kenmerk de waarden {1,...,k}. Als n elementen n de steekproef ztten, noteren we met n j het aantal elementen met waarde voor het eerste kenmerk en waarde j voor het tweede kenmerk. Als schattng 78

79 p voor de relateve frequente van elementen met waarde voor het eerste kenmerk krjgen we p := n n k n en als schattng p j voor de relateve frequente van elementen met waarde j voor het tweede kenmerk krjgen we p j := n 1j n rj. n De kansen p en p j heten ook margnale kansen, omdat ze met de totale aantallen corresponderen de we aan de rand van de contngentetabel schrjven. Onder de aanname van de nulhypothese zjn de twee kenmerken onafhankeljk, dus s de kans op een utkomst n de cel (,j) van de contngentetabel geljk aan p p j en het verwachte aantal utkomsten voor deze cel s dus n p p j. Om de kenmerken op onafhankeljkhed te toetsen, kjken we dus n dt geval naar de χ -waarde r k χ (n j np p j ) :=. np p j =1 j=1 Net als boven laat zch aantonen dat de verdelng van deze waarden χ over alle mogeljke steekproeven voor n een χ -verdelng heeft. Omdat het schatten van de p ut de steekproef r 1 vrjhedsgraden wegneemt en het schatten van de p j het aantal vrjhedsgraden om k 1 reduceert, hebben we het met een χ -verdelng met vrjhedsgraden te maken. ν = rk 1 (r 1) (k 1) = (r 1)(k 1) Voorbeeld: In een onderzoek werd getoetst of de prestates van leerlngen n de vakken Engels en Wskunde onafhankeljk van elkaar zjn. Men deelt de resultaten n 3 klassen, cjfers 6 en lager, cjfers 7 en 8 en cjfer 9 en 10. Wskunde Engels 6 7, 8 9, 10 totaal , , totaal Herut krjgen we voor de margnale kansen: p 1 = = 0.67, p = = 0.470, p 3 = = 0.63 p 1 = = 0.56, p = = 0.53, p 3 = = 0. Onder de aanname van de nulhypothese dat de twee kenmerken onafhankeljk zjn, zouden we voor de combnate (,j) van de kenmerken n p p j leerlngen n de steekproef verwachten. Dt geeft de verwachte waarden n de volgende tabel: 79

80 Wskunde Engels 6 7,8 9, , , We zen al dat dt behoorljk afwjkt van de gevonden waarden. Als we hervoor de χ -waarde berekenen, krjgen we χ = ( ) (4 73.7) ( ) terwjl we voor een χ -verdelng met (3 1) (3 1) = 4 vrjhedsgraden op sgnfcante level α = de waarde χ 4,0.001 = 18.5 vnden. Het s dus dudeljk dat de resultaten n de twee vakken net onafhankeljk van elkaar zjn. Yates-correcte In het specale geval van een contngentetabel wordt vaak de Yatescorrecte toegepast, de rekenng ermee houdt, dat n klassen ngedeelde gegevens dscreet zjn, terwjl de χ -verdelng een contnue kansverdelng s. In het algemeen wordt de χ -waarde met Yates-correcte bj l klassen met kansen p 1,...,p l berekend door χ := l =1 ( X np 1 ) np maar dt wordt egenljk alleen maar n het geval van 1 vrjhedsgraad toegepast, en dt s just het geval voor r = en k =. De Yates-correcte heeft het effect dat de χ -waarde de berekent wordt ets lager s dan zonder de correcte. Dt ledt ertoe dat de nulhypothese met Yates-correcte mnder snel verworpen wordt dan zonder Yates-correcte. Voor grote steekproeven maakt de Yates-correcte bjna geen verschl en nmddels wordt soms aanbevolen, de Yates-correcte net toe te passen. Als alle gevonden aantallen van de cellen klen zjn (bjvoorbeeld tussen 5 en 10 lggen) s het verstandg om de χ -waarde met en zonder Yatescorrecte te bepalen. Als de twee verses tot verschllende concluses leden (verwerpen van de nulhypothese bj de ene, net verwerpen bj de andere), zou men de steekproef moeten vergroten om tot een dudeljke beslssng te kunnen komen. Voorbeeld: In een proef wordt aan een groep van mensen met een bepaalde zekte een neuwe medcjn gegeven, terwjl een tweede groep met dezelfde zekte een placebo krjgt. Er wordt nu gekeken hoe veel van de mensen bnnen een bepaalde perode gezond zjn geworden. gezond zek totaal medcjn placebo totaal

81 Als margnale kansen krjgen we herut p 1 = p = = 0.5 en p 1 = = 0.7, p = = 0.3. De aanname van onafhankeljkhed betekent n dt geval dat de neuwe medcjn hetzelfde effect heeft als het placebo. Omdat de groepen even groot zjn, zouden we onder de aanname van onafhankeljkhed verwachten dat n bede groepen = 70 mensen gezond worden en dat = 30 zek bljven. Zonder Yates-correcte krjgen we herut de χ -waarde χ = (75 70) 70 + (5 30) 30 + (65 70) 70 + (35 30) en met Yates-correcte χ ( ) ( ) = ( ) ( ) In bede gevallen kunnen we de nulhypothese op onafhankeljkhed op een level van α = 0.1 net verwerpen, want voor een χ -verdelng met 1 vrjhedsgraad vnden we χ 1,0.1 =.71. De P-waarde zonder Yates-correcte s 0.13 en de P- waarde met Yates-correcte s en dt zjn allebj geen afzonderljk klene waarden. Om aan te tonen dat de neuwe medcjn wel een effect heeft, zjn dus verdere expermenten nodg. -tabellen In het voorbeeld herboven hebben we kunnen zen, dat bj een -contngentetabel de tellers n de som voor χ alle hetzelfde zjn (n het voorbeeld 5 ). Dt s geen toeval, maar n fete altjd het geval voor -tabellen en heeft tot gevolg dat we voor dt belangrjke specaal geval de χ -waarde op een veel makkeljkere maner kunnen utrekenen. Het zal geen verrassng zjn, dat een -tabel een specaal geval s, want her gaan we toetsen of twee relateve frequentes hetzelfde zjn. In de vorge les hebben we gezen, dat we dt voor twee relateve frequentes p 1 en p kunnen doen, door de z-waarde z := p 1 p p 0 (1 p 0 )( 1 n n ) met p 0 := n1p1+np n 1+n te berekenen, de onder de aanname van de nulhypothese p 1 = p standaard-normaal verdeeld s. De waarde χ voor de χ -toets de we nu gaan berekenen s n dt specaal geval just het kwadraat van z. We noteren de -contngentetabel als volgt: 81

82 A B totaal 1 a b n 1 c d n totaal n A n B n Hervoor berekenen we de χ -waarde door χ = (a n 1n A n ) n 1 n A n + (b n 1n B n ) n 1 n B n + (c n n A n ) n n A n ( n n B (a n 1n A n ) + n n A (b n 1n B + (d n n B n ) n n B n n = n 1 n n A n B n ) + n 1 n B (c n n A n ) + n 1 n A (d n ) n B n ) ( n n n B = n 1 n n A n B n (na n 1 n A ) + n n A n (nb n 1n B ) + n 1n B n (nc n n A ) + n ) 1n A n (nd n n B ). Dt zet nog net naar een verbeterng ut, maar nu vullen we n dat n = a + b + c + d, n 1 = a + b, n = c + d, n A = a + c en n B = b + d. Dt geeft na n 1 n A = (a + b + c + d)a (a + b)(a + c) = a + ab + ac + ad a ab ac bc = ad bc =:. Op een soortgeljke maner zen we n, dat ook nb n 1 n B =, nc n n A =, nd n n B =. Dt s n fete het bewjs, dat we n de tellers van de termen voor χ altjd hetzelfde getal vnden, nameljk ( n ). Als we nu nog nvullen dat n 1 + n = n en n A + n B = n, zen we dat n n B + n n A + n 1 n B + n 1 n A = n (n B + n A ) + n 1 (n B + n A ) = (n + n 1 )n = n en daarom geldt n n B n + n n A n + n 1n B n + n 1n A n = = (ad bc). Alles bj elkaar genomen, hebben we dus aangetoond dat χ = n n 1 n n A n B (ad bc) en dt s voor -contngentetabellen nderdaad veel handger dan de algemene formule van boven. Belangrjke begrppen n deze les χ -aanpassngstoets krteke waarden χ ν,α 8

83 χ -toets bj onbekende parameters contngentetabel χ -toets op onafhankeljkhed Yates-correcte Opgaven 9. Er wordt 10 keer met een dobbelsteen geworpen. De aantallen voor de verschllende utkomsten zjn: Is dt een zuvere dobbelsteen? 1 : 1, : 1, 3 : 7, 4 :, 5 : 0, 6 : Bj een reukproef werd aan 50 wllekeurg gekozen vrouwen gevraagd of zj parfum A lekkerder vonden dan B of omgekeerd. Aan A gaven 37 vrouwen de voorkeur, de overge vonden B lekkerder. Toets op de sgnfcante level α = 0.1 de nulhypothese dat er geen voorkeur voor één van de twee merken bestaat. Voer de toets zonder en met Yates-correcte ut. 31. In een weverj zjn n het verleden gemddeld weeffouten per 100m geweven doek opgetreden. Een recente steekproef op 100 stukken doek van 100m heeft het volgende resultaat opgeleverd: fouten aantal doeken () Toets op een sgnfcante level van α = 0.05 de nulhypothese dat het aantal fouten Posson-verdeeld met parameter λ = s. () Toets op een sgnfcante level van α = 0.05 de nulhypothese dat het aantal fouten überhaupt Posson-verdeeld s. 3. Van 1000 aselect gekozen personen s nagegaan of ze kleurenblnd zjn. Van de 480 mannen bleken dt er 38 te zjn, bj de vrouwen was het aantal 6. () Toets op de level α = 0.1 of kleurenblndhed onafhankeljk s van het geslacht. () Wat s het mnmale aantal vrouwen dat kleurenblnd mag zjn, waarvoor de nulhypothese op level α = 0.1 net verworpen wordt (waarbj we nog steeds van 38 kleurenblnde mannen ut gaan)? 33. Twee groepen A en B van elk 100 patënten hebben een bepaalde zekte. Groep A wordt behandeld met een zeker serum, groep B met een ander serum. Na een bepaalde tjd zjn 75 patënten van groep A en 65 patënten van groep B genezen. Toets met onbetrouwbaarhed α = 0.05 of bede sera evenveel effect hebben. 34. Bj een computerbedrjf wordt n 3 ploegen (ochtend, mddag, nacht) op ver verschllende types van computers (A, B, C, D) gewerkt. De manager vraagt zch af of er bj het aantal reboots van computers een samenhang tussen de ploeg en de type computer bestaat. Hj heeft de volgende contngentetabel voor reboots gemaakt: 83

84 type computer A B C D ochtend mddag nacht 1 4 Wat kan hj op een onbetrouwbaarhedslevel van α = 0.05 zeggen? 84

85 Les 6 Varante-analyse (ANOVA) Met de χ -toetsen zjn we nagegaan of verschllende steekproeven bj dezelfde verdelng horen. Vaak komt men echter ook de vraag tegen of meerdere verdelngen hetzelfde gemddelde hebben, bjvoorbeeld als het om verschllende behandelngen van een zekere soort groente gaat. Voor twee steekproeven hebben we her al naar gekeken, dt konden we met een toets op het verschl van de twee gemddelden oplossen. Hervoor hadden we onder de veronderstellng dat de twee steekproeven ut verdelngen met dezelfde varante komen, gekeken naar de verdelng van de schatter T := X Y = s 1 n n X Y s n1 n n 1 + n waarbj s = (n 1 1)s 1 +(n 1)s n 1 +n de gepoolde varante van de steekproeven was. Net zo als we met de χ -toets een veralgemenng van het vergeljken van twee relateve frequentes naar relateve frequentes voor k klassen hebben gevonden, gaan we nu de toets op geljkhed van gemddelden op meer dan twee steekproeven utbreden. Het dee herbj s, de totale varante van de steekproeven te analyseren en deze te verdelen n de varante bnnen de enkele steekproeven en de varante tussen de steekproeven. Daarom heet deze methode dan ook varante-analyse of kort ANOVA (voor ANalyss Of VArance). We zullen ons n deze cursus beperken tot het eenvoudgste geval van de varante-analyse, nameljk het geval van een enkele parameter de gevareerd wordt en aanledng tot de verschllende steekproeven geeft. Hetzelfde prncpe laat zch op meerdere factoren veralgemenen, waarbj men ook op mogeljke nteracte tussen de verschllende factoren moet letten. Maar algemeen zjn hervoor weng neuwe deeën nodg, de hele analyse wordt alleen maar technsch ngewkkelder en we laten deze problemen her daarom buten beschouwng. 6.1 Varante bnnen en tussen steekproeven We veronderstellen, dat we k steekproeven hebben de afkomstg zjn van normale verdelngen met dezelfde (onbekende) varante σ en met (onbekende) verwachtngswaarden µ 1,...,µ k. De -de steekproef heeft omvang n en zjn elementen worden met x 1,...,x n genoteerd. De totale omvang van alle steekproeven s n := n n k. De nulhypothese ludt dat de k normale verdelngen de de steekproeven voortbrengen alle hetzelfde zjn. Omdat we veronderstellen, dat de verdelngen soweso dezelfde varante hebben, moeten we alleen maar toetsen of de verwachtngswaarden µ 1,...,µ k hetzelfde zjn, de nulhypothese H 0 s dus: H 0 : µ 1 =... = µ k. 85

86 Het dee achter de aanname dat alle steekproeven een gemeenschappeljke varante σ hebben lgt n de veronderstellng dat de waarden x j van de vorm x j = µ + ε j zjn, waarbj de ε j toevallge afwjkngen van het gemddelde zjn de onafhankeljk van de steekproef optreden. We berekenen de steekproefgemddelden x en het gemddelde x en gros (d.w.z. het gemddelde over alle steekproeven) zo als we dat altjd hebben gedaan: x := 1 x j en x := 1 x j = n n n n x. j,j De totale kwadratsche afwjkng v :=,j (x j x) tussen alle elementen van de steekproeven en het gemddelde x heeft nu twee bronnen: (1) de kwadratsche afwjkngen v := j (x j x ) bnnen de enkele steekproeven () de kwadratsche afwjkng tussen de steekproeven. (x x). Het dee achter de opspltsng van de kwadratsche afwjkng n afwjkngen bnnen en tussen de steekproeven s n de plaatjes n Fguur 17 te zen: x 1 x x 3 x x 1 x x 3 x (1) () (3) (1) () (3) Fguur 17: Steekproeven met klene (lnks) en grote (rechts) varante bnnen de steekproeven In bede plaatjes zen we 3 steekproeven met telkens 4 waarden en de steekproefgemddelden x 1,x,x 3 zjn n bede gevallen hetzelfde. 86

87 In het lnkerplaatje lggen de elementen van de steekproeven dcht bj de steekproefgemddelden, daarom s de bjdrage van de kwadratsche afwjkngen bnnen de steekproeven n dt geval klen en de totale kwadratsche afwjkng wordt vooral veroorzaakt door de afwjkngen tussen de steekproefgemddelden. Dt s sterke evdente tegen de nulhypothese dat de gemddelden van de verdelngen geljk zjn. In het rechterplaatje zjn de kwadratsche afwjkngen bnnen de steekproeven veel groter terwjl de kwadratsche afwjkngen tussen de steekproefgemddelden nog steeds hetzelfde zjn. Omdat n dt geval de kwadratsche afwjkngen bnnen de steekproeven relatef een groter deel bjdragen aan de totale kwadratsche afwjkng, zou men de nulhypothese moeljker kunnen verwerpen, want de grote spredng bnnen de steekproeven maakt het plausbel, dat alle steekproeven door een verdelng met hetzelfde gemddelde voortgebracht zjn. Om het opspltsen van de totale kwadratsche afwjkng bnnen en tussen de steekproeven preces te analyseren, maken we weer gebruk van onze succesvolle aanpak, de elementen x j van de steekproeven als realsates van onafhankeljke stochasten X j te zen. Ons utgangspunt s herbj, dat X j N(µ,σ ) s, dus normaal verdeeld met gemddelde µ en varante σ. De schatters X voor de gemddelden van de steekproeven en X voor het gemddelde over alle steekproeven zjn dan gegeven door X := 1 n X j en X := 1 n n j=1 k n X j = =1 j=1 k =1 n n X. Er geldt nu (X j X) = ((X j X ) + (X X)),j,j = (X j X ) + (X X) + (X j X )(X X),j,j,j =,j (X j X ) + n (X X) +,j (X j X )(X X). We kunnen dt behoorljk vereenvoudgen, want het bljkt dat de laatste term,j (X j X )(X X) geljk aan 0 s. Dt zet men n door de som over j voor een vaste ndex te bekjken: (X j X )(X X) = (X X)( (X j X )) j j = (X X)(( j X j ) n X ) = (X X)(n X n X ) = 0. We hebben dus aangetoond dat (X j X) = (X j X ) + n (X X),j,j }{{}}{{} V b V t 87

88 en dt s just de gewenste opspltsng van de kwadratsche afwjkng n afwjkngen bnnen de steekproeven (genoteerd met V b ) en tussen de steekproeven (genoteerd met V t ). We gaan nu de twee stochasten V b (b voor bnnen) en V t (t voor tussen) de zo als net utgewerkt gegeven zjn door V b :=,j (X j X ) en V t := n (X X) apart onderzoeken. Varante bnnen de steekproeven We weten dat de schatter S := 1 n 1 (X j X ) een zuvere schatter voor σ s, daarom s j (X j X ) een zuvere schatter voor (n 1)σ. De som V b over de kwadratsche afwjkngen bnnen de steekproeven s dus een zuvere schatter voor (n 1)σ = (n k)σ en dus geldt: Sb := V b n k s een zuvere schatter voor σ. Varante tussen de steekproeven Om de varante tussen de steekproeven te analyseren, schrjven we de stochasten X j voor de utkomsten n de steekproeven als X j = µ + E j, waarbj E j de afwjkng van de verwachtngswaarde µ van X j aangeeft. In het bjzonder s E j normaal verdeeld met verwachtngswaarde 0 en varante σ. Omdat de schatters X verwachtngswaarde µ hebben, heeft X de verwachtngswaarde µ := 1 n µ. n We schrjven nu µ = µ + α, dan zjn de α just de afwjkngen tussen de gemddelden van de enkele verdelngen en het gemddelde over alle verdelngen. In het bjzonder volgt ut µ = 1 n n µ dat n α = n (µ µ) = ( n µ ) nµ = 0. j 88

89 Voor de stochast V t geldt nu: V t = n (X X) = n ((X µ ) + (µ X) + (µ µ)) = n (X µ ) + n (µ X) + n (µ µ) + n (X µ )(µ X) + n (X µ )(µ µ) + n (µ X)(µ µ) = n (X µ ) + n(µ X) + n α + (µ X) n (X µ ) + }{{} = n(µ X) = n (X µ ) n(µ X) + n (X µ )α + (µ X) n α }{{} =0 n α + n (X µ )α. Dt s nog geen echt handg resultaat, maar utendeljk wllen we net als voor V b een utspraak bereken, dat V t een zuvere schatter voor een zekere parameter s. Hervoor moeten we de verwachtngswaarde van V t bepalen. Ut E[X ] = µ volgt E[(X µ ) ] = V ar(x ) = 1 n V ar( j Met hetzelfde argument volgt ut E[X] = µ dat X j ) = 1 n n σ = σ n. E[(X µ) ] = V ar(x) = σ n. Verder hebben we natuurljk E[X µ ] = 0, daarom geldt: E[V t ] = n E[(X µ ) ] ne[(µ X) ] + n α + n α E[(X µ )] = n σ n n σ n + n α = (k 1)σ + n α. De nulhypothese ludt dat alle µ hetzelfde zjn, dus dat alle α = 0 zjn, de alternateve hypothese s, dat mnstens een α 0 s. Hermee krjgen we voor de beschrjvng van V t de volgende twee mogeljkheden: (A) Onder de aanname van de nulhypothese α = 0 voor alle geldt: S t := V t k 1 s een zuvere schatter voor σ. (B) Onder de aanname van de alternateve hypothese α 0 voor een geldt: S t := V t k 1 s een zuvere schatter voor σ + 1 k 1 89 n α > σ.

90 Voor gegeven steekproeven berekenen we nu de concrete realsates s b en s t van de schatters S b en S t voor σ, dus s b := 1 n k k n (x j x ) en s t := 1 k 1 =1 j=1 k n (x x). Omdat onder de aanname van de nulhypothese Sb en S t bede zuvere schatters voor σ zjn, kunnen we n dt geval verwachten dat s b s t. Andersom geeft een waarde s t s b evdente tegen de nulhypothese. Voordat we nader bekjken, hoe we de nulhypothese dat alle gemddelden µ hetzelfde zjn, kunnen toetsen, geven we nog een handge maner aan, hoe de grootheden s b en s t ut de steekproefwaarden x j berekend kunnen worden. Hervoor noteren we met T := x j,j de som over alle waarden n de steekproeven en met =1 T := j x j = x 1 + x x n de som over alle waarden n de -de steekproef. Het dee dat we nu toepassen, zjn we al n de cursus Kansrekenng tegen gekomen, toen hebben we nameljk ngezen dat voor de varante V ar(x) van een stochast X met verwachtngswaarde E[X] geldt, dat V ar(x) = E[(X E[X]) ] = E[X ] E[X]. Het rekenwerk van toen kunnen we nog een keer herhalen: Stel dat we waarden x 1, x,...,x n met gemddelde x = 1 n x hebben. Voor de som t := x geldt dan t = n x. We berekenen nu (x x) = x x x + nx = x x( x ) + nx = x xnx + nx = x nx = x 1 n t. Met deze berekenng en de notate van boven gaat men rechtstreeks na dat v = (x j x) = (,j,j x j) T n v b = ( j (x j x ) ) = (( j x j ) T ) = ( n,j v t = n (x x) = v v b = ( T ) T n n. Hermee laten zch s b = 1 n k v b en s t = 1 k 1 v t eenvoudg ut de gegevens x j berekenen. x j ) ( T n ) 90

91 6. De F-verdelng van Fsher en de F-toets Om de relate tussen de schatters Sb en S t precezer te analyseren, zou men naar het verschl St Sb kunnen kjken, maar het bljkt dat dt verschl erg ngewkkelde egenschappen heeft. Een betere keuze s de quotënt van St en Sb, men kjkt dus naar de verdelng van de stochast F := S t Sb. In het geval van de nulhypothese verwacht men voor de realsate f = s t s b waarde rond 1. Ut Les weten we dat k 1 σ S t een χ -verdelng met k 1 vrjhedsgraden heeft, deze noteren we met χ n k k 1. Evenzo heeft σ S b een χ -verdelng met n k vrjhedsgraden de we met χ n k aangeven. Herut volgt dat de verdelng van F gegeven s door F = S t S b = χ k 1 k 1 χ n k n k = n k k 1 χ k 1 χ n k en deze verdelng heet de Fsher-verdelng of F-verdelng met k 1 en n k vrjhedsgraden. Zo als net toegelcht s de F-verdelng (tot op constanten na) een quotënt van χ -verdeelde stochasten met k 1 en n k vrjhedsgraden. Deze twee aantallen van vrjhedsgraden karakterseren de F-verdelng en we noteren de F-verdelng met k 1 en n k vrjhedsgraden met F k 1,n k = S t S b = n k k 1 χ k 1. χ n k In Fguur 18 zjn als voorbeelden de F-verdelngen F 3,6 en F 10,0 te zen. Herbj heeft de verdelng F 10,0 het hogere en ets meer rechts lggende maxmum. een Voor de geïnteresseerde lezer vermelden we her de explcete dchthedsfuncte f m,n voor de F-verdelng F m,n met m en n vrjhedsgraden. Het zal geen verrassng zjn, dat deze op een quotënt van de dchthedsfunctes van χ -verdelngen ljkt: f m,n (x) = m+n Γ( ) n m Γ( m )Γ( n n x 1 (n + mx) m+n )mm De verwachtngswaarde en varante van F m,n zjn E[F m,n ] = n n en V ar(f m,n ) = n (n + m ) m(n ) (n 4). Voor n geldt dat de verdelng F m,n tegen de verdelng van χ m m convergeert en voor m gaat F m,n tegen n χ. n 91

92 x Fguur 18: F-verdelngen F 3,6 en F 10,0. In het specaal geval met k = steekproeven laat zch aantonen dat de verdelng F 1,n just de verdelng van het kwadraat T van een stochast T met Student-t verdelng met n vrjhedsgraden s. De F-toets Analoog met de andere toetsen bepaalt men ook voor de F-verdelng F m,n met m en n vrjhedsgraden krteke f-waarden f α = f m,n,α, zo dat onder de aanname van de nulhypothese steekproeven met een F-waarde de hoger s dan f α alleen maar met kans α optreden, dus zo dat P(F > f α ) = α. Omdat bj een concreet probleem de aantallen m en n van vrjhedsgraden meestal dudeljk zjn, worden deze ndces meestal onderdrukt en worden de krteke waarden met f α n plaats van f m,n,α genoteerd. Onder de aanname van de nulhypothese verwacht men een F-waarde rond 1, terwjl onder de aanname van de alternateve hypothese dat α 0 een waarde s t > 1 te verwachten s. Daarom zjn de f s α > 1 en bj de F-toets met b onbetrouwbaarhed α wordt de nulhypothese verworpen als s t > f s α s. b In Tabel 4 en Tabel 5 aan het end van dt hoofdstuk zjn een aantal krteke waarden voor de F-verdelngen op onbetrouwbaarhedslevels 0.05 en 0.01 aangegeven. De krteke waarden zjn n de vorm van tabellen voor de verschllende aantallen van vrjhedsgraden aangegeven, waarbj de waarde voor de verdelng F m,n n kolom m van rj n te vnden s (n de tabellen heten de vrjhedsgraden ν 1 en ν n plaats van m en n). De naam varante-analyse voor de F-toets zou nmddels dudeljk zjn. Men analyseert hoe veel van de totale kwadratsche afwjkng door de 9

93 afwjkngen bnnen de steekproeven veroorzaakt wordt en hoeveel door de afwjkngen tussen de steekproeven. Als het laatste relatef gezen te veel wordt, geeft dt evdente tegen de nulhypothese dat de verdelngen van de steekproeven alle hetzelfde gemddelde hebben. Het crucale punt s dat bj de opspltsng van de totale kwadratsche afwjkng n de twee componenten V b en V t de component V b net gevoelg tegenover verschllen van de populategemddelden s, terwjl de component V t dt just wel s. Het s opmerkeljk dat de F-toets een toets op geljkhed van gemddelden s de bj de berekenngen gebruk maakt van varantes. Alhoewel voor de verwachtngswaarden van de schatters S b en S t σ = E[S b ] E[S t ] = σ + 1 k 1 n α geldt dat kan het voor concrete steekproeven natuurljk wel gebeuren dat s t < s b en dus f = s t < 1. Aan de hand van de voorbeelden van F-verdelngen n Fguur 18 s b s dudeljk te zen, dat er een zekere kans op F-waarden klener dan 1 bestaat. Maar als de waarde van s t zo veel klener s dan de waarde van s b dat de kans op het toevallge optreden van zo n klene F-waarde zeer klen s, moet men controleren of de hele opzet van de analyse aan de benodgde voorwaarden voldoet. Het eerste punt om op te letten s de aanname dat alle steekproeven dezelfde varante σ hebben. Hervoor laten zch bjvoorbeeld betrouwbaarhedsntervallen voor de steekproefvarantes bepalen. Vaak zjn de enkele steekproeven echter redeljk klen zo dat deze betrouwbaarhedsntervallen behoorljk groot zjn, meestal moet daarom engszns nauwkeurg gekeken worden of het überhaupt znvol s om de varante-analyse toe te passen. 6.3 Varante-analyse tabellen De resultaten van een varante-analyse worden meestal n een bepaalde soort tabellen aangegeven, de er typsch als volgt ut zen: bron vrjheds- kwadratsche schattngen F-waarde P-waarde graden afwjkngen voor σ tussen k 1 n (x x) s t f = s t P(F s k 1,n k >f) b bnnen n k,j (x j x ) s b totaal n 1,j (x j x) Voorbeeld: Bj ver leverancers van een zekere stof worden steekproeven genomen en de zuverhed van de stof bepaald (de n procent aangegeven wordt). De vraag s, of er evdente tegen de nulhypothese s, dat de ver leverancers even zuver produceren. De steekproeven en hun gemddelden zjn n de volgende tabel aangegeven: 93

94 leverancer steekproeven n x totaal We hebben k = 4 leverancers en n = 16 steekproeven, daarom hebben we de F-verdelng met 3 en 1 vrjhedsgraden nodg. Ut deze gegevens berekent men de volgende varante-analyse tabel: bron vrjheds- kwadratsche schattngen F-waarde P-waarde graden afwjkngen voor σ tussen bnnen totaal Afhankeljk van de gebrukte software wordt de P-waarde net berekend, n dt geval vndt men n de tabellen voor α = 0.05 de krteke waarde f 3,1,0.05 = 3.49 en voor α = 0.01 de krteke waarde f 3,1,0.01 = Men zou dus op een onbetrouwbaarhedslevel van 5% de nulhypothese wel kunnen verwerpen, maar op een onbetrouwbaarhedslevel van 1% net meer. De P-waarde van 0.01 zegt just, dat onder de aanname van de nulhypothese slechts.1% van de steekproeven een F-waarde van 4.76 of groter zouden opleveren. We zen ook n Fguur 19 dat de gevonden waarde 4.76 van F al redeljk ver n de staart van de F-verdelng lgt, dus zou men n dt geval n eder geval twjfels hebben of de leverancers even zuvere stof produceren x Fguur 19: F-verdelng met 3 en 1 vrjhedsgraden. Als de nulhypothese dat alle gemddelden µ hetzelfde zjn, verworpen wordt, s het natuurljk nteressant, om een schattng voor de verschllende gemddelden op te stellen. Deze schattngen zjn natuurljk just de steekproefgemddelden x, maar de nteressante vraag s, betrouwbaarhedsntervallen voor deze schattngen te vnden. 94

95 Maar hervoor hebben we n prncpe al alles berekend: De stochast Sb = 1 n k V b voor de afwjkngen bnnen de steekproeven geeft de gepoolde varante s als schattng voor σ aan. Deze schattng berust op k =1 (n 1) = n k vrjhedsgraden en de standaardfout voor de steekproefgemddelden s dus s n k. Met behulp van de Student t-verdelng met n k vrjhedsgraden vnden we zo een betrouwbaarhedsnterval rond eder van de steekproefgemddelden, op een onbetrouwbaarhedslevel α s dt: [ ] s s x t n k, α n k,x + t n k, α. n k In het voorbeeld s s = 0.509, n k = 1 en op onbetrouwbaarhedslevel α = 0.05 vnden we de krteke t-waarde t 1,0.05 =.18. Nu berekent men dat s t 1, = 0.449, dus vnden we als betrouwbaarhedsntervallen voor de gemddelden n het voorbeeld: µ 1 [98.776,99.674]; µ [98.91,99.189]; µ 3 [97.076,97.974]; µ 4 [98.718,99.616]. Het valt op dat het betrouwbaarhedsnterval voor µ 3 met geen van de andere dre ntervallen overlapt, de grote afwjkng van het gemddelde van deze steekproef tegenover de afwjkngen bnnen de steekproeven s de reden voor het verwerpen van de nulhypothese dat alle gemddelden hetzelfde zjn. In eder geval zou men op deze maner tot de beslssng komen dat de zuverhed bj leverancer 3 lager s dan bj de andere dre leverancers. Als men de varante-analyse zonder de derde steekproef herhaalt, krjgt men een totaal andere stuate. De varante-analyse tabel wordt dan: bron vrjheds- kwadratsche schattngen F- P- graden afwjkngen voor σ waarde waarde tussen bnnen totaal De F-waarde lgt dus bjna n het mdden van de verdelng F,9 en dus s er geen enkele aanledng om de nulhypothese te verwerpen dat de zuverhed bj de leverancers 1, en 4 hetzelfde s. 95

96 Belangrjke begrppen n deze les varante-analyse (ANOVA) afwjkngen bnnen en tussen steekproeven F-verdelng van Fsher F-toets varante-analyse tabel Opgaven 35. Ga na dat n het geval van twee steekproeven de F-toets equvalent s met de toets op geljkhed van gemddelden met behulp van de Student t-verdelng de we n Les 4 hebben behandeld. Aanwjzng: De twee steekproeven zjn x 11, x 1,..., x 1n1 (van omvang n 1 ) en x 1, x,..., x n (van omvang n ). De steekproefgemddelden zjn x 1 = 1 n 1 (x x 1n1 ) en x = 1 n (x x n ) en de steekproefvarantes zjn s 1 = 1 n ((x x 1 ) +...+(x 1n1 x 1 ) ) en s = 1 n ((x 1 1 x ) +...+(x n x ) ). Het globale gemddelde over bede steekproeven s x = 1 n 1+n ((x x 1n1 ) + (x x n )) = 1 n 1+n (n 1 x 1 + n x ). We gaan ervan ut dat de steekproeven afkomstg zjn van populates met dezelfde varante σ, daarom kunnen we de gepoolde varante s van de twee steekproeven aangeven door s = (n1 1)s 1 +(n 1)s n 1+n. In Les 4 hebben we aangetoond dat we de nulhypothese H 0 : x 1 = x op onbetrouwbaarhedslevel α verwerpen als t := x 1 x n1 n > t n1+n s n 1 + n, α. Laat nu zen dat voor de toetsngsgroothed f = s t s b f = t = (x 1 x ) n 1 n s. n 1 + n n de F-toets geldt dat Hervoor s het nuttg om op te merken dat (volgens de defntes) s t = n 1(x 1 x) + n (x x) en s b = 1 n 1+n ((n 1 1)s 1 + (n 1)s ). 36. Bj een crash-test met telkens 6 auto s van 3 verschllende merken wordt gekeken, wat de herstellng van de auto s kost. Er worden de volgende resultaten verkregen: A B C kosten 00e 50e 150e 75e 100e 50e 75e 470e 0e 140e 0e 10e 10e 570e 600e 450e 700e 350e 96

97 Kan op grond van deze waarden de nulhypothese dat de gemddelde kosten bj edere merk hetzelfde zjn op een onbetrouwbaarhedslevel van α = 0.05 verworpen worden? Hoe zt het met α = 0.01? Laat zen dat hervoor de F-verdelng F,15 met en 15 vrjhedsgraden relevant s. De benodgde krteke waarden voor deze F-verdelng zjn volgens tabellen 4 en 5 gegeven door f,15,0.05 = 3.68 en f,15,0.01 = In een kogellagerfabrek beschkt men over 5 machnes voor het vervaardgen van kogels. Voor een aantal toevallg getrokken kogels bepaalde men de dameter en kreeg de volgende resultaten: machne dameter van de kogels (n mm) () Toets op onbetrouwbaarhedslevel α = 0.05 de nulhypothese dat alle machnes dezelfde dameter opleveren. (De benodgde krteke waarde van de F- verdelng s f 4,11,0.05 = 3.36.) () Bereken het tweezjdge betrouwbaarhedsnterval op onbetrouwbaarhedslevel α = 0.10 voor het verschl van de gemddelde dameter van de kogels afkomstg van machnes 1 en 3. (Hervoor s geen varante-analyse nodg.) 97

98 Tabel 4: Krteke waarden voor F-verdelngen op onbetrouwbaarhedslevel α =

99 Tabel 5: Krteke waarden voor F-verdelngen op onbetrouwbaarhedslevel α =

Variantie-analyse (ANOVA)

Variantie-analyse (ANOVA) Statstek voor Informatekunde, 2006 Les 6 Varante-analyse (ANOVA) Met de χ 2 -toetsen zjn we nagegaan of verschllende steekproeven bj dezelfde verdelng horen. Vaak komt men echter ook de vraag tegen of

Nadere informatie

Regressie en correlatie

Regressie en correlatie Statstek voor Informatekunde, 005 Les 6 Regresse en correlate Als we na twee kenmerken van elementen van een populate kjken, s het een voor de hand lggende vraag of we aan de hand van de waarde van het

Nadere informatie

Regressie en correlatie

Regressie en correlatie Statstek voor Informatekunde, 006 Les 7 Regresse en correlate Als we na twee kenmerken van elementen van een populate kjken, s het een voor de hand lggende vraag of we aan de hand van de waarde van het

Nadere informatie

Bij een invalshoek i =(15.0 ± 0.5) meet hij r =(9.5 ± 0.5). 100%-intervallen. Welke conclusie kan de onderzoeker trekken?

Bij een invalshoek i =(15.0 ± 0.5) meet hij r =(9.5 ± 0.5). 100%-intervallen. Welke conclusie kan de onderzoeker trekken? INLEIDING FYSISCH-EPERIMENTELE VAARDIGHEDEN (3A560) --003, 9.00-.00 UUR Dt tentamen bestaat ut 3 opgaven. Geef noot alleen maar het antwoord op een vraag, maar laat altjd zen hoe je tot dat antwoord gekomen

Nadere informatie

Toepassing: Codes. Hoofdstuk 3

Toepassing: Codes. Hoofdstuk 3 Hoofdstuk 3 Toepassng: Codes Als toepassng van vectorrumten over endge lchamen kjken we naar foutenverbeterende codes. We benutten slechts elementare kenns van vectorrumten, en van de volgende functe.

Nadere informatie

Van beschrijvende naar verklarende statistiek

Van beschrijvende naar verklarende statistiek Hoofdstuk 5 Van beschrjvende naar verklarende statstek We hebben gezen n de beschrjvende statstek hoe we data grafsch kunnen voorstellen en samenvatten door centrum- en spredngsmaten als we beschkken over

Nadere informatie

1. In de hoofdstad van Ivoorkust, Yamoussoukro, meet men de lengte van 100 mannen (in cm) :

1. In de hoofdstad van Ivoorkust, Yamoussoukro, meet men de lengte van 100 mannen (in cm) : . In de hoofdstad van Ivoorkust, Yamoussoukro, meet men de lengte van 00 mannen (n cm) : 68,6 56,4 66,8 85,5 77,3 0,8 77,3 97,3 75,5 69,5 7,7 70,9 90,0 79, 66,8 0,3 6,7 70,0 55,0 68,6 69,5 57,7 68,6 89,5

Nadere informatie

INLEIDING FYSISCH-EXPERIMENTELE VAARDIGHEDEN (3A560) , UUR

INLEIDING FYSISCH-EXPERIMENTELE VAARDIGHEDEN (3A560) , UUR INLEIDING FYSISCH-EPERIMENTELE VAARDIGHEDEN (3A560) 4-11-003, 9.00-1.00 UUR Dt tentamen bestaat ut opgaven. Geef noot alleen maar het antwoord op een vraag, maar laat altjd zen hoe je tot dat antwoord

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en expermenteren Statstsche verwerkng van gegevens Een korte nledng Ze syllabus voor detals 16 februar 2012 Catherne De Clercq Statstsche verwerkng van gegevens Kursus Toegepaste Statstek door J.

Nadere informatie

INLEIDING FYSISCH-EXPERIMENTELE VAARDIGHEDEN (3A560) , UUR

INLEIDING FYSISCH-EXPERIMENTELE VAARDIGHEDEN (3A560) , UUR INLEIDING FYSISCH-EPERIMENTELE VAARDIGHEDEN (3A560) 1-1-004, 9.00-1.00 UUR Dt tentamen bestaat ut opgaven. Geef noot alleen maar het antwoord op een vraag, maar laat altjd zen hoe je tot dat antwoord gekomen

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Exploratieve statistiek. Infoboekje. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Exploratieve statistiek. Infoboekje. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Explorateve statstek Infoboekje Prof. dr. Herman Callaert Hans Bekaert Cecle Goethals Les Provoost Marc Vancaudenberg www.uhasselt.be/lesmateraal-statstek . Van deze boxplot

Nadere informatie

INLEIDING FYSISCH-EXPERIMENTELE VAARDIGHEDEN (3A560) , UUR

INLEIDING FYSISCH-EXPERIMENTELE VAARDIGHEDEN (3A560) , UUR INLEIDING FYSISCH-EXPERIMENTELE VAARDIGHEDEN (3A560) 3--00, 4.00-6.30 UUR Dt tentamen bestaat ut opgaven. Geef noot alleen maar het antwoord op een vraag, maar laat altjd zen hoe je tot dat antwoord gekomen

Nadere informatie

Tentamen van Wiskunde B voor CiT (151217) Tentamen van Statistiek voor BIT (153031) Vrijdag 27 januari 2006 van 9.00 tot uur

Tentamen van Wiskunde B voor CiT (151217) Tentamen van Statistiek voor BIT (153031) Vrijdag 27 januari 2006 van 9.00 tot uur Kenmerk: TW6/SK/5/kp Datum: 9--6 Tentamen van Wskunde B voor CT (57) Tentamen van Statstek voor BIT (533) Vrjdag 7 januar 6 van 9. tot. uur Dt tentamen bestaat ut 9 opgaven, tabellen en formulebladen.

Nadere informatie

1 Rekenen met complexe getallen

1 Rekenen met complexe getallen Rekenen met complexe getallen In dt hoofdstuk leer je rekenen met complexe getallen. Ze vormen een getallensysteem dat een utbredng s van het bekende systeem van de reële getallen. Je leert ook hoe je

Nadere informatie

Les 2 / 3: Meetschalen en Parameters

Les 2 / 3: Meetschalen en Parameters Les / : Meetschalen en Parameters I Theore: A. Algemeen : V s de verzamelng van alle mogeljke utkomsten van een toevallg eperment. Een veranderljke of stochastek s een afbeeldng G de aan elke utkomst w

Nadere informatie

Inhoud. Aanbevolen literatuur

Inhoud. Aanbevolen literatuur Inhoud Les 1 Beschrijvende statistiek....................... 3 1.1 Representatie van gegevens................. 3 1. Grafische representatie van gegevens............ 6 1.3 Typische waarden......................

Nadere informatie

Statistiek voor Informatiekunde (I00099)

Statistiek voor Informatiekunde (I00099) Statistiek voor Informatiekunde (I99) Bernd Souvignier voorjaar 5 Inhoud Les 1 Beschrijvende statistiek....................... 1.1 Representatie van gegevens................. 1. Klassen............................

Nadere informatie

Verslag Regeltechniek 2

Verslag Regeltechniek 2 Verslag Regeltechnek 2 Door: Arjan Koen en Bert Schultz Studenten Werktugbouw deeltjd Cohort 2004 Inhoudsogave Inledng blz. 3 2 Oen lus eerste-orde systeem blz. 4 3 Gesloten lus P-geregeld eerste orde

Nadere informatie

Statica in een notendop

Statica in een notendop Statca n een notendop Systematsche Probleem Analyse (SPA) 1. Gegevens: Lees de vraag goed door. Maak een schematsche tekenng van het probleem. 2. Gevraagd: Schrjf puntsgewjs alle dngen op waar naar gevraagd

Nadere informatie

PROEFEXAMEN SOCIALE STATISTIEK

PROEFEXAMEN SOCIALE STATISTIEK PROEFEXAMEN SOCIALE STATISTIEK November 0 REEKS Naam:... Score /0 Voornaam:... Studerchtng:. Studentennummer:... Studerchtng (laatste) mddelbaar:. Uren wskunde per week (laatste mddelbaar):. Enkele belangrjke

Nadere informatie

Onderzoeksmethoden: Statistiek 2

Onderzoeksmethoden: Statistiek 2 Theoretche kanverdelngen Onderzoekmethoden: Stattek Worden bepaald door een wkundge funkte Geven theoretche ba Worden gebrukt om hypothee te teten Worden gebrukt om te modelleren Marjan van den Akker 1

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Examen Neurale Netwerken (2L490), op woensdag 28 juni 2006, uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Examen Neurale Netwerken (2L490), op woensdag 28 juni 2006, uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Facultet Wskunde en Informatca Examen Neurale Netwerken 2L49, op woensdag 28 jun 26, 9. - 2. uur. Alle antwoorden denen dudeljk geformuleerd en gemotveerd te worden..

Nadere informatie

anwb.nl/watersport, de site voor watersporters

anwb.nl/watersport, de site voor watersporters Het s net zo gebrukeljk om voor klene jachten een sleepproef te laten utvoeren. Zo'n proef s duur en daardoor vaak net rendabel. Toch loont een sleepproef de moete. Aan de hand ervan kunnen bj voorbeeld

Nadere informatie

Methode met ladder operatoren deel 2

Methode met ladder operatoren deel 2 Methode met ladder operatoren deel We zullen de ladder operatoren gebruken om egenschappen van de egenfunctes van de Hamlonaan te bepalen. Hermtsch geconjugeerde We defnëren de hermtsche geconjugeerde

Nadere informatie

Gemeentefonds verevent minder dan gedacht

Gemeentefonds verevent minder dan gedacht Gemeentefonds verevent mnder dan gedacht Maarten A. Allers Drecteur COELO en unverstar hoofddocent aan de Rjksunverstet Gronngen De rjksutkerng aan gemeenten wordt verdeeld op bass van utgangspunten de

Nadere informatie

Onderzoeksmethoden en techieken I

Onderzoeksmethoden en techieken I Naam:... Voornaam:... Studejaar en -rchtng:... MEERKEUZEVRAGEN Onderzoeksmethoden en techeken I Examen september 000 KLAD: omcrkel op het opgaven formuler telkens HET BESTE antwoord, er s telkens 1 best

Nadere informatie

ALCOHOLKENNIS DOORGESPEELD

ALCOHOLKENNIS DOORGESPEELD Al cohol kenn s door gespeel d Eval uat eal cohol voor l cht ng doorpeer sopf est val s ALCOHOLKENNIS DOORGESPEELD Evaluate alcoholvoorlchtng door peers op festvals December 2005 INTRAVAL Gronngen-Rotterdam

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Correlatie: exploratieve methoden. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Correlatie: exploratieve methoden. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Correlate: eplorateve methoden Werktekst voor de leerlng Prof. dr. Herman Callaert Hans Bekaert Cecle Goethals Les Provoost Marc Vancaudenberg Statstek voor het secundar onderwjs

Nadere informatie

C.P. van Splunter. Grote afwijkingen. Bachelorscriptie, 21 april 2010. Scriptiebegeleiders: prof.dr. F. Redig prof.dr. E.A.

C.P. van Splunter. Grote afwijkingen. Bachelorscriptie, 21 april 2010. Scriptiebegeleiders: prof.dr. F. Redig prof.dr. E.A. C.P. van Splunter Grote afwjkngen Bachelorscrpte, 2 aprl 200 Scrptebegeleders: prof.dr. F. Redg prof.dr. E.A. Verbtsky Mathematsch Insttuut, Unverstet Leden Inhoudsopgave Inledng 3 2 Bovengrens 6 3 Ondergrens

Nadere informatie

Digital Image Processing

Digital Image Processing Dgtal Image Processng 3 November 006 Dr. r. Aleksandra Pzurca Prof. Dr. Ir. Wlfred Phlps Aleksandra.Pzurca @teln.ugent.be Tel: 09/64.3415 UNIVERSITEIT GENT Telecommuncate en Informateverwerkng Spatale

Nadere informatie

Gegevensverwerving en verwerking

Gegevensverwerving en verwerking Gegevensverwervng en verwerkng Staalname Bblotheek - aantal stalen/replcaten - grootte staal - apparatuur - beschrjvend - varante-analyse Expermentele setup Statstek - correlate - regresse - ordnate -

Nadere informatie

MEERJAREN OPBRENGSTEN VO 2013 TOELICHTING

MEERJAREN OPBRENGSTEN VO 2013 TOELICHTING MEERJAREN OPBRENGSTEN VO 2013 TOELICHTING Utrecht, me 2013 INHOUD 1 Algemeen 5 2 Het opbrengstenoordeel 7 3 Rendement onderbouw 8 4 Van 3e leerjaar naar dploma (rendement bovenbouw) 11 5 Gemddeld CE-cjfer

Nadere informatie

5.1 Elektrische stroom en spanning

5.1 Elektrische stroom en spanning 5. Elektrsche stroom en spannng Opgave a lleen elektronen kunnen zch verplaatsen en net de postef geladen kern. Omdat de ladng van emer postef s, s hj negatef geladen elektronen kwjtgeraakt. Je erekent

Nadere informatie

Waardeoverdracht. Uw opgebouwde pensioen meenemen naar uw nieuwe pensioenuitvoerder

Waardeoverdracht. Uw opgebouwde pensioen meenemen naar uw nieuwe pensioenuitvoerder Waardeoverdracht Uw opgebouwde pensoen meenemen naar uw neuwe pensoenutvoerder In deze brochure 3 4 5 6 Gefelcteerd! Een neuwe baan Wel of net kezen voor waardeoverdracht? Vergeljk de regelngen Hoe waardevast

Nadere informatie

Stochastische loadflow. Beschrijving algoritme van de stochastische loadflow.

Stochastische loadflow. Beschrijving algoritme van de stochastische loadflow. Stochastsche loadflow. Beschrjvng algortme van de stochastsche loadflow. 0 97 pmo 6-0-00 Phase to Phase BV Utrechtseweg 30 Postbus 00 6800 AC Arnhem T: 06 356 38 00 F: 06 356 36 36 www.phasetophase.nl

Nadere informatie

officiële bijdrage aan het CMMI. Jan Jaap Cannegieter

officiële bijdrage aan het CMMI. Jan Jaap Cannegieter Nederlandse bjdrage aan offcële CMM CMMI-s De Nederlandse stchtng SPIder heeft s ontwkkeld voor het CMMI, verschllende routes door het CMMI voor het oplossen van bepaalde problemen of het halen van bepaalde

Nadere informatie

Bronnen & Methoden bij Marktscan medischspecialistische zorg 2015

Bronnen & Methoden bij Marktscan medischspecialistische zorg 2015 Bronnen & Methoden bj Marktscan medschspecalstsche zorg 2015 Hoofdstuk 2: Wachttjden voor medsch specalstsche zorg Ontwkkelng van wachttjden Voor de wachttjdanalyses s gebruk gemaakt van gegevens afkomstg

Nadere informatie

1 Gedeelde differenties

1 Gedeelde differenties Inhoudsopgave Gedeelde dfferentes Verband met de nterpolerende veelterm 2 Een explcete formule 2 3 Verband met afgeleden 3 4 Verband met de nterpolerende veelterm van Newton 4 5 Productformule (formule

Nadere informatie

Samenvatting Farmaco-epidemiologie april 2011

Samenvatting Farmaco-epidemiologie april 2011 Hoofdstuk 1 Epdemologe bestudeert de frequente van zekte. Het bestuderen van de frequente van zekte s geen doel op zch. De frequente wordt onderzocht n het kader van etologsche (oorzaak), dagnostsche,

Nadere informatie

Uitwerkingen tentamen Statistiek 2 voor TeMa Maandag 08-03-2004.

Uitwerkingen tentamen Statistiek 2 voor TeMa Maandag 08-03-2004. Utwerkngen tentamen Statstek voor TeMa Maandag 8-3-4. Opgave a. Model: Y = β + β* x+ ε met ε ~ Nd(, σ ) Y s het energeverbruk, x s de omgevngstemperatuur.. Volgens het scatterplot n de bjlage ljkt er sprake

Nadere informatie

De Waarde van Toekomstige Kasstromen

De Waarde van Toekomstige Kasstromen De Waarde van Toekomstge Kasstromen De kosten van onderpandmnmalserng Jeroen Kerkhof, VAR Strateges BVBA Introducte Voor de fnancële crss hadden fnancële ngeneurs op bass van een aantal redeljke assumptes

Nadere informatie

Inhoudstafel Regressie: exploratieve methoden

Inhoudstafel Regressie: exploratieve methoden Regresse Nascholng voor leerkrachten Prof. dr. Herman Callaert Hans Bekaert Cecle Goethals Les Provoost Marc Vancaudenberg http://www.uhasselt.be/lesmateraal-statstek Inhoudstafel Regresse: explorateve

Nadere informatie

Rekenen met rente en rendement

Rekenen met rente en rendement Rekenen met rente en rendement Woekerpols? Lenng met lokrente? Er wordt met de beschuldgende vnger naar banken en verzekeraars gewezen de op hun beurt weer terugwjzen naar de consument: Deze zou te weng

Nadere informatie

De Collegereeks Statistiek. Stel je wilt wat weten over. Complexe begrippen: construct. Homogeniteit. Verder met. Statistiek

De Collegereeks Statistiek. Stel je wilt wat weten over. Complexe begrippen: construct. Homogeniteit. Verder met. Statistiek Statstek en Bt hd Informatekunde Unverstet Utrecht Dr. H. Prüst De Collegereeks Statstek (37): Descrpteve statstek (H 1,,3) (HP) 3(38): Score & Kans verdelngen (H 4, 5) (HP) 4(39): Statstsche toetsng a.h.v.

Nadere informatie

Lucia de B. Gonny Hauwert 12 september 2007

Lucia de B. Gonny Hauwert 12 september 2007 Luca de B Gonny Hauwert 12 september 2007 1 Inhoudsopgave 1 Inledng 2 2 Berekenngen voor de rechtszaak 3 2.1 Opmerkngen over deze methode 5 3 Statstsche toetsen 6 3.1 Besprekng van de toetsen 7 3.2 Vergeljkngen

Nadere informatie

Standaardisatiemethoden. 9 10Abby Israëls. Statistische Methoden (10003)

Standaardisatiemethoden. 9 10Abby Israëls. Statistische Methoden (10003) Standaardsatemethoden 9 10Abby Israëls Statstsche Methoden (10003) Den Haag/Heerlen, 2010 Verklarng van tekens. = gegevens ontbreken * = voorlopg cfer ** = nader voorlopg cfer x = gehem = nhl = (nden voorkomend

Nadere informatie

aantallen in van de prooiresten gewicht min of meer mogelijk, doch als de gebitsmaten van een groot aantal gevangen dat de gewichtsfaktor

aantallen in van de prooiresten gewicht min of meer mogelijk, doch als de gebitsmaten van een groot aantal gevangen dat de gewichtsfaktor 39 Verwerk ng van voedselgegevens bjulenen stootvogels (het gebruk van prooeenheden en/of aantallen n voedseltabellen). Onlangs s zowel n De Peper als n De Fts een artkel verschenen van de hand van F.J.

Nadere informatie

MRT/RT MKT/KT. Wormwielreductoren. www.triston.nl

MRT/RT MKT/KT. Wormwielreductoren. www.triston.nl MRT/RT MKT/KT Wormwelreductoren www.trston.nl Het s tjd voor Trston! Natuurljk wlt u dat uw producteproces soepel verloopt. Trston helpt. Want met de wormwelreductoren van Trston kest u voor langdurge

Nadere informatie

Onderzoeksmethoden en techieken I

Onderzoeksmethoden en techieken I Naam:... Voornaam:... Studejaar en -rchtng:... MEERKEUZEVRAGEN Onderzoeksmethoden en techeken I Examen september 2000 KLAD: omcrkel op het opgaven formuler telkens HET BESTE antwoord, er s telkens 1 best

Nadere informatie

Integere programmering voor cyclische personeelsplanning

Integere programmering voor cyclische personeelsplanning UNIVERSITEIT GENT FACULTEIT ECONOMIE EN BEDRIJFSKUNDE ACADEMIEJAAR 2011 2012 Integere programmerng voor cyclsche personeelsplannng Masterproef voorgedragen tot het bekomen van de graad van Master of Scence

Nadere informatie

3.7.3 Welke meetinstrumenten zijn geschikt voor het vastleggen van motorische vaardigheden?

3.7.3 Welke meetinstrumenten zijn geschikt voor het vastleggen van motorische vaardigheden? 3. Dagnostek 3.7. Hoe meet je verbeterng of verslechterng n het dageljks functoneren met betrekkng tot de mobltet (ztten, staan, lopen, verplaatsen) bj CP? 3.7.3 Welke meetnstrumenten zjn geschkt voor

Nadere informatie

Ondersteuning en hulp bij leren

Ondersteuning en hulp bij leren Ondersteunng en hulp bj leren g Studenten kunnen va www.hethkkendeheksje.nl (zonder n te loggen) de datasets downloaden de benodgd zjn voor het maken van de opgaven. g Docenten kunnen va de ste tentamenmateraal

Nadere informatie

Inhoud leereenheid 1. Van informatiemodel naar informatiesysteem. Introductie 15. Leerkern 16. Terugkoppeling 37 Uitwerking van de opgaven 37

Inhoud leereenheid 1. Van informatiemodel naar informatiesysteem. Introductie 15. Leerkern 16. Terugkoppeling 37 Uitwerking van de opgaven 37 Inhoud leereenhed 1 Van nformatemodel naar nformatesysteem Introducte 15 Leerkern 16 1 Wat s model-drven development? 16 1.1 MDD voor gegevensntenseve toepassngen 16 1.2 Systeemgenerate 16 1.3 Informate,

Nadere informatie

De Collegereeks Statistiek. Vandaag 0. Recapitulatie. Meetniveau van variabelen. Frequentieverdelingen in SPSS. Descriptieve maten Verhoudingsmaten

De Collegereeks Statistiek. Vandaag 0. Recapitulatie. Meetniveau van variabelen. Frequentieverdelingen in SPSS. Descriptieve maten Verhoudingsmaten 9//009 De Collegereek Stattek Stattek Hoorcollege Score en kan verdelngen dl Informatekunde Unvertet Utrecht Dr. H. Prüt (37): Decrpteve tattek (H 1,,3) (HP) 3(38): Score & Kan verdelngen (H 4, ) (HP)

Nadere informatie

~~i~il' 1025 VS Amsterdam. Geacht bestuur,

~~i~il' 1025 VS Amsterdam. Geacht bestuur, / - Mr. W. Nass Vrjstraat 2a Postbus 420 5600 AK Endhoven Tel 040-2445701 Fax 040-2456438 Advocatenkantoor Mr. W. Nass Het bestuur van de BOA. e-mal Neuwe Purrnerweg 12 na~kanooma.n 1025 VS Amsterdam nternet

Nadere informatie

7. Behandeling van communicatie en mondmotoriek

7. Behandeling van communicatie en mondmotoriek 7. Behandelng van communcate en mondmotorek 7.2. Slkstoornssen 7.2.3 Wat s de meerwaarde van enterale voedng (va PEG-sonde) ten opzcht van orale voedng bj knderen met CP met slkstoornssen wat betreft voedngstoestand,

Nadere informatie

1.1 Oplossingen. + 1 x ( ) Oplossing oefening 2.1. Oplossing oefening 2.2

1.1 Oplossingen. + 1 x ( ) Oplossing oefening 2.1. Oplossing oefening 2.2 . Oplossngen Oplossng oefenng.. De varabele geslacht s een dchotome nomnale varabele: nomnaal omdat het kenmerk ongeordend categorserend gemeten wordt en dchotoom omdat de veranderljke slechts twee nomnale

Nadere informatie

Inhoud leereenheid 1. Van informatiemodel naar informatiesysteem. Introductie 3. Leerkern 4. Terugkoppeling 25 Uitwerking van de opgaven 25

Inhoud leereenheid 1. Van informatiemodel naar informatiesysteem. Introductie 3. Leerkern 4. Terugkoppeling 25 Uitwerking van de opgaven 25 Inhoud leereenhed 1 Van nformatemodel naar nformatesysteem Introducte 3 Leerkern 4 1 Wat s model-drven development? 4 1.1 MDD voor gegevensntenseve toepassngen 4 1.2 Systeemgenerate 4 1.3 Informate, presentate

Nadere informatie

lus+ De klachtencommissie en de rol van de vertrouwenspersoon ongewenste omgangsvormen

lus+ De klachtencommissie en de rol van de vertrouwenspersoon ongewenste omgangsvormen De klachtencommsse en de rol van de vertrouwenspersoon ongewenste omgangsvormen Op het moment dat emand te maken krjgt met ongewenst gedrag zjn er verschllende mogeljkheden om dat ongewenst gedrag te stoppen.

Nadere informatie

effectief inzetten? Bert Dingemans

effectief inzetten? Bert Dingemans archtectuur Is meten weten? Kwaltateve en kwanttateve analyse n archtectuurmodellen Kwaltateve en kwanttateve analyses kunnen de denstverlenng van de enterprsearchtect verbeteren. Toch s de nzet van deze

Nadere informatie

i i Datzelfde aggregaat in een vorig jaar 0 stellen we voor door

i i Datzelfde aggregaat in een vorig jaar 0 stellen we voor door Bjlage 20A Groefactoren en ndces In deze bjlage gaan we deer n o enkele veelgebrukte rjs- en hoeveelhedsndces We belchten ook de kookrachtsartetswsselkoers, de toelaat om aggregaten tussen landen te vergeljken

Nadere informatie

Websites beoordeel je zo!

Websites beoordeel je zo! Webstes beoordeel je zo! Iedereen kan van alles op nternet zetten. Je kunt dus net zomaar alle nformate de je tegenkomt geloven. Hoe weet je of een webste goede nformate geeft en dus betrouwbaar s? Dat

Nadere informatie

TENTAMEN LINEAIRE ALGEBRA 2 maandag 9 januari 2006, Bij elke vraag dient een berekening of motivering worden opgeschreven.

TENTAMEN LINEAIRE ALGEBRA 2 maandag 9 januari 2006, Bij elke vraag dient een berekening of motivering worden opgeschreven. TENTAMEN LINEAIRE ALGEBRA maandag 9 januar 6, -3 Bj elke vraag dent een berekenng of motverng worden opgeschreven Beschouw de vectorrumte V = R 3 met de lneare deelrumten U = span{ } en W = {x = x R 3

Nadere informatie

is gelijk aan de open-klemmen spanning van het netwerk. De impedantie Z th

is gelijk aan de open-klemmen spanning van het netwerk. De impedantie Z th 3 Ladngseffecten treden ten eerste op wanneer een gegeven element ut het systeem de karakterstek van een vorg element beïnvloedt of wjzgt. Op haar beurt kunnen de egenschappen van dt element gewjzgd worden

Nadere informatie

Hoofdstuk 7 - Complexe getallen

Hoofdstuk 7 - Complexe getallen Moderne wskunde 9e edte vwo D deel. Soorten getallen ladzjde a Ja. Ja. a 0en 0 d Nee, jvooreeld s geen natuurljk getal. d Nee, jvooreeld : s geen natuurljk getal. e De som, het vershl en het produt van

Nadere informatie

Een levensloopregeling voor software

Een levensloopregeling voor software Een levensloopregelng voor Neuwe benaderng - en nformatebevelgng De gebruker van een nformatesysteem streeft naar contnuïtet. De ongestoorde werkng van s hervoor essenteel. Maar wat weet de gebruker van

Nadere informatie

Verwerking met extrapolatie van de stroming naar het wateroppervlak

Verwerking met extrapolatie van de stroming naar het wateroppervlak Ingeneursbureau S.D.Kammnga BV Stromngsmetngen op de Boven-Zeeschelde bj de zeeslus te Hngene te Antwerpen op 17 november 1997 Verwerkng met extrapolate van de stromng naar het wateroppervlak Ir. S.D.Kammnga

Nadere informatie

Lang leve de life events?

Lang leve de life events? Lang leve de lfe events? Resultaten van gebrukersonderzoek naar navgate op webstes In een pogng het gebruksgemak van webstes te vergroten passen ontwerpers steeds vaker een webstestructuur toe de gebaseerd

Nadere informatie

Meeneemset Herkansing Deterrninanten-3:Fysische Factoren dd

Meeneemset Herkansing Deterrninanten-3:Fysische Factoren dd ~ Meeneemset Herkansng Deterrnnanten-3:Fyssche Factoren dd. 23-07-2009... Vraag 1. Statca Roland doel aan capoera Capoera l

Nadere informatie

flits+ Geen idee Ongeveer de helft? Wanneer is de vraag... Uh..? Ik weet het! bpfhibin.nl Ik verkoop mijn huis Wie dan leeft... Zien we dan wel weer

flits+ Geen idee Ongeveer de helft? Wanneer is de vraag... Uh..? Ik weet het! bpfhibin.nl Ik verkoop mijn huis Wie dan leeft... Zien we dan wel weer pensoen Hoeveel pensoen denk je dat je krjgt? Wat ontvang je egenljk als je met pensoen gaat? 5 prangende vragen aan drecteur Rob Braaksma Verantwoordngsorgaan De regelng n nfographc Feten, cjfers en wetenswaardgheden

Nadere informatie

Kengetallen E-38 Pseudo-records

Kengetallen E-38 Pseudo-records Kengetallen E-38 Pseudo-records Inledng In ecember 14 heeft ES een neuwe methode voor fokwaardeschattng geïntroduceerd: het pseudo-record systeem (het PSR systeem). In dt systeem wordt alle nformate (ouders,

Nadere informatie

Dubbelplaneten. Vakantiecursus

Dubbelplaneten. Vakantiecursus Raner Kaenders Dubbelplaneten AW 5/8 nr. 4 december 2007 287 Raner Kaenders Semnar für Mathematk und hre Ddaktk Mathematsch-aturwssenschaftlche Fakultät Unverstät zu Köln Gronewaldstrasse 2 5093 Köln r.kaenders@un-koeln.de

Nadere informatie

- X i ~ kansverdeling: N(µ A, σ 2 ) Y i ~ N(µ B, σ 2 ) (onafhankelijk) - X i ~ kansverdeling: F A (u)=p(x<u) Y i ~

- X i ~ kansverdeling: N(µ A, σ 2 ) Y i ~ N(µ B, σ 2 ) (onafhankelijk) - X i ~ kansverdeling: F A (u)=p(x<u) Y i ~ Help! Statstek! Statstsche modellen: overzcht Doel: Informeren over statstek n klnsch onderzoek. Tjd: Doorlopende sere laagdrempelge lezngen, voor edereen vrj toegankeljk. Derde woensdag n de maand, 1-13

Nadere informatie

VOOR EEN GOED RESULTAAT IS HET ABSOLUUT NOODZAKELIJK DEZE LEGINSTRUCTRIES NAUWKEURIG TE VOLGEN.

VOOR EEN GOED RESULTAAT IS HET ABSOLUUT NOODZAKELIJK DEZE LEGINSTRUCTRIES NAUWKEURIG TE VOLGEN. VOOR EEN GOED RESULTAAT IS HET ABSOLUUT NOODZAKELIJK DEZE LEGINSTRUCTRIES NAUWKEURIG TE VOLGEN. - 8h -% RH www.quck-step.com www.quck-step.com Cement

Nadere informatie

Ontvlechting van ICT vereist nieuwe samenwerking

Ontvlechting van ICT vereist nieuwe samenwerking Behoefte aan Archtectuur Lfecycle Management Ontvlechtng van ICT verest neuwe samenwerkng Bnnen de ICT s sprake van verzulng van zowel de systemen als het voortbrengngsproces. Dt komt doordat de ICT n

Nadere informatie

Tentamen Econometrie 1, 4 juli 2006, uur Dit tentamen duurt 2 uur! Toiletbezoek is niet toegstaan.

Tentamen Econometrie 1, 4 juli 2006, uur Dit tentamen duurt 2 uur! Toiletbezoek is niet toegstaan. Tentamen Econometre 1, 4 jul 006, 14.00-16.00 uur Dt tentamen duurt uur! Toletbezoek s net toegstaan. De utslag komt uterljk na 15 werkdagen op Blackboard. Desgewenst kunt u daarna uw werk nzen bj de docent.

Nadere informatie

Zwaartepunten, traagheidsmomenten en verdeelde belasting

Zwaartepunten, traagheidsmomenten en verdeelde belasting Zwaartepunten, traagedsmomenten en verdeelde belastng Opgeloste Vraagstukken 6.1 Een dunne draad lgt n de dredmensonale rumte en bestaat ut een kwadrant AB van een crkel samen met twee recte stukken BC

Nadere informatie

LOCATIEBEPALING VAN EEN ROBOT MET BEHULP VAN LANDMARKS IN GRIJSBEELDEN

LOCATIEBEPALING VAN EEN ROBOT MET BEHULP VAN LANDMARKS IN GRIJSBEELDEN LOCATIEBEPALING VAN EEN ROBOT MET BEHULP VAN LANDMARKS IN GRIJSBEELDEN Naam : Studerchtng : Facultet : Afstudeerbegeleder : Locate afstudeerproject : Datum : Kernwoorden : Sander Beekmans Kunstmatge Intellgente

Nadere informatie

BIJLAGE 14: BEREKENING VAN HET SPOTBEREIK VIA HET KANSMODEL

BIJLAGE 14: BEREKENING VAN HET SPOTBEREIK VIA HET KANSMODEL BIJLAGE 14: BEREKENING VAN HET SPOTBEREIK VIA HET KANSMODEL 30-12-2013 1. Inledng Verschllende vormen van analyse op dezelfde data denen voor een bepaald resultaattype dezelfde waarden op te leveren. En

Nadere informatie

Hoveniers. Zie www.ctgb.nl, Bestrijdingsmiddelendatabank.

Hoveniers. Zie www.ctgb.nl, Bestrijdingsmiddelendatabank. Keuze van het mddel Hoveners # 1a OVER Keuze van het mddel VOOR Werkgever Sector Hoveners Geen net-toegelaten bestrjdngsmddel gebruken Gebruk een mddel dat s toegelaten n Nederland. Ze www.ctgb.nl, Bestrjdngsmddelendatabank.

Nadere informatie

Websiteoptimalisatie aan de hand van online zoek en klikgedrag analyse

Websiteoptimalisatie aan de hand van online zoek en klikgedrag analyse Websteoptmalsate aan de hand van onlne zoek en klkgedrag analyse BWI Werkstuk Martjn Moest Websteoptmalsate aan de hand van onlne zoek en klkgedrag analyse BWI Werkstuk Auteur: Martjn Moest Begeleder:

Nadere informatie

Applicatieportfoliomanagement

Applicatieportfoliomanagement governance Applcateportfolomanagement Governance zet applcatebeheer op scherp Nu applcates steeds nauwer verweven zjn met bedrjfsprocessen, s een gestructureerde aanpak van het applcatebeheer noodzakeljk,

Nadere informatie

Combinatoriek groep 2

Combinatoriek groep 2 Combatorek groep Tragsweeked ovember 013 Theore De opgave deze hadout hebbe allemaal wat te make met éé of meer va oderstaade oderwerpe Belagrjk bj het make va opgave s om et allee de theore de je ket

Nadere informatie

Is de app een onmisbaar onderdeel van de les of het leerproces? nee. Is de leerling/student 16 jaar of ouder?

Is de app een onmisbaar onderdeel van de les of het leerproces? nee. Is de leerling/student 16 jaar of ouder? Beslsboom onderwjsapps Deze beslsboom helpt je bj het maken van de afwegng of (en onder welke voorwaarden) je een onderwjsapp kunt gebruken bnnen jouw les. START HIER het onderzoek naar je app Is de app

Nadere informatie

Minix 3. Andrew Tanenbaum

Minix 3. Andrew Tanenbaum Mnx 3 Velg en betrouwbaar besturngssysteem Mnx 3 s een neuw open source besturngssysteem voor de pc. Het systeem s klen van opzet en heeft een neuwe, modulare opbouw waardoor het net kwetsbaar s voor veel

Nadere informatie

STUDIEBOEK. wiskunde. Meester Kenneth Zesde leerjaar meesterkennethspitaels@gmail.com www.meesterkenneth.bevegem.be

STUDIEBOEK. wiskunde. Meester Kenneth Zesde leerjaar meesterkennethspitaels@gmail.com www.meesterkenneth.bevegem.be STUDIEBOEK Meester Kenneth Zesde leerjaar meesterkennethsptaels@gmal.com wskunde Breuken, procenten en kommagetallen Klenste gemeenschappeljk veelvoud Grootste gemeenschappeljke deler Romense cjfers Deelbaarhed

Nadere informatie

Middenkaderfunctionaris bouw & infra (Netwerkschool)

Middenkaderfunctionaris bouw & infra (Netwerkschool) Mddenkaderfunctonars bouw & nfra (Netwerkschool) MBO College voor Bouw, Infra & Intereur Door ondernemend te zjn krjg k meer verantwoordeljkhed. 2013-2014 BOL Nveau 4 Thorbeckelaan 184 Almelo Crebo: 22012

Nadere informatie

Hoe de computer een glimlach kan waarnemen

Hoe de computer een glimlach kan waarnemen user nterface Facal Acton Codng System Hoe de computer een glmlach kan waarnemen De ontwkkelng van een geautomatseerd systeem dat menseljke gezchtsutdrukkngen kan herkennen en nterpreteren s een grote

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN

TECHNISCHE UNIVERSITEIT EINDHOVEN TECHNISCHE UNIVERSITEIT EINDHOVEN Faultet Tehnshe Natuurkunde Tentamen Golven & Opta 3AA70/Opta 3NA70 Dnsdag 0 augustus 00 van 9.00 tot.00 uur Dt tentamen bestaat ut 5 vraagstukken met eder deelopgaven

Nadere informatie

Toelichting advies gemeenteraad bij aanvraag aanwijzing als lokale publieke media-instelling

Toelichting advies gemeenteraad bij aanvraag aanwijzing als lokale publieke media-instelling B000012403 25 ĩ O Toelchtng adves gemeenteraad bj aanvraag aanwjzng als lokale publeke meda-nstellng Ì...Ï 1. Algemeen De wetgever heeft gekozen voor een s ys teem waarbj per gemeente, voor de termjn van

Nadere informatie

Vaker een trein, da s pas fijn!?

Vaker een trein, da s pas fijn!? Vaker een tren, da s pas fjn!? Hoogfrequent spoorvervoer beschouwd vanut de rezger Janneke Tax DHV janneke.tax@dhv.nl Elske Olthof 4Infra elske.olthof@4infra.nl Bjdrage aan het Colloquum Vervoersplanologsch

Nadere informatie

Onderhoud en beheer van infrastructuur voor goederenvervoer

Onderhoud en beheer van infrastructuur voor goederenvervoer CE Oplossngen voor mleu, econome en en technologe Oude Oude Delft Delft 180 180 2611 HH Delft tel: tel: 015 0152 2150 150 150 fax: 015 2 150 151 fax: 015 2 150 151 e-mal: ce@ce.nl webste: e-mal: ce@ce.nl

Nadere informatie

w 73 »EFSTATIŒN VOOR DE GROENTEN- EN FRUITTEELT ONDER GLAS, te NAALDWIJK. Verslag andijvierassenproef onder staand glas,

w 73 »EFSTATIŒN VOOR DE GROENTEN- EN FRUITTEELT ONDER GLAS, te NAALDWIJK. Verslag andijvierassenproef onder staand glas, cb Bblotheek Proefstaton Naaldwjk 06 w 73»EFSTATIŒN VOOR DE GROENTEN- EN FRUITTEELT ONDER GLAS, te NAALDWIJK. Verslag andjverassenproef onder staand glas,956-957. door : W.P.van Wnden Naaldwjk,958. Proefstaton

Nadere informatie

Logica voor Informatica

Logica voor Informatica Logca voor Informatca 11 Bewjzen n de predkatenlogca Wouter Swerstra Unversty of Utrecht 1 Natuurljke deducte Alle afledngsregels voor propostelogca gelden ook voor predkaten logca Neuwe afledngsregels

Nadere informatie

Forse besparing op telefonie

Forse besparing op telefonie KleurRjk dgtale neuwsbref voor medewerkers van Koraal Groep - februar 2015 Verder n deze neuwsbref: The Thunderbes maken razendsnel naam op nternet Forse besparng op telefone RvB en RvT bezoeken Berkenhofcollege

Nadere informatie

I I f I I I I I I i i i i i i i

I I f I I I I I I i i i i i i i f Mnstere van Verkeer en Waterstaat Drectoraat-Generaal Rjkswaterstaat Denst Weg- en Waterbouwkunde Dynamsch traxaalonderzoek op asfalt Onderzoek op mengsels DAB /16 en ZOAB /16 A \r> f f f C.' ur B DO

Nadere informatie

De kloof: welke kennis heeft een opdrachtgever nodig?

De kloof: welke kennis heeft een opdrachtgever nodig? projectmanagement Goed opdrachtgeverschap De kloof: welke kenns heeft een opdrachtgever nodg? Een van de redenen waarom projecten net succesvol zjn s de kloof tussen opdrachtgever en opdrachtnemer. Om

Nadere informatie

Zo krijg je wél grip op IT-investeringen

Zo krijg je wél grip op IT-investeringen T-servcemanagement Zo krjg je wél grp op T-nvesterngen ntegrate van applcate- en projectportfolomanagement Met één druk op de knop een overzcht genereren van alle T-projecten en bjbehorende applcates (of

Nadere informatie

Automatic-schakelaar Komfort Gebruiksaanwijzing

Automatic-schakelaar Komfort Gebruiksaanwijzing opzetstuk Systeem 2000 Art. nr.: 0661 xx / 0671 xx Inhoudsopgave 1. Velghedsnstructes 2. Functe 2.1. Werkngsprncpe 2.2. Detecteveld verse met 1,10 m lens 2.3. Detecteveld verse met 2,20 m lens 3. Montage

Nadere informatie

Knik en de Eurocode 3

Knik en de Eurocode 3 Staltet van het evenwcht Knk en de Voorschrten Knk en de Eurocode 3 Bj het dmensoneren van een constructe op knk wordt n de Eurocode 3 utgegaan van een toets n de uterste grenstoestand waarj de rekenwaarde

Nadere informatie