ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

Maat: px
Weergave met pagina beginnen:

Download "ALGEMENE STATISTIEK. A.W. van der Vaart en anderen"

Transcriptie

1 ALGEMENE STATISTIEK A.W. van der Vaart en anderen

2 VOORWOORD Dit diktaat wordt gebruikt bij het vak Statistiek voor Natuurkunde. Het is een uittreksel van het boek Algemene Statistiek geschreven door A.W. van der Vaart en anderen. Enkele voorbeelden en paragrafen zijn later toegevoegd.

3 INHOUD 1. Inleiding Wat is statistiek? Beschrijvende versus Mathematische Statistiek Indeling van het boek Statistische Modellen Introductie Enkele voorbeelden Opgaven Verdelingsonderzoek Introductie Univariate Steekproeven Samenhang Opgaven Schatters Introductie Maximum Likelihood-Schatters Momentenschatters Opgaven Toetsen Nulhypothese en Alternatieve Hypothese Toetsingsgrootheid en Kritiek Gebied Statistische Significantie Overschrijdingskansen Enkele Standaard Toetsen Opgaven Betrouwbaarheidsgebieden Introductie Pivots en Bijna-Pivots Maximum Likelihood-Schatters als Bijna-Pivots Opgaven Enkele Regressiemodellen Lineaire Regressie Niet-lineaire en niet-parametrische regressie Opgaven Appendix A: Elementen uit de Kansrekening Verdelingen Verwachting en variantie Standaard verdelingen Multivariate en marginale verdelingen Onafhankelijkheid en conditionering Limietstellingen en de normale benadering Opgaven

4 1 Inleiding 1.1 Wat is statistiek? Statistiek is de kunst van het modelleren van situaties waarin toeval een rol speelt, en van het trekken van conclusies op basis van data waargenomen in dergelijke situaties. Enkele typerende vragen die met behulp van statistiek kunnen worden beantwoord zijn: (i) Wat is de kans dat de Maas komend jaar buiten zijn oevers treedt? (ii) Is de nieuwe medische behandeling significant beter dan de oude? (iii) Wat is de onzekerheidsmarge in de voorspelling van het aantal zetels voor politieke partij A? Het beantwoorden van dergelijke vragen is verre van eenvoudig. De mathematische statistiek levert een algemeen kader waarmee de onderzoeksvraag beantwoord kan worden op basis van een opgesteld statistisch model. Binnen dit kader geeft het ook een oordeel over de kwaliteit van een gegeven antwoord. Om een geschikt statistisch model voor beschikbare data op te stellen, moet inzicht verkregen worden in de manier waarop de data verzameld zijn. Wanneer er nog geen data beschikbaar zijn, zullen die moeten worden verzameld. Het verkrijgen van relevante data vereist een goede, doordachte opzet. Zo zal bij een onderzoeksvraag die een bepaalde populatie betreft (bijvoorbeeld de populatie van patiënten met een hoge bloeddruk, stemgerechtigden, of eindprodukten van een productieproces), data verzameld moeten worden van een groep mensen die representatief is voor de gehele populatie. Ten slotte moet dan een geschikt statistisch model worden opgesteld voor de data. De vragen (i) (ii) (iii) corresponderen met de drie basis concepten in de statistiek: schatten, toetsen en betrouwbaarheidsgebieden, welke uitgebreid aan de orde komen in dit boek. De nadruk ligt in dit boek op de mathematische statistiek; het verzamelen van data, het vervolgens modelleren van de data, en beschrijvende statistiek komen slechts summier aan bod. 1.2 Beschrijvende versus Mathematische Statistiek Waarnemingen, meestal rijen getallen, kan men middelen, tabelleren, grafisch weergeven, of anderszins bewerken. De beschrijvende statistiek houdt zich bezig met het verzamelen en op inzichtelijke wijze samenvatten van data. Zulke beschrijvende statistiek, op grote schaal beoefend door bijvoorbeeld het Centraal Bureau voor de Statistiek, is van groot belang en kan heel interessant zijn. Beschrijvende statistiek wordt ook veel gebruikt bij het opstellen van statistische modellen (zie Hoofdstuk 2) en het controleren van modelaannames (zie Hoofdstuk 3). In dit boek komt zij echter nauwelijks aan de orde.

5 2 1: Inleiding De mathematische statistiek ontwikkelt en bestudeert methoden voor het analyseren van waarnemingen, die gebaseerd zijn op kansmodellen. Waarneming x wordt opgevat als een realisatie van een stochastische grootheid of vector X. In de waarschijnlijkheidsrekening wordt een precieze definitie gegeven van stochastische vectoren. Voor de statistiek is vooral van belang dat een stochastische vector een kansverdeling bezit. Deze kan worden vastgelegd door een verdelingsfunctie of kansdichtheid. In de statistiek willen we op grond van de realisatie x de ware kansverdeling van X bepalen. Op grond van kennis van die ware kansverdeling kunnen we vervolgens nieuwe uitkomsten voorspellen, of oude uitkomsten verklaren. 1.3 Indeling van het boek De drie kernpunten van de mathematische statistiek zijn schatten, toetsen en het construeren van betrouwbaarheidsgebieden. Deze onderwerpen komen achtereenvolgens aan de orde in de Hoofdstukken 4, 5 en 6. Deze concepten maken gebruik van een statistisch model voor de data, waarvan in Hoofdstuk 2 de definitie en een aantal voorbeelden worden gegeven. Enkele technieken uit de beschrijvende statistiek die hulp kunnen bieden bij het opstellen en valideren van statistische modellen worden besproken in Hoofdstuk 3. In Hoofdstuk 7 worden enkele regressiemodellen die in de praktijk veel gebruikt worden beschreven. De theorie uit de voorgaande hoofdstukken wordt hierin toegepast om onbekende modelparameters te schatten, te toetsen en betrouwbaarheidsintervallen voor deze parameters op te stellen. In Appendix 8 wordt een aantal elementen uit de kansrekening behandeld die van belang zijn voor het begrip van de stof in het boek.

6 2 Statistische Modellen 2.1 Introductie In zekere zin is de richting van de statistiek precies de omgekeerde van die van de waarschijnlijkheidsrekening: de uitslagen van een experiment zijn waargenomen, maar het onderliggende kansmodel is (deels) onbekend en dient uit de uitslagen te worden afgeleid. Uiteraard is de experimentele situatie niet geheel onbekend. Alle bekende informatie wordt gebruikt om een zo goed mogelijk statistisch model te construeren. Een formele definitie van een statistisch model is als volgt. Definitie 2.1. Een statistisch model is een collectie van kansverdelingen op een gegeven uitkomstenruimte. De interpretatie van een statistisch model is: de collectie van alle mogelijk geachte kansverdelingen voor de waarneming X. Hierin is X het geheel van de waarnemingen. Meestal is deze totale waarneming opgebouwd uit deelwaarnemingen en is X = (X 1,..., X n ) een stochastische vector. Wanneer de variabelen X 1,..., X n corresponderen met onderling onafhankelijke replicaties van hetzelfde experiment, dan spreken we van een steekproef. De variabelen X 1,..., X n zijn dan onderling onafhankelijk en identiek verdeeld en hun simultane verdeling wordt volledig bepaald door de marginale verdeling, die voor alle X i s gelijk is. In dat geval kan het statistische model voor X = (X 1,..., X n ) worden beschreven door een collectie van (marginale) kansverdelingen voor de deelwaarnemingen X 1,..., X n. 2.2 Enkele voorbeelden Het begrip statistisch model wordt pas echt duidelijk door voorbeelden. Zo eenvoudig als het wiskundige begrip statistisch model is uitgedrukt in de voorgaande definitie, zo ingewikkeld is het proces van statistisch modelleren van een gegeven praktijksituatie. Het resultaat van een statistisch onderzoek staat of valt echter met het construeren van een goed model. Voorbeeld 2.2 (Steekproef). Van een grote populatie bestaande uit N personen heeft een onbekende fractie p een bepaalde eigenschap A; deze fractie p willen we schatten. Het wordt als te veel moeite beschouwd om alle personen uit de populatie op eigenschap A te onderzoeken. In plaats daarvan kiest men aselect n personen uit de populatie, met teruglegging. Men neemt

7 4 2: Statistische Modellen (een realisatie van) de stochastische grootheden X 1,..., X n waar, waarbij X i = { 0 als de i e persoon A niet heeft, 1 als de i e persoon A wel heeft. Vanwege de manier waarop het experiment is ingericht (trekken met teruglegging) weten we a priori dat X 1,..., X n onderling onafhankelijk en alternatief verdeeld zijn. Dat laatste wil zeggen dat P(X i = 1) = 1 P(X i = 0) = p voor i = 1,..., n. Over de parameter p is geen a priori kennis beschikbaar, anders dan dat 0 p 1. De totale waarneming is hier de vector X = (X 1,..., X n ). Het statistische model voor X bestaat uit alle mogelijk geachte (simultane) kansverdelingen van X waarvan de coördinaten, X 1,..., X n, onderling onafhankelijk en alternatief verdeeld zijn. Voor iedere mogelijke waarde van p bevat het statistische model precies één kansverdeling voor X. Het ligt voor de hand de onbekende p te schatten met de fractie van het aantal personen met eigenschap A; dus met n 1 n x i waarbij x i gelijk is aan 1 of 0 al naar gelang de persoon eigenschap A wel of niet heeft. In Hoofdstuk 4 geven we een precieze betekenis aan schatten. In Hoofdstuk 6 gebruiken we het zojuist beschreven model om te kwantificeren hoever deze schatter van p zal afwijken, met behulp van een betrouwbaarheidsinterval. Bijna nooit zullen de populatie- en steekproeffractie immers precies gelijk zijn. Een betrouwbaarheidsinterval geeft een precieze betekenis aan de foutenmarge die vaak bij de uitslag van een opiniepeiling wordt vermeld. We zullen ook berekenen hoe groot die marge is wanneer we bijvoorbeeld 1000 personen uit de populatie onderzoeken, een gebruikelijk aantal bij een opiniepeiling onder de Nederlandse bevolking. Voorbeeld 2.3 (Meetfouten). Als een fysicus middels een experiment herhaaldelijk de waarde van een constante µ bepaalt, vindt hij niet steeds dezelfde waarde. Zie bijvoorbeeld Figuur 2.1, waarin de 23 bepalingen van de lichtsnelheid door Michelson in 1882 zijn weergegeven. De vraag is hoe de onbekende constante µ op grond van de waarnemingen, een rij getallen x 1,..., x n, geschat kan worden. Voor de waarnemingen in Figuur 2.1 zal deze schatting in de range liggen, maar de vraag is waar. Een statistisch model verleent houvast bij het beantwoorden van deze vraag. Kansmodellen zijn in deze context voor het eerst toegepast aan het eind van de 18 e eeuw, en de normale verdeling werd door Gauss rond 1810 ontdekt precies met het doel inzicht te geven in deze situatie Figuur 2.1. Grafische weergave van de resultaten van de 23 metingen van de lichtsnelheid door Michelson in De schaal op de horizontale as geeft de gemeten lichtsnelheid (in km per seconde) min km/sec. Als de metingen steeds onder dezelfde omstandigheden worden verricht, steeds onafhankelijk van het verleden, dan is het redelijk in het model op te nemen dat deze getallen realisaties zijn van onderling onafhankelijke en identiek verdeelde stochastische variabelen X 1,..., X n.

8 2.2: Enkele voorbeelden 5 De meetfouten e i = X i µ zijn dan eveneens stochastische variabelen. Een gebruikelijke aanname is dat de verwachte meetfout gelijk is aan 0, met andere woorden Ee i = 0, en dus is EX i = E(e i + µ) = µ. Aangezien wordt aangenomen dat X 1,..., X n onafhankelijke stochastische variabelen zijn en dezelfde kansverdeling hebben, ligt het model voor X = (X 1,..., X n ) vast als we een statistisch model voor X i kiezen. Voor X i postuleren we het model: alle kansverdelingen met eindige verwachting µ. Het statistische model voor X is dan: alle mogelijke kansverdelingen van X = (X 1,..., X n ) zodanig dat de coördinaten X 1,..., X n onderling onafhankelijk en identiek verdeeld zijn met verwachting µ. Fysici menen vaak meer a priori informatie te bezitten, en doen dan meer modelaannames. Ze veronderstellen bijvoorbeeld dat de meetfouten normaal verdeeld zijn met verwachting 0 en variantie σ 2, ofwel dat de waarnemingen X 1,..., X n normaal verdeeld zijn met verwachting µ en variantie σ 2. Het statistische model is dan gelijk aan: alle kansverdelingen van X = (X 1,..., X n ) zodanig dat de coördinaten onderling onafhankelijk en N(µ, σ 2 )-verdeeld zijn. Het uiteindelijke doel is iets te zeggen over µ. Bij het tweede model is meer bekend, dus moet het mogelijk zijn met meer zekerheid iets over µ te zeggen. Anderzijds is er natuurlijk meer kans dat het tweede model onjuist is, in welk geval de winst aan zekerheid slechts een schijnzekerheid is. In de praktijk blijken meetfouten vaak, maar niet altijd, bij benadering normaal verdeeld te zijn. Dergelijke normaliteit is te motiveren met behulp van de Centrale Limietstelling (zie Stelling 8.21) indien een meetfout kan worden opgevat als de som van een groot aantal onafhankelijke kleine meetfouten (met eindige varianties), maar kan niet op theoretische gronden worden bewezen. In Hoofdstuk 3 bespreken we technieken om normaliteit aan de data zelf te onderzoeken. Het belang van een precies omschreven model is onder andere dat het mogelijk maakt te bepalen wat een zinvolle manier is om µ uit de waarnemingen te schatten. Het middelen van x 1,..., x n ligt voor de hand. We kunnen laten zien dat dit het beste is (volgens een bepaald criterium) als de meetfouten inderdaad een normale verdeling volgen met verwachting 0. Zouden de meetfouten echter Cauchy-verdeeld zijn, dan is middelen desastreus. Dit blijkt uit Figuur 2.2. Deze toont voor n = 1, 2,..., 1000 het gemiddelde n 1 n x i van de eerste n realisaties x 1,..., x 1000 van een steekproef uit een standaard Cauchy-verdeling. De gemiddelden gedragen zich chaotisch en komen niet steeds dichter bij 0. Dit kan worden verklaard uit het opmerkelijke theoretische resultaat dat het gemiddelde n 1 n X i van onderling onafhankelijke standaard Cauchy-verdeelde stochastische grootheden X 1,..., X n zelf ook standaard Cauchy-verdeeld is. Middelen doet hier niets! Figuur 2.2. Cumulatieve gemiddelden (verticale as) van n = 1, 2,..., 1000 (horizontale as) realisaties uit de standaard Cauchy-verdeling. Voorbeeld 2.4 (Gepaarde en ongepaarde waarnemingen). De laatste jaren is het aantal verschillende diëten op de markt sterk toegenomen. Om de effectiviteit van diëten A en B met elkaar te vergelijken wordt een aselecte groep zwaarlijvige mensen geheel willekeurig in twee groepen ter grootte n en m verdeeld. De mensen in de eerste groep volgen dieet A en

9 6 2: Statistische Modellen de mensen in de tweede groep dieet B. Na een halfjaar tijd wordt genoteerd hoeveel elke deelnemer is afgevallen. Voor de groep mensen die dieet A volgden, geeft dat de waarnemingen x 1,..., x n, waarbij x i de gewichtsafname van de i e persoon in de eerste groep voorstelt. Voor de tweede groep worden de gewichtsafnames genoteerd met y 1,..., y m. De waarden x 1,..., x n kunnen worden gezien als de realisaties van n onderling onafhankelijke en identiek verdeelde stochastische grootheden X 1,..., X n. Als statistisch model van X i nemen we alle mogelijke continue kansverdelingen op R. Daarmee sluiten we bij voorbaat een eventuele toename in gewicht niet uit. Het statistische model voor X = (X 1,..., X n ) ligt nu vast. Eveneens kunnen y 1,..., y m worden gezien als realisaties van stochastische variabelen Y 1,..., Y m welke onderling onafhankelijk en gelijk verdeeld zijn. Het statistische model voor Y = (Y 1,..., Y m ) nemen we analoog aan het model voor X. Om de twee diëten met elkaar te vergelijken kunnen de gemiddelde gewichtsafnames in de twee groepen met elkaar worden vergeleken. Met deze opzet van het onderzoek worden twee datasets die op geen enkele manier afhankelijk van elkaar zijn vergeleken; immers de groep zwaarlijvigen was aselect getrokken en geheel willekeurig in twee groepen verdeeld. Soms heeft het zin om de data opzettelijk afhankelijk van elkaar te maken, bijvoorbeeld door mensen te paren. Een reden om waarnemingen te paren kan zijn dat er meer factoren zijn die mogelijk invloed hebben op de uitkomst, gewichtsafname in dit voorbeeld. Corrigeren voor het effect van deze factoren kan de onderzoeksresultaten betrouwbaarder maken. In dit voorbeeld hebben geslacht en begingewicht mogelijk invloed op de gewichtsafname. Om hier rekening mee te houden bij het vergelijken van de twee diëten, worden de personen in de steekproef in n groepjes van twee gedeeld; de mensen worden gepaard. De twee personen in elk paar zijn van hetzelfde geslacht en hebben ongeveer hetzelfde (begin)gewicht. Van elk groepje volgt één persoon dieet A en de andere persoon dieet B; wie welk dieet volgt, wordt geheel willekeurig bepaald. Na een halfjaar wordt gekeken hoeveel elke persoon is afgevallen; dit geeft de waarnemingsparen (x 1, y 1 ),..., (x n, y n ) waarbij x i de gewichtsafname van de persoon in het i e paar is die dieet A volgde en y i de gewichtsafname van de persoon in hetzelfde paar die dieet B volgde. Omdat we geïnteresseerd zijn in verschil in effectiviteit tussen de twee diëten, ligt het voor de hand om naar de verschillen z 1 = x 1 y 1,..., z n = x n y n te kijken en hier een statistisch model voor op te stellen in plaats van voor de gehele dataset. De verschillen z 1,..., z n worden weer gezien als realisaties van onafhankelijke en gelijk verdeelde stochastische grootheden Z 1,..., Z n. We nemen als (marginaal) statistisch model voor Z i alle mogelijke continue kansverdelingen op R. Omdat Z 1,..., Z n onderling onafhankelijk en identiek verdeeld zijn, ligt het statistische model van Z = (Z 1,..., Z n ) daarmee vast. Met deze tweede onderzoeksmethode worden personen gepaard op geslacht en begingewicht; we spreken dan van gepaarde waarnemingen. Bij de eerste methode was er geen sprake van paren en hadden we te maken met ongepaarde data. Een alternatief statistisch model dat ook rekening kan houden met het effect van geslacht en begingewicht is een zogenaamd regressiemodel. Een regressiemodel kan eenvoudig worden uitgebreid, zodat met nog meer factoren rekening kan worden gehouden. Het regressiemodel komt in Voorbeeld 2.5 en in Hoofdstuk 7 aan de orde. Voorbeeld 2.5 (Regressie). Lange ouders krijgen over het algemeen lange kinderen en korte ouders, korte kinderen. De lengte van de ouders hebben een grote voorspellende waarde voor de zogenaamde eindlengte van hun kinderen, de lengte als kinderen zijn uitgegroeid. Er zijn meer factoren die invloed hebben. Het geslacht van het kind speelt natuurlijk een belangrijke rol. Ook omgevingsfactoren als gezonde voeding en hygiëne zijn van belang. Door verbeterde voeding en een toegenomen hygiëne in de afgelopen 150 jaar hebben factoren die de lengtegroei belemmeren, als infectieziekten en ondervoeding, minder kans gekregen in de meeste Westerse landen. Hierdoor is de gemiddelde lichaamslengte toegenomen en worden kinderen elke generatie langer. De streeflengte (of target height ) van een kind is de eindlengte die kan worden verwacht op basis van de lengte van de ouders, het geslacht van het kind en de toename van lichaamslengte over generaties. De vraag luidt op welke manier de streeflengte afhangt van deze factoren. Definieer Y als de eindlengte die een kind zal bereiken, x 1 en x 2 als de lengte van de

10 2.2: Enkele voorbeelden 7 biologische vader en moeder, en x 3 als een indicator voor het geslacht (x 3 = 1 voor een meisje en x 3 = 1 voor een jongen). De streeflengte EY wordt gemodelleerd met een zogenaamd lineair regressiemodel EY = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3, waarbij β 0 de toename van de gemiddelde lichaamslengte per generatie is, β 1 en β 2 de mate waarin de lengte van de ouders invloed hebben op de streeflengte van hun nageslacht en β 3 is de afwijking van de streeflengte tot de gemiddelde volwassen lengte die wordt veroorzaakt door het geslacht van het kind. Aangezien mannen gemiddeld langer zijn dan vrouwen zal β 3 positief zijn. Bovenstaand lineair model zegt niets over individuele lengtes, maar enkel over dat van het nageslacht van ouders met een bepaalde lengte. Zo hebben twee broers dezelfde streeflengte; ze hebben immers dezelfde biologische ouders, hetzelfde geslacht en zijn geboren in dezelfde generatie. De werkelijke eindlengte Y kan geschreven worden als Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + e, waarbij e = Y EY de afwijking is van de werkelijke eindlengte Y ten opzichte van de streeflengte EY. De waarneming Y wordt ook wel de afhankelijke variabele genoemd en de variabelen x 1, x 2 en x 3 de onafhankelijke of verklarende variabelen. Veelal wordt verondersteld dat e normaal verdeeld is met verwachting 0 en onbekende variantie σ 2. De eindlengte Y heeft dan een normale verdeling met verwachting β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 en variantie σ 2. In Nederland wordt periodiek de lengtegroei van de jeugd in kaart gebracht. In 1997 vond de Vierde Landelijke Groeistudie plaats. Een onderdeel van het onderzoek betrof de relatie tussen de eindlengte van kinderen en de lengte van hun ouders. Om deze relatie te bepalen waren gegevens verzameld van jongvolwassenen en hun ouders. Dit leverde de volgende waarnemingen: (y 1, x 1,1, x 1,2, x 1,3 ),...(y n, x n,1, x n,2, x n,3 ) op, waar y i de lichaamslengte van de i e jongvolwassene is, x i,1 en x i,2 de lengte van de biologische ouders, en x i,3 een indicator voor het geslacht van de i e jongvolwassene. Veronderstel dat de waarnemingen onafhankelijke replicaties zijn uit bovenstaand lineair regressiemodel; dat wil zeggen dat gegeven x i,1, x i,2, en x i,3, Y i verwachting β 0 + β 1 x i,1 + β 2 x i,2 + β 3 x i,3 en variantie σ 2 heeft. De parameters (β 0, β 1, β 2, β 3 ) zijn onbekend en kunnen geschat worden op basis van de waarnemingen. Voor een eenvoudige interpretatie van het model is er voor gekozen om β 1 = β 2 = 1/2 te nemen, zodat de streeflengte gelijk is aan de gemiddelde ouderlengte gecorrigeerd voor het geslacht van het kind en de invloed van de tijd. De parameters β 0 en β 3 zijn gelijk aan de toename van de lichaamslengte in de afgelopen generatie en de helft van het gemiddelde lengteverschil tussen mannen en vrouwen. Deze parameters werden geschat met behulp van de kleinste kwadratenmethode. De parameter β 0 is geschat met 4.5 centimeter en β 3 met 6.5 centimeter. Het geschatte regressiemodel is dan gelijk aan (2.1) Y = (x 1 + x 2 ) + 6.5x 3 + e. In Figuur 2.3 is de lichaamslengte van 44 jongvolwassen mannen (links) en 67 jongvolwassen vrouwen (rechts) uitgezet tegen de gemiddelde lichaamslengte van hun ouders. De lijn is gelijk aan de geschatte regressielijn gevonden in de Vierde Landelijke Groeistudie. Het geschatte regressiemodel dat gevonden werd in de Vierde Landelijke Groeistudie, kunnen we gebruiken voor het voorspellen van de eindlengte van kinderen die nu geboren worden. We moeten dan wel veronderstellen dat de lengtetoename de komende generatie opnieuw 4.5 centimeter is en het gemiddelde lengteverschil tussen mannen en vrouwen gelijk aan 13 centimeter blijft. Op basis van het bovenstaande model zijn de streeflengten voor zonen en dochters van een man met een lengte van 180 centimeter en een vrouw van 172 centimeter gelijk aan ( )/ = 187 centimeter en ( )/2 6.5 = 174 centimeter. Bron: De data zijn verzameld door de afdeling Biologische Psychologie van de Vrije Universiteit in het kader van een onderzoek naar gezondheid, levensstijl en persoonlijkheid.

11 8 2: Statistische Modellen Figuur 2.3. Lengte van zonen (links) en dochters (rechts) uitgezet tegen de gemiddelde lichaamslengte van hun ouders. De lijn is de regressielijn gevonden in de Vierde Landelijke Groeistudie. In andere Europese landen worden andere modellen gebruikt. In Zwitserland, bijvoorbeeld, is de streeflengte gelijk aan EY = x 1 + x x 3. Nu is de streeflengte van de zonen en dochters van ouders met dezelfde lengte als in het voorbeeld hiervoor gelijk aan 184 en 171 centimeter. In het voorgaande voorbeeld bestaat er een lineair verband tussen de respons Y en de onbekende parameters β 0,..., β 3. In dat geval spreken we van een lineair regressiemodel. Het meest eenvoudige lineaire regressiemodel is het model waarbij er slechts één verklarende variabele is: Y = β 0 + β 1 x + e; het enkelvoudige lineaire regressiemodel (in tegenstelling tot meervoudige lineaire regressie als er meerdere verklarende variabelen zijn). In het algemeen spreken we van een regressiemodel als er een specifieke samenhang bestaat tussen de respons Y en waarnemingen x 1,..., x p : Y = f θ (x 1,..., x p ) + e waarbij f θ de relatie tussen de waarnemingen x 1,..., x p en de respons Y beschrijft, en de stochastische variabele e een niet-waarneembare meetfout is met verwachting nul en onbekende variantie σ 2. Indien de functie f θ bekend is op de eindig-dimensionale parameter θ na, dan spreken we van een parametrisch model. Het lineaire regressiemodel is hier een voorbeeld van; in dit model is θ = (β 0,..., β p ) R p+1 en f θ (x 1,..., x p ) = β 0 +β 1 x β p x p. Het regressiemodel ligt dan vast als waarden voor θ en σ 2 bekend zijn. De functie f θ kan echter ook onbekend zijn op de eindig dimensionale parameter θ en een oneindig dimensionale parameter na. We spreken dan van een semi-parametrisch model. Een voorbeeld van een semi-parametrisch model is het Cox-regressiemodel. In Hoofdstuk 7 komen verschillende regressiemodellen, waaronder het lineaire regressiemodel, uitvoerig aan de orde.

12 Opgaven 2: Opgaven 9 1. Veronderstel dat aselect n mensen uit een populatie worden gevraagd naar hun politieke voorkeur. Noteer het aantal personen in de steekproef met politieke voorkeur voor partij A met X. De fractie personen in de populatie met politieke voorkeur voor partij A is de onbekende kans p. Beschrijf een bijbehorend statistisch model. Bedenk een intuïtief redelijke schatting voor p. 2. Veronderstel dat aselect m + n patiënten met een hoge bloeddruk worden gekozen en geheel willekeurig worden verdeeld in twee groepen ter grootte van m en n. De eerste groep, de treatment group, krijgt een bepaald bloeddrukverlagend medicijn toegediend; de tweede groep, de control group, ontvangt een placebo. De bloeddruk van iedere patiënt wordt één week na het toedienen van het medicijn of de placebo gemeten. Dit geeft waarnemingen x 1,..., x m en y 1,..., y n. (i) Formuleer een geschikt statistisch model. (ii) Geef een intuïtief redelijke schatting voor het effect van het medicijn op de hoogte van de bloeddruk (meerdere antwoorden zijn mogelijk!). 3. Bij het keuren van een partij goederen gaat men door tot men 3 afgekeurde exemplaren heeft aangetroffen. (i) Formuleer een geschikt statistisch model. (ii) Het derde afgekeurde exemplaar blijkt het 50ste exemplaar te zijn dat men onderzoekt. Geef een schatting van het percentage defecte artikelen in de partij. Beargumenteer je keuze. 4. Het vermoeden bestaat dat er een lineair verband is tussen het inkomen van een persoon en zijn leeftijd en opleidingsniveau (laag, midden, hoog). (i) Beschrijf een lineair regressiemodel met inkomen als afhankelijke variabele en leeftijd en opleiding als onafhankelijke variabelen. Bedenk goed hoe je de variabele opleiding in het model opneemt. (ii) Men wil onderzoeken of het geslacht van een persoon invloed heeft op het inkomen. Pas het lineaire regressiemodel aan, zodat dit onderzocht kan worden. 5. Men wil een schatting maken van de gemiddelde lengte van wolvezels in een grote bak. Hiertoe wordt de bak eerst goed geschud, waarna met gesloten ogen een tevoren vastgesteld aantal vezels één voor één uit de bak wordt genomen. Men schat de gemiddelde lengte van de vezels in de bak met de gemiddelde lengte van de wolvezels in de steekproef. Is de geschatte lengte systematisch te groot, systematisch te klein of juist goed?

13 3 Verdelingsonderzoek 3.1 Introductie Een statistisch model is een uitdrukking van onze a priori kennis van het kansexperiment waaruit de waargenomen data is voortgekomen. Het model postuleert dat de waarneming X is gegenereerd volgens één van de kansmaten in het model. Hoe vinden we een goed model? In sommige gevallen is het model duidelijk uit de manier waarop het kansexperiment is opgezet. Als bij een opininiepeiling de steekproef inderdaad aselect en zonder teruglegging uit een goed omschreven populatie wordt genomen, dan is de hypergeometrische verdeling onvermijdelijk. Betreffen de waarnemingen aantallen uitgezonden radio-actieve deeltjes, dan is de Poisson-verdeling de juiste keus vanwege de natuurkundige theorie van radioactiviteit. Het is ook mogelijk dat het uitgevoerde experiment sterk lijkt op eerdere experimenten, en dat een bepaald model wordt gesuggereerd door de ervaring in het verleden. Lang niet altijd is een bepaald statistisch model echter geheel onomstreden. Het is dan op z n minst nodig om het gekozen model te valideren. Soms vinden controles plaats na het schatten van de parameters van het model. Een aantal eenvoudige controles kan ook vooraf worden uitgevoerd. In dit hoofdstuk bespreken we enkele grafische technieken om univariate en multivariate steekproeven te onderzoeken. Deze technieken worden, naast op de data zelf, ook veelvuldig toegepast op residuen na het fitten van, bijvoorbeeld, een regressiemodel. 3.2 Univariate Steekproeven Veronderstel dat de getallen x 1,..., x n de resultaten zijn van een herhaaldelijk uitgevoerd experiment. Uit de manier waarop de n experimenten zijn uitgevoerd (steeds vanuit dezelfde beginsituatie, zonder herinnering van de voorgaande experimenten) leiden we af dat het redelijk is de n getallen op te vatten als realisaties van onderling onafhankelijke, identiek verdeelde stochastische grootheden X 1,..., X n. Dit legt het statistische model al voor een belangrijk deel vast. De overgebleven vraag is: welke (marginale) verdeling gebruiken we? Histogrammen Een kansverdeling beschrijft de verdeling van de totale kansmassa 1 over de verschillende mogelijke waarden x. We kunnen een kansverdeling vastleggen door zowel de bijbehorende verdelingsfunctie als de bijbehorende kansdichtheid. Een kansdichtheid is een ingewikkelder object dan de verdelingsfunctie, maar geeft een betere visuele indruk van de verdeling van kansen: de verdeling legt veel kansmassa in punten x waar de waarde van de kansdichtheid f(x) groot is, en weinig in x voor welke f(x) 0.

14 3.2: Univariate Steekproeven 11 Een eenvoudige techniek om een indruk te krijgen van een kansdichtheid waaruit data x 1,..., x n afkomstig zijn is het histogram. Voor een gegeven partitie a 0 < a 1 < < a m die het bereik van de data x 1,..., x n overdekt is dit de functie die op het interval (a j 1, a j ] een waarde aanneemt die gelijk is aan het aantal datapunten x i die in het interval valt, gedeeld door de lengte van het interval. Als de lengten van alle intervallen (a j 1, a j ] gelijk zijn, dan wordt het histogram ook wel gedefinieerd zonder door de intervallengten te delen. In dat geval zijn de hoogten van de staven van het histogram gelijk aan de totale aantallen waarnemingen in de verschillende intervallen. De keuze van de intervallen is een kwestie van smaak. Als de intervallen te smal gekozen worden, dan is het histogram over het algemeen te piekerig om kenmerken van de ware kansdicht op te merken. Als de intervallen te breed gekozen worden, gaat daarentegen elk detail verloren en is er nog maar weinig te zeggen over de ware kansdichtheid op basis van het histogram. Om een indruk te krijgen uit welke kansdichtheid data afkomstig zouden kunnen zijn, is het handig het histogram en mogelijke kansdichtheden in één plaatje weer te geven. Dit kan door het histogram te schalen met 1/n, waarbij n het totaal aantal datapunten is. De oppervlakte onder het histogram is dan gelijk aan 1, net zoals dat het geval is bij een kansdichtheid. In x (a j 1, a j ] is het geschaalde histogram gelijk aan h n (x) = #(1 i n: x i (a j 1, a j ] ) n(a j a j 1 ) 1 n = 1 aj 1<x n(a j a j 1 ) i a j, waarbij de indicatorfunctie 1 aj 1<x i a j gelijk is aan 1 als a j 1 < x i a j en 0 als dit niet het geval is. Een alternatieve schrijfwijze voor deze indicatorfunctie is 1 (aj 1,a j](x i ). Een histogram geeft een goede indruk van de dichtheid waaruit de data x 1,..., x n afkomstig zijn, mits de partitie a 0 < a 1 < < a m geschikt gekozen is en het aantal datapunten n niet te klein is. Om dit in te zien beschouwen we x 1,..., x n als realisaties van de stochastische variabelen met een dichtheid f en berekenen we de verwachte waarde van het geschaalde histogram h n in termen van X 1,..., X n in een willekeurig punt x waar f(x) > 0. Veronderstel dat voor zekere 1 < j m geldt dat a j 1 < x a j dan is deze verwachte waarde gelijk aan 1 n 1 Eh n (x) = E 1 aj 1<X n(a j a j 1 ) i a j = E1 aj 1<X a j a 1 a j j 1 aj 1 a = P(a j 1 < X 1 a j ) = j 1 f(s) ds. a j a j 1 a j a j 1 Als f niet te veel varieert over het interval (a j 1, a j ], dan is de uitdrukking aan de rechterkant ongeveer gelijk aan de waarde van f in dit interval. De berekening leert dat de verwachte waarde van h n (x) bij benadering gelijk is aan f(x). Vanwege de Wet van de Grote Aantallen hebben we bovendien dat de waarde h n (x) in kans naar deze verwachte waarde convergeert. Een histogram geeft dus een indruk van de kansverdeling waaruit een steekproef is gegenereerd. Helaas wordt een goede indruk pas verkregen als een voldoend grote steekproef beschikbaar is (bijvoorbeeld n = 100 of nog liever n = 500). We mogen daarom niet meer dan een eerste indruk van een histogram verwachten. Andere, meer gecompliceerde technieken, kunnen betere resultaten geven. Voorbeeld 3.1. In Figuur 3.1 zijn histogrammen getekend van de lichaamslengte (in cm) van 100 mannen (links) en 110 vrouwen (rechts). De histogrammen zijn zo geschaald dat de oppervlaktes onder de histogrammen gelijk aan 1 zijn. In beide figuren is eveneens de dichtheid van een normale verdeling getekend. De verwachting en variantie van deze normale verdelingen zijn gelijk aan het steekproefgemiddelde en de steekproefvariantie van de bijbehorende data (zie Hoofdstuk 4). Bron: De data zijn verzameld door de afdeling Biologische Psychologie van de Vrije Universiteit in het kader van een onderzoek naar gezondheid, levensstijl en persoonlijkheid.

15 12 3: Verdelingsonderzoek Figuur 3.1. Histogram van de lichaamslengte van 100 mannen (links) en 110 vrouwen (rechts), tezamen met de kansdichtheden van de normale verdeling met de verwachtingen gelijk aan de steekproefgemiddelden en de varianties gelijk aan de steekproefvarianties van de data. Voorbeeld 3.2 (Normale verdeling). Figuur 3.2 geeft de dichtheid van de standaard normale verdeling tezamen met vier realisaties van het histogram, gebaseerd op 30, 30, 100 en 100 waarnemingen, waarbij de partities gekozen werden door het statistische softwarepakket R. De figuren linksboven en rechtsonder vertonen duidelijke afwijkingen van symmetrie. Omdat de data uit de normale verdeling werden gegenereerd is dit slechts te wijten aan toevalsvariatie Figuur 3.2. Histogrammen van steekproeven van 30, 30, 100 en 100 (boven, boven, onder, onder) waarnemingen uit de standaard normale dichtheid en de ware dichtheid Boxplots Een boxplot is een grafische weergave van de data die een indruk geeft van de locatie en de spreiding van de data, eventuele extreme waarden in de waarnemingen en de symmetrie van de verdeling waaruit de waarnemingen afkomstig zijn. In de boxplot staan de waarnemingen uitgezet langs de verticale as. De onderkant van de box staat getekend ter hoogte van het

16 3.3: Samenhang 13 kleinste kwartiel, en de bovenkant ter hoogte van het grootste kwartiel van de data. Het kleinste (respectievelijk grootste) kwartiel van de data is die waarde x zodanig dat een kwart van de waargenomen data kleiner (respectievelijk groter) is dan x. De breedte van de box is willekeurig. In de box staat ter hoogte van de mediaan van de data een horizontale lijn. De mediaan is de middelste waarde in de rij gesorteerde waarnemingen. Aan de boven- en onderkant van de box staan zogeheten whiskers getekend. De whisker aan de bovenkant verbindt de box met de grootste waarneming die binnen 1.5 maal de interkwartiel afstand boven het grootste kwartiel ligt. De interkwartiel afstand is de afstand tussen het bovenste en het onderste kwartiel, ofwel de hoogte van de box. De whisker aan de onderkant wordt op analoge wijze getekend. Waarnemingen die buiten de whiskers vallen worden apart aangegeven, bijvoorbeeld met een sterretje, rondje of streepje. Voorbeeld 3.3. In Figuur 3.3 staan boxplots getekend van steekproeven uit de exponentiële verdeling met parameter 1, de standaard normale verdeling en de standaard Cauchy-verdeling. De steekproeven uit de exponentiële en de Cauchy-verdeling bevatten extreme waarden, te zien aan de rondjes buiten de whiskers. De boxplot in het midden geeft aan dat de data uit de standaard normale verdeling aardig symmetrisch rond de mediaan liggen en geen extreme waarden bevatten exp(1) N(0,1) Cauchy Figuur 3.3. Boxplots van steekproeven ter grootte 20 uit de standaard exponentiële verdeling (links), de standaard normale verdeling (midden) en de standaard Cauchy-verdeling (rechts). 3.3 Samenhang In veel gevallen zijn de waarnemingen x i geen getallen, maar vectoren x i = (x i,1,..., x i,d ). We zijn dan vaak geïnteresseerd in de relatie tussen de verschillende coördinaten. We zullen ons in deze paragraaf beperken tot vectoren met twee coördinaten en noteren deze met (x i, y i ) (in plaats van (x i,1, x i,2 )). Een scatterplot van een steekproef van tweedimensionale data (x 1, y 1 ),..., (x n, y n ) is een plot van deze punten in het platte vlak. Is er een duidelijk verband tussen de x- en y-coördinaten van de data, dan is dit op het oog onmiddellijk zichtbaar. De variabelen in het rechterplaatje van Figuur 3.4 vertonen bijvoorbeeld een duidelijk lineair verband, terwijl in het linkerplaatje geen samenhang is te ontdekken.

17 14 3: Verdelingsonderzoek Figuur 3.4. Scatterplots van twee steekproeven van 50 punten. Links met onafhankelijke coördinaten (r x,y = 0.05), rechts met coördinaten die een lineair verband vertonen (r x,y = 0.87). Het lineaire verband in het rechterplaatje van Figuur 3.4 is onmiskenbaar, maar niet perfect. De punten liggen niet exact op een rechte lijn, maar variëren rond een (denkbeeldige) rechte. Notatie 3.4. Het steekproefgemiddelde van een steekproef X 1,..., X n is de stochastische grootheid X = 1 n X i. n De steekproefvariantie van een steekproef X 1,..., X n is de stochastische grootheid SX 2 = 1 n (X i X) 2. n 1 De steekproefcorrelatiecoëfficiënt van een steekproef van paren (X 1, Y 1 ),..., (X n, Y n ) is n r X,Y = (X i X)(Y i Y ) (n 1). SX 2 S 2 Y De steekproefcorrelatiecoëfficiënt r x,y van de waargenomen paren (x 1, y 1 ),..., (x n, y n ) is een getalsmaat voor de kracht van het lineaire verband en ligt tussen 1 en 1. De waarde kan als volgt worden geïnterpreteerd: (i) Als r x,y = 1, dan liggen de n punten in de scatterplot precies op de lijn y = y+(s y /s x ) (x x) (perfect positief verband). (ii) Als r x,y = 1, dan liggen de n punten in de scatterplot precies op de lijn y = y (s y /s x ) (x x) (perfect negatief verband). (iii) Zijn X 1,..., X n en Y 1,..., Y n onafhankelijke steekproeven, dan zal de gerealiseerde r x,y waarden dicht bij 0 aannemen. De eerste twee beweringen en dat r x,y 1 zijn een gevolg van de ongelijkheid van Cauchy- Schwarz uit de lineaire algebra. De derde bewering is een gevolg van het feit dat onafhankelijke stochastische grootheden ongecorreleerd zijn, gecombineerd met het intuïtief aannemelijke feit dat de steekproefcorrelatiecoëfficiënt de populatiecorrelatiecoëfficiënt ρ = cov(x, Y ) E(X EX)(Y EY ) = var X var Y E(X EX) 2 E(Y EY ) 2 zal benaderen voor n groot. Omdat cov(x, Y ) = E(X EX)(Y EY ) = E(XY ) EXEY is ρ gelijk aan 0 voor onafhankelijk stochastische grootheden X en Y : onafhankelijke stochastische Het inwendig product van vectoren a en b in R n voldoet aan a, b a b voor de Euclidische norm.

18 3: Opgaven 15 grootheden zijn ongecorreleerd. Een verdere interpretatie van de steekproefcorrelatiecoëfficiënt wordt gegeven bij de behandeling van het lineaire regressiemodel in Hoofdstuk 7. We mogen bewering (iii) niet omdraaien in de zin dat een correlatie dicht bij 0 zou impliceren dat de twee coördinaten onafhankelijk zijn. Dit wordt geïllustreerd in Figuur 3.5. In het linkerplaatje is een duidelijk lineair verband waarneembaar, corresponderend met een correlatiecoëfficiënt van Het rechterplaatje is een scatterplot van de punten (x i, y 2 i ) voor de punten (x i, y i ) uit het linkerplaatje. Het kwadratische verband is duidelijk zichtbaar. De sterkte van het verband tussen de twee coördinaten in het rechterplaatje doet niet onder voor de sterkte in het linkerplaatje. De steekproefcorrelatiecoëfficiënt voor de punten in het rechterplaatje is echter gelijk aan Blijkbaar is deze getalsmaat blind voor het aanwezige kwadratische verband Figuur 3.5. Scatterplots van twee steekproeven van 50 punten, met steekproefcorrelatiecoëfficiënten, respectievelijk, 0.98 en Het rechterplaatje geeft de punten (x i, y 2 i ) voor de punten (xi, yi) uit het linkerplaatje. Opgaven 1. Veronderstel dat h n het geschaalde histogram van een steekproef X 1,..., X n uit een dichtheid f is. De partitie van het histogram wordt gegeven door a 0 < a 1 <... < a m. Bewijs dat voor a j 1 < x a j geldt dat h n(x) (a j a j 1) 1 a j a j 1 f(s) ds met kans 1, als n. 2. Zij X een standaard normaal verdeelde stochastische grootheid. Bereken de correlatiecoëfficiënt tussen de stochastische grootheden X en Y = X Veronderstel dat X en Y onderling onafhankelijk zijn en beide standaard normaal verdeeld. Bereken de correlatiecoëfficiënt tussen X en Z waar Z = X + Y.

19 4 Schatters 4.1 Introductie Een statistisch model bestaat uit alle kansverdelingen welke a priori mogelijk worden geacht voor de gegeven data. Gegeven een correct opgesteld model gaan we ervan uit dat de data volgens één van de kansverdelingen in het model is gegenereerd. Na het opstellen van een geschikt statistisch model is de volgende stap het bepalen welke kansverdeling binnen het model het best aansluit bij de gegevens. Als het model wordt gegeven door een parameter, dan is dit equivalent met het bepalen van de best passende parameterwaarde, vaak aangeduid als de ware parameter. In de statistiek heet dit proces schatten. Andere namen zijn fitten en leren. Veronderstel dat de kansverdeling van X afhangt van een onbekende parameter θ, zodat het statistische model de vorm {P θ : θ Θ} heeft, voor P θ de kansverdeling van X als θ de ware parameterwaarde is. Op grond van een waarneming x willen we de ware waarde van θ schatten, of wellicht de waarde van een functie g(θ) van θ, bijvoorbeeld de eerste coördinaat θ 1 als θ = (θ 1, θ 2 ). Schatten betekent hier het doen van een uitspraak over θ of g(θ) van de vorm: ik denk dat g(θ) bij benadering gelijk is aan T (x), voor zekere waarde T (x) die van de waargenomen waarde x afhangt. Definitie 4.1. Een schatter (Engels: estimator) of statistiek (Engels: statistic) is een stochastische vector T (X) die alleen van de waarneming X afhangt. De bijbehorende schatting (Engels: estimate), bij gerealiseerde waarneming x, is T (x). Volgens deze definitie zijn heel veel objecten schatters. Waar het om gaat is dat T (X) een functie van X is die niet van de parameter θ mag afhangen: we moeten T (x) kunnen uitrekenen op grond van de data x. Na verrichting van de waarneming krijgt T een gerealiseerde waarde t = T (x), waarmee we θ (of g(θ)) schatten. We korten T (X) heel vaak af tot T. Hoewel iedere functie van de waarneming een schatter is, is niet iedere schatter een goede schatter. Een goede schatter voor g(θ) is een functie T van de waarneming zodanig dat T dichtbij de te schatten waarde g(θ) ligt. Een maat die wiskundig relatief eenvoudig is te hanteren is de verwachte kwadratische fout (Engels: mean square error of MSE). Voor een schatter T voor de waarde g(θ) wordt deze gedefinieerd als MSE(θ; T ) = E θ T g(θ) 2. We geven de voorkeur aan een schatter met een kleine verwachte kwadratische fout (MSE) voor alle parameterwaarden van θ tegelijk. De verwachte kwadratische fout van een reëelwaardige schatter T kan worden ontbonden in twee termen: MSE(θ; T ) = var θ T + ( E θ T g(θ) ) 2

20 4.2: Maximum Likelihood-Schatters 17 (ga na). Beide termen in deze decompositie zijn niet-negatief. Dus de verwachte kwadratische fout kan alleen klein zijn als beide termen klein zijn. Als de tweede term gelijk aan 0 is, dan heet de schatter zuiver. Definitie 4.2. Een schatter T heet zuiver (Engels: unbiased) voor het schatten van g(θ) als E θ T = g(θ) voor alle θ Θ. De onzuiverheid (Engels: bias) is gedefinieerd als E θ T g(θ). Zowel schatters als schattingen van θ worden vaak aangegeven met ˆθ. Het dakje geeft aan dat ˆθ een functie van de waarneming is, maar deze notatie maakt geen verschil tussen de stochastische vector of zijn realisatie: ˆθ kan zowel ˆθ(X) als ˆθ(x) betekenen. 4.2 Maximum Likelihood-Schatters De methode van de maximum likelihood-schatters (Nederlands: methode van de meest aannemelijke schatters) is de meest gebruikte methode om schatters voor een onbekende parameter te vinden. Voordat deze methode in het algemeen wordt gepresenteerd, wordt voor het (eenvoudige) geval van de binomiale verdeling de maximum likelihood-schatter afgeleid in het volgende voorbeeld. Voorbeeld 4.3 (Binomiale verdeling). Veronderstel dat we 10 keer met een onzuivere munt gooien. De kans p op kop is bij deze munt niet noodzakelijkerwijze 1/2. Definieer X als het aantal malen kop in de 10 worpen. De stochastische variabele X heeft dan een binomiale verdeling met parameters 10 en onbekende p [0, 1]. Stel dat we 3 maal kop werpen. De kans op deze uitkomst is gelijk aan ( ) 10 P p (X = 3) = p 3 (1 p) 7. 3 De kans p is onbekend en moet geschat worden. Welke waarde voor p is nu meest waarschijnlijk? p Figuur 4.1. p. De kans P p(x = 3) als functie van p waar de stochast X binomiaal verdeeld is met parameters 10 en In Figuur 4.1 is de kans P p (X = 3) getekend als functie van p. We zien dat er precies één waarde voor p is die deze kans maximaliseert, namelijk de waarde 0.3. Deze waarde voor p kent de grootste kans toe aan de waarneming 3 maal kop. De schatting ˆp = 0.3 blijkt in deze situatie de maximum likelihood-schatting te zijn.

21 18 4: Schatters De maximum likelihood-methode vereist de specificatie van de likelihood-functie, welke wordt afgeleid uit de kansdichtheid van de waarneming. Hierbij verstaan we onder een kansdichtheid p θ van een stochastische vector X de functie x P θ (X = x) als X discreet verdeeld is en de functie p θ zodanig dat P θ (X B) = B p θ(x) dx als X continu verdeeld is. Definitie 4.4. Zij X een stochastische vector met een kansdichtheid p θ die van een parameter θ Θ afhangt. De functie θ L(θ; x): = p θ (x) opgevat als functie van θ Θ voor vaste x heet de likelihood-functie (Nederlands: aannemelijkheidsfunctie). Vaak is X = (X 1,..., X n ) een vector met onderling onafhankelijke identiek verdeelde coördinaten X i. Dan is de dichtheid van X in (x 1,..., x n ) gelijk aan het product n p θ(x i ) van marginale dichtheden van de X 1,..., X n. Voor waargenomen waarden (x 1,..., x n ) is de likelihood-functie gelijk aan θ L(θ; x 1,..., x n ) = n p θ (x i ), waarin nu p θ de (marginale) dichtheid van een enkele X i weergeeft. De algemene definitie van maximum likelihood-schatters is echter geldig voor een waarnemingsvector van willekeurige vorm, en we geven er daarom de voorkeur aan de waarneming als x te schrijven, in plaats van (x 1,..., x n ), en de likelihood-functie als L(θ; x) p θ (x). Definitie 4.5. De maximum likelihood-schatting voor θ is die waarde T (x) Θ die de functie θ L(θ; x) maximaliseert. De maximum likelihood-schatter (Nederlands: meest aannemelijke schatter) is de bijbehorende schatter T (X). In het geval van een discrete kansverdeling kan de maximum likelihood-schatting worden omschreven als: die waarde van de parameter die de grootste waarschijnlijkheid toekent aan de waargenomen waarde x. We maximaliseren in dat geval immers de kansdichtheid p θ (x) = P θ (X = x) naar θ voor vaste x (zie Voorbeeld 4.3). Dit is een intuïtief redelijk schattingsprincipe en verklaart de naam. Dit principe moet echter alleen beschouwd worden als een schattingsmethode: maximum likelihood-schatters zijn niet noodzakelijkerwijze de beste schatters, ondanks de mooie naam. Als g: Θ H een 1 1-duidige functie is met een verzameling H als bereik, dan zouden we het model ook door de parameter η = g(θ) H kunnen parametriseren in plaats van door θ Θ. Het volgt direct uit de definitie dat g(ˆθ) de maximum likelihood-schatter voor η is, als ˆθ de maximum likelihood-schatter voor θ is. In overeenstemming hiermee definiëren we voor iedere willekeurige functie g de maximum likelihood-schatter voor g(θ) simpelweg als g(ˆθ). Bij een gegeven model is het uitrekenen van de maximum likelihood-schatter een kwestie van calculus. Vaak geschiedt dit door de likelihood-functie te differentiëren en de afgeleiden gelijk aan nul te stellen. (Het geval van de homogene verdeling in is hier echter een uitzondering op.) Een trucje dat het rekenwerk beperkt (vooral bij onafhankelijke waarnemingen) is om eerst de logaritme van de likelihood te nemen. Omdat de logaritme een monotone functie is, geldt dat de waarde ˆθ de functie θ L(θ; x) maximaliseert dan en slechts dan als deze waarde de functie θ log L(θ, x) maximaliseert. (Het gaat om de plaats waar het maximum wordt aangenomen, niet de grootte van het maximum!) Voor vaste x wordt de log likelihood-functie gegeven door θ log L(θ; x) = log p θ (x). Als L differentieerbaar is in θ Θ R k en zijn maximum in een inwendig punt van Θ aanneemt, dan geldt θ j log L(θ; x) θ=ˆθ = 0, j = 1,..., k.

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen ALGEMENE STATISTIEK A.W. van der Vaart en anderen VOORWOORD Dit collegedictaat omvat de stof van het college Algemene Statistiek, zowel de versie voor Econometrie en Wiskunde studenten, als de versie voor

Nadere informatie

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een

Nadere informatie

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur.

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (WS05), vrijdag 9 oktober 010, van 14.00 17.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen ALGEMENE STATISTIEK A.W. van der Vaart en anderen VOORWOORD Dit collegedictaat omvat de stof van het college Algemene Statistiek, zowel de versie voor Econometrie en Wiskunde studenten, als de versie voor

Nadere informatie

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1) Cursus Statistiek Hoofdstuk 4 Statistiek voor Informatica Hoofdstuk 4: Verwachtingen Cursusjaar 29 Peter de Waal Departement Informatica Inhoud Verwachtingen Variantie Momenten en Momentengenererende functie

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19 Stochastiek 2 Inleiding in de Mathematische Statistiek 1/19 Herhaling H.1 2/19 Mathematische Statistiek We beschouwen de beschikbare data als realisatie(s) van een stochastische grootheid X.(Vaak een vector

Nadere informatie

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten Stochastiek 2 Inleiding in the Mathematische Statistiek staff.fnwi.uva.nl/j.h.vanzanten 1 / 12 H.1 Introductie 2 / 12 Wat is statistiek? - 2 Statistiek is de kunst van het (wiskundig) modelleren van situaties

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur Kansrekening en statistiek wi2105in deel 2 27 januari 2010, 14.00 16.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na

Nadere informatie

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten Deze week: Steekproefverdelingen Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen Cursusjaar 29 Peter de Waal Zuivere Schatters Betrouwbaarheidsintervallen Departement Informatica Hfdstk

Nadere informatie

Wiskunde B - Tentamen 2

Wiskunde B - Tentamen 2 Wiskunde B - Tentamen Tentamen van Wiskunde B voor CiT (57) Donderdag 4 april 005 van 900 tot 00 uur Dit tentamen bestaat uit 8 opgaven, 3 tabellen en formulebladen Vermeld ook je studentnummer op je werk

Nadere informatie

SCHATTEN. A.W. van der Vaart en anderen

SCHATTEN. A.W. van der Vaart en anderen SCHATTEN A.W. van der Vaart en anderen VOORWOORD Dit diktaatje wordt gebruikt bij het vak Biostatistiek 2 voor MNW. Het is een uittreksel van het boek Algemene Statistiek geschreven door A.W. van der Vaart

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2WS4, dinsdag 17 juni 28, van 9. 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop

Nadere informatie

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013 Afdeling Wiskunde Volledig tentamen Algemene Statistiek Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen:

Nadere informatie

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan. Afdeling Wiskunde Volledig tentamen Statistics Deeltentamen 2 Statistics Vrije Universiteit 28 mei 2015 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen: opgaven 1,2,3,4. Cijfer=

Nadere informatie

3 Verdelingsonderzoek

3 Verdelingsonderzoek 3 Verdelingsonderzoek 3.1 Introductie Een statistisch model is een uitdrukking van onze a priori kennis van het kansexperiment waaruit de waargenomen data is voortgekomen. Het model postuleert dat de waarneming

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek DD14) op vrijdag 17 maart 006, 9.00-1.00 uur. UITWERKINGEN 1. Methoden om schatters te vinden a) De aannemelijkheidsfunctie

Nadere informatie

. Dan geldt P(B) = a. 1 4. d. 3 8

. Dan geldt P(B) = a. 1 4. d. 3 8 Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open

Nadere informatie

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur Kansrekening en statistiek WI05IN deel I 4 november 0, 4.00 7.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad wordt uitgereikt. Meerkeuzevragen Toelichting:

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2), Vrijdag 24 januari 24, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Samenvatting Statistiek

Samenvatting Statistiek Samenvatting Statistiek De hoofdstukken 1 t/m 3 gaan over kansrekening: het uitrekenen van kansen in een volledig gespecifeerd model, waarin de parameters bekend zijn en de kans op een gebeurtenis gevraagd

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van 9.00 12.00 uur.

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van 9.00 12.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (WS4), woensdag 3 juni, van 9.. uur. Dit is een tentamen met gesloten boek. De uitwerkingen van de

Nadere informatie

Statistiek I Samenvatting. Prof. dr. Carette

Statistiek I Samenvatting. Prof. dr. Carette Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De

Nadere informatie

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur Kansrekening en statistiek WI22TI / WI25IN deel 2 2 februari 22, 4. 6. uur VOOR WI22TI: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad is niet toegestaan.

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Vrijdag 16 Oktober 1 / 38 2 Statistiek Indeling vandaag: Normale verdeling Wet van de Grote Getallen Centrale Limietstelling Deductieve statistiek Hypothese toetsen

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 8 Donderdag 13 Oktober 1 / 23 2 Statistiek Vandaag: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 23 Stochast en populatie

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen Vandaag Onderzoeksmethoden: Statistiek 2 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Theoretische kansverdelingen

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur Kansrekening en statistiek wi20in deel I 29 januari 200, 400 700 uur Bij dit examen is het gebruik van een (evt grafische rekenmachine toegestaan Tevens krijgt u een formuleblad uitgereikt na afloop inleveren

Nadere informatie

Statistiek voor A.I. College 10. Dinsdag 16 Oktober

Statistiek voor A.I. College 10. Dinsdag 16 Oktober Statistiek voor A.I. College 10 Dinsdag 16 Oktober 1 / 30 Jullie - onderzoek Geert-Jan, Joris, Brechje Horizontaal: lengte Verticaal: lengte tussen topjes middelvingers met gestrekte armen. DIII 170 175

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur. VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT

Nadere informatie

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten Hoofdstuk 8 Betrouwbaarheidsintervallen In het vorige hoofdstuk lieten we zien hoe het mogelijk is om over een ongekende karakteristiek van een populatie hypothesen te formuleren. Een andere manier van

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Inleveren: Uiterlijk 15 februari voor 16.00 in mijn postvakje Afspraken Overleg is toegestaan, maar iedereen levert zijn eigen werk in. Overschrijven

Nadere informatie

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Technische Universiteit Delft Mekelweg 4 Faculteit Elektrotechniek, Wiskunde en Informatica 2628 CD Delft Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Formulebladen, rekenmachines,

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 16 Donderdag 4 November 1 / 25 2 Statistiek Indeling: Schatten Correlatie 2 / 25 Schatten 3 / 25 Schatters: maximum likelihood schatters Def. Zij Ω de verzameling van

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamenopgaven Statistiek 2DD71: UITWERKINGEN 1. Stroopwafels a De som S van de 12 gewichten is X 1 + X 2 + + X 12. Deze is normaal

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door

Nadere informatie

Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie

Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie Deze week: Schatten Statistiek voor Informatica Hoofdstuk 6: Schatten Cursusjaar 2009 Peter de Waal Departement Informatica Statistische inferentie A Priori en posteriori verdelingen Geconjugeerde a priori

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek (2S390) op maandag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek (2S390) op maandag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek (2S390) op maandag 20-11-2000, 14.00-17.00 uur ƒbij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van 4.00 7.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Statistiek voor A.I.

Statistiek voor A.I. Statistiek voor A.I. College 13 Donderdag 25 Oktober 1 / 28 2 Deductieve statistiek Orthodoxe statistiek 2 / 28 3 / 28 Jullie - onderzoek Tobias, Lody, Swen en Sander Links: Aantal broers/zussen van het

Nadere informatie

Tentamen Statistische methoden MST-STM 8 april 2010, 9:00 12:00

Tentamen Statistische methoden MST-STM 8 april 2010, 9:00 12:00 Tentamen Statistische methoden MST-STM 8 april 2, 9: 2: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop inleveren alstublieft.

Nadere informatie

Inhoud. 1 Inleiding tot de beschrijvende statistiek Maatstaven voor ligging en spreiding Kansrekening 99

Inhoud. 1 Inleiding tot de beschrijvende statistiek Maatstaven voor ligging en spreiding Kansrekening 99 Inhoud 1 Inleiding tot de beschrijvende statistiek 13 1.1 Een eerste verkenning 14 1.2 Frequentieverdelingen 22 1.3 Grafische voorstellingen 30 1.4 Diverse diagrammen 35 1.5 Stamdiagram, histogram en frequentiepolygoon

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2, Vrijdag 23 januari 25, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven dienen

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

SOCIALE STATISTIEK (deel 2)

SOCIALE STATISTIEK (deel 2) SOCIALE STATISTIEK (deel 2) D. Vanpaemel KU Leuven D. Vanpaemel (KU Leuven) SOCIALE STATISTIEK (deel 2) 1 / 57 Hoofdstuk 5: Schatters en hun verdeling 5.1 Steekproefgemiddelde als toevalsvariabele D. Vanpaemel

Nadere informatie

Tentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander

Tentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander Universiteit Leiden Niels Bohrweg Tentamen Inleiding Kansrekening 25 juni 2009, 0.00 3.00 uur Docent: F. den Hollander Mathematisch Instituut 2333 CA Leiden Bij dit tentamen is het gebruik van een (grafische)

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31 Tentamen Statistische methoden 45STAMEY april, 9: : Studienummers: Vult u alstublieft op het MC formulier uw Delftse studienummer in; en op het open vragen formulier graag beide, naar volgend voorbeeld:

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Basistechnieken 6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. x 0 2 4 6 p(x) ¼ ¼ ¼ ¼ a. Schrijf alle mogelijke verschillende steekproeven van n =

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 7 Dinsdag 11 Oktober 1 / 33 2 Statistiek Vandaag: Populatie en steekproef Maten Standaardscores Normale verdeling Stochast en populatie Experimenten herhalen 2 / 33 3

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 9 Dinsdag 18 Oktober 1 / 1 2 Statistiek Vandaag: Centrale Limietstelling Correlatie Regressie 2 / 1 Centrale Limietstelling 3 / 1 Centrale Limietstelling St. (Centrale

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17 Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 17 Statistische toetsen 2 / 17 Toetsen - algemeen - 1 Setting: observatie X in X, model {P θ : θ Θ}. Gegeven partitie Θ = Θ 0 Θ 1, met Θ 0 Θ 1

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen

Nadere informatie

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Learning the Mechanics 6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. De random variabele x wordt tweemaal waargenomen. Ga na dat, indien de waarnemingen

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18 Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 18 t-toetsen 2 / 18 Steekproefgemiddelde en -variantie van normale observaties Stelling. Laat X 1,..., X n o.o. zijn en N(µ, σ 2 )-verdeeld. Dan:

Nadere informatie

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Populatie: De gehele groep elementen waarover informatie wordt gewenst. Statistiek I Werkcollege 1 Populatie: De gehele groep elementen waarover informatie wordt gewenst. Steekproef: Gedeelte van de populatie dat feitelijk wordt onderzocht om informatie te vergaren. Eenheden:

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

mlw stroom 2.1: Statistisch modelleren

mlw stroom 2.1: Statistisch modelleren mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht

Nadere informatie

Statistische variabelen. formuleblad

Statistische variabelen. formuleblad Statistische variabelen formuleblad 0. voorkennis Soorten variabelen Discreet of continu Bij kwantitatieve gegevens gaat het om meetbare gegeven, zoals temperatuur, snelheid of gewicht. Bij een discrete

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

Feedback proefexamen Statistiek I 2009 2010

Feedback proefexamen Statistiek I 2009 2010 Feedback proefexamen Statistiek I 2009 2010 Het correcte antwoord wordt aangeduid door een sterretje. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Een derde van de mannen is

Nadere informatie

Toegepaste Wiskunde 2: Het Kalman-filter

Toegepaste Wiskunde 2: Het Kalman-filter Toegepaste Wiskunde 2: Het Kalman-filter 25 februari, 2008 Hans Maassen 1. Inleiding Het Kalman filter schat de toestand van een systeem op basis van een reeks, door ruis verstoorde waarnemingen. Een meer

Nadere informatie

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen Lesbrief: Correlatie en Regressie Leerlingmateriaal Je leert nu: -een correlatiecoëfficient gebruiken als maat voor het statistische verband tussen beide variabelen -een regressielijn te tekenen die een

Nadere informatie

Les 1: Waarschijnlijkheidrekening

Les 1: Waarschijnlijkheidrekening Les 1: Waarschijnlijkheidrekening A Men neemt een steekproef van 1000 appelen. Deze worden ingedeeld volgens gewicht en volgens symptomen van een bepaalde schimmel: geen, mild, gematigd of ernstig. Het

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling Moore, McCabe, and Craig. Introduction to the Practice of Statistics Chapter 5: Sampling Distributions 5.1: The

Nadere informatie

Inleiding Statistiek

Inleiding Statistiek Inleiding Statistiek Practicum 1 Op dit practicum herhalen we wat Matlab. Vervolgens illustreren we het schatten van een parameter en het toetsen van een hypothese met een klein simulatie experiment. Het

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Uitwerking tentamen Kansrekening en Stochastische Processen (2S61) op woensdag 27 april 25, 14. 17. uur. 1. Gegeven zijn twee onafhankelijke

Nadere informatie

Voorbeelden van gebruik van 5 VUSTAT-apps

Voorbeelden van gebruik van 5 VUSTAT-apps Voorbeelden van gebruik van 5 VUSTAT-apps Piet van Blokland Begrijpen van statistiek door simulaties en visualisaties Hoe kun je deze apps gebruiken bij het statistiek onderwijs? De apps van VUSTAT zijn

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd

Nadere informatie

Toetsen van hypothesen

Toetsen van hypothesen Les 4 Toetsen van hypothesen We hebben tot nu toe enigszins algemeen naar grootheden van populaties gekeken en bediscussieerd hoe we deze grootheden uit steekproeven kunnen schatten. Vaak hebben we echter

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

Lesbrief hypothesetoetsen

Lesbrief hypothesetoetsen Lesbrief hypothesetoetsen 00 "Je gaat het pas zien als je het door hebt" Johan Cruijff Willem van Ravenstein Inhoudsopgave Inhoudsopgave... Hoofdstuk - voorkennis... Hoofdstuk - mens erger je niet... 3

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 15 Dinsdag 2 November 1 / 16 2 Statistiek Indeling: Filosofie Schatten Centraal Bureau voor Statistiek 2 / 16 Schatten Vb. Het aantal tenen plus vingers in jullie huishoudens:

Nadere informatie

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen. Tentamen Inleiding Intelligente Data Analyse Datum: 19-12-2002 Tijd: 9.00-12.00, BBL 420 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2S27), dinsdag 14 juni 25, 9. - 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

1. De wereld van de kansmodellen.

1. De wereld van de kansmodellen. STATISTIEK 3 DE GRAAD.. De wereld van de kansmodellen... Kansmodellen X kansmodel Discreet model Continu model Kansverdeling Vaas Staafdiagram Dichtheidsfunctie f(x) GraJiek van f Definitie: Een kansmodel

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Populatie: een intuïtieve definitie.... Een

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en

Nadere informatie

Statistiek voor A.I. College 10. Donderdag 18 Oktober

Statistiek voor A.I. College 10. Donderdag 18 Oktober Statistiek voor A.I. College 10 Donderdag 18 Oktober 1 / 28 Huffington Post poll verkiezingen VS - 12 Oktober 2012 2 / 28 Gallup poll verkiezingen VS - 15 Oktober 2012 3 / 28 Jullie - onderzoek Kimberly,

Nadere informatie

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte Classroom Exercises GEO2-4208 Opgave 7.1 a) Regressie-analyse dicteert hier geen stricte regels voor. Wanneer we echter naar causaliteit kijken (wat wordt door wat bepaald), dan is het duidelijk dat hoogte

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Eindtentamen Kansrekening en Statistiek (WS), Tussentoets Kansrekening en Statistiek (WS), Vrijdag 8 april, om 9:-:. Dit is een tentamen

Nadere informatie