ALGEMENE STATISTIEK. A.W. van der Vaart en anderen



Vergelijkbare documenten
ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Wiskunde B - Tentamen 2

Populaties beschrijven met kansmodellen

Inhoud. 1 Inleiding tot de beschrijvende statistiek Maatstaven voor ligging en spreiding Kansrekening 99

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Hoofdstuk 3 Statistiek: het toetsen

Inleiding Applicatie Software - Statgraphics

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Kansrekening en Statistiek

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, uur.

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Kansrekening en Statistiek

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

Samenvatting Statistiek

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

1. De wereld van de kansmodellen.

Toegepaste Wiskunde 2: Het Kalman-filter

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Hoofdstuk 5 Een populatie: parametrische toetsen

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

Statistiek voor A.I. College 10. Dinsdag 16 Oktober

Toegepaste Statistiek, Week 3 1

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

. Dan geldt P(B) = a d. 3 8

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Examen Statistiek I Feedback

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek (2S390) op maandag ,

Statistiek voor A.I.

9. Lineaire Regressie en Correlatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Statistische variabelen. formuleblad

Wiskunde B - Tentamen 1

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

HOOFDSTUK VII REGRESSIE ANALYSE

Kansrekening en Statistiek

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

SCHATTEN. A.W. van der Vaart en anderen

Kansrekening en Statistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

Klantonderzoek: statistiek!

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Kansrekening en Statistiek

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31

VERGELIJKENDE STUDIE VAN ALTERNATIEVE ONTWERPWAARDE SCHATTINGEN VAN SIGNIFICANTE GOLFHOOGTE

Hoofdstuk 6 Twee populaties: parametrische toetsen

Statistiek en Data Analyse Opgavenserie 3: Lineaire regressie

Kansrekening en Statistiek

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

Voorbeeldtentamen Statistiek voor Psychologie

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

Kansrekening en stochastische processen 2DE18

VOOR HET SECUNDAIR ONDERWIJS

Kansrekening en Statistiek

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

Hoofdstuk 10: Regressie

36, P (5) = 4 36, P (12) = 1

Zo geldt voor o.o. continue s.v.-en en X en Y dat de kansdichtheid van X + Y gegeven wordt door

TECHNISCHE UNIVERSITEIT EINDHOVEN. Tentamen OGO Fysisch Experimenteren voor minor AP (3MN10)

Tentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Summary in Dutch 179

Examen HAVO. Wiskunde A1,2

1. Reductie van error variantie en dus verhogen van power op F-test

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Opgave 1: (zowel 2DM40 als 2S390)

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

Transcriptie:

ALGEMENE STATISTIEK A.W. van der Vaart en anderen

VOORWOORD Dit collegedictaat omvat de stof van het college Algemene Statistiek, zowel de versie voor Econometrie en Wiskunde studenten, als de versie voor BWI studenten. Niet alle delen van het dictaat behoren tot de tentamenstof van de twee colleges. Welke delen tot welk tentamen behoren wordt op de colleges en via de webpagina s bekend gemaakt. De nadruk ligt op de fundamentele begrippen en methoden van de statistiek: schatten, toetsen en betrouwbaarheidsintervallen. Basis begrippen en methoden staan centraal en worden geïllustreerd aan de eenvoudigste statistische modellen. Het dictaat begint met enige data-analyse en besluit met enige optimaliteitstheorie. Het doel van de voorbeelden is niet een compendium van statistische technieken te geven (zie hiervoor een statistisch handboek), maar om bij te dragen aan een goed begrip van de basis stof. Paragrafen, definities, etc. gemerkt met een * behoren niet tot de tentamenstof, tenzij de docent anders besluit tijdens het semester. De wiskundige stijl is informeler dan dat van een tweedejaars wiskunde college. Stellingen en lemma s worden niet (of onvolledig) bewezen, en/of op een informele manier geformuleerd. Een gedeelte van deze resultaten komt uitvoeriger aan de orde in de colleges Mathematische Statistiek en Grondslagen Waarschijnlijkheidsrekening. De stof van een eerstejaars college kansrekening wordt bekend verondersteld. Hoewel in het dictaat een aantal voorbeelden is opgenomen, is oefening aan de hand van vraagstukken onontbeerlijk om een goed inzicht in de stof te verkrijgen. In de vraagstukkencollectie zijn ook meer praktisch gerichte opgaven opgenomen. Bovendien behoren bij het college voor BWI studenten enkele computeropgaven. Voor uitvoerige praktische oefening met echte data verwijzen we echter naar, bijvoorbeeld, de colleges Statistische Data Analyse en Statistische Modellen. Bij dit collegedictaat zijn enkele tabellen gevoegd. Deze zijn bedoeld voor gebruik thuis of tijdens de praktika. In het echt worden deze tabellen niet meer gebruikt: de computer is sneller, nauwkeuriger en gemakkelijker in het gebruik. Het statistisch pakket R bevat bijvoorbeeld standaard functies voor de verdelingsfunctie, de dichtheidsfunctie en de kwantielfunctie van alle standaard verdelingen. Amsterdam, januari 2008

LITERATUUR [1] Freedman, D., (2005). Statistical Models: theory and applications. Cambridge University Press, Cambridge. [2] van der Vaart, A.W., (1998). Asymptotic Statistics, 1 496. Cambridge University Press, Cambridge.

INHOUD 1. Inleiding.......................... 2 1.1. Wat is statistiek?.................... 2 1.2. Beschrijvende versus Mathematische Statistiek....... 3 1.3. Indeling van het boek.................. 3 2. Statistische Modellen.................... 5 2.1. Introductie....................... 5 2.2. Enkele voorbeelden................... 6 Opgaven....................... 19 Cox regressie....................... 21 3. Verdelingsonderzoek.................... 22 3.1. Introductie...................... 22 3.2. Univariate Steekproeven................ 22 3.3. Samenhang...................... 32 Opgaven....................... 38 De Wet van Benford................... 40 4. Schatters........................ 45 4.1. Introductie...................... 45 4.2. Mean Square Error.................. 46 4.3. Maximum Likelihood-Schatters............. 54 4.4. Momentenschatters.................. 78 4.5. Bayes-schatters.................... 81 4.6. M-Schatters..................... 93 Opgaven....................... 95 Erfelijkheidsonderzoek................... 102 5. Toetsen......................... 107 5.1. Nulhypothese en Alternatieve Hypothese......... 107 5.2. Toetsingsgrootheid en Kritiek Gebied.......... 110 5.3. Statistische Significantie................ 125 5.4. Overschrijdingskansen................. 126 5.5. Enkele Standaard Toetsen............... 131 5.6. Likelihood-Ratiotoetsen................ 148 5.7. Score- en Wald-Toetsen................ 155 5.8. Meervoudig Toetsen.................. 159 Opgaven....................... 162 Aandelen volgens Black-Scholes............... 170 6. Betrouwbaarheidsgebieden................. 176 6.1. Introductie...................... 176 6.2. Pivots en Bijna-Pivots................. 179 6.3. Maximum Likelihood-Schatters als Bijna-Pivots...... 184 6.4. Betrouwbaarheidsgebieden en Toetsen.......... 194 6.5. Likelihood-Ratiogebieden............... 196 6.6. Bayesiaanse Betrouwbaarheidsgebieden......... 200 Opgaven....................... 202

Het Salk Vaccin...................... 206 7. Optimaliteitstheorie.................... 210 7.1. Voldoende Statistieken................. 210 7.2. Schattingstheorie................... 217 7.3. Toetsingstheorie................... 228 Opgaven....................... 241 Hoogwater in Limburg................... 246 8. Regressiemodellen..................... 256 8.1. Lineaire Regressie................... 258 8.2. Variantie-Analyse................... 274 8.3. Niet-lineaire en niet-parametrische regressie....... 282 8.4. Classificatie..................... 285 8.5. Cox-regressiemodel.................. 290 Opgaven....................... 296 Regressiemodellen en Causaliteit.............. 299 9. Appendix A: Elementen uit de Kansrekening......... 305 9.1. Verdelingen..................... 305 9.2. Verwachting en variantie................ 308 9.3. Standaard verdelingen................. 309 9.4. Multivariate en marginale verdelingen.......... 314 9.5. Onafhankelijkheid en conditionering........... 315 9.6. Limietstellingen en de normale benadering........ 317 Opgaven....................... 320 10. Appendix B: Multivariaat-Normale Verdeling......... 322 10.1. Covariantiematrices.................. 322 10.2. Definitie en Basis Eigenschappen............ 323 10.3. Voorwaardelijke Verdelingen.............. 326 10.4. Multivariate Centrale Limietstelling........... 327 10.5. Afgeleide Verdelingen................. 328 11. Appendix C: Tabellen................... 330 11.1. Normale Verdeling.................. 331 11.2. t-verdeling...................... 332 11.3. Chikwadraat-Verdeling................ 333 11.4. Binomiale Verdeling (n = 10).............. 335 12. Index.......................... 337

1 Inleiding 1.1 Wat is statistiek? Statistiek is de kunst van het modelleren van situaties waarin toeval een rol speelt, en van het trekken van conclusies op basis van data waargenomen in dergelijke situaties. Enkele typerende vragen die met behulp van statistiek kunnen worden beantwoord zijn: (i) Wat is de kans dat de Maas komend jaar buiten zijn oevers treedt? (ii) Is de nieuwe medische behandeling significant beter dan de oude? (iii) Wat is de onzekerheidsmarge in de voorspelling van het aantal zetels voor politieke partij A? Het beantwoorden van dergelijke vragen is verre van eenvoudig. De mathematische statistiek levert een algemeen kader waarmee de onderzoeksvraag beantwoord kan worden op basis van een opgesteld statistisch model. Binnen dit kader geeft het ook een oordeel over de kwaliteit van een gegeven antwoord. Om een geschikt statistisch model voor beschikbare data op te stellen, moet inzicht verkregen worden in de manier waarop de data verzameld zijn. Wanneer er nog geen data beschikbaar zijn, zullen die moeten worden verzameld. Het verkrijgen van relevante data vereist een goede, doordachte opzet. Zo zal bij een onderzoeksvraag die een bepaalde populatie betreft (bijvoorbeeld de populatie van patiënten met een hoge bloeddruk, stemgerechtigden, of eindprodukten van een productieproces), data verzameld moeten worden van een groep mensen die representatief is voor de gehele populatie. Ten slotte moet dan een geschikt statistisch model worden opgesteld voor de data.

1.2: Beschrijvende versus Mathematische Statistiek 3 De vragen (i) (ii) (iii) corresponderen met de drie basis concepten in de statistiek: schatten, toetsen en betrouwbaarheidsgebieden, welke uitgebreid aan de orde komen in dit boek. De nadruk ligt in dit boek op de mathematische statistiek; het verzamelen van data, het vervolgens modelleren van de data, en beschrijvende statistiek komen slechts summier aan bod. 1.2 Beschrijvende versus Mathematische Statistiek Waarnemingen, meestal rijen getallen, kan men middelen, tabelleren, grafisch weergeven, of anderszins bewerken. De beschrijvende statistiek houdt zich bezig met het verzamelen en op inzichtelijke wijze samenvatten van data. Zulke beschrijvende statistiek, op grote schaal beoefend door bijvoorbeeld het Centraal Bureau voor de Statistiek, is van groot belang en kan heel interessant zijn. Beschrijvende statistiek wordt ook veel gebruikt bij het opstellen van statistische modellen (zie Hoofdstuk 2) en het controleren van modelaannames (zie Hoofdstuk 3). In dit boek komt zij echter nauwelijks aan de orde. De mathematische statistiek ontwikkelt en bestudeert methoden voor het analyseren van waarnemingen, die gebaseerd zijn op kansmodellen. Waarneming x wordt opgevat als een realisatie van een stochastische grootheid of vector X. In de waarschijnlijkheidsrekening wordt een precieze definitie gegeven van stochastische vectoren. Voor de statistiek is vooral van belang dat een stochastische vector een kansverdeling bezit. Deze kan worden vastgelegd door een verdelingsfunctie of kansdichtheid. In de statistiek willen we op grond van de realisatie x de ware kansverdeling van X bepalen. Op grond van kennis van die ware kansverdeling kunnen we vervolgens nieuwe uitkomsten voorspellen, of oude uitkomsten verklaren. 1.3 Indeling van het boek De drie kernpunten van de mathematische statistiek zijn schatten, toetsen en het construeren van betrouwbaarheidsgebieden. Deze onderwerpen komen achtereenvolgens aan de orde in de Hoofdstukken 4, 5 en 6. Deze concepten maken gebruik van een statistisch model voor de data, waarvan in Hoofdstuk 2 de definitie en een aantal voorbeelden worden gegeven. Enkele technieken uit de beschrijvende statistiek die hulp kunnen bieden bij het opstellen en valideren van statistische modellen worden besproken in Hoofdstuk 3. Hoofdstuk 7 geeft een theoretische verdieping, waarin met name de vraag aan de orde komt onder welke omstandigheden en in welke

4 1: Inleiding zin bepaalde statistische methoden wiskundig optimaal zijn. In Hoofdstuk 8 worden enkele regressiemodellen die in de praktijk veel gebruikt worden beschreven. De theorie uit de voorgaande hoofdstukken wordt hierin toegepast om onbekende modelparameters te schatten, te toetsen en betrouwbaarheidsintervallen voor deze parameters op te stellen. Het boek heeft drie appendices. In Appendix 9 wordt een aantal elementen uit de kansrekening behandeld die van belang zijn voor het begrip van de stof in het boek. In Appendix 10 worden eigenschappen van de meerdimensionaal normale verdeling besproken. Deze appendix ondersteunt het begrip van een aantal paragrafen waarin deze verdeling wordt gebruikt. Appendix 11 bevat tabellen met waarden van de verdelings- en kwantielfuncties van enkele verdelingen waarnaar verwezen wordt in de tekst. Deze tabellen kunnen worden gebruikt als er geen computer voor handen is. Met een statistisch pakket als R kunnen de waarden met een veel grotere nauwkeurigheid worden verkregen.

2 Statistische Modellen 2.1 Introductie In zekere zin is de richting van de statistiek precies de omgekeerde van die van de waarschijnlijkheidsrekening: de uitslagen van een experiment zijn waargenomen, maar het onderliggende kansmodel is (deels) onbekend en dient uit de uitslagen te worden afgeleid. Uiteraard is de experimentele situatie niet geheel onbekend. Alle bekende informatie wordt gebruikt om een zo goed mogelijk statistisch model te construeren. Een formele definitie van een statistisch model is als volgt. Definitie 2.1. Een statistisch model is een collectie van kansverdelingen op een gegeven uitkomstenruimte. De interpretatie van een statistisch model is: de collectie van alle mogelijk geachte kansverdelingen voor de waarneming X. Hierin is X het geheel van de waarnemingen. Meestal is deze totale waarneming opgebouwd uit deelwaarnemingen en is X = (X 1,..., X n ) een stochastische vector. Wanneer de variabelen X 1,..., X n corresponderen met onderling onafhankelijke replicaties van hetzelfde experiment, dan spreken we van een steekproef. De variabelen X 1,..., X n zijn dan onderling onafhankelijk en identiek verdeeld en hun simultane verdeling wordt volledig bepaald door de marginale verdeling, die voor alle X i s gelijk is. In dat geval kan het statistische model voor X = (X 1,..., X n ) worden beschreven door een collectie van (marginale) kansverdelingen voor de deelwaarnemingen X 1,..., X n.

6 2: Statistische Modellen 2.2 Enkele voorbeelden Het begrip statistisch model wordt pas echt duidelijk door voorbeelden. Zo eenvoudig als het wiskundige begrip statistisch model is uitgedrukt in de voorgaande definitie, zo ingewikkeld is het proces van statistisch modelleren van een gegeven praktijksituatie. Het resultaat van een statistisch onderzoek staat of valt echter met het construeren van een goed model. Voorbeeld 2.2 (Steekproef). Van een grote populatie bestaande uit N personen heeft een onbekende fractie p een bepaalde eigenschap A; deze fractie p willen we schatten. Het wordt als te veel moeite beschouwd om alle personen uit de populatie op eigenschap A te onderzoeken. In plaats daarvan kiest men aselect n personen uit de populatie, met teruglegging. Men neemt (een realisatie van) de stochastische grootheden X 1,..., X n waar, waarbij { 0 als de i X i = e persoon A niet heeft, 1 als de i e persoon A wel heeft. Vanwege de manier waarop het experiment is ingericht (trekken met teruglegging) weten we a priori dat X 1,..., X n onderling onafhankelijk en alternatief verdeeld zijn. Dat laatste wil zeggen dat P(X i = 1) = 1 P(X i = 0) = p voor i = 1,..., n. Over de parameter p is geen a priori kennis beschikbaar, anders dan dat 0 p 1. De totale waarneming is hier de vector X = (X 1,..., X n ). Het statistische model voor X bestaat uit alle mogelijk geachte (simultane) kansverdelingen van X waarvan de coördinaten, X 1,..., X n, onderling onafhankelijk en alternatief verdeeld zijn. Voor iedere mogelijke waarde van p bevat het statistische model precies één kansverdeling voor X. Het ligt voor de hand de onbekende p te schatten met de fractie van het aantal personen met eigenschap A; dus met n 1 n i=1 x i waarbij x i gelijk is aan 1 of 0 al naar gelang de persoon eigenschap A wel of niet heeft. In Hoofdstuk 4 geven we een precieze betekenis aan schatten. In Hoofdstuk 6 gebruiken we het zojuist beschreven model om te kwantificeren hoever deze schatter van p zal afwijken, met behulp van een betrouwbaarheidsinterval. Bijna nooit zullen de populatie- en steekproeffractie immers precies gelijk zijn. Een betrouwbaarheidsinterval geeft een precieze betekenis aan de foutenmarge die vaak bij de uitslag van een opiniepeiling wordt vermeld. We zullen ook berekenen hoe groot die marge is wanneer we bijvoorbeeld 1000 personen uit de populatie onderzoeken, een gebruikelijk aantal bij een opiniepeiling onder de Nederlandse bevolking. Voorbeeld 2.3 (Trekken zonder teruglegging). Veronderstel dat in het voorgaande voorbeeld de n personen aselect uit de populatie worden

2.2: Enkele voorbeelden 7 gekozen zonder terugleggen. Dan zijn X 1,..., X n niet onafhankelijk waardoor het statistische model voor X = (X 1,..., X n ) niet vastligt met een keuze voor een model voor de deelwaarnemingen X 1,..., X n ; de afhankelijkheid tussen de deelwaarnemingen moet ook gemodelleerd worden. Om de onbekende fractie p te schatten is het voldoende om de waarneming X = (X 1,..., X n ) te reduceren tot de som Z = n i=1 X i; het totaal aantal personen met eigenschap A in de trekking (dit wordt besproken in Paragraaf 7.1). Het is a priori bekend dat Z een hypergeometrische verdeling bezit met parameters (N, pn, n). We veronderstellen dat n vooraf bekend is. Het statistische model voor waarneming Z bestaat dan uit alle hypergeometrische verdelingen met parameters (N, pn, n) met N n, n vast en 0 p 1. Het is mogelijk dat ook N vooraf bekend is. Dan verkleinen we het model tot alle hypergeometrische verdelingen met parameters (N, pn, n) met N en n vast en 0 p 1. Voorbeeld 2.4 (Meetfouten). Als een fysicus middels een experiment herhaaldelijk de waarde van een constante µ bepaalt, vindt hij niet steeds dezelfde waarde. Zie bijvoorbeeld Figuur 2.1, waarin de 23 bepalingen van de lichtsnelheid door Michelson in 1882 zijn weergegeven. De vraag is hoe de onbekende constante µ op grond van de waarnemingen, een rij getallen x 1,..., x n, geschat kan worden. Voor de waarnemingen in Figuur 2.1 zal deze schatting in de range 700 900 liggen, maar de vraag is waar. Een statistisch model verleent houvast bij het beantwoorden van deze vraag. Kansmodellen zijn in deze context voor het eerst toegepast aan het eind van de 18 e eeuw, en de normale verdeling werd door Gauss rond 1810 ontdekt precies met het doel inzicht te geven in deze situatie. 600 700 800 900 1000 Figuur 2.1. Grafische weergave van de resultaten van de 23 metingen van de lichtsnelheid door Michelson in 1882. De schaal op de horizontale as geeft de gemeten lichtsnelheid (in km per seconde) min 299000 km/sec. Als de metingen steeds onder dezelfde omstandigheden worden ver-

8 2: Statistische Modellen richt, steeds onafhankelijk van het verleden, dan is het redelijk in het model op te nemen dat deze getallen realisaties zijn van onderling onafhankelijke en identiek verdeelde stochastische variabelen X 1,..., X n. De meetfouten e i = X i µ zijn dan eveneens stochastische variabelen. Een gebruikelijke aanname is dat de verwachte meetfout gelijk is aan 0, met andere woorden Ee i = 0, en dus is EX i = E(e i + µ) = µ. Aangezien wordt aangenomen dat X 1,..., X n onafhankelijke stochastische variabelen zijn en dezelfde kansverdeling hebben, ligt het model voor X = (X 1,..., X n ) vast als we een statistisch model voor X i kiezen. Voor X i postuleren we het model: alle kansverdelingen met eindige verwachting µ. Het statistische model voor X is dan: alle mogelijke kansverdelingen van X = (X 1,..., X n ) zodanig dat de coördinaten X 1,..., X n onderling onafhankelijk en identiek verdeeld zijn met verwachting µ. Fysici menen vaak meer a priori informatie te bezitten, en doen dan meer modelaannames. Ze veronderstellen bijvoorbeeld dat de meetfouten normaal verdeeld zijn met verwachting 0 en variantie σ 2, ofwel dat de waarnemingen X 1,..., X n normaal verdeeld zijn met verwachting µ en variantie σ 2. Het statistische model is dan gelijk aan: alle kansverdelingen van X = (X 1,..., X n ) zodanig dat de coördinaten onderling onafhankelijk en N(µ, σ 2 )-verdeeld zijn. Het uiteindelijke doel is iets te zeggen over µ. Bij het tweede model is meer bekend, dus moet het mogelijk zijn met meer zekerheid iets over µ te zeggen. Anderzijds is er natuurlijk meer kans dat het tweede model onjuist is, in welk geval de winst aan zekerheid slechts een schijnzekerheid is. In de praktijk blijken meetfouten vaak, maar niet altijd, bij benadering normaal verdeeld te zijn. Dergelijke normaliteit is te motiveren met behulp van de Centrale Limietstelling (zie Stelling 9.28) indien een meetfout kan worden opgevat als de som van een groot aantal onafhankelijke kleine meetfouten (met eindige varianties), maar kan niet op theoretische gronden worden bewezen. In Hoofdstuk 3 bespreken we technieken om normaliteit aan de data zelf te onderzoeken. Het belang van een precies omschreven model is onder andere dat het mogelijk maakt te bepalen wat een zinvolle manier is om µ uit de waarnemingen te schatten. Het middelen van x 1,..., x n ligt voor de hand. In Hoofdstuk 7 zullen we zien dat dit het beste is (volgens een bepaald criterium) als de meetfouten inderdaad een normale verdeling volgen met verwachting 0. Zouden de meetfouten echter Cauchy-verdeeld zijn, dan is middelen desastreus. Dit blijkt uit Figuur 2.2. Deze toont voor n = 1, 2,..., 1000 het gemiddelde n 1 n i=1 x i van de eerste n realisaties x 1,..., x 1000 van een steekproef uit een standaard Cauchy-verdeling. De gemiddelden gedragen zich chaotisch en komen niet steeds dichter bij 0. Dit kan worden verklaard uit het opmerkelijke theoretische resultaat dat het gemiddelde n 1 n i=1 X i van onderling onafhankelijke standaard Cauchy-verdeelde stochastische grootheden X 1,..., X n zelf ook standaard Cauchy-verdeeld is. Middelen doet hier niets!

2.2: Enkele voorbeelden 9 2 1 0-1 -2-100 100 300 500 700 900 1100 Figuur 2.2. Cumulatieve gemiddelden (verticale as) van n = 1, 2,..., 1000 (horizontale as) realisaties uit de standaard Cauchy-verdeling. Voorbeeld 2.5 (Gepaarde en ongepaarde waarnemingen). De laatste jaren is het aantal verschillende diëten op de markt sterk toegenomen. Om de effectiviteit van diëten A en B met elkaar te vergelijken wordt een aselecte groep zwaarlijvige mensen geheel willekeurig in twee groepen ter grootte n en m verdeeld. De mensen in de eerste groep volgen dieet A en de mensen in de tweede groep dieet B. Na een halfjaar tijd wordt genoteerd hoeveel elke deelnemer is afgevallen. Voor de groep mensen die dieet A volgden, geeft dat de waarnemingen x 1,..., x n, waarbij x i de gewichtsafname van de i e persoon in de eerste groep voorstelt. Voor de tweede groep worden de gewichtsafnames genoteerd met y 1,..., y m. De waarden x 1,..., x n kunnen worden gezien als de realisaties van n onderling onafhankelijke en identiek verdeelde stochastische grootheden X 1,..., X n. Als statistisch model van X i nemen we alle mogelijke continue kansverdelingen op R. Daarmee sluiten we bij voorbaat een eventuele toename in gewicht niet uit. Het statistische model voor X = (X 1,..., X n ) ligt nu vast. Eveneens kunnen y 1,..., y m worden gezien als realisaties van stochastische variabelen Y 1,..., Y m welke onderling onafhankelijk en gelijk verdeeld zijn. Het statistische model voor Y = (Y 1,..., Y m ) nemen we analoog aan het model voor X. Om de twee diëten met elkaar te vergelijken kunnen de gemiddelde gewichtsafnames in de twee groepen met elkaar worden vergeleken. Met deze opzet van het onderzoek worden twee datasets die op geen enkele manier afhankelijk van elkaar zijn vergeleken; immers de groep zwaarlijvigen was aselect getrokken en geheel willekeurig in twee groepen verdeeld. Soms heeft het zin om de data opzettelijk afhankelijk van elkaar te maken, bijvoorbeeld door mensen te paren. Een reden om waarnemingen te paren kan zijn dat er meer factoren zijn die mogelijk invloed hebben op de uitkomst, gewichtsafname in dit voorbeeld. Corrigeren voor het effect

10 2: Statistische Modellen van deze factoren kan de onderzoeksresultaten betrouwbaarder maken. In dit voorbeeld hebben geslacht en begingewicht mogelijk invloed op de gewichtsafname. Om hier rekening mee te houden bij het vergelijken van de twee diëten, worden de personen in de steekproef in n groepjes van twee gedeeld; de mensen worden gepaard. De twee personen in elk paar zijn van hetzelfde geslacht en hebben ongeveer hetzelfde (begin)gewicht. Van elk groepje volgt één persoon dieet A en de andere persoon dieet B; wie welk dieet volgt, wordt geheel willekeurig bepaald. Na een halfjaar wordt gekeken hoeveel elke persoon is afgevallen; dit geeft de waarnemingsparen (x 1, y 1 ),..., (x n, y n ) waarbij x i de gewichtsafname van de persoon in het i e paar is die dieet A volgde en y i de gewichtsafname van de persoon in hetzelfde paar die dieet B volgde. Omdat we geïnteresseerd zijn in verschil in effectiviteit tussen de twee diëten, ligt het voor de hand om naar de verschillen z 1 = x 1 y 1,..., z n = x n y n te kijken en hier een statistisch model voor op te stellen in plaats van voor de gehele dataset. De verschillen z 1,..., z n worden weer gezien als realisaties van onafhankelijke en gelijk verdeelde stochastische grootheden Z 1,..., Z n. We nemen als (marginaal) statistisch model voor Z i alle mogelijke continue kansverdelingen op R. Omdat Z 1,..., Z n onderling onafhankelijk en identiek verdeeld zijn, ligt het statistische model van Z = (Z 1,..., Z n ) daarmee vast. Met deze tweede onderzoeksmethode worden personen gepaard op geslacht en begingewicht; we spreken dan van gepaarde waarnemingen. Bij de eerste methode was er geen sprake van paren en hadden we te maken met ongepaarde data. Een alternatief statistisch model dat ook rekening kan houden met het effect van geslacht en begingewicht is een zogenaamd regressiemodel. Een regressiemodel kan eenvoudig worden uitgebreid, zodat met nog meer factoren rekening kan worden gehouden. Het regressiemodel komt in Voorbeeld 2.7 en in Hoofdstuk 8 aan de orde. Voorbeeld 2.6 (Poisson-voorraden). Een bepaald artikel wordt verkocht in aantallen die wisselen per filiaal van een warenhuis, en fluctueren in de tijd. Om het totaal aantal benodigde artikelen te schatten houdt het centrale distributiecentrum gedurende een aantal weken het totaal aantal verkochte artikelen per week en filiaal bij. Men neemt waar x = (x 1,1, x 1,2,..., x I,J ), waarbij x i,j het aantal artikelen is dat verkocht werd in filiaal i in week j. De waarneming is dus een vector ter lengte van het product IJ van het aantal filialen en het aantal weken, met als coördinaten gehele getallen. De waarnemingen kunnen worden gezien als realisaties van de stochastische vector X = (X 1,1, X 1,2,..., X I,J ). Veel verschillende statistische modellen voor X zijn mogelijk en zinvol in gegeven situaties. Een veel gebruikt (want vaak redelijk passend) model postuleert: - iedere X i,j is Poisson-verdeeld met onbekende parameter µ i,j ; - de X 1,1,..., X I,J zijn onderling onafhankelijk. Dit legt de kansverdeling van X vast op de verwachtingen µ i,j = EX i,j na.

2.2: Enkele voorbeelden 11 Het zijn deze verwachtingen waarin het distributiecentrum geïnteresseerd is. De totale verwachte vraag in week j is bijvoorbeeld i µ i,j. Met behulp van deze waarde en het Poisson-karakter van de echte vraag i X i,j kan het distributiecentrum een voorraadgrootte kiezen zodanig dat met een bepaalde (grote) kans voldoende voorraad aanwezig is. Het doel van de statistische analyse is om de µ i,j uit de data af te leiden. Tot zover hebben we de µ i,j volledig vrij gelaten. Dat maakt het moeilijk om ze uit de data te schatten, omdat er immers slechts één waarneming, x i,j, per µ i,j beschikbaar is. Het is niet onredelijk het statistische model te verkleinen door a priori veronderstellingen over µ i,j in te bouwen. We zouden bijvoorbeeld kunnen postuleren dat µ i,j = µ i niet van j afhangt. Het verwachte aantal te verkopen artikelen hangt dan wel van het filiaal af, maar is constant in de tijd. Nu resteren nog slechts I onbekenden en deze zijn redelijk goed uit de data te schatten mits het aantal weken J niet te klein is. Flexibelere, alternatieve modellen zijn µ i,j = µ i + β i j en µ i,j = µ i +βµ i j, met respectievelijk 2I en I +1 parameters. Beide modellen corresponderen met een lineaire afhankelijkheid van de verwachte vraag van de tijd. Voorbeeld 2.7 (Regressie). Lange ouders krijgen over het algemeen lange kinderen en korte ouders, korte kinderen. De lengte van de ouders hebben een grote voorspellende waarde voor de zogenaamde eindlengte van hun kinderen, de lengte als kinderen zijn uitgegroeid. Er zijn meer factoren die invloed hebben. Het geslacht van het kind speelt natuurlijk een belangrijke rol. Ook omgevingsfactoren als gezonde voeding en hygiëne zijn van belang. Door verbeterde voeding en een toegenomen hygiëne in de afgelopen 150 jaar hebben factoren die de lengtegroei belemmeren, als infectieziekten en ondervoeding, minder kans gekregen in de meeste Westerse landen. Hierdoor is de gemiddelde lichaamslengte toegenomen en worden kinderen elke generatie langer. De streeflengte (of target height ) van een kind is de eindlengte die kan worden verwacht op basis van de lengte van de ouders, het geslacht van het kind en de toename van lichaamslengte over generaties. De vraag luidt op welke manier de streeflengte afhangt van deze factoren. Definieer Y als de eindlengte die een kind zal bereiken, x 1 en x 2 als de lengte van de biologische vader en moeder, en x 3 als een indicator voor het geslacht (x 3 = 1 voor een meisje en x 3 = 1 voor een jongen). De streeflengte EY wordt gemodelleerd met een zogenaamd lineair regressiemodel EY = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3, waarbij β 0 de toename van de gemiddelde lichaamslengte per generatie is, β 1 en β 2 de mate waarin de lengte van de ouders invloed hebben op de streeflengte van hun nageslacht en β 3 is de afwijking van de streeflengte tot de gemiddelde volwassen lengte die wordt veroorzaakt door het geslacht

12 2: Statistische Modellen van het kind. Aangezien mannen gemiddeld langer zijn dan vrouwen zal β 3 positief zijn. Bovenstaand lineair model zegt niets over individuele lengtes, maar enkel over dat van het nageslacht van ouders met een bepaalde lengte. Zo hebben twee broers dezelfde streeflengte; ze hebben immers dezelfde biologische ouders, hetzelfde geslacht en zijn geboren in dezelfde generatie. De werkelijke eindlengte Y kan geschreven worden als Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + e, waarbij e = Y EY de afwijking is van de werkelijke eindlengte Y ten opzichte van de streeflengte EY. De waarneming Y wordt ook wel de afhankelijke variabele genoemd en de variabelen x 1, x 2 en x 3 de onafhankelijke of verklarende variabelen. Veelal wordt verondersteld dat e normaal verdeeld is met verwachting 0 en onbekende variantie σ 2. De eindlengte Y heeft dan een normale verdeling met verwachting β 0 +β 1 x 1 +β 2 x 2 +β 3 x 3 en variantie σ 2. In Nederland wordt periodiek de lengtegroei van de jeugd in kaart gebracht. In 1997 vond de Vierde Landelijke Groeistudie plaats. Een onderdeel van het onderzoek betrof de relatie tussen de eindlengte van kinderen en de lengte van hun ouders. Om deze relatie te bepalen waren gegevens verzameld van jongvolwassenen en hun ouders. Dit leverde de volgende waarnemingen: (y 1, x 1,1, x 1,2, x 1,3 ),...(y n, x n,1, x n,2, x n,3 ) op, waar y i de lichaamslengte van de i e jongvolwassene is, x i,1 en x i,2 de lengte van de biologische ouders, en x i,3 een indicator voor het geslacht van de i e jongvolwassene. Veronderstel dat de waarnemingen onafhankelijke replicaties zijn uit bovenstaand lineair regressiemodel; dat wil zeggen dat gegeven x i,1, x i,2, en x i,3, Y i verwachting β 0 + β 1 x i,1 + β 2 x i,2 + β 3 x i,3 en variantie σ 2 heeft. De parameters (β 0, β 1, β 2, β 3 ) zijn onbekend en kunnen geschat worden op basis van de waarnemingen. Voor een eenvoudige interpretatie van het model is er voor gekozen om β 1 = β 2 = 1/2 te nemen, zodat de streeflengte gelijk is aan de gemiddelde ouderlengte gecorrigeerd voor het geslacht van het kind en de invloed van de tijd. De parameters β 0 en β 3 zijn gelijk aan de toename van de lichaamslengte in de afgelopen generatie en de helft van het gemiddelde lengteverschil tussen mannen en vrouwen. Deze parameters werden geschat met behulp van de kleinste kwadratenmethode (zie Voorbeeld 4.42). De parameter β 0 is geschat met 4.5 centimeter en β 3 met 6.5 centimeter. Het geschatte regressiemodel is dan gelijk aan (2.1) Y = 4.5 + 1 2 (x 1 + x 2 ) + 6.5x 3 + e. In Figuur 2.3 is de lichaamslengte van 44 jongvolwassen mannen (links) en 67 jongvolwassen vrouwen (rechts) uitgezet tegen de gemiddelde lichaamslengte van hun ouders. De lijn is gelijk aan de geschatte regressielijn Bron: De data zijn verzameld door de afdeling Biologische Psychologie van de Vrije Universiteit in het kader van een onderzoek naar gezondheid, levensstijl en persoonlijkheid.

2.2: Enkele voorbeelden 13 170 175 180 185 190 195 200 160 165 170 175 180 185 165 170 175 180 185 165 170 175 180 185 Figuur 2.3. Lengte van zonen (links) en dochters (rechts) uitgezet tegen de gemiddelde lichaamslengte van hun ouders. De lijn is de regressielijn gevonden in de Vierde Landelijke Groeistudie. gevonden in de Vierde Landelijke Groeistudie. Het geschatte regressiemodel dat gevonden werd in de Vierde Landelijke Groeistudie, kunnen we gebruiken voor het voorspellen van de eindlengte van kinderen die nu geboren worden. We moeten dan wel veronderstellen dat de lengtetoename de komende generatie opnieuw 4.5 centimeter is en het gemiddelde lengteverschil tussen mannen en vrouwen gelijk aan 13 centimeter blijft. Op basis van het bovenstaande model zijn de streeflengten voor zonen en dochters van een man met een lengte van 180 centimeter en een vrouw van 172 centimeter gelijk aan 4.5 + (180 + 172)/2 + 6.5 = 187 centimeter en 4.5 + (180 + 172)/2 6.5 = 174 centimeter. In andere Europese landen worden andere modellen gebruikt. In Zwitserland, bijvoorbeeld, is de streeflengte gelijk aan EY = 51.1 + 0.718 x 1 + x 2 2 + 6.5x 3. Nu is de streeflengte van de zonen en dochters van ouders met dezelfde lengte als in het voorbeeld hiervoor gelijk aan 184 en 171 centimeter. In het voorgaande voorbeeld bestaat er een lineair verband tussen de respons Y en de onbekende parameters β 0,..., β 3. In dat geval spreken we van een lineair regressiemodel. Het meest eenvoudige lineaire regressiemodel is het model waarbij er slechts één verklarende variabele is: Y = β 0 + β 1 x + e; het enkelvoudige lineaire regressiemodel (in tegenstelling tot meervoudige lineaire regressie als er meerdere verklarende variabelen zijn).

14 2: Statistische Modellen In het algemeen spreken we van een regressiemodel als er een specifieke samenhang bestaat tussen de respons Y en waarnemingen x 1,..., x p : Y = f θ (x 1,..., x p ) + e waarbij f θ de relatie tussen de waarnemingen x 1,..., x p en de respons Y beschrijft, en de stochastische variabele e een niet-waarneembare meetfout is met verwachting nul en onbekende variantie σ 2. Indien de functie f θ bekend is op de eindig-dimensionale parameter θ na, dan spreken we van een parametrisch model. Het lineaire regressiemodel is hier een voorbeeld van; in dit model is θ = (β 0,..., β p ) R p+1 en f θ (x 1,..., x p ) = β 0 + β 1 x 1 +... + β p x p. Het regressiemodel ligt dan vast als waarden voor θ en σ 2 bekend zijn. De functie f θ kan echter ook onbekend zijn op de eindig dimensionale parameter θ en een oneindig dimensionale parameter na. We spreken dan van een semi-parametrisch model. Een voorbeeld van een semiparametrisch model is het Cox-regressiemodel. Dit model wordt beschreven aan het einde van dit hoofdstuk, na de opgaven. In Hoofdstuk 8 komen verschillende regressiemodellen, waaronder het lineaire regressiemodel en het Cox-regressiemodel, uitvoerig aan de orde. Voorbeeld 2.8 (Waterhoogten). In de 20 e eeuw (tussen 1910 en 2000) werd 70 keer een periode met extreem hoge waterdoorvoer in de Maas te Borgharen gemeten. Hierbij wordt extreem door Rijkswaterstaat gedefinieerd als meer dan 1250 m 3 /sec.. De maximum waterdoorvoeren gedurende deze 70 periodes zijn weergegeven in Figuur 2.4 in de volgorde waarin ze zijn opgetreden. Het probleem is de toekomst te voorspellen. Rijkswaterstaat is in het bijzonder geïnteresseerd in de vraag hoe hoog de dijken moeten zijn om hooguit eens in de 10 000 jaar te overstromen. Door middel van een hydraulisch model is de waterhoogte te berekenen uit de waterdoorvoer. Omdat de maximum waterdoorvoeren x 1,..., x 70 zijn gemeten in (meestal) verschillende jaren, en de waterstand in de Maas vooral afhangt van het weer in de Ardennen en verder stroomopwaarts, is het niet onredelijk deze getallen op te vatten als realisaties van onafhankelijke stochastische grootheden X 1,..., X 70. Op de aanname dat deze grootheden ook identiek verdeeld zijn is wel wat af te dingen, want de loop van de Maas (en ook het klimaat) is in de loop van de vorige eeuw geleidelijk aan veranderd, maar deze aanname wordt meestal toch gemaakt. We kunnen X 1,..., X 70 dan opvatten als onafhankelijke kopieën van een variabele X en de gemeten waarden x 1,..., x 70 gebruiken om de gestelde vraag te beantwoorden. Definieer E als de gebeurtenis dat een overstroming plaatsvindt in een (willekeurig) jaar. De kans op gebeurtenis E is bij benadering gelijk aan het verwachte aantal extreme periodes in een jaar EN, maal de kans dat er een overstroming plaatsvindt in een extreme periode, ofwel P(E) EN P(X > h) voor X een maximum waterdoorvoer in een periode met extreme waterdoorvoer, h de maximale waterdoorvoer opdat net

2.2: Enkele voorbeelden 15 geen overstroming plaatsvindt en N het aantal malen extreem hoog water in een willekeurig jaar. Bij deze berekening is gebruikt dat de kans op een overstroming in een extreme periode P(X > h) klein is. De kansverdeling van N is onbekend, maar het is redelijk te veronderstellen dat de verwachting van N bij benadering gelijk is aan het gemiddeld aantal periodes met extreme waterdoorvoer per jaar over de afgelopen 90 jaar; dus EN 70/90. De vraag luidt nu: voor welk getal h geldt dat P(X > h) = 1/10000 90/70 = 0.00013? 0 500 1000 1500 2000 2500 3000 Figuur 2.4. Maximum waterdoorvoeren in m 3 /seconde (verticale as) in de Maas te Borgharen in de 20 e eeuw in volgorde van optreden (horizontale as). Die vraag is niet eenvoudig te beantwoorden. Hadden we waargenomen maxima voor een periode van 100 000 jaar (of meer) tot onze beschikking, dan zouden we h met een redelijke nauwkeurigheid kunnen bepalen, bijvoorbeeld als de waarde van de op de 10% na grootste gemeten waterstand (10%= 10 000/100 000). Helaas hebben we maar 70 waarnemingen tot onze beschikking en moeten we dus ver extrapoleren naar een (waarschijnlijk) veel extremere situatie dan ooit is gemeten. Als we een goed model voor de verdeling van X kunnen bepalen, dan is dit geen probleem. Als we bijvoorbeeld zouden weten dat X standaard exponentieel verdeeld is, dan zouden we h kunnen bepalen uit de vergelijking 0.00013 = P(X > h) = e h. Dit is echter geen realistische aanname. Een alternatief wordt gegeven door een extreme-waardenverdeling aan de data te fitten. Dit zijn kansverdelingen die veel gebruikt worden voor de modellering van grootheden X die kunnen worden opgevat als een maximum X = max(y 1,..., Y m ) van een groot aantal onafhankelijke grootheden Y 1,..., Y m. Gegeven de interpretatie van X als een maximum waterdoorvoer in een periode lijken dergelijke verdelingen redelijk. Van de drie typen extreme-waardenverdelingen blijkt één type redelijk bij de waargenomen waterdoorvoeren te passen. Dit is de Fréchet-familie, waarvan de verde-

16 2: Statistische Modellen lingsfunctie wordt gegeven door { F (x) = e ((x a)/b) α als x a, 0 als x < a. De Fréchet-familie heeft drie parameters: a R, b > 0 en α > 0. Als we overtuigd zijn van de zinvolheid van het gebruik van het resulterende model, kunnen we deze parameters uit de 70 datapunten schatten, en vervolgens de gestelde vraag beantwoorden middels een eenvoudige berekening. In Hoofdstuk 4 bespreken we geschikte schattingsmethoden. Voorbeeld 2.9 (Levensduuranalyse). In de levensduuranalyse onderzoekt men de kansverdeling van tijdsduren. We kunnen hier denken aan de levensduur van een gloeilamp, maar ook aan de tijdsduur tot het optreden van de volgende bug in een computerprogramma ( reliability analysis ), en vooral ook aan de tijd tot overlijden of tot het optreden van een ziekte in de medische statistiek. Hieronder volgt een voorbeeld ter illustratie. Bij mensen met een lekkende hartklep wordt veelal de hartklep vervangen door een biologische of mechanische hartklep. Een nadeel van de biologische ten opzichte van de mechanische hartklep is zijn relatief korte levensduur (10 tot 15 jaar). Om de verdelingsfunctie F van de tijd dat een biologische hartklep meegaat te onderzoeken, worden n mensen met een dergelijke hartklep gevolgd vanaf hun operatie tot het moment dat de hartklep vervangen moet worden. Aan het einde van de studie hebben we dan voor elk van de n hartkleppen zijn levensduur t 1,..., t n waargenomen. We vatten deze getallen op als realisaties van onafhankelijke stochastische grootheden T 1,..., T n met verdelingsfunctie F. De kans F (t) dat een biologische hartklep binnen t jaar vervangen moet worden kunnen we schatten met de fractie van hartkleppen in de steekproef die binnen t jaar vervangen is. Een speciaal aspect bij levensduuranalyse is dat vaak niet alle levensduren worden waargenomen. Op het moment dat we conclusies uit de data willen trekken, zijn nog niet alle hartkleppen aan vervanging toe of is de patiënt overleden met een nog goede hartklep. Van deze levensduren is slechts een ondergrens bekend; de tijd tot het einde van de studie of tot het overlijden van de patiënt. We weten immers dat de hartklep nog werkte toen de studie werd stopgezet of de patiënt overleed. Men spreekt dan van gecensureerde data. Langere levensduren zullen vaker gecensureerd zijn dan kortere, omdat de kans dat de patiënt in een lange periode komt te overlijden groter is dan in een korte periode (en evenzo voor het einde van de studie). Het is daarom verkeerd de gecensureerde data te negeren en de verdelingsfunctie F te schatten op basis van de niet-gecensureerde data. Dit zou leiden tot een overschatting van de verdelingsfunctie van de levensduur en een onderschatting van de verwachte levensduur, omdat relatief veel langere levensduren zouden worden genegeerd. Een correcte benadering is om een statistisch