ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

Maat: px
Weergave met pagina beginnen:

Download "ALGEMENE STATISTIEK. A.W. van der Vaart en anderen"

Transcriptie

1 ALGEMENE STATISTIEK A.W. van der Vaart en anderen

2 VOORWOORD Dit collegedictaat omvat de stof van het college Algemene Statistiek, zowel de versie voor Econometrie en Wiskunde studenten, als de versie voor BWI studenten. Niet alle delen van het dictaat behoren tot de tentamenstof van de twee colleges. Welke delen tot welk tentamen behoren wordt op de colleges en via de webpagina s bekend gemaakt. De nadruk ligt op de fundamentele begrippen en methoden van de statistiek: schatten, toetsen en betrouwbaarheidsintervallen. Basis begrippen en methoden staan centraal en worden geïllustreerd aan de eenvoudigste statistische modellen. Het dictaat begint met enige data-analyse en besluit met enige optimaliteitstheorie. Het doel van de voorbeelden is niet een compendium van statistische technieken te geven (zie hiervoor een statistisch handboek), maar om bij te dragen aan een goed begrip van de basis stof. Paragrafen, definities, etc. gemerkt met een * behoren niet tot de tentamenstof, tenzij de docent anders besluit tijdens het semester. De wiskundige stijl is informeler dan dat van een tweedejaars wiskunde college. Stellingen en lemma s worden niet (of onvolledig) bewezen, en/of op een informele manier geformuleerd. Een gedeelte van deze resultaten komt uitvoeriger aan de orde in de colleges Mathematische Statistiek en Grondslagen Waarschijnlijkheidsrekening. De stof van een eerstejaars college kansrekening wordt bekend verondersteld. Hoewel in het dictaat een aantal voorbeelden is opgenomen, is oefening aan de hand van vraagstukken onontbeerlijk om een goed inzicht in de stof te verkrijgen. In de vraagstukkencollectie zijn ook meer praktisch gerichte opgaven opgenomen. Bovendien behoren bij het college voor BWI studenten enkele computeropgaven. Voor uitvoerige praktische oefening met echte data verwijzen we echter naar, bijvoorbeeld, de colleges Statistische Data Analyse en Statistische Modellen. Bij dit collegedictaat zijn enkele tabellen gevoegd. Deze zijn bedoeld voor gebruik thuis of tijdens de praktika. In het echt worden deze tabellen niet meer gebruikt: de computer is sneller, nauwkeuriger en gemakkelijker in het gebruik. Het statistisch pakket R bevat bijvoorbeeld standaard functies voor de verdelingsfunctie, de dichtheidsfunctie en de kwantielfunctie van alle standaard verdelingen. Amsterdam, januari 2008

3 LITERATUUR [1] Freedman, D., (2005). Statistical Models: theory and applications. Cambridge University Press, Cambridge. [2] van der Vaart, A.W., (1998). Asymptotic Statistics, Cambridge University Press, Cambridge.

4 INHOUD 1. Inleiding Wat is statistiek? Beschrijvende versus Mathematische Statistiek Indeling van het boek Statistische Modellen Introductie Enkele voorbeelden Opgaven Cox regressie Verdelingsonderzoek Introductie Univariate Steekproeven Samenhang Opgaven De Wet van Benford Schatters Introductie Mean Square Error Maximum Likelihood-Schatters Momentenschatters Bayes-schatters M-Schatters Opgaven Erfelijkheidsonderzoek Toetsen Nulhypothese en Alternatieve Hypothese Toetsingsgrootheid en Kritiek Gebied Statistische Significantie Overschrijdingskansen Enkele Standaard Toetsen Likelihood-Ratiotoetsen Score- en Wald-Toetsen Meervoudig Toetsen Opgaven Aandelen volgens Black-Scholes Betrouwbaarheidsgebieden Introductie Pivots en Bijna-Pivots Maximum Likelihood-Schatters als Bijna-Pivots Betrouwbaarheidsgebieden en Toetsen Likelihood-Ratiogebieden Bayesiaanse Betrouwbaarheidsgebieden Opgaven

5 Het Salk Vaccin Optimaliteitstheorie Voldoende Statistieken Schattingstheorie Toetsingstheorie Opgaven Hoogwater in Limburg Regressiemodellen Lineaire Regressie Variantie-Analyse Niet-lineaire en niet-parametrische regressie Classificatie Cox-regressiemodel Opgaven Regressiemodellen en Causaliteit Appendix A: Elementen uit de Kansrekening Verdelingen Verwachting en variantie Standaard verdelingen Multivariate en marginale verdelingen Onafhankelijkheid en conditionering Limietstellingen en de normale benadering Opgaven Appendix B: Multivariaat-Normale Verdeling Covariantiematrices Definitie en Basis Eigenschappen Voorwaardelijke Verdelingen Multivariate Centrale Limietstelling Afgeleide Verdelingen Appendix C: Tabellen Normale Verdeling t-verdeling Chikwadraat-Verdeling Binomiale Verdeling (n = 10) Index

6 1 Inleiding 1.1 Wat is statistiek? Statistiek is de kunst van het modelleren van situaties waarin toeval een rol speelt, en van het trekken van conclusies op basis van data waargenomen in dergelijke situaties. Enkele typerende vragen die met behulp van statistiek kunnen worden beantwoord zijn: (i) Wat is de kans dat de Maas komend jaar buiten zijn oevers treedt? (ii) Is de nieuwe medische behandeling significant beter dan de oude? (iii) Wat is de onzekerheidsmarge in de voorspelling van het aantal zetels voor politieke partij A? Het beantwoorden van dergelijke vragen is verre van eenvoudig. De mathematische statistiek levert een algemeen kader waarmee de onderzoeksvraag beantwoord kan worden op basis van een opgesteld statistisch model. Binnen dit kader geeft het ook een oordeel over de kwaliteit van een gegeven antwoord. Om een geschikt statistisch model voor beschikbare data op te stellen, moet inzicht verkregen worden in de manier waarop de data verzameld zijn. Wanneer er nog geen data beschikbaar zijn, zullen die moeten worden verzameld. Het verkrijgen van relevante data vereist een goede, doordachte opzet. Zo zal bij een onderzoeksvraag die een bepaalde populatie betreft (bijvoorbeeld de populatie van patiënten met een hoge bloeddruk, stemgerechtigden, of eindprodukten van een productieproces), data verzameld moeten worden van een groep mensen die representatief is voor de gehele populatie. Ten slotte moet dan een geschikt statistisch model worden opgesteld voor de data.

7 1.2: Beschrijvende versus Mathematische Statistiek 3 De vragen (i) (ii) (iii) corresponderen met de drie basis concepten in de statistiek: schatten, toetsen en betrouwbaarheidsgebieden, welke uitgebreid aan de orde komen in dit boek. De nadruk ligt in dit boek op de mathematische statistiek; het verzamelen van data, het vervolgens modelleren van de data, en beschrijvende statistiek komen slechts summier aan bod. 1.2 Beschrijvende versus Mathematische Statistiek Waarnemingen, meestal rijen getallen, kan men middelen, tabelleren, grafisch weergeven, of anderszins bewerken. De beschrijvende statistiek houdt zich bezig met het verzamelen en op inzichtelijke wijze samenvatten van data. Zulke beschrijvende statistiek, op grote schaal beoefend door bijvoorbeeld het Centraal Bureau voor de Statistiek, is van groot belang en kan heel interessant zijn. Beschrijvende statistiek wordt ook veel gebruikt bij het opstellen van statistische modellen (zie Hoofdstuk 2) en het controleren van modelaannames (zie Hoofdstuk 3). In dit boek komt zij echter nauwelijks aan de orde. De mathematische statistiek ontwikkelt en bestudeert methoden voor het analyseren van waarnemingen, die gebaseerd zijn op kansmodellen. Waarneming x wordt opgevat als een realisatie van een stochastische grootheid of vector X. In de waarschijnlijkheidsrekening wordt een precieze definitie gegeven van stochastische vectoren. Voor de statistiek is vooral van belang dat een stochastische vector een kansverdeling bezit. Deze kan worden vastgelegd door een verdelingsfunctie of kansdichtheid. In de statistiek willen we op grond van de realisatie x de ware kansverdeling van X bepalen. Op grond van kennis van die ware kansverdeling kunnen we vervolgens nieuwe uitkomsten voorspellen, of oude uitkomsten verklaren. 1.3 Indeling van het boek De drie kernpunten van de mathematische statistiek zijn schatten, toetsen en het construeren van betrouwbaarheidsgebieden. Deze onderwerpen komen achtereenvolgens aan de orde in de Hoofdstukken 4, 5 en 6. Deze concepten maken gebruik van een statistisch model voor de data, waarvan in Hoofdstuk 2 de definitie en een aantal voorbeelden worden gegeven. Enkele technieken uit de beschrijvende statistiek die hulp kunnen bieden bij het opstellen en valideren van statistische modellen worden besproken in Hoofdstuk 3. Hoofdstuk 7 geeft een theoretische verdieping, waarin met name de vraag aan de orde komt onder welke omstandigheden en in welke

8 4 1: Inleiding zin bepaalde statistische methoden wiskundig optimaal zijn. In Hoofdstuk 8 worden enkele regressiemodellen die in de praktijk veel gebruikt worden beschreven. De theorie uit de voorgaande hoofdstukken wordt hierin toegepast om onbekende modelparameters te schatten, te toetsen en betrouwbaarheidsintervallen voor deze parameters op te stellen. Het boek heeft drie appendices. In Appendix 9 wordt een aantal elementen uit de kansrekening behandeld die van belang zijn voor het begrip van de stof in het boek. In Appendix 10 worden eigenschappen van de meerdimensionaal normale verdeling besproken. Deze appendix ondersteunt het begrip van een aantal paragrafen waarin deze verdeling wordt gebruikt. Appendix 11 bevat tabellen met waarden van de verdelings- en kwantielfuncties van enkele verdelingen waarnaar verwezen wordt in de tekst. Deze tabellen kunnen worden gebruikt als er geen computer voor handen is. Met een statistisch pakket als R kunnen de waarden met een veel grotere nauwkeurigheid worden verkregen.

9 2 Statistische Modellen 2.1 Introductie In zekere zin is de richting van de statistiek precies de omgekeerde van die van de waarschijnlijkheidsrekening: de uitslagen van een experiment zijn waargenomen, maar het onderliggende kansmodel is (deels) onbekend en dient uit de uitslagen te worden afgeleid. Uiteraard is de experimentele situatie niet geheel onbekend. Alle bekende informatie wordt gebruikt om een zo goed mogelijk statistisch model te construeren. Een formele definitie van een statistisch model is als volgt. Definitie 2.1. Een statistisch model is een collectie van kansverdelingen op een gegeven uitkomstenruimte. De interpretatie van een statistisch model is: de collectie van alle mogelijk geachte kansverdelingen voor de waarneming X. Hierin is X het geheel van de waarnemingen. Meestal is deze totale waarneming opgebouwd uit deelwaarnemingen en is X = (X 1,..., X n ) een stochastische vector. Wanneer de variabelen X 1,..., X n corresponderen met onderling onafhankelijke replicaties van hetzelfde experiment, dan spreken we van een steekproef. De variabelen X 1,..., X n zijn dan onderling onafhankelijk en identiek verdeeld en hun simultane verdeling wordt volledig bepaald door de marginale verdeling, die voor alle X i s gelijk is. In dat geval kan het statistische model voor X = (X 1,..., X n ) worden beschreven door een collectie van (marginale) kansverdelingen voor de deelwaarnemingen X 1,..., X n.

10 6 2: Statistische Modellen 2.2 Enkele voorbeelden Het begrip statistisch model wordt pas echt duidelijk door voorbeelden. Zo eenvoudig als het wiskundige begrip statistisch model is uitgedrukt in de voorgaande definitie, zo ingewikkeld is het proces van statistisch modelleren van een gegeven praktijksituatie. Het resultaat van een statistisch onderzoek staat of valt echter met het construeren van een goed model. Voorbeeld 2.2 (Steekproef). Van een grote populatie bestaande uit N personen heeft een onbekende fractie p een bepaalde eigenschap A; deze fractie p willen we schatten. Het wordt als te veel moeite beschouwd om alle personen uit de populatie op eigenschap A te onderzoeken. In plaats daarvan kiest men aselect n personen uit de populatie, met teruglegging. Men neemt (een realisatie van) de stochastische grootheden X 1,..., X n waar, waarbij { 0 als de i X i = e persoon A niet heeft, 1 als de i e persoon A wel heeft. Vanwege de manier waarop het experiment is ingericht (trekken met teruglegging) weten we a priori dat X 1,..., X n onderling onafhankelijk en alternatief verdeeld zijn. Dat laatste wil zeggen dat P(X i = 1) = 1 P(X i = 0) = p voor i = 1,..., n. Over de parameter p is geen a priori kennis beschikbaar, anders dan dat 0 p 1. De totale waarneming is hier de vector X = (X 1,..., X n ). Het statistische model voor X bestaat uit alle mogelijk geachte (simultane) kansverdelingen van X waarvan de coördinaten, X 1,..., X n, onderling onafhankelijk en alternatief verdeeld zijn. Voor iedere mogelijke waarde van p bevat het statistische model precies één kansverdeling voor X. Het ligt voor de hand de onbekende p te schatten met de fractie van het aantal personen met eigenschap A; dus met n 1 n i=1 x i waarbij x i gelijk is aan 1 of 0 al naar gelang de persoon eigenschap A wel of niet heeft. In Hoofdstuk 4 geven we een precieze betekenis aan schatten. In Hoofdstuk 6 gebruiken we het zojuist beschreven model om te kwantificeren hoever deze schatter van p zal afwijken, met behulp van een betrouwbaarheidsinterval. Bijna nooit zullen de populatie- en steekproeffractie immers precies gelijk zijn. Een betrouwbaarheidsinterval geeft een precieze betekenis aan de foutenmarge die vaak bij de uitslag van een opiniepeiling wordt vermeld. We zullen ook berekenen hoe groot die marge is wanneer we bijvoorbeeld 1000 personen uit de populatie onderzoeken, een gebruikelijk aantal bij een opiniepeiling onder de Nederlandse bevolking. Voorbeeld 2.3 (Trekken zonder teruglegging). Veronderstel dat in het voorgaande voorbeeld de n personen aselect uit de populatie worden

11 2.2: Enkele voorbeelden 7 gekozen zonder terugleggen. Dan zijn X 1,..., X n niet onafhankelijk waardoor het statistische model voor X = (X 1,..., X n ) niet vastligt met een keuze voor een model voor de deelwaarnemingen X 1,..., X n ; de afhankelijkheid tussen de deelwaarnemingen moet ook gemodelleerd worden. Om de onbekende fractie p te schatten is het voldoende om de waarneming X = (X 1,..., X n ) te reduceren tot de som Z = n i=1 X i; het totaal aantal personen met eigenschap A in de trekking (dit wordt besproken in Paragraaf 7.1). Het is a priori bekend dat Z een hypergeometrische verdeling bezit met parameters (N, pn, n). We veronderstellen dat n vooraf bekend is. Het statistische model voor waarneming Z bestaat dan uit alle hypergeometrische verdelingen met parameters (N, pn, n) met N n, n vast en 0 p 1. Het is mogelijk dat ook N vooraf bekend is. Dan verkleinen we het model tot alle hypergeometrische verdelingen met parameters (N, pn, n) met N en n vast en 0 p 1. Voorbeeld 2.4 (Meetfouten). Als een fysicus middels een experiment herhaaldelijk de waarde van een constante µ bepaalt, vindt hij niet steeds dezelfde waarde. Zie bijvoorbeeld Figuur 2.1, waarin de 23 bepalingen van de lichtsnelheid door Michelson in 1882 zijn weergegeven. De vraag is hoe de onbekende constante µ op grond van de waarnemingen, een rij getallen x 1,..., x n, geschat kan worden. Voor de waarnemingen in Figuur 2.1 zal deze schatting in de range liggen, maar de vraag is waar. Een statistisch model verleent houvast bij het beantwoorden van deze vraag. Kansmodellen zijn in deze context voor het eerst toegepast aan het eind van de 18 e eeuw, en de normale verdeling werd door Gauss rond 1810 ontdekt precies met het doel inzicht te geven in deze situatie Figuur 2.1. Grafische weergave van de resultaten van de 23 metingen van de lichtsnelheid door Michelson in De schaal op de horizontale as geeft de gemeten lichtsnelheid (in km per seconde) min km/sec. Als de metingen steeds onder dezelfde omstandigheden worden ver-

12 8 2: Statistische Modellen richt, steeds onafhankelijk van het verleden, dan is het redelijk in het model op te nemen dat deze getallen realisaties zijn van onderling onafhankelijke en identiek verdeelde stochastische variabelen X 1,..., X n. De meetfouten e i = X i µ zijn dan eveneens stochastische variabelen. Een gebruikelijke aanname is dat de verwachte meetfout gelijk is aan 0, met andere woorden Ee i = 0, en dus is EX i = E(e i + µ) = µ. Aangezien wordt aangenomen dat X 1,..., X n onafhankelijke stochastische variabelen zijn en dezelfde kansverdeling hebben, ligt het model voor X = (X 1,..., X n ) vast als we een statistisch model voor X i kiezen. Voor X i postuleren we het model: alle kansverdelingen met eindige verwachting µ. Het statistische model voor X is dan: alle mogelijke kansverdelingen van X = (X 1,..., X n ) zodanig dat de coördinaten X 1,..., X n onderling onafhankelijk en identiek verdeeld zijn met verwachting µ. Fysici menen vaak meer a priori informatie te bezitten, en doen dan meer modelaannames. Ze veronderstellen bijvoorbeeld dat de meetfouten normaal verdeeld zijn met verwachting 0 en variantie σ 2, ofwel dat de waarnemingen X 1,..., X n normaal verdeeld zijn met verwachting µ en variantie σ 2. Het statistische model is dan gelijk aan: alle kansverdelingen van X = (X 1,..., X n ) zodanig dat de coördinaten onderling onafhankelijk en N(µ, σ 2 )-verdeeld zijn. Het uiteindelijke doel is iets te zeggen over µ. Bij het tweede model is meer bekend, dus moet het mogelijk zijn met meer zekerheid iets over µ te zeggen. Anderzijds is er natuurlijk meer kans dat het tweede model onjuist is, in welk geval de winst aan zekerheid slechts een schijnzekerheid is. In de praktijk blijken meetfouten vaak, maar niet altijd, bij benadering normaal verdeeld te zijn. Dergelijke normaliteit is te motiveren met behulp van de Centrale Limietstelling (zie Stelling 9.28) indien een meetfout kan worden opgevat als de som van een groot aantal onafhankelijke kleine meetfouten (met eindige varianties), maar kan niet op theoretische gronden worden bewezen. In Hoofdstuk 3 bespreken we technieken om normaliteit aan de data zelf te onderzoeken. Het belang van een precies omschreven model is onder andere dat het mogelijk maakt te bepalen wat een zinvolle manier is om µ uit de waarnemingen te schatten. Het middelen van x 1,..., x n ligt voor de hand. In Hoofdstuk 7 zullen we zien dat dit het beste is (volgens een bepaald criterium) als de meetfouten inderdaad een normale verdeling volgen met verwachting 0. Zouden de meetfouten echter Cauchy-verdeeld zijn, dan is middelen desastreus. Dit blijkt uit Figuur 2.2. Deze toont voor n = 1, 2,..., 1000 het gemiddelde n 1 n i=1 x i van de eerste n realisaties x 1,..., x 1000 van een steekproef uit een standaard Cauchy-verdeling. De gemiddelden gedragen zich chaotisch en komen niet steeds dichter bij 0. Dit kan worden verklaard uit het opmerkelijke theoretische resultaat dat het gemiddelde n 1 n i=1 X i van onderling onafhankelijke standaard Cauchy-verdeelde stochastische grootheden X 1,..., X n zelf ook standaard Cauchy-verdeeld is. Middelen doet hier niets!

13 2.2: Enkele voorbeelden Figuur 2.2. Cumulatieve gemiddelden (verticale as) van n = 1, 2,..., 1000 (horizontale as) realisaties uit de standaard Cauchy-verdeling. Voorbeeld 2.5 (Gepaarde en ongepaarde waarnemingen). De laatste jaren is het aantal verschillende diëten op de markt sterk toegenomen. Om de effectiviteit van diëten A en B met elkaar te vergelijken wordt een aselecte groep zwaarlijvige mensen geheel willekeurig in twee groepen ter grootte n en m verdeeld. De mensen in de eerste groep volgen dieet A en de mensen in de tweede groep dieet B. Na een halfjaar tijd wordt genoteerd hoeveel elke deelnemer is afgevallen. Voor de groep mensen die dieet A volgden, geeft dat de waarnemingen x 1,..., x n, waarbij x i de gewichtsafname van de i e persoon in de eerste groep voorstelt. Voor de tweede groep worden de gewichtsafnames genoteerd met y 1,..., y m. De waarden x 1,..., x n kunnen worden gezien als de realisaties van n onderling onafhankelijke en identiek verdeelde stochastische grootheden X 1,..., X n. Als statistisch model van X i nemen we alle mogelijke continue kansverdelingen op R. Daarmee sluiten we bij voorbaat een eventuele toename in gewicht niet uit. Het statistische model voor X = (X 1,..., X n ) ligt nu vast. Eveneens kunnen y 1,..., y m worden gezien als realisaties van stochastische variabelen Y 1,..., Y m welke onderling onafhankelijk en gelijk verdeeld zijn. Het statistische model voor Y = (Y 1,..., Y m ) nemen we analoog aan het model voor X. Om de twee diëten met elkaar te vergelijken kunnen de gemiddelde gewichtsafnames in de twee groepen met elkaar worden vergeleken. Met deze opzet van het onderzoek worden twee datasets die op geen enkele manier afhankelijk van elkaar zijn vergeleken; immers de groep zwaarlijvigen was aselect getrokken en geheel willekeurig in twee groepen verdeeld. Soms heeft het zin om de data opzettelijk afhankelijk van elkaar te maken, bijvoorbeeld door mensen te paren. Een reden om waarnemingen te paren kan zijn dat er meer factoren zijn die mogelijk invloed hebben op de uitkomst, gewichtsafname in dit voorbeeld. Corrigeren voor het effect

14 10 2: Statistische Modellen van deze factoren kan de onderzoeksresultaten betrouwbaarder maken. In dit voorbeeld hebben geslacht en begingewicht mogelijk invloed op de gewichtsafname. Om hier rekening mee te houden bij het vergelijken van de twee diëten, worden de personen in de steekproef in n groepjes van twee gedeeld; de mensen worden gepaard. De twee personen in elk paar zijn van hetzelfde geslacht en hebben ongeveer hetzelfde (begin)gewicht. Van elk groepje volgt één persoon dieet A en de andere persoon dieet B; wie welk dieet volgt, wordt geheel willekeurig bepaald. Na een halfjaar wordt gekeken hoeveel elke persoon is afgevallen; dit geeft de waarnemingsparen (x 1, y 1 ),..., (x n, y n ) waarbij x i de gewichtsafname van de persoon in het i e paar is die dieet A volgde en y i de gewichtsafname van de persoon in hetzelfde paar die dieet B volgde. Omdat we geïnteresseerd zijn in verschil in effectiviteit tussen de twee diëten, ligt het voor de hand om naar de verschillen z 1 = x 1 y 1,..., z n = x n y n te kijken en hier een statistisch model voor op te stellen in plaats van voor de gehele dataset. De verschillen z 1,..., z n worden weer gezien als realisaties van onafhankelijke en gelijk verdeelde stochastische grootheden Z 1,..., Z n. We nemen als (marginaal) statistisch model voor Z i alle mogelijke continue kansverdelingen op R. Omdat Z 1,..., Z n onderling onafhankelijk en identiek verdeeld zijn, ligt het statistische model van Z = (Z 1,..., Z n ) daarmee vast. Met deze tweede onderzoeksmethode worden personen gepaard op geslacht en begingewicht; we spreken dan van gepaarde waarnemingen. Bij de eerste methode was er geen sprake van paren en hadden we te maken met ongepaarde data. Een alternatief statistisch model dat ook rekening kan houden met het effect van geslacht en begingewicht is een zogenaamd regressiemodel. Een regressiemodel kan eenvoudig worden uitgebreid, zodat met nog meer factoren rekening kan worden gehouden. Het regressiemodel komt in Voorbeeld 2.7 en in Hoofdstuk 8 aan de orde. Voorbeeld 2.6 (Poisson-voorraden). Een bepaald artikel wordt verkocht in aantallen die wisselen per filiaal van een warenhuis, en fluctueren in de tijd. Om het totaal aantal benodigde artikelen te schatten houdt het centrale distributiecentrum gedurende een aantal weken het totaal aantal verkochte artikelen per week en filiaal bij. Men neemt waar x = (x 1,1, x 1,2,..., x I,J ), waarbij x i,j het aantal artikelen is dat verkocht werd in filiaal i in week j. De waarneming is dus een vector ter lengte van het product IJ van het aantal filialen en het aantal weken, met als coördinaten gehele getallen. De waarnemingen kunnen worden gezien als realisaties van de stochastische vector X = (X 1,1, X 1,2,..., X I,J ). Veel verschillende statistische modellen voor X zijn mogelijk en zinvol in gegeven situaties. Een veel gebruikt (want vaak redelijk passend) model postuleert: - iedere X i,j is Poisson-verdeeld met onbekende parameter µ i,j ; - de X 1,1,..., X I,J zijn onderling onafhankelijk. Dit legt de kansverdeling van X vast op de verwachtingen µ i,j = EX i,j na.

15 2.2: Enkele voorbeelden 11 Het zijn deze verwachtingen waarin het distributiecentrum geïnteresseerd is. De totale verwachte vraag in week j is bijvoorbeeld i µ i,j. Met behulp van deze waarde en het Poisson-karakter van de echte vraag i X i,j kan het distributiecentrum een voorraadgrootte kiezen zodanig dat met een bepaalde (grote) kans voldoende voorraad aanwezig is. Het doel van de statistische analyse is om de µ i,j uit de data af te leiden. Tot zover hebben we de µ i,j volledig vrij gelaten. Dat maakt het moeilijk om ze uit de data te schatten, omdat er immers slechts één waarneming, x i,j, per µ i,j beschikbaar is. Het is niet onredelijk het statistische model te verkleinen door a priori veronderstellingen over µ i,j in te bouwen. We zouden bijvoorbeeld kunnen postuleren dat µ i,j = µ i niet van j afhangt. Het verwachte aantal te verkopen artikelen hangt dan wel van het filiaal af, maar is constant in de tijd. Nu resteren nog slechts I onbekenden en deze zijn redelijk goed uit de data te schatten mits het aantal weken J niet te klein is. Flexibelere, alternatieve modellen zijn µ i,j = µ i + β i j en µ i,j = µ i +βµ i j, met respectievelijk 2I en I +1 parameters. Beide modellen corresponderen met een lineaire afhankelijkheid van de verwachte vraag van de tijd. Voorbeeld 2.7 (Regressie). Lange ouders krijgen over het algemeen lange kinderen en korte ouders, korte kinderen. De lengte van de ouders hebben een grote voorspellende waarde voor de zogenaamde eindlengte van hun kinderen, de lengte als kinderen zijn uitgegroeid. Er zijn meer factoren die invloed hebben. Het geslacht van het kind speelt natuurlijk een belangrijke rol. Ook omgevingsfactoren als gezonde voeding en hygiëne zijn van belang. Door verbeterde voeding en een toegenomen hygiëne in de afgelopen 150 jaar hebben factoren die de lengtegroei belemmeren, als infectieziekten en ondervoeding, minder kans gekregen in de meeste Westerse landen. Hierdoor is de gemiddelde lichaamslengte toegenomen en worden kinderen elke generatie langer. De streeflengte (of target height ) van een kind is de eindlengte die kan worden verwacht op basis van de lengte van de ouders, het geslacht van het kind en de toename van lichaamslengte over generaties. De vraag luidt op welke manier de streeflengte afhangt van deze factoren. Definieer Y als de eindlengte die een kind zal bereiken, x 1 en x 2 als de lengte van de biologische vader en moeder, en x 3 als een indicator voor het geslacht (x 3 = 1 voor een meisje en x 3 = 1 voor een jongen). De streeflengte EY wordt gemodelleerd met een zogenaamd lineair regressiemodel EY = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3, waarbij β 0 de toename van de gemiddelde lichaamslengte per generatie is, β 1 en β 2 de mate waarin de lengte van de ouders invloed hebben op de streeflengte van hun nageslacht en β 3 is de afwijking van de streeflengte tot de gemiddelde volwassen lengte die wordt veroorzaakt door het geslacht

16 12 2: Statistische Modellen van het kind. Aangezien mannen gemiddeld langer zijn dan vrouwen zal β 3 positief zijn. Bovenstaand lineair model zegt niets over individuele lengtes, maar enkel over dat van het nageslacht van ouders met een bepaalde lengte. Zo hebben twee broers dezelfde streeflengte; ze hebben immers dezelfde biologische ouders, hetzelfde geslacht en zijn geboren in dezelfde generatie. De werkelijke eindlengte Y kan geschreven worden als Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + e, waarbij e = Y EY de afwijking is van de werkelijke eindlengte Y ten opzichte van de streeflengte EY. De waarneming Y wordt ook wel de afhankelijke variabele genoemd en de variabelen x 1, x 2 en x 3 de onafhankelijke of verklarende variabelen. Veelal wordt verondersteld dat e normaal verdeeld is met verwachting 0 en onbekende variantie σ 2. De eindlengte Y heeft dan een normale verdeling met verwachting β 0 +β 1 x 1 +β 2 x 2 +β 3 x 3 en variantie σ 2. In Nederland wordt periodiek de lengtegroei van de jeugd in kaart gebracht. In 1997 vond de Vierde Landelijke Groeistudie plaats. Een onderdeel van het onderzoek betrof de relatie tussen de eindlengte van kinderen en de lengte van hun ouders. Om deze relatie te bepalen waren gegevens verzameld van jongvolwassenen en hun ouders. Dit leverde de volgende waarnemingen: (y 1, x 1,1, x 1,2, x 1,3 ),...(y n, x n,1, x n,2, x n,3 ) op, waar y i de lichaamslengte van de i e jongvolwassene is, x i,1 en x i,2 de lengte van de biologische ouders, en x i,3 een indicator voor het geslacht van de i e jongvolwassene. Veronderstel dat de waarnemingen onafhankelijke replicaties zijn uit bovenstaand lineair regressiemodel; dat wil zeggen dat gegeven x i,1, x i,2, en x i,3, Y i verwachting β 0 + β 1 x i,1 + β 2 x i,2 + β 3 x i,3 en variantie σ 2 heeft. De parameters (β 0, β 1, β 2, β 3 ) zijn onbekend en kunnen geschat worden op basis van de waarnemingen. Voor een eenvoudige interpretatie van het model is er voor gekozen om β 1 = β 2 = 1/2 te nemen, zodat de streeflengte gelijk is aan de gemiddelde ouderlengte gecorrigeerd voor het geslacht van het kind en de invloed van de tijd. De parameters β 0 en β 3 zijn gelijk aan de toename van de lichaamslengte in de afgelopen generatie en de helft van het gemiddelde lengteverschil tussen mannen en vrouwen. Deze parameters werden geschat met behulp van de kleinste kwadratenmethode (zie Voorbeeld 4.42). De parameter β 0 is geschat met 4.5 centimeter en β 3 met 6.5 centimeter. Het geschatte regressiemodel is dan gelijk aan (2.1) Y = (x 1 + x 2 ) + 6.5x 3 + e. In Figuur 2.3 is de lichaamslengte van 44 jongvolwassen mannen (links) en 67 jongvolwassen vrouwen (rechts) uitgezet tegen de gemiddelde lichaamslengte van hun ouders. De lijn is gelijk aan de geschatte regressielijn Bron: De data zijn verzameld door de afdeling Biologische Psychologie van de Vrije Universiteit in het kader van een onderzoek naar gezondheid, levensstijl en persoonlijkheid.

17 2.2: Enkele voorbeelden Figuur 2.3. Lengte van zonen (links) en dochters (rechts) uitgezet tegen de gemiddelde lichaamslengte van hun ouders. De lijn is de regressielijn gevonden in de Vierde Landelijke Groeistudie. gevonden in de Vierde Landelijke Groeistudie. Het geschatte regressiemodel dat gevonden werd in de Vierde Landelijke Groeistudie, kunnen we gebruiken voor het voorspellen van de eindlengte van kinderen die nu geboren worden. We moeten dan wel veronderstellen dat de lengtetoename de komende generatie opnieuw 4.5 centimeter is en het gemiddelde lengteverschil tussen mannen en vrouwen gelijk aan 13 centimeter blijft. Op basis van het bovenstaande model zijn de streeflengten voor zonen en dochters van een man met een lengte van 180 centimeter en een vrouw van 172 centimeter gelijk aan ( )/ = 187 centimeter en ( )/2 6.5 = 174 centimeter. In andere Europese landen worden andere modellen gebruikt. In Zwitserland, bijvoorbeeld, is de streeflengte gelijk aan EY = x 1 + x x 3. Nu is de streeflengte van de zonen en dochters van ouders met dezelfde lengte als in het voorbeeld hiervoor gelijk aan 184 en 171 centimeter. In het voorgaande voorbeeld bestaat er een lineair verband tussen de respons Y en de onbekende parameters β 0,..., β 3. In dat geval spreken we van een lineair regressiemodel. Het meest eenvoudige lineaire regressiemodel is het model waarbij er slechts één verklarende variabele is: Y = β 0 + β 1 x + e; het enkelvoudige lineaire regressiemodel (in tegenstelling tot meervoudige lineaire regressie als er meerdere verklarende variabelen zijn).

18 14 2: Statistische Modellen In het algemeen spreken we van een regressiemodel als er een specifieke samenhang bestaat tussen de respons Y en waarnemingen x 1,..., x p : Y = f θ (x 1,..., x p ) + e waarbij f θ de relatie tussen de waarnemingen x 1,..., x p en de respons Y beschrijft, en de stochastische variabele e een niet-waarneembare meetfout is met verwachting nul en onbekende variantie σ 2. Indien de functie f θ bekend is op de eindig-dimensionale parameter θ na, dan spreken we van een parametrisch model. Het lineaire regressiemodel is hier een voorbeeld van; in dit model is θ = (β 0,..., β p ) R p+1 en f θ (x 1,..., x p ) = β 0 + β 1 x β p x p. Het regressiemodel ligt dan vast als waarden voor θ en σ 2 bekend zijn. De functie f θ kan echter ook onbekend zijn op de eindig dimensionale parameter θ en een oneindig dimensionale parameter na. We spreken dan van een semi-parametrisch model. Een voorbeeld van een semiparametrisch model is het Cox-regressiemodel. Dit model wordt beschreven aan het einde van dit hoofdstuk, na de opgaven. In Hoofdstuk 8 komen verschillende regressiemodellen, waaronder het lineaire regressiemodel en het Cox-regressiemodel, uitvoerig aan de orde. Voorbeeld 2.8 (Waterhoogten). In de 20 e eeuw (tussen 1910 en 2000) werd 70 keer een periode met extreem hoge waterdoorvoer in de Maas te Borgharen gemeten. Hierbij wordt extreem door Rijkswaterstaat gedefinieerd als meer dan 1250 m 3 /sec.. De maximum waterdoorvoeren gedurende deze 70 periodes zijn weergegeven in Figuur 2.4 in de volgorde waarin ze zijn opgetreden. Het probleem is de toekomst te voorspellen. Rijkswaterstaat is in het bijzonder geïnteresseerd in de vraag hoe hoog de dijken moeten zijn om hooguit eens in de jaar te overstromen. Door middel van een hydraulisch model is de waterhoogte te berekenen uit de waterdoorvoer. Omdat de maximum waterdoorvoeren x 1,..., x 70 zijn gemeten in (meestal) verschillende jaren, en de waterstand in de Maas vooral afhangt van het weer in de Ardennen en verder stroomopwaarts, is het niet onredelijk deze getallen op te vatten als realisaties van onafhankelijke stochastische grootheden X 1,..., X 70. Op de aanname dat deze grootheden ook identiek verdeeld zijn is wel wat af te dingen, want de loop van de Maas (en ook het klimaat) is in de loop van de vorige eeuw geleidelijk aan veranderd, maar deze aanname wordt meestal toch gemaakt. We kunnen X 1,..., X 70 dan opvatten als onafhankelijke kopieën van een variabele X en de gemeten waarden x 1,..., x 70 gebruiken om de gestelde vraag te beantwoorden. Definieer E als de gebeurtenis dat een overstroming plaatsvindt in een (willekeurig) jaar. De kans op gebeurtenis E is bij benadering gelijk aan het verwachte aantal extreme periodes in een jaar EN, maal de kans dat er een overstroming plaatsvindt in een extreme periode, ofwel P(E) EN P(X > h) voor X een maximum waterdoorvoer in een periode met extreme waterdoorvoer, h de maximale waterdoorvoer opdat net

19 2.2: Enkele voorbeelden 15 geen overstroming plaatsvindt en N het aantal malen extreem hoog water in een willekeurig jaar. Bij deze berekening is gebruikt dat de kans op een overstroming in een extreme periode P(X > h) klein is. De kansverdeling van N is onbekend, maar het is redelijk te veronderstellen dat de verwachting van N bij benadering gelijk is aan het gemiddeld aantal periodes met extreme waterdoorvoer per jaar over de afgelopen 90 jaar; dus EN 70/90. De vraag luidt nu: voor welk getal h geldt dat P(X > h) = 1/ /70 = ? Figuur 2.4. Maximum waterdoorvoeren in m 3 /seconde (verticale as) in de Maas te Borgharen in de 20 e eeuw in volgorde van optreden (horizontale as). Die vraag is niet eenvoudig te beantwoorden. Hadden we waargenomen maxima voor een periode van jaar (of meer) tot onze beschikking, dan zouden we h met een redelijke nauwkeurigheid kunnen bepalen, bijvoorbeeld als de waarde van de op de 10% na grootste gemeten waterstand (10%= / ). Helaas hebben we maar 70 waarnemingen tot onze beschikking en moeten we dus ver extrapoleren naar een (waarschijnlijk) veel extremere situatie dan ooit is gemeten. Als we een goed model voor de verdeling van X kunnen bepalen, dan is dit geen probleem. Als we bijvoorbeeld zouden weten dat X standaard exponentieel verdeeld is, dan zouden we h kunnen bepalen uit de vergelijking = P(X > h) = e h. Dit is echter geen realistische aanname. Een alternatief wordt gegeven door een extreme-waardenverdeling aan de data te fitten. Dit zijn kansverdelingen die veel gebruikt worden voor de modellering van grootheden X die kunnen worden opgevat als een maximum X = max(y 1,..., Y m ) van een groot aantal onafhankelijke grootheden Y 1,..., Y m. Gegeven de interpretatie van X als een maximum waterdoorvoer in een periode lijken dergelijke verdelingen redelijk. Van de drie typen extreme-waardenverdelingen blijkt één type redelijk bij de waargenomen waterdoorvoeren te passen. Dit is de Fréchet-familie, waarvan de verde-

20 16 2: Statistische Modellen lingsfunctie wordt gegeven door { F (x) = e ((x a)/b) α als x a, 0 als x < a. De Fréchet-familie heeft drie parameters: a R, b > 0 en α > 0. Als we overtuigd zijn van de zinvolheid van het gebruik van het resulterende model, kunnen we deze parameters uit de 70 datapunten schatten, en vervolgens de gestelde vraag beantwoorden middels een eenvoudige berekening. In Hoofdstuk 4 bespreken we geschikte schattingsmethoden. Voorbeeld 2.9 (Levensduuranalyse). In de levensduuranalyse onderzoekt men de kansverdeling van tijdsduren. We kunnen hier denken aan de levensduur van een gloeilamp, maar ook aan de tijdsduur tot het optreden van de volgende bug in een computerprogramma ( reliability analysis ), en vooral ook aan de tijd tot overlijden of tot het optreden van een ziekte in de medische statistiek. Hieronder volgt een voorbeeld ter illustratie. Bij mensen met een lekkende hartklep wordt veelal de hartklep vervangen door een biologische of mechanische hartklep. Een nadeel van de biologische ten opzichte van de mechanische hartklep is zijn relatief korte levensduur (10 tot 15 jaar). Om de verdelingsfunctie F van de tijd dat een biologische hartklep meegaat te onderzoeken, worden n mensen met een dergelijke hartklep gevolgd vanaf hun operatie tot het moment dat de hartklep vervangen moet worden. Aan het einde van de studie hebben we dan voor elk van de n hartkleppen zijn levensduur t 1,..., t n waargenomen. We vatten deze getallen op als realisaties van onafhankelijke stochastische grootheden T 1,..., T n met verdelingsfunctie F. De kans F (t) dat een biologische hartklep binnen t jaar vervangen moet worden kunnen we schatten met de fractie van hartkleppen in de steekproef die binnen t jaar vervangen is. Een speciaal aspect bij levensduuranalyse is dat vaak niet alle levensduren worden waargenomen. Op het moment dat we conclusies uit de data willen trekken, zijn nog niet alle hartkleppen aan vervanging toe of is de patiënt overleden met een nog goede hartklep. Van deze levensduren is slechts een ondergrens bekend; de tijd tot het einde van de studie of tot het overlijden van de patiënt. We weten immers dat de hartklep nog werkte toen de studie werd stopgezet of de patiënt overleed. Men spreekt dan van gecensureerde data. Langere levensduren zullen vaker gecensureerd zijn dan kortere, omdat de kans dat de patiënt in een lange periode komt te overlijden groter is dan in een korte periode (en evenzo voor het einde van de studie). Het is daarom verkeerd de gecensureerde data te negeren en de verdelingsfunctie F te schatten op basis van de niet-gecensureerde data. Dit zou leiden tot een overschatting van de verdelingsfunctie van de levensduur en een onderschatting van de verwachte levensduur, omdat relatief veel langere levensduren zouden worden genegeerd. Een correcte benadering is om een statistisch

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen ALGEMENE STATISTIEK A.W. van der Vaart en anderen VOORWOORD Dit collegedictaat omvat de stof van het college Algemene Statistiek, zowel de versie voor Econometrie en Wiskunde studenten, als de versie voor

Nadere informatie

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen ALGEMENE STATISTIEK A.W. van der Vaart en anderen VOORWOORD Dit diktaat wordt gebruikt bij het vak Statistiek voor Natuurkunde. Het is een uittreksel van het boek Algemene Statistiek geschreven door A.W.

Nadere informatie

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten Stochastiek 2 Inleiding in the Mathematische Statistiek staff.fnwi.uva.nl/j.h.vanzanten 1 / 12 H.1 Introductie 2 / 12 Wat is statistiek? - 2 Statistiek is de kunst van het (wiskundig) modelleren van situaties

Nadere informatie

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur.

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (WS05), vrijdag 9 oktober 010, van 14.00 17.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2WS4, dinsdag 17 juni 28, van 9. 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Wiskunde B - Tentamen 2

Wiskunde B - Tentamen 2 Wiskunde B - Tentamen Tentamen van Wiskunde B voor CiT (57) Donderdag 4 april 005 van 900 tot 00 uur Dit tentamen bestaat uit 8 opgaven, 3 tabellen en formulebladen Vermeld ook je studentnummer op je werk

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

Inhoud. 1 Inleiding tot de beschrijvende statistiek Maatstaven voor ligging en spreiding Kansrekening 99

Inhoud. 1 Inleiding tot de beschrijvende statistiek Maatstaven voor ligging en spreiding Kansrekening 99 Inhoud 1 Inleiding tot de beschrijvende statistiek 13 1.1 Een eerste verkenning 14 1.2 Frequentieverdelingen 22 1.3 Grafische voorstellingen 30 1.4 Diverse diagrammen 35 1.5 Stamdiagram, histogram en frequentiepolygoon

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2), Vrijdag 24 januari 24, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een

Nadere informatie

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur Kansrekening en statistiek wi20in deel I 29 januari 200, 400 700 uur Bij dit examen is het gebruik van een (evt grafische rekenmachine toegestaan Tevens krijgt u een formuleblad uitgereikt na afloop inleveren

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013 Afdeling Wiskunde Volledig tentamen Algemene Statistiek Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen:

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve

Nadere informatie

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek DD14) op vrijdag 17 maart 006, 9.00-1.00 uur. UITWERKINGEN 1. Methoden om schatters te vinden a) De aannemelijkheidsfunctie

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19 Stochastiek 2 Inleiding in de Mathematische Statistiek 1/19 Herhaling H.1 2/19 Mathematische Statistiek We beschouwen de beschikbare data als realisatie(s) van een stochastische grootheid X.(Vaak een vector

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Populatie: een intuïtieve definitie.... Een

Nadere informatie

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan. Afdeling Wiskunde Volledig tentamen Statistics Deeltentamen 2 Statistics Vrije Universiteit 28 mei 2015 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen: opgaven 1,2,3,4. Cijfer=

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Vrijdag 16 Oktober 1 / 38 2 Statistiek Indeling vandaag: Normale verdeling Wet van de Grote Getallen Centrale Limietstelling Deductieve statistiek Hypothese toetsen

Nadere informatie

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur Kansrekening en statistiek WI05IN deel I 4 november 0, 4.00 7.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad wordt uitgereikt. Meerkeuzevragen Toelichting:

Nadere informatie

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

DEZE PAGINA NIET vóór 8.30u OMSLAAN! STTISTIEK 1 VERSIE MT15303 1308 1 WGENINGEN UNIVERSITEIT LEERSTOELGROEP MT Tentamen Statistiek 1 (MT-15303) 5 augustus 2013, 8.30-10.30 uur EZE PGIN NIET vóór 8.30u OMSLN! STRT MET INVULLEN VN NM, REGISTRTIENUMMER,

Nadere informatie

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten Deze week: Steekproefverdelingen Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen Cursusjaar 29 Peter de Waal Zuivere Schatters Betrouwbaarheidsintervallen Departement Informatica Hfdstk

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2, Vrijdag 23 januari 25, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven dienen

Nadere informatie

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Basistechnieken 6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. x 0 2 4 6 p(x) ¼ ¼ ¼ ¼ a. Schrijf alle mogelijke verschillende steekproeven van n =

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van 9.00 12.00 uur.

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van 9.00 12.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (WS4), woensdag 3 juni, van 9.. uur. Dit is een tentamen met gesloten boek. De uitwerkingen van de

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Samenvatting Statistiek

Samenvatting Statistiek Samenvatting Statistiek De hoofdstukken 1 t/m 3 gaan over kansrekening: het uitrekenen van kansen in een volledig gespecifeerd model, waarin de parameters bekend zijn en de kans op een gebeurtenis gevraagd

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Inleveren: Uiterlijk 15 februari voor 16.00 in mijn postvakje Afspraken Overleg is toegestaan, maar iedereen levert zijn eigen werk in. Overschrijven

Nadere informatie

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1) Cursus Statistiek Hoofdstuk 4 Statistiek voor Informatica Hoofdstuk 4: Verwachtingen Cursusjaar 29 Peter de Waal Departement Informatica Inhoud Verwachtingen Variantie Momenten en Momentengenererende functie

Nadere informatie

1. De wereld van de kansmodellen.

1. De wereld van de kansmodellen. STATISTIEK 3 DE GRAAD.. De wereld van de kansmodellen... Kansmodellen X kansmodel Discreet model Continu model Kansverdeling Vaas Staafdiagram Dichtheidsfunctie f(x) GraJiek van f Definitie: Een kansmodel

Nadere informatie

Toegepaste Wiskunde 2: Het Kalman-filter

Toegepaste Wiskunde 2: Het Kalman-filter Toegepaste Wiskunde 2: Het Kalman-filter 25 februari, 2008 Hans Maassen 1. Inleiding Het Kalman filter schat de toestand van een systeem op basis van een reeks, door ruis verstoorde waarnemingen. Een meer

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Learning the Mechanics 6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. De random variabele x wordt tweemaal waargenomen. Ga na dat, indien de waarnemingen

Nadere informatie

Statistiek voor A.I. College 10. Dinsdag 16 Oktober

Statistiek voor A.I. College 10. Dinsdag 16 Oktober Statistiek voor A.I. College 10 Dinsdag 16 Oktober 1 / 30 Jullie - onderzoek Geert-Jan, Joris, Brechje Horizontaal: lengte Verticaal: lengte tussen topjes middelvingers met gestrekte armen. DIII 170 175

Nadere informatie

Toegepaste Statistiek, Week 3 1

Toegepaste Statistiek, Week 3 1 Toegepaste Statistiek, Week 3 1 In Week 2 hebben we toetsingstheorie besproken mbt een kwantitatieve (ordinale) variabele G, en met name over zijn populatiegemiddelde E(G). Er waren twee gevallen: Er is

Nadere informatie

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van 4.00 7.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Eindtentamen Kansrekening en Statistiek (WS), Tussentoets Kansrekening en Statistiek (WS), Vrijdag 8 april, om 9:-:. Dit is een tentamen

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur Kansrekening en statistiek wi2105in deel 2 27 januari 2010, 14.00 16.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur. VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT

Nadere informatie

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten Hoofdstuk 8 Betrouwbaarheidsintervallen In het vorige hoofdstuk lieten we zien hoe het mogelijk is om over een ongekende karakteristiek van een populatie hypothesen te formuleren. Een andere manier van

Nadere informatie

. Dan geldt P(B) = a. 1 4. d. 3 8

. Dan geldt P(B) = a. 1 4. d. 3 8 Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, 9.00-12.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek (2S390) op maandag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek (2S390) op maandag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek (2S390) op maandag 20-11-2000, 14.00-17.00 uur ƒbij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Statistiek voor A.I.

Statistiek voor A.I. Statistiek voor A.I. College 13 Donderdag 25 Oktober 1 / 28 2 Deductieve statistiek Orthodoxe statistiek 2 / 28 3 / 28 Jullie - onderzoek Tobias, Lody, Swen en Sander Links: Aantal broers/zussen van het

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

Statistische variabelen. formuleblad

Statistische variabelen. formuleblad Statistische variabelen formuleblad 0. voorkennis Soorten variabelen Discreet of continu Bij kwantitatieve gegevens gaat het om meetbare gegeven, zoals temperatuur, snelheid of gewicht. Bij een discrete

Nadere informatie

Wiskunde B - Tentamen 1

Wiskunde B - Tentamen 1 Wiskunde B - Tentamen Tentamen 57 Wiskunde B voor CiT vrijdag januari 5 van 9. tot. uur Dit tentamen bestaat uit 6 opgaven, formulebladen en tabellen. Vermeld ook uw studentnummer op uw werk en tentamenbriefje.

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17 Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 17 Statistische toetsen 2 / 17 Toetsen - algemeen - 1 Setting: observatie X in X, model {P θ : θ Θ}. Gegeven partitie Θ = Θ 0 Θ 1, met Θ 0 Θ 1

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 8 Donderdag 13 Oktober 1 / 23 2 Statistiek Vandaag: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 23 Stochast en populatie

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen Vandaag Onderzoeksmethoden: Statistiek 2 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Theoretische kansverdelingen

Nadere informatie

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur Kansrekening en statistiek WI22TI / WI25IN deel 2 2 februari 22, 4. 6. uur VOOR WI22TI: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad is niet toegestaan.

Nadere informatie

SCHATTEN. A.W. van der Vaart en anderen

SCHATTEN. A.W. van der Vaart en anderen SCHATTEN A.W. van der Vaart en anderen VOORWOORD Dit diktaatje wordt gebruikt bij het vak Biostatistiek 2 voor MNW. Het is een uittreksel van het boek Algemene Statistiek geschreven door A.W. van der Vaart

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 15 Dinsdag 2 November 1 / 16 2 Statistiek Indeling: Filosofie Schatten Centraal Bureau voor Statistiek 2 / 16 Schatten Vb. Het aantal tenen plus vingers in jullie huishoudens:

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd

Nadere informatie

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages. MARGES EN SIGNIFICANTIE BIJ STEEKPROEFRESULTATEN. De marges van percentages Metingen via een steekproef leveren een schatting van de werkelijkheid. Het toevalskarakter van de steekproef heeft als consequentie,

Nadere informatie

Klantonderzoek: statistiek!

Klantonderzoek: statistiek! Klantonderzoek: statistiek! Statistiek bij klantonderzoek Om de resultaten van klantonderzoek juist te interpreteren is het belangrijk de juiste analyses uit te voeren. Vaak worden de mogelijkheden van

Nadere informatie

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Examen Kansrekening en Wiskundige Statistiek: oplossingen Examen Kansrekening en Wiskundige Statistiek: oplossingen S. Vansteelandt Academiejaar 006-007 1. Een team van onderzoekers wil nagaan of een bepaald geneesmiddel Triptan meer effectief is dan aspirine

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2S27), dinsdag 14 juni 25, 9. - 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 2 Donderdag 15 September 1 / 42 1 Kansrekening Vandaag: Vragen Eigenschappen van kansen Oneindige discrete uitkomstenruimtes Continue uitkomstenruimtes Continue stochasten

Nadere informatie

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen Lesbrief: Correlatie en Regressie Leerlingmateriaal Je leert nu: -een correlatiecoëfficient gebruiken als maat voor het statistische verband tussen beide variabelen -een regressielijn te tekenen die een

Nadere informatie

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31 Tentamen Statistische methoden 45STAMEY april, 9: : Studienummers: Vult u alstublieft op het MC formulier uw Delftse studienummer in; en op het open vragen formulier graag beide, naar volgend voorbeeld:

Nadere informatie

VERGELIJKENDE STUDIE VAN ALTERNATIEVE ONTWERPWAARDE SCHATTINGEN VAN SIGNIFICANTE GOLFHOOGTE

VERGELIJKENDE STUDIE VAN ALTERNATIEVE ONTWERPWAARDE SCHATTINGEN VAN SIGNIFICANTE GOLFHOOGTE Rapport aan isterie van de Vlaamse Gemeenschap Departement Leefmilieu en Infrastructuur Administratie Waterwegen en Zeewezen AFDELING WATERWEGEN KUST VERGELIJKENDE STUDIE VAN ALTERNATIEVE ONTWERPWAARDE

Nadere informatie

Hoofdstuk 6 Twee populaties: parametrische toetsen

Hoofdstuk 6 Twee populaties: parametrische toetsen Hoofdstuk 6 Twee populaties: parametrische toetsen 6.1 De t-toets voor het verschil tussen twee gemiddelden: In veel onderzoekssituaties zijn we vooral in de verschillen tussen twee populaties geïnteresseerd.

Nadere informatie

Statistiek en Data Analyse Opgavenserie 3: Lineaire regressie

Statistiek en Data Analyse Opgavenserie 3: Lineaire regressie Statistiek en Data Analyse Opgavenserie 3: Lineaire regressie Inleveren: uiterlijk maandag 6 februari 16.00 bij Marianne Jonker (Kamer: R3.46) Afspraken De opdrachten maak je in tweetallen. Schrijf duidelijk

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 11 Dinsdag 25 Oktober 1 / 27 2 Statistiek Vandaag: Hypothese toetsen Schatten 2 / 27 Schatten 3 / 27 Vragen: liegen 61 Amerikanen werd gevraagd hoeveel % van de tijd

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Voorbeeldtentamen Statistiek voor Psychologie

Voorbeeldtentamen Statistiek voor Psychologie Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij

Nadere informatie

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Technische Universiteit Delft Mekelweg 4 Faculteit Elektrotechniek, Wiskunde en Informatica 2628 CD Delft Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Formulebladen, rekenmachines,

Nadere informatie

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan

Nadere informatie

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. 3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. Absolute verandering = Aantal 2004 Aantal 1994 = 1625 3070 = -1445 Relatieve verandering = Nieuw Oud Aantal

Nadere informatie

Kansrekening en stochastische processen 2DE18

Kansrekening en stochastische processen 2DE18 Kansrekening en stochastische processen 2DE18 Docent : Jacques Resing E-mail: resing@win.tue.nl 1/28 The delta functie Zij De eenheids impulsfunctie is: d ε (x) = { 1ε als ε 2 x ε 2 0 anders δ(x) = lim

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 14 Donderdag 28 Oktober 1 / 37 2 Statistiek Indeling: Hypothese toetsen Schatten 2 / 37 Vragen 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden

Nadere informatie

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 Bjorn Winkens Methodologie en Statistiek Universiteit Maastricht 21 maart

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

36, P (5) = 4 36, P (12) = 1

36, P (5) = 4 36, P (12) = 1 Les 2 Kansverdelingen We hebben in het begin gesteld dat we de kans voor een zekere gunstige uitkomst berekenen als het aantal gunstige uitkomsten gedeelt door het totale aantal mogelijke uitkomsten. Maar

Nadere informatie

Zo geldt voor o.o. continue s.v.-en en X en Y dat de kansdichtheid van X + Y gegeven wordt door

Zo geldt voor o.o. continue s.v.-en en X en Y dat de kansdichtheid van X + Y gegeven wordt door APP.1 Appendix A.1 Erlang verdeling verdeling met parameters n en λ Voor o.o. discrete s.v.-en X en Y geldt P (X + Y = z) =P (X = x 1 en Y = z x 1 )+P(X = x en Y = z x )+... = P (X = x 1 )P (Y = z x 1

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Tentamen OGO Fysisch Experimenteren voor minor AP (3MN10)

TECHNISCHE UNIVERSITEIT EINDHOVEN. Tentamen OGO Fysisch Experimenteren voor minor AP (3MN10) TECHNISCHE UNIVERSITEIT EINDHOVEN Tentamen OGO Fysisch Experimenteren voor minor AP (3MN10) en Tentamen Inleiding Experimentele Fysica voor Combi s (3NA10) d.d. 31 oktober 2011 van 9:00 12:00 uur Vul de

Nadere informatie

Tentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander

Tentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander Universiteit Leiden Niels Bohrweg Tentamen Inleiding Kansrekening 25 juni 2009, 0.00 3.00 uur Docent: F. den Hollander Mathematisch Instituut 2333 CA Leiden Bij dit tentamen is het gebruik van een (grafische)

Nadere informatie

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16 modulus strepen: uitkomst > 0 Hiermee rekenen we de testwaarde van t uit: n 10 ttest ( x ) 105 101 3,16 n-1 4 t test > t kritisch want 3,16 >,6, dus 105 valt buiten het BI. De cola bevat niet significant

Nadere informatie

Summary in Dutch 179

Summary in Dutch 179 Samenvatting Een belangrijke reden voor het uitvoeren van marktonderzoek is het proberen te achterhalen wat de wensen en ideeën van consumenten zijn met betrekking tot een produkt. De conjuncte analyse

Nadere informatie

Examen HAVO. Wiskunde A1,2

Examen HAVO. Wiskunde A1,2 Wiskunde A1,2 Examen HAVO Hoger Algemeen Voortgezet Onderwijs Tijdvak 1 Donderdag 25 mei 13.30 16.30 uur 20 00 Dit examen bestaat uit 19 vragen. Voor elk vraagnummer is aangegeven hoeveel punten met een

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 30 januari 2009 - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 2 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008 Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer

Nadere informatie

Opgave 1: (zowel 2DM40 als 2S390)

Opgave 1: (zowel 2DM40 als 2S390) TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (DM4 en S39) op donderdag, 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18 Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 18 t-toetsen 2 / 18 Steekproefgemiddelde en -variantie van normale observaties Stelling. Laat X 1,..., X n o.o. zijn en N(µ, σ 2 )-verdeeld. Dan:

Nadere informatie