SCHATTEN. A.W. van der Vaart en anderen

Maat: px
Weergave met pagina beginnen:

Download "SCHATTEN. A.W. van der Vaart en anderen"

Transcriptie

1 SCHATTEN A.W. van der Vaart en anderen

2 VOORWOORD Dit diktaatje wordt gebruikt bij het vak Biostatistiek 2 voor MNW. Het is een uittreksel van het boek Algemene Statistiek geschreven door A.W. van der Vaart en anderen.

3 1 Herhaling Kansrekening Dit hoofdstuk geeft een korte herhaling van stof die jullie bij Biostatistiek 1 hebben gehad. 1.1 Verdelingen De basis van alle statistische procedures is een waarneming X waarbij onzekerheid, toeval of een andere vorm van willekeur een rol speelt. De onzekerheid wordt wiskundig vertaald door aan X een kansverdeling toe te kennen, Definitie 1.1. Een stochastische variabele (of stochastische grootheid, of stochast) is een waarneming onderhevig aan onzekerheid, beschreven door een kansverdeling Discrete en continue verdelingen Er bestaan twee basis soorten kansverdelingen: discrete verdelingen en continue verdelingen. Een discrete kansverdeling wordt gekenmerkt door een eindige of aftelbare verzameling van mogelijke uitkomsten van de stochastische variabele, terwijl een stochast met een continue verdeling uitkomsten kan hebben in een interval van de reële rechte. Met zowel iedere discrete als continue verdeling correspondeert een kansdichtheid (of dichtheid) en een verdelingsfunctie. In het geval van een discrete verdeling geldt dat de kans op een uitkomst in A gelijk is aan P(X A) = x A P(X = x) = x A p(x) waar p(x) = P(X = x). Voorbeelden van veelgebruikte discrete verdelingen zijn de Bernoulli-, de binomiale, de Poisson-, de geometrische, en de hypergeometrische verdeling. Als X continu verdeeld is over (een deel van) de reële rechte, hanteren we een kansdichtheidsfunctie f: R R, die we ook kortweg kansdichtheid noemen. De sommatie bij discrete verdelingen wordt vervangen door integratie bij continue verdelingen. De kans op een uitkomst in A R van de continu verdeelde stochastische variabele X met kansdichtheid f wordt gegeven door P(X A) = f(x) dx. Voorbeelden van bekende continue verdelingen zijn de uniforme, de normale, de exponentiële, de Cauchy-, de chikwadraat-, de t-, de Gamma- en de Bèta-verdeling. Kansdichtheden vormen een manier om een verdeling te specificeren. Een andere, equivalente manier om dit te doen, is door middel van een zogenaamde verdelingsfunctie. A

4 2 1: Herhaling Kansrekening Definitie 1.2. Zij X een stochastische variabele, verdeeld volgens een bepaalde kansverdeling. De verdelingsfunctie F behorende bij die kansverdeling wordt gedefinieerd door F (x) = P(X x). De verdelingsfunctie is een monotoon stijgende functie, dat wil zeggen, als x y dan is F (x) F (y). De definitie van de verdelingsfunctie is in bovenstaande vorm geldig voor zowel discreet als continu verdeelde stochastische grootheden die reëelwaardig zijn. Voor een reëelwaardige, discreet verdeelde stochastische grootheid X kan de relatie tussen de kansdichtheid p en de verdelingsfunctie F als volgt worden uitgedrukt: F (x) = P(X x) = s x P(X = s) = s x p(s). De verdelingsfunctie vertoont sprongen in alle punten die tot de mogelijke uitkomsten van X behoren. Tussen deze sprongen in is de verdelingsfunctie constant. De grootte van de sprong in het punt x is gelijk aan P(X = x). Discrete verdelingen kunnen zodoende op twee manieren worden gespecificeerd: ofwel met de kansdichtheid p (de verdelingsfunctie F wordt gevonden door sommatie), ofwel met de verdelingsfunctie F (de kansdichtheid p volgt uit de spronggroottes). Voor een continu verdeelde stochastische grootheid X kan de relatie tussen de kansdichtheid f en de verdelingsfunctie F als volgt worden uitgedrukt: F (x) = P(X x) = x f(u) du. De verdelingsfunctie F kan daarom worden opgevat als de primitieve van de kansdichtheid f. Omgekeerd is f de afgeleide van F, f(x) = F (x). Hieruit blijkt dat continue verdelingen eveneens kunnen worden vastgelegd op twee manieren: ofwel door de kansdichtheid f (de verdelingsfunctie F volgt uit integratie), ofwel door de verdelingsfunctie F (de kansdichtheid volgt uit differentiatie). Met de verdelingsfunctie is het eenvoudig om kansen voor intervallen van de vorm (c, d] uit te rekenen, P(c < X d) = P(X d) P(X c) = F (d) F (c). Voor discrete verdelingen is het van belang of het interval open, gesloten of halfopen gekozen wordt. De kans P(c X d) is bijvoorbeeld groter dan P(c < X d) wanneer P(X = c) > 0, omdat P(c X d) = P(c < X d)+p(x = c). Aangezien voor continu verdeelde stochasten geldt dat P(X = c) = 0 voor alle c, speelt de keuze van open of gesloten intervallen daar geen rol. 1.2 Verwachting en variantie De verwachting en variantie van een verdeling zijn eigenschappen die respectievelijk de locatie en de spreiding van de verdeling weergeven. De locatie is een punt waaromheen de verdeling zich centreert, terwijl de spreiding een maat is voor de breedte van de verdeling rondom zijn locatie. Er zijn meerdere eigenschappen die als locatie- of spreidingsbegrip kunnen dienen. Verwachting en variantie zijn voorbeelden die veel gebruikt worden. De verwachtingswaarde (of verwachting) E(X) van een stochastische grootheid X correspondeert met het begrip van gewogen gemiddelde. De wegingsfactoren zijn gebaseerd op de kansdichtheid. Wanneer er geen verwarring kan optreden schrijven we kortweg EX voor de verwachting. Voor een discreet verdeelde stochastische grootheid X met kansdichtheid p wordt EX gegeven door EX = xp(x = x) = xp(x), x x

5 1.3: Standaard verdelingen 3 Voor een continu verdeelde stochastische grootheid X met kansdichtheid f is de verwachtingswaarde gedefinieerd door EX = De verwachting van g(x), voor g een functie, is E(g(X)) = x f(x) dx. g(x) f(x) dx. De verwachtingswaarde van X of g(x) is niet altijd goed gedefinieerd. Het is mogelijk dat de integraal of som niet convergeert. De verwachting van een Cauchy-verdeelde stochastische grootheid bestaat bijvoorbeeld niet. De variantie is de verwachting van het kwadraat van de afstand van X tot zijn verwachtingswaarde, var(x) = E(X EX) 2. Het is eenvoudig na te gaan dat de variantie te schrijven is als var(x) = E(X 2 ) (EX) 2. Deze schrijfwijze is in veel gevallen handig in de berekening van de variantie van een stochastische grootheid. De verwachting E(X 2 ) wordt gevonden uit E(g(X)) met g(x) = X 2. De variantie is groot indien X met relatief grote kans op aanzienlijke afstand van EX aangetroffen wordt. Dit karakteriseert het spreidingsbegrip. De covariantie van twee stochastische grootheden X en Y is gelijk aan cov(x, Y ) = E ( (X EX)(Y EY ) ) = E(XY ) EXEY. Uit de definities van verwachtingswaarde en variantie kunnen de volgende rekenregels worden afgeleid E(a + bx) = a + b EX var(a + bx) = b 2 var(x) E(X + Y ) = EX + EY var(x + Y ) = var(x) + var Y + 2 cov(x, Y ). 1.3 Standaard verdelingen In deze paragraaf worden voorbeelden gegeven van discrete en continue verdelingen die vaak voorkomen Discrete verdelingen Voorbeeld 1.3 (Bernoulli-verdeling). De stochastische grootheid X heeft de Bernoulliverdeling (of alternatieve verdeling) met parameter π [0, 1] als Deze kansmassafunctie is ook te schrijven als P(X = 0) = 1 π en P(X = 1) = π. P(X = x) = π x (1 π) 1 x x {0, 1}. De verwachtingswaarde en variantie zijn in dat geval gelijk aan EX = π en Var(X) = π(1 π). Als X 1,..., X n onderling onafhankelijke Bernoulli-verdeelde stochasten zijn met parameter π, dan is X X n binomiaal verdeeld met parameters n en π.

6 4 1: Herhaling Kansrekening Voorbeeld 1.4 (Binomiale verdeling). De stochastische grootheid X heeft de binomiale verdeling met parameters n N en π [0, 1] als P(X = k) = ( ) n π k (1 π) n k k voor k {0, 1,..., n}. De verwachtingswaarde en variantie zijn in dat geval gelijk aan EX = nπ en Var(X) = nπ(1 π). De binomiale verdeling met parameters n = 1 en π [0, 1] is gelijk aan de Bernoulli-verdeling met parameter π. Als X 1 en X 2 twee onafhankelijke binomiaal verdeelde stochasten zijn met respectievelijk parameters (n, π) en (m, π), dan is X 1 + X 2 weer binomiaal verdeeld, met parameters (n + m, π). Voorbeeld 1.5 (Poisson-verdeling). De stochastische grootheid X heeft de Poisson-verdeling met parameter λ > 0 als P(X = k) = λk e λ k! voor k {0, 1,...}. De verwachtingswaarde en variantie zijn in dat geval gelijk aan EX = λ en Var(X) = λ. Als X 1 en X 2 twee onafhankelijke Poisson-verdeelde stochasten zijn met respectievelijk parameters λ en µ dan is X 1 + X 2 weer Poisson-verdeeld, met parameter λ + µ. Voorbeeld 1.6 (Geometrische verdeling). De stochastische grootheid X heeft de geometrische verdeling met parameter π (0, 1] als P(X = k) = π(1 π) k 1 voor k {1, 2,...}. De verwachtingswaarde en variantie zijn in dat geval gelijk aan EX = 1/π en Var(X) = (1 π)/π Continue verdelingen Voorbeeld 1.7 (Uniforme verdeling). De stochastische grootheid X heeft de (continue) uniforme verdeling op het interval [a, b] als de dichtheid van X gelijk is aan f(x) = 1 b a 1 [a,b](x). De waarde van de indicatorfunctie 1 [a,b] (x) = 1 als x [a, b] en 0 anders. De verwachtingswaarde en variantie worden in dat geval gegeven door EX = (a + b)/2 en Var(X) = (b a) 2 /12. In het geval dat a = 0 en b = 1 is de dichtheid gelijk aan f(x) = 1 [0,1] (x), de verwachting gelijk aan 1/2 en de variantie gelijk aan 1/12. Voorbeeld 1.8 (Normale verdeling). De stochastische grootheid X heeft de normale verdeling met parameters µ R en σ 2 > 0 als de dichtheid van X gelijk is aan f(x) = 1 1 (x µ) 2 2πσ 2 e 2 σ 2. De verwachtingswaarde en variantie worden in dat geval gegeven door EX = µ en Var(X) = σ 2. De standaard normale verdeling is de normale verdeling met parameters µ = 0 en σ 2 = 1. De dichtheid en de verdelingsfunctie van de standaard normale verdeling worden respectievelijk genoteerd als φ en Φ. Als X 1 en X 2 twee onafhankelijke normaal verdeelde stochasten zijn met respectievelijk parameters (µ, σ 2 ) en (ν, τ 2 ) dan is X 1 + X 2 weer normaal verdeeld, met parameters (µ + ν, σ 2 + τ 2 ).

7 1.4: Multivariate en marginale verdelingen 5 Voorbeeld 1.9 (Exponentiële verdeling). De stochastische grootheid X heeft de exponentiële verdeling met parameter λ > 0 als de dichtheid van X gelijk is aan f(x) = λe λx, x 0. De verwachtingswaarde en variantie worden in dat geval gegeven door EX = 1/λ en Var(X) = 1/λ 2. Als X 1,..., X n onderling onafhankelijke exponentieel verdeelde stochasten zijn met parameter λ, dan is de som X X n Gamma-verdeeld met vormparameter n en inverse schaalparameter λ. Voorbeeld 1.10 (Gamma-verdeling). De stochastische grootheid X heeft de Gammaverdeling met vormparameter α > 0 en inverse schaalparameter λ > 0 (of schaalparameter 1/λ) als de dichtheid van X gelijk is aan waar Γ de zogenaamde Gamma-functie is, f(x) = xα 1 λ α e λx, x 0, Γ(α) Γ(α) = 0 x α 1 e x dx. Wanneer α N, dan geldt Γ(α) = (α 1)!. De verwachtingswaarde en variantie van X worden gegeven door EX = α/λ en Var(X) = α/λ 2. De Gamma-verdeling met parameters α = 1 en λ > 0 is gelijk aan de exponentiële verdeling met parameter λ. Als X 1 en X 2 twee onafhankelijke Gamma-verdeelde stochasten zijn met respectievelijk parameters (α, λ) en (β, λ) dan is X 1 +X 2 weer Gamma-verdeeld, met parameters α + β en λ. Voorbeeld 1.11 (Chikwadraat-verdeling). De stochastische grootheid X heeft de chikwadraatverdeling met n vrijheidsgraden als X dezelfde verdeling heeft als n Z2 i voor Z 1,..., Z n onderling onafhankelijke standaard normaal verdeelde stochasten. De verwachtingswaarde en variantie van X worden gegeven door EX = n en Var(X) = 2n. De chikwadraat-verdeling met n vrijheidsgraden wordt genoteerd als χ 2 n. Voorbeeld 1.12 (t-verdeling). De stochastische grootheid X bezit de t-verdeling (of Studentverdeling) met n vrijheidsgraden, als X dezelfde verdeling heeft als Z/ Y/n waar Y en Z onafhankelijke stochastische grootheden zijn, Z een standaard normaal verdeling volgt en Y een χ 2 n -verdeelde stochast is. De t-verdeling met n vrijheidsgraden wordt genoteerd als t n. Voorbeeld 1.13 (F -verdeling). Een stochastische grootheid X bezit de F -verdeling met m en n vrijheidsgraden, als X dezelfde verdeling heeft als (U/m)/(V/n) waar U en V onafhankelijke chikwadraat-verdeelde stochastische grootheden zijn met respectievelijk m en n vrijheidsgraden. De F -verdeling met m en n vrijheidsgraden wordt genoteerd als F m,n. 1.4 Multivariate en marginale verdelingen In veel gevallen is men niet geïnteresseerd in een enkele waarneming, maar wil men meerdere gemeten grootheden tegelijk beschouwen. In de kansrekening worden voor dergelijke situaties stochastische vectoren gebruikt. De simultane verdeling van X en Y beschrijft de kansen van de vorm P ( (X, Y ) A ). Ook bij stochastische vectoren is er onderscheid tussen discrete en continue verdelingen. Als de vector (X, Y ) een discrete verdeling heeft, dan ligt die verdeling vast door de simultane kansdichtheid p(x, y), waar p(x, y) = P ( (X, Y ) = (x, y) ). Wanneer de vector (X, Y ) continu

8 6 1: Herhaling Kansrekening verdeeld is, hanteren we een multivariate kansdichtheid f. De kans op een uitkomst binnen een verzameling A is in dat geval gegeven door de integraal P ( (X, Y ) A ) = f(x, y) dx dy. A 1.5 Onafhankelijkheid Onafhankelijkheid van stochastische grootheden speelt binnen de statistiek een grote rol. Definitie Twee stochastische grootheden X en Y heten onafhankelijk wanneer voor alle gebeurtenissen A en B geldt P ( X A, Y B ) = P(X A) P(Y B). Als de stochasten X en Y een discrete simultane verdeling hebben met kansdichtheid p, dan zijn X en Y onafhankelijk dan en slechts dan als p(x, y) = p X (x) p Y (y) = P(X = x)p(y = y), voor alle x, y. Als (X, Y ) een continue simultane verdeling hebben met kansdichtheid f, dan zijn X en Y onafhankelijk dan en slechts dan als f(x, y) = f X (x) f Y (y), voor alle x, y. Onafhankelijkheid van X en Y betekent dat informatie over de realisatie van Y geen invloed heeft op de verdeling van X en vice versa. De verwachtingswaarde en variantie van de som van twee onafhankelijke stochastische grootheden zijn gelijk aan E(X + Y ) = EX + EY var(x + Y ) = var(x) + var(y ) omdat in dat geval Cov(X, Y ) = E(XY ) EXEY = 0. Bovenstaande uitdrukkingen zijn eenvoudig uit te breiden naar sommen van n stochastische grootheden. Veronderstel dat X 1,..., X n stochastische grootheden zijn met eindige verwachting µ, dan is ( n ) n E X i = EX i = nµ. Als X 1,..., X n eindige variantie σ 2 hebben én onderling onafhankelijk zijn, dan geldt tevens dat ( n ) n var X i = var X i = nσ 2. De verwachting en de variantie van het steekproefgemiddelde zijn dan gelijk aan X = 1 n n X i EX = 1 ( n n E ) X i = µ, var X = 1 ( n n 2 var ) X i = σ2 n.

9 2 Statistische Modellen 2.1 Introductie In zekere zin is de richting van de statistiek precies de omgekeerde van die van de waarschijnlijkheidsrekening: de uitslagen van een experiment zijn waargenomen, maar het onderliggende kansmodel is (deels) onbekend en dient uit de uitslagen te worden afgeleid. Enkele typerende vragen die met behulp van statistiek kunnen worden beantwoord zijn: (i) Wat is de kans dat de Maas komend jaar buiten zijn oevers treedt? (ii) Is de nieuwe medische behandeling significant beter dan de oude? (iii) Wat is de onzekerheidsmarge in de voorspelling van het aantal zetels voor politieke partij A? Het beantwoorden van dergelijke vragen is vaak niet eenvoudig. Om een geschikt statistisch model voor beschikbare data op te stellen, moet inzicht verkregen worden in de manier waarop de data verzameld zijn. Wanneer er nog geen data beschikbaar zijn, zullen die moeten worden verzameld. Het verkrijgen van relevante data vereist een goede, doordachte opzet. Zo zal bij een onderzoeksvraag die een bepaalde populatie betreft (bijvoorbeeld de populatie van patiënten met een hoge bloeddruk, stemgerechtigden, of eindprodukten van een productieproces), data verzameld moeten worden van een groep mensen die representatief is voor de gehele populatie. Ten slotte moet dan een geschikt statistisch model worden opgesteld voor de data. Een statistisch model is een collectie van kansverdelingen voor de waarneming X. Meestal hebben we een reeks van variabelen X 1,..., X n die corresponderen met onderling onafhankelijke herhalingen van hetzelfde experiment, we spreken dan van een steekproef. De variabelen X 1,..., X n zijn dan onderling onafhankelijk en identiek verdeeld. 2.2 Enkele voorbeelden Het begrip statistisch model wordt pas echt duidelijk door voorbeelden. Zo eenvoudig als het wiskundige begrip statistisch model is uitgedrukt in de voorgaande definitie, zo ingewikkeld is het proces van statistisch modelleren van een gegeven praktijksituatie. Het resultaat van een statistisch onderzoek staat of valt echter met het construeren van een goed model. Voorbeeld 2.1 (Steekproef). Van een grote populatie bestaande uit N personen heeft een onbekende fractie π een bepaalde eigenschap A; deze fractie π willen we schatten. Het wordt als te veel moeite beschouwd om alle personen uit de populatie op eigenschap A te onderzoeken. In plaats daarvan kiest men aselect n personen uit de populatie, met teruglegging. Men neemt

10 8 2: Statistische Modellen (een realisatie van) de stochastische grootheden X 1,..., X n waar, waarbij X i = { 0 als de i e persoon A niet heeft, 1 als de i e persoon A wel heeft. Vanwege de manier waarop het experiment is ingericht (trekken met teruglegging) weten we a priori dat X 1,..., X n onderling onafhankelijk en alternatief verdeeld zijn. Dat laatste wil zeggen dat P(X i = 1) = 1 P(X i = 0) = π voor i = 1,..., n. Over de parameter π is geen a priori kennis beschikbaar, anders dan dat 0 π 1. Het ligt voor de hand de onbekende π te schatten met de fractie van het aantal personen met eigenschap A; dus met n 1 n x i waarbij x i gelijk is aan 1 of 0 al naar gelang de persoon eigenschap A wel of niet heeft. In Hoofdstuk 3 geven we een precieze betekenis aan schatten. Met een betrouwbaarheidsinterval kunnen we kwantificeren hoever deze schatter van π zal afwijken. Bijna nooit zullen de populatie- en steekproeffractie immers precies gelijk zijn. Een betrouwbaarheidsinterval geeft een precieze betekenis aan de foutenmarge die vaak bij de uitslag van een opiniepeiling wordt vermeld. Voorbeeld 2.2 (Meetfouten). Als een fysicus middels een experiment herhaaldelijk de waarde van een constante µ bepaalt, vindt hij niet steeds dezelfde waarde. Zie bijvoorbeeld Figuur 2.1, waarin de 23 bepalingen van de lichtsnelheid door Michelson in 1882 zijn weergegeven. De vraag is hoe de onbekende constante µ op grond van de waarnemingen, een rij getallen x 1,..., x n, geschat kan worden. Voor de waarnemingen in Figuur 2.1 zal deze schatting in de range liggen, maar de vraag is waar. Een statistisch model verleent houvast bij het beantwoorden van deze vraag. Kansmodellen zijn in deze context voor het eerst toegepast aan het eind van de 18 e eeuw, en de normale verdeling werd door Gauss rond 1810 ontdekt precies met het doel inzicht te geven in deze situatie Figuur 2.1. Grafische weergave van de resultaten van de 23 metingen van de lichtsnelheid door Michelson in De schaal op de horizontale as geeft de gemeten lichtsnelheid (in km per seconde) min km/sec. Als de metingen steeds onder dezelfde omstandigheden worden verricht, steeds onafhankelijk van het verleden, dan is het redelijk in het model op te nemen dat deze getallen realisaties zijn van onderling onafhankelijke en identiek verdeelde stochastische variabelen X 1,..., X n. De meetfouten e i = X i µ zijn dan eveneens stochastische variabelen. Een gebruikelijke aanname is dat de verwachte meetfout gelijk is aan 0, met andere woorden Ee i = 0, en dus is EX i = E(e i + µ) = µ. Fysici menen vaak meer a priori informatie te bezitten, en doen dan meer modelaannames. Ze veronderstellen bijvoorbeeld dat de meetfouten normaal verdeeld zijn met verwachting 0 en variantie σ 2, ofwel dat de waarnemingen X 1,..., X n normaal verdeeld zijn met verwachting

11 2.2: Enkele voorbeelden 9 µ en variantie σ 2. In de praktijk blijkt deze normaliteitsaanname vaak, maar niet altijd, bij benadering juist te zijn. Met QQ-plots kun je normaliteit aan de data zelf onderzoeken. Het belang van een precies omschreven model is onder andere dat het mogelijk maakt te bepalen wat een zinvolle manier is om µ uit de waarnemingen te schatten. Het middelen van x 1,..., x n ligt voor de hand. We kunnen laten zien dat dit het beste is (volgens een bepaald criterium) als de meetfouten inderdaad een normale verdeling volgen met verwachting 0. Zouden de meetfouten echter Cauchy-verdeeld zijn, dan is middelen desastreus. Dit blijkt uit Figuur 2.2. Deze toont voor n = 1, 2,..., 1000 het gemiddelde n 1 n x i van de eerste n realisaties x 1,..., x 1000 van een steekproef uit een standaard Cauchy-verdeling. De gemiddelden gedragen zich chaotisch en komen niet steeds dichter bij 0. Dit kan worden verklaard uit het opmerkelijke theoretische resultaat dat het gemiddelde n 1 n X i van onderling onafhankelijke standaard Cauchy-verdeelde stochastische grootheden X 1,..., X n zelf ook standaard Cauchy-verdeeld is. Middelen doet hier niets! Figuur 2.2. Cumulatieve gemiddelden (verticale as) van n = 1, 2,..., 1000 (horizontale as) realisaties uit de standaard Cauchy-verdeling. Voorbeeld 2.3 (Regressie). Lange ouders krijgen over het algemeen lange kinderen en korte ouders, korte kinderen. De lengte van de ouders hebben een grote voorspellende waarde voor de zogenaamde eindlengte van hun kinderen, de lengte als kinderen zijn uitgegroeid. Er zijn meer factoren die invloed hebben. Het geslacht van het kind speelt natuurlijk een belangrijke rol. Ook omgevingsfactoren als gezonde voeding en hygiëne zijn van belang. Door verbeterde voeding en een toegenomen hygiëne in de afgelopen 150 jaar hebben factoren die de lengtegroei belemmeren, als infectieziekten en ondervoeding, minder kans gekregen in de meeste Westerse landen. Hierdoor is de gemiddelde lichaamslengte toegenomen en worden kinderen elke generatie langer. De streeflengte (of target height ) van een kind is de eindlengte die kan worden verwacht op basis van de lengte van de ouders, het geslacht van het kind en de toename van lichaamslengte over generaties. De vraag luidt op welke manier de streeflengte afhangt van deze factoren. Definieer Y als de eindlengte die een kind zal bereiken, x 1 en x 2 als de lengte van de biologische vader en moeder, en x 3 als een indicator voor het geslacht (x 3 = 1 voor een meisje en x 3 = 1 voor een jongen). De streeflengte EY wordt gemodelleerd met een zogenaamd lineair regressiemodel EY = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3, waarbij β 0 de toename van de gemiddelde lichaamslengte per generatie is, β 1 en β 2 de mate waarin de lengte van de ouders invloed hebben op de streeflengte van hun nageslacht en β 3 is de afwijking van de streeflengte tot de gemiddelde volwassen lengte die wordt veroorzaakt door het geslacht van het kind. Aangezien mannen gemiddeld langer zijn dan vrouwen zal β 3 positief zijn.

12 10 2: Statistische Modellen Bovenstaand lineair model zegt niets over individuele lengtes, maar enkel over dat van het nageslacht van ouders met een bepaalde lengte. Zo hebben twee broers dezelfde streeflengte; ze hebben immers dezelfde biologische ouders, hetzelfde geslacht en zijn geboren in dezelfde generatie. De werkelijke eindlengte Y kan geschreven worden als Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + e, waarbij e = Y EY de afwijking is van de werkelijke eindlengte Y ten opzichte van de streeflengte EY. De waarneming Y wordt ook wel de afhankelijke variabele genoemd en de variabelen x 1, x 2 en x 3 de onafhankelijke of verklarende variabelen. Veelal wordt verondersteld dat e normaal verdeeld is met verwachting 0 en onbekende variantie σ 2. De eindlengte Y heeft dan een normale verdeling met verwachting β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 en variantie σ 2. In Nederland wordt periodiek de lengtegroei van de jeugd in kaart gebracht. In 1997 vond de Vierde Landelijke Groeistudie plaats. Een onderdeel van het onderzoek betrof de relatie tussen de eindlengte van kinderen en de lengte van hun ouders. Om deze relatie te bepalen waren gegevens verzameld van jongvolwassenen en hun ouders. Dit leverde de volgende waarnemingen: (y 1, x 1,1, x 1,2, x 1,3 ),...(y n, x n,1, x n,2, x n,3 ) op, waar y i de lichaamslengte van de i e jongvolwassene is, x i,1 en x i,2 de lengte van de biologische ouders, en x i,3 een indicator voor het geslacht van de i e jongvolwassene. Veronderstel dat de waarnemingen onafhankelijke replicaties zijn uit bovenstaand lineair regressiemodel; dat wil zeggen dat gegeven x i,1, x i,2, en x i,3, Y i verwachting β 0 + β 1 x i,1 + β 2 x i,2 + β 3 x i,3 en variantie σ 2 heeft. De parameters (β 0, β 1, β 2, β 3 ) zijn onbekend en kunnen geschat worden op basis van de waarnemingen. Voor een eenvoudige interpretatie van het model is er voor gekozen om β 1 = β 2 = 1/2 te nemen, zodat de streeflengte gelijk is aan de gemiddelde ouderlengte gecorrigeerd voor het geslacht van het kind en de invloed van de tijd. De parameters β 0 en β 3 zijn gelijk aan de toename van de lichaamslengte in de afgelopen generatie en de helft van het gemiddelde lengteverschil tussen mannen en vrouwen. Deze parameters werden geschat met behulp van de kleinste kwadratenmethode. De parameter β 0 is geschat met 4.5 centimeter en β 3 met 6.5 centimeter. Het geschatte regressiemodel is dan gelijk aan (2.1) Y = (x 1 + x 2 ) + 6.5x 3 + e. In Figuur 2.3 is de lichaamslengte van 44 jongvolwassen mannen (links) en 67 jongvolwassen vrouwen (rechts) uitgezet tegen de gemiddelde lichaamslengte van hun ouders. De lijn is gelijk aan de geschatte regressielijn gevonden in de Vierde Landelijke Groeistudie Figuur 2.3. Lengte van zonen (links) en dochters (rechts) uitgezet tegen de gemiddelde lichaamslengte van hun ouders. De lijn is de regressielijn gevonden in de Vierde Landelijke Groeistudie. Bron: De data zijn verzameld door de afdeling Biologische Psychologie van de Vrije Universiteit in het kader van een onderzoek naar gezondheid, levensstijl en persoonlijkheid.

13 2.2: Enkele voorbeelden 11 Het geschatte regressiemodel dat gevonden werd in de Vierde Landelijke Groeistudie, kunnen we gebruiken voor het voorspellen van de eindlengte van kinderen die nu geboren worden. We moeten dan wel veronderstellen dat de lengtetoename de komende generatie opnieuw 4.5 centimeter is en het gemiddelde lengteverschil tussen mannen en vrouwen gelijk aan 13 centimeter blijft. Op basis van het bovenstaande model zijn de streeflengten voor zonen en dochters van een man met een lengte van 180 centimeter en een vrouw van 172 centimeter gelijk aan ( )/ = 187 centimeter en ( )/2 6.5 = 174 centimeter. In andere Europese landen worden andere modellen gebruikt. In Zwitserland, bijvoorbeeld, is de streeflengte gelijk aan EY = x 1 + x x 3. Nu is de streeflengte van de zonen en dochters van ouders met dezelfde lengte als in het voorbeeld hiervoor gelijk aan 184 en 171 centimeter. In het voorgaande voorbeeld bestaat er een lineair verband tussen de respons Y en de onbekende parameters β 0,..., β 3. In dat geval spreken we van een lineair regressiemodel. Het meest eenvoudige lineaire regressiemodel is het model waarbij er slechts één verklarende variabele is: Y = β 0 + β 1 x + e; het enkelvoudige lineaire regressiemodel (in tegenstelling tot meervoudige lineaire regressie als er meerdere verklarende variabelen zijn). In het algemeen spreken we van een regressiemodel als er een specifieke samenhang bestaat tussen de respons Y en waarnemingen x 1,..., x p : Y = f θ (x 1,..., x p ) + e waarbij f θ de relatie tussen de waarnemingen x 1,..., x p en de respons Y beschrijft, en de stochastische variabele e een niet-waarneembare meetfout is met verwachting nul en onbekende variantie σ 2. Indien de functie f θ bekend is op de eindig-dimensionale parameter θ na, dan spreken we van een parametrisch model. Het lineaire regressiemodel is hier een voorbeeld van; in dit model is θ = (β 0,..., β p ) R p+1 en f θ (x 1,..., x p ) = β 0 + β 1 x β p x p. Het regressiemodel ligt dan vast als waarden voor θ en σ 2 bekend zijn. De functie f θ kan echter ook onbekend zijn op de eindig dimensionale parameter θ en een oneindig dimensionale parameter na. We spreken dan van een semi-parametrisch model.

14 3 Schatters 3.1 Introductie Na het opstellen van een geschikt statistisch model is de volgende stap het bepalen welke kansverdeling binnen het model het best aansluit bij de gegevens. Vaak komt dit neer op het bepalen van de best passende parameterwaarde. In de statistiek heet dit proces schatten. Veronderstel dat de kansverdeling van X afhangt van een onbekende parameter θ, zodat het statistische model de vorm {P θ : θ Θ} heeft, voor P θ de kansverdeling van X als θ de ware parameterwaarde is. Op grond van een waarnemingen x willen we de ware waarde van θ schatten. Schatten betekent hier het doen van een uitspraak over θ van de vorm: ik denk dat θ bij benadering gelijk is aan T (x), voor zekere waarde T (x) die van de waargenomen waarde x afhangt. Definitie 3.1. Een schatter (Engels: estimator) is een stochastische vector T (X) die alleen van de waarneming X afhangt. De bijbehorende schatting (Engels: estimate), bij gerealiseerde waarneming x, is T (x). Volgens deze definitie zijn heel veel objecten schatters. Waar het om gaat is dat T (X) een functie van X is die niet van de parameter θ mag afhangen: we moeten T (x) kunnen uitrekenen op grond van de data x. Na verrichting van de waarneming krijgt T een gerealiseerde waarde t = T (x), waarmee we θ schatten. Zowel schatters als schattingen van θ worden vaak aangegeven met ˆθ. Het dakje geeft aan dat ˆθ een functie van de waarneming is, maar deze notatie maakt geen verschil tussen de stochastische vector of zijn realisatie: ˆθ kan zowel ˆθ(X) als ˆθ(x) betekenen. 3.2 Maximum Likelihood-Schatters De methode van de maximum likelihood-schatters (Nederlands: methode van de meest aannemelijke schatters) is de meest gebruikte methode om schatters voor een onbekende parameter te vinden. Voordat deze methode in het algemeen wordt gepresenteerd, wordt voor het (eenvoudige) geval van de binomiale verdeling de maximum likelihood-schatter afgeleid in het volgende voorbeeld. Voorbeeld 3.2 (Binomiale verdeling). Veronderstel dat we 10 keer met een onzuivere munt gooien. De kans π op kop is bij deze munt niet noodzakelijkerwijze 1/2. Definieer X als het aantal malen kop in de 10 worpen. De stochastische variabele X heeft dan een binomiale

15 3.2: Maximum Likelihood-Schatters 13 verdeling met parameters 10 en onbekende π [0, 1]. Stel dat we 3 maal kop werpen. De kans op deze uitkomst is gelijk aan ( ) 10 P π (X = 3) = π 3 (1 π) 7. 3 De kans π is onbekend en moet geschat worden. Welke waarde voor π is nu meest waarschijnlijk? p Figuur 3.1. π. De kans P π(x = 3) als functie van π waar de stochast X binomiaal verdeeld is met parameters 10 en In Figuur 3.1 is de kans P π (X = 3) getekend als functie van π. We zien dat er precies één waarde voor π is die deze kans maximaliseert, namelijk de waarde 0.3. Deze waarde voor π kent de grootste kans toe aan de waarneming 3 maal kop. De schatting ˆπ = 0.3 blijkt in deze situatie de maximum likelihood-schatting te zijn. De maximum likelihood-methode vereist de specificatie van de likelihood-functie, welke wordt afgeleid uit de kansdichtheid van de waarneming of waarnemingen. Definitie 3.3. Laat X 1,..., X n waarnemingen zijn uit de verdeling met kansdichtheid p θ die van een parameter θ afhangt. De functie θ L(θ; x 1,..., x n ): = p θ (x 1,..., x n ) opgevat als functie van θ voor vaste x 1,..., x n heet de likelihood-functie (Nederlands: aannemelijkheidsfunctie). Als de waarnemingen een steekproef vormen en dus onafhankelijk zijn, is n θ L(θ; x 1,..., x n ): = p θ (x 1,..., x n ) = p θ (x i ) In dit hoofdstuk veronderstellen we dat de waarnemingen onderling onafhankelijk zijn. Definitie 3.4. De maximum likelihood-schatting voor θ is die waarde T (x 1,..., x n ) Θ die de functie θ L(θ; x 1,..., x n ) maximaliseert. De maximum likelihood-schatter (Nederlands: meest aannemelijke schatter) is de bijbehorende schatter T (X 1,..., X n ). In het geval van een discrete kansverdeling kan de maximum likelihood-schatting worden omschreven als: die waarde van de parameter die de grootste waarschijnlijkheid toekent aan de waargenomen waarden x 1,..., x n. We maximaliseren in dat geval immers de kansdichtheid

16 14 3: Schatters P θ (X 1 = x 1,..., X n = x n ) naar θ voor vaste x 1,..., x n. Dit is een intuïtief redelijk schattingsprincipe en verklaart de naam. Dit principe moet echter alleen beschouwd worden als een schattingsmethode: maximum likelihood-schatters zijn niet noodzakelijkerwijze de beste schatters, ondanks de mooie naam. Voor iedere willekeurige functie g definiëren we de maximum likelihood-schatter voor g(θ) simpelweg als g(ˆθ) met ˆθ de maximum likelihood schatter voor θ. Bij een gegeven model is het uitrekenen van de maximum likelihood-schatter een kwestie van calculus. Vaak geschiedt dit door de likelihood-functie te differentiëren en de afgeleiden gelijk aan nul te stellen. Een trucje dat het rekenwerk beperkt is om eerst de logaritme van de likelihood te nemen. Omdat de logaritme een monotone functie is, geldt dat de waarde ˆθ de functie θ L(θ; x 1,..., x n ) maximaliseert dan en slechts dan als deze waarde de functie θ log L(θ, x 1,..., x n ) maximaliseert. (Het gaat om de plaats waar het maximum wordt aangenomen, niet de grootte van het maximum!) Voor vaste x 1,..., x n wordt de log likelihoodfunctie gegeven door θ log L(θ; x 1,..., x n ) = log n p θ (x i ) = n log p θ (x i ), Als L differentieerbaar is in θ Θ R en zijn maximum in een inwendig punt van Θ aanneemt, dan geldt θ log L(θ; x 1,..., x n ) θ=ˆθ = n log p θ (x i ) θ θ=ˆθ = 0. Deze likelihood-vergelijking is lang niet altijd expliciet oplosbaar. Zonodig gebruikt men iteratietechnieken om stapsgewijs een steeds betere benadering van de oplossing te verkrijgen, uitgaande van een geschikte startwaarde. Voorbeeld 3.5 (Alternatieve verdeling). De kansdichtheid van de alternatieve verdeling alt(π) kan worden geschreven als x π x (1 π) 1 x ; voor x = 0 staat hier 1 π en voor x = 1 staat er π. Voor een waargenomen steekproef x 1,..., x n uit de alt(π)-verdeling is de log likelihood-functie derhalve n n ( n ) p log L(π; x 1,..., x n ) = log π xi (1 π) 1 xi = x i log π + n x i log(1 π). Nulstellen van de afgeleide naar π geeft één oplossing; de maximum likelihood-schatting ˆπ = x. De tweede afgeleide van p log L(π; x 1,..., x n ) naar π is gelijk negatief in het punt ˆπ; in het punt ˆπ neemt de (log) likelihood een maximum aan. De maximum likelihood schatter is gelijk aan ˆπ = X. 0 2*10^-6 6*10^-6 10^ Figuur 3.2. Een realisatie van de likelihood-functie als functie van p voor een steekproef uit de alternatieve verdeling. De waargenomen waarde is Σ n xi = 5 voor n = 20, en de maximum likelihood-schatting is ˆp = 0.25.

17 3.2: Maximum Likelihood-Schatters 15 Voorbeeld 3.6 (Exponentiële verdeling). Veronderstel dat X 1,..., X n een steekproef is uit de exponentiële verdeling met onbekende parameter λ > 0. Dan is de log likelihood-functie voor de waargenomen waarden x 1,..., x n gelijk aan n n λ log λe λxi = n log λ λ x i. De parameterruimte voor λ is (0, ). Nulstellen van de afgeleide van de log likelihood-functie naar λ en de gevonden vergelijking oplossen naar λ geeft ˆλ = 1/x. De tweede afgeleide van de log likelihood-functie naar λ is negatief voor alle λ > 0, dus in ˆλ heeft de likelihood-functie ook daadwerkelijk een maximum. De bijbehorende maximum likelihood schatter is nu gelijk aan ˆλ = 1/X. De maximum likelihood-schatter van E θ X i kunnen we hieruit afleiden. Definieer de functie g als g(λ) = 1/λ voor λ > 0. Dan geldt EX i = g(λ). De maximum likelihood-schatter voor EX i = 1/λ = g(λ) is daarom gelijk aan g(ˆλ) = 1/ˆλ = X. Voorbeeld 3.7 (Normale verdeling). De log likelihood-functie voor een waargenomen steekproef x 1,..., x n uit de N(µ, σ 2 )-verdeling wordt gegeven door n (µ, σ 2 1 ) log 1 2πσ 2 e 2 (xi µ)2 /σ 2 = 1 2 n log 2π 1 2 n log σ2 1 n 2σ 2 (x i µ) 2. We nemen de natuurlijke parameterruimte voor de parameter θ = (µ, σ 2 ): Θ = R (0, ). De partiële afgeleiden van de log likelihood naar µ en σ 2 zijn µ log L(µ, σ2 ; x 1,..., x n ) = 1 n σ 2 (x i µ) σ 2 log L(µ, σ2 ; x 1,..., x n ) = n 2σ σ 4 n (x i µ) 2. Nulstellen van de eerste vergelijking geeft één oplossing: ˆµ = x. In deze waarde voor µ heeft de log likelihood inderdaad een globaal maximum voor iedere σ 2 > 0 aangezien de waarde van de log likelihood naar gaat voor µ ±. Vervolgens substitueren we µ = ˆµ in de tweede partiële afgeleide, stellen deze gelijk aan 0 en lossen de likelihood-vergelijking vervolgens op naar σ 2. Dit geeft opnieuw één oplossing: ˆσ 2 = n 1 n (x i x) 2. Om gelijke reden als hiervoor heeft de log likelihood functie in deze waarde inderdaad een maximum. (Overigens levert het maximaliseren van de log likelihood-functie naar σ in plaats van σ 2 de wortel uit ˆσ 2 als maximum likelihood-schatter voor σ op.) Om te controleren of de (differentieerbare) log likelihood-functie een maximum heeft in de gevonden oplossing van de likelihood-vergelijkingen, kan ook de Hessiaan-matrix van de log likelihood-functie in het punt (ˆµ, ˆσ 2 ) berekend worden, welke hier gelijk is aan ( ) 1 nˆσ 2 0 ˆσ 4. 0 n/2 Beide eigenwaarden van deze matrix zijn negatief en daarmee heeft de log likelihood een maximum in het punt (ˆµ, ˆσ 2 ). De gevonden maximum likelihood-schatting voor (µ, σ 2 ) is gelijk aan ( x, 1 n (x i x) 2) ( = x, n 1 ) n n S2 x met Sx 2 = 1 n (x i x) 2. n 1 Hier uit volgt direct de maximum likelihood schatter: ˆµ = X en ˆσ 2 = 1 n n (X i X) 2 Het steekproefgemiddelde is zuiver voor µ, maar de maximum likelihood-schatter ˆσ 2 heeft een lichte onzuiverheid. Vanwege de kleine onzuiverheid wordt vaak de voorkeur gegeven aan de steekproefvariantie S 2 X = (n/(n 1))ˆσ2.

18 16 3: Schatters Voorbeeld 3.8 (Normale verdeling met restrictie). Veronderstel dat de waarnemingen X 1,..., X n onafhankelijk en normaal verdeeld zijn met verwachting µ en variantie 1, waarbij bekend is dat µ 0. Voor x 1,..., x n een realisatie van X 1,..., X n, neemt de likelihood-functie op R een absoluut maximum aan in x. Omdat x negatief kan zijn en bekend is dat µ 0, is x niet de maximum likelihood-schatting. In het geval dat x 0, neemt de likelihood-functie op de parameterverzameling [0, ) een randmaximum aan in 0. De maximum likelihood-schatting is x als deze niet-negatief is en anders 0. De bijbehorende maximum likelihood-schatter is dan X1 X 0 ; X als X 0 en 0 anders. Een statistisch model en de maximum likelihood-schatter worden bepaald door zowel de vorm van de dichtheid van de waarneming als de definitie van de parameterverzameling! Stel dat X 1,..., X n een steekproef is uit de Gamma- Voorbeeld 3.9 (Gamma-verdeling). verdeling met kansdichtheid p α,λ (x) = xα 1 λ α e λx. Γ(α) Hierin zijn α > 0 en λ > 0 de onbekende vorm- en inverse schaalparameter, en Γ de Gammafunctie Γ(α) = 0 s α 1 e s ds. De log likelihood-functie voor realisatie x 1,..., x n is dan gelijk aan (α, λ) log n x α 1 i λ α e λxi Γ(α) n n = (α 1) log x i + nα log λ λ x i n log Γ(α). De parameterruimte voor θ = (α, λ) nemen we gelijk aan Θ = [0, ) [0, ). Om de maximum likelihood-schatters voor α en λ te vinden, bepalen we de partiële afgeleiden van de log likelihood-functie naar λ en α λ log L(α, λ; x 1,..., x n ) = nα n λ x i, α log L(α, λ; x 1,..., x n ) = n log x i + n log λ n 0 0 s α 1 log s e s ds. s α 1 e s ds (In de afgeleide naar α hebben we de Gamma-functie α Γ(α) onder het integraalteken gedifferentieerd en gebruikt dat ( / α)s α = s α log s.) De partiële afgeleiden zijn gelijk aan 0 in de maximum likelihood-schatters (ˆα, ˆλ); dit geeft twee likelihood-vergelijkingen. Uit de eerste vergelijking volgt onmiddellijk dat ˆλ = ˆα/x. Dit substitueren we in de tweede likelihoodvergelijking. Dit geeft n log x i + n log ˆα n log x n 0 0 sˆα 1 log s e s ds = 0. sˆα 1 e s ds Deze vergelijking heeft geen expliciete oplossing voor ˆα, maar kan numeriek, met een iteratieve methode, worden opgelost. Voor de meeste numerieke algoritmen zijn startwaarden nodig van waaruit gezocht wordt naar een oplossing van de vergelijking. De momentenschattingen kunnen als startwaarden dienen (zie Paragraaf 3.3). De gevonden waarde ˆα substitueren we vervolgens in de vergelijking ˆλ = ˆα/x om ˆλ te vinden. Om te controleren of de log likelihood-functie in de oplossing ook daadwerkelijk een maximum heeft, moeten we de eigenwaarden van de Hessiaan-matrix in (ˆα, ˆλ) berekenen. Als deze beide eigenwaarden negatief zijn in (ˆα, ˆλ), dan is (ˆα, ˆλ) inderdaad de maximum likelihoodschatter voor (α, λ).

19 3.3 Momentenschatters 3.3: Momentenschatters 17 De methode van de momenten is een alternatief voor de maximum likelihood-methode. Omdat de momentenmethode vaak niet de volledige informatie uit het statistische model gebruikt, zijn momentenschatters vaak minder efficiënt dan maximum likelihood-schatters. Aan de andere kant is de methode soms makkelijker te implementeren. Bovendien vereist de methode alleen de theoretische vorm van de momenten en niet de gehele kansverdeling van de waarnemingen. Aangezien deze momenten vaak gemakkelijker op een realistische manier zijn te modelleren dan de hele kansverdeling, kan dit een groot voordeel zijn. Het gebruik van een verkeerd model om schatters te construeren kan daardoor worden voorkomen. Veronderstel dat X een stochastische variabele is met een verdeling die bekend is op een parameter θ na. Het j e moment van X is gedefinieerd als E θ (X j ), mits deze verwachting bestaat. Op basis van onderling onafhankelijke en identiek verdeelde variabelen X 1,..., X n uit dezelfde verdeling kan het j e moment geschat worden met het j e steekproefmoment: X j = n 1 n Xj i. Dat dit een goede schatter is voor E θ (X j ) volgt uit de Wet van de Grote Aantallen. De momentenschatter voor θ is die waarde ˆθ waarvoor het j e moment overeenkomt met het j e steekproefmoment: Eˆθ(X j ) = X j. In de praktijk geven we de voorkeur aan de momentenschatter die gevonden wordt door j zo klein mogelijk te nemen. Voor een eendimensionale parameter θ volstaat j = 1, mits de verwachtingswaarde van de marginale verdeling afhangt van θ. Wanneer het eerste moment niet afhangt van θ, wordt j = 2 gekozen, etc. Indien θ meerdimensionaal is, zijn er meerdere vergelijkingen nodig om een unieke oplossing voor ˆθ te krijgen. In dat geval wordt de momentenschatter ˆθ opgelost uit de vergelijkingen voor j = 1,..., k met k het kleinste gehele getal waarvoor het stelsel vergelijkingen een unieke oplossing bezit. De momentenschatter voor g(θ) met g: Θ H een functie met bereik H is gedefinieerd als g(ˆθ) met ˆθ de momentenschatter voor θ. Voorbeeld 3.10 (Exponentiële verdeling). Veronderstel dat X 1,..., X n een steekproef is uit een exponentiële verdeling met onbekende parameter λ. Dan is E λ X i = 1/λ. De momentenschatter van λ wordt nu gevonden door de vergelijking X = 1/ˆλ op te lossen naar ˆλ. Dit geeft ˆλ = 1/X als momentenschatter voor λ. Deze schatter is ook de maximum likelihood-schatter voor λ (zie Voorbeeld 3.6). Voorbeeld 3.11 (Gamma-verdeling). Veronderstel dat X 1,..., X n de gamma-verdeling met onbekende vorm- en inverse schaalparameter α en λ hebben. Dan is E α,λ X i = α/λ en var α,λ X i = α/λ 2, en dus is het tweede moment gelijk aan E α,λ Xi 2 = var α,λ X i + (E α,λ X i ) 2 = α(1 + α)/λ 2. De momentenschatters voor α en λ worden gevonden uit het oplossen van de volgende twee vergelijkingen naar ˆα en ˆλ. Dit geeft ˆα = Eˆα,ˆλX i = ˆα/ˆλ = X Eˆα,ˆλX 2 i = ˆα(1 + ˆα)/ˆλ 2 = X 2 (X) 2 X 2 (X) 2 en ˆλ = X X 2 (X) 2.

4.2 Mean Square Error

4.2 Mean Square Error 4 Schatters 4.1 Introductie Een statistisch model bestaat uit alle kansverdelingen welke a priori mogelijk worden geacht voor de gegeven data. Gegeven een correct opgesteld model gaan we ervan uit dat

Nadere informatie

Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie

Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie Deze week: Schatten Statistiek voor Informatica Hoofdstuk 6: Schatten Cursusjaar 2009 Peter de Waal Departement Informatica Statistische inferentie A Priori en posteriori verdelingen Geconjugeerde a priori

Nadere informatie

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan. Afdeling Wiskunde Volledig tentamen Statistics Deeltentamen 2 Statistics Vrije Universiteit 28 mei 2015 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen: opgaven 1,2,3,4. Cijfer=

Nadere informatie

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013 Afdeling Wiskunde Volledig tentamen Algemene Statistiek Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen:

Nadere informatie

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1) Cursus Statistiek Hoofdstuk 4 Statistiek voor Informatica Hoofdstuk 4: Verwachtingen Cursusjaar 29 Peter de Waal Departement Informatica Inhoud Verwachtingen Variantie Momenten en Momentengenererende functie

Nadere informatie

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten Deze week: Steekproefverdelingen Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen Cursusjaar 29 Peter de Waal Zuivere Schatters Betrouwbaarheidsintervallen Departement Informatica Hfdstk

Nadere informatie

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen ALGEMENE STATISTIEK A.W. van der Vaart en anderen VOORWOORD Dit diktaat wordt gebruikt bij het vak Statistiek voor Natuurkunde. Het is een uittreksel van het boek Algemene Statistiek geschreven door A.W.

Nadere informatie

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Technische Universiteit Delft Mekelweg 4 Faculteit Elektrotechniek, Wiskunde en Informatica 2628 CD Delft Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Formulebladen, rekenmachines,

Nadere informatie

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur Kansrekening en statistiek WI22TI / WI25IN deel 2 2 februari 22, 4. 6. uur VOOR WI22TI: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad is niet toegestaan.

Nadere informatie

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van 4.00 7.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Deze week: Verdelingsfuncties. Statistiek voor Informatica Hoofdstuk 5: Verdelingsfuncties. Bernoulli verdeling. Bernoulli verdeling.

Deze week: Verdelingsfuncties. Statistiek voor Informatica Hoofdstuk 5: Verdelingsfuncties. Bernoulli verdeling. Bernoulli verdeling. Deze week: Verdelingsfuncties Statistiek voor Informatica Hoofdstuk 5: Verdelingsfuncties Cursusjaar 29 Peter de Waal Toepassingen Kansmassafuncties / kansdichtheidsfuncties Eigenschappen Departement Informatica

Nadere informatie

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur Kansrekening en statistiek wi20in deel I 29 januari 200, 400 700 uur Bij dit examen is het gebruik van een (evt grafische rekenmachine toegestaan Tevens krijgt u een formuleblad uitgereikt na afloop inleveren

Nadere informatie

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur.

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (WS05), vrijdag 9 oktober 010, van 14.00 17.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2WS4, dinsdag 17 juni 28, van 9. 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur Kansrekening en statistiek wi2105in deel 2 27 januari 2010, 14.00 16.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2, Vrijdag 23 januari 25, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven dienen

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen Vandaag Onderzoeksmethoden: Statistiek 2 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Theoretische kansverdelingen

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

Kansrekening en stochastische processen 2S610

Kansrekening en stochastische processen 2S610 Kansrekening en stochastische processen 2S610 Docent : Jacques Resing E-mail: j.a.c.resing@tue.nl http://www.win.tue.nl/wsk/onderwijs/2s610 1/28 Schatten van de verwachting We hebben een stochast X en

Nadere informatie

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord

Nadere informatie

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen ALGEMENE STATISTIEK A.W. van der Vaart en anderen VOORWOORD Dit collegedictaat omvat de stof van het college Algemene Statistiek, zowel de versie voor Econometrie en Wiskunde studenten, als de versie voor

Nadere informatie

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur Kansrekening en statistiek WI05IN deel I 4 november 0, 4.00 7.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad wordt uitgereikt. Meerkeuzevragen Toelichting:

Nadere informatie

Meetkunde en Lineaire Algebra

Meetkunde en Lineaire Algebra Hoofdstuk 1 Meetkunde en Lineaire Algebra Vraag 1.1 Zij p en q twee veeltermfuncties met reële coëfficiënten en A een reële vierkante matrix. Dan is p(a) diagonaliseerbaar over R als en slechts dan als

Nadere informatie

Schatten en simuleren

Schatten en simuleren Les 5 Schatten en simuleren 5.1 Maximum likelihood schatting Tot nu toe hebben we meestal naar voorbeelden gekeken waar we van een kansverdeling zijn uitgegaan en dan voorspellingen hebben gemaakt. In

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 8 Donderdag 13 Oktober 1 / 23 2 Statistiek Vandaag: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 23 Stochast en populatie

Nadere informatie

Samenvatting Statistiek

Samenvatting Statistiek Samenvatting Statistiek De hoofdstukken 1 t/m 3 gaan over kansrekening: het uitrekenen van kansen in een volledig gespecifeerd model, waarin de parameters bekend zijn en de kans op een gebeurtenis gevraagd

Nadere informatie

Zo geldt voor o.o. continue s.v.-en en X en Y dat de kansdichtheid van X + Y gegeven wordt door

Zo geldt voor o.o. continue s.v.-en en X en Y dat de kansdichtheid van X + Y gegeven wordt door APP.1 Appendix A.1 Erlang verdeling verdeling met parameters n en λ Voor o.o. discrete s.v.-en X en Y geldt P (X + Y = z) =P (X = x 1 en Y = z x 1 )+P(X = x en Y = z x )+... = P (X = x 1 )P (Y = z x 1

Nadere informatie

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten Stochastiek 2 Inleiding in the Mathematische Statistiek staff.fnwi.uva.nl/j.h.vanzanten 1 / 12 H.1 Introductie 2 / 12 Wat is statistiek? - 2 Statistiek is de kunst van het (wiskundig) modelleren van situaties

Nadere informatie

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen ALGEMENE STATISTIEK A.W. van der Vaart en anderen VOORWOORD Dit collegedictaat omvat de stof van het college Algemene Statistiek, zowel de versie voor Econometrie en Wiskunde studenten, als de versie voor

Nadere informatie

Kansrekening en stochastische processen 2DE18

Kansrekening en stochastische processen 2DE18 Kansrekening en stochastische processen 2DE18 Docent : Jacques Resing E-mail: resing@win.tue.nl 1/23 Voor een verzameling stochastische variabelen X 1,..., X n, de verwachting van W n = X 1 + + X n is

Nadere informatie

Statistiek voor A.I. College 10. Dinsdag 16 Oktober

Statistiek voor A.I. College 10. Dinsdag 16 Oktober Statistiek voor A.I. College 10 Dinsdag 16 Oktober 1 / 30 Jullie - onderzoek Geert-Jan, Joris, Brechje Horizontaal: lengte Verticaal: lengte tussen topjes middelvingers met gestrekte armen. DIII 170 175

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek DD14) op vrijdag 17 maart 006, 9.00-1.00 uur. UITWERKINGEN 1. Methoden om schatters te vinden a) De aannemelijkheidsfunctie

Nadere informatie

Statistiek voor A.I.

Statistiek voor A.I. Statistiek voor A.I. College 13 Donderdag 25 Oktober 1 / 28 2 Deductieve statistiek Orthodoxe statistiek 2 / 28 3 / 28 Jullie - onderzoek Tobias, Lody, Swen en Sander Links: Aantal broers/zussen van het

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 16 Donderdag 4 November 1 / 25 2 Statistiek Indeling: Schatten Correlatie 2 / 25 Schatten 3 / 25 Schatters: maximum likelihood schatters Def. Zij Ω de verzameling van

Nadere informatie

Uitwerking Tentamen Inleiding Kansrekening 11 juni 2015, uur Docent: Prof. dr. F. den Hollander

Uitwerking Tentamen Inleiding Kansrekening 11 juni 2015, uur Docent: Prof. dr. F. den Hollander Uitwerking Tentamen Inleiding Kansrekening juni 25,. 3. uur Docent: Prof. dr. F. den Hollander () [6] Zij F een gebeurtenissenruimte. Laat zien dat voor elke B F de verzameling G {A B : A F} opnieuw een

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2), Vrijdag 24 januari 24, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 7 Dinsdag 11 Oktober 1 / 33 2 Statistiek Vandaag: Populatie en steekproef Maten Standaardscores Normale verdeling Stochast en populatie Experimenten herhalen 2 / 33 3

Nadere informatie

Tentamen Voortgezette Kansrekening (WB006C)

Tentamen Voortgezette Kansrekening (WB006C) WB6C: Voortgezette Kansrekening Donderdag 26 januari 212 Tentamen Voortgezette Kansrekening (WB6C) Het is een open boek tentamen. Gebruik van een rekenmachine of andere hulpmiddelen is niet toegestaan.

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18 Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 18 t-toetsen 2 / 18 Steekproefgemiddelde en -variantie van normale observaties Stelling. Laat X 1,..., X n o.o. zijn en N(µ, σ 2 )-verdeeld. Dan:

Nadere informatie

Tentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander

Tentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander Universiteit Leiden Niels Bohrweg Tentamen Inleiding Kansrekening 25 juni 2009, 0.00 3.00 uur Docent: F. den Hollander Mathematisch Instituut 2333 CA Leiden Bij dit tentamen is het gebruik van een (grafische)

Nadere informatie

Medische Statistiek Kansrekening

Medische Statistiek Kansrekening Medische Statistiek Kansrekening Medisch statistiek- kansrekening Hoorcollege 1 Uitkomstenruimte vaststellen Ook wel S of E. Bij dobbelsteen: E= {1,2,3,4,5,6} Een eindige uitkomstenreeks Bij het gooien

Nadere informatie

Gezamenlijke kansverdeling van twee stochasten

Gezamenlijke kansverdeling van twee stochasten Gezamenlijke kansverdeling van twee stochasten Voorbeeld: V = de windsnelheid H = hoogte van het waterniveau in een rivier/zee De combinatie (V, H) is van belang voor een overstroming en niet zozeer V

Nadere informatie

Tentamen Statistische methoden MST-STM 8 april 2010, 9:00 12:00

Tentamen Statistische methoden MST-STM 8 april 2010, 9:00 12:00 Tentamen Statistische methoden MST-STM 8 april 2, 9: 2: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop inleveren alstublieft.

Nadere informatie

OefenDeeltentamen 2 Kansrekening 2011/ Beschouw een continue stochast X met kansdichtheidsfunctie cx 4, 0 x 1 f X (x) = f(x) = 0, anders.

OefenDeeltentamen 2 Kansrekening 2011/ Beschouw een continue stochast X met kansdichtheidsfunctie cx 4, 0 x 1 f X (x) = f(x) = 0, anders. Universiteit Utrecht *=Universiteit-Utrecht Boedapestlaan 6 Mathematisch Instituut 3584 CD Utrecht OefenDeeltentamen Kansrekening 11/1 1. Beschouw een continue stochast X met kansdichtheidsfunctie c 4,

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Vrijdag 16 Oktober 1 / 38 2 Statistiek Indeling vandaag: Normale verdeling Wet van de Grote Getallen Centrale Limietstelling Deductieve statistiek Hypothese toetsen

Nadere informatie

Hertentamen Biostatistiek 3 / Biomedische wiskunde

Hertentamen Biostatistiek 3 / Biomedische wiskunde Hertentamen Biostatistiek 3 / Biomedische wiskunde 2 juni 2014; 18:30-20:30 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau. Het

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van 9.00 12.00 uur.

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van 9.00 12.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (WS4), woensdag 3 juni, van 9.. uur. Dit is een tentamen met gesloten boek. De uitwerkingen van de

Nadere informatie

Formules uit de cursus Waarschijnlijkheidsrekenen en statistiek

Formules uit de cursus Waarschijnlijkheidsrekenen en statistiek UNIVERSITY OF GHENT Samenvatting Formules uit de cursus Waarschijnlijkheidsrekenen en statistiek Auteur: Nicolas Vanden Bossche Lesgever: Prof. Hans De Meyer Hoofdstuk 1 Het kansbegrip en elementaire kansrekening

Nadere informatie

Set 3 Inleveropgaven Kansrekening (2WS20) Opgaven met sterretjes zijn lastiger dan opgaven zonder sterretje.

Set 3 Inleveropgaven Kansrekening (2WS20) Opgaven met sterretjes zijn lastiger dan opgaven zonder sterretje. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Set 3 Inleveropgaven Kansrekening (2WS2) 23-24 Opgaven met sterretjes zijn lastiger dan opgaven zonder sterretje.. Voetbalplaatjes. Bij

Nadere informatie

Statistiek voor A.I. College 6. Donderdag 27 September

Statistiek voor A.I. College 6. Donderdag 27 September Statistiek voor A.I. College 6 Donderdag 27 September 1 / 1 2 Deductieve statistiek Kansrekening 2 / 1 Vraag: Afghanistan In het leger wordt uit een groep van 6 vrouwelijke en 14 mannelijke soldaten een

Nadere informatie

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31 Tentamen Statistische methoden 45STAMEY april, 9: : Studienummers: Vult u alstublieft op het MC formulier uw Delftse studienummer in; en op het open vragen formulier graag beide, naar volgend voorbeeld:

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2S27), dinsdag 14 juni 25, 9. - 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Voorbehouden voor de correctoren Vraag 1 Vraag 2 Vraag 3 Vraag 4 Vraag 5 Totaal. Toets Kansrekenen I. 28 maart 2014

Voorbehouden voor de correctoren Vraag 1 Vraag 2 Vraag 3 Vraag 4 Vraag 5 Totaal. Toets Kansrekenen I. 28 maart 2014 Voorbehouden voor de correctoren Vraag 1 Vraag 2 Vraag 3 Vraag 4 Vraag 5 Totaal Toets Kansrekenen I 28 maart 2014 Naam : Richting : Lees volgende aanwijzingen alvorens aan het examen te beginnen Wie de

Nadere informatie

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter. STATISTIEK OPLOSSINGEN OEFENZITTINGEN 5 en 6 c D. Keppens 2004 5 1 (a) Zij µ de verwachtingswaarde van X. We moeten aantonen dat E[M i ] = µ voor i = 1, 2, 3 om te kunnen spreken van zuivere schatters.

Nadere informatie

Meetkunde en Lineaire Algebra

Meetkunde en Lineaire Algebra Hoofdstuk 1 Meetkunde en Lineaire Algebra Vraag 1.1 Zij p en q twee veeltermfuncties met reële coëfficiënten en A een reële vierkante matrix. Dan is p(a) diagonaliseerbaar over R als en slechts dan als

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 15 Dinsdag 2 November 1 / 16 2 Statistiek Indeling: Filosofie Schatten Centraal Bureau voor Statistiek 2 / 16 Schatten Vb. Het aantal tenen plus vingers in jullie huishoudens:

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve

Nadere informatie

Toegepaste Wiskunde 2: Het Kalman-filter

Toegepaste Wiskunde 2: Het Kalman-filter Toegepaste Wiskunde 2: Het Kalman-filter 25 februari, 2008 Hans Maassen 1. Inleiding Het Kalman filter schat de toestand van een systeem op basis van een reeks, door ruis verstoorde waarnemingen. Een meer

Nadere informatie

. Dan geldt P(B) = a. 1 4. d. 3 8

. Dan geldt P(B) = a. 1 4. d. 3 8 Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Eindtentamen Kansrekening en Statistiek (WS), Tussentoets Kansrekening en Statistiek (WS), Vrijdag 8 april, om 9:-:. Dit is een tentamen

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19 Stochastiek 2 Inleiding in de Mathematische Statistiek 1/19 Herhaling H.1 2/19 Mathematische Statistiek We beschouwen de beschikbare data als realisatie(s) van een stochastische grootheid X.(Vaak een vector

Nadere informatie

Tentamen Inleiding Kansrekening wi juni 2010, uur

Tentamen Inleiding Kansrekening wi juni 2010, uur Technische Universiteit Delft Mekelweg Faculteit Electrotechniek, Wiskunde en Informatica 8 CD Delft Tentamen Inleiding Kansrekening wi juni, 9.. uur Bij dit examen is het gebruik van een (evt. grafische

Nadere informatie

Statistiek I Samenvatting. Prof. dr. Carette

Statistiek I Samenvatting. Prof. dr. Carette Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De

Nadere informatie

Het tentamen heeft 25 onderdelen. Met ieder onderdeel kan maximaal 2 punten verdiend worden.

Het tentamen heeft 25 onderdelen. Met ieder onderdeel kan maximaal 2 punten verdiend worden. Hertentamen Inleiding Kansrekening WI64. 9 augustus, 9:-: Het tentamen heeft 5 onderdelen. Met ieder onderdeel kan maximaal punten verdiend worden. Het tentamen is open boek. Boeken, nota s en een (eventueel

Nadere informatie

Kansrekening en stochastische processen 2DE18

Kansrekening en stochastische processen 2DE18 Kansrekening en stochastische processen 2DE18 Docent : Jacques Resing E-mail: resing@win.tue.nl 1/28 The delta functie Zij De eenheids impulsfunctie is: d ε (x) = { 1ε als ε 2 x ε 2 0 anders δ(x) = lim

Nadere informatie

Opgaves Hoofdstuk 3: Toevalsveranderlijken en Distributiefuncties

Opgaves Hoofdstuk 3: Toevalsveranderlijken en Distributiefuncties Opgaves Hoofdstuk 3: Toevalsveranderlijken en Distributiefuncties Discrete Distributiefuncties 3. Er zijn 3 studenten aan het begin van de dag aanwezig bij een symposium. De kans dat een student volhoudt

Nadere informatie

SOCIALE STATISTIEK (deel 2)

SOCIALE STATISTIEK (deel 2) SOCIALE STATISTIEK (deel 2) D. Vanpaemel KU Leuven D. Vanpaemel (KU Leuven) SOCIALE STATISTIEK (deel 2) 1 / 57 Hoofdstuk 5: Schatters en hun verdeling 5.1 Steekproefgemiddelde als toevalsvariabele D. Vanpaemel

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode

Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode Rik Lopuhaä TU Delft 30 januari, 2015 Rik Lopuhaä (TU Delft) Schatten van de Duitse oorlogsproductie 30 januari,

Nadere informatie

Tentamen Statistische methoden MST-STM 1 juli 2010, 9:00 12:00

Tentamen Statistische methoden MST-STM 1 juli 2010, 9:00 12:00 Tentamen Statistische methoden MST-STM 1 juli 2010, 9:00 12:00 Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop inleveren

Nadere informatie

Tentamen Inleiding Kansrekening 9 juni 2016, 10:00 13:00 Docent: Prof. dr. F. den Hollander

Tentamen Inleiding Kansrekening 9 juni 2016, 10:00 13:00 Docent: Prof. dr. F. den Hollander Tentamen Inleiding Kansrekening 9 juni 6, : 3: Docent: Prof. dr. F. den Hollander Bij dit tentamen is het gebruik van boek en aantekeningen niet toegestaan. Er zijn 8 vragen, elk met onderdelen. Elk onderdeel

Nadere informatie

WenS eerste kans Permutatiecode 0

WenS eerste kans Permutatiecode 0 WenS eerste kans 2012 2013 Aantekeningen op de vragenbladen zijn NIET TOEGELATEN. Je mag gebruik maken van schrijfgerief en een eenvoudige rekenmachine; alle andere materiaal blijft achterin. Leg je studentenkaart

Nadere informatie

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Populatie: De gehele groep elementen waarover informatie wordt gewenst. Statistiek I Werkcollege 1 Populatie: De gehele groep elementen waarover informatie wordt gewenst. Steekproef: Gedeelte van de populatie dat feitelijk wordt onderzocht om informatie te vergaren. Eenheden:

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door

Nadere informatie

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Examen Kansrekening en Wiskundige Statistiek: oplossingen Examen Kansrekening en Wiskundige Statistiek: oplossingen S. Vansteelandt Academiejaar 006-007 1. Een team van onderzoekers wil nagaan of een bepaald geneesmiddel Triptan meer effectief is dan aspirine

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Uitwerking tentamen Kansrekening en Stochastische Processen (2S61) op woensdag 27 april 25, 14. 17. uur. 1. Gegeven zijn twee onafhankelijke

Nadere informatie

Voorbeeld 1. Statistiek voor Informatica Hoofdstuk 3: Stochastische Variabelen en Verdelingen. Voorbeeld 2A. Voorbeeld 1 (vervolg)

Voorbeeld 1. Statistiek voor Informatica Hoofdstuk 3: Stochastische Variabelen en Verdelingen. Voorbeeld 2A. Voorbeeld 1 (vervolg) Voorbeeld Statistiek voor Informatica Hoofdstuk 3: Stochastische Variabelen en Verdelingen Cursusjaar 2009 Peter de Waal Departement Informatica In een eperiment gooien we 4 maal met een zuivere munt.

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17 Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 17 Statistische toetsen 2 / 17 Toetsen - algemeen - 1 Setting: observatie X in X, model {P θ : θ Θ}. Gegeven partitie Θ = Θ 0 Θ 1, met Θ 0 Θ 1

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 9 Dinsdag 18 Oktober 1 / 1 2 Statistiek Vandaag: Centrale Limietstelling Correlatie Regressie 2 / 1 Centrale Limietstelling 3 / 1 Centrale Limietstelling St. (Centrale

Nadere informatie

Vrije Universiteit Amsterdam Opleiding Wiskunde Vak Poisson Processen. Poisson Processen. Arno Weber.

Vrije Universiteit Amsterdam Opleiding Wiskunde Vak Poisson Processen. Poisson Processen. Arno Weber. Vrije Universiteit Amsterdam Opleiding Wiskunde Vak Poisson Processen Poisson Processen Arno Weber email: aeweber@cs.vu.nl Januari 2003 1 Inhoudsopgave 1. Computersimulaties 3 2. Wachttijd-paradox 6 3.

Nadere informatie

HOOFDSTUK I - INLEIDENDE BEGRIPPEN

HOOFDSTUK I - INLEIDENDE BEGRIPPEN HOOFDSTUK I - INLEIDENDE BEGRIPPEN 1.2 Kansveranderlijken en verdelingen 1 Veranderlijken Beschouw een toevallig experiment met uitkomstenverzameling V (eindig of oneindig), de verzameling van alle gebeurtenissen

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamenopgaven Statistiek 2DD71: UITWERKINGEN 1. Stroopwafels a De som S van de 12 gewichten is X 1 + X 2 + + X 12. Deze is normaal

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

Inhoud. 1 Inleiding tot de beschrijvende statistiek Maatstaven voor ligging en spreiding Kansrekening 99

Inhoud. 1 Inleiding tot de beschrijvende statistiek Maatstaven voor ligging en spreiding Kansrekening 99 Inhoud 1 Inleiding tot de beschrijvende statistiek 13 1.1 Een eerste verkenning 14 1.2 Frequentieverdelingen 22 1.3 Grafische voorstellingen 30 1.4 Diverse diagrammen 35 1.5 Stamdiagram, histogram en frequentiepolygoon

Nadere informatie

10. De simultane kansverdeling van twee stochasten X en Y is gegeven door de volgende (onvolledige) tabel: X / /4 1. d. 0 e.

10. De simultane kansverdeling van twee stochasten X en Y is gegeven door de volgende (onvolledige) tabel: X / /4 1. d. 0 e. Tentamen Statistische methoden MST-STM 1 april 2011, 9:00 12:00 Studienummers: Vult u alstublieft op het MC formulier uw Delftse studienummer in; en op het open vragen formulier graag beide, naar volgend

Nadere informatie

1. Statistiek gebruiken 1

1. Statistiek gebruiken 1 Hoofdstuk 0 Inhoudsopgave 1. Statistiek gebruiken 1 2. Gegevens beschrijven 3 2.1 Verschillende soorten gegevens......................................... 3 2.2 Staafdiagrammen en histogrammen....................................

Nadere informatie

Wiskundige Analyse II

Wiskundige Analyse II Hoofdstuk 1 Wiskundige Analyse II Vraag 1.1 Het volume van een omwentelingslichaam beschreven door een homogeen, projecteerbaar gebied D dat de omwentelingsas niet snijdt, is gelijk aan het product van

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17 Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 17 Betrouwbaarheidsgebieden 2 / 17 Idee Een schatter T voor een parameter θ geeft één punt in de parameterruimte Θ. I.h.a. zal T θ onder P θ,

Nadere informatie

HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN

HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN. Continue Verdelingen 1 A. De uniforme (of rechthoekige) verdeling Kansdichtheid en cumulatieve frequentiefunctie Voor x < a f(x) = 0 F(x) = 0 Voor a x

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

36, P (5) = 4 36, P (12) = 1

36, P (5) = 4 36, P (12) = 1 Les 2 Kansverdelingen We hebben in het begin gesteld dat we de kans voor een zekere gunstige uitkomst berekenen als het aantal gunstige uitkomsten gedeelt door het totale aantal mogelijke uitkomsten. Maar

Nadere informatie

Hertentamen Inleiding Kansrekening 5 juli 2017, 14:00 17:00 Docent: Prof. dr. F. den Hollander

Hertentamen Inleiding Kansrekening 5 juli 2017, 14:00 17:00 Docent: Prof. dr. F. den Hollander Hertentamen Inleiding Kansrekening 5 juli 07, 4:00 7:00 Docent: Prof. dr. F. den Hollander Bij dit tentamen is het gebruik van boek en aantekeningen niet toegestaan, wel het gebruik van rekenmachine. Er

Nadere informatie

Statistiek voor A.I. College 4. Donderdag 20 September 2012

Statistiek voor A.I. College 4. Donderdag 20 September 2012 Statistiek voor A.I. College 4 Donderdag 20 September 2012 1 / 30 2 Deductieve statistiek Kansrekening 2 / 30 Cycle 3 / 30 Context 4 / 30 2 Deductieve statistiek Vandaag: Eigenschappen kansen Oneindige

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Uitwerking tentamen Kansrekening en Stochastische Processen S60) op vrijdag 4 januari 0, 4.00 7.00 uur.. Gegeven zijn twee stochastische

Nadere informatie

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Basistechnieken 6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. x 0 2 4 6 p(x) ¼ ¼ ¼ ¼ a. Schrijf alle mogelijke verschillende steekproeven van n =

Nadere informatie

Zeldzame en extreme gebeurtenissen

Zeldzame en extreme gebeurtenissen 24 March 215 Outline 1 Inleiding 2 Extreme gebeurtenissen 3 4 Staarten 5 Het maximum 6 Kwantielen 23 maart 215 Het Financieele Dagblad Vijf grootste rampen (verzekerd kapitaal) 1 Orkaan Katrina (25, MU$

Nadere informatie

Uitwerkingen Mei Eindexamen VWO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Uitwerkingen Mei Eindexamen VWO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Uitwerkingen Mei 2012 Eindexamen VWO Wiskunde A Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Schroefas Opgave 1. In de figuur trekken we een lijn tussen 2600 tpm op de linkerschaal en

Nadere informatie