4.2 Mean Square Error
|
|
|
- Bram de Meyer
- 9 jaren geleden
- Aantal bezoeken:
Transcriptie
1 4 Schatters 4.1 Introductie Een statistisch model bestaat uit alle kansverdelingen welke a priori mogelijk worden geacht voor de gegeven data. Gegeven een correct opgesteld model gaan we ervan uit dat de data volgens één van de kansverdelingen in het model is gegenereerd. Na het opstellen van een geschikt statistisch model is de volgende stap het bepalen welke kansverdeling binnen het model het best aansluit bij de gegevens. Als het model wordt gegeven door een parameter, dan is dit equivalent met het bepalen van de best passende parameterwaarde, vaak aangeduid als de ware parameter. In de statistiek heet dit proces schatten. Andere namen zijn fitten en leren. Veronderstel dat de kansverdeling van X afhangt van een onbekende parameter θ, zodat het statistische model de vorm {P θ : θ Θ} heeft, voor P θ de kansverdeling van X als θ de ware parameterwaarde is. Op grond van een waarneming x willen we de ware waarde van θ schatten, of wellicht de waarde van een functie g(θ) van θ, bijvoorbeeld de eerste coördinaat θ 1 als θ = (θ 1, θ 2 ). Schatten betekent hier het doen van een uitspraak over θ of g(θ) van de vorm: ik denk dat g(θ) bij benadering gelijk is aan T (x), voor zekere waarde T (x) die van de waargenomen waarde x afhangt. Definitie 4.1. Een schatter (Engels: estimator) of statistiek (Engels: statistic) is een stochastische vector T (X) die alleen van de waarneming X afhangt. De bijbehorende schatting (Engels: estimate), bij gerealiseerde waarneming x, is T (x). Volgens deze definitie zijn heel veel objecten schatters. Waar het om gaat is dat T (X) een functie van X is die niet van de parameter θ mag
2 4.2: Mean Square Error 45 afhangen: we moeten T (x) kunnen uitrekenen op grond van de data x. Na verrichting van de waarneming krijgt T een gerealiseerde waarde t = T (x), waarmee we θ (of g(θ)) schatten. We korten T (X) heel vaak af tot T. Het (Vlaamse) woord statistiek heeft wiskundig precies dezelfde definitie als schatter, maar wordt in een andere context gebruikt. Zowel schatters als schattingen van θ worden vaak aangegeven met ˆθ. Het dakje geeft aan dat ˆθ een functie van de waarneming is, maar deze notatie maakt geen verschil tussen de stochastische vector of zijn realisatie: ˆθ kan zowel ˆθ(X) als ˆθ(x) betekenen. Er zijn veel schattingsmethoden. In dit hoofdstuk bespreken we een aantal algemene principes, zoals de maximum likelihood-methode, de momentenmethode en de Bayes-methode. We beginnen echter met het opzetten van een kader om schatters onderling te kunnen vergelijken in hun prestatie. 4.2 Mean Square Error Hoewel iedere functie van de waarneming een schatter is, is niet iedere schatter een goede schatter. Een goede schatter voor g(θ) is een functie T van de waarneming zodanig dat T dichtbij de te schatten waarde g(θ) ligt. Nu is de afstand T g(θ) een onbevredigende maat om twee redenen: - deze maat hangt af van de onbekende waarde θ; - deze maat is stochastisch en niet uit te rekenen alvorens het experiment is uitgevoerd. Om aan de tweede moeilijkheid te ontkomen, beschouwen we de kansverdeling van T g(θ) onder de aanname dat θ de ware waarde is. De mooiste situatie zou zijn dat deze kansverdeling gedegeneerd is in 0, d.w.z. als θ de ware waarde is, dan is T g(θ) met kans 1 gelijk aan 0. Dit zou betekenen dat we geen schattingsfout maken, de schatting T (x) zou met zekerheid gelijk zijn aan de te schatten waarde. In de praktijk is dit helaas onmogelijk, en moeten we ons tevreden stellen met (gemiddeld) een zo klein mogelijke fout. We zoeken dan een schatter waarvan de verdeling onder de ware waarde θ zoveel mogelijk geconcentreerd is rond g(θ); of equivalent waarvoor de verdeling van T g(θ) zo veel mogelijk geconcentreerd is in een omgeving van 0. Voorbeeld 4.2 (Homogene verdeling). Veronderstel dat X 1,..., X n onderling onafhankelijk hom[0, θ]-verdeeld zijn. De waarneming is de vector X = (X 1,..., X n ), en we willen de onbekende θ schatten. Omdat E θ X i = 1 2 θ is het niet onredelijk om 1 2θ te schatten met het steekproefgemiddelde X, en θ met 2X; immers volgens de wet van de grote aantallen convergeert het steekproefgemiddelde (in kans) naar E θ X i = 1 2θ. Veronderstel eens dat
3 46 4: Schatters n = 10 en dat de data de volgende waarden hebben: 3.03, 2.70, 7.00, 1.59, 5.04, 5.92, 9.82, 1.11, 4.26, 6.96, zodat 2x = Deze schatting is met zekerheid te klein! Immers één van de waarnemingen is 9.82, zodat in elk geval θ Is er een betere schatter te verzinnen? We kunnen het zojuist gesignaleerde probleem ontlopen door het maximum X (n) van de waarnemingen te nemen. Ook het maximum is echter met zekerheid een onderschatting van de echte waarde. Alle waarnemingen x i zullen immers binnen het interval [0, θ] liggen. Een kleine correctie naar boven ligt voor de hand. We zouden bijvoorbeeld (n + 2)/(n + 1) X (n) als schatter kunnen gebruiken. Er zijn dus meerdere gegadigden. Welke schatter is nu de beste? Om inzicht in deze vraag te verkrijgen, voerden we het volgende simulatieexperiment uit. We kozen n = 50 en simuleerden 1000 onafhankelijke steekproeven ter grootte van 50 uit de homogene verdeling op [0, 1]. Voor iedere steekproef berekenden we de schatters 2X en (n+2)/(n+1)x (n). Figuur 4.1 toont histogrammen van de twee verzamelingen van 1000 schattingen van de parameter θ, links gebruikmakend van de schatter (n + 2)/(n + 1)X (n) en rechts van 2X. Deze histogrammen kunnen worden opgevat als benaderingen van de kansdichtheden van de schatters. De kansdichtheid in de figuur links is meer geconcentreerd rond de ware waarde θ = 1, dan de kansdichtheid rechts. We geven daarom de voorkeur aan de schatter (n+2)/(n+1)x (n) : gemiddeld ligt deze dichter bij de ware waarde. (Opmerkelijk is ook het verschil in vorm van de twee histogrammen: het linker lijkt wel wat op een (omgekeerde) exponentiële dichtheid, terwijl het rechter histogram een normale dichtheid benadert. Dat is theoretisch heel goed te verklaren. Hoe?) Figuur 4.1. Histogrammen van 1000 realisaties van de schatters (n + 2)/(n + 1)X (n) en 2X voor de parameter 1 van een homogene verdeling ieder gebaseerd op n = 50 waarnemingen. Overigens is het niet zo, dat de schatter (n+2)/(n+1)x (n) op ieder van
4 4.2: Mean Square Error 47 de 1000 steekproeven de beste schatting gaf. Dit is zichtbaar in Figuur 4.2, waarin op de verticale as het verschil (n + 2)/(n + 1)x (n) 1 2x 1 is uitgezet. Meestal was dit verschil negatief, maar soms was het positief in welk geval de schatter 2X een waarde gaf die dichter bij de ware waarde θ = 1 ligt. Omdat we in de praktijk de ware waarde niet kennen, is het niet mogelijk om hier de best of both worlds te kiezen. We zullen de schatter gebruiken die gemiddeld het beste is Figuur 4.2. Verschillen (n + 2)/(n + 1)x (n) 1 2x 1 van de absolute afstanden van de schattingen (n + 2)/(n + 1)x (n) en 2x tot de te schatten waarde 1 in Figuur 4.1. Ons simulatie-experiment geeft alleen aan dat (n + 2)/(n + 1)X (n) de betere schatter is als de ware waarde van θ gelijk is aan 1. Om te bepalen welke schatter beter is als θ een andere waarde bezit, zouden we het simulatie-experiment moeten herhalen met gesimuleerde steekproeven uit de homogene verdeling op [0, θ], voor iedere θ. Dit gaat natuurlijk niet, en dat is één reden om een wiskundige studie van het schattingsprobleem te maken. Een andere reden is dat we in plaats van paren schatters te ordenen, liever de absoluut beste schatter zouden willen bepalen. Omdat een kansverdeling een ingewikkeld object is, is het vergelijken van concentratie niet eenduidig bepaald. Het is daarom handig om concentratie in een getalswaarde uit te drukken, zodat we vervolgens alleen getallen hoeven te vergelijken. Dit kan op veel manieren. Een concentratiemaat die wiskundig relatief eenvoudig is te hanteren is de verwachte kwadratische fout (Engels: mean square error of MSE). Voor een schatter T voor de waarde g(θ) wordt deze gedefinieerd als MSE(θ; T ) = E θ T g(θ) 2. Het subscript θ in E θ is essentieel: de MSE is de verwachte kwadratische afstand van T tot g(θ) aangenomen dat θ de ware waarde van de para-
5 48 4: Schatters meter is (twee keer dezelfde θ in deze zin). We beschouwen de verwachte kwadratische fout als de functie θ MSE(θ; T ) voor een gegeven statistiek T. Een volledigere notatie zou zijn MSE(θ; T, g), maar omdat g vast ligt in de context van het probleem, laten we g weg in de notatie. De eerste moeilijkheid dat de kwaliteitsmaat afhangt van θ is nog niet opgelost: de verwachte kwadratische fout is een functie van θ. In principe is het genoeg als MSE(θ; T ) zo klein mogelijk is in de ware waarde van θ. Aangezien we deze niet kennen, streven we ernaar dat de verwachte kwadratische fout (relatief) klein is voor alle waarden van θ tegelijk. Afspraak 4.3. We geven de voorkeur aan een schatter met een kleine verwachte kwadratische fout (MSE) voor alle parameterwaarden van θ tegelijk. Als voor twee schatters T 1 en T 2 geldt dat E θ T 1 g(θ) 2 E θ T 2 g(θ) 2, voor alle θ Θ, met stricte ongelijkheid voor ten minste één waarde van θ, dan geven we de voorkeur aan T 1. De schatter T 2 heet dan niet-toelaatbaar (Engels: inadmissible). Het kan echter voorkomen dat deze ongelijkheid voor sommige θ correct is, maar voor andere θ strikt omgekeerd moet worden. Dan is het niet direct duidelijk aan welke van de twee schatters we de voorkeur moeten geven. Omdat de ware waarde van θ, zeg θ 0, onbekend is, weten we dan immers niet welke van MSE(θ 0 ; T 1 ) en MSE(θ 0 ; T 2 ) de kleinste is. In Paragraaf 7.2 bespreken we optimaliteitscriteria voor schatters en hoe optimale schatters te vinden zijn. In het huidige hoofdstuk bespreken we een aantal methoden om schatters te vinden waarvan intuïtief duidelijk is dat ze redelijk zijn, en vergelijken we verwachte kwadratische fouten. De verwachte kwadratische fout van een reëelwaardige schatter T kan worden ontbonden in twee termen: MSE(θ; T ) = var θ T + ( E θ T g(θ) ) 2 (ga na). Beide termen in deze decompositie zijn niet-negatief. Dus de verwachte kwadratische fout kan alleen klein zijn als beide termen klein zijn. Als de tweede term gelijk aan 0 is, dan heet de schatter zuiver. Definitie 4.4. Een schatter T heet zuiver (Engels: unbiased) voor het schatten van g(θ) als E θ T = g(θ) voor alle θ Θ. De onzuiverheid (Engels: bias) is gedefinieerd als E θ T g(θ). De tweede term in de ontbinding van MSE(θ; T ) is dus het kwadraat van de onzuiverheid. Voor een zuivere schatter is deze term identiek nul. Dit lijkt zeer wenselijk, maar is het lang niet altijd. De eis dat een schatter zuiver is kan namelijk veroorzaken dat de variantie juist heel groot is, zodat
6 4.2: Mean Square Error 49 we ruimschoots verliezen in de eerste term wat we bij de tweede gewonnen zouden hebben. In het algemeen leidt een kleine variantie tot een grotere onzuiverheid, en een kleine onzuiverheid tot een grote variantie. We moeten de twee termen dus tegen elkaar afwegen. De standaarddeviatie σ θ (T ) = var θ T van een schatter noemt men wel de standaardfout (Engels: standard error, of s.e.). Deze moet niet verward worden met de standaarddeviatie van de waarnemingen. De standaardfout σ θ (T ) hangt in principe af van de onbekende parameter θ en is dus zelf ook een onbekende. Omdat de onzuiverheid van redelijke schatters vaak klein is, geeft de standaardfout vaak een indruk van de kwaliteit van een schatter. Een schatting van de standaardfout wordt vaak gerapporteerd samen met de schatting zelf. Bij de bespreking van betrouwbaarheidsgebieden in Hoofdstuk 6 komen we hierop terug. We zoeken dus schatters met een kleine standaardfout en een kleine onzuiverheid. Voorbeeld 4.5 (Homogene verdeling). Veronderstel dat X 1,..., X n onderling onafhankelijk en hom[0, θ]-verdeeld zijn. De schatter 2X is zuiver, want, voor alle θ > 0, E θ (2X) = 2 n E θ X i = 2 n θ n n 2 = θ. De verwachte kwadratische fout van deze schatter is: MSE(θ; 2X) = 4 var θ X = 4 n 2 n De schatter X (n) is niet zuiver, want, voor alle θ > 0, E θ X (n) = θ 0 var θ X i = θ2 3n. xnx n 1 1 θ n dx = n n + 1 θ (zie Opgave 9.9 voor de verdeling van X (n) ). Toch geven we (voor niet te kleine n) de voorkeur aan X (n) boven 2X, want deze schatter heeft een kleinere verwachte kwadratische fout: MSE(θ; X (n) ) = var θ X (n) + ( E θ X (n) θ ) 2 = θ 2 n (n + 2)(n + 1) 2 + θ2( n n ) 2 = 2θ 2 (n + 2)(n + 1). We kunnen de onzuiverheid in X (n) opheffen door met een constante te vermenigvuldigen: de schatter (n + 1)/n X (n) is zuiver voor θ. De onzuivere
7 50 4: Schatters schatter (n + 2)/(n + 1) X (n) is echter beter dan alle tot nu toe genoemde schatters, want ( MSE θ; n + 2 ) n + 1 X θ 2 (n) = (n + 1) 2. Figuur 4.3 toont de verwachte kwadratische fout van deze laatste schatter tezamen met de verwachte kwadratische fouten van X (n) en 2X als een functie van θ voor n = 50. Voor waarden van θ dicht bij 0, is het verschil tussen de verwachte kwadratische fout van 2X en de andere twee schatters gering, maar het loopt snel op bij toenemende waarden van θ. Bij nadere beschouwing blijkt voor niet te kleine waarden van n het verschil in verwachte kwadratische fout tussen (n + 2)/(n + 1)X (n) en X (n) klein te zijn. De grotere precisie van (n + 2)/(n + 1)X (n) ten opzichte van 2X is echter wel snel zichtbaar bij toenemende n, omdat de verwachte kwadratische fout van de eerste een factor n kleiner is. We merkten al op (zie Figuur 4.2) dat de schatter (n + 2)/(n + 1) X (n) niet op iedere steekproef een beter resultaat geeft dan de schatter 2X. Het feit dat MSE ( 1; (n + 2)/(n + 1) X (n) ) < MSE(1; 2X) sluit dit zeker niet uit, omdat de verwachte kwadratische fout een verwachting is, en kan worden geïnterpreteerd als een gemiddelde waarde over een groot aantal realisaties. Een gemiddelde kan negatief zijn zonder dat alle termen negatief zijn. Gemiddeld is (n + 2)/(n + 1) X (n) (veel) beter Figuur 4.3. De verwachte kwadratische fouten als functie van θ van de schatters 2X (doorgetrokken lijn), X (n) (gestippelde lijn) en (n + 2)/(n + 1)X (n) (gestreepte lijn) voor de parameter in hom[0,θ] voor n = 50. Definitie 4.6. Zij X 1,..., X n een steekproef. Het steekproefgemiddelde is de stochastische grootheid X = 1 n n X i
8 4.2: Mean Square Error 51 en de steekproefvariantie is SX 2 = 1 n (X i X) 2. n 1 Voorbeeld 4.7 (Steekproefgemiddelde en -variantie). Veronderstel dat X 1,..., X n onderling onafhankelijk en identiek verdeeld zijn, en een onbekende marginale kansverdeling bezitten. We willen verwachting µ en variantie σ 2 van de waarnemingen schatten. Formeel kunnen we θ gelijk nemen aan de onbekende kansverdeling, het zogenaamde niet-parametrische model, dat de onderliggende kansverdeling niet nader specificeert. De parameters µ en σ 2 zijn functies van deze onderliggende kansverdeling. Het steekproefgemiddelde is een zuivere schatter voor µ, aangezien E θ X = 1 n n E θ X i = µ. De verwachte kwadratische fout van deze schatter wordt gegeven door MSE(θ; X) = var θ X = 1 n 2 n var θ X i = σ2 n. De verwachte kwadratische fout van X is dus een factor n kleiner dan de verwachte kwadratische fout van de schatter X i gebaseerd op één waarneming, MSE(θ, X i ) = var θ X i = σ 2. Aangezien de verwachte kwadratische fout een verwachte kwadratische afstand is, concluderen we dat de kwaliteit van de schatter X met n toeneemt. Dus voor een twee keer zo goede schatter zijn vier keer zoveel waarnemingen nodig. De steekproefvariantie is een zuivere schatter voor σ 2, want E θ SX 2 1 n = E θ ((X i µ) + (µ X)) 2 n 1 1 n [ ] = E θ (X i µ) 2 + (µ X) 2 + 2(µ X)(X i µ) n 1 = 1 n E θ (X i µ) 2 n n 1 n 1 E θ(x µ) 2 = σ 2, waarbij de laatste gelijkheid volgt uit E θ (X i µ) 2 = var θ X i = σ 2 en E θ (X µ) 2 = var θ X = σ 2 /n. De verwachte kwadratische fout van S 2 X kan met enig rekenwerk worden uitgedrukt in het vierde steekproefmoment van de waarnemingen, maar dit laten we achterwege.
9 52 4: Schatters Stel dat we op zoek zijn naar een zuivere schatter voor µ 2. Omdat X een zuivere schatter voor µ is, nemen we in eerste instantie X 2 als schatter voor µ 2. Deze schatter is echter niet zuiver: E θ (X) 2 = var θ X + (E θ X) 2 = σ2 n + µ2. Hieruit volgt direct dat E θ (X 2 σ 2 /n) = µ 2, maar omdat σ 2 een onbekende parameter is, is X 2 σ 2 /n geen schatter. Als we σ 2 vervangen door zijn zuivere schatter SX 2, dan vinden we dat X2 SX 2 /n een zuivere schatter is voor µ 2. * Voorbeeld 4.8 (Steekproeftheorie). Veronderstel dat een fractie p van een populatie een bepaalde eigenschap A bezit. We zullen drie methoden vergelijken om p te schatten, gebaseerd op een steekproef met teruglegging, een steekproef zonder teruglegging, en een gestratificeerde steekproef. Bij de eerste methode nemen we een steekproef ter grootte van n uit de populatie met teruglegging, en schatten p met de fractie X/n, waar X het aantal personen met eigenschap A in de steekproef is. Dan is X bin(n, p)-verdeeld en heeft verwachting np en variantie np(1 p). Aangezien E p (X/n) = p voor alle p is X/n een zuivere schatter. De verwachte kwadratische fout is ( MSE p; X ) ( X ) = var p = n n p(1 p). n Hieruit volgt, onder andere, dat de schatter beter is als p 0 of p 1, en het slechtste als p = 1 2. De verwachte kwadratische fout hangt niet af van de grootte van de populatie. Door n voldoende groot te kiezen, bijvoorbeeld n 1000, kunnen we een schatter krijgen met een verwachte kwadratische fout van maximaal (1/4)/1000=1/4000, onafhankelijk van het feit of de populatie uit 800 of een triljoen personen bestaat. Bij de tweede methode nemen we een steekproef ter grootte van n uit de populatie zonder teruglegging, en schatten p met de fractie Y/n, waar Y het aantal personen met eigenschap A in de steekproef is. Dan is Y hyp(n, pn, n)-verdeeld en heeft verwachting np en variantie np(1 p)(n n)/(n 1). Dus de schatter Y/n is eveneens zuiver; de verwachte kwadratische fout is ( MSE p; Y ) ( Y ) = var p = n n p(1 p) N n n N 1. Dit is kleiner dan MSE(p; X/n), hoewel het verschil te verwaarlozen is als n N. Dit is niet verbazend: het is niet handig al onderzochte personen eventueel nog eens te onderzoeken, maar als n N is de kans dat dit gebeurt te verwaarlozen.
10 4.3: Maximum Likelihood-Schatters 53 Bij de derde methode verdelen we de populatie eerst in een aantal subpopulaties, zogenaamde strata. Dit kan een indeling zijn naar regio, sekse, leeftijd, inkomen, beroep, of naar een andere achtergrondvariabele. Veronderstel dat de gehele populatie en de subpopulaties groottes N en N 1,..., N m bezitten. We trekken nu, voor het gemak van de volgende berekeningen met teruglegging, (N j /N)n personen uit de j e populatie, een gestratificeerde steekproef, en schatten p met Z/n voor Z het totaal aantal getrokken personen met eigenschap A. Dus Z = Z Z m voor Z j het aantal getrokken personen met eigenschap A uit de j e populatie. Nu zijn Z 1,..., Z m onderling onafhankelijk en bin ( (N j /N)n, p j )-verdeeld, met p j de fractie personen met eigenschap A in de j e populatie. Dan is ( Z ) E p = 1 m E p Z j = 1 m N j n n n N np j = 1 m N j p j = p, N j=1 j=1 ( MSE p; Z ) ( Z ) = var p = 1 m n n n 2 = p(1 p) n 1 n j=1 m j=1 var p Z j = 1 n 2 N j N (p j p) 2. j=1 m j=1 N j n N p j(1 p j ) De schatter Z/n is dus ook zuiver, en zijn verwachte kwadratische fout is kleiner of gelijk aan de verwachte kwadratische fout van X/n. Het verschil is vooral de moeite waard als de p j sterk verschillen. Gestratificeerde steekproeftrekking verdient dus als regel de voorkeur, hoewel het in de praktijk meer moeite kan betekenen. Soortgelijke resultaten gelden ook bij trekking zonder teruglegging, mits de strata- en steekproefgroottes aan bepaalde voorwaarden voldoen. Het is echter niet waar dat stratificatie in dit geval altijd tot grotere precisie leidt. 4.3 Maximum Likelihood-Schatters De methode van de maximum likelihood-schatters (Nederlands: methode van de meest aannemelijke schatters) is de meest gebruikte methode om schatters voor een onbekende parameter te vinden. Voordat deze methode in het algemeen wordt gepresenteerd, wordt voor het (eenvoudige) geval van de binomiale verdeling de maximum likelihood-schatter afgeleid in het volgende voorbeeld. Voorbeeld 4.9 (Binomiale verdeling). Veronderstel dat we 10 keer met een onzuivere munt gooien. De kans p op kop is bij deze munt niet noodzakelijkerwijze 1/2. Definieer X als het aantal malen kop in de 10 worpen.
11 54 4: Schatters De stochastische variabele X heeft dan een binomiale verdeling met parameters 10 en onbekende p [0, 1]. Stel dat we 3 maal kop werpen. De kans op deze uitkomst is gelijk aan ( ) 10 P p (X = 3) = p 3 (1 p) 7. 3 De kans p is onbekend en moet geschat worden. Welke waarde voor p is nu meest waarschijnlijk? p Figuur 4.4. De kans P p (X = 3) als functie van p waar de stochast X binomiaal verdeeld is met parameters 10 en p. In Figuur 4.4 is de kans P p (X = 3) getekend als functie van p. We zien dat er precies één waarde voor p is die deze kans maximaliseert, namelijk de waarde 0.3. Deze waarde voor p kent de grootste kans toe aan de waarneming 3 maal kop. De schatting ˆp = 0.3 blijkt in deze situatie de maximum likelihood-schatting te zijn. De maximum likelihood methode vereist de specificatie van de likelihood-functie, welke wordt afgeleid uit de kansdichtheid van de waarneming. Hierbij verstaan we onder een kansdichtheid p θ van een stochastische vector X de functie x P θ (X = x) als X discreet verdeeld is en de functie p θ zodanig dat P θ (X B) = B p θ(x) dx als X continu verdeeld is. Definitie Zij X een stochastische vector met een kansdichtheid p θ die van een parameter θ Θ afhangt. De functie θ L(θ; x): = p θ (x)
12 4.3: Maximum Likelihood-Schatters 55 opgevat als functie van θ Θ voor vaste x heet de likelihood-functie (Nederlands: aannemelijkheidsfunctie). Vaak is X = (X 1,..., X n ) een vector met onderling onafhankelijke identiek verdeelde coördinaten X i. Dan is de dichtheid van X het product n p θ(x i ) van de dichtheden van de X 1,..., X n, en de likelihood-functie wordt dan θ L(θ; x 1,..., x n ) = n p θ (x i ), waarin nu p θ de (marginale) dichtheid van een enkele X i weergeeft. De algemene definitie van maximum likelihood-schatters is echter geldig voor een waarnemingsvector van willekeurige vorm, en we geven er daarom de voorkeur aan de waarneming als x te schrijven, in plaats van (x 1,..., x n ), en de likelihood-functie als L(θ; x) p θ (x). Definitie De maximum likelihood-schatting voor θ is die waarde T (x) Θ die de functie θ L(θ; x) maximaliseert. De maximum likelihoodschatter (Nederlands: meest aannemelijke schatter) is de bijbehorende schatter T (X). In het geval van een discrete kansverdeling kan de maximum likelihoodschatting worden omschreven als: die waarde van de parameter die de grootste waarschijnlijkheid toekent aan de waargenomen waarde x. We maximaliseren in dat geval immers de kansdichtheid p θ (x) = P θ (X = x) naar θ voor vaste x (zie Voorbeeld 4.9). Dit is een intuïtief redelijk schattingsprincipe en verklaart de naam. Dit principe moet echter alleen beschouwd worden als een schattingsmethode: maximum likelihood-schatters zijn niet noodzakelijkerwijze de beste schatters, ondanks de mooie naam. Onder een beste schatter verstaan we een schatter met een zo klein mogelijke verwachte kwadratische fout. Voorbeeld 4.12 (Homogene verdeling). Zij x 1,..., x n een waargenomen steekproef uit de homogene verdeling op het interval [0, θ] waarbij θ > 0 onbekend is. De parameter θ willen we schatten met de maximum likelihoodschatter. Omdat de waargenomen x 1,..., x n in het interval [0, θ] liggen, moet gelden dat θ x i voor i = 1,..., n. Hieruit volgt direct dat θ x (n), waar x (n) de grootste waargenomen ordestatistiek is. De likelihood-functie voor de waargenomen x 1,..., x n is gelijk aan de simultane dichtheid van X 1,..., X n in x 1,..., x n, opgevat als functie van θ. Omdat X 1,..., X n onafhankelijk en gelijk verdeeld zijn, is de simultane dichtheid gelijk aan het product van de marginale dichtheden, welke gelijk zijn aan 1/θ op het interval [0, θ] en 0 daarbuiten. De likelihood-functie is daarom gelijk aan n 1 ( 1 ) n θ L(θ; x 1,..., x n ) = θ 1 0 x i θ = 1x(1) 01 x(n) θ. θ
13 56 4: Schatters Deze functie van θ is gelijk aan 0 voor θ < x (n) aangezien de indicatorfunctie 1 x(n) θ dan gelijk is aan 0. Voor θ x (n) is de likelihood-functie gelijk aan de dalende functie θ 1/θ n. Figuur 4.5 illustreert het verloop van de likelihood-functie (als functie van θ). De likelihood-functie is discontinu in het punt θ = x (n). In x (n) is de likelihood-functie rechts-continu en tevens maximaal; de maximum likelihood-schatting voor θ is derhalve gelijk aan x (n) en de bijbehorende maximum likelihood-schatter is X (n). 0e+00 2e 06 4e theta Figuur 4.5. Realisatie van de likelihood-functie voor een steekproef ter grootte 8 uit de homogene verdeling op [0, 5]. De maximum likelihood-schatting x (n) (de locatie van de piek) is Als g: Θ H een 1 1-duidige functie is met een verzameling H als bereik, dan zouden we het model ook door de parameter η = g(θ) H kunnen parametriseren in plaats van door θ Θ. Het volgt direct uit de definitie dat g(ˆθ) de maximum likelihood-schatter voor η is, als ˆθ de maximum likelihood-schatter voor θ is. In overeenstemming hiermee definiëren we voor iedere willekeurige functie g de maximum likelihood-schatter voor g(θ) simpelweg als g(ˆθ). Bij een gegeven model is het uitrekenen van de maximum likelihoodschatter een kwestie van calculus. Vaak geschiedt dit door de likelihoodfunctie te differentiëren en de afgeleiden gelijk aan nul te stellen. (Het geval van de homogene verdeling in Voorbeeld 4.12 is hier echter een uitzondering op.) Een trucje dat het rekenwerk beperkt (vooral bij onafhankelijke waarnemingen) is om eerst de logaritme van de likelihood te nemen. Omdat de logaritme een monotone functie is, geldt dat de waarde ˆθ de functie
14 4.3: Maximum Likelihood-Schatters 57 θ L(θ; x) maximaliseert dan en slechts dan als deze waarde de functie θ log L(θ, x) maximaliseert. (Het gaat om de plaats waar het maximum wordt aangenomen, niet de grootte van het maximum!) Voor vaste x wordt de log likelihood-functie gegeven door θ log L(θ; x) = log p θ (x). Als L differentieerbaar is in θ Θ R k en zijn maximum in een inwendig punt van Θ aanneemt, dan geldt θ j log L(θ; x) θ=ˆθ = 0, j = 1,..., k. Dit stelsel van likelihood-vergelijkingen is lang niet altijd expliciet oplosbaar. Zonodig gebruikt men iteratietechnieken om stapsgewijs een steeds betere benadering van de oplossing te verkrijgen, uitgaande van een geschikte startwaarde. De vector van partiële afgeleiden (gradiënt) van θ log L(θ; x) wordt de score-functie van het statistische model genoemd. Als de waarneming X = (X 1,..., X n ) is opgebouwd uit onafhankelijke, identiek verdeelde deelwaarnemingen X i, dan bezit de likelihood L(θ; x) voor waargenomen x de productstructuur L(θ; x) = i p θ(x i ). De log likelihood is dan n n θ log L(θ; x 1,..., x n ) = log p θ (x i ) = log p θ (x i ), waarin p θ de (marginale) dichtheid van een enkele X i weergeeft. De afgeleide van log L, de score-functie, is de som van de score-functies voor de individuele waarnemingen. De likelihood-vergelijkingen hebben dan de vorm met n l θ (x i ) θ=ˆθ = 0, l θ (x i ) = θ l θ (x i ) en l θ (x i ) = log p θ (x i ). De gradiënt l θ is de score-functie voor één waarneming. In verschillende voorbeelden wordt het maximum van de likelihoodfunctie niet in het inwendige van de parameterverzameling aangenomen. Dan is de maximum likelihood-schatter ˆθ meestal niet een stationair punt van de afgeleide van de likelihood-functie maar een randmaximum, en gelden de voorgaande vergelijkingen niet. In weer andere voorbeelden is de likelihood-functie niet overal differentieerbaar (of zelfs continu), en voldoet de maximum likelihood-schatter evenmin aan de likelihood-vergelijkingen. In Voorbeeld 4.12 is deze situatie al geïllustreerd. Voorts is het mogelijk dat de likelihood-functie meerdere (locale) maxima en ook minima bezit. Dan kunnen de likelihood-vergelijkingen meer dan één oplossing bezitten.
15 58 4: Schatters De maximum likelihood-schatter is per definitie het globale maximum van de likelihood-functie. In Definitie 4.11 wordt de maximum likelihood-schatter gebaseerd op de maximum likelihood-schatting. In de praktijk schrijft men echter vaak direct de (log) likelihood-functie in termen van de stochastische grootheid X in plaats van de realisatie x en leidt op die manier direct de schatter af door deze functie te maximaliseren naar θ. Deze verkorte notatie wordt gehanteerd in de volgende voorbeelden van toepassingen van de maximum likelihood-methode. Voorbeelden waarin de methode wordt toegepast op regressiemodellen zijn te vinden in Hoofdstuk 8. Voorbeeld 4.13 (Alternatieve verdeling). De kansdichtheid van de alternatieve verdeling alt(p) kan worden geschreven als x p x (1 p) 1 x ; voor x = 0 staat hier 1 p en voor x = 1 staat er p. Voor een steekproef X 1,..., X n uit de alt(p)-verdeling is de log likelihood-functie derhalve n p log L(p; X 1,..., X n ) = log p X i (1 p) 1 X i = n X i log p + ( n n ) X i log(1 p). Neem de parameterverzameling gelijk aan het interval [0, 1]. Als 0 < n X i < n, dan geldt log L(p; X) als p 0 of p 1, zodat L(p; X) zijn maximum aanneemt op (0, 1). Nulstellen van de afgeleide naar p geeft één oplossing; de maximum likelihood-schatter ˆp = X. Als n X i gelijk is aan 0 of n, dan heeft L(p; X) een randmaximum in 0 of 1. Ook in deze gevallen kan de maximum likelihood-schatter worden geschreven als ˆp = X. Voorbeeld 4.14 (Binomiale verdeling). Veronderstel dat X binomiaal verdeeld is met bekende parameter n en onbekende parameter p. De log likelihood-functie voor X is gelijk aan ( ( n p log L(p; X) = log )p X (1 p) n X) X ( ) n = log + X log p + (n X) log(1 p). X De maximum likelihood-schatter voor p is de waarde in [0, 1] die deze functie maximaliseert. Termen die niet van p afhangen hebben wel invloed op de grootte van het maximum, maar niet op de locatie van het maximum. Deze termen mogen we daarom weglaten bij het bepalen van de maximum likelihood-schatter. Het is dus voldoende de functie p X log p + (n X) log(1 p)
16 4.3: Maximum Likelihood-Schatters *10^-6 6*10^-6 10^ Figuur 4.6. Een realisatie van de likelihood-functie als functie van p voor een steekproef uit de alternatieve verdeling. De waargenomen waarde is Σ n xi = 5 voor n = 20, en de maximum likelihood-schatting is ˆp = te maximaliseren naar p [0, 1]. Deze functie is gelijk aan de log likelihoodfunctie in Voorbeeld 4.13 voor X = n X i. Dit is niet merkwaardig aangezien n X i bin(n, p)-verdeeld is als X 1,..., X n onderling onafhankelijk en alternatief verdeeld zijn met parameter p. Maximalisatie van de log likelihood-functie naar p gaat dus analoog aan de maximalisatie in Voorbeeld De maximum likelihood-schatter voor p is ˆp = X/n. Dit komt in het geval van de onzuivere munt in Voorbeeld 4.9 overeen met ˆp = 0.3. Voorbeeld 4.15 (Exponentiële verdeling). Veronderstel dat X 1,..., X n een steekproef is uit de exponentiële verdeling met onbekende parameter λ > 0. Dan is de log likelihood-functie voor X 1,..., X n gelijk aan λ log n λe λxi = n log λ λ n X i. De parameterruimte voor λ is (0, ). Nulstellen van de afgeleide van de log likelihood-functie naar λ en de gevonden vergelijking oplossen naar λ geeft ˆλ = 1/X. De tweede afgeleide van de log likelihood-functie naar λ is negatief voor alle λ > 0, dus in ˆλ heeft de likelihood-functie ook daadwerkelijk een maximum. De maximum likelihood-schatter van E θ X i kunnen we hieruit afleiden. Definieer de functie g als g(λ) = 1/λ voor λ > 0. Dan geldt EX i = g(λ). De maximum likelihood-schatter voor EX i = 1/λ = g(λ) is daarom gelijk aan g(ˆλ) = 1/ˆλ = X. Voorbeeld 4.16 (Verschoven exponentiële verdeling). De kansdichtheid
17 60 4: Schatters van een stochastische variabele X met een verschoven exponentiële verdeling is gelijk aan f α,λ (x) = λe λ(x α) voor x α, en 0 voor x < α. Hierin is α de verschuivingsparameter en λ de intensiteitsparameter als in de niet verschoven exponentiële verdeling. Veronderstel dat X 1,..., X n een steekproef is uit de verschoven exponentiële verdeling met onbekende parameters α en λ. De likelihood-functie voor deze steekproef is gelijk aan (α, λ) L(α, λ; X 1,..., X n ) = n λe λ(xi α) 1 Xi α = λ n e λ n (Xi α) 1 X(1) α. De likelihood is gelijk aan 0 voor α > X (1), omdat dan de indicatorfunctie 1 X(1) α gelijk aan 0 is. Voor α X (1) en voor vaste λ > 0 is de likelihoodfunctie stijgend als functie van α en dus maximaal in α = X (1). De maximum likelihood-schatter voor α is daarom gelijk aan ˆα = X (1). Substitueren we deze waarde in de likelihood, en maximaliseren we naar λ op dezelfde manier als in Voorbeeld 4.15, dan vinden we dat de maximum likelihoodschatter voor λ gelijk is aan ˆλ = n/ n (X i X (1) ). In dit geval kunnen de maximum likelihood-schatters voor de parameters dus in twee stappen worden gevonden, eerst ˆα en daarna ˆλ. Dat dit inderdaad het globale maximum van de likelihood oplevert, wordt ook geïllustreerd in Figuur 4.7. l L a Figuur 4.7. Een realisatie van de likelihood-functie voor een steekproef uit een verschoven exponentiële verdeling ter grootte n = 20. De waargenomen waarden zijn x = 5 en x (1) = 1.5. De maximum likelihood-schattingen zijn ˆα = 1.5 en ˆλ = 1/
18 4.3: Maximum Likelihood-Schatters 61 Voorbeeld 4.17 (Normale verdeling). De log likelihood-functie voor een steekproef X 1,..., X n uit de N(µ, σ 2 )-verdeling wordt gegeven door (µ, σ 2 ) log n 1 1 2πσ 2 e 2 (Xi µ)2 /σ 2 = 1 2 n log 2π 1 2 n log σ2 1 n 2σ 2 (X i µ) 2. We nemen de natuurlijke parameterruimte voor de parameter θ = (µ, σ 2 ): Θ = R (0, ). De partiële afgeleiden van de log likelihood naar µ en σ 2 zijn µ log L(µ, σ2 ; X) = 1 n σ 2 (X i µ) σ 2 log L(µ, σ2 ; X) = n 2σ σ 4 n (X i µ) 2. Nulstellen van de eerste vergelijking geeft één oplossing: ˆµ = X. In deze waarde voor µ heeft de log likelihood inderdaad een globaal maximum voor iedere σ 2 > 0 aangezien de waarde van de log likelihood naar gaat voor µ ±. Vervolgens substitueren we µ = ˆµ in de tweede partiële afgeleide, stellen deze gelijk aan 0 en lossen de likelihood-vergelijking vervolgens op naar σ 2. Dit geeft opnieuw één oplossing: ˆσ 2 = n 1 n (X i X) 2. Om gelijke reden als hiervoor heeft de log likelihood functie in deze waarde inderdaad een maximum. (Overigens levert het maximaliseren van de log likelihood-functie naar σ in plaats van σ 2 de wortel uit ˆσ 2 als maximum likelihood-schatter voor σ op.) Om te controleren of de (differentieerbare) log likelihood-functie een maximum heeft in de gevonden oplossing van de likelihood-vergelijkingen, kan ook de Hessiaan-matrix van de log likelihoodfunctie in het punt (ˆµ, ˆσ 2 ) berekend worden, welke hier gelijk is aan ( ) 1 nˆσ 2 0 ˆσ 4. 0 n/2 Beide eigenwaarden van deze matrix zijn negatief en daarmee heeft de log likelihood een maximum in het punt (ˆµ, ˆσ 2 ). De gevonden maximum likelihood-schatter voor (µ, σ 2 ) is gelijk aan ( X, 1 n (X i X) 2) ( = X, n 1 ) n n S2 X met SX 2 = 1 n (X i X) 2. n 1
19 62 4: Schatters Het steekproefgemiddelde is zuiver voor µ, maar de maximum likelihoodschatter ˆσ 2 heeft een lichte onzuiverheid (zie Voorbeeld 4.7). Vanwege de kleine onzuiverheid wordt vaak de voorkeur gegeven aan de steekproefvariantie SX 2 = (n/(n 1))ˆσ2. De verwachte kwadratische fout van SX 2 is echter groter dan die van ˆσ 2, en beide verliezen het van ( (n 1)/(n + 1) ) SX 2 in termen van de verwachte kwadratische fout. Omdat het verschil klein is voor grote aantallen waarnemingen, maakt het meestal niet veel uit welke van deze schatters wordt gebruikt. Een ander model wordt verkregen als we µ bekend veronderstellen. Dan is de parameter θ = σ 2 en de parameterverzameling (0, ). We vinden dan dat de maximum likelihood-schatter van σ 2 gelijk is aan n 1 n (X i µ) 2. Merk op dat dit alleen een schatter is als µ bekend mag worden verondersteld! Voorbeeld 4.18 (Normale verdeling met restrictie). Veronderstel dat de waarnemingen X 1,..., X n onafhankelijk en normaal verdeeld zijn met verwachting µ en variantie 1, waarbij bekend is dat µ 0. Voor x 1,..., x n een realisatie van X 1,..., X n, neemt de likelihood-functie op R een absoluut maximum aan in x. Omdat x negatief kan zijn en bekend is dat µ 0, is x niet de maximum likelihood-schatting. In het geval dat x 0, neemt de likelihood-functie op de parameterverzameling [0, ) een randmaximum aan in 0. De maximum likelihood-schatting is x als deze niet-negatief is en anders 0. De bijbehorende maximum likelihood-schatter is dan X1 X 0 ; X als X 0 en 0 anders. Een statistisch model en de maximum likelihood-schatter worden bepaald door zowel de vorm van de dichtheid van de waarneming als de definitie van de parameterverzameling! Voorbeeld 4.19 (Gamma-verdeling). Stel dat X 1,..., X n een steekproef is uit de Gamma-verdeling met kansdichtheid p α,λ (x) = xα 1 λ α e λx. Γ(α) Hierin zijn α > 0 en λ > 0 de onbekende vorm- en inverse schaalparameter, en Γ de Gamma-functie Γ(α) = 0 s α 1 e s ds. Het vereist enig rekenwerk om deze bewering te staven. Stelling 5.26 kan worden gebruikt om dit rekenwerk te vergemakkelijken. Zie Opgave 5.24 in Hoofdstuk 5.
20 4.3: Maximum Likelihood-Schatters 63 De log likelihood-functie voor X 1,..., X n is dan gelijk aan n X α 1 i λ α e λxi (α, λ) log Γ(α) n = (α 1) log X i + nα log λ λ n X i n log Γ(α). De parameterruimte voor θ = (α, λ) nemen we gelijk aan Θ = [0, ) [0, ). Om de maximum likelihood-schatters voor α en λ te vinden, bepalen we de partiële afgeleiden van de log likelihood-functie naar λ en α λ log L(α, λ; X 1,..., X n ) = nα n λ X i, α log L(α, λ; X 1,..., X n ) = n log X i + n log λ n 0 0 s α 1 log s e s ds. s α 1 e s ds (In de afgeleide naar α hebben we de Gamma-functie α Γ(α) onder het integraalteken gedifferentieerd en gebruikt dat ( / α)s α = s α log s.) De partiële afgeleiden zijn gelijk aan 0 in de maximum likelihood schatters (ˆα, ˆλ); dit geeft twee likelihood-vergelijkingen. Uit de eerste vergelijking volgt onmiddellijk dat ˆλ = ˆα/X. Dit substitueren we in de tweede likelihood-vergelijking. Dit geeft n log X i + n log ˆα n log X n 0 0 sˆα 1 log s e s ds = 0. sˆα 1 e s ds Deze vergelijking heeft geen expliciete oplossing voor ˆα, maar kan numeriek, met een iteratieve methode, worden opgelost wanneer een realisatie voor X 1,..., X n is waargenomen. De gevonden waarde ˆα substitueren we vervolgens in de vergelijking ˆλ = ˆα/X om ˆλ te vinden. Om te controleren of de log likelihood-functie in de oplossing ook daadwerkelijk een maximum heeft, moeten we de eigenwaarden van de Hessiaan-matrix in (ˆα, ˆλ) berekenen. Als deze beide eigenwaarden negatief zijn in (ˆα, ˆλ), dan is (ˆα, ˆλ) inderdaad de maximum likelihood-schatter voor (α, λ). Voorbeeld 4.20 (Multinomiale verdeling). Veronderstel dat de vector X = (X 1,..., X m ) een multinomiale verdeling heeft met parameters n en (p 1,..., p m ), waar p p m = 1. We veronderstellen dat n bekend is en de kansen p 1,..., p m onbekend zijn. De te schatten parameter is dan θ = (p 1,..., p m 1 ), omdat p m = 1 p 1... p m 1 vastligt zodra p 1,..., p m 1 bekend zijn. De likelihood-functie is in dit geval gegeven door ( n θ X 1 X k ) ( m 1 ) p X i i (1 (p p m 1 )) X m
21 64 4: Schatters en de log likelihood-functie is gelijk aan ( θ log n X 1 X k ) + ( m 1 X i log p i ) + X m log(1 (p p m 1 )). Differentiatie van de log likelihood-functie naar p 1,..., p m 1 geeft de m 1 likelihood-vergelijkingen: X i ˆp i X m = 0 voor i = 1,..., m 1. 1 (ˆp ˆp m 1 ) Deze vergelijkingen zijn te schrijven als ˆp i = X i ˆp m X m voor i = 1,..., m 1 Om de vergelijkingen op te lossen sommeren we alle m 1 vergelijkingen m 1 ˆp i = ˆp m 1 m X i = 1 ˆp m = ˆp m (n X m ). X m X m Uit deze laatste vergelijking volgt dat ˆp m = X m /n. De maximum likelihoodschatters voor de overige kansen volgen direct uit de gevonden relaties ˆp i = ˆp m X i /X m en zijn gelijk aan ˆp i = X i /n. Om te laten zien dat de (log) likelihood daadwerkelijk een maximum bezit in ˆθ = (ˆp 1,..., ˆp m 1 ) kan men nagaan dat de eigenwaarden van de Hessiaan-matrix in ˆθ negatief zijn. Deze berekening is in dit geval echter complex en laten we hier achterwege. Voorbeeld 4.21 (Toepassing, aantal bacteriën). Bacteriën in vervuild water zijn onmogelijk met het oog of een microscoop te tellen. Om toch een idee te krijgen van de mate van vervuiling maken we een inschatting van het aantal bacteriën in een centiliter water. We gaan als volgt te werk. We veronderstellen dat het aantal bacteriën in een centiliter vervuild water Poisson-verdeeld is met parameter µ. Om een indicatie te krijgen van het aantal bacteriën in het vuile water, willen we µ schatten. We gieten het vuile water in een bak met 1000 liter zuiver water, roeren goed en verdelen het water vervolgens over 1000 kweekbakken. Daarna kijken we in elke kweekbak of zich een kolonie vormt. Is dit het geval, dan zat er tenminste één bacterie in deze liter; is dit niet het geval, dan was deze liter bacterievrij. Definieer X als het totaal aantal bacteriën in de centiliter vervuild water, dan kunnen we X schrijven als X = 1000 X i, waarbij X i het aantal bacteriën is in de i e kweekbak is. De variabelen X 1,..., X 1000 zijn dan onderling onafhankelijk en Poisson-verdeeld met parameter µ/1000. We kunnen X 1,..., X 1000 echter niet waarnemen, maar nemen alleen Y 1,..., Y 1000 waar, met Y i gedefinieerd door { 0 als zich in de i Y i = e bak geen kolonie vormt 1 anders.
22 4.3: Maximum Likelihood-Schatters 65 De waarnemingen Y i zijn onafhankelijk en alternatief verdeeld met P (Y i = 0) = P (X i = 0) = e µ/1000 en P (Y i = 1) = 1 e µ/1000. Definieer p: = P (Y i = 1) = 1 e µ/1000. In Voorbeeld 4.13 is de maximum likelihood-schatter voor de parameter p van de alternatieve verdeling afgeleid. Gebaseerd op de steekproef Y 1,..., Y 1000 is deze schatter gelijk aan ˆp = 1000 Y i/1000. Aangezien p = 1 e µ/1000 is µ gelijk aan 1000 log(1 p) en wordt de maximum likelihood-schatter voor µ gegeven door ˆµ = 1000 log( Y i/1000). Voorbeeld 4.22 (Toepassing, Poisson-voorraden). In Voorbeeld 2.6 wordt een statistisch model beschreven voor het totaal aantal verkochte exemplaren van een bepaald artikel per week en per filiaal. Men neemt waar X = (X 1,1, X 1,2,..., X I,J ), waarbij X i,j het aantal artikelen is dat verkocht werd in filiaal i in week j. Veronderstel dat X 1,1,..., X I,J onderling onafhankelijk zijn en X i,j Poisson-verdeeld is met onbekende parameter µ i. De parameter µ i is slechts afhankelijk van het filiaal en niet van de week. De parameters µ 1,..., µ I schatten we met de maximum likelihood-methode. De log likelihood-functie voor X 1,1,..., X I,J is gelijk aan (µ 1,..., µ I ) = I J j=1 log (e I Jµ i + µxi,j µi i I X i,j! j=1 ) J X i,j log µ i I j=1 J log(x i,j!). We nemen de natuurlijke parameterverzameling (0, ) I voor (µ 1,..., µ I ). Oplossen van de likelihood-vergelijkingen geeft ˆµ k = J 1 J j=1 X k,j, mits J j=1 X k,j > 0. Het is gemakkelijk na te gaan dat de Hessiaan-matrix in een willekeurig punt (µ 1,..., µ I ) een diagonaal matrix is met slechts negatieve eigenwaarden wanneer J j=1 X k,j > 0 voor alle k. Als J j=1 X k,j = 0 (hetgeen met positieve kans het geval is), bestaat er feitelijk geen maximum likelihood-schatter van µ k, omdat de likelihood-functie in dat geval strikt dalend is en dus geen maximum aanneemt op (0, ). Definiëren we de Poisson-verdeling met parameter 0 als de in het punt 0 ontaarde kansverdeling en breiden we de parameterverzameling voor µ k uit tot [0, ) voor iedere k, dan is J 1 J j=1 X k,j de maximum likelihood-schatter voor µ k. Als het aantal verkochte artikelen lineair verandert met de weken, kunnen we veronderstellen dat µ i,j = µ i (1 + βj). Hier nemen we aan dat de verandering β gelijk is voor alle filialen. In dat geval is de log likelihoodfunctie voor X 1,1,..., X I,J gelijk aan (µ 1,..., µ I, β) I j=1 J ( ) µ i (1 + βj) + X i,j log(µ i (1 + βj)) log(x i,j!).
23 66 4: Schatters De likelihood-vergelijkingen voor µ k en β zijn gelijk aan J ( (1 + ˆβj) + X ) k,j = 0 voor k = 1,..., I ˆµ k j=1 I J ( j=1 ˆµ i j + jx i,j 1 + ˆβj ) = 0. Expliciete oplossingen van deze vergelijkingen zijn er niet, maar de nulpunten van de afgeleiden kunnen met een iteratief algoritme gevonden worden. * Voorbeeld 4.23 (Autoregressie). De maximum likelihood-methode is niet beperkt tot onafhankelijke waarnemingen. We illustreren dit met een model dat vaak wordt gebruikt voor het analyseren van een variabele die in de tijd varieert, het autoregressieve model: X i = βx i 1 + e i. Hierin is β een onbekende parameter, en de variabelen e 1,..., e n zijn nietwaarneembare toevalsfluctuaties, in deze context ook wel innovaties genoemd. Dit model lijkt veel op het lineaire regressiemodel zonder intercept, behalve dat de waarneming X i wordt verklaard door regressie op de waarneming X i 1. Als we de index i {1,..., n} interpreteren als opeenvolgende momenten in de tijd, dan vindt regressie plaats van X i op het verleden X i 1 van de reeks zelf, vandaar de term autoregressie. We beschouwen hier het autoregressiemodel van orde 1; een uitbreiding naar regressie op meer dan een variabele in het verleden ligt voor de hand. De volgorde van de datapunten is nu van groot belang en een weergave van de data als een functie in de tijd zinvol. Figuur 4.8 geeft drie mogelijke realisaties (x 0, x 1,..., x n ) van de vector (X 0, X 1,..., X n ), als plot van de index i op de horizontale as tegen de waarde x i op de verticale as. Alle drie realisaties starten met x 0 = 1, maar zijn daarna gegenereerd volgens het model X i = βx i 1 + e i met onafhankelijke innovaties e i maar met dezelfde waarde van β. Het statistische probleem is de waarde van β te schatten op basis van een waargenomen realisatie (x 0, x 1,..., x n ). We zullen dit oplossen met behulp van de maximum likelihood-methode. We maken de beschrijving van het model volledig door aan te nemen dat X 0 verdeeld is volgens een kansdichtheid p X0 en dat de innovaties e 1,..., e n onafhankelijke, normaal N(0, σ 2 )-verdeelde grootheden vormen, die onafhankelijk zijn van X 0. De likelihood-functie is de simultane kansdichtheid van de waarnemingsvector X = (X 0,..., X n ). Daar de waarnemingen X 0, X 1,..., X n stochastisch afhankelijk zijn, is de simultane dichtheid niet het product van de marginale dichtheden. We kunnen echter
24 4.3: Maximum Likelihood-Schatters Figuur 4.8. Drie realisaties van de vector (X 0, X 1,..., X 50 ) verdeeld volgens het autoregressieve model met standaard normale innovaties, x 0 = 1 en β = 0.7. Ieder van de drie grafieken is een lineaire interpolatie van de punten {(i, x i ): i = 0,..., 50}. gebruikmaken van de algemene decompositie voor een simultane dichtheid: p X 0,...,X n (x 0,..., x n ) = p X 0 (x 0 )p X 1 X 0 (x 1 x 0 )p X 2 X 0,X 1 (x 2 x 0, x 1 ) p X n X 0,...,X n 1 (x n x 0,..., x n 1 ). Deze formule geeft een factorisatie van de simultane dichtheid als een product van voorwaardelijke dichtheden, en generaliseert de productformule voor het geval van onafhankelijke waarnemingen. De formule kan worden bewezen door herhaalde toepassing van de formule f X,Y (x, y) = f X (x)f Y X (y x). In het autoregressieve model is de voorwaardelijke dichtheid van X i gegeven X 0 = x 0,..., X i 1 = x i 1 gelijk aan de dichtheid van βx i 1 + e i, dat wil zeggen de dichtheid van de normale verdeling met verwachting βx i 1 en variantie var e i = σ 2. De likelihood-functie heeft derhalve de vorm n 1 ( (β, σ) L(β, σ; X 0,..., X n ) = p X0 (X 0 ) σ φ Xi βx ) i 1. σ Hierin hebben we de dichtheid van X 0 nog niet nader gespecificeerd. Omdat deze dichtheid slechts één term van de n+1 termen beïnvloedt, en n meestal groot is, wordt dit vaak achterwege gelaten. De term p X0 (X 0 ) wordt dan weggelaten uit de likelihood-functie, en de analyse wordt voorwaardelijk de waarde van X 0 uitgevoerd. Met deze definitie van de likelihood-functie kan de (voorwaardelijke) maximum likelihood-schatter voor de parameter (β, σ) worden bepaald volgens dezelfde berekeningen als in het lineaire regressiemodel (zie Paragraaf 8.1.1). De maximum likelihood-schatter ˆβ minimaliseert de kwadraat-
25 68 4: Schatters som β n (X i βx i 1 ) 2 en is gelijk aan n ˆβ = X ix i 1 n. X2 i 1 De maximum likelihood-schatter voor σ 2 is ˆσ 2 = 1 n (X i n ˆβX i 1 ) 2. Afhankelijk van de modellering van de beginwaarneming X 0 nemen de maximum likelihood-schatters gebaseerd op de onvoorwaardelijke likelihoodfunctie een iets andere vorm aan. * Voorbeeld 4.24 (Onbekende dichtheid). Veronderstel dat X 1,..., X n een steekproef is uit een verdeling met een onbekende kansdichtheid f. In de voorgaande voorbeelden waren de kansverdelingen bekend op een eindigdimensionale parameter na, bijvoorbeeld de exponentiële verdeling met onbekende parameter λ. In dit voorbeeld veronderstellen we dat er helemaal niets over de dichtheid f bekend is. Om f te schatten zullen we opnieuw de maximum likelihood-methode gebruiken. De log likelihoodfunctie voor de steekproef X 1,..., X n wordt gegeven door f log L(f; X 1,..., X n ) = log n f(x i ) = n log f(x i ). Deze functie moet gemaximaliseerd worden naar de kansdichtheid f over de verzameling van alle kansdichtheden, dat is over alle niet-negatieve functies f zodanig dat f(x)dx = 1. Dit maximum bestaat echter niet. Om dit in te zien beperken we ons tot kansdichtheden h ε met ε > 0 van de vorm h ε (x) = n 1 nε 1 [X i ε/2,x i+ε/2](x), dat wil zeggen dichtheden die een hoogte 1/(nε) hebben op de intervallen [X i ε/2, X i + ε/2] voor i = 1,..., n en daarbuiten nul zijn, zie Figuur 4.9. Als de kansverdeling waaruit de steekproef genomen is continu is, dan zullen deze intervallen elkaar niet overlappen mits ε maar klein genoeg is, en is h ε (x)dx = nε 1 nε = 1. De restrictie van de log likelihood-functie tot de dichtheden h ε wordt dan gegeven door ε n log h ε (X i ) = n log 1 = n log nε. nε
26 4.3: Maximum Likelihood-Schatters Figuur 4.9. De dichtheid h ε op basis van een steekproef ter grootte 10 uit de standaard normale verdeling met ε = 0.1. Voor ε 0, geldt dat log L(ε; X 1,..., X n ). Dit betekent dat er binnen de dichtheden van de vorm h ε met ε > 0 geen dichtheid bestaat die de log likelihood-functie maximaliseert. Aangezien de limiet lim ε 0 h ε niet bevat is in de verzameling kansdichtheden bestaat de maximum likelihood-schatter voor dit probleem niet. We kunnen wel het probleem veranderen in een probleem dat wel een oplossing bezit. In plaats van te zoeken naar een dichtheid, zoeken we naar een verdelingsfunctie F ; we schatten dus F, niet f. Als log likelihood nemen we de zogenaamde empirische log likelihood F n log F {X i }. Deze functie is verkregen door f(x i ) in de log likelihood-functie te vervangen door F {X i }, de sprong van F in het punt X i. We zoeken nu naar de verdelingsfunctie die de empirische log likelihood-functie maximaliseert over alle kansverdelingen. Dit maximum wordt bereikt in de zogenaamde empirische verdelingsfunctie ˆF (x) = 1 n n 1 Xi x = #{i: X i x}. n Deze verdelingsfunctie is een sprongfunctie met sprongen ter grootte 1/n in de waarnemingen X 1,..., X n (zie Figuur 4.10). De bijbehorende verdeling is discreet met puntmassa s in de waarnemingen. Zien we een puntmassa als een dichtheid met een oneindig hoge en smalle piek, dan is ˆF in zekere zin de limiet van h ε als ε 0.
27 70 4: Schatters Figuur De empirische verdelingsfunctie (stapfunctie) op basis van een steekproef ter grootte 10 (links) en 30 (rechts) uit de standaard normale verdeling tezamen met verdelingsfunctie van de standaard normale verdeling. * Voorbeeld 4.25 (Toepassing, samengesteld Poisson-proces). Een ziektekostenverzekeringsmaatschappij betaalt de gemaakte ziektekosten uit aan haar klanten en zorgverleners. De maatschappij wil graag aan het begin van de maand een indruk hebben hoeveel geld zij voor die maand opzij moet zetten om alle gehonoreerde claims voor die maand uit te kunnen betalen. Daartoe wordt een dataset samengesteld met alle uitbetalingen van de afgelopen 120 maanden. Het aantal claims dat uitbetaald wordt, varieert van maand tot maand en is afhankelijk van het aantal klanten dat de verzekeringsmaatschappij heeft in de desbetreffende maand. We definiëren N i als het aantal gehonoreerde claims in maand i en veronderstellen dat N 1,..., N 120 onderling onafhankelijke stochastische grootheden zijn met N i Poisson(µM i ), i = 1,..., 120 waar µ > 0 een onbekende parameter is en M i het aantal klanten dat de maatschappij aan het begin van maand i heeft. De aantallen M i worden als bekend en niet stochastisch verondersteld. De hoogte van de j e claim in maand i noteren we met C i,j. Het uitgekeerde bedrag in maand i is dan gelijk aan N i j=1 C i,j. We veronderstellen dat de hoogte van de uitbetaalde schadeclaims onderling onafhankelijke stochastische grootheden zijn met C i,j exp(θ), i = 1,..., 120, j = 1,..., N i waar θ > 0 een onbekende parameter is. Bovendien veronderstellen we dat de hoogtes van de claims C i,j onafhankelijk zijn van de aantallen claims N i. Met bovenstaande modelaannames is het mogelijk het verwachte te honoreren bedrag voor de komende maand te bepalen. Wanneer bekend
28 4.3: Maximum Likelihood-Schatters 71 zou zijn dat het aantal claims voor de komende maand gelijk is aan n, dan is het verwachte te honoreren bedrag gelijk aan E θ n j=1 C j = n θ waar C 1,..., C n de claimgroottes zijn in de komende maand. Het totaal aantal claims is echter onbekend en volgt de Poisson(µM)-verdeling met M het aantal klanten voor de komende maand. Het verwachte uit te keren bedrag wordt dan ( N ) ( ( N )) ( N ) E µ,θ C j = E µ E θ C j N = E µ = µm θ θ. j=1 j=1 In bovenstaande uitdrukking wordt eerst verwachting van N j=1 C j berekend bij gegeven N, dit levert N/θ en vervolgens wordt de verwachting van N/θ genomen. Wanneer θ en µ bekend zijn, is het verwachte uit te keren bedrag voor de komende maand dus gelijk aan µm/θ. De parameters µ > 0 en θ > 0 zijn onbekend en moeten worden geschat op basis van de gegevens in de dataset. We doen dit met behulp van de maximum likelihood-methode. Om de likelihood-functie af te leiden bepalen we eerst de simultane dichtheid van (C 1,..., C N, N), de waarnemingen voor een maand. Deze dichtheid noteren we met f θ,µ, f θ,µ (c 1,..., c N, N = n) = f θ,µ (c 1,..., c n N = n)p µ (N = n) ( n = θe θc j µm (µm)n )e. n! j=1 We veronderstellen dat de waarnemingen van verschillende maanden en jaren onderling onafhankelijk zijn. De log likelihood-functie voor alle waarnemingen in de dataset van de afgelopen 10 jaar is dan gelijk aan de logaritme van het product van de simultane kansdichtheden van de verschillende maanden: (120 ( N i (µ, θ) log θe θc i,j )e µm (µm i i) N i ) N i! j=1 120 ( N i = log j=1 ) 120 θe θci,j + log (e (µm i) Ni µmi N i! De eerste van de twee termen is niet afhankelijk van de parameter µ en de tweede term bevat de parameter θ niet. Om de maximum likelihoodschatters van θ en µ te bepalen, volstaat het dus om de eerste term naar θ te maximaliseren en de tweede term naar µ. Dit geeft ˆθ = N i Ni j=1 C i,j en ˆµ = 120 N i 120 M. i ).
29 72 4: Schatters De maximum likelihood-schatter van het uit te keren bedrag is gelijk aan M ˆµˆθ = M 120 Ni j=1 C i,j 120 M i In dit voorbeeld veronderstellen we dat de parameters µ en θ voor iedere maand en ieder jaar gelijk zijn. Deze aannames zijn aanvechtbaar. Zo zal het uitgekeerde bedrag gemiddeld genomen toenemen door inflatie en het aantal claims in de winter groter zijn dan in de zomermaanden. Het valt te overwegen de parameters afhankelijk te maken van jaar en maand. Zo kunnen we in plaats van één parameter µ twaalf parameters µ 1,..., µ 12 nemen voor de verschillende maanden. Door het aantal onbekende parameters in het model te vergroten, zullen de schattingen echter minder nauwkeurig worden.. * Fisher-Scoring Hoewel de voorgaande voorbeelden van toepassing van de maximum likelihood-methode een andere indruk zouden kunnen geven, is het vaak niet mogelijk de maximum likelihood-schatter door een expliciete formule in de data uit te drukken (zie Voorbeeld 4.19). In zo n geval is het noodzakelijk een numerieke benaderingsmethode toe te passen. Bij gegeven waarneming x is de likelihood-functie θ L(θ; x) een gewone functie van de parameter θ, en we zoeken naar de waarde van θ waar deze functie maximaal is. Een aangepaste versie van de methode van Newton-Raphson staat in de statistiek bekend als Fisher-scoring. Deze paragraaf bevat een korte uiteenzetting van deze numerieke methoden. In de meeste gevallen is de gezochte waarde ˆθ een stationair punt van de afgeleide van de log likelihood-functie naar θ. We bespreken daarom het vinden van een nulpunt ˆθ van de functie θ Λ(θ; x), waarin Λ de vector van partiële afgeleiden van de log likelihood-functie θ Λ(θ; x) = log L(θ; x) is. Het idee van de methode van Newton-Raphson is om uitgaande van een redelijke begin schatting θ 0 voor ˆθ de functie Λ te vervangen door de lineaire benadering Λ(θ; x) Λ( θ 0 ; x) + Λ( θ 0 ; x)(θ θ 0 ). Hierin is Λ(θ; x) de tweede afgeleide van de log likelihood-functie naar de parameter. In plaats van te zoeken naar de waarde van θ waarvoor de vergelijking Λ(θ; x) gelijk aan 0 is, richten, we ons nu op het oplossen van de vergelijking Λ( θ 0 ; x) + Λ( θ 0 ; x)(θ θ 0 ) = 0. Het nulpunt van deze tweede vergelijking is gelijk aan (4.1) θ1 = θ 0 Λ( θ 0 ; x) 1 Λ( θ0 ; x). Omdat de lineaire benadering niet exact is, zal de waarde θ 1 meestal niet het gezochte nulpunt ˆθ zijn. We verwachten echter dat de gevonden waarde
30 4.3: Maximum Likelihood-Schatters 73 θ 1 een betere benadering voor ˆθ zal zijn dan de startwaarde θ 0. We nemen vervolgens θ 1 als startwaarde en berekenen een derde waarde, etc. Dit geeft een rij benaderingen θ 0, θ 1, θ 2,... die onder bepaalde voorwaarden naar een nulpunt ˆθ convergeert. De convergentie is verzekerd als de startwaarde θ 0 voldoende dicht bij de doelwaarde ˆθ ligt, en de functie Λ voldoende glad is, maar deze garantie is in de praktijk natuurlijk niet te verkrijgen. Verschillende modificaties van het algoritme kunnen de convergentie betrouwbaarder maken. Bezit de log likelihood echter meerdere locale maxima, en/of minima, dan is voorzichtigheid geboden, omdat de convergentie ook kan plaatsvinden naar een ander nulpunt van Λ (corresponderend met een locaal maximum of minimum), naast de mogelijkheid van divergentie van de rij θ 0, θ 1, θ 2,.... We zullen in Paragraaf 7.2 zien dat de tweede afgeleide Λ(ˆθ; x) van de log likelihood-functie geëvalueerd in de maximum likelihood-schatter een speciale betekenis bezit. Deze tweede afgeleide wordt aangeduid als de waargenomen informatie, en is ongeveer gelijk aan de Fisher-informatie (zie Lemma 6.9). In plaats van de tweede afgeleide gebruikt men ook wel een andere matrix in het Newton-Raphson algoritme (4.1). Wordt de Fisherinformatie gebruikt, dan staat het algoritme bekend als Fisher-scoring. Dit is vooral interessant als de Fisher-informatie analytisch kan worden berekend. * Het EM-Algoritme Naast het Fisher-scoring algoritme is het Expectation-Maximization Algoritme, afgekort EM algoritme, een veel gebruikt algemeen algoritme om maximum likelihood-schatters te berekenen. Het algoritme is bedoeld voor toepassingen waarbij de beoogde data slechts gedeeltelijk worden waargenomen. In veel praktische toepassingen ontstaat een dergelijk missing data model op een natuurlijke wijze, maar het algoritme kan ook worden toegepast door de waargenomen waarnemingen op te vatten als deel van een denkbeeldige volledige waarneming (een voorbeeld wordt gegeven in Voorbeeld 4.27). Zoals gebruikelijk noteren we de waarneming als X, maar we veronderstellen dat we slechts X waarnemen, in plaats van de volledige data (X, Y ), die in theorie ook beschikbaar zou kunnen zijn. Als (x, y) p θ (x, y) een kansdichtheid van de vector (X, Y ) is, dan verkrijgen we de dichtheid van X door te marginaliseren: p θ (x) = p θ (x, y) dy. (In het geval van discreet verdeelde waarnemingen nemen we een som in plaats van een integraal.) De maximum likelihood-schatter voor θ gebaseerd op de waarneming X maximaliseert de likelihood-functie θ p θ (X). Als de integraal in het voorgaande display expliciet kan worden geëvalueerd,
31 74 4: Schatters dan is het berekenen van de maximum likelihood-schatter een standaard probleem, dat bijvoorbeeld analytisch of met een iteratief algoritme kan worden opgelost. Als de integraal niet analytisch kan worden geëvalueerd, dan vereist de berekening van de likelihood in iedere gegeven waarde θ een numerieke benadering van de integraal, en het vinden van de maximum likelihood-schatter mogelijk vele van zulke benaderingen. Het EM-algoritme probeert deze benaderingen te ontwijken. Zouden we de beschikking hebben gehad over de volledige data (X, Y ), dan zouden we de maximum likelihood-schatter op basis van (X, Y ) hebben bepaald. Deze schatter, die meestal beter zal zijn dan de maximum likelihood-schatter gebaseerd op alleen X, is het punt van maximum van de log likelihood-functie θ log p θ (X, Y ), welke waarschijnlijk wel gemakkelijk te evalueren is. Een natuurlijke procedure als Y niet beschikbaar is, is om deze likelihood-functie te vervangen door zijn voorwaardelijke verwachting (4.2) θ E θ0 ( log pθ (X, Y ) X ). Dit is de voorwaardelijke verwachting van de log likelihood voor de volledige data gegeven de waarneming X. Het idee is om de gewone log likelihood te vervangen door de functie (4.2), en het punt van maximum van deze laatste te bepalen. Helaas zal de verwachte waarde in (4.2) meestal afhangen van de ware parameter θ 0, welke om deze reden is meegegeven als subscript van de verwachtingsoperator E θ0. Omdat de ware waarde van θ niet bekend is, is de functie in het display niet bruikbaar als basis voor een schattingsmethode. Het EM-algoritme overkomt dit probleem door iteratie. Gegeven een geschikt gekozen eerste gooi θ 0 naar de ware waarde van θ, bepalen we een schatter θ 1 door het maximaliseren van het criterium. Vervolgens vervangen we θ 0 in door θ E θ0 1, maximaliseren het nieuwe criterium, etc. Initialiseer θ 0. E-stap: ( gegeven θ i bereken de functie θ E θi log pθ (X, Y ) X = x ). M-stap: definieer θ i+1 functie. als het punt van maximum van deze Het EM-algoritme geeft een rij waarden θ 0, θ 1,..., en we hopen dat θ i voor toenemende i een steeds betere benadering voor de onbekende maximum likelihood-schatter is. De voorgaande beschrijving wekt de indruk dat het resultaat van het EM-algoritme een nieuw type schatter is. Dit is echter niet het geval, want als de rij θ 0, θ 1,... gegenereerd volgens het EM-algoritme naar wens convergeert naar een limiet, dan is deze limiet precies de maximum likelihoodschatter gebaseerd op de waarneming X. Onder regulariteitsvoorwaarden
32 4.3: Maximum Likelihood-Schatters 75 geldt namelijk dat, voor iedere i, (4.3) p θi+1 (X) p θi (X). (zie het volgende lemma). De iteraties van het EM-algoritme leveren dus een steeds grotere waarde voor de likelihood-functie van de waarneming X. Als het algoritme naar wens werkt, dan zullen de waarden p θi (X) uiteindelijk naar het maximum van de likelihood stijgen, en θ i zal convergeren naar de maximum likelihood-schatter. Helaas is een dergelijke convergentie in het algemeen niet gegarandeerd, en dient per geval te worden beoordeeld. De rij θ i kan bijvoorbeeld naar een locaal maximum convergeren. Evenmin is de uitvoering van de twee stappen van het algoritme noodzakelijkerwijze eenvoudig. Lemma De rij θ 0, θ 1, θ 2,... gegenereerd volgens het EM-algoritme geeft een stijgende rij likelihood-waarden p θ0 (X), p θ1 (X), p θ2 (X),.... Bewijs. De dichtheid p θ van (X, Y ) kan worden gefactoriseerd als p θ (x, y) = p Y X θ (y x)p θ (x). De logaritme verandert dit product in een som, en dus geldt dat ( E θi log pθ (X, Y ) X ) ( Y X = E θi log p θ (Y X) X ) + log p θ (X). Omdat de waarde θ i+1 deze functie over θ maximaliseert, is deze uitdrukking in θ = θ i+1 groter dan in θ = θ i. Als we kunnen laten zien dat de eerste term rechts groter is in θ = θ i dan in θ = θ i+1, dan moet voor de tweede term het omgekeerde gelden (en het verschil moet door de tweede term worden goedgemaakt), zodat (4.3) geldt. Het is dus voldoende te laten zien dat E θi ( log p Y X θ i+1 (Y X) X ) E θi ( log p Y X θ i (Y X) X ). Deze ongelijkheid is van de vorm log(q/p) dp 0 voor p en q de voorwaardelijke dichtheid van Y gegeven X onder, respectievelijk, θ i en θ i+1. Omdat log x x 1 voor iedere x 0, geldt voor ieder paar kansdichtheden p en q dat log(q/p) dp (q/p 1) dp = p(x)>0 q(x) dx 1 0. Dit impliceert het voorgaande display, waarmee het bewijs is voltooid.
33 76 4: Schatters Voorbeeld 4.27 (Mengsel verdelingen). Veronderstel dat een aantal objecten of individuen in principe gegroepeerd kan worden in min of meer homogene clusters. De cluster labels zelf nemen we helaas niet waar, maar in plaats daarvan meten we voor ieder object een vector x i. Op grond van de waarnemingen x 1,..., x n willen we de clustering van de objecten vinden. We zouden kunnen aannemen dat iedere waarneming x i de realisatie van een stochastische vector X i is, met kansdichtheid f j als het object tot het j e cluster behoort. De kwalificatie min of meer homogeen in de voorgaande alinea kunnen we dan zo opvatten dat de kansdichtheden f 1,..., f k voor de verschillende clusters weinig overlap vertonen. We zullen aannemen dat het aantal clusters k bekend is, hoewel we dit ook met behulp van de data zouden kunnen bepalen. Eén mogelijkheid om de clusters te bepalen is om de likelihood k j=1 i I j f j (X i ) te maximaliseren over alle partities (I 1,..., I k ) van {1,..., n} in k deelverzamelingen en over alle onbekende parameters in de dichtheden f j. De partitie geeft dan de clustering. Nemen we bijvoorbeeld voor f j de normale dichtheid met verwachtingsvector µ j, dan leidt dit tot k-means clustering: de beste klasse-indeling wordt gegeven door de partitie die min (µ 1,...,µ k ) R k k j=1 i I j X i µ j 2 minimaliseert. Dit is computationeel geen eenvoudig probleem, maar de clusters kunnen worden benaderd door een iteratief algoritme. Een andere mogelijkheid is om aan te nemen dat ieder object aselect is toegewezen aan één van de clusters (door de natuur ). We kunnen dan spreken over een stochastische vector (C 1,..., C n ), welke de cluster labels geeft (C i = j als het i e object tot cluster j behoort), en vatten de dichtheid f j op als de voorwaardelijke kansdichtheid van X i gegeven dat C i = j. De klassenvector (C 1,..., C n ) wordt niet waargenomen. Als we aannemen dat (C 1, X 1 ),..., (C n, X n ) onafhankelijke identiek verdeelde vectoren zijn met P(C i = j) = p j voor j = 1,..., k, dan kunnen we de maximum likelihoodschatter voor de parameters p = (p 1,..., p k ) en de onbekende parameters in f = (f 1,..., f k ) bepalen met het EM algoritme. De volledige data bestaat uit (C 1, X 1 ),..., (C n, X n ). De corresponderende likelihood-functie is (p, f) n j=1 k ( pj f j (X i ) ) 1{C i=j}.
34 4.3: Maximum Likelihood-Schatters 77 De M-stap van het EM-algoritme is daarom het berekenen van E p, f ( log n j=1 = k ( pj f j (X i ) ) ) 1{C i =j} X1,..., X n n k j=1 E p, f ( (log pj + log f j (X i ) ) 1{C i = j} X i ). Met behulp van de regel van Bayes vinden we de voorwaardelijke kansdichtheid van C i gegeven X i als P(C i = j X i = x) = p j f j (x)/ c p cf c (x). De uitdrukking in het voorgaande display is derhalve gelijk aan k log p j j=1 n p j fj (X i ) c p f c c (X i ) + k j=1 n p j fj (X i ) log f j (X i ) c p f c c (X i ). In de M-stap van het EM-algoritme maximaliseren we deze uitdrukking over p en f. Voor de maximalisatie over p is alleen de eerste term van belang. Argumenten uit de calculus laten zien dat het maximum wordt aangenomen voor p j = 1 n p j fj (X i ) n c p f c c (X i ). Voor de maximalisatie over f is alleen de tweede term van belang. Bovendien maximaliseren we ieder van de j termen afzonderlijk over f j als de parameters f 1,..., f k onafhankelijk van elkaar variëren: f j maximaliseert in dat geval n p j fj (X i ) f j log f j (X i ) c p f c c (X i ). Kiezen we voor f j bijvoorbeeld de normale dichtheid met verwachtingsvector µ j, zodat log f j (x) op een constante na gelijk is aan 1 2 x µ j 2, en maximaliseren naar µ j, dan vinden we µ j = n α ix i n α, α i = p f j j (X i ) i c p f c c (X i ). Dit is een gewogen gemiddelde van de waarnemingen X i, waarbij de gewichten gelijk zijn aan de voorwaardelijke kans α i = P p, f (C i = j X i ) dat het i e object tot de j e klasse behoort, berekend volgens de huidige schatting ( p, f) van de parameters. Deze updatingformules itereren we nu herhaaldelijk totdat het resultaat nog nauwelijks wijzigt. Uit de maximum likelihood-schattingen van de parameters vinden we ook een maximum likelihood-schatting van de kans P p,f (C i = j X i ) dat het i e object tot cluster j behoort. We zouden het object kunnen toewijzen aan het cluster waarvoor deze kans het grootst is.
35 78 4: Schatters 4.4 Momentenschatters De methode van de momenten is een alternatief voor de maximum likelihood-methode. Omdat de momentenmethode vaak niet de volledige informatie uit het statistische model gebruikt, zijn momentenschatters vaak minder efficiënt dan maximum likelihood-schatters. Aan de andere kant is de methode soms makkelijker te implementeren. Bovendien vereist de methode alleen de theoretische vorm van de momenten en niet de gehele kansverdeling van de waarnemingen. Aangezien deze momenten vaak gemakkelijker op een realistische manier zijn te modelleren dan de hele kansverdeling, kan dit een groot voordeel zijn. Het gebruik van een verkeerd model om schatters te construeren kan daardoor worden voorkomen. Het j e moment van een stochastische variablele is gedefinieerd als E(X j ), mits deze verwachting bestaat. Op basis van onderling onafhankelijke en identiek verdeelde X 1,..., X n kan het j e moment geschat worden met het j e steekproefmoment X j = n 1 n Xj i. Bij de methode van de momentenschatters schatten we de parameter θ door vergelijkingen van de volgende vorm op te lossen naar θ: E θ X j i = Xj, j = 1,..., k. Hierin wordt k zo laag mogelijk gekozen. Voor een eendimensionale parameter θ volstaat k = 1, mits de verwachtingswaarde van de marginale verdeling afhangt van θ. In dat geval wordt het eerste moment dus geschat met het steekproefgemiddelde en wordt ˆθ vervolgens zodanig gekozen dat dit eerste moment in verwachting gelijk is aan het steekproefgemiddelde onder ˆθ. Wanneer het eerste moment niet afhangt van θ of θ een hoger dimensionale parameter is, wordt k > 1 zo laag mogelijk gekozen, onder de voorwaarde dat de vergelijkingen oplosbaar zijn naar θ. De momentenschatter voor g(θ) met g: Θ H een functie met bereik H is gedefinieerd als g(ˆθ) met ˆθ de momentenschatter voor θ. Voorbeeld 4.28 (Exponentiële verdeling). Veronderstel dat X 1,..., X n een steekproef is uit een exponentiële verdeling met onbekende parameter λ. Dan is E λ X i = 1/λ. De momentenschatter van λ wordt nu gevonden door de vergelijking X = 1/λ op te lossen naar λ. Dit geeft ˆλ = 1/X als momentenschatter voor λ. Deze schatter is ook de maximum likelihoodschatter voor λ (zie Voorbeeld 4.15). Voorbeeld 4.29 (Homogene verdeling). Veronderstel dat X 1,..., X n een steekproef uit de hom[0, θ]-verdeling is met onbekende parameter θ. Dan is E θ X i = θ/2 en de momentenschatter voor θ is gelijk aan ˆθ = 2X. De maximum likelihood-schatter voor θ is gelijk aan X (n) (zie Voorbeeld 4.12). In Voorbeeld 4.5 hebben we gezien dat de verwachte kwadratische fout van X (n) kleiner is dan die van 2X.
36 4.4: Momentenschatters 79 Voorbeeld 4.30 (Normale verdeling). Veronderstel dat X 1,..., X n een steekproef uit de N(0,σ 2 )-verdeling is met onbekende parameter σ 2 > 0. Dan is E σ 2X i = 0 en dus is het eerste moment niet bruikbaar voor het bepalen van de momentenschatter voor σ 2. Het tweede moment van X i is gelijk aan E σ 2Xi 2 = σ 2. De momentenschatter voor σ 2 is dan gelijk aan ˆσ 2 = X 2. Als de verwachting van X i onbekend of ongelijk aan nul was geweest, dan hadden we een andere momentenschatter voor σ 2 gevonden (zie Voorbeeld 4.32). Voorbeeld 4.31 (Gamma-verdeling). Veronderstel dat X 1,..., X n de Gamma-verdeling met onbekende vorm- en inverse schaalparameter α en λ hebben. Dan is E α,λ X i = α/λ en var α,λ X i = α/λ 2, en dus is het tweede moment gelijk aan E α,λ X 2 i = var X i+(ex i ) 2 = α(1+α)/λ 2. De momentenschatters voor α en λ worden gevonden uit het oplossen van de volgende twee vergelijkingen naar α en λ. Dit geeft ˆα = E α,λ X i = α/λ = X E α,λ X 2 i = α(1 + α)/λ 2 = X 2 (X) 2 X 2 (X) 2 en ˆλ = X X 2 (X) 2. Het berekenen van de maximum likelihood-schatters voor α en λ is lastig (zie Voorbeeld 4.19), omdat er geen expliciete uitdrukkingen voor de schatters bestaan. Hierboven zijn daarentegen voor de momentenschatters voor α en λ wel expliciete uitdrukkingen afgeleid. Voorbeeld 4.32 (Verwachting en variantie). Zij X 1,..., X n een steekproef met verwachting µ en variantie σ 2. Het oplossen van µ en σ 2 uit de vergelijkingen E µ,σ 2X i = µ = X, E µ,σ 2X 2 i = µ 2 + σ 2 = X 2, geeft de momentenschatters voor µ en σ 2 : ˆµ = X, ˆσ 2 = X 2 (X) 2 = 1 n n (X i X) 2. Als de onderliggende verdeling N(µ, σ 2 ) is, dan zijn bovenstaande momentenschatters gelijk aan de maximum likelihood-schatters voor µ en σ 2 (zie Voorbeeld 4.17).
37 80 4: Schatters * Gegeneraliseerde Momentenschatters De methode van de momentenschatters kan op verschillende manieren worden gegeneraliseerd. Zo kunnen we in plaats van de steekproefmomenten n 1 n Xj i, gemiddelden van het type n 1 n g(x i) gebruiken voor geschikt gekozen functies g. Het is verder niet nodig dat de waarneming X een steekproef is, en we kunnen ook algemene functies van X gebruiken in plaats van gemiddelden. De essentie is het oplossen van een stelsel vergelijkingen van het type g(x) = e(θ) voor geschikt gekozen functies en e(θ) = E θ g(x). Is de parameter k-dimensionaal, dan ligt het voor de hand om k vergelijkingen te gebruiken voor de definitie van de momentenschatter. De vraag rijst dan: welke functies? In feite reduceert de methode der momenten de waarnemingen eerst tot de waarden van k functies van die waarnemingen, en de momentenschatter is gebaseerd op deze gereduceerde data. Als de oorspronkelijke data niet uit de k waarden zijn te reconstrueren, leidt deze reductie tot een verlies van informatie. De keuze van de gebruikte functies is daarom van belang voor de efficiëntie van de resulterende schatters. Een mogelijke uitweg voor dit verlies aan informatie is om meer momenten te gebruiken dan onbekende parameters. Omdat dit leidt tot meer vergelijkingen dan onbekenden, zal het in dat geval meestal niet mogelijk zijn een parameterwaarde te vinden waarvoor de steekproefmomenten exact gelijk zijn aan de theoretische momenten. We zouden in plaats daarvan een afstandsmaat tussen deze twee typen momenten kunnen minimaliseren, bijvoorbeeld een uitdrukking van de vorm l ( 1 n 2. g j (X i ) E θ g j (X 1 )) n j=1 De functies g 1,..., g l zijn bekende, vast gekozen functies. De schatter ˆθ is de waarde van θ waarvoor deze uitdrukking minimaal is. Deze methode staat bekend (vooral in de Econometrie) als de generalized method of moments. 4.5 Bayes-schatters De methode van Bayes is de oudste methode voor het construeren van schatters, gesuggereerd door Thomas Bayes aan het eind van de 18 e eeuw. De methode is omgeven door een filosofie aangaande de beste manier om onzekerheid uit te drukken. Deze filosofie (in zijn strikte vorm) heeft als uitgangspunt dat het statistische model geen unieke parameterwaarde bevat die correspondeert met de ware toestand van de werkelijkheid. Iedere parameterwaarde bezit echter een waarschijnlijkheid, die zo nodig op een subjectieve, persoonlijke manier kan worden vastgesteld. Op dit subjectieve
38 4.5: Bayes-schatters 81 element wordt veel kritiek geuit. Bayesiaanse methoden in een meer objectieve zin zijn echter breed geaccepteerd en kennen sinds de jaren 90 van de vorige eeuw een grote populariteit, omdat aanvankelijke problemen met de berekeningen nu kunnen worden opgelost met computersimulatie (zie Paragraaf 4.5.1). Een volledig Bayesiaanse handelswijze begint met de specificatie van een zogenaamde a priori kansverdeling op de parameterverzameling Θ, in aanvulling op de specificatie van een statistisch model (of likelihoodfunctie). Deze kansverdeling wordt vervolgens aangepast aan beschikbare data door middel van een toepassing van de regel van Bayes uit de kansrekening. Deze aangepaste kansverdeling heet de a posteriori kansverdeling. We zullen de methode van Bayes allereerst beschrijven als een methode om schatters te construeren, en zullen dit updatingmechanisme van de kansverdeling nader beschrijven in Paragraaf Bayes-schatters worden geconstrueerd uitgaande van een a priori kansverdeling op de parameterverzameling Θ. Deze kansverdeling wordt gekozen op grond van ad hoc argumenten, dan wel als een uitdrukking van de a priori, zo nodig subjectieve inschatting van de waarschijnlijkheid van de verschillende parameterwaarden. De noodzaak van het kiezen van een a priori verdeling wordt aan de ene kant vaak als een zwakte van de methode van Bayes-schatters gezien, maar is anderzijds zeer aantrekkelijk voor het genereren van een grote collectie schatters: voor iedere a priori verdeling vinden we een andere schatter. De volledige-klassenstelling (Engels: complete class theorem) laat zelfs zien dat, onder bepaalde voorwaarden, alle toelaatbare schatters willekeurig dicht benaderd kunnen worden door Bayes-schatters. Deze stelling zullen we hier niet behandelen. Voor het gemak nemen we de a priori verdeling continu met dichtheid π, een willekeurige kansdichtheid op Θ. Het Bayes-risico van een schatter T voor een reëelwaardige parameter g(θ) is gedefinieerd als het gewogen gemiddelde van de MSE(θ; T ), gewogen volgens π, ( ) 2 R(π; T ) = E θ T g(θ) π(θ) dθ. Dit is een maat voor de kwaliteit van de schatter T, die meer gewicht toekent aan de waarden θ die a priori waarschijnlijker worden geacht. De Bayes-schatter is gedefinieerd als de beste volgens dit kwaliteitscriterium. Het doel is nog steeds een schatter te vinden waarvoor de MSE(θ; T ) voor alle θ klein is, maar het doel wordt concreet gemaakt door de verschillende waarden van θ te wegen. Definitie De Bayes-schatter ten opzichte van de a priori dichtheid π is die schatter T die R(π; T ) minimaliseert over alle schatters T. Schrijven we x p θ (x) voor de kansdichtheid van X, dan kunnen we de Bayes-schatter uitdrukken als een quotiënt van twee integralen. Terwijl
39 82 4: Schatters de maximum likelihood-schatter is gedefinieerd als de plaats van het maximum van de likelihood-functie, is een Bayes-schatter een soort gewogen gemiddelde van deze functie. Stelling De Bayes-schatting voor g(θ) met betrekking tot de a priori dichtheid π wordt gegeven door g(θ)pθ (x) π(θ) dθ T (x) =. pθ (x) π(θ) dθ De Bayes-schatting is dus afhankelijk van zowel de likelihood-functie θ p θ (x) als de a priori dichtheid π. Voorbeeld 4.35 (Exponentiële verdeling). Veronderstel dat de waarneming X = (X 1,..., X n ) een steekproef is uit de exponentiële verdeling met onbekende parameter θ. Als a priori verdeling voor θ nemen we eveneens de exponentiële verdeling, maar nu met bekende parameter λ. De Bayesschatting T λ (x) voor θ gebaseerd op x = (x 1,..., x n ) en ten opzichte van de gegeven a priori verdeling, is 0 ( n 0 θe θx i θ ( n i) θe θx λe λθ dθ ) λe λθ dθ = θ n+1 λe θ(λ+ n 0 0 xi) dθ θ n λe θ(λ+ n xi) dθ Het expliciet uitrekenen van de integralen in de teller en noemer van deze breuk is niet de handigste manier om T λ (x) te bepalen. We zullen zien dat dit makkelijker wordt door eerst de a posteriori dichtheid te bepalen, zie Voorbeeld In dat voorbeeld wordt afgeleid dat T λ (x) = (n + 1)/(λ + n x i) de Bayes-schatting is. De Bayes-schatter voor θ is dus gelijk aan T λ (X) = (n + 1)/(λ + n X i). Voor grote waarden van n zijn de Bayesschatter T λ (X) en de maximum likelihood-schatter ˆθ = 1/X ongeveer aan elkaar gelijk. Het bewijs van Stelling 4.34 is een oefening in het manipuleren van voorwaardelijke verdelingen. De volgende Bayesiaanse notatie en begrippen zijn daarvoor handig en ook op zichzelf van groot belang. Ze beschrijven de Bayesiaanse methode in een meer omvattend kader, waarbij de zogenaamde a posteriori verdeling het eindpunt van de analyse vormt. Normaal gesproken beschouwen we de parameter θ als deterministisch en is er één ware parameterwaarde die de dichtheid x p θ (x) van de waarneming X bepaalt. Hiervan afwijkend, beschouwen we in deze paragraaf p θ als de voorwaardelijke dichtheid p X Θ=θ van de variabele X gegeven dat een (hypothetische) stochastische grootheid Θ de waarde θ aanneemt. Deze grootheid Θ geven we de (marginale) kansdichtheid π. Dan is de simultane dichtheid van (X, Θ) gelijk aan p X,Θ (x, θ) = p X Θ=θ (x)p Θ (θ) = p θ (x)π(θ)..
40 4.5: Bayes-schatters 83 De marginale dichtheid van X in deze Bayesiaanse setting wordt verkregen door de simultane dichtheid te integreren naar θ en is dus p X (x) = p X,Θ (x, θ) dθ = p θ (x)π(θ) dθ. Derhalve is de voorwaardelijke dichtheid van Θ gegeven dat X = x gelijk aan p Θ X=x (θ) = p X,Θ (x, θ) = p θ(x)π(θ) p X (x) pθ (x)π(θ) dθ. (Deze formule is precies de regel van Bayes uit de kansrekening, zie Paragraaf 9.5.) Deze dichtheid heet de a posteriori dichtheid van Θ. De term in de noemer is slechts een normeringsconstante zodat p Θ X=x (θ) dθ = 1. Voordat de waarneming bekend was, kenden we aan Θ de a priori dichtheid π toe. Nadat de waarneming bekend is geworden, geeft de a posteriori dichtheid de herziene kansverdeling. De waarneming leidt zo tot het aanpassen van onze a priori gedachten over de parameter. Deze berekeningen tonen aan dat de uitdrukking T (x) in Stelling 4.34 precies de verwachting van g(θ) onder de a posteriori kansverdeling is, de voorwaardelijke verwachting van g(θ) gegeven dat X = x. We kunnen deze stelling daarom als volgt herformuleren. Stelling Met gebruikmaking van Bayesiaanse notatie wordt de Bayes-schatting voor g(θ) met betrekking tot de a priori dichtheid π gegeven door T (x) = E ( g(θ) X = x ) = g(θ)p Θ X=x (θ) dθ. Bewijs. Allereerst schrijven we het Bayes-risico in Bayesiaanse notatie. De term E θ ( T g(θ) ) 2 in de gewone notatie is de voorwaardelijke verwachting E [( T (X) g(θ) ) 2 Θ = θ ] in de Bayesiaanse notatie. Daaruit kunnen we afleiden dat ( (T ) ) 2 R(π; T ) = E (X) g(θ) Θ = θ π(θ) dθ = E ( T (X) g(θ) ) 2 ( (T ) ) 2 = E (x) g(θ) X = x p X (x) dx. In bovenstaande is de rekenregel voor decompositie van verwachtingen EZ = E(Z Y = y) f Y (y) dy met Z = ( T (X) g(θ) ) 2 tweemaal gebruikt: in de tweede gelijkheid met Y = Θ en in de derde met Y = X.
41 84 4: Schatters Om R(π; T ) te minimaliseren naar T kunnen we voor iedere x de integrand minimaliseren, omdat de integrand overal niet-negatief is. We zoeken daarom voor iedere x het getal t = T (x) zodanig dat ( (t ) ) 2 E g(θ) X = x p X (x) minimaal is. Omdat voor een gegeven x de term p X (x) een niet-negatieve constante is, is het minimaliseren van bovenstaande integrand naar t equivalent met het minimaliseren van ( (t ) ) 2 E g(θ) X = x naar t. Daarom kan voor iedere x het getal t = T (x) worden gevonden door de laatste uitdrukking te minimaliseren. Nu geeft het minimaliseren van E(Y t) 2 naar t de waarde t = EY, het minimum van de parabool t E(t Y ) 2 = t 2 2t EY + EY 2. Hier moeten we dit principe toepassen met een stochastische grootheid Y die verdeeld is volgens de voorwaardelijke verdeling van g(θ) gegeven X = x, en vinden dus t = E ( g(θ) X = x ), ofwel de Bayes-schatting wordt gegeven door T (x) = E ( g(θ) X = x ). Voorbeeld 4.37 (Exponentiële verdeling, vervolg). Veronderstel dat de waarneming X = (X 1,..., X n ) een steekproef is uit de exponentiële verdeling met onbekende parameter θ en dat de a priori dichtheid voor θ de exponentiële verdeling is met bekende parameter λ. In Voorbeeld 4.35 staat een uitdrukking gegeven voor de Bayes-schatting voor θ. Door eerst de a posteriori verdeling te bepalen, kunnen we Bayes-schatting gemakkelijker expliciet bepalen. De a posteriori verdeling wordt gegeven door ( n ) θ p Θ X=x (θ) = θe θxi λe λθ ( n ) 0 θe θx i λe λθ dθ = 0 θ n λe θ(λ+ n xi) θ n λe θ(λ+ n xi) dθ = θn e θ(λ+ n xi) C(x, λ) waar C(x, λ) een normeringsconstante is, afhankelijk van x = (x 1,..., x n ) en λ, zodat p Θ X=x een dichtheid is. In deze a posteriori verdeling herkennen we de Gamma-verdeling met vormparameter n + 1 en inverse schaalparameter gelijk aan λ + n x i. In het algemeen is de verwachtingswaarde behorende bij de Gamma-verdeling met vormparameter α en inverse schaalparameter λ gelijk aan α/λ (zie Voorbeeld 9.13). De Bayes-schatting voor θ is de verwachtingswaarde van de a posteriori verdeling en is dus gelijk aan T λ (x) = (n + 1)/(λ + n x i), en de bijbehorende Bayes-schatter is T λ (X) = (n + 1)/(λ + n X i). Op analoge wijze vinden we de Bayes-schatter voor θ 2. Deze is volgens Stelling 4.36 gelijk aan het tweede moment van de a posteriori verdeling, in
42 4.5: Bayes-schatters 85 dit geval de Gamma-verdeling met vormparameter n+1 en inverse schaalparameter λ + n x i. Het tweede moment van een Gamma(α,λ)-verdeelde stochastische grootheid is gelijk aan α/λ 2 + (α/λ) 2 = (α + 1)α/λ 2. De Bayes-schatter voor θ 2 is hier dus gelijk aan (n + 2)(n + 1)/(λ + n X i) 2. Voorbeeld 4.38 (Binomiale verdeling). Veronderstel dat de waarneming X de binomiale verdeling met parameters n en θ bezit, waarin n bekend en 0 θ 1 onbekend is. Een handige klasse van a priori dichtheden op [0, 1] is de klasse van Bèta-dichtheden, geparametriseerd door α en β (zie Voorbeeld 9.14) π(θ) = θα 1 (1 θ) β 1 1 [0,1] (θ). B(α, β) Wanneer we als a priori verdeling voor Θ de Bèta-verdeling met parameters α en β nemen, dan wordt de a posteriori dichtheid gegeven door ( n ) x θ x (1 θ) n x π(θ) p Θ X=x (θ) = ) θx (1 θ) n x π(θ) dθ = θx+α 1 (1 θ) n x+β 1, C(x, α, β) 1 0 ( n x met C(x, α, β) een normeringsconstante zodanig dat p Θ X=x een dichtheid is. Met andere woorden: de a posteriori verdeling van Θ is de Bèta-verdeling met parameters x + α, n x + β en met C(x, α, β) = B(x + α, n x + β) voor B de Bèta-functie. Figuur 4.11 laat tweemaal drie realisaties zien van de a posteriori dichtheid. In alle gevallen is de ware parameterwaarde gelijk aan θ = 1 2 en de a priori dichtheid (gestippelde curve in de figuur) de Bèta-dichtheid met parameters α = 25 en β = 5. In het bovenste plaatje is n = 20, terwijl in het onderste plaatje n = 100. De a priori dichtheid geeft relatief veel kans aan waarden van Θ in de buurt van 1, en is daarom ongunstig voor het schatten van de ware parameterwaarde θ = 1 2. De figuren laten zien dat deze verkeerde a priori dichtheid goed wordt gecorrigeerd als voldoende data beschikbaar is, maar doorwerkt in de a posteriori dichtheid als dit niet het geval is. De Bayes-schatting voor θ is nu gegeven door de verwachtingswaarde behorende bij de Bèta-verdeling met parameters x + α en n x + β. In het algemeen is de verwachtingswaarde behorende bij de Bèta-verdeling met parameters α en β gelijk aan α/(α+β), waaruit volgt dat de Bayes-schatter voor θ gelijk is aan T α,β (X) = X + α n + α + β. Voor iedere combinatie van parameters (α, β) met α > 0 en β > 0 vinden we een andere schatting. De natuurlijke schatter X/n behoort niet tot de klasse van Bayes-schatters, maar is het limietgeval (α, β) (0, 0). Welke schatter moeten we nu gebruiken? Als we sterke gevoelens hebben aangaande een a priori verdeling, dan kunnen we de bijhorende
43 86 4: Schatters Figuur Drie realisaties van de a posteriori dichtheid in de gevallen n = 20 (boven) en n = 100 (onder). De a priori dichtheid (gestippeld) is in beide gevallen gelijk aan de Bètadichtheid met α = 25 en β = 5. De realisaties (doorgetrokken) zijn gebaseerd op trekkingen uit de binomiale verdeling met parameters n en 1 2. Bayes-schatter gebruiken. Een probleem is dat een andere onderzoeker heel andere gevoelens zou kunnen hebben en zodoende tot een andere a priori verdeling, en dus een andere schatting, zou komen. Op zich zijn geen van beide Bayes-schatters verkeerd. Beide schatters zijn immers het beste op het moment dat we zouden besluiten het corresponderende Bayes-risico als kwaliteitscriterium te nemen. Toch is het verstandig de schatters nader te vergelijken, bijvoorbeeld door de verwachte kwadratische fouten te berekenen. Deze zijn gelijk aan ( X + α ) 2 MSE(θ; T α,β ) = E θ n + α + β θ = var θ X ( (n + α + β) 2 + Eθ X + α ) 2 n + α + β θ = θ2( (α + β) 2 n ) + θ(n 2α(α + β) ) + α 2 (n + α + β) 2. Figuur 4.12 geeft een schets van de verwachte kwadratische fout van enkele schatters als functie van θ. Iedere schatter is wel ergens beter dan een andere, en is er geen absoluut beste schatter. Interessante speciale gevallen
44 4.5: Bayes-schatters 87 zijn α = β = 1 2 n (constante verwachte kwadratische fout) en α = β = 0 (schatter X/n). De keuze α = β = 1 correspondeert met de homogene a priori verdeling, die alle θ [0, 1] a priori dezelfde kans geeft. Dat laatste lijkt redelijk, maar deze schatter wordt toch zelden gebruikt. Gelukkig zijn de verschillen klein als n groot is, en verdwijnen zelfs als n. Merk op dat in de onderste grafiek (corresponderend met n = 100) in Figuur 4.11 de drie realisaties van de a posteriori verdeling dichter bij de ware waarde 1/2 liggen, maar ook meer geconcentreerd zijn. De a posteriori dichtheden ogen verrassend normaal. We komen hierop terug in Paragraaf 6.6, waar we ook zullen zien dat Bayes- en maximum likelihood-schatters meestal weinig verschillen als het aantal waarnemingen groot is Figuur Verwachte kwadratische fout van de Bayes-schatters T α,β met n = 20, α = β = 1 2 n (constant), α = β = 0 (krom, doorgetrokken), α = n, β = 0 (gestreept, lineair), α = β = 1 (kort gestreept) als functie van θ. Voorbeeld 4.39 (Geometrische verdeling). Veronderstel dat de waarneming X = (X 1,..., X n ) een steekproef is uit de geometrische verdeling met parameter θ, P θ (X 1 = x) = (1 θ) x 1 θ, x = 1, 2,..., waarbij 0 θ 1 onbekend is. Als a priori verdeling voor θ kiezen we de Bèta-verdeling met parameters α = β = 2 met kansdichtheid π(θ) = 6(1 θ)θ, θ (0, 1). Dan wordt de a posteriori verdeling gegeven door n p Θ X=x (θ) = P θ(x i = x i )π(θ) n P θ(x i = x i )π(θ) dθ = θn+1 (1 θ) n(x 1)+1. C(x 1,..., x n ) 1 0
45 88 4: Schatters In deze a posteriori verdeling van θ herkennen we de Bèta-verdeling met parameters n+2 en n(x 1)+2. Net als in het voorgaande voorbeeld vinden we nu de Bayes-schatter voor θ uit de verwachting van de Bèta-verdeling, T (X) = (n + 2)/(nX + 4). * MCMC Methoden Het principe van de methode van Bayes is eenvoudig: uitgaande van een model en een a priori verdeling berekenen we de a posteriori verdeling met behulp van de regel van Bayes. Het rekenwerk in de laatste stap is echter niet altijd eenvoudig. Traditioneel worden vaak a priori verdelingen gekozen die het rekenwerk voor het gegeven model vereenvoudigen. De combinatie van de binomiale verdeling met de Bèta a priori verdeling is daarvan een voorbeeld. Meer recent vervangt men het analytische rekenwerk wel door stochastische simulatie, zogenaamde Markov Chain Monte Carlo (of MCMC) methoden. In principe is het met dergelijke methoden mogelijk een willekeurige a priori verdeling te combineren met een gegeven statistisch model. In deze paragraaf geven we een zeer beknopte introductie tot deze methoden. Gegeven een waarneming X, met realisatie x, met kansdichtheid p θ en een a priori dichtheid π, is de a posteriori dichtheid proportioneel aan de functie θ p θ (x)π(θ). In de meeste gevallen is het makkelijk om deze uitdrukking te berekenen, omdat deze functie direct gerelateerd is aan de specificatie van het statistische model en de a priori verdeling. Om de Bayes-schatter of de a posteriori verdeling te berekenen, is het echter nodig de integraal van de functie in het display en de integraal van θ maal de functie relatief ten opzichte van θ, voor gegeven x, te evalueren. Het feit dat dit lastig kan zijn, heeft de populariteit van Bayes-schatters geen goed gedaan. Het is weinig attractief gedwongen te zijn tot een bepaalde a priori dichtheid om wille van de eenvoud van de berekeningen. Als de parameter θ laagdimensionaal is, bijvoorbeeld reëelwaardig, dan is het redelijk recht-toe recht-aan om de berekeningen numeriek te implementeren, bijvoorbeeld door de integralen te benaderen met sommen. Voor hogerdimensionale parameters, bijvoorbeeld van dimensie groter dan of gelijk aan 4, zijn de problemen groter. Simulatie methoden hebben deze problemen sinds 1990 verzacht. MCMC methoden zijn een algemene procedure voor het simuleren van een Markov keten Y 1, Y 2,... waarvan de marginale verdelingen ongeveer gelijk zijn aan de a posteriori verdeling. Voordat we de MCMC algoritmen beschrijven, bespreken we in de volgende alinea s enkele essentiële begrippen uit de theorie van de Markov ketens. Een Markov keten is een rij Y 1, Y 2,... stochastische grootheden waarvan de voorwaardelijke verdeling van Y n+1 gegeven de voorgaande grootheden Y 1,..., Y n alleen van Y n afhangt. Een equivalente formulering is dat
46 4.5: Bayes-schatters 89 gegeven de huidige variabele Y n de toekomstige variabele Y n+1 onafhankelijk is van het verleden Y 1,..., Y n 1. We kunnen de variabele Y n dan zien als de toestand op het tijdstip n, en voor het simuleren van de volgende toestand Y n+1 is het voldoende de huidige toestand Y n te kennen, zonder interceptie van de voorgaande toestanden te kennen. We zullen alleen Markov ketens beschouwen die tijd-homogeen zijn. Dit wil zeggen dat de voorwaardelijke verdeling van Y n+1 gegeven Y n niet afhangt van n, zodat de overgang van de ene toestand naar de volgende toestand steeds volgens hetzelfde mechanisme plaats vindt. Het gedrag van de keten wordt dan volledig bepaald door de overgangskern Q gegeven door Q(y, B) = P(Y n+1 B Y n = y). Voor een vaste y geeft B Q(B y) de kansverdeling op het volgende tijdstip gegeven de huidige toestand y. Vaak wordt Q gegeven door een overgangsdichtheid q. Dit is de voorwaardelijke dichtheid van Y n+1 gegeven Y n en voldoet aan Q(y, B) = q(y, z) dz, waarbij de integraal moet worden B vervangen door een som in het discrete geval. Een kansverdeling Π heet een stationaire verdeling voor de overgangskern Q als, voor iedere eventualiteit B, Q(y, B) dπ(y) = Π(B). Deze vergelijking zegt precies dat de stationaire verdeling behouden blijft onder de overgang van Y n naar Y n+1. Bezit Y 1 de stationaire verdeling, dan bezit ook Y 2 de stationaire verdeling, etc. Als Q een overgangsdichtheid q bezit en Π een dichtheid π (die dan stationaire dichtheid wordt genoemd), dan is een equivalente vergelijking q(y, z) π(y) dy = π(z). Deze laatste vergelijking geeft een eenvoudige manier om stationaire verdelingen te karakteriseren. Een dichtheid π is een stationaire dichtheid als voldaan is aan de detailed balance relatie π(y)q(y, z) = π(z)q(z, y). Deze relatie eist dat een overgang van y naar z even waarschijnlijk is als een overgang van z naar y, als in beide gevallen het startpunt een random punt is gekozen volgens π. Een Markov keten met deze eigenschap wordt reversibel genoemd. Dat de detailed balance relatie impliceert dat π een stationaire dichtheid is, kan worden gezien door de beide kanten van de relatie naar y te integreren, en gebruik te maken van de gelijkheid q(z, y) dy = 1, voor iedere z. De MCMC algoritmen genereren een Markov keten met een overgangskern waarvan de stationaire dichtheid gelijk is aan de a posteriori verdeling, met de waargenomen waarde x vast genomen. De dichtheid y π(y)
47 90 4: Schatters in de voorgaande algemene discussie van Markov ketens wordt in de toepassing op het berekenen van de a posteriori dichtheid dus vervangen door de dichtheid die proportioneel is aan θ p θ (x)π(θ). Gelukkig is in de simulatie schema s de proportionaliteits constante onbelangrijk. Omdat het meestal lastig is de eerste waarde Y 1 van de keten te genereren volgens de stationaire dichtheid (= a posteriori dichtheid) is een MCMC Markov keten meestal niet stationair. Wel convergeert de keten naar stationariteit als n. In de praktijk simuleert men de keten over een groot aantal stappen, en gooit vervolgens de eerste gesimuleerde data Y 1,..., Y b weg, de zogenaamde burn-in. De resterende variabelen Y b+1, Y b+2,..., Y B kunnen dan worden opgevat als een realisatie van een Markov keten met de a posteriori verdeling als stationaire verdeling. Door middel van bijvoorbeeld een histogram van Y b+1,..., Y B verkrijgen we dan een goede indruk van de a posteriori dichtheid, en het gemiddelde van Y b+1,..., Y B is een goede benadering van de Bayes-schatter, de a posteriori verwachting. De motivatie voor het gebruik van deze empirische benaderingen is hetzelfde als in Paragraaf 3.2.1, met dit verschil dat de variabelen Y 1, Y 2,... thans een Markov keten vormen, en dus niet onafhankelijk zijn. Voor vele Markov ketens geldt echter ook een Wet van de Grote Aantallen en deze garandeert dat ook nu gemiddelden zich asymptotisch gedragen als verwachtingen. Wel blijkt de snelheid van convergentie sterk af te hangen van de overgangskern, zodat in de praktijk het nog een hele kunst kan zijn om een MCMC algoritme op te zetten dat binnen een redelijke (CPU) tijd goede benaderingen levert. Inmiddels bestaan vele typen MCMC algoritmen. De twee belangrijkste algoritmen, welke vaak ook samen worden gebruikt, zijn het Metropolis- Hastings algoritme en de Gibbs-sampler. Voorbeeld 4.40 (Metropolis-Hastings). Zij q een overgangsdichtheid waarvoor het makkelijk is om te simuleren volgens de kansdichtheid z q(y, z), voor iedere gegeven y. Definieer α(y, z) = π(z)q(z, y) π(y)q(y, z) 1. Merk op dat het voldoende is de vorm van π en q te weten; de proportionaliteits constante valt weg. Neem een vaste beginwaarde Y 0 en handel vervolgens recursief als volgt: gegeven Y n genereer Z n+1 volgens Q(Y n, ). genereer U n+1 volgens de homogene verdeling op [0, 1]. if U n+1 < α(y n, Z n+1 ) laat Y n+1 : = Z n+1 else laat Y n+1 : = Y n. De overgangskern P van de Markov keten Y 1, Y 2,... bestaat uit twee stukken, corresponderend met de if-else splitsing. Deze kern wordt gege-
48 4.5: Bayes-schatters 91 ven door P (y, B) = B ( α(y, z)q(y, z) dz + 1 ) α(y, z)q(y, z) dµ(y) δ y (B). Hierin is δ y de gedenereerde verdeling (Dirac maat) in y: gegeven Y n = y blijven we in y met kans 1 α(y, z)q(y, z) dz. Het andere deel van de keten beweegt volgens de subovergangsdichtheid α(y, z)q(y, z). De functie α is zo gekozen dat het bereik in het interval [0, 1] bevat is en zodanig dat voldaan is aan de detailed balance relatie (4.4) π(y)α(y, z)q(y, z) = π(z)α(z, y)q(z, y). Dit gedeelte van de Markov keten is daarom reversibel. De beweging van y naar y van het eerste deel van de keten is trivialerwijze symmetrisch. Uit deze vaststellingen is gemakkelijk af te leiden dat π een stationaire dichtheid voor de Markov keten Y 1, Y 2,... is. Een populaire keuze voor de overgangsdichtheid q is de random walk kern q(y, z) = f(z y) voor een gegeven dichtheid f. Als we f symmetrisch rond 0 kiezen, dan reduceert α(y, z) tot π(z)/π(y). De keuze van een goede kern is echter niet eenvoudig. Het algemene principe is een overgangskern q te kiezen die bewegingen naar variabelen Z n+1 in de gehele drager van π voorstelt in de eerste stap van het algoritme, en tegelijkertijd niet te vaak tot de else stap leidt, omdat dit de efficiëntie van het algoritme nadelig zou beïnvloeden. In MCMC jargon heet het dat we een overgangskern q zoeken die voldoende mixing is, voldoende de ruimte afzoekt, en niet te vaak blijft hangen. Voorbeeld 4.41 (Gibbs-Sampler). De Gibbs-sampler reduceert het probleem van simuleren uit een hoogdimensionale a posteriori dichtheid tot herhaald simuleren uit lagerdimensionale verdelingen. Het algoritme wordt vaak gebruikt in combinatie met de Metropolis-Hastings sampler, als geen geschikte overgangsdichtheid q voor de Metropolis-Hastings algoritme voor handen is. Veronderstel dat π een dichtheid is afhankelijk van m variabelen, en veronderstel dat we over een procedure beschikken om variabelen te genereren uit ieder van de voorwaardelijke dichtheden π i (x i x 1,..., x i 1, x i+1,...x m ) = π(x) π(x) dµi (x i ). Kies een gegeven beginwaarde Y 0 = (Y 0,1,..., Y 0,m ), en handel vervolgens recursief op de volgende wijze:
49 92 4: Schatters Gegeven Y n = (Y n,1,..., Y n,m ), genereer Y n+1,1 volgens π 1 ( Y n,2,..., Y n,m ). genereer Y n+1,2 volgens π 2 ( Y n+1,1, Y n,3..., Y n,m ) genereer Y n+1,m volgens π m ( Y n+1,1,..., Y n+1,m 1 ).. De coördinaten worden dus om de beurt vervangen door een nieuwe waarde, steeds conditionerend op de laatst beschikbare waarde van de andere coördinaten. Men kan nagaan dat de dichtheid π stationair is voor ieder van de afzonderlijke stappen van het algoritme (zie Opgave 4.40). Voorbeeld 4.42 (Ontbrekende data). Veronderstel dat in plaats van volledige data (X, Y ) we slechts de data X waarnemen. Als (x, y) p θ (x, y) een kansdichtheid van (X, Y ) is, dan is x p θ (x, y) dy een kansdichtheid van de waarneming X. Gegeven een a priori dichtheid π is de a posteriori dichtheid derhalve proportioneel aan θ p θ (x, y) dµ(y) π(θ). We kunnen de voorgaande MCMC algoritmen toepassen op deze a posteriori dichtheid. Als de marginale dichtheid van X (de integraal in het voorgaande display) echter niet analytisch kan worden berekend, dan is het lastig om de MCMC schema s te implementeren. Een alternatief is om de marginale verdeling niet te berekenen, en de niet-waargenomen waarden Y mee te simuleren. In de Bayesiaanse notatie is de a posteriori verdeling de voorwaardelijke verdeling van een denkbeeldige variabele Θ gegeven de waarneming X. Dit is de marginale verdeling van de voorwaardelijke verdeling van het paar (Θ, Y ) gegeven X. Als we in staat zouden zijn een rij variabelen (Θ 1, Y 1 ),..., (Θ n, Y n ) volgens de laatste voorwaardelijke verdeling te genereren, dan zouden de eerste coördinaten Θ 1,..., Θ n van deze rij trekkingen uit de a posteriori verdeling zijn. Marginalizeren van een empirische verdeling is hetzelfde als vergeten van sommige variabelen, en dit is computationeel heel gemakkelijk! Dus kunnen we een MCMC algoritme toepassen om variabelen (Θ i, Y i ) te simuleren uit de kansdichtheid die proportioneel is aan de afbeelding (θ, y) p θ (x, y)π(θ), met x gelijk aan de waargenomen waarde van de waarneming. Vervolgens gooien we de Y -waarden weg.
50 * 4.6 M-Schatters 4.6: M-Schatters 93 Zij M(θ; X) een willekeurige functie van de parameter en de waarneming. Een M-schatter voor een parameter θ is die waarde van θ die de functie θ M(θ; X) maximaliseert (of minimaliseert). Nemen we M gelijk aan de likelihood-functie, dan vinden we de maximum likelihood-schatter voor θ. Er zijn echter tal van andere mogelijkheden. De meest gebruikte criterium-functies bij onafhankelijke waarnemingen X = (X 1,..., X n ) hebben een som-structuur: n M(θ; X) = m θ (X i ), voor geschikt gekozen functies m θ (x). Maximaliseren van een functie is vaak hetzelfde als het oplossen van de vergelijkingen verkregen door een afgeleide 0 te stellen. De term Mschatter wordt daarom ook gebruikt voor schatters die een vergelijking Ψ(θ; X) = 0 oplossen. Zulke vergelijkingen worden schattingsvergelijkingen (Engels: estimating equations) genoemd. Voorbeeld 4.43 (Mediaan). Het gemiddelde X van stochastische grootheden X 1,..., X n minimaliseert de functie θ n (X i θ) 2. Het gemiddelde is een schatting voor het centrum van de kansverdeling van de waarnemingen. Een alternatieve schatter met ruwweg een zelfde interpretatie wordt verkregen door de functie θ n X i θ te minimaliseren. Men kan laten zien dat dit leidt tot de steekproefmediaan { X((n+1)/2), als n oneven, med{x 1,..., X n } = 1 2 (X (n/2) + X (n+2)/2) ), als n even. Dit is de middelste waarneming. Voorbeeld 4.44 (Kleinste kwadratenschatter). In Voorbeeld 2.7 hebben we kort het enkelvoudige lineair regressiemodel beschreven (zie ook Paragraaf 8.1). Voor afhankelijke variabelen Y 1,..., Y n en verklarende variabelen x 1,..., x n is Y i = α+βx i +e i. Veelal wordt verondersteld dat de meetfouten e 1,..., e n onderling onafhankelijk en normaal verdeeld zijn met verwachting 0 en variantie σ 2. De onbekende parameters α en β kunnen worden geschat met de kleinste kwadratenschatters (KK-schatters); dat zijn de waarden die n (Y i α βx i ) 2 minimaliseren naar α en β. Als de meetfouten normaal verdeeld zijn, dan komen de kleinste kwadratenschatters overeen met de maximum likelihoodschatters voor α en β (zie Paragraaf 8.1). De KK-schatters zijn ook bruikbaar zonder de normaliteitveronderstelling. Ze zijn dan geen maximum likelihood-schatters, maar algemene M-schatters.
51 94 4: Schatters Figuur De functie θ Σ n x i θ voor x 1,..., x n een steekproef ter grootte van 4 uit de standaard normale verdeling. Algemener kunnen we de methode van de kleinste kwadraten gebruiken in het niet-lineaire regressie model Y i = g θ (x i ) + e i, waarin g θ een nietlineaire functie is van θ en e 1,..., e n niet-waarneembare meetfouten zijn, en x g θ (x) een functie is die bekend is op een parameter θ na. De KKschatter voor θ minimaliseert het criterium n ( θ Yi g θ (x i ) ) 2. Als de meetfouten normaal verdeeld zijn, dan is dit ook de maximum likelihood-schatter. Voor een niet-lineaire functie g θ is meestal een numeriek algoritme noodzakelijk voor de berekening van de kleinste kwadratenschatting. Een voorbeeld van niet-lineaire regressie is het fitten van een tijdscurve wanneer waarnemingen y 1,..., y n, inclusief meetfouten, van de curve op een aantal tijdstippen x 1,..., x n bekend zijn. Als een geparametriseerde curve van de vorm t g θ (t), bijvoorbeeld g θ (t) = θ 0 + θ 1 t + θ 2 e θ3t, met vierdimensionale parameter θ = (θ 0, θ 1, θ 2, θ 3 ), dan kunnen we de parameter θ schatten op grond van de metingen (x i, y i ), i = 1,..., n. Opgaven 1. Geef een theoretisch verklaring voor de vorm van de histogrammen (exponentieel en normaal) in Figure 4.1.
52 4: Opgaven Veronderstel dat X 1,..., X n onderling onafhankelijk en hom[0, θ]-verdeeld zijn, met θ > 0 onbekend. Bereken de verwachte kwadratische fouten van de schatters cx (n) voor θ, voor iedere waarde van c > 0. Welke waarde voor c geeft de beste schatter? 3. Zij X binomiaal verdeeld met parameters n en p met n bekend en p [0, 1] onbekend. Zij T c = cx/n een schatter voor p, waarin c > 0 nog onbepaald is. (i) Voor welke waarde van c is T c zuiver? (ii) Bepaal de verwachte kwadratische fout van T c. (iii) Voor welke waarde van c is deze schatter optimaal? Is deze optimale schatter bruikbaar in de praktijk? Leg uit. (iv) Bepaal de limiet van de optimale waarde voor c voor n. Welke schatter T c krijg je dan? 4. Zij X 1,..., X n een steekproef uit de Poisson(θ)-verdeling. Men wenst θ 2 te schatten. (i) Is (X) 2 een zuivere schatter voor θ 2? (ii) Bepaal een zuivere schatter voor θ Zij X 1,..., X m en Y 1,..., Y n onafhankelijke steekproeven zijn uit een alt(p)- verdeling, met p [0, 1] onbekend. (i) Bewijs dat (X + Y )/2 en ( m Xi + n Yj)/(m + n) zuivere schatters j=1 zijn voor p. (ii) Welk van deze twee schatters verdient de voorkeur (als m n)? 6. Bij een onderzoek naar discriminatie in Amsterdam wordt aan proefpersonen gevraagd, of ze persoonlijk discriminatie (naar ras, huidskleur, sekse of godsdienst) hebben ondervonden. Men trekt een gestratificeerde steekproef: 50 mannen en 50 vrouwen worden aselect uit de volwassen inwoners van Amsterdam getrokken. Zij X het aantal mannen en Y het aantal vrouwen in de steekproef met discriminerende ervaringen. Definieer: p M = fractie Amsterdamse mannen met discriminerende ervaring p V = fractie Amsterdamse vrouwen met discriminerende ervaring p = fractie Amsterdammers met discriminerende ervaring. Neem eens aan dat p V = 2p M en dat er evenveel mannen als vrouwen in Amsterdam wonen. (i) Bereken de verwachte kwadratische fout van de schatter (X + Y )/100 voor p. Definieer nu Z als het aantal personen met discriminerende ervaring in een gewone (niet-gestratificeerde = enkelvoudige) steekproef van 100 volwassen Amsterdammers. (ii) Bereken de verwachte kwadratische fout van de schatter Z/100 voor p; (iii) Vergelijk de beide verwachte kwadratische fouten. Wat is uw conclusie? 7. Men wil onderzoeken in hoeveel Nederlandse huishoudens een pc aanwezig is. Zij Π de populatie van alle Nederlandse huishoudens. Zij k het aantal gemeenten in Nederland en 1000m i het aantal huishoudens in de i e gemeente, voor i = 1, 2,..., k. Voor het gemak veronderstellen we dat m i N. In Π zitten dus M = mi duizendtallen huishoudens. Men trekt nu op de volgende manier i een steekproef. Trek eerst uit de verzameling van al deze duizendtallen aselect zonder teruglegging 100 duizendtallen. Zij Y i het aantal getrokken duizend-
53 96 4: Schatters tallen in de i e gemeente. Trek dan vervolgens in de i e gemeente aselect zonder teruglegging 10Y i huishoudens. Zij p i de fractie huishoudens met pc in de i e gemeente en p de populatiefractie. Schat p met X/1000, waarin X het totaal aantal getrokken huishoudens is met pc. Is X/1000 een zuivere schatter voor p? 8. Bereken de maximum likelihood-schatter voor θ gebaseerd op een steekproef X 1,..., X n uit de Poisson(θ)-verdeling. 9. Zij X 1,..., X n een steekproef uit een Weibull-verdeling, waarvan de kansdichtheid wordt gegeven door p θ (x) = θax a 1 e θxa, voor x > 0 en 0 anders. Hierin is a een bekend getal en θ > 0 is een onbekende parameter. (i) Bepaal de maximum likelihood-schatter voor θ. (ii) Bepaal de maximum likelihood-schatter voor 1/θ. 10. Zij X 1,..., X n een steekproef uit een verdeling met kansdichtheid p θ (x) = θx θ 1, voor x (0, 1) en 0 anders. Hierin is θ > 0 een onbekende parameter. (i) Bereken µ = g(θ) = E θ X 1. (ii) Bepaal de maximum likelihood-schatter voor µ. 11. Een urn bevat een fractie p witte en een fractie 1 p zwarte ballen. We trekken één voor één ballen met teruglegging uit de urn net zo lang tot een witte bal verschijnt. Zij Y i het aantal vereiste trekkingen. We herhalen dit proces n keer, resulterend in aantallen Y 1,..., Y n. Bepaal de maximum likelihood-schatter voor p. 12. Zij X 1,..., X n een steekproef uit de verdeling met kansdichtheid p θ (x) = θx 2, voor x θ en 0 voor x < θ, met θ > 0 onbekend. (i) Bepaal de maximum likelihood-schatter voor θ. (ii) Is deze schatter zuiver? (iii) Bepaal de verwachte kwadratische fout van deze schatter. 13. Zij X 1,..., X n een steekproef uit een kansverdeling met dichtheid p θ (x) = θ(1 + x) (1+θ), voor x 0 en 0 anders, waarin θ > 0 onbekend. Bepaal de maximum likelihood-schatter voor θ. 14. Veronderstel dat X 1,..., X m en Y 1,..., Y n twee onafhankelijke steekproeven zijn uit de normale verdeling met parameters (µ 1, σ 2 ) en (µ 2, σ 2 ), respectievelijk. Bepaal de maximum likelihood-schatter voor θ = (µ 1, µ 2, σ 2 ). 15. Men wil het aantal vissen, zeg N stuks, in een vijver schatten. Daartoe gaat men als volgt te werk. Men vangt r vissen en voorziet die van een merkteken. Vervolgens laat men deze vissen weer zwemmen en na verloop van tijd vangt men n vissen (zonder terug te werpen). Zij X i gelijk aan 0 of 1 als de i e gevangen vis wel of niet gemerkt is (i = 1,.., n).
54 4: Opgaven 97 (i) Bepaal de kansverdeling van X i, uitgedrukt in r, n en N. (ii) Bepaal de maximum likelihood-schatter voor N gebaseerd op n Xi. 16. Zij X 1,..., X n een steekproef uit een verdeling met een onbekende verdelingsfunctie F. De empirische verdelingsfunctie van de steekproef noteren we met ˆF. (i) Welke verdeling heeft n ˆF (x)? (ii) Is ˆF (x) een zuivere schatter voor F (x)? (iii) Bepaal de variantie van ˆF (x). (iv) Laat zien dat cov( ˆF (u), ˆF (v)) = n 1 (F (m) F (u)f (v)) met m = min{u, v}. Hieruit volgt dat ˆF (u) en ˆF (v) positief gecorreleerd zijn. 17. (k-means clustering.) Veronderstel dat X 1,..., X n onafhankelijke stochastische grootheden zijn, waarbij voor een onbekende partitie {1,..., n} = k j=1i j de variabelen (X i; i I j) normaal verdeeld zijn met verwachting µ j en variantie 1. Laat zien dat de maximum likelihood-schatter voor de partitie en de parametervector (µ 1,..., µ k ) de kwadraatsom k (X j=1 i I i µ j ) 2 minimaliseert. Interpreteer deze procedure in j woorden. 18. Zij X 1,..., X n een steekproef uit de exponentiële verdeling met parameter λ, waarbij λ > 0 een onbekende parameter is. (i) Bepaal de maximum likelihood-schatter voor 1/λ 2. (iv) Bepaal een momentenschatter voor 1/λ 2. (iii) Bepaal een zuivere schatter voor 1/λ Zij X 1,..., X n een steekproef uit de binomiale verdeling met parameters n en p, waarbij p [0, 1] onbekend is. Bepaal de maximum likelihood-schatter en de momentenschatter voor p. 20. Zij X 1,..., X n een steekproef uit de alternatieve verdeling met p [0, 1] een onbekende parameter. (i) Bepaal de momentenschatter T voor p. (ii) Laat zien dat de schatter T 2 niet zuiver is voor p 2 en bepaal vervolgens een zuivere schatter voor p Zij X 1,..., X n een steekproef uit de geometrische verdeling met onbekende parmater p (0, 1]. Bepaal de momentenschatter voor p. 22. Zij X 1,..., X n een steekproef uit een kansverdeling met dichtheid p θ (x) = θ(1 + x) (1+θ) voor x > 0, en 0 anders, met θ > 1 onbekend. Bepaal de momentenschatter voor θ. 23. Zij X 1,..., X n een steekproef uit een verdeling met kansdichtheid p θ (x) = 2x θ 2 1 {0 x θ}, waarbij θ > 0 een onbekende parameter is. (i) Bepaal de momentenschatter T voor θ. (ii) Laat zien dat T zuiver is voor θ. (iii) Geef de momentenschatter voor θ 2. (iv) Laat zien dat de momentenschatter voor θ 2 niet zuiver is voor θ 2 en bepaal vervolgens een zuivere schatter voor θ 2.
55 98 4: Schatters 24. Zij X 1,..., X n een steekproef uit de kansverdeling gegeven door P θ (X = x) = 1/θ voor x {1, 2,..., θ}. Hierin is θ N onbekend. (i) Bepaal de momentenschatter voor θ. (ii) Bepaal de maximum likelihood-schatter voor θ. 25. Zij X 1,..., X n een steekproef uit de hom[σ, τ]-verdeling met σ < τ onbekend. (i) Bepaal de maximum likelihood-schatter voor de vector (σ, τ). (ii) Bepaal de momentenschatter voor de vector (σ, τ). 26. Zij X 1,..., X n een steekproef uit de homogene verdeling op [ θ, θ] met θ > 0 onbekend. (i) Bepaal de maximum likelihood-schatter voor θ. (ii) Bepaal de momentenschatter voor θ. 27. Zij X een stochastische grootheid met eindig tweede moment. Toon aan dat de functie b E(X b) 2 minimaal is voor b = EX. 28. Zij X een continu verdeelde stochastische grootheid met eindig eerste moment. Toon aan dat de functie b E X b minimaal is voor b een punt zodanig dat P(X < b) = P(X > b) = 1/2, de populatie-mediaan. 29. Zij X 1,..., X n een steekproef uit de Laplace-verdeling (of dubbel-exponentiële verdeling waarvan de kansdichtheid gelijk is p θ (x) = 1 2 e x θ, waarin θ R. (i) Bepaal de populatie-mediaan (zie vorige som). (ii) Bepaal de maximum likelihood-schatter voor θ. (iii) Bepaal de momentenschatter voor θ. 30. De momentenschatter en maximum likelihood-schatter voor de parameter van een Laplace-verdeling zijn heel verschillend. Het is mogelijk op grond van de theoretische argumenten een voorkeur voor één van de twee schatters uit te spreken, maar de berekeningen zijn aan de ingewikkelde kant. Ga in plaats daarvan door simulatie na welke schatter de voorkeur verdient. Het R-programma in Tabel 4.1 kan hiervoor worden gebruikt. Toelichting: in de eerste regel declareren we twee vectoren (arrays) ter lengte 1000, waarin we 1000 realisaties gaan zetten van de twee schatters. In de laatste twee regels berekenen we de gemiddelde kwadratische afwijking van de twee vectoren tot de echte waarde van de parameter (die 0 is in dit geval). Dit zijn niet de echte verwachte kwadratische fouten, maar wel goede benaderingen ervoor. In de for-loop wordt op de eerste regel een steekproef ter grootte n(n = 100) uit de standaard Laplace-verdeling genomen (op een wat ingewikkelde wijze). Vervolgens wordt op basis van de steekproef de maximum likelihood-schatting en de momentenschatting berekend. Dit wordt 1000 maal herhaald. 31. Zij X 1,..., X n een steekproef uit een kansverdeling met dichtheid p θ (x) = θx θ 1 voor 0 x 1 en 0 anders, met θ > 0 onbekend. (i) Bepaal de momentenschatter voor θ.
56 4: Opgaven 99 momenten = mls = numeric(1000) n = 100 for (i in 1:1000) { x = rexp(n)*(2*rbinom(n,1,0.5)-1) momenten[i] = mean(x) mls[i] = median(x) } msemomenten = mean(momenten^2) msemls = mean(mls^2) Tabel 4.1. R-code voor het vergelijken van de momentenschatter en de maximum likelihood-schatter. (ii) Bepaal de maximum likelihood-schatter voor θ. (iii) Bepaal de Bayes schatter voor θ ten opzichte van de a priori dichtheid π(θ) = e θ voor θ > 0 en 0 anders. 32. Bereken de a posteriori verdeling en de Bayes-schatter voor θ gebaseerd op een waarneming X met de negatieve binomiale verdeling met parameters k (bekend) en θ, relatief ten opzichte van een a priori Bèta-verdeling. 33. Bereken de Bayes-schatter voor θ gebaseerd op een steekproef X 1,..., X n uit de hom[0, θ]-verdeling relatief ten opzichte van een hom[0, M] a priori verdeling. 34. Bereken de Bayes-schatter voor θ gebaseerd op een waarneming X uit de Poisson-verdeling met parameter θ relatief ten opzichte van een Gammaverdeling met parameters α en λ, (i) voor α = 1. (ii) voor algemene α > Bereken de a posteriori verdeling en de Bayes-schatter voor θ gebaseerd op een steekproef X 1,..., X n uit de verdeling met kansdichtheid p θ (x) = 2θxe θx2 voor x > 0 en 0 anders, relatief ten opzichte van de Gamma-verdeling met parameters α en λ. 36. Bereken de a posteriori verdeling en de Bayes-schatter voor θ gebaseerd op een steekproef X 1,..., X n uit de N(θ, 1)-verdeling relatief ten opzichte van een N(0, τ 2 )-a priori verdeling. Welke schatter vinden we voor τ? Hoe kan de a priori verdeling voor τ worden gekarakteriseerd? 37. Zij X 1,..., X n een steekproef uit een alternatieve verdeling met onbekende parameter p [0, 1]. We willen de variantie var p (X i ) = p(1 p) Bayesiaans schatten relatief ten opzichte van een Bèta(α, β) a priori verdeling voor de parameter p. (i) Bepaal de a posteriori dichtheid voor p relatief ten opzichte van de Bèta(α, β) verdeling. (ii) Bepaal de Bayes-schatters voor p en var p(x i).
57 100 4: Schatters 38. Veronderstel dat we in plaats van de verwachte kwadratische fout de mean absolute deviation (MAD) gebruiken voor het definiëren van een Bayes-schatter: we vervangen R(π; T ) in Paragraaf 4.5 door E θ T θ π(θ) dθ en definiëren een Bayes-schatter als de schatter T waarvoor deze uitdrukking minimaal is. Laat zien de mediaan van de a posteriori verdeling in dat geval een Bayesschatter is. 39. Implementeer een Metropolis-Hastings algoritme voor de berekening van de a posteriori verdeling voor θ gebaseerd op een steekproef uit de N(θ, 1)-verdeling, relatief ten opzichte van een normale of een Cauchy a priori dichtheid. Experimenteer met verschillende proposal overgangskernen q. 40. Zij Y = f(x) een functie van een stochastische vector X met verdeling Π en zij Q(y, B) = P(X B Y = y) de voorwaardelijke verdeling van X gegeven Y = y. Als we X genereren volgens Π, coarsen X tot Y = f(x) en vervolgens Z genereren volgens de kansverdeling Q(Y, ), dan bezit Z verdeling Π. (i) Bewijs dit. (ii) Pas dit toe met f(x) = x i om te bewijzen dat de Gibbs-sampler stationaire dichtheid π bezit.
58 ERFELIJKHEIDSONDERZOEK Ouders met blauwe ogen hebben kinderen met blauwe ogen. Daarentegen hoeven ouders met obesitas geen kinderen met obesitas te hebben. Sommige eigenschappen, als oogkleur, worden geheel genetisch bepaald en liggen bij de geboorte al vast. Andere eigenschappen, als het hebben van obesitas, zijn slechts deels erfelijk bepaald, en worden tevens door omgevingsfactoren, als voeding en levensstijl, beïnvloed. Onderzoek bij een- en twee-eiige tweelingen kan inzicht geven in hoeverre eigenschappen van mensen bepaald worden door erfelijke of omgevingsfactoren of een wisselwerking tussen beide. Een eeneiige tweeling ontstaat als een bevruchte eicel zich in tweeën splitst voordat de cel zich in de baarmoederwand innestelt. Eeneiige tweelingen zijn genetisch gezien identiek en daardoor ook altijd van hetzelfde geslacht. Twee-eiige tweelingen ontstaan doordat de moeder een dubbele eisprong had en beide eicellen bevrucht werden. Gemiddeld genomen hebben twee-eiige tweeling 50% van het erfelijk materiaal gemeen en zijn in genetisch opzicht gewoon broers en zusters van elkaar. Tweelingen groeien veelal op in hetzelfde gezin, gaan naar dezelfde school en hebben dezelfde levensstijl; zij worden dus blootgesteld aan min of meer dezelfde omgevingsfactoren. Als voor een bepaalde eigenschap de correlatie binnen eeneiige tweelingparen groter is dan die binnen twee-eiige tweelingparen, dan is dit verschil toe te schrijven aan de mate van overeenkomsten in het genetische materiaal; immers omgevingsfactoren binnen tweelingen komen nagenoeg overeen. De betreffende eigenschap wordt dan dus deels erfelijk bepaald. Zijn, daarentegen, de correlaties min of meer aan elkaar gelijk (en ongelijk aan 0), dan wordt de eigenschap met name door omgevingsfactoren bepaald. Het Nederlands Tweelingen Register (zie: bevat gegevens van tweelingen en hun familieleden ten behoeve van wetenschappelijk onderzoek op het gebied van gezondheid, levensstijl en persoonlijkheid. Het register bevat onder andere gegevens van de lichaamslengte van tweelingen. Op basis van deze gegevens willen we een indicatie krijgen in hoeverre individuele verschillen in volwassen lichaamslengte genetisch bepaald worden. Mannen zijn gemiddeld genomen langer dan vrouwen. In onderzoek naar de erfelijkheid van lichaamslengte moeten we daarom rekening houden met het geslacht. Om de notatie eenvoudig te houden, beperken we ons hier tot mannelijke een- en twee-eiige tweelingen; een uitbreiding naar vrouwelijke en gemengde tweelingen is qua methode eenvoudig, maar qua notatie lastig. We noteren de lichaamslengte van een jongvolwassen tweelingpaar van het mannelijke geslacht met (X 1, X 2 ) en veronderstellen dat de lengten X 1 en X 2 geschreven kunnen worden als de som van een gemiddelde lengte µ en drie stochastische componenten: X 1 = µ + G 1 + C + E 1 X 2 = µ + G 2 + C + E 2,
59 102 4: Schatters welke staan voor de afwijking van de gemiddelde populatielengte door genetische invloeden (G 1 en G 2 ), door omgevingsfactoren die de tweeling gemeenschappelijk heeft (C) en voor individueel specifieke invloeden, zowel genetische als omgevingsinvloeden (E 1 en E 2 ). Veelal wordt verondersteld dat de variabelen voor genetische, omgevings en individueel specifieke invloeden onafhankelijk van elkaar zijn: (G 1, G 2 ), C en (E 1, E 2 ) zijn onderling onafhankelijk. Dit betekent dat aangenomen wordt dat er geen interactie bestaat tussen de omgeving en genetische invloeden (of aan deze aanname is voldaan, valt te betwijfelen). We veronderstellen dat G 1 en G 2 gelijk verdeeld zijn met verwachting 0 en onbekende variantie σ g 2. De variabelen G 1 en G 2 beschrijven genetische invloeden op de variatie van lichaamslengte van individuen waarvan het genetisch materiaal geheel of deels overeen komen; G 1 en G 2 zijn dus gecorreleerd. Eeneiige tweelingen zijn in genetisch opzicht identiek; voor hen geldt dat G 1 = G 2 (met kans 1) en dus de correlatie tussen G 1 en G 2 gelijk is aan cor(g 1, G 2 ) = 1. Twee-eiige tweelingen delen slechts een deel van hun genen, zodat G 1 en G 2 niet aan elkaar gelijk zijn, maar wel gecorreleerd. Gemiddeld genomen hebben twee-eiige tweelingparen 50% van hun genetisch materiaal gemeenschappelijk. Onder de aanname van bovenstaand additief model (en enkele andere aannamen) kan worden aangetoond dat de correlatie tussen G 1 en G 2 gelijk is aan cor(g 1, G 2 ) = 1/2. De individueel specifieke invloeden E 1 en E 2 worden onafhankelijk en gelijk verdeeld verondersteld, met verwachting 0 en onbekende variantie σ2 e. De verwachting en variantie van C zijn 0 en σ2 c. Met bovenstaande aannames geldt dat X 1 en X 2 gelijk verdeeld zijn met verwachting EX i = µ en variantie σ2: = var X i gelijk aan σ2 = var(µ + G i + C + E i ) = var G i + var C + var E i = σ2 g + σ2 c + σ2 e, i = 1, 2 waarbij de tweede gelijkheid geldt vanwege de onderlinge onafhankelijkheid van de verschillende componenten. De term h2: = var G i / var X i = σ g 2/σ2 wordt ook wel heritabiliteit genoemd. Heritabiliteit beschrijft de mate waarin variatie tussen, in dit geval, lichaamslengte van individuen veroorzaakt wordt door genetische verschillen. Heritabiliteit is minimaal gelijk aan 0 en maximaal 1, omdat σ2 g σ2. Als heritabiliteit voor lichaamslengte gelijk aan 1 is, dan is σ g 2 = σ2 en σ2 c = σ2 e = 0; variatie van lichaamslengte tussen mensen is dan volledig genetisch bepaald. Als de heritabiliteit gelijk aan 0 is, dan is σ g 2 = 0. Omdat tevens de verwachtingen EG 1 = EG 2 = 0, zijn G 1 en G 2 gelijk aan 0 met kans 1; variatie in lichaamslengte wordt dan geheel niet genetisch bepaald. Het doel is h2 te schatten op basis van een steekproef van lichaamslengtes van een- en twee-eiige tweelingenparen. Daartoe schrijven we eerst h2 in termen van de correlaties tussen de lichaamslengtes binnen een- en
60 4: Erfelijkheidsonderzoek 103 twee-eiige tweelingparen, ρ 1 en ρ 2, en schatten deze parameters vervolgens met de steekproef correlaties. De correlatie tussen de lichaamslengtes binnen een tweelingpaar is gelijk aan cov(x 1, X 2 ) = cov(µ + G 1 + C + E 1, µ + G 2 + C + E 2 ) var X1 var X 2 var X1 var X 2 = cov(g 1, G 2 ) σ2 + cov(c, C) σ2 = cov(g 1, G 2 ) σ2 + σ2 c σ2, waar de tweede gelijkheid volgt uit de onafhankelijkheidsaannames. De covariantie van de genetische componenten G 1 en G 2 binnen eeneiige tweelingparen is gelijk aan cov(g 1, G 2 ) = var G 1 = σ2 g, omdat G 1 = G 2 met kans 1. Binnen twee-eiige tweelingparen is deze covariantie gelijk aan cov(g 1, G 2 ) = cor(g 1, G 2 ) var G 1 var G 2 = 1 2 var G 1 = 1 2 σ g2. Uit bovenstaande berekeningen volgt nu dat de correlaties ρ 1 en ρ 2 gelijk zijn aan: ρ 1 = σ 1 g2 + σ c 2 2 ρ 2 = g2 + σ c 2. σ2 σ2 Er volgt direct dat ρ 1 ρ 2 met een gelijkheid als σ g 2 = 0. Ofwel, de correlatie tussen de lichaamslengtes binnen eeneiige tweelingparen is groter dan of gelijk aan de correlatie tussen de lichaamslengtes binnen twee-eiige tweelingparen. Gelijkheid is er alleen als er geen genetische invloeden zijn op de variatie van lichaamslengte en het verschil is maximaal als de variatie in lichaamslengte volledig genetisch bepaald is; als σ2 c = 0. Uit de uitdrukkingen van de correlaties ρ 1 en ρ 2 volgt dat de heritabiliteit gelijk is aan h2 = 2(ρ 1 ρ 2 ). Om een schatting voor h2 te vinden, kunnen we ρ 1 en ρ 2 schatten met hun steekproef correlaties, n r X1,X 2 = (X 1,i X 1 )(X 2,i X 2 ) (n 1) S2 X1 S2X2 op basis van alleen een- en twee-eiige tweelingen, respectievelijk. In de voorgaande formule staan X 1,i en X 2,i voor het eerste en tweede individu van het i e tweelingpaar, zijn X 1 en X 2 gelijk aan de steekproefgemiddelden van de eerste en tweede individuen binnen de tweelingparen, en zijn S2 X1 en S2 X2 de corresponderende steekproefvarianties. Deze methode voor het schatten van heritabiliteit heeft veel overeenkomsten met de methode van de momentenschatter; immers de onbekende parameters worden gevonden door een theoretische kwantiteit, in dit geval de correlatie, gelijk te stellen aan de steekproef waarde van dezelfde kwantiteit. Omdat de marginale verdeling voor lichaamslengte voor alle individuen in de data-set gelijk is, ligt het voor
61 104 4: Schatters de hand X 1 en X 2 te vervangen door een gemiddelde lichaamslengte over alle individuen, zowel één- als twee-eiig en zowel eerste als twee individu in een tweelingpaar. Hetzelfde kan worden overwogen voor de steekproefvariantie in de noemer van r X1,X 2. In de Figuren 3.11 en 3.12 zijn de lichaamslengtes van een- (Figuur 3.11) en twee-eiige (Figuur 3.12) tweelingen tegen elkaar uitgezet. Duidelijk te zien is dat de correlatie tussen de lengten binnen eeneiige tweelingparen groter is dan binnen twee-eiige tweelingparen. De steekproefcorrelaties voor eeneiige tweelingen zijn gelijk aan 0.87 en 0.96 voor mannelijke en vrouwelijke eeneiige tweelingen en 0.55 en 0.50 voor mannelijke en vrouwelijke twee-eiige tweelingen. Verder wordt heritabiliteit geschat met 0.64 voor mannen en 0.92 voor vrouwen. Een andere methode om de heritabiliteit te schatten is de maximum likelihood-methode. Veronderstel dat de lichaamslengte van een volwassen tweelingpaar van het mannelijke geslacht (X 1, X 2 ) tweedimensionaal normaal verdeeld is (voor uitleg over de meerdimensionale normale verdeling, zie Appendix 10) met verwachtingsvector ν = (µ, µ) T en covariantiematrix voor eeneiige (Σ 1 ) en twee-eiige (Σ 2 ) tweelingparen ( σ2 Σ 1 = σ2 g + σ2 c ) σ2 g + σ2 c σ2 ( 1 σ2 Σ 2 = 2 σ2 ) g + σ2 c 1 2 σ2 g + σ2 c σ2 met σ2 = σ g 2 + σ c 2 + σ e 2. De diagonaalelementen van de covariantiematrices zijn gelijk aan de variantie van X 1 en X 2 ; de andere twee termen zijn gelijk aan de covarianties tussen X 1 en X 2. De kansdichtheid van de lichaamslengte van een tweelingpaar is gelijk aan 1 x 2π det Σ e 1 2 (x ν)t Σ 1 (x ν), met x = (x 1, x 2 ) T, Σ gelijk aan Σ 1 of Σ 2 naar gelang het type tweeling en ν = (µ, µ) de vector als eerder beschreven. Met det Σ wordt de determinant van Σ bedoeld. We veronderstellen dat de lichaamslengte van verschillende tweelingparen onafhankelijk van elkaar zijn, waardoor de likelihood gelijk is aan een product van marginale dichtheden en de log likelihood gelijk is aan l µ,σ2g,σ2 c,σ2 e (X 1,..., X n1, Y 1,..., Y n2 ) = (n 1 + n 2 ) log 2π n 1 2 log(det Σ 1) n 2 2 log(det Σ 2) 1 n 1 (X i ν) T Σ (X i ν) 1 n 2 (Y i ν) T Σ (Y i ν), met X 1,..., X n1 de lengtes van de eeneiige tweelingparen en Y 1,..., Y n2 die van twee-eiige tweelingparen; dus X i = (X i,1, X i,2 ) T en Y i = (Y i,1, Y i,2 ) T met X i,1 en X i,2 de lichaamslengte van het eerste en tweede individu binnen het i e eeneiige tweelingpaar. Maximalisatie van de log likelihood
62 4: Erfelijkheidsonderzoek 105 naar (µ, σ2 g, σ2 c, σ2 e ) over de parameterruimte [0, )4 geeft de maximum likelihood-schattingen; en heritabilitiet σ2 g /σ2 wordt geschat de waarden in te vullen: ĥ2 = ˆσ2 g/ˆσ2 = Dezelfde berekeningen kunnen we uitvoeren voor een- en twee-eiige tweelingparen van het vrouwelijke geslacht. Dit levert een geschatte heritabiliteit van Wanneer een gecombineerde likelihood wordt opgesteld voor data van mannen en vrouwen wordt veelal verondersteld dat de verwachte lengte van vrouwen wel verschilt van die van mannen, maar dat de covariantiematrices, en dus ook heritabiliteit, gelijk zijn. Maximaliseren van de likelihood geeft een schatting van 0.79 voor de heritabiliteit. Heritabiliteit is een maat voor de variatie van een eigenschap, lichaamslengte in ons geval, binnen een populatie. Dat de heritabiliteit bijna gelijk aan 1 is, betekent niet dat lichaamslengte bijna volledig genetisch bepaald wordt; wel dat de variatie van lichaamslengte binnen de populatie waaruit onze data afkomstig zijn, bijna geheel door verschillen in het erfelijk materiaal wordt bepaald. Omgevingsfaktoren hebben wel degelijk invloed op lichaamslengte (zie Voorbeeld 2.7) maar zijn waarschijnlijk zo uniform over de populatie waaruit de data getrokken is, dat alleen genetische verschillen nog waar te nemen zijn in de variatie van lichaamslengte.
Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie
Deze week: Schatten Statistiek voor Informatica Hoofdstuk 6: Schatten Cursusjaar 2009 Peter de Waal Departement Informatica Statistische inferentie A Priori en posteriori verdelingen Geconjugeerde a priori
Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten
Deze week: Steekproefverdelingen Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen Cursusjaar 29 Peter de Waal Zuivere Schatters Betrouwbaarheidsintervallen Departement Informatica Hfdstk
Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u
Technische Universiteit Delft Mekelweg 4 Faculteit Elektrotechniek, Wiskunde en Informatica 2628 CD Delft Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Formulebladen, rekenmachines,
Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur
Kansrekening en statistiek wi2105in deel 2 27 januari 2010, 14.00 16.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na
Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.
Afdeling Wiskunde Volledig tentamen Statistics Deeltentamen 2 Statistics Vrije Universiteit 28 mei 2015 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen: opgaven 1,2,3,4. Cijfer=
Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur
Kansrekening en statistiek WI22TI / WI25IN deel 2 2 februari 22, 4. 6. uur VOOR WI22TI: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad is niet toegestaan.
Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur
Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop
Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur.
Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (WS05), vrijdag 9 oktober 010, van 14.00 17.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen
Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)
Cursus Statistiek Hoofdstuk 4 Statistiek voor Informatica Hoofdstuk 4: Verwachtingen Cursusjaar 29 Peter de Waal Departement Informatica Inhoud Verwachtingen Variantie Momenten en Momentengenererende functie
Kansrekening en stochastische processen 2S610
Kansrekening en stochastische processen 2S610 Docent : Jacques Resing E-mail: [email protected] http://www.win.tue.nl/wsk/onderwijs/2s610 1/28 Schatten van de verwachting We hebben een stochast X en
ALGEMENE STATISTIEK. A.W. van der Vaart en anderen
ALGEMENE STATISTIEK A.W. van der Vaart en anderen VOORWOORD Dit diktaat wordt gebruikt bij het vak Statistiek voor Natuurkunde. Het is een uittreksel van het boek Algemene Statistiek geschreven door A.W.
Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening
Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek DD14) op vrijdag 17 maart 006, 9.00-1.00 uur. UITWERKINGEN 1. Methoden om schatters te vinden a) De aannemelijkheidsfunctie
Zo geldt voor o.o. continue s.v.-en en X en Y dat de kansdichtheid van X + Y gegeven wordt door
APP.1 Appendix A.1 Erlang verdeling verdeling met parameters n en λ Voor o.o. discrete s.v.-en X en Y geldt P (X + Y = z) =P (X = x 1 en Y = z x 1 )+P(X = x en Y = z x )+... = P (X = x 1 )P (Y = z x 1
Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode
Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode Rik Lopuhaä TU Delft 30 januari, 2015 Rik Lopuhaä (TU Delft) Schatten van de Duitse oorlogsproductie 30 januari,
Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.
Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2WS4, dinsdag 17 juni 28, van 9. 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen
Tentamen Biostatistiek 3 / Biomedische wiskunde
Tentamen Biostatistiek 3 / Biomedische wiskunde 25 maart 2014; 12:00-14:00 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau. Het
Deze week: Verdelingsfuncties. Statistiek voor Informatica Hoofdstuk 5: Verdelingsfuncties. Bernoulli verdeling. Bernoulli verdeling.
Deze week: Verdelingsfuncties Statistiek voor Informatica Hoofdstuk 5: Verdelingsfuncties Cursusjaar 29 Peter de Waal Toepassingen Kansmassafuncties / kansdichtheidsfuncties Eigenschappen Departement Informatica
SOCIALE STATISTIEK (deel 2)
SOCIALE STATISTIEK (deel 2) D. Vanpaemel KU Leuven D. Vanpaemel (KU Leuven) SOCIALE STATISTIEK (deel 2) 1 / 57 Hoofdstuk 5: Schatters en hun verdeling 5.1 Steekproefgemiddelde als toevalsvariabele D. Vanpaemel
Toegepaste Wiskunde 2: Het Kalman-filter
Toegepaste Wiskunde 2: Het Kalman-filter 25 februari, 2008 Hans Maassen 1. Inleiding Het Kalman filter schat de toestand van een systeem op basis van een reeks, door ruis verstoorde waarnemingen. Een meer
Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18
Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 18 t-toetsen 2 / 18 Steekproefgemiddelde en -variantie van normale observaties Stelling. Laat X 1,..., X n o.o. zijn en N(µ, σ 2 )-verdeeld. Dan:
Kansrekening en Statistiek
Kansrekening en Statistiek College 8 Donderdag 13 Oktober 1 / 23 2 Statistiek Vandaag: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 23 Stochast en populatie
Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen
Vandaag Onderzoeksmethoden: Statistiek 2 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Theoretische kansverdelingen
Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17
Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 17 Betrouwbaarheidsgebieden 2 / 17 Idee Een schatter T voor een parameter θ geeft één punt in de parameterruimte Θ. I.h.a. zal T θ onder P θ,
9. Lineaire Regressie en Correlatie
9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)
Samenvatting Statistiek
Samenvatting Statistiek De hoofdstukken 1 t/m 3 gaan over kansrekening: het uitrekenen van kansen in een volledig gespecifeerd model, waarin de parameters bekend zijn en de kans op een gebeurtenis gevraagd
Meetkunde en Lineaire Algebra
Hoofdstuk 1 Meetkunde en Lineaire Algebra Vraag 1.1 Zij p en q twee veeltermfuncties met reële coëfficiënten en A een reële vierkante matrix. Dan is p(a) diagonaliseerbaar over R als en slechts dan als
Inleiding Statistiek
Inleiding Statistiek Practicum 1 Op dit practicum herhalen we wat Matlab. Vervolgens illustreren we het schatten van een parameter en het toetsen van een hypothese met een klein simulatie experiment. Het
Inleiding Applicatie Software - Statgraphics
Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een
Kansrekening en Statistiek
Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve
Examen Statistiek I Feedback
Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).
Hoofdstuk 3 Statistiek: het toetsen
Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.
Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek
Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje
Schatten en simuleren
Les 5 Schatten en simuleren 5.1 Maximum likelihood schatting Tot nu toe hebben we meestal naar voorbeelden gekeken waar we van een kansverdeling zijn uitgegaan en dan voorspellingen hebben gemaakt. In
+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.
STATISTIEK OPLOSSINGEN OEFENZITTINGEN 5 en 6 c D. Keppens 2004 5 1 (a) Zij µ de verwachtingswaarde van X. We moeten aantonen dat E[M i ] = µ voor i = 1, 2, 3 om te kunnen spreken van zuivere schatters.
Sterrenkunde Praktikum 1 Fouten en fitten
Sterrenkunde Praktikum 1 Fouten en fitten Paul van der Werf 12 februari 2008 1 Inleiding In de sterrenkunde werken we vaak met zwakke signalen, of met grote hoeveelheden metingen van verschillende nauwkeurigheid.
Hoofdstuk 12: Eenweg ANOVA
Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake
Kansrekening en Statistiek
Kansrekening en Statistiek College 16 Donderdag 4 November 1 / 25 2 Statistiek Indeling: Schatten Correlatie 2 / 25 Schatten 3 / 25 Schatters: maximum likelihood schatters Def. Zij Ω de verzameling van
Hoofdstuk 5: Steekproevendistributies
Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel
Wiskunde B - Tentamen 2
Wiskunde B - Tentamen Tentamen van Wiskunde B voor CiT (57) Donderdag 4 april 005 van 900 tot 00 uur Dit tentamen bestaat uit 8 opgaven, 3 tabellen en formulebladen Vermeld ook je studentnummer op je werk
Kansrekening en stochastische processen 2DE18
Kansrekening en stochastische processen 2DE18 Docent : Jacques Resing E-mail: [email protected] 1/23 Voor een verzameling stochastische variabelen X 1,..., X n, de verwachting van W n = X 1 + + X n is
Hoofdstuk 10: Partiële differentiaalvergelijkingen en Fourierreeksen
Hoofdstuk : Partiële differentiaalvergelijkingen en Fourierreeksen Partiële differentiaalvergelijkingen zijn vergelijkingen waarin een onbekende functie van twee of meer variabelen en z n partiële afgeleide(n)
werkcollege 6 - D&P9: Estimation Using a Single Sample
cursus 9 mei 2012 werkcollege 6 - D&P9: Estimation Using a Single Sample van frequentie naar dichtheid we bepalen frequenties van meetwaarden plot in histogram delen door totaal aantal meetwaarden > fracties
Kansrekening en Statistiek
Kansrekening en Statistiek College 12 Vrijdag 16 Oktober 1 / 38 2 Statistiek Indeling vandaag: Normale verdeling Wet van de Grote Getallen Centrale Limietstelling Deductieve statistiek Hypothese toetsen
Opgaven Functies en Reeksen. E.P. van den Ban
Opgaven Functies en Reeksen E.P. van den Ban c Mathematisch Instituut Universiteit Utrecht Augustus 2014 1 Opgaven bij Hoofdstuk 1 Opgave 1.1 Zij f : R n R partieel differentieerbaar naar iedere variabele
Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:
Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan
Kansrekening en Statistiek
Kansrekening en Statistiek College 7 Dinsdag 11 Oktober 1 / 33 2 Statistiek Vandaag: Populatie en steekproef Maten Standaardscores Normale verdeling Stochast en populatie Experimenten herhalen 2 / 33 3
Machten, exponenten en logaritmen
Machten, eponenten en logaritmen Machten, eponenten en logaritmen Macht, eponent en grondtal Eponenten en logaritmen hebben alles met machtsverheffen te maken. Een macht als 4 is niets anders dan de herhaalde
Examen Kansrekening en Wiskundige Statistiek: oplossingen
Examen Kansrekening en Wiskundige Statistiek: oplossingen S. Vansteelandt Academiejaar 006-007 1. Een team van onderzoekers wil nagaan of een bepaald geneesmiddel Triptan meer effectief is dan aspirine
6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.
Opgaven hoofdstuk 6 I Basistechnieken 6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. x 0 2 4 6 p(x) ¼ ¼ ¼ ¼ a. Schrijf alle mogelijke verschillende steekproeven van n =
Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur
Kansrekening en statistiek WI05IN deel I 4 november 0, 4.00 7.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad wordt uitgereikt. Meerkeuzevragen Toelichting:
Vrije Universiteit Amsterdam Opleiding Wiskunde Vak Poisson Processen. Poisson Processen. Arno Weber.
Vrije Universiteit Amsterdam Opleiding Wiskunde Vak Poisson Processen Poisson Processen Arno Weber email: [email protected] Januari 2003 1 Inhoudsopgave 1. Computersimulaties 3 2. Wachttijd-paradox 6 3.
Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17
Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 17 Statistische toetsen 2 / 17 Toetsen - algemeen - 1 Setting: observatie X in X, model {P θ : θ Θ}. Gegeven partitie Θ = Θ 0 Θ 1, met Θ 0 Θ 1
Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur
Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord
Hoofdstuk 5 Een populatie: parametrische toetsen
Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie
Data analyse Inleiding statistiek
Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen
VOOR HET SECUNDAIR ONDERWIJS
VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg
College 2 Enkelvoudige Lineaire Regressie
College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:
Schatting voor het aantal tanks: is statistiek beter dan de geheime dienst?
Schatting voor het aantal tanks: is statistiek beter dan de geheime dienst? dr. H.P. Lopuhaä UHD Statistiek Opleiding Technische Wiskunde Faculteit Informatietechnologie & Systemen Technische Universiteit
Statistiek I Samenvatting. Prof. dr. Carette
Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De
Voorbehouden voor de correctoren Vraag 1 Vraag 2 Vraag 3 Vraag 4 Vraag 5 Totaal. Toets Kansrekenen I. 28 maart 2014
Voorbehouden voor de correctoren Vraag 1 Vraag 2 Vraag 3 Vraag 4 Vraag 5 Totaal Toets Kansrekenen I 28 maart 2014 Naam : Richting : Lees volgende aanwijzingen alvorens aan het examen te beginnen Wie de
Data analyse Inleiding statistiek
Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»
HOOFDSTUK VII REGRESSIE ANALYSE
HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens
Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling
Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Moore, McCabe & Craig: 3.3 Toward Statistical Inference From Probability to Inference 5.1 Sampling Distributions for
3 De duale vectorruimte
3 De duale vectorruimte We brengen de volgende definitie in de herinnering. Definitie 3.1 (hom K (V, W )) Gegeven twee vectorruimtes (V, K) en (W, K) over K noteren we de verzameling van alle lineaire
Eerste orde partiële differentiaalvergelijkingen
Eerste orde partiële differentiaalvergelijkingen Vakgroep Differentiaalvergelijkingen 1995, 2001, 2002 1 Eerste orde golf-vergelijking De vergelijking au x + u t = 0, u = u(x, t), a ɛ IR (1.1) beschrijft
Kansrekening en Statistiek
Kansrekening en Statistiek College 9 Dinsdag 18 Oktober 1 / 1 2 Statistiek Vandaag: Centrale Limietstelling Correlatie Regressie 2 / 1 Centrale Limietstelling 3 / 1 Centrale Limietstelling St. (Centrale
TENTAMEN WISKUNDIGE BEELDVERWERKINGSTECHNIEKEN
TENTAMEN WISKUNDIGE BEELDVERWERKINGSTECHNIEKEN Vakcode: 8D. Datum: Donderdag 8 juli 4. Tijd: 14. 17. uur. Plaats: MA 1.44/1.46 Lees dit vóórdat je begint! Maak iedere opgave op een apart vel. Schrijf je
Over het gebruik van continue normering Timo Bechger Bas Hemker Gunter Maris
POK Memorandum 2009-1 Over het gebruik van continue normering Timo Bechger Bas Hemker Gunter Maris POK Memorandum 2009-1 Over het gebruik van continue normering Timo Bechger Bas Hemker Gunter Maris Cito
(x x 1 ) + y 1. x x k+1 x k x k+1
Les Talor reeksen We hebben in Wiskunde een aantal belangrijke reële functies gezien, bijvoorbeeld de exponentiële functie exp(x) of de trigonometrische functies sin(x) en cos(x) Toen hebben we wel eigenschappen
Combinatoriek groep 1 & 2: Recursie
Combinatoriek groep 1 & : Recursie Trainingsweek juni 008 Inleiding Bij een recursieve definitie van een rij wordt elke volgende term berekend uit de vorige. Een voorbeeld van zo n recursieve definitie
Statistiek voor A.I.
Statistiek voor A.I. College 13 Donderdag 25 Oktober 1 / 28 2 Deductieve statistiek Orthodoxe statistiek 2 / 28 3 / 28 Jullie - onderzoek Tobias, Lody, Swen en Sander Links: Aantal broers/zussen van het
Hoofdstuk 10: Regressie
Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.
Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten
Stochastiek 2 Inleiding in the Mathematische Statistiek staff.fnwi.uva.nl/j.h.vanzanten 1 / 12 H.1 Introductie 2 / 12 Wat is statistiek? - 2 Statistiek is de kunst van het (wiskundig) modelleren van situaties
Uitwerkingen Mei Eindexamen VWO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek
Uitwerkingen Mei 2012 Eindexamen VWO Wiskunde A Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Schroefas Opgave 1. In de figuur trekken we een lijn tussen 2600 tpm op de linkerschaal en
Medische Statistiek Kansrekening
Medische Statistiek Kansrekening Medisch statistiek- kansrekening Hoorcollege 1 Uitkomstenruimte vaststellen Ook wel S of E. Bij dobbelsteen: E= {1,2,3,4,5,6} Een eindige uitkomstenreeks Bij het gooien
VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert
VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel
TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2), Vrijdag 24 januari 24, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven
(x x 1 ) + y 1. x x 1 x k x x x k 1
Les Taylor reeksen We hebben in Wiskunde een aantal belangrijke reële functies gezien, bijvoorbeeld de exponentiële functie exp(x) of de trigonometrische functies sin(x) en cos(x) Toen hebben we wel eigenschappen
. Dan geldt P(B) = a. 1 4. d. 3 8
Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open
