4.2 Mean Square Error

Transcriptie

1 4 Schatters 4.1 Introductie Een statistisch model bestaat uit alle kansverdelingen welke a priori mogelijk worden geacht voor de gegeven data. Gegeven een correct opgesteld model gaan we ervan uit dat de data volgens één van de kansverdelingen in het model is gegenereerd. Na het opstellen van een geschikt statistisch model is de volgende stap het bepalen welke kansverdeling binnen het model het best aansluit bij de gegevens. Als het model wordt gegeven door een parameter, dan is dit equivalent met het bepalen van de best passende parameterwaarde, vaak aangeduid als de ware parameter. In de statistiek heet dit proces schatten. Andere namen zijn fitten en leren. Veronderstel dat de kansverdeling van X afhangt van een onbekende parameter θ, zodat het statistische model de vorm {P θ : θ Θ} heeft, voor P θ de kansverdeling van X als θ de ware parameterwaarde is. Op grond van een waarneming x willen we de ware waarde van θ schatten, of wellicht de waarde van een functie g(θ) van θ, bijvoorbeeld de eerste coördinaat θ 1 als θ = (θ 1, θ 2 ). Schatten betekent hier het doen van een uitspraak over θ of g(θ) van de vorm: ik denk dat g(θ) bij benadering gelijk is aan T (x), voor zekere waarde T (x) die van de waargenomen waarde x afhangt. Definitie 4.1. Een schatter (Engels: estimator) of statistiek (Engels: statistic) is een stochastische vector T (X) die alleen van de waarneming X afhangt. De bijbehorende schatting (Engels: estimate), bij gerealiseerde waarneming x, is T (x). Volgens deze definitie zijn heel veel objecten schatters. Waar het om gaat is dat T (X) een functie van X is die niet van de parameter θ mag

2 4.2: Mean Square Error 45 afhangen: we moeten T (x) kunnen uitrekenen op grond van de data x. Na verrichting van de waarneming krijgt T een gerealiseerde waarde t = T (x), waarmee we θ (of g(θ)) schatten. We korten T (X) heel vaak af tot T. Het (Vlaamse) woord statistiek heeft wiskundig precies dezelfde definitie als schatter, maar wordt in een andere context gebruikt. Zowel schatters als schattingen van θ worden vaak aangegeven met ˆθ. Het dakje geeft aan dat ˆθ een functie van de waarneming is, maar deze notatie maakt geen verschil tussen de stochastische vector of zijn realisatie: ˆθ kan zowel ˆθ(X) als ˆθ(x) betekenen. Er zijn veel schattingsmethoden. In dit hoofdstuk bespreken we een aantal algemene principes, zoals de maximum likelihood-methode, de momentenmethode en de Bayes-methode. We beginnen echter met het opzetten van een kader om schatters onderling te kunnen vergelijken in hun prestatie. 4.2 Mean Square Error Hoewel iedere functie van de waarneming een schatter is, is niet iedere schatter een goede schatter. Een goede schatter voor g(θ) is een functie T van de waarneming zodanig dat T dichtbij de te schatten waarde g(θ) ligt. Nu is de afstand T g(θ) een onbevredigende maat om twee redenen: - deze maat hangt af van de onbekende waarde θ; - deze maat is stochastisch en niet uit te rekenen alvorens het experiment is uitgevoerd. Om aan de tweede moeilijkheid te ontkomen, beschouwen we de kansverdeling van T g(θ) onder de aanname dat θ de ware waarde is. De mooiste situatie zou zijn dat deze kansverdeling gedegeneerd is in 0, d.w.z. als θ de ware waarde is, dan is T g(θ) met kans 1 gelijk aan 0. Dit zou betekenen dat we geen schattingsfout maken, de schatting T (x) zou met zekerheid gelijk zijn aan de te schatten waarde. In de praktijk is dit helaas onmogelijk, en moeten we ons tevreden stellen met (gemiddeld) een zo klein mogelijke fout. We zoeken dan een schatter waarvan de verdeling onder de ware waarde θ zoveel mogelijk geconcentreerd is rond g(θ); of equivalent waarvoor de verdeling van T g(θ) zo veel mogelijk geconcentreerd is in een omgeving van 0. Voorbeeld 4.2 (Homogene verdeling). Veronderstel dat X 1,..., X n onderling onafhankelijk hom[0, θ]-verdeeld zijn. De waarneming is de vector X = (X 1,..., X n ), en we willen de onbekende θ schatten. Omdat E θ X i = 1 2 θ is het niet onredelijk om 1 2θ te schatten met het steekproefgemiddelde X, en θ met 2X; immers volgens de wet van de grote aantallen convergeert het steekproefgemiddelde (in kans) naar E θ X i = 1 2θ. Veronderstel eens dat

3 46 4: Schatters n = 10 en dat de data de volgende waarden hebben: 3.03, 2.70, 7.00, 1.59, 5.04, 5.92, 9.82, 1.11, 4.26, 6.96, zodat 2x = Deze schatting is met zekerheid te klein! Immers één van de waarnemingen is 9.82, zodat in elk geval θ Is er een betere schatter te verzinnen? We kunnen het zojuist gesignaleerde probleem ontlopen door het maximum X (n) van de waarnemingen te nemen. Ook het maximum is echter met zekerheid een onderschatting van de echte waarde. Alle waarnemingen x i zullen immers binnen het interval [0, θ] liggen. Een kleine correctie naar boven ligt voor de hand. We zouden bijvoorbeeld (n + 2)/(n + 1) X (n) als schatter kunnen gebruiken. Er zijn dus meerdere gegadigden. Welke schatter is nu de beste? Om inzicht in deze vraag te verkrijgen, voerden we het volgende simulatieexperiment uit. We kozen n = 50 en simuleerden 1000 onafhankelijke steekproeven ter grootte van 50 uit de homogene verdeling op [0, 1]. Voor iedere steekproef berekenden we de schatters 2X en (n+2)/(n+1)x (n). Figuur 4.1 toont histogrammen van de twee verzamelingen van 1000 schattingen van de parameter θ, links gebruikmakend van de schatter (n + 2)/(n + 1)X (n) en rechts van 2X. Deze histogrammen kunnen worden opgevat als benaderingen van de kansdichtheden van de schatters. De kansdichtheid in de figuur links is meer geconcentreerd rond de ware waarde θ = 1, dan de kansdichtheid rechts. We geven daarom de voorkeur aan de schatter (n+2)/(n+1)x (n) : gemiddeld ligt deze dichter bij de ware waarde. (Opmerkelijk is ook het verschil in vorm van de twee histogrammen: het linker lijkt wel wat op een (omgekeerde) exponentiële dichtheid, terwijl het rechter histogram een normale dichtheid benadert. Dat is theoretisch heel goed te verklaren. Hoe?) Figuur 4.1. Histogrammen van 1000 realisaties van de schatters (n + 2)/(n + 1)X (n) en 2X voor de parameter 1 van een homogene verdeling ieder gebaseerd op n = 50 waarnemingen. Overigens is het niet zo, dat de schatter (n+2)/(n+1)x (n) op ieder van

4 4.2: Mean Square Error 47 de 1000 steekproeven de beste schatting gaf. Dit is zichtbaar in Figuur 4.2, waarin op de verticale as het verschil (n + 2)/(n + 1)x (n) 1 2x 1 is uitgezet. Meestal was dit verschil negatief, maar soms was het positief in welk geval de schatter 2X een waarde gaf die dichter bij de ware waarde θ = 1 ligt. Omdat we in de praktijk de ware waarde niet kennen, is het niet mogelijk om hier de best of both worlds te kiezen. We zullen de schatter gebruiken die gemiddeld het beste is Figuur 4.2. Verschillen (n + 2)/(n + 1)x (n) 1 2x 1 van de absolute afstanden van de schattingen (n + 2)/(n + 1)x (n) en 2x tot de te schatten waarde 1 in Figuur 4.1. Ons simulatie-experiment geeft alleen aan dat (n + 2)/(n + 1)X (n) de betere schatter is als de ware waarde van θ gelijk is aan 1. Om te bepalen welke schatter beter is als θ een andere waarde bezit, zouden we het simulatie-experiment moeten herhalen met gesimuleerde steekproeven uit de homogene verdeling op [0, θ], voor iedere θ. Dit gaat natuurlijk niet, en dat is één reden om een wiskundige studie van het schattingsprobleem te maken. Een andere reden is dat we in plaats van paren schatters te ordenen, liever de absoluut beste schatter zouden willen bepalen. Omdat een kansverdeling een ingewikkeld object is, is het vergelijken van concentratie niet eenduidig bepaald. Het is daarom handig om concentratie in een getalswaarde uit te drukken, zodat we vervolgens alleen getallen hoeven te vergelijken. Dit kan op veel manieren. Een concentratiemaat die wiskundig relatief eenvoudig is te hanteren is de verwachte kwadratische fout (Engels: mean square error of MSE). Voor een schatter T voor de waarde g(θ) wordt deze gedefinieerd als MSE(θ; T ) = E θ T g(θ) 2. Het subscript θ in E θ is essentieel: de MSE is de verwachte kwadratische afstand van T tot g(θ) aangenomen dat θ de ware waarde van de para-

5 48 4: Schatters meter is (twee keer dezelfde θ in deze zin). We beschouwen de verwachte kwadratische fout als de functie θ MSE(θ; T ) voor een gegeven statistiek T. Een volledigere notatie zou zijn MSE(θ; T, g), maar omdat g vast ligt in de context van het probleem, laten we g weg in de notatie. De eerste moeilijkheid dat de kwaliteitsmaat afhangt van θ is nog niet opgelost: de verwachte kwadratische fout is een functie van θ. In principe is het genoeg als MSE(θ; T ) zo klein mogelijk is in de ware waarde van θ. Aangezien we deze niet kennen, streven we ernaar dat de verwachte kwadratische fout (relatief) klein is voor alle waarden van θ tegelijk. Afspraak 4.3. We geven de voorkeur aan een schatter met een kleine verwachte kwadratische fout (MSE) voor alle parameterwaarden van θ tegelijk. Als voor twee schatters T 1 en T 2 geldt dat E θ T 1 g(θ) 2 E θ T 2 g(θ) 2, voor alle θ Θ, met stricte ongelijkheid voor ten minste één waarde van θ, dan geven we de voorkeur aan T 1. De schatter T 2 heet dan niet-toelaatbaar (Engels: inadmissible). Het kan echter voorkomen dat deze ongelijkheid voor sommige θ correct is, maar voor andere θ strikt omgekeerd moet worden. Dan is het niet direct duidelijk aan welke van de twee schatters we de voorkeur moeten geven. Omdat de ware waarde van θ, zeg θ 0, onbekend is, weten we dan immers niet welke van MSE(θ 0 ; T 1 ) en MSE(θ 0 ; T 2 ) de kleinste is. In Paragraaf 7.2 bespreken we optimaliteitscriteria voor schatters en hoe optimale schatters te vinden zijn. In het huidige hoofdstuk bespreken we een aantal methoden om schatters te vinden waarvan intuïtief duidelijk is dat ze redelijk zijn, en vergelijken we verwachte kwadratische fouten. De verwachte kwadratische fout van een reëelwaardige schatter T kan worden ontbonden in twee termen: MSE(θ; T ) = var θ T + ( E θ T g(θ) ) 2 (ga na). Beide termen in deze decompositie zijn niet-negatief. Dus de verwachte kwadratische fout kan alleen klein zijn als beide termen klein zijn. Als de tweede term gelijk aan 0 is, dan heet de schatter zuiver. Definitie 4.4. Een schatter T heet zuiver (Engels: unbiased) voor het schatten van g(θ) als E θ T = g(θ) voor alle θ Θ. De onzuiverheid (Engels: bias) is gedefinieerd als E θ T g(θ). De tweede term in de ontbinding van MSE(θ; T ) is dus het kwadraat van de onzuiverheid. Voor een zuivere schatter is deze term identiek nul. Dit lijkt zeer wenselijk, maar is het lang niet altijd. De eis dat een schatter zuiver is kan namelijk veroorzaken dat de variantie juist heel groot is, zodat

6 4.2: Mean Square Error 49 we ruimschoots verliezen in de eerste term wat we bij de tweede gewonnen zouden hebben. In het algemeen leidt een kleine variantie tot een grotere onzuiverheid, en een kleine onzuiverheid tot een grote variantie. We moeten de twee termen dus tegen elkaar afwegen. De standaarddeviatie σ θ (T ) = var θ T van een schatter noemt men wel de standaardfout (Engels: standard error, of s.e.). Deze moet niet verward worden met de standaarddeviatie van de waarnemingen. De standaardfout σ θ (T ) hangt in principe af van de onbekende parameter θ en is dus zelf ook een onbekende. Omdat de onzuiverheid van redelijke schatters vaak klein is, geeft de standaardfout vaak een indruk van de kwaliteit van een schatter. Een schatting van de standaardfout wordt vaak gerapporteerd samen met de schatting zelf. Bij de bespreking van betrouwbaarheidsgebieden in Hoofdstuk 6 komen we hierop terug. We zoeken dus schatters met een kleine standaardfout en een kleine onzuiverheid. Voorbeeld 4.5 (Homogene verdeling). Veronderstel dat X 1,..., X n onderling onafhankelijk en hom[0, θ]-verdeeld zijn. De schatter 2X is zuiver, want, voor alle θ > 0, E θ (2X) = 2 n E θ X i = 2 n θ n n 2 = θ. De verwachte kwadratische fout van deze schatter is: MSE(θ; 2X) = 4 var θ X = 4 n 2 n De schatter X (n) is niet zuiver, want, voor alle θ > 0, E θ X (n) = θ 0 var θ X i = θ2 3n. xnx n 1 1 θ n dx = n n + 1 θ (zie Opgave 9.9 voor de verdeling van X (n) ). Toch geven we (voor niet te kleine n) de voorkeur aan X (n) boven 2X, want deze schatter heeft een kleinere verwachte kwadratische fout: MSE(θ; X (n) ) = var θ X (n) + ( E θ X (n) θ ) 2 = θ 2 n (n + 2)(n + 1) 2 + θ2( n n ) 2 = 2θ 2 (n + 2)(n + 1). We kunnen de onzuiverheid in X (n) opheffen door met een constante te vermenigvuldigen: de schatter (n + 1)/n X (n) is zuiver voor θ. De onzuivere

7 50 4: Schatters schatter (n + 2)/(n + 1) X (n) is echter beter dan alle tot nu toe genoemde schatters, want ( MSE θ; n + 2 ) n + 1 X θ 2 (n) = (n + 1) 2. Figuur 4.3 toont de verwachte kwadratische fout van deze laatste schatter tezamen met de verwachte kwadratische fouten van X (n) en 2X als een functie van θ voor n = 50. Voor waarden van θ dicht bij 0, is het verschil tussen de verwachte kwadratische fout van 2X en de andere twee schatters gering, maar het loopt snel op bij toenemende waarden van θ. Bij nadere beschouwing blijkt voor niet te kleine waarden van n het verschil in verwachte kwadratische fout tussen (n + 2)/(n + 1)X (n) en X (n) klein te zijn. De grotere precisie van (n + 2)/(n + 1)X (n) ten opzichte van 2X is echter wel snel zichtbaar bij toenemende n, omdat de verwachte kwadratische fout van de eerste een factor n kleiner is. We merkten al op (zie Figuur 4.2) dat de schatter (n + 2)/(n + 1) X (n) niet op iedere steekproef een beter resultaat geeft dan de schatter 2X. Het feit dat MSE ( 1; (n + 2)/(n + 1) X (n) ) < MSE(1; 2X) sluit dit zeker niet uit, omdat de verwachte kwadratische fout een verwachting is, en kan worden geïnterpreteerd als een gemiddelde waarde over een groot aantal realisaties. Een gemiddelde kan negatief zijn zonder dat alle termen negatief zijn. Gemiddeld is (n + 2)/(n + 1) X (n) (veel) beter Figuur 4.3. De verwachte kwadratische fouten als functie van θ van de schatters 2X (doorgetrokken lijn), X (n) (gestippelde lijn) en (n + 2)/(n + 1)X (n) (gestreepte lijn) voor de parameter in hom[0,θ] voor n = 50. Definitie 4.6. Zij X 1,..., X n een steekproef. Het steekproefgemiddelde is de stochastische grootheid X = 1 n n X i

8 4.2: Mean Square Error 51 en de steekproefvariantie is SX 2 = 1 n (X i X) 2. n 1 Voorbeeld 4.7 (Steekproefgemiddelde en -variantie). Veronderstel dat X 1,..., X n onderling onafhankelijk en identiek verdeeld zijn, en een onbekende marginale kansverdeling bezitten. We willen verwachting µ en variantie σ 2 van de waarnemingen schatten. Formeel kunnen we θ gelijk nemen aan de onbekende kansverdeling, het zogenaamde niet-parametrische model, dat de onderliggende kansverdeling niet nader specificeert. De parameters µ en σ 2 zijn functies van deze onderliggende kansverdeling. Het steekproefgemiddelde is een zuivere schatter voor µ, aangezien E θ X = 1 n n E θ X i = µ. De verwachte kwadratische fout van deze schatter wordt gegeven door MSE(θ; X) = var θ X = 1 n 2 n var θ X i = σ2 n. De verwachte kwadratische fout van X is dus een factor n kleiner dan de verwachte kwadratische fout van de schatter X i gebaseerd op één waarneming, MSE(θ, X i ) = var θ X i = σ 2. Aangezien de verwachte kwadratische fout een verwachte kwadratische afstand is, concluderen we dat de kwaliteit van de schatter X met n toeneemt. Dus voor een twee keer zo goede schatter zijn vier keer zoveel waarnemingen nodig. De steekproefvariantie is een zuivere schatter voor σ 2, want E θ SX 2 1 n = E θ ((X i µ) + (µ X)) 2 n 1 1 n [ ] = E θ (X i µ) 2 + (µ X) 2 + 2(µ X)(X i µ) n 1 = 1 n E θ (X i µ) 2 n n 1 n 1 E θ(x µ) 2 = σ 2, waarbij de laatste gelijkheid volgt uit E θ (X i µ) 2 = var θ X i = σ 2 en E θ (X µ) 2 = var θ X = σ 2 /n. De verwachte kwadratische fout van S 2 X kan met enig rekenwerk worden uitgedrukt in het vierde steekproefmoment van de waarnemingen, maar dit laten we achterwege.

9 52 4: Schatters Stel dat we op zoek zijn naar een zuivere schatter voor µ 2. Omdat X een zuivere schatter voor µ is, nemen we in eerste instantie X 2 als schatter voor µ 2. Deze schatter is echter niet zuiver: E θ (X) 2 = var θ X + (E θ X) 2 = σ2 n + µ2. Hieruit volgt direct dat E θ (X 2 σ 2 /n) = µ 2, maar omdat σ 2 een onbekende parameter is, is X 2 σ 2 /n geen schatter. Als we σ 2 vervangen door zijn zuivere schatter SX 2, dan vinden we dat X2 SX 2 /n een zuivere schatter is voor µ 2. * Voorbeeld 4.8 (Steekproeftheorie). Veronderstel dat een fractie p van een populatie een bepaalde eigenschap A bezit. We zullen drie methoden vergelijken om p te schatten, gebaseerd op een steekproef met teruglegging, een steekproef zonder teruglegging, en een gestratificeerde steekproef. Bij de eerste methode nemen we een steekproef ter grootte van n uit de populatie met teruglegging, en schatten p met de fractie X/n, waar X het aantal personen met eigenschap A in de steekproef is. Dan is X bin(n, p)-verdeeld en heeft verwachting np en variantie np(1 p). Aangezien E p (X/n) = p voor alle p is X/n een zuivere schatter. De verwachte kwadratische fout is ( MSE p; X ) ( X ) = var p = n n p(1 p). n Hieruit volgt, onder andere, dat de schatter beter is als p 0 of p 1, en het slechtste als p = 1 2. De verwachte kwadratische fout hangt niet af van de grootte van de populatie. Door n voldoende groot te kiezen, bijvoorbeeld n 1000, kunnen we een schatter krijgen met een verwachte kwadratische fout van maximaal (1/4)/1000=1/4000, onafhankelijk van het feit of de populatie uit 800 of een triljoen personen bestaat. Bij de tweede methode nemen we een steekproef ter grootte van n uit de populatie zonder teruglegging, en schatten p met de fractie Y/n, waar Y het aantal personen met eigenschap A in de steekproef is. Dan is Y hyp(n, pn, n)-verdeeld en heeft verwachting np en variantie np(1 p)(n n)/(n 1). Dus de schatter Y/n is eveneens zuiver; de verwachte kwadratische fout is ( MSE p; Y ) ( Y ) = var p = n n p(1 p) N n n N 1. Dit is kleiner dan MSE(p; X/n), hoewel het verschil te verwaarlozen is als n N. Dit is niet verbazend: het is niet handig al onderzochte personen eventueel nog eens te onderzoeken, maar als n N is de kans dat dit gebeurt te verwaarlozen.

10 4.3: Maximum Likelihood-Schatters 53 Bij de derde methode verdelen we de populatie eerst in een aantal subpopulaties, zogenaamde strata. Dit kan een indeling zijn naar regio, sekse, leeftijd, inkomen, beroep, of naar een andere achtergrondvariabele. Veronderstel dat de gehele populatie en de subpopulaties groottes N en N 1,..., N m bezitten. We trekken nu, voor het gemak van de volgende berekeningen met teruglegging, (N j /N)n personen uit de j e populatie, een gestratificeerde steekproef, en schatten p met Z/n voor Z het totaal aantal getrokken personen met eigenschap A. Dus Z = Z Z m voor Z j het aantal getrokken personen met eigenschap A uit de j e populatie. Nu zijn Z 1,..., Z m onderling onafhankelijk en bin ( (N j /N)n, p j )-verdeeld, met p j de fractie personen met eigenschap A in de j e populatie. Dan is ( Z ) E p = 1 m E p Z j = 1 m N j n n n N np j = 1 m N j p j = p, N j=1 j=1 ( MSE p; Z ) ( Z ) = var p = 1 m n n n 2 = p(1 p) n 1 n j=1 m j=1 var p Z j = 1 n 2 N j N (p j p) 2. j=1 m j=1 N j n N p j(1 p j ) De schatter Z/n is dus ook zuiver, en zijn verwachte kwadratische fout is kleiner of gelijk aan de verwachte kwadratische fout van X/n. Het verschil is vooral de moeite waard als de p j sterk verschillen. Gestratificeerde steekproeftrekking verdient dus als regel de voorkeur, hoewel het in de praktijk meer moeite kan betekenen. Soortgelijke resultaten gelden ook bij trekking zonder teruglegging, mits de strata- en steekproefgroottes aan bepaalde voorwaarden voldoen. Het is echter niet waar dat stratificatie in dit geval altijd tot grotere precisie leidt. 4.3 Maximum Likelihood-Schatters De methode van de maximum likelihood-schatters (Nederlands: methode van de meest aannemelijke schatters) is de meest gebruikte methode om schatters voor een onbekende parameter te vinden. Voordat deze methode in het algemeen wordt gepresenteerd, wordt voor het (eenvoudige) geval van de binomiale verdeling de maximum likelihood-schatter afgeleid in het volgende voorbeeld. Voorbeeld 4.9 (Binomiale verdeling). Veronderstel dat we 10 keer met een onzuivere munt gooien. De kans p op kop is bij deze munt niet noodzakelijkerwijze 1/2. Definieer X als het aantal malen kop in de 10 worpen.

11 54 4: Schatters De stochastische variabele X heeft dan een binomiale verdeling met parameters 10 en onbekende p [0, 1]. Stel dat we 3 maal kop werpen. De kans op deze uitkomst is gelijk aan ( ) 10 P p (X = 3) = p 3 (1 p) 7. 3 De kans p is onbekend en moet geschat worden. Welke waarde voor p is nu meest waarschijnlijk? p Figuur 4.4. De kans P p (X = 3) als functie van p waar de stochast X binomiaal verdeeld is met parameters 10 en p. In Figuur 4.4 is de kans P p (X = 3) getekend als functie van p. We zien dat er precies één waarde voor p is die deze kans maximaliseert, namelijk de waarde 0.3. Deze waarde voor p kent de grootste kans toe aan de waarneming 3 maal kop. De schatting ˆp = 0.3 blijkt in deze situatie de maximum likelihood-schatting te zijn. De maximum likelihood methode vereist de specificatie van de likelihood-functie, welke wordt afgeleid uit de kansdichtheid van de waarneming. Hierbij verstaan we onder een kansdichtheid p θ van een stochastische vector X de functie x P θ (X = x) als X discreet verdeeld is en de functie p θ zodanig dat P θ (X B) = B p θ(x) dx als X continu verdeeld is. Definitie Zij X een stochastische vector met een kansdichtheid p θ die van een parameter θ Θ afhangt. De functie θ L(θ; x): = p θ (x)

12 4.3: Maximum Likelihood-Schatters 55 opgevat als functie van θ Θ voor vaste x heet de likelihood-functie (Nederlands: aannemelijkheidsfunctie). Vaak is X = (X 1,..., X n ) een vector met onderling onafhankelijke identiek verdeelde coördinaten X i. Dan is de dichtheid van X het product n p θ(x i ) van de dichtheden van de X 1,..., X n, en de likelihood-functie wordt dan θ L(θ; x 1,..., x n ) = n p θ (x i ), waarin nu p θ de (marginale) dichtheid van een enkele X i weergeeft. De algemene definitie van maximum likelihood-schatters is echter geldig voor een waarnemingsvector van willekeurige vorm, en we geven er daarom de voorkeur aan de waarneming als x te schrijven, in plaats van (x 1,..., x n ), en de likelihood-functie als L(θ; x) p θ (x). Definitie De maximum likelihood-schatting voor θ is die waarde T (x) Θ die de functie θ L(θ; x) maximaliseert. De maximum likelihoodschatter (Nederlands: meest aannemelijke schatter) is de bijbehorende schatter T (X). In het geval van een discrete kansverdeling kan de maximum likelihoodschatting worden omschreven als: die waarde van de parameter die de grootste waarschijnlijkheid toekent aan de waargenomen waarde x. We maximaliseren in dat geval immers de kansdichtheid p θ (x) = P θ (X = x) naar θ voor vaste x (zie Voorbeeld 4.9). Dit is een intuïtief redelijk schattingsprincipe en verklaart de naam. Dit principe moet echter alleen beschouwd worden als een schattingsmethode: maximum likelihood-schatters zijn niet noodzakelijkerwijze de beste schatters, ondanks de mooie naam. Onder een beste schatter verstaan we een schatter met een zo klein mogelijke verwachte kwadratische fout. Voorbeeld 4.12 (Homogene verdeling). Zij x 1,..., x n een waargenomen steekproef uit de homogene verdeling op het interval [0, θ] waarbij θ > 0 onbekend is. De parameter θ willen we schatten met de maximum likelihoodschatter. Omdat de waargenomen x 1,..., x n in het interval [0, θ] liggen, moet gelden dat θ x i voor i = 1,..., n. Hieruit volgt direct dat θ x (n), waar x (n) de grootste waargenomen ordestatistiek is. De likelihood-functie voor de waargenomen x 1,..., x n is gelijk aan de simultane dichtheid van X 1,..., X n in x 1,..., x n, opgevat als functie van θ. Omdat X 1,..., X n onafhankelijk en gelijk verdeeld zijn, is de simultane dichtheid gelijk aan het product van de marginale dichtheden, welke gelijk zijn aan 1/θ op het interval [0, θ] en 0 daarbuiten. De likelihood-functie is daarom gelijk aan n 1 ( 1 ) n θ L(θ; x 1,..., x n ) = θ 1 0 x i θ = 1x(1) 01 x(n) θ. θ

13 56 4: Schatters Deze functie van θ is gelijk aan 0 voor θ < x (n) aangezien de indicatorfunctie 1 x(n) θ dan gelijk is aan 0. Voor θ x (n) is de likelihood-functie gelijk aan de dalende functie θ 1/θ n. Figuur 4.5 illustreert het verloop van de likelihood-functie (als functie van θ). De likelihood-functie is discontinu in het punt θ = x (n). In x (n) is de likelihood-functie rechts-continu en tevens maximaal; de maximum likelihood-schatting voor θ is derhalve gelijk aan x (n) en de bijbehorende maximum likelihood-schatter is X (n). 0e+00 2e 06 4e theta Figuur 4.5. Realisatie van de likelihood-functie voor een steekproef ter grootte 8 uit de homogene verdeling op [0, 5]. De maximum likelihood-schatting x (n) (de locatie van de piek) is Als g: Θ H een 1 1-duidige functie is met een verzameling H als bereik, dan zouden we het model ook door de parameter η = g(θ) H kunnen parametriseren in plaats van door θ Θ. Het volgt direct uit de definitie dat g(ˆθ) de maximum likelihood-schatter voor η is, als ˆθ de maximum likelihood-schatter voor θ is. In overeenstemming hiermee definiëren we voor iedere willekeurige functie g de maximum likelihood-schatter voor g(θ) simpelweg als g(ˆθ). Bij een gegeven model is het uitrekenen van de maximum likelihoodschatter een kwestie van calculus. Vaak geschiedt dit door de likelihoodfunctie te differentiëren en de afgeleiden gelijk aan nul te stellen. (Het geval van de homogene verdeling in Voorbeeld 4.12 is hier echter een uitzondering op.) Een trucje dat het rekenwerk beperkt (vooral bij onafhankelijke waarnemingen) is om eerst de logaritme van de likelihood te nemen. Omdat de logaritme een monotone functie is, geldt dat de waarde ˆθ de functie

14 4.3: Maximum Likelihood-Schatters 57 θ L(θ; x) maximaliseert dan en slechts dan als deze waarde de functie θ log L(θ, x) maximaliseert. (Het gaat om de plaats waar het maximum wordt aangenomen, niet de grootte van het maximum!) Voor vaste x wordt de log likelihood-functie gegeven door θ log L(θ; x) = log p θ (x). Als L differentieerbaar is in θ Θ R k en zijn maximum in een inwendig punt van Θ aanneemt, dan geldt θ j log L(θ; x) θ=ˆθ = 0, j = 1,..., k. Dit stelsel van likelihood-vergelijkingen is lang niet altijd expliciet oplosbaar. Zonodig gebruikt men iteratietechnieken om stapsgewijs een steeds betere benadering van de oplossing te verkrijgen, uitgaande van een geschikte startwaarde. De vector van partiële afgeleiden (gradiënt) van θ log L(θ; x) wordt de score-functie van het statistische model genoemd. Als de waarneming X = (X 1,..., X n ) is opgebouwd uit onafhankelijke, identiek verdeelde deelwaarnemingen X i, dan bezit de likelihood L(θ; x) voor waargenomen x de productstructuur L(θ; x) = i p θ(x i ). De log likelihood is dan n n θ log L(θ; x 1,..., x n ) = log p θ (x i ) = log p θ (x i ), waarin p θ de (marginale) dichtheid van een enkele X i weergeeft. De afgeleide van log L, de score-functie, is de som van de score-functies voor de individuele waarnemingen. De likelihood-vergelijkingen hebben dan de vorm met n l θ (x i ) θ=ˆθ = 0, l θ (x i ) = θ l θ (x i ) en l θ (x i ) = log p θ (x i ). De gradiënt l θ is de score-functie voor één waarneming. In verschillende voorbeelden wordt het maximum van de likelihoodfunctie niet in het inwendige van de parameterverzameling aangenomen. Dan is de maximum likelihood-schatter ˆθ meestal niet een stationair punt van de afgeleide van de likelihood-functie maar een randmaximum, en gelden de voorgaande vergelijkingen niet. In weer andere voorbeelden is de likelihood-functie niet overal differentieerbaar (of zelfs continu), en voldoet de maximum likelihood-schatter evenmin aan de likelihood-vergelijkingen. In Voorbeeld 4.12 is deze situatie al geïllustreerd. Voorts is het mogelijk dat de likelihood-functie meerdere (locale) maxima en ook minima bezit. Dan kunnen de likelihood-vergelijkingen meer dan één oplossing bezitten.

15 58 4: Schatters De maximum likelihood-schatter is per definitie het globale maximum van de likelihood-functie. In Definitie 4.11 wordt de maximum likelihood-schatter gebaseerd op de maximum likelihood-schatting. In de praktijk schrijft men echter vaak direct de (log) likelihood-functie in termen van de stochastische grootheid X in plaats van de realisatie x en leidt op die manier direct de schatter af door deze functie te maximaliseren naar θ. Deze verkorte notatie wordt gehanteerd in de volgende voorbeelden van toepassingen van de maximum likelihood-methode. Voorbeelden waarin de methode wordt toegepast op regressiemodellen zijn te vinden in Hoofdstuk 8. Voorbeeld 4.13 (Alternatieve verdeling). De kansdichtheid van de alternatieve verdeling alt(p) kan worden geschreven als x p x (1 p) 1 x ; voor x = 0 staat hier 1 p en voor x = 1 staat er p. Voor een steekproef X 1,..., X n uit de alt(p)-verdeling is de log likelihood-functie derhalve n p log L(p; X 1,..., X n ) = log p X i (1 p) 1 X i = n X i log p + ( n n ) X i log(1 p). Neem de parameterverzameling gelijk aan het interval [0, 1]. Als 0 < n X i < n, dan geldt log L(p; X) als p 0 of p 1, zodat L(p; X) zijn maximum aanneemt op (0, 1). Nulstellen van de afgeleide naar p geeft één oplossing; de maximum likelihood-schatter ˆp = X. Als n X i gelijk is aan 0 of n, dan heeft L(p; X) een randmaximum in 0 of 1. Ook in deze gevallen kan de maximum likelihood-schatter worden geschreven als ˆp = X. Voorbeeld 4.14 (Binomiale verdeling). Veronderstel dat X binomiaal verdeeld is met bekende parameter n en onbekende parameter p. De log likelihood-functie voor X is gelijk aan ( ( n p log L(p; X) = log )p X (1 p) n X) X ( ) n = log + X log p + (n X) log(1 p). X De maximum likelihood-schatter voor p is de waarde in [0, 1] die deze functie maximaliseert. Termen die niet van p afhangen hebben wel invloed op de grootte van het maximum, maar niet op de locatie van het maximum. Deze termen mogen we daarom weglaten bij het bepalen van de maximum likelihood-schatter. Het is dus voldoende de functie p X log p + (n X) log(1 p)

16 4.3: Maximum Likelihood-Schatters *10^-6 6*10^-6 10^ Figuur 4.6. Een realisatie van de likelihood-functie als functie van p voor een steekproef uit de alternatieve verdeling. De waargenomen waarde is Σ n xi = 5 voor n = 20, en de maximum likelihood-schatting is ˆp = te maximaliseren naar p [0, 1]. Deze functie is gelijk aan de log likelihoodfunctie in Voorbeeld 4.13 voor X = n X i. Dit is niet merkwaardig aangezien n X i bin(n, p)-verdeeld is als X 1,..., X n onderling onafhankelijk en alternatief verdeeld zijn met parameter p. Maximalisatie van de log likelihood-functie naar p gaat dus analoog aan de maximalisatie in Voorbeeld De maximum likelihood-schatter voor p is ˆp = X/n. Dit komt in het geval van de onzuivere munt in Voorbeeld 4.9 overeen met ˆp = 0.3. Voorbeeld 4.15 (Exponentiële verdeling). Veronderstel dat X 1,..., X n een steekproef is uit de exponentiële verdeling met onbekende parameter λ > 0. Dan is de log likelihood-functie voor X 1,..., X n gelijk aan λ log n λe λxi = n log λ λ n X i. De parameterruimte voor λ is (0, ). Nulstellen van de afgeleide van de log likelihood-functie naar λ en de gevonden vergelijking oplossen naar λ geeft ˆλ = 1/X. De tweede afgeleide van de log likelihood-functie naar λ is negatief voor alle λ > 0, dus in ˆλ heeft de likelihood-functie ook daadwerkelijk een maximum. De maximum likelihood-schatter van E θ X i kunnen we hieruit afleiden. Definieer de functie g als g(λ) = 1/λ voor λ > 0. Dan geldt EX i = g(λ). De maximum likelihood-schatter voor EX i = 1/λ = g(λ) is daarom gelijk aan g(ˆλ) = 1/ˆλ = X. Voorbeeld 4.16 (Verschoven exponentiële verdeling). De kansdichtheid

17 60 4: Schatters van een stochastische variabele X met een verschoven exponentiële verdeling is gelijk aan f α,λ (x) = λe λ(x α) voor x α, en 0 voor x < α. Hierin is α de verschuivingsparameter en λ de intensiteitsparameter als in de niet verschoven exponentiële verdeling. Veronderstel dat X 1,..., X n een steekproef is uit de verschoven exponentiële verdeling met onbekende parameters α en λ. De likelihood-functie voor deze steekproef is gelijk aan (α, λ) L(α, λ; X 1,..., X n ) = n λe λ(xi α) 1 Xi α = λ n e λ n (Xi α) 1 X(1) α. De likelihood is gelijk aan 0 voor α > X (1), omdat dan de indicatorfunctie 1 X(1) α gelijk aan 0 is. Voor α X (1) en voor vaste λ > 0 is de likelihoodfunctie stijgend als functie van α en dus maximaal in α = X (1). De maximum likelihood-schatter voor α is daarom gelijk aan ˆα = X (1). Substitueren we deze waarde in de likelihood, en maximaliseren we naar λ op dezelfde manier als in Voorbeeld 4.15, dan vinden we dat de maximum likelihoodschatter voor λ gelijk is aan ˆλ = n/ n (X i X (1) ). In dit geval kunnen de maximum likelihood-schatters voor de parameters dus in twee stappen worden gevonden, eerst ˆα en daarna ˆλ. Dat dit inderdaad het globale maximum van de likelihood oplevert, wordt ook geïllustreerd in Figuur 4.7. l L a Figuur 4.7. Een realisatie van de likelihood-functie voor een steekproef uit een verschoven exponentiële verdeling ter grootte n = 20. De waargenomen waarden zijn x = 5 en x (1) = 1.5. De maximum likelihood-schattingen zijn ˆα = 1.5 en ˆλ = 1/

18 4.3: Maximum Likelihood-Schatters 61 Voorbeeld 4.17 (Normale verdeling). De log likelihood-functie voor een steekproef X 1,..., X n uit de N(µ, σ 2 )-verdeling wordt gegeven door (µ, σ 2 ) log n 1 1 2πσ 2 e 2 (Xi µ)2 /σ 2 = 1 2 n log 2π 1 2 n log σ2 1 n 2σ 2 (X i µ) 2. We nemen de natuurlijke parameterruimte voor de parameter θ = (µ, σ 2 ): Θ = R (0, ). De partiële afgeleiden van de log likelihood naar µ en σ 2 zijn µ log L(µ, σ2 ; X) = 1 n σ 2 (X i µ) σ 2 log L(µ, σ2 ; X) = n 2σ σ 4 n (X i µ) 2. Nulstellen van de eerste vergelijking geeft één oplossing: ˆµ = X. In deze waarde voor µ heeft de log likelihood inderdaad een globaal maximum voor iedere σ 2 > 0 aangezien de waarde van de log likelihood naar gaat voor µ ±. Vervolgens substitueren we µ = ˆµ in de tweede partiële afgeleide, stellen deze gelijk aan 0 en lossen de likelihood-vergelijking vervolgens op naar σ 2. Dit geeft opnieuw één oplossing: ˆσ 2 = n 1 n (X i X) 2. Om gelijke reden als hiervoor heeft de log likelihood functie in deze waarde inderdaad een maximum. (Overigens levert het maximaliseren van de log likelihood-functie naar σ in plaats van σ 2 de wortel uit ˆσ 2 als maximum likelihood-schatter voor σ op.) Om te controleren of de (differentieerbare) log likelihood-functie een maximum heeft in de gevonden oplossing van de likelihood-vergelijkingen, kan ook de Hessiaan-matrix van de log likelihoodfunctie in het punt (ˆµ, ˆσ 2 ) berekend worden, welke hier gelijk is aan ( ) 1 nˆσ 2 0 ˆσ 4. 0 n/2 Beide eigenwaarden van deze matrix zijn negatief en daarmee heeft de log likelihood een maximum in het punt (ˆµ, ˆσ 2 ). De gevonden maximum likelihood-schatter voor (µ, σ 2 ) is gelijk aan ( X, 1 n (X i X) 2) ( = X, n 1 ) n n S2 X met SX 2 = 1 n (X i X) 2. n 1

19 62 4: Schatters Het steekproefgemiddelde is zuiver voor µ, maar de maximum likelihoodschatter ˆσ 2 heeft een lichte onzuiverheid (zie Voorbeeld 4.7). Vanwege de kleine onzuiverheid wordt vaak de voorkeur gegeven aan de steekproefvariantie SX 2 = (n/(n 1))ˆσ2. De verwachte kwadratische fout van SX 2 is echter groter dan die van ˆσ 2, en beide verliezen het van ( (n 1)/(n + 1) ) SX 2 in termen van de verwachte kwadratische fout. Omdat het verschil klein is voor grote aantallen waarnemingen, maakt het meestal niet veel uit welke van deze schatters wordt gebruikt. Een ander model wordt verkregen als we µ bekend veronderstellen. Dan is de parameter θ = σ 2 en de parameterverzameling (0, ). We vinden dan dat de maximum likelihood-schatter van σ 2 gelijk is aan n 1 n (X i µ) 2. Merk op dat dit alleen een schatter is als µ bekend mag worden verondersteld! Voorbeeld 4.18 (Normale verdeling met restrictie). Veronderstel dat de waarnemingen X 1,..., X n onafhankelijk en normaal verdeeld zijn met verwachting µ en variantie 1, waarbij bekend is dat µ 0. Voor x 1,..., x n een realisatie van X 1,..., X n, neemt de likelihood-functie op R een absoluut maximum aan in x. Omdat x negatief kan zijn en bekend is dat µ 0, is x niet de maximum likelihood-schatting. In het geval dat x 0, neemt de likelihood-functie op de parameterverzameling [0, ) een randmaximum aan in 0. De maximum likelihood-schatting is x als deze niet-negatief is en anders 0. De bijbehorende maximum likelihood-schatter is dan X1 X 0 ; X als X 0 en 0 anders. Een statistisch model en de maximum likelihood-schatter worden bepaald door zowel de vorm van de dichtheid van de waarneming als de definitie van de parameterverzameling! Voorbeeld 4.19 (Gamma-verdeling). Stel dat X 1,..., X n een steekproef is uit de Gamma-verdeling met kansdichtheid p α,λ (x) = xα 1 λ α e λx. Γ(α) Hierin zijn α > 0 en λ > 0 de onbekende vormen inverse schaalparameter, en Γ de Gamma-functie Γ(α) = 0 s α 1 e s ds. Het vereist enig rekenwerk om deze bewering te staven. Stelling 5.26 kan worden gebruikt om dit rekenwerk te vergemakkelijken. Zie Opgave 5.24 in Hoofdstuk 5.

20 4.3: Maximum Likelihood-Schatters 63 De log likelihood-functie voor X 1,..., X n is dan gelijk aan n X α 1 i λ α e λxi (α, λ) log Γ(α) n = (α 1) log X i + nα log λ λ n X i n log Γ(α). De parameterruimte voor θ = (α, λ) nemen we gelijk aan Θ = [0, ) [0, ). Om de maximum likelihood-schatters voor α en λ te vinden, bepalen we de partiële afgeleiden van de log likelihood-functie naar λ en α λ log L(α, λ; X 1,..., X n ) = nα n λ X i, α log L(α, λ; X 1,..., X n ) = n log X i + n log λ n 0 0 s α 1 log s e s ds. s α 1 e s ds (In de afgeleide naar α hebben we de Gamma-functie α Γ(α) onder het integraalteken gedifferentieerd en gebruikt dat ( / α)s α = s α log s.) De partiële afgeleiden zijn gelijk aan 0 in de maximum likelihood schatters (ˆα, ˆλ); dit geeft twee likelihood-vergelijkingen. Uit de eerste vergelijking volgt onmiddellijk dat ˆλ = ˆα/X. Dit substitueren we in de tweede likelihood-vergelijking. Dit geeft n log X i + n log ˆα n log X n 0 0 sˆα 1 log s e s ds = 0. sˆα 1 e s ds Deze vergelijking heeft geen expliciete oplossing voor ˆα, maar kan numeriek, met een iteratieve methode, worden opgelost wanneer een realisatie voor X 1,..., X n is waargenomen. De gevonden waarde ˆα substitueren we vervolgens in de vergelijking ˆλ = ˆα/X om ˆλ te vinden. Om te controleren of de log likelihood-functie in de oplossing ook daadwerkelijk een maximum heeft, moeten we de eigenwaarden van de Hessiaan-matrix in (ˆα, ˆλ) berekenen. Als deze beide eigenwaarden negatief zijn in (ˆα, ˆλ), dan is (ˆα, ˆλ) inderdaad de maximum likelihood-schatter voor (α, λ). Voorbeeld 4.20 (Multinomiale verdeling). Veronderstel dat de vector X = (X 1,..., X m ) een multinomiale verdeling heeft met parameters n en (p 1,..., p m ), waar p p m = 1. We veronderstellen dat n bekend is en de kansen p 1,..., p m onbekend zijn. De te schatten parameter is dan θ = (p 1,..., p m 1 ), omdat p m = 1 p 1... p m 1 vastligt zodra p 1,..., p m 1 bekend zijn. De likelihood-functie is in dit geval gegeven door ( n θ X 1 X k ) ( m 1 ) p X i i (1 (p p m 1 )) X m

21 64 4: Schatters en de log likelihood-functie is gelijk aan ( θ log n X 1 X k ) + ( m 1 X i log p i ) + X m log(1 (p p m 1 )). Differentiatie van de log likelihood-functie naar p 1,..., p m 1 geeft de m 1 likelihood-vergelijkingen: X i ˆp i X m = 0 voor i = 1,..., m 1. 1 (ˆp ˆp m 1 ) Deze vergelijkingen zijn te schrijven als ˆp i = X i ˆp m X m voor i = 1,..., m 1 Om de vergelijkingen op te lossen sommeren we alle m 1 vergelijkingen m 1 ˆp i = ˆp m 1 m X i = 1 ˆp m = ˆp m (n X m ). X m X m Uit deze laatste vergelijking volgt dat ˆp m = X m /n. De maximum likelihoodschatters voor de overige kansen volgen direct uit de gevonden relaties ˆp i = ˆp m X i /X m en zijn gelijk aan ˆp i = X i /n. Om te laten zien dat de (log) likelihood daadwerkelijk een maximum bezit in ˆθ = (ˆp 1,..., ˆp m 1 ) kan men nagaan dat de eigenwaarden van de Hessiaan-matrix in ˆθ negatief zijn. Deze berekening is in dit geval echter complex en laten we hier achterwege. Voorbeeld 4.21 (Toepassing, aantal bacteriën). Bacteriën in vervuild water zijn onmogelijk met het oog of een microscoop te tellen. Om toch een idee te krijgen van de mate van vervuiling maken we een inschatting van het aantal bacteriën in een centiliter water. We gaan als volgt te werk. We veronderstellen dat het aantal bacteriën in een centiliter vervuild water Poisson-verdeeld is met parameter µ. Om een indicatie te krijgen van het aantal bacteriën in het vuile water, willen we µ schatten. We gieten het vuile water in een bak met 1000 liter zuiver water, roeren goed en verdelen het water vervolgens over 1000 kweekbakken. Daarna kijken we in elke kweekbak of zich een kolonie vormt. Is dit het geval, dan zat er tenminste één bacterie in deze liter; is dit niet het geval, dan was deze liter bacterievrij. Definieer X als het totaal aantal bacteriën in de centiliter vervuild water, dan kunnen we X schrijven als X = 1000 X i, waarbij X i het aantal bacteriën is in de i e kweekbak is. De variabelen X 1,..., X 1000 zijn dan onderling onafhankelijk en Poisson-verdeeld met parameter µ/1000. We kunnen X 1,..., X 1000 echter niet waarnemen, maar nemen alleen Y 1,..., Y 1000 waar, met Y i gedefinieerd door { 0 als zich in de i Y i = e bak geen kolonie vormt 1 anders.

22 4.3: Maximum Likelihood-Schatters 65 De waarnemingen Y i zijn onafhankelijk en alternatief verdeeld met P (Y i = 0) = P (X i = 0) = e µ/1000 en P (Y i = 1) = 1 e µ/1000. Definieer p: = P (Y i = 1) = 1 e µ/1000. In Voorbeeld 4.13 is de maximum likelihood-schatter voor de parameter p van de alternatieve verdeling afgeleid. Gebaseerd op de steekproef Y 1,..., Y 1000 is deze schatter gelijk aan ˆp = 1000 Y i/1000. Aangezien p = 1 e µ/1000 is µ gelijk aan 1000 log(1 p) en wordt de maximum likelihood-schatter voor µ gegeven door ˆµ = 1000 log( Y i/1000). Voorbeeld 4.22 (Toepassing, Poisson-voorraden). In Voorbeeld 2.6 wordt een statistisch model beschreven voor het totaal aantal verkochte exemplaren van een bepaald artikel per week en per filiaal. Men neemt waar X = (X 1,1, X 1,2,..., X I,J ), waarbij X i,j het aantal artikelen is dat verkocht werd in filiaal i in week j. Veronderstel dat X 1,1,..., X I,J onderling onafhankelijk zijn en X i,j Poisson-verdeeld is met onbekende parameter µ i. De parameter µ i is slechts afhankelijk van het filiaal en niet van de week. De parameters µ 1,..., µ I schatten we met de maximum likelihood-methode. De log likelihood-functie voor X 1,1,..., X I,J is gelijk aan (µ 1,..., µ I ) = I J j=1 log (e I Jµ i + µxi,j µi i I X i,j! j=1 ) J X i,j log µ i I j=1 J log(x i,j!). We nemen de natuurlijke parameterverzameling (0, ) I voor (µ 1,..., µ I ). Oplossen van de likelihood-vergelijkingen geeft ˆµ k = J 1 J j=1 X k,j, mits J j=1 X k,j > 0. Het is gemakkelijk na te gaan dat de Hessiaan-matrix in een willekeurig punt (µ 1,..., µ I ) een diagonaal matrix is met slechts negatieve eigenwaarden wanneer J j=1 X k,j > 0 voor alle k. Als J j=1 X k,j = 0 (hetgeen met positieve kans het geval is), bestaat er feitelijk geen maximum likelihood-schatter van µ k, omdat de likelihood-functie in dat geval strikt dalend is en dus geen maximum aanneemt op (0, ). Definiëren we de Poisson-verdeling met parameter 0 als de in het punt 0 ontaarde kansverdeling en breiden we de parameterverzameling voor µ k uit tot [0, ) voor iedere k, dan is J 1 J j=1 X k,j de maximum likelihood-schatter voor µ k. Als het aantal verkochte artikelen lineair verandert met de weken, kunnen we veronderstellen dat µ i,j = µ i (1 + βj). Hier nemen we aan dat de verandering β gelijk is voor alle filialen. In dat geval is de log likelihoodfunctie voor X 1,1,..., X I,J gelijk aan (µ 1,..., µ I, β) I j=1 J ( ) µ i (1 + βj) + X i,j log(µ i (1 + βj)) log(x i,j!).

23 66 4: Schatters De likelihood-vergelijkingen voor µ k en β zijn gelijk aan J ( (1 + ˆβj) + X ) k,j = 0 voor k = 1,..., I ˆµ k j=1 I J ( j=1 ˆµ i j + jx i,j 1 + ˆβj ) = 0. Expliciete oplossingen van deze vergelijkingen zijn er niet, maar de nulpunten van de afgeleiden kunnen met een iteratief algoritme gevonden worden. * Voorbeeld 4.23 (Autoregressie). De maximum likelihood-methode is niet beperkt tot onafhankelijke waarnemingen. We illustreren dit met een model dat vaak wordt gebruikt voor het analyseren van een variabele die in de tijd varieert, het autoregressieve model: X i = βx i 1 + e i. Hierin is β een onbekende parameter, en de variabelen e 1,..., e n zijn nietwaarneembare toevalsfluctuaties, in deze context ook wel innovaties genoemd. Dit model lijkt veel op het lineaire regressiemodel zonder intercept, behalve dat de waarneming X i wordt verklaard door regressie op de waarneming X i 1. Als we de index i {1,..., n} interpreteren als opeenvolgende momenten in de tijd, dan vindt regressie plaats van X i op het verleden X i 1 van de reeks zelf, vandaar de term autoregressie. We beschouwen hier het autoregressiemodel van orde 1; een uitbreiding naar regressie op meer dan een variabele in het verleden ligt voor de hand. De volgorde van de datapunten is nu van groot belang en een weergave van de data als een functie in de tijd zinvol. Figuur 4.8 geeft drie mogelijke realisaties (x 0, x 1,..., x n ) van de vector (X 0, X 1,..., X n ), als plot van de index i op de horizontale as tegen de waarde x i op de verticale as. Alle drie realisaties starten met x 0 = 1, maar zijn daarna gegenereerd volgens het model X i = βx i 1 + e i met onafhankelijke innovaties e i maar met dezelfde waarde van β. Het statistische probleem is de waarde van β te schatten op basis van een waargenomen realisatie (x 0, x 1,..., x n ). We zullen dit oplossen met behulp van de maximum likelihood-methode. We maken de beschrijving van het model volledig door aan te nemen dat X 0 verdeeld is volgens een kansdichtheid p X0 en dat de innovaties e 1,..., e n onafhankelijke, normaal N(0, σ 2 )-verdeelde grootheden vormen, die onafhankelijk zijn van X 0. De likelihood-functie is de simultane kansdichtheid van de waarnemingsvector X = (X 0,..., X n ). Daar de waarnemingen X 0, X 1,..., X n stochastisch afhankelijk zijn, is de simultane dichtheid niet het product van de marginale dichtheden. We kunnen echter

24 4.3: Maximum Likelihood-Schatters Figuur 4.8. Drie realisaties van de vector (X 0, X 1,..., X 50 ) verdeeld volgens het autoregressieve model met standaard normale innovaties, x 0 = 1 en β = 0.7. Ieder van de drie grafieken is een lineaire interpolatie van de punten {(i, x i ): i = 0,..., 50}. gebruikmaken van de algemene decompositie voor een simultane dichtheid: p X 0,...,X n (x 0,..., x n ) = p X 0 (x 0 )p X 1 X 0 (x 1 x 0 )p X 2 X 0,X 1 (x 2 x 0, x 1 ) p X n X 0,...,X n 1 (x n x 0,..., x n 1 ). Deze formule geeft een factorisatie van de simultane dichtheid als een product van voorwaardelijke dichtheden, en generaliseert de productformule voor het geval van onafhankelijke waarnemingen. De formule kan worden bewezen door herhaalde toepassing van de formule f X,Y (x, y) = f X (x)f Y X (y x). In het autoregressieve model is de voorwaardelijke dichtheid van X i gegeven X 0 = x 0,..., X i 1 = x i 1 gelijk aan de dichtheid van βx i 1 + e i, dat wil zeggen de dichtheid van de normale verdeling met verwachting βx i 1 en variantie var e i = σ 2. De likelihood-functie heeft derhalve de vorm n 1 ( (β, σ) L(β, σ; X 0,..., X n ) = p X0 (X 0 ) σ φ Xi βx ) i 1. σ Hierin hebben we de dichtheid van X 0 nog niet nader gespecificeerd. Omdat deze dichtheid slechts één term van de n+1 termen beïnvloedt, en n meestal groot is, wordt dit vaak achterwege gelaten. De term p X0 (X 0 ) wordt dan weggelaten uit de likelihood-functie, en de analyse wordt voorwaardelijk de waarde van X 0 uitgevoerd. Met deze definitie van de likelihood-functie kan de (voorwaardelijke) maximum likelihood-schatter voor de parameter (β, σ) worden bepaald volgens dezelfde berekeningen als in het lineaire regressiemodel (zie Paragraaf 8.1.1). De maximum likelihood-schatter ˆβ minimaliseert de kwadraat-

25 68 4: Schatters som β n (X i βx i 1 ) 2 en is gelijk aan n ˆβ = X ix i 1 n. X2 i 1 De maximum likelihood-schatter voor σ 2 is ˆσ 2 = 1 n (X i n ˆβX i 1 ) 2. Afhankelijk van de modellering van de beginwaarneming X 0 nemen de maximum likelihood-schatters gebaseerd op de onvoorwaardelijke likelihoodfunctie een iets andere vorm aan. * Voorbeeld 4.24 (Onbekende dichtheid). Veronderstel dat X 1,..., X n een steekproef is uit een verdeling met een onbekende kansdichtheid f. In de voorgaande voorbeelden waren de kansverdelingen bekend op een eindigdimensionale parameter na, bijvoorbeeld de exponentiële verdeling met onbekende parameter λ. In dit voorbeeld veronderstellen we dat er helemaal niets over de dichtheid f bekend is. Om f te schatten zullen we opnieuw de maximum likelihood-methode gebruiken. De log likelihoodfunctie voor de steekproef X 1,..., X n wordt gegeven door f log L(f; X 1,..., X n ) = log n f(x i ) = n log f(x i ). Deze functie moet gemaximaliseerd worden naar de kansdichtheid f over de verzameling van alle kansdichtheden, dat is over alle niet-negatieve functies f zodanig dat f(x)dx = 1. Dit maximum bestaat echter niet. Om dit in te zien beperken we ons tot kansdichtheden h ε met ε > 0 van de vorm h ε (x) = n 1 nε 1 [X i ε/2,x i+ε/2](x), dat wil zeggen dichtheden die een hoogte 1/(nε) hebben op de intervallen [X i ε/2, X i + ε/2] voor i = 1,..., n en daarbuiten nul zijn, zie Figuur 4.9. Als de kansverdeling waaruit de steekproef genomen is continu is, dan zullen deze intervallen elkaar niet overlappen mits ε maar klein genoeg is, en is h ε (x)dx = nε 1 nε = 1. De restrictie van de log likelihood-functie tot de dichtheden h ε wordt dan gegeven door ε n log h ε (X i ) = n log 1 = n log nε. nε

Nog meer weergeven