Mathematische Statistiek

Transcriptie

1 Mathematische Statistiek Bert van Es Korteweg-de Vries Instituut Universiteit van Amsterdam Plantage Muidergracht TV Amsterdam 5 februari 2007

2 ii

3 Inhoudsopgave 1 Introductie 1 2 Algemene begrippen Voorwaardelijke verwachtingen en voorwaardelijke kansen Voldoende sigma-algebra s en voldoende stochastische variabelen Schattingstheorie Meest nauwkeurige zuivere schatters Constructie van meest nauwkeurig zuivere schatters Exponentiële families van kansverdelingen Een extra criterium voor het bestaan van de m.n.z.s Ondergrenzen aan de nauwkeurigheid van schatters Meest aannemelijke schatters Toetsingstheorie Het fundamentele lemma van Neyman en Pearson Families met een monotone aannemelijkheidsverhouding Zuivere toetsen Voorwaardelijke toetsen: de t-toets A Aanvulling integratietheorie en kansrekening 65 A.1 De overplantingsstelling A.2 Existentie van voorwaardelijke verwachtingen A.3 Berekening van voorwaardelijke verwachtingen A.3.1 Discrete verdelingen A.3.2 Continue verdelingen B Opgaven 73 iii

4 iv

5 Hoofdstuk 1 Introductie In de kansrekening zijn we gewend om stochastische variabelen te zien als meetbare functies van een algemene kansruimte (Ω, F, P naar de reële getallen R met de Borel sigma-algebra B. Hierbij is Ω de verzameling van mogelijke uitkomsten, F een sigmaalgebra van deelverzamelingen van Ω, en P een kansmaat op de meetbare ruimte (Ω, F. Analoog, na vervanging van R door R d, zijn de stochastische vectoren ingevoerd. In de mathematische statistiek nemen we als uitgangspunt, in plaats van de algemene kansruimte (Ω, F, P, een statistisch experiment, een drietal (X, A, P, bestaande uit 1. een uitkomstenruimte X 2. een sigma-algebra A van deelverzamelingen van X 3. een familie P van kansmaten op de meetbare ruimte (X, A, d.w.z. P = {P θ : θ Θ}. Hierbij is P θ voor elke θ Θ een kansmaat op (X, A. De variabele θ noemen we een parameter en de verzameling Θ de parameterruimte. Een uitkomst X voeren we dan als wiskundig begrip in als de identieke functie van X naar X. Als de uitkomstenruimte gelijk is aan R (of aan R d met de Borel sigma-algebra, dan is de uitkomst X een stochastische variabele (of een stochastische vector. Voorbeeld (Binomiaal experiment Dit experiment is het wiskundige model voor een waarneming met een Binomiale verdeling. Zij n een gegeven natuurlijk getal. Neem X gelijk aan de verzameling {0, 1,..., n}, A gelijk aan de sigma-algebra bestaande uit alle deelverzamelingen van X. De kansmaten P θ definiëren we door hun waarden te geven op de verzamelingen die uit een element bestaan. Deze waarden bepalen dan ook de hele kansmaat. Voer in ( n P θ ({k} = θ k (1 θ n k, voor k = 0, 1,..., n. k 1

6 Zoals gedefinieerd is de uitkomst X van dit experiment gelijk aan de identieke afbeelding van X naar X. We kunnen dan kansen op verzamelingen die beschreven kunnen worden in termen van X als volgt uitrekenen P θ (X = k = P θ ({x : X(x = k} = P θ ({k}. Voorbeeld (Normaal experiment Dit experiment is het wiskundige model voor een waarneming met een normale verdeling. Neem X = R, A = B, de Borel sigma-algebra van R. De parameter is gelijk aan θ = (µ, σ en de parameterruimte is R (0,. De kansmaten P θ = P (µ,σ worden vastgelegd door P θ (B = B 1 σ 2π e 1 2( t µ σ 2 dt. Voor de uitkomst van het experiment geldt, omdat X de identieke afbeelding is, ook hier P θ (X B = P θ (B. Voorbeeld (Steekproef uit P θ De bovenstaande voorbeelden gingen over een waarneming met een verdeling uit een bepaalde familie van kansverdelingen. In de statistiek werken we vaak met steekproeven. Een steekproef van omvang n bestaat uit onderling onafhankelijke stochastische variabelen X 1,..., X n die alle dezelfde kansverdeling hebben. Stel nu dat elke X i een uitkomst is van een experiment (X, A, P, zoals boven beschreven. Als we overgaan op productruimten en productkansmaten dan kunnen we een steekproef ook als een statistisch experiment beschrijven. Neem 1. X = X X X = X n, 2. A = A A A = A n, 3. P = {P n θ : θ Θ}. Met (X, A, P hebben we nu een nieuw experiment gedefinieerd dat als wiskundig model voor een steekproef zal fungeren. De twee hoofdproblemen van de mathematische statistiek zijn het schatten van de waarde van de parameter θ en het toetsen van een bewering, hypothese, over de parameter θ. We gaan er dan van uit dat we beschikken over een realisatie x van de uitkomst X. Schattingstheorie en toetsingstheorie zijn de onderwerpen van Hoofdstukken 3 en 4. In Hoofdstuk 2 komen een aantal basisbegrippen aan de orde zoals voldoende stochastische variabelen, voorwaardelijke verwachtingen en voorwaardelijke kansverdelingen. 2

7 Voorbeeld Om het begrip voldoende stochastische variabele te illustreren beschouwen we een steekproef X 1,..., X n van n onderling onafhankelijke alternatieven, d.w.z. de waarnemingen zijn nul of een en P θ (X i = 1 = 1 P θ (X i = 0 = θ, waarbij θ (0, 1. Laten we de som van de waarnemingen noteren met S n. We weten dat S n Binomiaal verdeeld is met parameters n en θ. Er geldt dus ( n P θ (S n = k = θ k (1 θ n k, voor k = 0, 1,..., n. k We zien hier dat de verdeling van S n afhangt van de parameter θ. Op grond van waarnemingen uit die verdeling kunnen we dus ook iets zeggen over θ. We kunnen bijvoorbeeld θ schatten, of een bewering, hypothese, over θ toetsen. Het is echter op het eerste gezicht helemaal niet duidelijk of we dat niet beter kunnen, bijvoorbeeld door meer informatie van de steekproef te gebruiken. Misschien kunnen we betere uitspraken doen door meer informatie dan alleen maar de som te gebruiken. Dit is in dit geval niet zo. Om dat aan te tonen berekenen we de voorwaardelijke verdeling van de steekproef X 1,..., X n, gegeven dat de som S n gelijk is aan k, met k = 0, 1,..., n. We vinden dan voor x 1,..., x n zódat x i {0, 1}, i = 1,..., n en x x n = k P θ (X 1 = x 1,..., X n = x n S n = k = = P θ(x 1 = x 1,..., X n = x n, S n = k P θ (S n = k = P θ(x 1 = x 1,..., X n = x n P θ (S n = k = θx 1 (1 θ 1 x 1... θ xn (1 θ ( 1 xn n θk (1 θ k n k = ( 1 n, k voor k = 0, 1,..., n. De voorwaardelijke kansverdeling van X 1,..., X n, gegeven de waarde van S n, hangt dus niet meer af van de parameter θ. Met andere woorden, als we de waarde van S n kennen dan zit er verder geen informatie over θ meer in de steekproef. Stochastische variabelen die deze eigenschap hebben voor een parametrische familie van kansverdelingen noemen we voldoende stochastische variabelen. In Hoofdstuk 3 zullen we ze netjes definiëren. In dit voorbeeld is de beste schatter van θ het gemiddelde van de waarnemingen X n = S n /n. Uit het voorbeeld blijkt dat voorwaardelijke kansverdelingen een belangrijke rol spelen in de mathematische statistiek. Om een begrip als voldoendheid algemeen te formuleren hebben we dan ook voorwaardelijke kansverdelingen in hun volle algemeenheid nodig. 3

8 4

9 Hoofdstuk 2 Algemene begrippen 2.1 Voorwaardelijke verwachtingen en voorwaardelijke kansen We beschouwen een stochastische variabele X op een kansruimte (Ω, F, P. Veronderstel dat X integreerbaar is, d.w.z. X(ω dp (ω <. Zij G een sigma-algebra op Ω met G F. deelsigma-algebra van F. Ω De sigma-algebra G is dus een ruwere Definitie De voorwaardelijke verwachting van X, gegeven de sigma-algebra G, (notatie E(X G is die reëelwaardige stochastische variabele Y op (Ω, F, P die voldoet aan 1. de afbeelding ω Y (ω is meetbaar ten opzichte van G, en integreerbaar, 2. Y voldoet aan voor alle verzamelingen G G. G Y (ωdp (ω = G X(ωdP (ω, (2.1 Als Z een stochastische variabele is op de kansruimte (Ω, F, P en B is de Borel sigma-algebra op R, dan moet Z per definitie voldoen aan Z 1 (B F, voor alle B B. (2.2 De sigma-algebra F zou echter veel meer eventualiteiten F kunnen bevatten dan alleen de eventualiteiten Z 1 (B = {Z B}, die met behulp van Z te beschrijven zijn. De 5

10 collectie verzamelingen σ(z = {Z 1 (B, B B} F is een sigma-algebra (ga na en het is de minimale collectie F van eventualiteiten waarvoor Z nog een stochastische variabele is. Deze sigma-algebra van eventualiteiten die beschreven kunnen worden door Z noemen we de door Z voortgebrachte sigma-algebra. Definitie Als X en Z twee stochastische variabelen zijn op de kansruimte (Ω, F, P en X is integreerbaar dan definiëren we de voorwaardelijke verwachting van X, gegeven Z, door E(X Z := E(X σ(z, waarbij σ(z de door Z voortgebrachte deelsigma-algebra van F is. De voorwaardelijke verwachting Y in Definitie is door regel (2.1 tot op een G nulverzameling bijna overal bepaald. Als we werken met een specifieke functie Y die voldoet aan de definitie dan noemen we zo n Y een versie van de voorwaardelijke verwachting. Onder de voorwaarden van Definitie geldt volgens Lemma A.3.1 E(X Z = η(z, voor een zekere Borelmeetbare functie η : R R. Definitie De voorwaardelijke verwachting van X, gegeven Z = z, definiëren we door E(X Z = z := η(z. Opmerking Uit de definitie volgt dat de voorwaardelijke verwachting afhangt van de onderliggende kansmaat P. Het is in bewijzen, waar meerdere kansmaten een rol spelen, soms verstandig om de relevante kansmaat te vermelden. We schrijven dan E P (X G, E P (X Z en E P (X Z = z. Uit de definitie volgt dat E(X G een stochastische variabele is E(X G : Ω R. Passen we (2.1 toe met G = Ω dan vinden we X(ωdP (ω = E(X G(ωdP (ω. Hieruit volgt Ω Ω E(E(X G = EX. (2.3 De onvoorwaardelijke verwachting van X is dus gelijk aan de verwachting van de voorwaardelijke verwachting van X. 6

11 Definitie Laat G een deelsigma-algebra zijn van F, en Z een stochastische variabele op (Ω, F, P. Zij F F. We definiëren de voorwaardelijke kans op F, gegeven G, als volgt P (F G := E P (1 F G. Analoog definiëren we de voorwaardelijke kans op F, gegeven Z, door P (F Z := E P (1 F σ(z. De voorwaardelijke kans P (F Z = z definiëren we analoog aan Definitie Aangezien we de voorwaardelijke kans ingevoerd hebben als de voorwaardelijke verwachting van een indicatorfunctie, is de voorwaardelijke kans ook een stochastische variabele, P (A G : Ω R. Analoog aan (2.3 geldt voor verzamelingen G G P (A G(ωdP (ω = (2.4 G = E(1 A G(ωdP (ω G 1 A (ωdp (ω (2.1 = G = P (A G Voorbeeld Veronderstel G = {, Ω}. Dan geldt E(X G = EX. Hierbij zien we het rechterlid als de constante functie met waarde EX. Om dit aan te tonen moeten we controleren of de functie Y : ω EX meetbaar is ten opzichte van G en er moet gelden XdP = Y dp, voor G = of Ω. G Beide voorwaarden van Definitie zijn eenvoudig te controleren Voorbeeld Veronderstel G = F. dan geldt G E(X G = X. Ook hier zijn de beide voorwaarden van Definitie eenvoudig na te gaan. De essentie is dat Y gelijk genomen kan worden aan X omdat Y dan G(= F meetbaar is. We zien nu dus ook dat als X zelf al G meetbaar is, dan is X zelf een versie van de voorwaardelijke verwachting E(X G. 7

12 De bovenstaande voorbeelden zijn twee uitersten. Ze laten zien dat de voorwaardelijke verwachting een afvlakking van de oorspronkelijke X is die geïntegreerd over G meetbare verzamelingen hetzelfde oplevert. Voorbeeld Laten we nu een voorbeeld nemen waarbij G niet triviaal is en niet gelijk aan F. Veronderstel dat Ω 1,..., Ω p deelverzamelingen zijn van Ω die disjunct zijn en samen verenigd gelijk zijn aan de hele Ω. Neem nu G gelijk aan de kleinste sigmaalgebra die deze verzamelngen Ω i, i = 1,..., p bevat. Die sigma-algebra bestaat dan uit de lege verzameling en alle verenigingen van Ω i s. De voorwaardelijke verwachting Y van X gegeven G moet meetbaar zijn ten op zichte van G. Omdat G in dit geval voortgebracht wordt door disjuncte verzamelingen moet Y een trapfunctie zijn van de volgende vorm p Y (ω = a i 1 Ωi (ω. We berekenen nu a 1,..., a p. Wegens (2.1 moet Y voldoen aan G XdP = = = G p a i i=1 G i=1 Y dp = 1 Ωi dp = p a i P (G Ω i. i=1 G i=1 p a i 1 Ωi dp p a i dp G Ω i Nu vullen we de speciale keuze G = Ω k in voor een k = 1,..., p. We vinden dan Ω k XdP = i=1 p a i P (Ω k Ω i = a k P (Ω k, i=1 immers de Ω i zijn disjunct. Hieruit volgt a k = Ω k XdP P (Ω k, voor die Ω k met P (Ω k > 0. Neem nu even aan dat de Ω i positieve kans hebben, dan vinden we dus p Ω E(X G(ω = Y (ω = i XdP P (Ω i 1 Ω i (ω. Omdat de verzamelingen G in G verenigingen zijn van de Ω i voldoet deze Y ook aan (2.1 voor alle G G. Als er verzamelingen Ω i zijn met kans nul dan kunnen we de 8 i=1

13 voorwaardelijke verwachting op die verzamelingen een willekeurige (constante waarde geven. We hebben dan evengoed een versie van E(X G geconstrueerd omdat er nog steeds aan (2.1 is voldaan. We besluiten deze paragraaf met een aantal regels voor voorwaardelijke verwachting. Passen we die toe op indicatorfuncties dan gelden ze ook voor voorwaardelijke kansen. We bespreken alleen E(X G maar soortgelijke regels gelden voor E(X Z en E(X Z = z. Er geldt (Fabius en van Zwet (1975 pag. 145 Stelling Voor voorwaardelijke verwachtingen gelden de volgende regels. Hierbij is steeds verondersteld dat E X eindig is. 1. EE(X G = EX. 2. E(X G = X, b.o. als X meetbaar is ten opzichte van G. 3. E(XZ G = ZE(X G, b.o. als Z meetbaar is ten opzichte van G en E XZ <. 4. E(X G = EX, b.o. als σ(x en G onafhankelijk zijn. 5. E(E(X G 0 G 1 = E(X G 0 = E(E(X G 1 G 0, b.o. als G 0 G 1 F. 6. Als X = c b.o. dan geldt E(X G = c b.o.. 7. E(aX 1 + bx 2 G = ae(x 1 G + be(x 2 G, b.o., waarbij aangenomen wordt dat E X i, i = 1, 2, eindig zijn. 8. Als X 0 b.o. dan geldt E(X G 0 b.o.. 9. E(X G E( X G b.o.. Bewijs Beweringen 1 en 2 volgen uit (2.3 en Voorbeeld We bewijzen 3 en 4. Om 3 te bewijzen is het voldoende om aan te tonen dat voor elke G G geldt ZE(X GdP = XZdP. (2.5 G Immers omdat ZE(X G meetbaar is ten opzichte van G geldt dan E(XZ G = ZE(X G. Om (2.5 aan te tonen nemen we Z eerst gelijk aan een G-meetbare indicatorfunctie 1 G. Dan volgt vergelijking (2.5 uit 1 G E(X GdP = E(X GdP (2.1 = XdP = X1 G dp. G G G G G G 9 G

14 Door over te gaan op trapfuncties en limieten van trapfuncties zien we dat (2.5 ook geldt voor willekeurige G-meetbare functies. Hiermee is 3 bewezen. Om 4 te bewijzen nemen we Z gelijk zijn aan de stochast met constante waarde EX. Dan is Z meetbaar ten opzichte van G. Bovendien geldt voor elke G G G E(X GdP (2.1 = G XdP = 1 G XdP = E 1 G X onafh. = (E1 G (EX = P (GEX = Hieruit volgt dat Z aan Definitie voldoet. G ZdP. 2.2 Voldoende sigma-algebra s en voldoende stochastische variabelen Laat (X, A, P een statistisch experiment beschrijven waarbij P gelijk is aan {P θ : θ Θ} en laat T : X R een stochastische variabele zijn. We gebruiken de door T voortgebrachte sigma-algebra bij het definiëren van het begrip voldoendheid van T. Definitie De sigma-algebra F heet voldoende voor P als er een functie bestaat zódat voor alle A A: P : A X [0, 1. de afbeelding x P (A, x meetbaar is ten opzichte van F, 2. de afbeelding x P (A, x een versie is van de voorwaardelijke kans P θ (A F. Een stochastische variabele T : X R n noemen we voldoende voor P als de door T voortgebrachte sigma-algebra σ(t een voldoende sigma-algebra is voor P. Voorbeeld Ter illustratie van deze definitie keren we terug naar het voorbeeld in de introductie. We hebben een steekproef X 1,..., X n van n onderling onafhankelijke alternatieven, d.w.z. de waarnemingen zijn nul of een en P θ (X i = 1 = 1 P θ (X i = 0 = θ, waarbij θ (0, 1. De som van de waarnemingen noteren we met S n. De uitkomstenruimte is hier gelijk aan X = {0, 1} n en A is de sigma-algebra bestaande uit alle deelverzamelingen van X. We berekenen een versie van de voorwaardelijke kans P θ (A S n = P θ (A σ(s n = E θ (1 A σ(s n. Merk op dat de sigma-algebra voortgebracht door S n gegeven wordt door σ(s n = {Sn 1 (B : B B}, 10

15 waarbij S n : x = (x 1,..., x n S n (x = x x n. Aangezien X = (X 1,..., X n een stochastische vector is met een discrete verdeling en S n een discreet verdeelde stochastische variabele kunnen we de methode van Sectie A.3 toepassen om de voorwaardelijke kans uit te rekenen. Laten b j = (b (1 j,..., b (n j, j = 1,..., 2 n de mogelijke uitkomsten van X aangeven en a i = i, i = 0,..., n de uitkomsten van S n. De discrete voorwaardelijke kansen P θ (X = b j S n = a i hebben we al eerder uitgerekend. Er geldt ( 1 n P θ (X = b j S n = a i =, i = 0,..., n, j = 1,..., 2 n, a i als S n (b j = a i = i. Als S n (b j i dan is de voorwaardelijke kans nul. We vinden nu (zie Sectie A.3, voor alle A A en P θ (A S n = a i = E θ (1 A S n = a i = η A (a i = = 2 n j=1 1 A (b j P θ (X = b j S n = a i j:b j A,S n(b j =a i P θ (A S n (x = η A (S n (x = ( 1 n, a i j:b j A,S n(b j =S n(x ( 1 n. S n (x Nemen we nu P gelijk aan deze afbeelding van A X naar [0,, dan zien we dat aan de voorwaarden van Definitie is voldaan. De som van de waarnemingen S n is dus een voldoende stochastische variabele voor P = {Pθ n : θ (0, 1}. Voorbeeld Beschouw een steekproef X 1,..., X n uit de uniforme verdeling op het interval [0, θ], voor θ > 0. De uitkomstenruimte nemen we gelijk aan X = R n en de sigma-algebra A nemen we gelijk aan de Borel sigma-algebra op R n. De verdelingsfunctie en de kansdichtheid van de X i zijn gelijk aan P θ (X i x = θ 1 x1 [0,θ] (x + 1 (θ, (x, i = 1,..., n, p θ (x = θ 1 1 [0,θ] (x. We beschouwen de familie van kansverdelingen van de steekproef, d.w.z. P = {P n θ : θ > 0}. We laten zien dat M n = max i=1,...,n X i een voldoende stochastische variabele is voor P. Merk op dat M n als afbeelding gegeven wordt door M n : R n R, x = (x 1,..., x n max i=1,...,n x i. 11

16 Eerst bepalen we de kansverdeling van M n. Er geldt, voor alle t [0, θ] F Mn (t = Pθ n Mn 1 ((, t] = Pθ n ((, t] (, t] = Pθ n (X 1 t,..., X n t onafh. = P θ (X 1 t... P θ (X 1 t = θ n t n. Voor t < 0 is de verdelingsfunctie nul en voor t > θ een. De kansdichtheid van M n is dus gelijk aan nθ n t n 1 1 [0,θ]. We bepalen vervolgens een versie van P θ (A σ(m n = E θ (1 A σ(m n = η A (M n, waarbij A A. Volgens (2.1 moet η A voldoen aan Mn 1 (B η A (M n (xdp n θ (x = Mn 1 (B 1 A (xdp n θ (x, (2.6 voor alle Borelverzamelingen B van R, immers σ(m n = {Mn 1 (B : B B}. Met behulp van de overplantingsstelling (zie Appendix A herschrijven we het linkerlid van (2.6 Mn 1 (B η A (M n (xdpθ n (x = B η A (tdpθ n Mn 1 (t = η A (tnθ n t n 1 1 [0,θ] (tdt. B Voor B = (, y] vinden we dan voor het rechterlid van (2.6, wegens Mn 1 ((, y] = (, y] n M 1 n (B y 1 A (xdp n θ (x = Mn 1 ((,y] y =... = θ n λ(a [0, y] n [0, θ] n. 1 A (xdp n θ (x 1 A (xθ 1 1 [0,θ] (x 1... θ 1 1 [0,θ] (x n dx 1... dx n Voor elke y moet er dus gelden ((2.6 voor B = (, y] η A (tnθ n t n 1 1 [0,θ] (tdt = θ n λ(a [0, y] n [0, θ] n. (,y] Merk op dat zowel het linkerlid als het rechterlid constant zijn in y voor y 0 en y θ. Differentiëren we naar y dan vinden we, voor 0 < y < θ η A (ynθ n y n 1 = d dy θ n λ(a [0, y] n, b.o. met betrekking tot de Lebesguemaat. Hieruit volgt dat η A (y = n 1 y n+1 d dy λ(a [0, y]n 12

17 voldoet als versie van P θ (A M n = y en η A (M n als versie van P θ (A M n. Als functie P : A X [0, kunnen we nemen P (A, x = η A (M n (x. Hieraan zien we dat M n voldoende is voor P. Laten we nu η A eens uitrekenen voor een specifieke keuze van A. Neem A gelijk aan (, x 1 ] (, x n ], met x i 0, i = 1,..., n. Dan is η A gelijk aan η A (y = n 1 y n+1 d dy λ(a [0, y]n = n 1 y n+1 d dy λ((, x 1] (, x n ] [0, y] n = n 1 y n+1 d ( (x 1 y... (x n y, dy waarbij x y = min(x, y. Nemen we nu bijvoorbeeld x 2,..., x n gelijk aan oneindig dan wordt η A gelijk aan { η A (y = n 1 y n+1 d ((x 1 yy n 1 1, voor x 1 > y, = n 1 x dy 1 n y, voor x 1 < y. Deze functie is gelijk aan de voorwaardelijke verdelingsfunctie van X 1 gegeven M n = y, d.w.z. P (X 1 x 1 M n = y. De voorwaardelijke verdelingsfunctie van de andere X i gegeven M n = y zijn hieraan gelijk. Op analoge manier kan de voorwaardelijke simultane verdelingsfunctie van een aantal X i worden berekend. Uit het bovenstaande voorbeeld blijkt dat het aantonen van voldoendheid door het uitrekenen van de voorwaardelijke kansen een omslachtige bezigheid kan zijn. De factorisatiestelling geeft echter een eenvoudige methode om voldoende stochasten te herkennen aan de structuur van de simultane kansdichtheid van de uitkomst X. Stelling (Factorisatiestelling Zij P = {P θ : θ Θ} een familie kansmaten op (X, A die gedomineerd wordt door een sigma eindige maat µ. Dan geldt 1. F A is voldoende voor P voor alle θ Θ : dp θ dµ (x = g θ(xh(x, b.o. µ, (2.7 waarbij g θ een niet-negatieve F-meetbare functie is en h een niet-negatieve A- meetbare functie is (die niet van θ afhangt. 13

18 2. De stochast T : (X, A (R k, B k is een voldoende stochastische variabele voor P voor alle θ Θ : dp θ dµ (x = g θ(t (xh(x, b.o. µ, (2.8 waarbij g θ : R k [0, een niet-negatieve Borelmeetbare functie is en h een niet-negatieve A-meetbare functie is (die niet van θ afhangt. Voorbeeld We keren terug naar de situatie van Voorbeeld De dominerende maat µ is de telmaat op X = {0, 1} n. Dus µ(a is gelijk aan het aantal elementen van A. De dichtheid van de steekproef ten opzichte van µ is voor alle x = (x 1,..., x n X. dp n θ dµ (x = θx 1 (1 θ 1 x 1... θ xn (1 θ 1 xn = θ Sn(x (1 θ n Sn(x, De functie g θ kunnen we gelijk nemen aan g θ (t = θ t (1 θ n t. De functie h nemen we identiek gelijk aan 1. Uit de Factorisatiestelling volgt nu dat S n voldoende is. Voorbeeld We keren terug naar de situatie van Voorbeeld De dominerende maat µ is de Lebesguemaat op X = R n. De dichtheid van de steekproef ten opzichte van µ is voor alle x = (x 1,..., x n X. dp n θ dµ (x = θ 1 1 [0,θ] (x 1... θ 1 1 [0,θ] (x n De functie g θ kunnen we gelijk nemen aan = θ n 1 [0,θ] (M n (x1 [0, ( min i=1,...,n x i, g θ (t = θ n 1 [0,θ] (t. 14

19 De functie h nemen we gelijk aan h(x = 1 [0, ( min i=1,...,n x i. Uit de Factorisatiestelling volgt nu dat M n voldoende is. Voorbeeld Beschouw een steekproef X 1,..., X n van onderling onafhankelijke N(µ, σ 2 verdeelde stochastische variabelen. We onderscheiden twee gevallen, σ 2 bekend en σ 2 onbekend. 1. σ 2 bekend: In dit geval is T = n i=1 X i een voldoende stochastische variabele voor de familie kansverdelingen P = {P n µ,σ 2 : P µ,σ 2 is de N(µ, σ 2 kansmaat, µ R} met σ 2 vast. 2. σ 2 onbekend: In dit geval is (T 1, T 2 = ( n i=1 X i, n i=1 X2 i een voldoende stochastische vector voor de familie kansverdelingen P = {P n µ,σ 2 : P µ,σ 2 is de N(µ, σ 2 kansmaat, σ 2 > 0, µ R}. Beide beweringen volgen uit de factorisatiestelling (zie de opgaven. Bewijs van Stelling , voor het geval dat µ en alle P θ absoluut continu zijn ten opzichte van elkaar. Stel dat F voldoende is voor P. Kies een vaste maat Q uit de familie P. Definieer g θ = E Q ( dp θ F, θ Θ. dq Uit de definitie van voorwaardelijke verwachting volgt dat g θ meetbaar is ten opzichte van F. Neem h gelijk aan dq. Het is voldoende aan te tonen dat dµ Immers, hieruit volgt We laten zien dat voor alle A A geldt dp θ dq (x = g θ(x, b.o. Q. dp θ dµ = dp θ dq dq dµ = g θh, b.o. µ. A g θ dq = P θ (A. 15

20 Neem een A A. Dan geldt g θ dq = A Stel = Stel = = voldoendheid = 1 A g θ dq (2.1 = E Q (1 A g θ FdQ g θ E Q (1 A FdQ = E Q ( dp θ dq FE Q(1 A FdQ ( E Q E Q (1 A F dp θ F dq (2.1 = E Q (1 A F dp θ dq dq dq voldoendheid E Q (1 A FdP θ = P (A, xdp θ (x (2.1 E Pθ (1 A FdP θ = 1 A dp θ = P θ (A. Hiemee is de stelling een kant op bewezen. Veronderstel dp θ dµ (x = g θ(xh(x, b.o. µ, (2.9 met g θ 0, h 0, g θ meetbaar ten opzichte van F en h meetbaar ten opzichte van A. Kies een vaste maat Q uit de familie P. We tonen aan dat Q(A F een versie is van P θ (A F, voor alle θ Θ. Wegens (2.9 bestaat er een F-meetbare functie g zodat Definieer dq (x = g(xh(x, b.o. µ. dµ ḡ θ (x = { gθ (x g(x, als g(x > 0, 0, anders. Merk op dat ḡ θ meetbaar is ten opzichte van F. Voor alle A A geldt, omdat de Q-maat van het gebied waar g nul is gelijk is aan nul g θ (x ḡ θ dq = A A {x: g(x>0} g(x dq(x = g θ (x A {x: g(x>0} g(x g(xh(xdµ(x = g θ (xh(xdµ(x = dp θ (x = P θ (A. A {x: g(x>0} A {x: g(x>0} Hierbij gebruiken we dat P θ ({x : g(x = 0} gelijk is aan nul. Dit volgt uit het feit dat P θ absoluut continu is ten opzichte van Q (d.w.z. Q(A = 0 P (A = 0 en Q({x : g(x = 0} = 0. We hebben dus bewezen dp θ dq = ḡ θ, b.o. Q. 16

21 Neem nu willekeurige A A en B F, dan geldt (A.4 Q(A FdP θ = E Q (1 A FdP θ = B B = E Q (1 A Fḡ θ dq B = 1 A ḡ θ dq = Dus B B B Stel = 1 A dp θ dq dq = P θ (A F = E Pθ (1 A F = Q(A F, b.o. P θ. E Q (1 A F dp θ dq dq E Q (1 A ḡ θ FdQ B 1 A dp θ. B Hieruit volgt dat F voldoende is. We hebben nu deel 1 van Stelling bewezen onder de beperking dat µ en alle P θ absoluut continu zijn ten opzichte van elkaar. Dit is in het bijzonder niet waar voor de situatie van Voorbeeld In de opgaven laten we zien dat de beperking niet essentieel is. Het bewijs van de equivalentie van delen 1 en 2 wordt ook in de opgaven gevraagd. 17

22 18

23 Hoofdstuk 3 Schattingstheorie 3.1 Meest nauwkeurige zuivere schatters Zij P = { P θ : θ Θ} een familie kansmaten op (X, A. Definitie Een stochastische variabele δ : X R heet een zuivere schatter (Eng. unbiased estimator van g(θ, waarbij g : Θ R, als geldt E θ δ(x = g(θ, voor alle θ Θ. (3.1 Definitie Een schatter δ(x heet een meest nauwkeurige zuivere schatter (Eng: uniformly minimum variance unbiased (UMVU van g(θ als δ(x een zuivere schatter van g(θ is met de kleinste variantie in de klasse van alle zuivere schatters van g(θ, d.w.z. 2 ( 2, E θ (δ(x g(θ Eθ δ (X g(θ voor alle θ Θ en voor alle (andere zuivere schatters δ (X van g(θ. Voorbeeld laat X 1,..., X n een steekproef zijn uit een verdeling P θ. Veronderstel dat alle kansmaten in P = { P θ : θ Θ} een eindige verwachting en een eindige variantie hebben. We definiëren het steekproefgemiddelde X n en de steekproefvariantie S 2 n als volgt X n = 1 n S 2 n = n X i, (3.2 i=1 1 n 1 19 n (X i X n 2. (3.3 i=1

24 Beschouw nu g 1 (θ = E θ X 1 en g 2 (θ = Var θ (X 1. Er geldt nu voor alle θ Θ E θ Xn = 1 n E θ X i = E θ X 1 = g 1 (θ. n i=1 Hieraan zien we dat het steekproefgemiddelde een zuivere schatter is van de verwachting van de verdeling P θ. Voor de steekproefvariantie geldt (zie opgave 16 E θ S 2 n = Var θ (X 1 = g 2 (θ. De steekproefvariantie is dus een zuivere schatter van de variantie van de verdeling P θ. Voorbeeld Stel dat P de familie van de Poisson(θ, θ > 0, verdelingen is. Neem g(θ = e 2θ. Zij X een waarneming met een Poisson(θ verdeling. Dan is δ(x = ( 1 X de unieke zuivere schatter van e 2θ. Immers E θ ( 1 X = ( 1 k e θ θ k 1 k! = e θ ( θ k 1 k! = e θ e θ = e 2θ = g(θ. k=0 In dit geval bestaat er dus een zuivere schatter van g(θ. De schatter neemt echter alleen waarden 1 en 1 aan, beide onmogelijke waarden voor g(θ. k=0 Voorbeeld Er hoeft niet altijd een zuivere schatter te bestaan. Dit kunnen we zien bij het volgende schattingsprobleem. Beschouw weer de situatie van Voorbeeld We hebben een steekproef X 1,..., X n van n onderling onafhankelijke alternatieven, d.w.z. de waarnemingen zijn nul of een en P θ (X i = 1 = 1 P θ (X i = 0 = θ, waarbij θ (0, 1. Met een bewijs uit het ongerijmde tonen we aan dat er geen zuivere schatter bestaat van g(θ = 1/θ. Stel dat δ(x = δ(x 1,..., X n een zuivere schatter van g(θ is, dan moet er gelden met als gevolg Echter, voor alle θ Θ geldt E θ δ(x = E θ δ(x = 1, voor alle θ Θ, θ 1 lim E θ δ(x = lim θ 0 θ 0 θ i j {0,1}, 1 j n i j {0,1}, 1 j n i j {0,1}, 1 j n δ(i 1,..., i n δ(i 1,..., i n =. (3.4 n θ i j (1 θ 1 i j j=1 n θ i j (1 θ 1 i j j=1 δ(i 1,..., i n <. 20

25 Dit is in tegenspraak met (3.4. Er bestaat in dit schattingsprobleem dus geen zuivere schatter. Stelling (Rao-Blackwell Zij T : X R een stochastische variabele die voldoet aan E θ T (X 2 < voor alle θ Θ. Veronderstel dat F A een voldoende σ-algebra is voor P. Dan geldt, voor alle θ Θ 2 ( 2, E θ (E(T F g(θ Eθ T g(θ (3.5 waarbij E(T F een versie is van E θ (T F die onafhankelijk is van θ en g een reëelwaardige functie gedefinieerd op Θ. Ook geldt, voor alle θ Θ 2 ( 2 E θ (E(T F g(θ = Eθ T g(θ E(T F = T, b.o. P θ. (3.6 Bewijs. Eerst bewijzen we een ongelijkheid. Merk op dat voor alle θ Θ geldt ( 2 ( 2 T g(θ = T E(T F + E(T F g(θ ( 2 ( ( = T E(T F + 2 T E(T F E(T F g(θ ( 2 + E(T F g(θ ( ( 2 T E(T F E(T F g(θ ( 2. + E(T F g(θ (3.7 (3.8 Berekenen we de verwachting van (3.8 dan valt de eerste term weg, immers voor de voorwaardelijke verwachting, gegeven F, vinden we E θ ((T E(T F(E(T F g(θ F ( ( = E(T F g(θ E θ (T E(T F F ( ( = E(T F g(θ E(T F E(T F = 0. De onvoorwaardelijke verwachting, die gelijk is aan de verwachting van de voorwaardelijke verwachting, is dan ook gelijk aan nul. Hiermee is bewering (3.5 bewezen. 21

26 2 ( 2. Veronderstel nu E θ (E(T F g(θ = Eθ T g(θ Uit het bovenstaande volgt dan dat de verwachting van de eerste term in (3.7 gelijk moet zijn aan nul, dus Wegens ( T E(T F 2 0 volgt hieruit waarmee bewering (3.6 bewezen is. E θ (T E(T F 2 = 0. T E(T F = 0, b.o. P θ, In de Rao-Blackwell stelling wordt niet verondersteld dat de schatters zuiver zijn. Als we ons wel beperken tot zuivere schatters dan wordt het bewijs een eenvoudige toepassing van het volgende lemma (opgave 17. Lemma Zij (X, Y een stochastische 2-vector op de kansruimte (X, A, P met E X 2 <. Laat G een deelsigma-algebra zijn van A. Definieer ( Var(X G := E (X E(X G 2 G. Er geldt Var X = E(Var(X G + Var(E(X G. Nemen we G gelijk aan de sigma-algebra voortgebracht door Y, dan is dit in andere notatie gelijk aan Var X = E(Var(X Y + Var(E(X Y. (3.9 Voor een zuivere schatter T en een voldoende sigma-algebra F geldt 2 ( 2. Var θ (E(T F = E θ (E(T F g(θ en Varθ T = E θ T g(θ Nemen we nu G gelijk aan F en X gelijk aan T dan zegt het lemma Var θ T = E(Var θ (T F + Var θ (E(T F. Wegens E(Var θ (T F 0 volgt hieruit de stelling voor zuivere schatters. Definitie Een verzameling N heet een P nulverzameling als P (N = 0 voor alle P P. Een bewering geldt bijna overal met betrekking tot P als de bewering geldt buiten een P nulverzameling. 22

27 Definitie Een familie van kansmaten P heet volledig als geldt, voor alle functies f die integreerbaar zijn ten opzichte van alle P P, fdp = 0, voor alle P P f = 0, b.o. P. Een stochastische vector T : X R k heet volledig met betrekking tot P als de familie van kansverdelingen van T onder kansmaten P P, PT 1 := {P T 1 : P P}, een volledige familie is op (R k, B k. In dat geval geldt dus voor alle functies f : R k R, die integreerbaar zijn voor alle P T 1, P P, E P f(t = f(tdp T 1 (t = f(tdf T (t = 0, voor alle P P f = 0, b.o. {P T 1 : P P}. Voorbeeld In de situatie van Voorbeeld beschouwen we wederom de som van de waarnemingen S n. Omdat deze stochastische variabele slechts eindig veel waarden kan aannemen is elke functie van S n integreerbaar, onder alle waarden van θ (0, 1. Veronderstel nu E θ f(s n = 0, voor alle θ (0, 1. Anders geschreven staat er, omdat S n Binomiaal (n, θ verdeeld is n k=0 ( n θ k (1 θ n k f(k = 0, voor alle θ (0, 1. k Omdat een n-de graads polynoom in θ op het interval (0, 1 alleen maar nul kan zijn als alle coefficiënten nul zijn, volgt hieruit f(k = 0, k = 0, 1, 2,..., n. Dus f is nul, bijna overal ten opzichte van de familie van kansverdelingen van S n. De som van de waarnemingen, S n, is in dit voorbeeld dus volledig. Voorbeeld In de situatie van Voorbeeld beschouwen we wederom het maximum van de waarnemingen M n. Veronderstel nu E θ f(m n = 0, voor alle θ > 0. Anders geschreven staat er, omdat M n onder P θ kansdichtheid p θ (t = nθ n t n 1 1 [0,θ] (t heeft, θ 0 f(tnθ n t n 1 dt = 0, voor alle θ > 0. 23

28 Vermenigvuldigen we met θ n en differentiëren we daarna naar θ dan vinden we voor θ > 0 0 = d dθ θ 0 f(tnt n 1 dt = f(θnθ n 1, Lebesgue bijna overal. Dus f is nul, bijna overal ten opzichte van de familie van kansverdelingen van M n. Het maximum van de waarnemingen is dus volledig. Schatters die zowel voldoende als volledig zijn spelen een belangrijke rol bij de constructie van meest nauwkeurige zuivere schatters. In feite kunnen we ons beperken tot functies van een voldoende en volledige schatter. Stelling (Lehmann-Scheffé Laat P = {P θ : θ Θ} een familie van kansmaten zijn op (X, A. Veronderstel dat de stochastische variabele T : X R volledig en voldoende is voor P. Dan geldt 1. Als g : Θ R zuiver geschat kan worden met een schatter δ(x, zodat E θ δ(x 2 <, voor alle θ Θ, dan bestaat er ook een meest nauwkeurige zuivere schatter en deze is uniek b.o. P. 2. De meest nauwkeurige zuivere schatter is gelijk aan de b.o. P unieke zuivere schatter die een functie is van de volledige en voldoende stochastische variabele T. Bewijs. Als δ(x een zuivere schatter van g(θ is dan is E(δ(X T = η(t ook een zuivere schatter van g(θ. Immers, omdat T voldoende is hangt de voorwaardelijke verwachting niet af van de parameter θ, en voor alle θ Θ geldt ( E θ η(t = E θ (E(δ(X T = E θ E θ (δ(x T = E θ δ(x = g(θ. Stel nu eens dat er een andere functie van T bestaat die g(θ zuiver schat, zeg η (T. Dan moet er gelden, voor alle θ Θ, Dus E θ (η(t η (T = g(θ g(θ = 0. E θ (η(t η (T = = (η(t (x η (T (xdp θ (x = (η(t η (tdp θ T 1 (t = 0. 24

29 Omdat {P θ T 1 : θ Θ} een volledige familie van kansmaten is volgt hieruit η(t = η (t, b.o. PT 1, hetgeen equivalent is met η(t (x = η (T (x, b.o. P. De schatter η(t (x is dus b.o. P uniek binnen de verzameling van schatters die functies zijn van T. Een gevolg hiervan is dat voor elke zuivere schatter ν(x van g(θ, met E θ ν(x 2 <, voor alle θ Θ, geldt E(ν(X T = η(t = E(δ(X T, b.o. P. (3.10 Vervolgens passen we de Rao-Blackwell stelling toe. Voor elke zuivere schatter ν(x met E θ ν(x 2 <, voor alle θ Θ, geldt nu wegens (3.10 E θ (η(t g(θ 2 = = E θ (E(ν(X T g(θ 2 E θ (ν(x g(θ 2 <. Hieruit volgt dat η(t een meest nauwkeurig zuivere schatter van g(θ is. We tonen tenslotte aan dat η(t uniek is (b.o. P binnen de verzameling van willekeurige zuivere schatters van g(θ, dus niet alleen functies van T. Stel wederom dat ν(x een andere meest nauwkeurig zuivere schatter is van g(θ. Dan geldt kennelijk, voor alle θ Θ 2 ( 2, E θ (η(t g(θ = Eθ ν(x g(θ en vanwege (3.10 η(t = E(ν(X T, b.o. P. Volgens (3.6 volgt hieruit ν(x = E(ν(X T = η(t, b.o. P. Hiermee is het bewijs voltooid. 25

30 We beëindigen deze paragraaf met de twee gebruikelijke voorbeelden. Voorbeeld In de situatie van Voorbeeld hebben we gezien dat S n voldoende en volledig is. Aangezien E θ S n = ne θ X 1 = nθ, voor all θ (0, 1 en X n = S n /n, een functie van S n, dus een zuivere schatter is van θ, zegt de stelling van Lehmann-Scheffé dat X n de meest nauwkeurige zuivere schatter is van θ. Voorbeeld In de situatie van Voorbeeld beschouwen we wederom het maximum van de waarnemingen M n. We weten nu dat M n voldoende en volledig is. Echter θ E θ M n = tθ n nt n 1 dt = θ n n θ (n + 1t n dt = n n + 1 n + 1 θ. 0 Het maximum zelf is dus geen zuivere schatter van θ. Corrigeren we M n door over te gaan op M n = n+1m n n, dan is M n een zuivere schatter van θ en M n is een functie van M n. Volgens de stelling van Lehmann-Scheffé is M n de meest nauwkeurige zuivere schatter van θ. We zien aan de voorbeelden dat de Stelling van Lehmann-Scheffé gebruikt kan worden bij het vinden van meest nauwkeurige zuivere schatters. In de volgende paragraaf bespreken we twee methoden Constructie van meest nauwkeurig zuivere schatters De stelling van Lehmann-Scheffé kan op twee manieren worden toegepast teneinde, bij een gegeven schattingsprobleem, de meest nauwkeurig zuivere schatter van g(θ te construeren. Methode 1: Laat T een volledige voldoende stochastische variabele zijn. functie van T, zeg δ(t, die een zuivere schatter is van g(θ, m.a.w. Zoek een E θ δ(t = g(θ, voor alle θ Θ. Als E θ δ(t 2 nu eindig is voor alle θ Θ dan is δ(t de (b.o. P unieke meest nauwkeurige zuivere schatter van g(θ. 26

31 Methode 2: Zoek eerst een zuivere schatter δ(x van g(θ en bepaal dan η(t = E(δ(X T. Als E θ δ(x 2 nu eindig is voor alle θ Θ dan is η(t de (b.o. P unieke meest nauwkeurige zuivere schatter van g(θ. We illustreren deze twee methoden aan de hand van de situatie van Voorbeeld Voorbeeld Beschouw weer de situatie van Voorbeeld We hebben een steekproef X 1,..., X n van n onderling onafhankelijke alternatieven, d.w.z. de waarnemingen zijn nul of een en P θ (X i = 1 = 1 P θ (X i = 0 = θ, waarbij θ (0, 1. We hebben al eerder gezien dat het steekproefgemiddelde X n de m.n.z.s. van θ is. We construeren nu de m.n.z.s. van g(θ = θ 2. Merk op dat in dit voorbeeld X n volledig en voldoende is omdat dit ook geldt voor de som van de waarnemingen. Passen we methode 1 toe dan moeten we een functie van X n zoeken die een zuivere schatter van θ 2 is. We weten al We berekenen vervolgens E θ X2 n, Hieruit volgt E θ Xn = θ, voor alle θ (0, 1. E θ X2 n = Var X n + (E X n 2 = 1 n θ(1 θ + θ2 = 1 n θ + n 1 n θ2. E θ n n 1 ( X n 2 1 n X n = θ 2, voor alle θ (0, 1. Uit de stelling van Lehmann-Scheffé volgt nu dat de m.n.z.s. van g(θ = θ 2 is. δ( X n = n n 1 ( X 2 n 1 n X n Methode 2 vereist eerst een zuivere schatter van θ 2. Hiervoor nemen we δ(x = δ(x 1,..., X n = 1 {(1,1} (X 1, X 2. Het is eenvoudig in te zien dat δ(x een zuivere schatter van θ 2 is. We conditioneren nu δ(x op X n. In Voorbeeld A.3.4 in Appendix A tonen we aan E θ (1 {(1,1} (X 1, X 2 X n = X n (n X n 1 n 1 = n n 1 X 2 n 1 n 1 X n. Hiermee hebben we ook met methode 2 de m.n.z.s. van θ 2 gevonden. 27

32 3.2.1 Exponentiële families van kansverdelingen Het is duidelijk dat de volledige en voldoende stochastische variabelen bij een familie van kansverdelingen een belangrijke rol spelen bij de constructie van meest nauwkeurige zuivere schatters. Het is echter niet altijd zo eenvoudig om een volledige en voldoende stochastische variabele te vinden. Bij een grote groep families van kansverdelingen met een overeenkomstige structuur, de zogenaamde exponentiële families, zijn de volledige en voldoende stochastische variabelen redelijk eenvoudig te vinden. Definitie Een familie {P θ : θ Θ} van kansmaten op een meetbare ruimte (X, A heet een s-parameter exponentiële familie als er voldaan is aan de volgende voorwaarden: 1. er bestaat een sigma-eindige maat µ op (X, A zodat voor alle θ Θ de maat P θ absoluut continu is ten opzichte van µ, dus P θ << µ. 2. er bestaat een s N zodat voor alle θ Θ de dichtheid p θ = dp θ dµ worden in de vorm i=1 geschreven kan ( s p θ (x = exp η i (θt i (x B(θ h(x, x X, (3.11 waarbij T i, i = 1,..., s meetbare functies zijn van X naar R, h een meetbare functie is van X naar R + en B, η 1,..., η s reëelwaardige functies zijn op Θ. We gaan de familie (3.11 nu in een eenvoudigere vorm schrijven. Omdat p θ een kansdichtheid is ten opzichte van µ moet de integraal p θ dµ gelijk zijn aan 1. We vinden dan 1 = X p θ (xdµ(x = e B(θ X ( s exp η i (θt i (x h(xdµ(x. De functie B(θ hangt dus via de functies η 1,..., η s af van θ, immers ( B(θ = log exp X ( s i=1 i=1 η i (θt i (x h(xdµ(x. We kunnen de familie dus herparametriseren door (η 1 (θ,..., η s (θ te vervangen door (η 1,..., η s, en B(θ te vervangen door ( A(η = log exp X ( s i=1 28 η i T i (x h(xdµ(x,

33 voor alle η = (η 1,..., η s η(θ. We vinden dan de zogenaamde kanonieke representatie van de dichtheden, ( s p (η1,...,η s(x = exp η i T i (x A(η 1,..., η s h(x. (3.12 i=1 De nieuwe parameterruimte is dus het beeld onder de afbeelding η van de oude parameterruimte Θ. Na herparametrisering noemen we die nieuwe parameterruimte ook weer Θ. De volgende stap ter vereenvoudiging is het minimaliseren van s, het aantal parameters. We definiëren het begrip minimale exponentiële familie en het begrip volle rang. Als aan de volgende voorwaarden niet is voldaan dan kunnen we de familie ook beschrijven met minder parameters. Definitie De representatie (3.12 van P = {P η : η Θ} heet minimaal als zowel Θ als de beeldverzameling {T (x : x X } niet bevat zijn in een verschoven lineaire deelruimte van R s, zeg x 0 + L, met L een lineaire deelruimte van R s van dimensie kleiner dan s. Als de parameterruimte Θ een open bol (in R s bevat dan heet de familie van volle rang. De volgende stelling zegt dat de stochastische vector T volledig en voldoende is. De voldoendheid volgt rechtstreeks uit de Factorisatiestelling. Voor het bewijs van de volledigheid verwijzen we naar Lehmann (1986 Testing Statistical Hypotheses, waar het bewijs berust op analytische voortzetting. Stelling Zij P = {P η : η H} een exponentiële familie van kansverdelingen op en meetbare ruimte (X, A, met dichtheden ( s p η (x = exp η i T i (x A(η h(x, x X, (3.13 i=1 ten opzichte van een sigma-eindige maat µ, waarbij H R k en T : X R k en h : X R + meetbare afbeeldingen zijn. Veronderstel verder dat P van volle rang is. Dan is T volledig en voldoende voor de familie P. Als we een familie kansmaten dus kunnen karakteriseren als een exponentiële familie van volle rang dan hebben we ook meteen een volledige en voldoende stochastische vector T = (T 1,..., T s. Als belangrijk voorbeeld bespreken we nu de kansmaten van een steekproef uit de N(µ, σ 2 verdeling. 29

34 Voorbeeld Beschouw eerst één waarneming X met een N(µ, σ 2 verdeling. Hier nemen we θ dus gelijk aan de vector θ = (θ 1, θ 2 = (µ, σ. De parameterruimte is gelijk aan Θ = R (0,. De kansdichtheid van X ten opzichte van de Lebesguemaat (µ is gelijk aan p θ (x = 1 2πθ2 exp We herschrijven deze dichtheid als volgt p θ (x = = ( (x θ 1 2 2θ 2 2 2θ ( exp (x θ 1 2 2πθ2 1 ( exp (x2 2θ 1 x + θ1 2 2π 2θ 2 2 ( = exp 1 x 2 + θ 1 x 1 2θ2 2 θ2 2 2 θ1 2 θ2 2. log θ 2 log θ 2 1 2π We zien nu dat deze familie een tweeparameter (s = 2 exponentiële familie is met η 1 (θ = 1 2θ 2 2 en η 2 (θ = θ 1 θ 2 2 T 1 (x = x 2 en T 2 (x = x B(θ = 1 θ1 2 2 θ2 2 h(x = 1 2π. + log θ 2 Vervolgens herparametriseren we. De kanonieke vorm van de dichtheid wordt dan ( 1 p η (x = exp η 1 x 2 + η 2 x A(η 1, η 2, 2π waarbij η = (η 1, η 2 (, 0 R en wegens θ 1 = η 2 η 1 1 /2 en θ 2 = 2η 1 1, A(η = 1 4 η2 2η log 2η 1. De familie van de normale verdelingen vormt dus een tweeparameter familie van volle rang. Laten we nu de situatie van een steekproef uit de N(µ, σ 2 verdeling bekijken. De parametervector θ is ook hier gelijk aan (µ, σ. De kansdichtheid van de steekproef ten opzichte van de Lebesguemaat op R n is gelijk aan p θ (x 1,..., x n = n j=1 1 θ 2 2π exp 30 ( (x j θ 1 2 2θ 2 2.

35 Net als in het geval van één waarneming kunnen we deze dichtheid herschrijven tot ( p θ (x 1,..., x n = exp 1 2θ2 2 n j=1 x 2 j + θ 1 θ 2 2 n x j n 2 j=1 θ1 2 θ2 2 n log θ 2 ( 1 2π n. De kanonieke vorm wordt waarbij n p η (x 1,..., x n = exp (η 1 x 2 j + η 2 j=1 n j=1 A(η = n( 1 4 η2 2η log 2η 1. ( 1 n, x j A(η 1, η 2 2π Dus ook hier hebben we een exponentiële familie van volle rang. In het algemeen vormen de verdelingen van een steekproef uit een verdeling van een exponentiële familie weer een exponentiële familie. Voorbeeld Lineaire regressie. Laten t 1,..., t n gegeven punten zijn in R. Veronderstel dat X 1,..., X n onderling onafhankelijk zijn en dat X i normaal verdeeld is met verwachting µ i = α + βt i en variantie σ 2. De parameter θ is dus gelijk aan de vector (α, β, σ. De kansdichtheid van X 1,..., X n ten opzichte van de Lebesguemaat op R n is gelijk aan p θ (x 1,..., x n = n j=1 1 ( σ 2π exp 1 2σ (x 2 j (α + βt j 2 = (2πσ 2 n 2 exp ( ( = exp 1 2σ 2 1 2σ 2 ( = exp 1 2σ 2 1 2σ 2 1 2σ 2 n (x 2 j 2(α + βt j x j + (α + βt j 2 j=1 n x 2 j + 1 σ 2 j=1 n (α + βt j x j j=1 n (α + βt j (2πσ 2 2 n 2 j=1 n x 2 j + α σ 2 j=1 n x j + β σ 2 j=1 n t j x j j=1 n (α + βt j 2 n log σ (2π n 2. j=1 Deze dichtheid is nu geschreven in de vorm van een exponentiële familie met 31

36 η 1 (θ = 1 2σ 2, η 2 (θ = α σ 2 en η 3 (θ = β σ 2 T 1 (x = n j=1 x2 j, T 2 (x = n j=1 x j en T 3 = n j=1 t jx j h(x = (2π n 2 B(θ = 1 2σ 2 n j=1 (α + βt j 2 n log σ. Uit de stelling volgt nu dat T = ( n j=1 X2 j, n j=1 X j, n j=1 t jx j voldoende en volledig is. Beschouw de kleinste kwadraten schatters van α en β, ˆβ n = n j=1 (t j tx j n j=1 (t j t 2 en ˆα n = 1 n Deze waarden minimaliseren de kwadratensom n j=1 en de resulterende residuele kwadratensom n j=1 ( 2 X j (α + βt j ( X j (ˆα n + ˆβ 2 n t j n X j t ˆβ n. levert gedeeld door n 2 een zuivere schatter op van σ 2. Alle schatters zijn functies van T en het zijn zuivere schatters. Volgens de Lehmann-Scheffé stelling zijn het de meest nauwkeurige zuivere schatters. j=1 3.3 Een extra criterium voor het bestaan van de m.n.z.s. Naast de stelling van Lehmann-Scheffé geven we nog een alternatief criterium voor het bestaan van een meest nauwkeurige zuivere schatter. We gebruiken daarbij het begrip zuivere nulschatter. Definitie Een stochastische variabele δ : X R heet een zuivere nulschatter als geldt E θ δ(x = 0, voor alle θ Θ. 32

37 Stelling Veronderstel dat T : X R een zuivere schatter is van g(θ, met E θ T 2 <, voor alle θ Θ. Dan geldt T is een meest nauwkeurige zuivere schatter van g(θ E θ T (Xδ(X = 0, voor alle θ Θ en elke zuivere nulschatter δ(x, met E θ δ(x 2 <, voor alle θ Θ. Bewijs Veronderstel dat T een meest nauwkeurig zuivere schatter is van g(θ en dat δ(x een zuivere nulschatter is. Voor alle a R is de schatter T + aδ dan ook een zuivere schatter van g(θ. Omdat T meest nauwkeurig zuiver is moet er dan gelden, voor alle θ Θ, E θ (T + aδ g(θ 2 E θ (T g(θ 2, voor alle a R. Na uitschrijven van het kwadraat vinden we dan a 2 E θ δ 2 + 2aE θ (δ(t g(θ 0, voor alle a R. Omdat we hier te maken hebben met een parabool in a moet de eerste graads term nul zijn, dus E θ (δ(t g(θ = E θ δt = 0. Veronderstel dat E θ T δ = 0 voor alle zuivere nulschatters δ met E θ δ 2 <, voor alle θ Θ, en dat U een willekeurige zuivere schatter van g(θ is met E θ U 2 <, voor alle θ Θ. Beschouw nu de schatter U T. Dit is een zuivere nulschatter met E θ (U T 2 <, voor alle θ Θ. Voor alle θ Θ geldt nu, wegens de Cauchy-Schwarz ongelijkheid, E θ (T g(θ 2 = E θ (T g(θ(t g(θ + U T = E θ (T g(θ(u g(θ 1 (E ( 1 θ (T g(θ 2 2 E θ (U g(θ 2 2. Hieruit volgt E θ (T g(θ 2 E θ (U g(θ 2, voor alle θ Θ. Omdat U willekeurig was volgt hieruit dat T meest nauwkeurig zuiver is.. Voorbeeld Laat X een stochastische variabele zijn die uniform verdeeld is op {θ 1, θ, θ + 1}, met θ Z. De familie P van kansverdelingen wordt dan gegeven door P = {P θ : θ Z}, waarbij P θ ({θ 1} = P θ ({θ} = P θ ({θ + 1} =

38 Veronderstel verder dat we een functie g(θ willen schatten die niet constant is in θ. We tonen aan dat er bij dit schattingsprobleem voor elke zuivere schatter T van g(θ een zuivere nulschatter δ bestaat zódat E θ δt 0 voor zekere δ. Er bestaat dus volgens het criterium geen meest nauwkeurig zuivere schatter van g(θ bij dit schattingsprobleem. Laat T een zuivere schatter zijn van g(θ. Als T = t(x een meest nauwkeurige zuivere schatter is van g(θ, dan moet er gelden g(θ = E θ T = 1 3 ( t(θ 1 + t(θ + t(θ + 1, voor θ Z. Definieer nu de schatters δ 1, δ 2 en δ 3. Voor k, x Z, δ 0 (3k = δ 0 (3k + 1 = 1, δ 0 (3k + 2 = 2, δ 1 (x = δ 0 (x + 1, δ 2 (x = δ 0 (x + 2, In een tabel weergegeven zien de schatters er als volgt uit δ 2 (x δ 1 (x δ 0 (x x Merk op dat δ 1, δ 2 en δ 3 zuivere nulschatters zijn. Uit E θ δ i T = 0, voor alle θ Z en i = 0, 1, 2, volgt nu t(θ 1 + t(θ 2t(θ + 1 = 0 2t(θ 1 + t(θ + t(θ + 1 = 0 t(θ 1 2t(θ + t(θ + 1 = 0 en dus t(θ 1 = t(θ = t(θ + 1, voor alle θ Z. De schatter T kan dus alleen een constante waarde hebben, en daarmee ook g(θ. Dit is in tegenspraak met de aanname dat g niet constant is. Voor een van de zuivere nulschatters δ i geldt dus Eδ i T 0, voor zekere θ. Om in te zien waarom er bij dit schattingsprobleem geen meest nauwkeurig zuivere schatter van g(θ bestaat beschouwen we de schatter T die aan x Z het dichtstbijzijnde drievoud toekent. Deze schatter is zuiver en Var θ ( T = 0 als θ een drievoud is. Voor 34

39 de andere waarden van θ is de variantie positief. Analoog kunnen schatters gemaakt worden die variantie nul hebben in de drievouden plus een, en schatters die variantie nul hebben in de drievouden plus twee. 3.4 Ondergrenzen aan de nauwkeurigheid van schatters Bij de eerder gegeven voorbeelden is het duidelijk geworden dat een parameter niet willekeurig precies kan worden geschat. Een zinnige vraag is of er op grond van een familie P van kansverdelingen een ondergrens aan de nauwkeurigheid van schatters van een functie g(θ van de parameter θ berekend kan worden. Deze ondergrens zou dan moeten gelden voor een zo groot mogelijke klasse van schatters. Als we de nauwkeurigheid van een schatter meten in termen van de variantie van de schatter en als we ons beperken tot zuivere schatters dan geldt de bekende Cramér-Rao ongelijkheid, die een ondergrens geeft in termen van de zogenaamde Fisher informatie. Definitie (Fisher informatie en scorefunctie Veronderstel dat de familie van kansmaten P gedomineerd wordt door een sigma-eindige maat µ, en dat er dus dichtheden p θ van P θ ten opzichte van µ bestaan. De scorefunctie l θ (x is de afgeleide naar θ van de logarithme van de dichtheid p θ (x l θ (x = log p θ (x en lθ (x = d dθ log p θ(x. (3.14 De Fisher informatie is de verwachting onder P θ van het kwadraat van de scorefunctie I(θ = E θ lθ (X 2 = E θ ( d dθ log p θ(x 2. (3.15 Stelling (Cramér-Rao ongelijkheid Laat Θ een open deelverzameling zijn van R en laat P = {P θ : θ Θ} een familie van kansmaten zijn op (X, A die gedomineerd worden door een sigma-eindige maat µ. Veronderstel dat de verzameling S = {x X : p θ (x > 0}, met p θ = P θ niet afhangt van θ. Laat T : X R een zuivere dµ schatter zijn van g(θ, waarbij g : Θ R een differentieerbare functie is. Veronderstel verder 1. voor elke x S bestaat de afgeleide d dθ p θ(x, 2. de Fisher informatie I(θ bestaat voor alle θ Θ en is positief en eindig, ( d 3. E θ log p dθ θ(x = 0, voor alle θ Θ, 35

Nog meer weergeven