Kansrekening en Statistiek College 16 Donderdag 4 November 1 / 25
2 Statistiek Indeling: Schatten Correlatie 2 / 25
Schatten 3 / 25
Schatters: maximum likelihood schatters Def. Zij Ω de verzameling van mogelijke waardes van een populatie parameter θ. Gegeven een steekproef met waardes X 1,..., X n is de likelihood van de steekproef gegeven θ Ω: P(X 1,..., X n θ). De maximum likelihood schatter m.l.e. is de schatter die op grond van de steekproef die θ in Ω kiest waarvoor X 1,..., X n de grootste likelihood heeft. De schatter wordt aangeduid met m(x 1,..., X n): als P(X 1,..., X n θ) = max τ Ω P(X 1,..., X n τ), dan m(x 1,..., X n) = θ. Merk op: Een m.l.e. hoeft niet uniek te zijn. 4 / 25
Schatters: maximum likelihood schatters St. Zij X de stochast behorende bij een Bernoulli experiment met kans op succes p. Dan geldt wanneer het bijbehorende experiment n maal herhaald wordt, dat het aantal maal succes steekproefgemiddelde X ( ) de m.l.e. van p is: totaal m(x 1... X n) = X. St. Zij X een normaal verdeelde stochast met gemiddelde µ en variantie σ 2. Dan geldt wanneer het bijbehorende experiment n maal herhaald wordt dat het steekproefgemiddelde X de m.l.e. van µ en P n i=1 (X i X ) 2 de m.l.e. van σ 2 is: P n i=1 m(x 1... X n) = X m(x 1... X n) = (X i X ) 2. n n Merk op: Een zuivere schatter is niet noodzakelijk gelijk aan de m.l.e.: de zuivere schatter van de variantie van de populatie is P n i=1 ( X i X ) 2, n 1 en dus niet gelijk aan de m.l.e. van de variantie van de populatie. 5 / 25
Filosofie: Frequentietheorie versus subjectieve theorie Frequentietheorie Zuivere schatters. Subjectieve theorie Maximum likelihood schatters. 6 / 25
Schatten: keuzes De eis van zuiverheid en de eis van maximum likelihood van een schatter ondersteunen de keuze om het gemiddelde van een populatie te benaderen met het steekproefgemiddelde op verschillende wijze. 7 / 25
Correlatie 8 / 25
Correlatie: lengte en schoenmaat Vb. Jullie schoenmaat: X 1 = 42.9 en s X 1 = 2.96. Jullie lengte: X 2 = 181.2 en s X 2 = 7.77. Steekproefgrootte: 16 M en 5 V. lengte 165 170 175 180 185 190 195 36 38 40 42 44 46 48 schoenmaat 9 / 25
Correlatie: verhuizen Vb. Aantal keer dat julllie verhuisd zijn: X 1 = 3.25 en s X 1 = 2.02. Leeftijd: X 2 = 20.4 en s X 2 = 1.7. verhuisd 0 2 4 6 8 18 19 20 21 22 23 24 leeftijd 10 / 25
Correlatie Als er meerdere parameters tegelijk gemeten worden horen bij elke element in de steeproef evenzovele scores. Bijvoorbeeld, wanneer er twee scores gemeten worden, geeft dat data van de vorm (X, Y ) voor elk element in de steekproef: (X 1, Y 1 ) (X 2, Y 2 )... Vb. Van elke persoon in een steekproef wordt het aantal veroordelingen van de moeder en van de persoon zelf vastgesteld. Dat geeft data van de vorm (X, Y ), waarbij X het aantal veroordelingen van de moeder en Y die van de persoon is: (12, 3) (3, 3) (4, 0)... 11 / 25
Correlatie Def. Een scatterplot op grond van een steekproef waarbij twee scores gemeten worden, stochasten X en Y, is een grafiek waarin de paren (X i, Y i ) voor elke element i in de steekproef weergegeven worden. Voor scatterplots moeten de variabelen interval- of ratioschaal zijn. Een correlatie tussen de variabelen betekent dat er op grond van de steekproef een verband lijkt te zijn. Een correlatie impliceert niet noodzakelijk een causaal verband (hidden variables). 12 / 25
Correlatie: lengte en schoenmaat Vb. lengte 182 175 198 180 177 180 172 163... schoenmaat 45 40 48 39 41 43 40 36... lengte 165 170 175 180 185 190 195 36 38 40 42 44 46 48 schoenmaat Er bestaat een correlatie tussen lengte en schoenmaat. 13 / 25
Vb. Afstand woonhuis - De Uithof en reistijd. Correlatie: afstand en tijd reistijd 0 50 100 150 0 10 20 30 40 50 afstanduh Er bestaat een correlatie tussen woonafstand en reistijd. 14 / 25
Correlatie: correlatiecoefficiënt Def. Gegeven twee stochasten X en Y, waarbij (X i, Y i ) de score van element i is in een steekproef ter grootte n, is de Pearson correlatiecoefficiënt: Waarbij z Xi, z Yi r XY = P zx z Y n 1 P n i=1 = z X i z Yi. n 1 de standaarscores van X i, Y i t.o.v. de steekproef zijn: z Xi = X i X s X z Yi = Y i Y s Y. Gebruikmakend van de notatie x = X X : P P xy n r XY = pp x 2 P y = i=1 x i y i q 2 Pn P. n i=1 x2 i i=1 y i 2 Ook geldt r XY = n P XY P X P Y p (n P X 2 ( P X ) 2 )(n P Y 2 ( P Y ) 2 ). 15 / 25
Correlatie 16 / 25
Correlatie Merk op: 1 r XY 1. De Pearson correlatiecoefficiënt is een maat voor het lineare verband tussen twee variabelen. Hoe homogener een van de variabelen over de populatie verdeeld is, hoe kleiner de absolute waarde van de Pearson correlatiecoefficiënt wordt. De Pearson correlatiecoefficiënt is ordinaal. 17 / 25
Correlatie: lengte en schoenmaat Vb. lengte 165 170 175 180 185 190 195 36 38 40 42 44 46 48 schoenmaat De Pearson correlatiecoefficiënt: 0.86. 18 / 25
Correlatie: verhuizen Vb. verhuisd 0 2 4 6 8 18 19 20 21 22 23 24 leeftijd De Pearson correlatiecoefficiënt: 0.38. 19 / 25
Correlatie: afstand en tijd Vb. reistijd 0 50 100 150 0 10 20 30 40 50 afstanduh De Pearson correlatiecoefficiënt: 0.91. 20 / 25
Regressie 21 / 25
Regressie Def. Op grond van twee variabelen X en Y worden constanten a en b bepaald zodat de lijn Y = ax + b zo goed mogelijk het lineare verband tussen X en Y weergeeft. Met behulp van de regressielijn kunnen de scores voor elementen uit de populatie die niet in de steekproef bevat zijn voorspeld worden. 22 / 25
Het quartet van Anscombe Het quartet van Anscombe bestaat uit vier verzamelingen data die dezelfde statistische eigenschappen hebben, maar die verschillend zijn wanneer ze grafisch worden weergegeven. In alle vier de verzamelingen data zijn voor X (x-as) gemiddelde en variantie gelijk. Evenzo voor Y. Voor alle vier is de correlatiecoefficiënt en regressielijn gelijk. 23 / 25
24 / 25
Finis 25 / 25