Introductie tot de statistiek

Transcriptie

1 Introductie tot de statistiek Hogeschool Gent 04/05/2010

2 Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek Onderzoek Data Variabelen Meetniveau Beschrijvende technieken: 1 variabele Ordeningstechnieken Reductietechnieken Beschrijvende technieken: associatiematen Visualisatie Histogram Boxplot /77

3 2 Toevalsvariabelen en kansverdelingen Toevalsvariabelen Toevalsproces en gebeurtenis Toevalsvariabele Kansen Kansverdeling Discrete kansverdeling Continue kansverdeling Verwachting Variantie Kansverdelingen Binomiaal verdeling Normaalverdeling Standaardnormaalverdeling t-verdeling χ 2 -verdeling F-verdeling /77

4 3 Statistische Inferentie: toetsen en schatten De steekproevenverdeling De steekproevenverdeling voor X De steekproevenverdeling voor X (σ 2 ongekend) Intervalschatting Puntschatting Het betrouwbaarheidsinterval Opstellen van betrouwbaarheidsinterval Toetsen van hypotheses Nulhypothese Toetsingsgrootheid G Kies betrouwbaarheid (1 α) H 0 aanvaarden of verwerpen H 0 aanvaarden of verwerpen met p-waarde Toetsen van hypotheses One-sample t-test two-sample t-test /77

5 3.6.3 One-way analysis of variance (Anova) Categorische data-analyse Inleiding Categorische variabele Categorische variabele met 2 niveaus Categorische variabele met J 2 niveaus Categorische variabelen Wegs kruistabel: geobserveerde frequenties Test voor onafhankelijke variabelen Veralgemeend lineaire modellen Logistische regressie Poisson regressie Loglineaire analyse /77

6 5 Enkelvoudige Lineaire Regressie Inleiding doel Vergelijking van een rechte Het regressiemodel Structuur assumpties Onderzoeksvragen Parameters Toetsen van hypotheses De determinatiecoëfficiënt R Meervoudige Lineaire Regressie Structuur Onderzoeksvragen Parameters Toetsen van hypotheses /77

7 6.5 De determinatiecoëfficiënt R /77

8 1 Basisbegrippen en beschrijvende statistiek 1.1 Onderzoek Data verzamelen in een specifieke steekproef, representatief voor de populatie Data Data: p variabelen bij n observaties. Voorbeeld: 8/77

9 score iq motivatie geslacht werken M Neen V Ja M Ja V Neen M Neen V Neen M Ja V Neen V Neen V Neen 9/77

10 1.1.2 Variabelen Eigenschap die varieert: X scores zijn geobserveerde waarden van een variabele: x, vb. x 2 = Meetniveau Categorische variabelen: nominaal of ordinaal (vb geslacht) Continue variabelen: minstens interval niveau (vb iq) Opm. Likert-schaal: ordinaal, maar als continue beschouwd. 10/77

11 1.2 Beschrijvende technieken: 1 variabele Ordeningstechnieken frequentietabel relatieve frequentieverdeling geslacht geslacht freq. M 4 V 6 rel. freq. M 0.4 V /77

12 gegroepeerde frequentieverdeling score freq Reductietechnieken Maten van centrale tendentie 1. modus (mo x ): waarde met grootste frequentie (vb iq: 125) 2. mediaan: percentiel 50 (md x = P 50 ) (vb iq: 127.5) n 3. rekenkundig gemiddelde: x = 1 n x i vb x = = 12 i=1 12/77

13 Maten van spreiding 1. variatie of Sum of Squares: SS = n (x i x) 2 2. variantie: s 2 x = 1 n n (x i x) 2 i=1 i=1 vb s 2 x = (16 12)2 +(10 12) 2 +(11 12) (10 12) 2 10 = standaarddeviatie: s x = s 2 x vb s x = 9.2 = /77

14 1.3 Beschrijvende technieken: associatiematen 1. covariantie: lineaire samenhang n Cov x,y = 1 n (x i x)(y i ȳ) i=1 vb score en iq: Cov(x, y) = = correlatie: normaliseren van covariantie Cor x,y = r xy = Cov(x,y) sxs y vb score en iq: r xy = /77

15 15/77

16 1.4 Visualisatie Histogram X = [1, 10] 16/77

17 1.4.2 Boxplot min Q1 Q2 Q3 max min Q1: 25% van de observaties box: 50% van de observaties Q3 max: 25% van de observaties 17/77

18 Voorbeeld: X N(10, 1) 18/77

19 Voorbeeld: X F (1, 15) 19/77

20 Voorbeeld: X 1 N(10, 1),X 2 U(min(X 1 ), max(x 2 )) 20/77

21 2 Toevalsvariabelen en kansverdelingen 2.1 Toevalsvariabelen Toevalsproces en gebeurtenis toevalsproces: uitkomst is onvoorspelbaar Kop of munt gooien IQ meten bij een random gekozen persoon Gebeurtenis: deelverzameling van mogelijke uitkomsten voor een toevalsproces. Kop of munt gooien: {munt} IQ meten: meer dan /77

22 2.1.2 Toevalsvariabele Een toevalsvariabele of kansvariabele is een variabele waarvan de waarde in een toevalsproces onvoorspelbaar is. De kansvariabele score 2.2 Kansen De kans van een gebeurtenis A bij een toevalsproces wordt gedefiniëerd als de relatieve frequentie van deze gebeurtenis als we het toevalsproces oneindig veel keer zouden herhalen. P (A) = lim n f An 22/77

23 2.3 Kansverdeling Discrete kansverdeling Een toevalsvariabele is discreet indien de mogelijke waarden die de variabele kan aannemen een eindig (of telbaar) aantal vormen. vb ogen dobbelsteen, geslacht. De kansverdeling van een discrete kansvariabele geeft voor elke mogelijke waarde x i de kans aan dat deze waarde voorkomt: f X (x i ) = f(x i ) = P [X = x i ] 23/77

24 Voorbeeld: ogen dobbelsteen Ogen f(x i ) F (x i ) 1 1/6 1/6 2 1/6 2/6 3 1/6 3/6 4 1/6 4/6 5 1/6 5/6 6 1/6 6/6 De cumulatieve verdelingsfunctie F X (x i ) drukt de kans uit dat de waarde van de toevalsvariabele X in een toevalsproces kleiner is of gelijk aan x: F X (x i ) = P (X x i ) = x x i f(x i ) 24/77

25 2.3.2 Continue kansverdeling De kansverdeling bestaat niet: P [X = x] = 0. Daarom Kansdichheidsfunctie: 1. P [a x b] = b a f(x)dx 2. f(x) 0 voor alle x 3. f(x)dx = 1 De cumulatieve verdelingsfunctie: F X (x) = P (X x) = x f(t)dt Voorbeeld: De kans dat iemand kleiner of gelijk aan 80kg weegt: P (X 80) = /77

26 2.4 Verwachting Het gemiddelde van een toevalsvariabele X wordt de verwachting genoemd, E(X) of µ X. Discreet: E(X) = x i f(x i ) voorbeeld dobbelsteen: E(X) = 1/6(1) + 1/6(2) /6(6) = 3.5 Continue: E(X) = + xf(x)dx Eigenschappen: 1. E(a) = a 2. E(aX) = ae(x) 3. E(a + X) = a + E(X) 4. E(X ± Y ± Z) = E(X) ± E(Y ) ± E(Z) 5. X en Y onafhankelijk: E(XY ) = E(X)E(Y ) 26/77

27 2.5 Variantie De mate van spreiding van de verdeling van een kansvariabele X noemt men de variantie van X, Var(X) of σ 2 X. V ar(x) = E[X E(X)] 2 Eigenschappen: 1. V ar(a + X) = V ar(x) 2. V ar(ax) = a 2 V ar(x) 3. V ar(a) = 0 4. X en Y onafhankelijk: V ar(x ± Y ) = V ar(x) + V ar(y ) 5. X en Y afhankelijk: V ar(x ± Y ) = V ar(x) + V ar(y ) ± 2Cov(X, Y ) 27/77

28 2.6 Kansverdelingen Binomiaal verdeling X Binom(n, π) Kansverdeling: f(x) = ( ) n n! met = x!(n x)! x E(X) = nπ V ar(x) = nπ(1 π) ( n x ) π x (1 π) n x 28/77

29 29/77

30 2.6.2 Normaalverdeling X N(µ, σ 2 ) 1 f(x) = (2π) 1/2 σ exp{ 1 (x µ) 2 2 σ } 2 E(X) = µ V ar(x) = σ Standaardnormaalverdeling φ(x) N(0, 1) z = X µ σ 30/77

31 2.6.4 t-verdeling X t(ν) ν = aantal vrijheidsgraden χ 2 -verdeling X χ 2 (ν) ν = aantal vrijheidsgraden som van ν onafhankelijke gekwadrateerde z-scores 31/77

32 2.6.6 F-verdeling X F (ν 1, ν 2 ) ν 1 en ν 2 = vrijheidsgraden gebaseerd op ratio van twee χ 2 -verdelingen 32/77

33 3 Statistische Inferentie: toetsen en schatten 3.1 De steekproevenverdeling Hypotheses: betrekking op onbekende parameters van de populatie Statistiek of steekproefgrootheid: maat gebaseerd op de gegevens van de steekproef: S = f(x 1, X 2, X 3,..., X n ) Puntschatting: Gegeven S, schatten van parameter in de populatie? Intervalschatting: betrouwbaarheidsinterval Toetsen: geldigheid hypothese in de populatie? Steekproevenverdeling: verdeling van S 1, S 2,..., S n Standaardfout: op basis van steekproevenverdeling 33/77

34 Voorbeeld: n = 40, µ = 12, sd = 3 X = ˆµ = 12.00, ˆσ = /77

35 3.2 De steekproevenverdeling voor X Om de steekproevenverdeling voor X af te leiden doen we beroep op de centrale limietstelling. Gegeven n kansvariabelen X 1, X 2,..., X n allen onafhankelijk en afkomstig van dezelfde (willekeurige) verdeling met gemiddelde µ en variantie 0 < σ 2 < Stel: S n = X 1 + X 2 + X X n Indien n dan is S n normaal verdeeld met E(S n ) = nµ en V ar(s n ) = nσ 2 35/77

36 Gevolg 1: Stel X = S n n = X1+X2+X3+...+Xn n Indien n dan is X normaal verdeeld met E( X) = µ en V ar( X) = σ 2 /n Opmerkingen: Normaalverdeling goede benadering: Vanaf n > 30 Indien n 30 en oorspronkelijke scores zijn normaal verdeeld Voorbeeld: Geobserveerde steekproefgemiddelde X = σ standaardafwijking of standaardfout: 2 n = 9 40 = /77

37 Gevolg 2: Stel Z X = q X µ σ 2 n Indien n dan is Z X standaardnormaal verdeeld met E(Z X) = 0 en V ar(z X) = De steekproevenverdeling voor X (σ 2 ongekend) Vervangen van σ 2 door steekproefschatter s 2 in Z X = q X µ σ 2 n dan: t = q X µ s 2 n t t(ν) met ν = n 1 37/77

38 3.4 Intervalschatting Puntschatting De geschatte waarde ˆθ weerspiegelt: 1. de waarde θ in de populatie 2. de steekproeffout ε: ˆθ = θ + ε Het betrouwbaarheidsinterval Hoe smaller, hoe nauwkeurig de schatting Confidentie niveau: 100(1 α)%, met α = 0.05, α = 0.01 of... 38/77

39 3.4.3 Opstellen van betrouwbaarheidsinterval 1. Trek random steekproef 2. Puntschatting θ: ˆθ 3. Berekenen onder- en bovengrens: ondergrens = ˆθ ( g α/2 1 s) bovengrens = ˆθ + ( g α/2 1 s) % van de intervallen zal θ bevatten 39/77

40 3.5 Toetsen van hypotheses Nulhypothese Is populatieparameter θ gelijk aan vooropgestelde waarde θ 0? H 0 is de hypothese die effectief getoets wordt: H 0 : µ = 110 H a is de alternatieve hypothese: 1. tweezijdig: H a : µ linkszijdig: H a : µ < rechtszijdig: H a : µ > /77

41 3.5.2 Toetsingsgrootheid G 1. Verdeling G theoretische verdeling vb t, F, Verdeling van G onder de assumptie dat H 0 waar is Kies betrouwbaarheid (1 α) 1 α: conditionele kans om H 0 te aanvaarden op voorwaarde dat H 0 juist is α: significantieniveau is de conditionele kans om de nulhypothese te verwerpen op voorwaarde dat de nulhypothese juist is. 41/77

42 3.5.4 H 0 aanvaarden of verwerpen Tweezijdig toetsen: Bepaal kritische waarden g α/2 1 en g α/2 2 : P (G g α/2 1 ) = α/2 en P (G g α/2 2 ) = α/2 aanvaardingsgebied: g α/2 1 G g α/2 2 kritisch gebied: gebied buiten deze twee waarden 42/77

43 43/77

44 Eenzijdig toetsen: Bepaal kritische waarde g α : P (G g α ) = α OF P (G g α ) = α 44/77

45 45/77

46 3.5.5 H 0 aanvaarden of verwerpen met p-waarde Bereken kans dat onder de verdeling van G onder H 0 dat g of een waarde groter dan g zich voordoet. Eenzijdig: p = P (G g) of p = P (G g) Tweezijdig: p 2zijdig = 2 p 1zijdig 46/77

47 3.6 Toetsen van hypotheses One-sample t-test Gebruik: Nagaan of het gemiddelde van een continue variabele afwijkt van een gegeven waarde µ 0. assumpties: 1. Onafhankelijke observaties. 2. Normaalverdeelde observaties of een grote steekproef. H 0 : µ = µ 0 toetsingsgrootheid: t = q X µ s 2 n betrouwbaarheidsinterval: ondergrens = X ( t α/2 n 1 s/ n) 47/77

48 bovengrens = X + ( t α/2 n 1 s/ n) Voorbeeld: n = 100, x = 116 en s 2 = 400 H 0 : µ = 110, H a : µ 110 t = q X µ = s 2 20/ = n α = 0.05, t = +2 en 2, p = ondergrens = 116 ( ), bovengrens = ( ) 95% betrouwbaarheidsinterval is [112, 120], µ 0 ligt niet in dit interval. 48/77

49 3.6.2 two-sample t-test Gebruik: Nagaan of het gemiddelde van een continue variabele gelijk is in twee onafhankelijke populaties. assumpties: 1. Onafhankelijke observaties. 2. Normaalverdeelde observaties of een grote steekproef in elke groep. H 0 : µ 1 = µ 2 en varianties homogeen (σ 2 1 = σ 2 2 = σ) toetsingsgrootheid: t = ( q X 1 X 2) (µ 1 µ 2) s 2 pooled = (n1 1)s2 1 +(n2 1)s2 2 n 1+n 2 2 betrouwbaarheidsinterval: s 2 pooled ( 1 n n 2 ) ondergrens = ( X 1 X 2 ) ( t α/2 n 1+n 2 2 s ( X 1 X 2)) 49/77

50 bovengrens = ( X 1 X 2 ) + ( t α/2 n 1+n 2 2 s ( X 1 X 2)) Voorbeeld: n 1 = 4,n 2 = 6, x 1 = 14.75, x 2 = en s 2 pooled = 5.26 H 0 : µ A = µ B t = ( q X 1 X 2) (µ 1 µ 2) s 2 pooled ( 1 n = n ) 5.26( 1 2 α = 0.05, t = 2.306, p = ) = ondergrens = ( ) = bovengrens = ( ) = % betrouwbaarheidsinterval is [1.003, 7.831], (µ A µ B ) ligt niet in dit interval. 50/77

51 3.6.3 One-way analysis of variance (Anova) Gebruik: Nagaan of het gemiddelde van een continue variabele gelijk is in twee of meer (k) onafhankelijke populaties. Uitbreiding van de two-sample t-test assumpties: 1. Onafhankelijke observaties. 2. Normaalverdeelde observaties of een grote steekproef in elke groep. 3. Gelijke variantie in elke groep. principe: is de variate tussen (between) groepen groot indien vergeleken met de variatie binnen (within) groepen? within MSE = withinss n k = kp P n j (Y ij Ȳi)2 i=1 j=1 n k 51/77

52 between MSE = betweenss k 1 = kp P n j (Ȳi Ȳ )2 i=1 j=1 k 1 H 0 : µ 1 = µ 2 =..., µ k toetsingsgrootheid: F = betweenmse withinmse, met onder H 0 F (k 1, n k). 52/77

53 Voorbeeld: Data: Groep1 Groep2 Groep ȳ 1 = 2.1 ȳ 2 = 3 ȳ 3 = 4.5 ȳ = /77

54 Output: Sum of Squares df Mean Square F Sig. Between Groups Within Groups Total /77

55 4 Categorische data-analyse 4.1 Inleiding Afhankelijke variabele: categorisch (nominaal of ordinaal) vb geslacht, opleidingsniveau aantallen, frequenties, proporties, percentages 55/77

56 4.2 1 Categorische variabele Categorische variabele met 2 niveaus Voorbeeld: Vrouwen Mannen Totaal Vrouwen Mannen Totaal De binomiaaltoets: H 0 : π = π 0 en stel π 0 = 0.56 H a : π < /77

57 P (X = x) = ( n x ) π x (1 π) n x De kans dat er( exact) 10 vrouwen zijn: 30 P (X = 10) = 0.56 x (1 0.56) = De kans dat er 11 vrouwen of minder zijn: P (X 11) = P (X = 0) + P (X = 1) P (X = 11) = p tweezijdig = = /77

58 Indien min nπ 0, n(1 π 0 ) > 5: benaderen via normaalverdeling z = z = x nπ nπ0(1 π 0) (1 0.56) = P (Z > 2.133) = Soms continuiteits-correctie: z = = (1 0.56) P (Z > 1.95) = /77

59 Categorische variabele met J 2 niveaus Voorbeeld: Klinische Bedrijfs Experimentele Totaal n j p j π j µ j (= n π j ) De Pearson chi-kwadraat toets: H 0 : p j = π j of n j = µ j, voor alle j. χ 2 = J (n j µ j) 2 µ j, met df = J 1. j=1 χ 2 2 = ( ) ( ) ( ) = , p < /77

60 4.3 2 Categorische variabelen Wegs kruistabel: geobserveerde frequenties Voorbeeld: Klinische Bedrijfs Experimentele Totaal geslaagd = geslaagd = Notatie: totaal Klinische Bedrijfs Experimentele Totaal geslaagd = 0 n 11 n 12 n 13 n 1+ geslaagd = 1 n 21 n 22 n 23 n 2+ totaal n +1 n +2 n +3 n 60/77

61 4.3.2 Test voor onafhankelijke variabelen Is er een verband tussen X en Y? Zo niet: statistisch onafhankelijk H 0 : π ij = πi+ π+j, voor alle i, j. H 0 : π i j = π+j, voor alle i, j. Onder H 0 : µ ij = nπij = n πi+ π+j. π i+ en π+j onbekend: ˆµ ij = np i+ p+j = n ni+ n +j n n = ni+n+j n. ˆµ ij : geschatte verwachte frequenties. 61/77

62 ˆµ 11 = = ˆµ 12 = = ˆµ 13 = = 8.73 ˆµ 21 = = ˆµ 22 = = ˆµ 23 = = Klinische Bedrijfs Experimentele Totaal geslaagd = geslaagd = totaal /77

63 χ 2 I J i=1 j=1 (n ij ˆµ ij) 2 ˆµ ij df = (I 1)(J 1) χ 2 = , df = 2, p = /77

64 4.4 Veralgemeend lineaire modellen Afhankelijke variabele is categorisch, maar meerdere predictoren Regressie, anova niet meer mogelijk Logistische regressie Afhankelijke variabele is dichotoom, of binair Alternatief: probit regressie Indien afhankelijke variabele meerdere niveaus: multinomiale regressie 64/77

65 4.4.2 Poisson regressie Afhankelijke variabele is een frequentie die een poisson verdeling volgt Aantal ongevallen/uur, Aantal klanten per dag, Loglineaire analyse Speciaal geval van poisson regressie Associatie tussen verschillende nominale variabelen in kaart brengen 65/77

66 5 Enkelvoudige Lineaire Regressie 5.1 Inleiding doel Modelleren van lineaire relatie tussen een afhankelijke variabele Y en een onafhankelijke variabele X X en Y gemeten op minstens interval niveau Lineaire regressie laat toe: 1. variatie in Y te verklaren in termen van variatie in X 2. Y te voorspellen op basis van X 3. nagaan of X een significante predictor is 66/77

67 5.1.2 Vergelijking van een rechte y = a + bx a = intercept: indien x = 0, dan y = a b = helling of slope: indien de waarde van x stijgt met één eenheid, dan stijgt de waarde van y met b 67/77

68 68/77

69 5.2 Het regressiemodel Structuur Y i = β 0 + β 1 X i + ε i, i = 1, 2,..., n β 0 en β 1 zijn de regressiecoëfficiënten ε i is de foutterm voor observatie i assumpties E(ε i ) = 0 E(Y i ) = β 0 + β 1 X 1i β 1 X pi V ar(ε i ) = σ 2 ε voor alle i V ar(y i ) = σ 2 ε i Cov(ε i, ε j ) = 0 voor alle i j 69/77

70 5.2.3 Onderzoeksvragen Wat is de bijdrage van X in het model? Is dit significant? H 0 : β 1 = 0 Hoeveel variantie in Y wordt verklaard door het model? H 0 = R 2 = 0, met R 2 =determinatiecoëfficiënt 70/77

71 5.3 Parameters Enkelvoudig regressiemodel telt drie vrije parameters: 1. de regressieconstante β 0 2. de regressiecoëfficiënt β 1 3. de variantie van de fouttermen σ 2 ε Schatten van parameters? Methode van kleinste kwadraten, maximum likelihood Minimaliseren van n (y i ŷ i ) 2, met ŷ i = b 0 + b 1 x i i=1 71/77

72 5.4 Toetsen van hypotheses H 0 : β 0 = 0: t = b0 β0 s b0 H 0 : β 1 = 0: t = b1 β1 s b1 Voorbeeld score en iq: met n 2 vrijheidsgraden met n 2 vrijheidsgraden B Std.Error t Sig constant iq ondergrens: b i ( t α/2 n 2 s b i ) bovengrens: b i + ( t α/2 n 2 s b i ) 72/77

73 5.5 De determinatiecoëfficiënt R 2 Nulmodel: Y i = β 0 + ε i b 0 = ȳ Total sum of squares (SST): E 0 = n (y i ȳ i ) 2 i=1 Residual sum of squares (SSE): E p = n (y i ŷ i ) 2 i=1 Regression sum of squares (SSR) = SST-SSE R 2 = E0 Ep E 0 0 < r 2 < 1 H 0 : R 2 = 0: F = (E0 Ep)/(df0 dfp) E p/df p Voorbeeld score en iq: R 2 = Model Sum of Squares df Mean Square F Sig. Regression Residual Total /77

74 6 Meervoudige Lineaire Regressie 6.1 Structuur Y i = β 0 + β 1 X 1i + β 2 X 2i β p X pi + ε i, i = 1, 2,..., n β 0,..., β 1 zijn de regressiecoëfficiënten ε i is de foutterm voor observatie i 6.2 Onderzoeksvragen Wat is de bijdrage van X p in het model? Is dit significant? H 0 : β p = 0 Hoeveel variantie in Y wordt verklaard door het model? H 0 = R 2 = 0, met R 2 =determinatiecoëfficiënt 74/77

75 6.3 Parameters Schatten van vrije parameters: Cfr. Enkelvoudige lineaire regressie 6.4 Toetsen van hypotheses H 0 : β p = 0: t = bp βp s bp met n p 1 vrijheidsgraden Voorbeeld score, iq en leeftijd: 75/77

76 score iq leeftijd B Std.Error t Sig constant iq leeftijd /77

77 6.5 De determinatiecoëfficiënt R 2 Nulmodel: Y i = β 0 + ε i b 0 = ȳ Total sum of squares (SST): E 0 = n (y i ȳ i ) 2 i=1 Residual sum of squares (SSE): E p = n (y i ŷ i ) 2 i=1 Regression sum of squares (SSR) = SST-SSE R 2 = E0 Ep E 0 0 < r 2 < 1 H 0 : R 2 = 0: F = (E0 Ep)/(df0 dfp) E p/df p Voorbeeld score, iq en leeftijd: R 2 = Model Sum of Squares df Mean Square F Sig. Regression Residual Total /77