Toegepaste Statistiek, Dag 7 1 Statistiek: Afkomstig uit het Duits: De studie van politieke feiten en cijfers. Afgeleid uit het latijn: status, staat, toestand Belangrijkste associatie: beschrijvende statistiek Stochastiek: Afgeleid uit het Grieks: Vaardigheid in het gissen (voorspellen) stochazesthai, gissen Belangrijkste associatie: verklarende statistiek Het doen van, en het omgaan met, onzekere uitspraken Onzekerheid kwantificeren binnen een model Giskunde? Wiskunde: Het doen van, omgaan met, gewisse (zekere) uitspraken met name, zekerheid binnen een model vb. klassieke mechanica, zwaartekracht
Toegepaste Statistiek, Dag 7 2 1 Ordinale variabele G. 2 Nominale variabelen C (behandelingen) en B (soorten). Ordinale variabele normaal verdeeld binnen iedere combinatie van C- en B-categorie EN variantie hangt niet af van de categorieën. In formule: G {c i, b j } = µ + α ci + β bj + γ ci,b j + ε waar de verdelingsfunctie van ε niet afhangt van c i en b j, EN normaal is met gemiddelde 0. Hoofdeffecten: termen α ci en β bj Interactie/Wisselwerking: term γ ci,b j Voorbeeld hypotheses: H 0 : α c hangt niet van de categorie c af. Alternatieve hypothese: de α c niet allen gelijk. Gebruikelijker in de contekst met interactieterm: H 0 : er is geen interactie, de γ-coëfficiënten zijn gelijk (aan 0) Alternatieve hypothese: er is interactie In het geval er interactie is, niet meer toetsen op de hoofdeffecten Twee-weg variantie-analyse (ANOVA). Zie pag. 103 Voorbeeld Example.xls (op I-schijf)
Toegepaste Statistiek, Dag 7 3 Twee-weg variantie-analyse met replicatie Evenveel proefnemingen (2 of meer) per combinatie c i, b j Makkelijk te interpreteren Excel output Twee-weg variantie-analyse zonder replicatie Modelformule: G {c i, b j } = µ + α ci + β bj + ε waar de verdelingsfunctie van ε niet afhangt van c i en b j, EN normaal is met gemiddelde 0. Per combinatie c i, b j wordt er slechts één proefneming gedaan Gevolg: Te weinig informatie om interactie te beoordelen Voorbeeld: Werkzaam bestanddeel Toedieningswijze I II III IV drank 50 35 25 40 pil 20 25 15 30 capsule 45 10 30 35 H 0 : Hoofd-effecten toedieningswijze zijn gelijk (aan 0) of H 0 : Hoofd-effecten werkzame bestanddeel zijn gelijk (aan 0)
Toegepaste Statistiek, Dag 7 4 Nonparametrische versie van Twee-weg variantie-analyse zonder replicatie Friedman-toets (pag.106) Tabel: Urine uitscheiding in ml bij drie personen en vier soorten plaspillen Pillensoorten Persoon I II III IV A 50 35 25 40 B 20 25 15 30 C 45 10 30 35 We zijn niet geïnteresseerd in de blokvariabele Persoon H 0 : de pillen zijn gelijkwaardig Modelformule: G {X, J} = µ + α X + β J + ε waar ε bij gegeven persoon X onafhankelijk is van soort J. Gevolg van H 0 : β I = = β IV In rij X is iedere volgorde G X,I,..., G X,IV even waarschijnlijk. Volg berekening in dictaat.
Toegepaste Statistiek, Dag 7 5 Regressie-analyse, pag. 109 2 ordinale variabelen geïnteresseerd in een (lineaire) afhankelijkheid Y afhankelijke variabele, X verklarende variabele Modelformule: Y = a X + b + ε ε onafhankelijk van de X-waarde, toevallige afwijking, normaal verdeeld met variantie σ 2 b : intercept a : helling, slope Gebruikelijke analyse geeft schatting van a en b Gebruikelijke H 0 : a = 0, d.w.z. Y onafhankelijk van X Bij data Y i, X i, i = 1,..., n worden a en b geschat door kleinste kwadraten oplossing van probleem Minimaliseer (Y i a X i b) 2 i=1 Oplossing (som steeds over alle proefnemingen): Residuen: n â = Σ(X i X n ) (Y i Ȳn) Σ(X i X n ) 2 ˆb = Ȳ n â X n e i = Y i â X i ˆb, Residuele variantie (schatting van σ 2 ): s 2 R = 1 n 2 Σe2 i i = 1,..., n
Toegepaste Statistiek, Dag 7 6 Correlatie (pag. 114): Gebruikelijk als er niet zo n afhankelijke/verklarende relatie is voor de 2 ordinale variabelen Y en X. Gebruikelijke modelaanname: X normaal verdeeld, en er is a zo dat bij iedere gegeven X-waarde, Y a X normaal verdeeld is met gemiddelde en variantie onafhankelijk van de X-waarde. C XY = 1 n 1 n i=1 (X i X n )(Y i Ȳn) covariantie s 2 X = 1 n n 1 i X n ) 2 i=1 variantie s 2 Y = 1 n n 1 i Ȳn) 2 i=1 variantie Pearson product-moment correlatie r = C XY s X s Y r ligt altijd tussen 1 en 1 in. Als gelijk 1 of 1 dan Y i = a X i + b exact met (a < 0, resp a > 0) C XY = 1 n 1lengte(x) lengte(y) cosinus( (x, y)) met x i = X i X n en y i = Y i Ȳn lengte(x) = n 1 s X, lengte(y) = n 1 s Y Dan blijkt r = cosinus( (x, y)) Toetsing: H 0 : X en Y onafhankelijk (ofwel a = 0, ofwel de populatiecorrelatie is 0)
Toegepaste Statistiek, Dag 7 7 Spearman rang-orde correlatie Kijkt in hoevere hogere X-waarden samengaan met hogere of lagere Y -waarden Transformeer de waarden: Vervang de waarde X i door zijn rangnummer in volgorde van grootte, R i, in de rij X 1,..., X n Vervang de waarde Y i door zijn rangnummer in volgorde van grootte, S i, in de rij Y 1,..., Y n Bereken d i = R i S i r s = de Pearson product-moment correlatie van R en S is wiskundig gelijk aan r s = 1 6 n i=1 d 2 i n 3 n