Statistiek 2 deel A 30 minuten over statistisch toetsen R.J. Baars, MSc Kruytgebouw N710 r.j.baars@uu.nl februari 2014
Opbouw van statistiek Statistiek 1 (periode 2: vandaag) Dit college + zelfstudie + thuisopdracht Statistiek 2 (periode 3: 3/10/17 februari) Mini-college 1: statistisch toetsen Mini-college 2: Powerfit en ijklijnen Mini-college 3: Harris en verder Statistiek 3 (periode 3: 12 maart) Toetsvraag in de Harris-toets
Thuisopdracht 2 Wat heb je er voor nodig? Zie practicum.chem.uu.nl/ 3 mini-colleges (vooral deze) Handleiding Statistiek 1 Dictaat Statistiek voor Chemici Hoe, wanneer en waar lever je het in? uiterlijk 28 februari 2014, 17:00, op papier, Kruytgebouw N710 SUCCES!
De zin van statistiek Stellen van de juiste vragen Is mijn steekproef wel representatief voor de populatie? Zijn mijn twee steekproeven hetzelfde? Heb ik uitschieters in mijn meetgegevens? Iedere omstandigheid heeft een juiste vraag nodig, en een juiste toets. 4
Statistisch toetsen Doel R,I = Ratio, Interval O = Ordinaal N = Nominaal NV = Normaal Verdeeld NNV = Niet NV beschrijving van één groep vergelijk van één groep met theorie vergelijk van twee groepen vergelijk van meer dan twee groepen correlatie tussen twee variabelen voorspellingen NV R,I O N NNV ANOVA (+ variaties), Kruskal-Wallis test, Friedman test, Cochrane Q, e.a. (niet-)lineaire regressie R,I O N σ bekend σ niet bekend onafhankelijk (ongepaard) afhankelijk (gepaard) niet-parametrische regressie z-test t-test R,I O N R,I O N logistische regressie R,I O N Wilcoxon test Fisher s test R,I O N NV NNV χ 2 -test gemiddelde, st.dev. NV NNV NV NNV NV NNV mediaan, kwartielen σ bekend σ niet bekend t-test (gepaard) McNemar s test Spearman correlatie frequenties z-test (2 groepen) t-test (2 groepen) Mann- Whitney test Wilcoxon test Pearson correlatie kruistabel
Statistisch toetsen t-toets voor één steekproef (al bij Statistiek 1) t-toets voor twee steekproeven gelijke variantie ongelijke variantie F-toets voor varianties (zie dictaat) Dixon Q-toets voor uitschieters
t-toets voor één steekproef Is mijn steekproef representatief voor de populatie? oftewel Wijkt x significant af van μ? Nodig: μ, x, s en n. Bereken toetsvariabele t = x μ s/ n Zoek kritieke waarde van t op (bv. in Harris) bij het juiste aantal vrijheidsgraden ν = n 1 en α = 0.05 (95% betrouwbaarheid, tweezijdig) Als t berekend < t kritiek, dan is er geen significant verschil tussen x en μ.
Grafische weergave van t-toets t-verdeling met ν = 5 Toetsvariabele t = x μ s/ n Kritieke t-waarde (α = 0.05, tweezijdig) t = 2,571 95% gebied Alle t-waarden binnen dit gebied (t < t kritiek ) duiden op geen significant verschil.
Intermezzo: eenzijdig vs. tweezijdig tweezijdig t-verdeling met ν = 5 eenzijdig 95% gebied 95% gebied t kritiek t kritiek Voor tweezijdig: t kritiek = 2,571 (α = 0.05) Toetsvraag: x μ Voor eenzijdig: t kritiek = 2,015 Toetsvraag: x > μ of x < μ (α = 0.05) Let op of tabellen t-waarden voor eenzijdige of tweezijdige onzekerheid geven. Harris geeft tweezijdig. Desnoods omrekenen: t α,tweezijdig = t 2α,eenzijdig.
t-toets voor twee steekproeven Verschillen twee steekproef significant van elkaar? oftewel Wijkt x A af van x B? Bepaal of de steekproeven uit een populatie met gelijke variantie zijn genomen (F-toets): Gelijk σ 2 A = σ 2 B Ongelijk σ 2 A σ 2 B Verder hetzelfde als anders: bereken t, zoek kritieke t op en vergelijk. Als t berekend < t kritiek, dan is er geen significant verschil tussen x A en x B.
t-toets voor twee steekproeven Toetsvariabele t = x A x B S AB σ 2 A = σ 2 B S AB = 1 + 1 n A n B ν = n A + n B 2 n A 1 s 2 A+(n B 1)s 2 B n A +n B 2 σ 2 A σ 2 B S AB = s2 A n A ν = s2 A n A + s2 B n B + s2 B n B 2 s 2 A n A 2 B n B n A 1 + s2 2 n B 1 Varianties gelijk? Pas F-toets toe (zie dictaat)
Intermezzo: histogram Steekproef met n = 22 (waarden in ml) Hoe geef je dit slim grafisch weer? 10,4 10,8 10,9 10,7 10,2 10,3 10,6 10,6 10,4 10,7 10,6 10,4 10,1 10,6 10,8 10,3 11,3
Intermezzo: histogram Aantal Indelen in klassen Klasse (ml) 10,0 10,2 2 10,2 10,4 5 10,4 10,6 9 10,6 10,8 4 10,8 11,0 1 11,0 11,2 0 11,2 11,4 1 Aantal 10 8 6 4 2 0 Klassen (ml) Kies klassenbreedte met makkelijke getallen, niet te klein en niet te groot (of bekijk officiële procedure in het dictaat).
Intermezzo: histogram Aantal Indelen in klassen Klasse (ml) 10,0 10,2 2 10,2 10,4 5 10,4 10,6 9 10,6 10,8 4 10,8 11,0 1 11,0 11,2 0 11,2 11,4 1 Aantal 10 8 6 4 2 0 Klassen (ml) Kies klassenbreedte met makkelijke getallen, niet te klein en niet te groot (of bekijk officiële procedure in het dictaat).
Dixons Q-test voor uitschieters Is er een significant afwijkende meetwaarde in mijn steekproef aanwezig? Statistisch verantwoord negeren van een dergelijke uitschieter 10,4 10,6 10,8 10,9 10,7 10,6 10,1 10,3 10,2 10,4 10,6 10,6 10,8 10,4 10,3 10,7 11,3 Stap 1: sorteer de waarden zodat de verdachte waarde voorop staat (hoog naar laag, of laag naar hoog) 11,3 10,9 10,8 10,8 10,3 10,3 10,2 10,1 ml
Dixons Q-test voor uitschieters Stap 2: zoek op wat je moet berekenen (zie dictaat) Q berekend Q kritiek
Dixons Q-test voor uitschieters Voor n = 22, bereken Q = (x 3 x 1 )/(x n 2 x 1 ) 11,3 10,9 10,8 10,8 10,3 10,3 10,2 10,1 ml Stap 3: vergelijk Q s en trek conclusie Q berekend = (10,8 11,3)/(10,3 11,3) = 0,500 Q kritiek = 0,430 Als Q berekend < Q kritiek dan geen significante uitschieter. Hier: wel uitschieter! Dus: weglaten in de berekening van gemiddelde, st.dev., 95%-betrouwbaarheidsgebied, etc.