Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Vergelijkbare documenten
Hoofdstuk 6 Twee populaties: parametrische toetsen

toetskeuze schema verschillen in gemiddelden

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing

Hoofdstuk 3 Statistiek: het toetsen

introductie toetsen power pauze hypothesen schatten ten slotte introductie toetsen power pauze hypothesen schatten ten slotte

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

Toegepaste Statistiek, Week 6 1

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

Kansrekening en Statistiek

Hoofdstuk 12: Eenweg ANOVA

Voorbeeldtentamen Statistiek voor Psychologie

Les 5: ANOVA. Koen Van den Berge Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 19 november 2018

Les 5: ANOVA. Elke Debrie 1 Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 28 november 2018

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

11. Multipele Regressie en Correlatie

Data analyse Inleiding statistiek

College 2 Enkelvoudige Lineaire Regressie

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

Hoofdstuk 5 Een populatie: parametrische toetsen

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

College 6 Eenweg Variantie-Analyse

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Statistiek voor A.I. College 14. Dinsdag 30 Oktober

Experimenteel en Correlationeel Onderzoek

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

Examen G0N34 Statistiek

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

werkcollege 6 - D&P10: Hypothesis testing using a single sample

Toegepaste Statistiek, Week 3 1

Kansrekening en Statistiek

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen.

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

werkcollege 7 - D&P10: Hypothesis testing using a single sample

Sheets K&S voor INF HC 10: Hoofdstuk 12

Hoofdstuk 10: Regressie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Les 2: Toetsen van één gemiddelde

8. Analyseren van samenhang tussen categorische variabelen

Experimenteel en Correlationeel Onderzoek (ECO)

Toetsen van hypothesen

Toetsen van Hypothesen. Het vaststellen van de hypothese

Les 7-8: Parameter- en Vergelijkingstoetsen

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

Bijlage Bijlage 3. Statistische toetsing: werkwijze, toetsen, formules, toepassing

Opgeloste Oefeningen Hoofdstuk 8: Het Toetsen van Hypothesen

Les 5: Analysis of variance

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Statistiek voor A.I.

9. Lineaire Regressie en Correlatie

De zin en onzin van sample size berekeningen. Jos Twisk

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

Oefenvragen bij Statistics for Business and Economics van Newbold

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

Vandaag. Onderzoeksmethoden: Statistiek 4. Recap: Hypothese toetsen. Recap: One-sample t-toets

1. Reductie van error variantie en dus verhogen van power op F-test

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Sheets hoorcollege 1 (over paragraaf 7.1) Uitgewerkte opgaven week 6 Antwoorden uitgewerkte opgaven week 6

Kansrekening en Statistiek

Kansverdelingen Inductieve statistiek met Geogebra 4.2

Toegepaste Statistiek, Dag 7 1

Verklarende Statistiek: Toetsen. Zat ik nou in dat kritische gebied of niet?

Statistiek ( ) eindtentamen

Wiskunde B - Tentamen 1

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

Hoofdstuk 8: Het Toetsen van Hypothesen (Extra Oefeningen)

11. Meerdere gemiddelden vergelijken, ANOVA

Exact Periode 6.1. Juist & Precies Testen

1 Basisbegrippen, W / O voor waar/onwaar

Cursus Statistiek Parametrische en non-parametrische testen. Fellowonderwijs Intensive Care UMC St Radboud

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28

Gegevensverwerving en verwerking

15.1 Beslissen op grond van een steekproef [1]

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

Hoofdstuk 5: Steekproevendistributies

College Week 1 Grondprincipes van de Wetenschap

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Kansrekening en Statistiek

Beschrijvende statistiek

variantie: achtergronden en berekening

Faculteit Economie en Bedrijfskunde studiejaar

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Antwoordvel Versie A

Kengetal Antwoord Nee Nee Ja Nee Ja Ja Nee Toetsgrootheid 1,152 1,113 2,048 1,295 1,152 1,113 0,607

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN

Cursus Statistiek 2. Fellowonderwijs Opleiding Intensive Care. UMC St Radboud, Nijmegen

Feedback examen Statistiek II Juni 2011

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

College 1 Grondprincipes van de Wetenschap

11.0 Voorkennis. Wanneer je met binomcdf werkt, werk je dus altijd met een kans van de vorm P(X k)

Transcriptie:

M, M & C 7.3 Optional Topics in Comparing Distributions: F-toets 6.4 Power & Inference as a Decision 7.1 The power of the t-test 7.3 The power of the sample t- Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen test Jacob Cohen (193-1998) Introduceerde Power en Effect Size in de psychologie Statistical Power Analysis for the Behavioral Sciences (nd Ed. 1988) Cohen's κ (interrater reliability) 1

Voorbeeld: vergelijking van varianties In een experiment wordt de reactie van kinderen op stress tijdens een leestoets, onderzocht. Idee: sommige kinderen presteren beter onder stress, anderen juist minder. stress controle inhoudelijke vraag: 30 45 worden de verschillen tussen kinderen groter 40 48 in een stress situatie (t.o.v. controle)? 47 49 gemeten: score op leestoets 50 50 statistische hypothese? 53 51 60 5 70 55 x 50.0 50.0 s 169.7 1.0 n 7 7 30 40 50 60 70 1

F-toets: gelijkheid / homogeniteit van varianties We verwachten in één groep grotere verschillen dan in een andere. We vertalen dit als: steekproeven, één van grootte n 1 uit N(µ 1, σ 1 ) en één van grootte n uit N(µ, σ ). De statistische hypothesen zijn: H 0 : σ 1 = σ H a : σ 1 σ of H a : σ 1 > σ Deze hypothesen kunnen we toetsen met de toetsstatistiek s F = met df = n s 1 1 en n 1. 1 Voor opzoeken van overschrijdingskansen in tabel nemen we de grootste als s 1, en de kleinste als s,, zodat altijd F > 1 is. F is een ratio, omdat een ratio niet afhangt van de meet-eenheden. De steekproevenverdeling van F heet de F-verdeling (F van Fisher). 3

Verdeling van ratio van geschatte varianties: de F-verdeling F is altijd positief F-verdeling is scheef naar rechts piek ligt in de buurt van 1 0 1 3 4 5 6 heeft vrijheidsgraden voor (teller, noemer): voor iedere combinatie ziet de verdeling er anders uit Dichtheidscurve voor F(9, 10) verdeling. NB. Voor een -zijdige F toets waarbij we op α-niveau willen toetsen moeten we de kritische waarde F* opzoeken bij α/ (of, als we een P-waarde hebben benaderd via de tabel, moeten we deze verdubbelen). 4

Het Stress voorbeeld: deel In het stress voorbeeld zijn de steekproefvarianties voor groep 1 (stress) en groep (controle): s 1 s = 169.7 = 1.0 k k 1 = 6 = 6 F = 0 4 6 8 10 169.7 1.0 = 8.1 F*(6, 6) volgens Tabel E in M,M&C: P F*.100 3.05.050 4.8.05 5.8.010 8.47.001 0.03 Conclusie: 5

Mogelijke problemen met robuustheid van F-toets MM&C waarschuwen tegen het gebruik van de F-toets, omdat deze niet robuust is wanneer de data scheef verdeeld zijn. Men komt F-toets niettemin vaak tegen, in drie situaties: Om te checken of we de t-toets met gepoolde varianties mogen doen met roeiboot kijken of oceaanstomer kan uitvaren. Als centrale hypothese (zoals stress voorbeeld) zeer zorgvuldig nagaan of data normaal verdeeld zijn zonder uitbijters Als centrale toets in de variantie analyse, waarin meerdere gemiddelden met elkaar vergeleken worden hier wel robuust! (Experimenteel en Correlationeel Onderzoek). Betere werkwijze (bij gebruik t-toets): gebruik de -steekproeven t-toets die niet aanneemt dat de varianties homogeen (gelijk) zijn. 6

Wat is de kans om een effect niet te vinden, dat er wel is? 14 Artikelen uit Journal of Personality & Social Psychology en Journal of Abnormal Psychology werden onderzocht (Cohen, 1988). Resultaat: deze kans is ongeveer 50%. Hoe kan dit? Voorbeeld: de IQtest (µ = 100, σ = 15). Een docent claimt door training de score van deelnemers aan de IQtest minstens 5 punten te kunnen verhogen. Hij doet na de training een onderzoek bij 5 deelnemers: x = 105.5. Dit leidt tot verwerping van H 0 met α = 5%. Welke kans had de docent om in dit onderzoek H 0 te verwerpen, als zijn claim klopt? Stel als ondergrens van zijn claim µ a = 105. 7

Bekijk de verdelingen van x voor H 0 en H a en huiver. H 0 niet verwerpen met n=5 en α = 5% dus z 1.645, d.w.z. als: x 100 1.645 15 5 x 104.935 90 95 100 105 110 Als H a correct is, krijg je in dit soort onderzoek (met n=5) waarden van x waarmee in 50% v.d. gevallen H 0 gehandhaafd wordt. 8

Hypothese toetsing en Beslissen Uw beslissing Verwerp H0 Handhaaf H0 Toestand in de wereld H 0 is waar H 0 is niet waar Type I fout: Zeggen dat iets NIET WAAR is. (gullibility risk) α = P (type I fout) Juiste beslissing 1 α Juiste beslissing 1 β = Power Type II fout: Niet zeggen dat iets WAAR is. (blindness risk) β = P (type II fout) 9

Onderscheidend vermogen (power) van een toets Het onderscheidend vermogen (Power) van een toets is de kans dat deze toets H 0 verwerpt terwijl H a waar is. 1 α µ 0 α β 1 β µ a α = P (Type-I fout) = P (verwerp H 0 H 0 waar) Men concludeert ten onrechte dat er een verschil is. 1 β=1 P (Type-II fout) =P (verwerp H 0 H a waar) Men concludeert terecht dat er een verschil is. DUS: lage power grote kans op een negatief resultaat (=geen resultaat) 10

Hoe berekenen we de power van de z-toets: 1? 1) Formuleer H 0 en H a, specificeer α en de specifieke waarde van µ onder H a die we willen kunnen opsporen: µ a. Beoordeel het absolute verschil tussen µ o en µ a met behulp van de effect size maat Cohen s d: d 0 a µ µ σ Vuistregel: small effect: d = 0. medium effect: d = 0.5 large effect: d = 0.8 = De grootte van de effect size geeft inzicht in de verwachte toetssituatie, los van de steekproef(grootte). De grootte van de effect size geeft daarmee globaal aan wat er nodig is om dit verschil tussen µ o en µ a te vinden. 11

Voorbeelden van d en power in Werkgroep 4 Eekhoorntjes: d: 0.5, Power: 0.38. Benodigde n: 4 ipv 8. Studieduur: d: 0.5, Power: 0.54. Benodigde n: 10 ipv 50. SSHA: d: 0.7, Power: 0.65. Benodigde n: 56 ipv 38. Frustratie/Agressie: d: 0.5, Power: 0.43. Benodigde n: 4 ipv 9 (paren). 1

13 Hoe berekenen we de power van de z-toets:? µ 0 α 1 α ) Bepaal grenswaarde van x voor verwerping van H 0 : * x n z x z n x σ µ σ µ + = = * * * * 0 0 3) Kans op x > * x, als H a waar = n x z P x x P a σ µ * *) ( µ a β 1 β Wanneer tevreden? Als de power 0.8.

Voorbeeld: de IQtest 1 H 0 : µ o = 100 H a : µ a > 105 α=0.05, n=5, σ=15 3 d = (105-100)/15 = 0.33 critical z = 1.64485 σ x > µ 0 + z * n x* = 100 + 1.645 β 15 5 α x* = 104.935 104.935 105 P( x x*) = P z = P( z 0.017) = 0.508 3-3 - -1 0 1 3 14

Power van de t-toets voor één steekproef Om het onderscheidend vermogen van de t-toets te bepalen kunnen we gelijk te werk gaan als bij de z-toets: Formuleer H 0 en H a, specificeer α en de specifieke waarde van µ die we willen kunnen opsporen: µ a. Bepaal de waarden van x die leiden tot verwerping van H 0 onder de t-verdeling: x µ 0 + t * s = x n Bereken de kans P( x x*) in de H a verdeling met µ =µ a. Gebruik de normale verdeling als benadering van de H a verdeling. * 15

Power van de t-toets voor één steekproef: voorbeeld Uitgangspunt: de IQ test van sheet 13, maar nu hebben we uit de steekproef met n= 5 een s bepaald van 15. df=4 α=0.05 t*=1.711 x *? Wat is de kans op x * x > als H a geldt? 15 s x = = 3 5 x* = 100 + 1.711 3 = 105.133 105.133 105 P( x 105.133) = P z = 3 0.484 16

De powerbepaling van toetsen Moore, McCabe & Craig laten in 7.3 zien hoe de power voor de t- toets voor twee steekproeven exact kan worden bepaald met de noncentrale t-verdeling (voor liefhebbers), maar dan houdt het op. Het probleem is dat de H a verdeling ongelijk is aan de H 0 verdeling, voor alle toetssituaties, behalve voor de z-toets, er i.h.a. geen tabellen voor H a verdelingen bestaan In de praktijk gebruikt men software (zie practicum) tabellen die de power geven voor bepaalde toetsen en voor combinaties van n, d (of andere effectmaat) en α (zie bijv. Cohen (1988)) 17

Hoe kiezen we een steekproefgrootte: 1? Gebruik i.h.a. voor bepaling van de steekproefgrootte software of tabellen. Voor de 1 sample z-toets is het eenvoudig uit te rekenen. Voorbeeld: Stel: α = 0.05 β = 0., power = 0.8 Vraag: Steekproevenverdelingen van x voor H o en H a H o H a Wat is n om met deze α en β een verschil (µ a - µ o ) tussen H o en H a te kunnen vinden? NB in afbeelding rechts is σ/ n = 1-3 - -1 0 1 3 x β α 18

Hoe kiezen we een steekproefgrootte:? Eerst het IQtest probleem met µ o =100, µ a =105 en σ =15. Bepaal x * onder H o : 100 + z α 15/ n = 100 + 1.645 15/ n Bepaal x * onder H a : 105 + z β 15/ n = 105 0.84 15/ n Dus: 100 + 1.645 15/ n = 105 0.84 15/ n 105 100 = 1.645 15/ n + 0.84 15/ n 5 =.487 15/ n n =.487 (15/5) = 7.461 n = 55.66 19

Hoe kiezen we een steekproefgrootte: 3? Nu het algemene geval: Bepaal x * onder H o : µ o + z α σ/ n = µ o + 1.645 σ/ n Bepaal x * onder H a : µ a + z β σ/ n = µ a 0.84 σ/ n Dus: µ o + 1.645 σ/ n = µ a 0.84 σ/ n µ a µ o = 1.645 σ/ n + 0.84 σ/ n µ a µ o =.487 σ/ n n = (.487 σ/(µ a µ o )) =.487 (1/d) n = 6.19/d 0

Hoe wordt de power van een toets zo groot mogelijk? Conceptuele formule: Toegepast Significantie toets = (Effect Size)(Omvang Studie) t Gepoolde t-toets = (Hedges' g)(omvang Studie) = s p x1 x x1 x n1 n t = 1 + 1 s p n1 + n n n 1 Uit deze formule blijkt dat we power van een toets kunnen optimaliseren door: de gemiddelden zoveel mogelijk te laten verschillen; een homogenere steekproef te gebruiken; De omvang van de studie (=n) te vergroten. Deze factoren + het α-niveau, beïnvloeden de power. 1

power 0.0 0. 0.4 0.6 0.8 1.0 Power als functie van afstand tussen Gemiddelden Power als functie van de afstand tussen µ o = 40 en µ a H 0 µ = 40 H a µ > 40 n=5 σ=10 α =0.05 40 4 44 46 48 50 µ a

power 0.0 0. 0.4 0.6 0.8 1.0 Invloed van steekproefgrootte Power bij n=5 en 100 n=5 n=100 40 4 44 46 48 50 µ a H 0 µ = 40 H a µ > 40 σ=10 α =0.05 3

power 0.0 0. 0.4 0.6 0.8 1.0 Invloed van significantieniveau Power bij α=0.05 en 0.01 α=0.05 α=0.01 H 0 µ = 40 H a µ > 40 n=5 σ=10 40 4 44 46 48 50 µ a 4

Tot Besluit VROEGER: de significantie toets was dominant en er werd vaak gedacht in termen van een beslissingsprobleem (aanleiding tot veel controverses) NU: men kijkt vaker naar de P-waarde, geeft α prioriteit boven β, maar verwacht wel rapportage van effect size en verwacht ook steekproefgroottes die leiden tot een power 0.8. Stof volgende week: Moore, McCabe & Craig,.5, 9 Inference for Two-Way Tables.5 Data analysis for Two-WayTables 9.1 Inference for Two-Way Tables 9. Formulas and Models for Two-Way Tables 9.3 Goodness of Fit. 5