toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties: de F-toets week 6: het toetsen van tellingen: de χ -toets week 7: verdelingsvrije toetsen Moore, McCabe, and Craig. Introduction to the Practice of Statistics Chapter 15: Nonparametric Tests 15.1: The Wilcoxon Rank Sum Test 15.: The Wilcoxon Signed Rank Test Frank Busing, Universiteit Leiden 1/30 deze week: wat hebben we al geleerd? explore: outliers, boxplot, histogram, Q-Q plot one-sample, independent-samples, paired-samples t-toets z-toets continuiteitscorrectie /30
introductie twee belangrijke redenen voor een niet-parametrische toets 1 het meetniveau van de scores is numeriek (interval/ratio), maar n is niet groot en de scores zijn niet normaal verdeeld 3/30 schending van de aanname van normaliteit aanpak van niet-normaliteit 1 aanpassen van de scores transformeren van de scores 3 gebruik van andere verdelingen, zoals poisson of weibull gebruik van moderne computer-intensieve methoden, zoals resampling en permutatie methoden /30
voorbeeld een onderzoeker kijkt naar het drinkgedrag van studenten hij denkt dat studenten minder alcohol drinken dan gemiddeld een steekproef van 97 studenten moet uitsluitsel geven hij vraagt ze naar het aantal consumpties per week vraag: drinken studenten minder dan de gemiddelde 7 consumpties per week? 5/30 controle aannamen: outliers consumpties Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Descriptives Lower Bound Upper Bound Statistic Std. Error 13.8007 1.90901-73.81 501.9 7.00.6000 036866.1 17.188.0 9999.00 9998.80 7.90 6.853.5 5.911.85 10000.00 8000.00 6000.00 9 7 consumpties Highest 1 3 5 Lowest 1 3 5 Extreme Values Case Number Value 7 9999.00 9 9999.00 8 53.00 6 1.00 38.00 73.0 1.50 80.80 68.80 0.90 000.00 000.00.00 53 6 3 8 consumpties merk op: ongewoon extreme waarden 6/30
controle aannamen: outliers Descriptives consumpties Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Lower Bound Upper Bound Statistic Std. Error 7.7965.90558 5.9985 9.596 6.505.6000 77.907 8.865.0 53.00 5.80 7.70.783.7 9.89.90 60.00 50.00 0.00 30.00 8 6 3 Extreme Values 53 consumpties Highest 1 3 5 Lowest 1 3 5 Case Number Value 8 53.00 6 1.00 38.00 3 30.00 6.00 73.0 1.50 80.80 68.80 0.90 0.00 10.00.00 consumpties merk op: centrale limietstelling, maar zeer scheef verdeelde scores 7/30 controle aannamen: normaliteit Histogram Normal Q-Q Plot of consumpties 0 Mean = 7.80 6 Std. Dev. = 8.87 N = 95 30 Frequency 0 Expected Normal 0 10 - - 0.00 10.00 0.00 30.00 consumpties 0.00 50.00 0 0 Observed Value 0 60 8/30
controle aannamen: normaliteit Histogram Normal Q-Q Plot of logconsumpties 5 0 Frequency 15 10 Expected Normal 0-5 - 0 -.00-1.00.00 1.00.00 3.00.00-0 logconsumpties Observed Value 9/30 t-toets: outliers, scheef en logaritme One-Sample Test Test Value = 7.0 95% Confidence Interval of the Mean Difference t df Sig. (-tailed) Difference Lower Upper consumpties 1.7 96.157 06.8007-80.8137 9.85 One-Sample Test Test Value = 7.0 95% Confidence Interval of the Mean Difference t df Sig. (-tailed) Difference Lower Upper consumpties.880 9.381.79657-1.00151.5960 One-Sample Test Test Value = 1.96 95% Confidence Interval of the Mean Difference t df Sig. (-tailed) Difference Lower Upper logconsumpties -3.5 9.001 -.35887 -.561 -.1566 10/30
niet-parametrische toetsen twee belangrijke redenen voor een niet-parametrische toets 1 het meetniveau van de scores is numeriek (interval/ratio), maar n is niet groot en de scores zijn niet normaal verdeeld het meetniveau van de scores is ordinaal er zijn verschillende niet-parametrische toetsen voorhanden maar niet elke parametrische toets heeft een niet-parametrische tegenhanger en zeker niet in SPSS we bespreken de volgende toetsen 1 Wilcoxon s rank sum toets (independent-samples t-toets) Wilcoxon s signed rank toets (paired-samples t-toets) 11/30 voorbeeld een onderzoeker bestudeert het effect van alcohol op reactietijd in het verkeer hij verzamelt (random) twee groepen van 10 proefpersonen de eerste groep krijgt een bepaalde hoeveelheid alcohol te drinken de tweede groep drinkt een gelijke hoeveelheid, maar zonder alcohol (placebo) in een rij-simulator worden reactietijden gemeten vraag: verhoogt alcohol in het bloed de gemiddelde reactietijd? 1/30
Wilcoxon s rank sum toets Wilcoxon s rank sum toets voor onafhankelijke steekproeven de rank sum toets bepaalt of één van de twee verdelingen systematisch grotere (of kleinere) waarden heeft dan de andere verdeling onder de nul hypothese zijn de verdelingen van beide groepen gelijk onder de aanname dat de twee verdelingen dezelfde vorm hebben kunnen we een significant resultaat interpreteren als een verschil in medianen H 0 : md 1 = md H a : md 1 md of md 1 < md of md 1 > md 13/30 aanpak reactietijden experiment 1 3 5 6 7 8 9 10 placebo 0.90 0.37 1.63 0.83 0.95 0.78 0.86 0.61 0.38 1.97 alcohol 1.6 1.5 1.76 1. 1.11 3.07 0.98 1.7.56 1.3 rang(p) 7 1 16 5 8 6 3 18 rang(a) 15 1 17 13 10 0 9 11 19 1 1 geef elke score zijn rangnummer 1 bepaal de som van de rangnummers, W = 70 3 vergelijk de som W met de verwachte waarde µ W onder H 0 (gelijke sommen) gelijke scores krijgen het gemiddelde van hun rangnummers 1/30
toetsingsgrootheid W we vergelijken Wilcoxon s rank sum statistiek W met de verwachte waarde van W µ W = n 1 (n 1 +n +1) = 10 1 = 105 de spreiding van W is bekend en gegeven als de standaarddeviatie van W σ W = n1 n (n 1 +n +1) 1 = 10 10 1 1 = 175 = 13.3 aangezien σ W bekend is en we het verschil willen toetsen tussen W en µ W, kunnen we een z-toets gebruiken en de bijbehorende standaard normaal verdeling normaal benadering voor n 1 10 én n 10, anders exact test gebruiken 15/30 continuiteitscorrectie aangezien σ W bekend is en we het verschil willen toetsen tussen W en µ W, kunnen we een z-toets gebruiken en de bijbehorende standaard normaal verdeling µ W = 105 en σ W = 13.3, dus z = 70 105 13.3 =.65 maar we benaderen een discrete verdeling met een continue verdeling en moeten dus een continuiteitscorrectie toepassen argumentatie het zoeken naar P(z.65) is gelijk aan het zoeken naar P(W 70) maar omdat waarden tussen 69.5 en 70.5 allemaal gelijk zijn aan 70 zoeken we eigenlijk naar P(W 70.5), dus µ W = 105 en σ W = 13.3, dus z = 70.5 105 13.3 =.61 en maak verd... een tekening 16/30
Wilcoxon s rank sum toets het toetsen van verschillen tussen twee onafhankelijke verdelingen steekproefgegevens: n 1 = 10, n = 10, W = 70, µ W = 105 en σ W = 13.3 stappenplan Wilcoxon s rank sum toets: 1 hypothese H 0 : md 1 = md en H a : md 1 < md steekproevenverdeling (bij benadering) standaard normaal verdeeld 3 toetsingsgrootheid z = (70.5 105)/13.3 =.61 verwerpingsgebied α = 0.05,z = 1.65 5 statistische conclusie z =.61 < 1.65 = z en H 0 wordt verworpen 6 inhoudelijke conclusie tijden voor placebo zijn korter dan voor alcohol 17/30 Mann-Withney s U toets de Mann-Whitney U toets is equivalent aan Wilcoxon s rank sum toets het zijn beiden niet-parametrische statistische hypothese toetsen voor het bepalen of twee steekproeven verschillende verdelingen hebben geschiedenis 191: voorgesteld door Gustav Deuchler (met een fout in variantie-term) 195: onafhankelijk voorgesteld door Frank Wilcoxon (voor gelijke n) 197: uitgebreid naar verschillende n door Henry Mann en Donald Whitney de relatie tussen U en W is dat U = W [n 1 (n +1)]/ = 15 de verwachte waarde en standaarddeviatie van U µ U = (n 1 n )/ = 50 σ U = [n 1 n (n 1 +n +1)]/1 = 175 = 13.3 U en µ U zijn beiden n 1 (n +1)/ kleiner en dus U µ U = W µ W en met dezelfde standaarddeviatie, hebben U en W dus ook dezelfde z-waarde 18/30
SPSS: two-independent-samples-tests results Ranks groep N Mean Rank Sum of Ranks reactietijden 1.00 10 7.00 70.00.00 10 1.00 10.00 Total 0 Test Statistics a Mann-Whitney U Wilcoxon W Z Asymp. Sig. (-tailed) Exact Sig. [*(1-tailed Sig.)] reactietijden 15.000 70.000 -.66.008.007 b a. Grouping Variable: groep b. Not corrected for ties. De gemiddelde reactietijden voor de placebogroep (md = 0.85) liggen significant lager dan de gemiddelde reactietijden van de alcoholgroep (md = 1.5), W = 70, z =.61 en p = 0.005. 19/30 voorbeeld een onderzoeker bestudeert het effect van alcohol op reactietijd in het verkeer hij verzamelt (random) één groep van 10 proefpersonen de proefpersonen worden aan twee condities blootgesteld: placebo en alcohol in een rij-simulator worden reactietijden gemeten vraag: verhoogt alcohol in het bloed de gemiddelde reactietijd? 0/30
Wilcoxon s signed rank toets Wilcoxon s signed rank toets voor afhankelijke steekproeven de rank sum toets bepaalt of één van de twee verdelingen systematisch grotere (of kleinere) waarden heeft dan de andere verdeling onder de nul hypothese zijn de verdelingen van beide groepen gelijk onder de aanname dat de twee verdelingen dezelfde vorm hebben bepaalt de toets of de mediaan van de verschillen afwijkt van een bepaalde waarde H 0 : md 1 = md H a : md 1 md of md 1 < md of md 1 > md 1/30 aanpak reactietijden experiment 1 3 5 6 7 8 9 10 placebo 0.90 0.37 1.63 0.83 0.95 0.78 0.86 0.61 0.38 1.97 alcohol 1.6 1.5 1.76 1. 1.11 3.07 0.98 1.7.56 1.3 +/ + p a 0.56 1.08 0.13 0.61 0.16.9 0.08 0.66.18 0.65 rang( p a ) 8 5 3 10 1 7 9 6 1 bepaal of het verschil positief of negatief is 3 bepaal het absolute verschil 3 geef elk absoluut verschil zijn rangnummer bepaal de som van de rangnummers van de positieve verschillen, W + = 6 5 vergelijk de som W + met de verwachte waarde µ W + onder H 0 verschilscores van nul worden buiten beschouwing gelaten /30
toetsingsgrootheid W + we vergelijken Wilcoxon s signed rank statistiek W + met de verwachte waarde van W + µ W + = n (n+1) = 10 11 = 7.5 de spreiding van W + is bekend en gegeven als de standaarddeviatie van W + σ W + = n (n+1) (n+1) = 10 11 1 = 96.5 = 9.81 aangezien σ W + bekend is en we het verschil willen toetsen tussen W + en µ W +, kunnen we een z-toets gebruiken en de bijbehorende standaard normaal verdeling normaal benadering voor n 10, anders exact test gebruiken 3/30 continuiteitscorrectie aangezien σ W + bekend is en we het verschil willen toetsen tussen W + en µ W +, kunnen we een z-toets gebruiken en de bijbehorende standaard normaal verdeling µ W + = 7.5 en σ W + = 9.81, dus z = 6 7.5 9.81 =.19 maar we benaderen een discrete verdeling met een continue verdeling en moeten dus een continuiteitscorrectie toepassen argumentatie het zoeken naar P(z.19) is gelijk aan het zoeken naar P(W + 6) maar omdat waarden tussen 5.5 en 6.5 allemaal gelijk zijn aan 6 zoeken we eigenlijk naar P(W + 6.5), dus µ W + = 7.5 en σ W + = 9.81, dus z = 6.5 7.5 9.81 =.1 en maak verd... nou eens een tekening /30
Wilcoxon s signed rank toets het toetsen van verschillen tussen twee afhankelijke verdelingen steekproefgegevens: n = 10, W + = 6, µ W + = 7.5 en σ W + = 9.81 stappenplan Wilcoxon s signed rank toets: 1 hypothese H 0 : md 1 = md en H a : md 1 < md steekproevenverdeling (bij benadering) standaard normaal verdeeld 3 toetsingsgrootheid z = (6.5 7.5)/9.81 =.1 verwerpingsgebied α = 0.05,z = 1.65 5 statistische conclusie z =.1 < 1.65 = z en H 0 wordt verworpen 6 inhoudelijke conclusie tijden voor placebo zijn korter dan voor alcohol 5/30 W + of W, dat is de vraag Wilcoxon s signed rank toets gebruikt de som van de positieve verschillen we kunnen ook gebruik maken van de som van de negatieve verschillen dit heeft de volgende consequenties een mogelijke verandering van de alternatieve hypothese een verandering in de berekeningen maar geen verandering in de conclusie 6/30
aanpak reactietijden experiment 1 3 5 6 7 8 9 10 placebo 0.90 0.37 1.63 0.83 0.95 0.78 0.86 0.61 0.38 1.97 alcohol 1.6 1.5 1.76 1. 1.11 3.07 0.98 1.7.56 1.3 +/ + p a 0.56 1.08 0.13 0.61 0.16.9 0.08 0.66.18 0.65 rang( p a ) 8 5 3 10 1 7 9 6 1 bepaal of het verschil positief of negatief is 5 bepaal het absolute verschil 3 geef elk absoluut verschil zijn rangnummer bepaal de som van de rangnummers van de negatieve verschillen, W = 9 5 vergelijk de som W met de verwachte waarde µ W onder H 0 verschilscores van nul worden buiten beschouwing gelaten 7/30 toetsingsgrootheid W we vergelijken Wilcoxon s signed rank statistiek W met de verwachte waarde van W µ W = n (n+1) = 10 11 = 7.5 de spreiding van W is bekend en gegeven als de standaarddeviatie van W σ W = n (n+1) (n+1) = 10 11 1 = 96.5 = 9.81 aangezien σ W bekend is en we het verschil willen toetsen tussen W en µ W, kunnen we een z-toets gebruiken en de bijbehorende standaard normaal verdeling 6 normaal benadering voor n 10, anders exact test gebruiken 8/30
continuiteitscorrectie aangezien σ W bekend is en we het verschil willen toetsen tussen W en µ W, kunnen we een z-toets gebruiken en de bijbehorende standaard normaal verdeling µ W = 7.5 en σ W = 9.81, dus z = 9 7.5 9.81 =.19 maar we benaderen een discrete verdeling met een continue verdeling en moeten dus een continuiteitscorrectie toepassen argumentatie het zoeken naar P(z.19) is gelijk aan het zoeken naar P(W 9) maar omdat waarden tussen 8.5 en 9.5 allemaal gelijk zijn aan 9 zoeken we eigenlijk naar P(W 8.5), dus µ W = 7.5 en σ W = 9.81, dus z = 8.5 7.5 9.81 =.1 en... 9/30 SPSS: two-related-samples-tests results Ranks alcohol - placebo Negative Ranks Positive Ranks Ties Total N Mean Rank Sum of Ranks 1 a 6.00 6.00 9 b 5. 9.00 0 c 10 a. alcohol < placebo b. alcohol > placebo c. alcohol = placebo Test Statistics a Z Asymp. Sig. (-tailed) alcohol - placebo -.191 b.08 a. Wilcoxon Signed Ranks Test b. Based on negative ranks. 30/30