ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

ANOVA in SPSS Hugo Quené hugo.quene@let.uu.nl opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003 1 vooraf In dit voorbeeld gebruik ik fictieve gegevens, ontleend aan http://www.ruf.rice.edu/~mickey/psyc339/notes/rmanova.html). De afhankelijke variabele IQ is gemeten bij 5 deelnemers op 3 leeftijden. Is er een verschil in de gemiddelde IQ s gemeten op de verschillende leeftijden 1 (is er een effect van leeftijd op IQ)? 2 fixed model Indien alle factoren fixed zouden zijn, dan zouden we het commando ANOVA kunnen gebruiken. In het Syntax-venster van SPSS gaat dat als volgt: * fixed two-way ANOVA. ANOVA iq BY Age(1,3) Subj(1,5). 1 Omdat MANOVA eist dat de factor-waarden aansluiten, zijn de niet-aansluitende waarden van Age (5,25,45) veranderd in aansluitende waarden (1,2,3). 1

Hierbij heeft de eerste factor Age 3 verschillende waarden (nivo s, levels ), en de tweede factor Subj heeft 5 verschillende nivo s. Bij dit commando wordt altijd een factorieel design verondersteld, en alle effecten worden getoetst tegen de within-cell variantie. Met andere woorden: de noemer van de F- ratio (de zogeheten error term) is altijd de variantie binnen cellen (residual, within-cell variance). In dit geval is die variantie echter nul, omdat er maar één observatie is in iedere combinatie van Age en Subj. Er kunnen dan ook geen F ratio s berekend worden. Voor dit onderzoek is deze analyse duidelijk niet geschikt. Sum of Sq df Mean Sq Main Effects AGE 12.133 2 6.067 SUBJ 23.333 4 5.833 2-Way Interactions AGE * SUBJ 1.867 8.233 Model 37.333 14 2.667 Residual 0.000 0. Total 37.333 14 2.667 3 mixed model, univariate Bij andere designs zijn soms niet alle factoren fixed, of het design is niet factorieel. Je mag dan niet zomaar de within-variantie (variantie binnen cellen, residual) gebruiken als error term. Je moet dan aangeven welke effecten getoetst moeten worden tegen welke error terms. Dat kan niet met ANOVA; je moet daarvoor het commando MANOVA gebruiken, met een expliciete specificatie van het design. * mixed ANOVA, univariate. MANOVA IQ BY Subj(1,5) Age(1,3) /METHOD ESTIMATION (NOCONSTANT) /PRINT=HOMOGENEITY (COCHRAN) /DESIGN Subj BY Age = 1, Age VS 1. Bij het laatste sub-commando /DESIGN wordt eerst de interactie vermeld, omdat deze later ook gebruikt moet worden als error term. Deze interactie wordt afgekort als 1 voor later gebruik. Deze interactie hoeft zelf niet te worden getoetst; we vermelden dus geen error term erbij. Het hoofdeffect van Age wordt getoetst tegen het interactie-effect, zojuist afgekort als 1. Het hoofdeffect van Subj, de random factor, wordt hier niet getoetst omdat er geen geschikte error term voor is. 2

Bovenstaande commando levert o.a. de volgende uitvoer op, hier lichtelijk aangepast: Tests of Significance for IQ using UNIQUE sums of squares Source of Variation SS DF MS F Sig of F Error 1 1.87 8.23 AGE 12.13 2 6.07 26.00.000 We zien op de laatste regel van deze uitvoer dat het fixed effect van Age getoetst is tegen error term 1, daarboven gedefinieerd (en niet getoetst), en we zien ook dat dit hoofdeffect van leeftijd significant is, F (2, 8) = 26,p<.001. Voor deze univariate analyse is de assumptie van sphericiteit vereist. Informeel gezegd komt dat erop neer dat alle leeftijdsverschillen gelijke variantie hebben. Op grond van de herhaalde metingen op 3 tijdstippen kunnen we twee nieuwe verschil-variabelen uitrekenen 2. Hebben die twee verschilvariabelen dezelfde variantie? COMPUTE D1 = IQ2-IQ1. COMPUTE D2 = IQ3-IQ2. DESCRIPTIVES VARIABLES=d1 d2 /STATISTICS=MEAN STDDEV VARIANCE SEMEAN. De uitvoer hieronder laat zien dat de varianties van deze verschillen niet gelijk zijn. Door de zeer kleine omvang van de steekproef kunnen we echter H0 :s D1 = s D2 niet verwerpen. Descriptive Statistics N Mean Std.Error Std.Dev. Variance of Mean D1 5 1.0000.3162.7071.500 D2 5 1.2000.2000.4472.200 Desalniettemin lijkt het beter om geen sphericiteit te veronderstellen voor deze gegevens. We moeten daarom onze toevlucht nemen tot een multivariate ANOVA. 4 repeated measures, multivariate Een nog betere toets, met meer power, maakt gebruik van Repeated Measures ANOVA. Hierbij wordt niet aangenomen dat de verschillen gelijke variantie 2 Hier zijn die bepaald voor de multivariate dataset, zie hierna. 3

hebben. Het effect van de fixed factor Age wordt niet vergeleken als hoofdeffect, buiten de deelnemers om, maar uitsluitend binnen deelnemers (within subjects). In de meeste gevallen is dat de beste keuze! Door deze within-subjects-vergelijking is er dus ook geen interactie mogelijk tussen Age en Subj, of algemener, tussen het hoofdeffect en de observation units. Deze interactie is immers feitelijk niet meer te scheiden van de residual variantie, of meetfout. Dat zagen we al bij het fixed model hierboven. Helaas kan je een Repeated Measures ANOVA niet zomaar uitvoeren. Die analyse maakt in SPSS gebruik van een zgn. multivariate data layout. Dat wil zeggen dat alle gegevens van één deelnemer (observation unit) op één regel moeten staan. Binnen iedere proefpersoon zijn de observaties geordend volgens de within-subject factors. Dat levert het volgende arrangement op: 2 4 5 5 6 7 3 3 4 1 2 4 2 3 4 Het bijbehorende commando voor Repeated Measures ANOVA is als volgt, als je het opgeeft via het Syntax venster: * mixed ANOVA, multivariate. MANOVA iq1 iq2 iq3 /WSFACTOR age(3) /MEASURE = iq /ANALYSIS (REPEATED). Dit geeft aan dat de 3 observaties voor iedere deelnemer opgevat moeten worden als verdeeld over 3 condities van de fixed within-subject factor Age. De afhankelijke variabele krijgt het label IQ, en dit moet geanalyseerd worden als een Repeated Measures ANOVA. De omvangrijke uitvoer is als volgt; we zullen die (hier wat aangepaste) uitvoer in porties bespreken. Tests of Between-Subjects Effects. Tests of Significance for T1 using UNIQUE sums of squares Source of Variation SS DF MS F Sig of F WITHIN CELLS 23.33 4 5.83 CONSTANT 201.67 1 201.67 34.57.004 4

Zijn er verschillen tussen deelnemers? In deze studie zijn er geen betweensubject factoren; anders zouden die hier getoetst worden. In deze analyse heb ik ook afgezien van het toetsen van verschillen tussen deelnemers, gezien het geringe aantal deelnemers. De enige term die dan overblijft is de constante, d.w.z. de grand mean. Deze wordt getoetst tegen de verschillen tussen deelnemers, met F (1, 4) = 34.6,p =.004. De grand mean is dus significant afwijkend van nul. Niet bijster interessant, dus we gaan verder. Tests involving AGE Within-Subject Effect. Mauchly sphericity test, W =.61224 Chi-square approx. = 1.47187 with 2 D. F. Significance =.479 Greenhouse-Geisser Epsilon =.72059 Huynh-Feldt Epsilon = 1.00000 Lower-bound Epsilon =.50000 Hier wordt de sphericity assumption onderzocht met een gerichte toets, Mauchly s W. Dat hebben we hierboven al informeel gedaan. Ook deze toetsisnietsignificant,p =.479, wegens de kleine steekproef. Er is dus geen correctie nodig op de resulterende F ratio s. Als Mauchly s W wèl significant zou zijn geweest, dan hadden we de vrijheidsgraden van de gevonden F ratio s moeten vermenigvuldigen met de Huynh-Feldt ɛ, een getal tussen 1/(k 1) (hier 1/2) en 1. De toetsing wordt daardoor conservatiever. Maar dat is nu niet nodig. Eerst zien we de resultaten van de multivariate ANOVA: EFFECT.. AGE Multivariate Tests of Significance (S = 1, M = 0, N = 1/2) Test Name Value Exact F Hypoth. DF Error DF Sig. of F Pillais.92000 17.25000 2.00 3.00.023 Hotellings 11.50000 17.25000 2.00 3.00.023 Wilks.08000 17.25000 2.00 3.00.023 Roys.92000 Note.. F statistics are exact. De F ratio voor het within-subject effect van Age kan op meerdere manieren berekend worden, hier zie je ze allemaal, en ze komen allemaal tot dezelfe uitkomst. Meestal is Wilks F ratio het beste bruikbaar. De resultaten spreken duidelijke taal: F (2, 3) = 17.25,p =.023, dus we mogen H 0 verwerpen. De IQ-scores zijn niet op alle leeftijden gelijk. 5

Voor de volledigheid krijg je bij dit commando ook de uitvoer van een univariate analyse. Die zou dus hetzelfde moeten zijn als in de vorige sectie, en dat is ook zo: F (2, 8) = 26,p<.001. AVERAGED Tests of Significance that follow multivariate tests are equivalent to univariate or split-plot or mixed-model approach to repeated measures. Epsilons may be used to adjust d.f. for the AVERAGED results. Tests involving AGE Within-Subject Effect. AVERAGED Tests of Significance for IQ using UNIQUE sums of squares Source of Variation SS DF MS F Sig of F WITHIN CELLS 1.87 8.23 AGE 12.13 2 6.07 26.00.000 6