1. Reductie van error variantie en dus verhogen van power op F-test

Vergelijkbare documenten
Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

11. Multipele Regressie en Correlatie

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

9. Lineaire Regressie en Correlatie

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

11. Meerdere gemiddelden vergelijken, ANOVA

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

Hoofdstuk 8: Multipele regressie Vragen

Hoofdstuk 10: Regressie

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

College 2 Enkelvoudige Lineaire Regressie

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

(slope in het Engels) en het snijpunt met de y-as, b 0

Het ANCOVA model is een vorm van het general linear model (GLM), en kan als volgt geschreven worden qua populatie parameters:

College 6 Eenweg Variantie-Analyse

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

Hoofdstuk 12: Eenweg ANOVA

College 3 Meervoudige Lineaire Regressie

mlw stroom 2.1: Statistisch modelleren

20. Multilevel lineaire modellen

Oplossingen hoofdstuk XI

Data analyse Inleiding statistiek

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)

Oefenvragen bij Statistics for Business and Economics van Newbold

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Samenvatting Nederlands

Voorbeeldtentamen Statistiek voor Psychologie

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

Statistiek ( ) eindtentamen

Hoofdstuk 5 Een populatie: parametrische toetsen

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3

Voorbeeld regressie-analyse

2.9 Het adolescentieonderzoek Opgaven 72

College 6. Samenhang tussen variabelen. Inleiding M&T Hemmo Smit

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Statistiek II. Sessie 5. Feedback Deel 5

Les 5: Analysis of variance

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

Verband tussen twee variabelen

Experimenteel en Correlationeel Onderzoek

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

Toegepaste data-analyse: oefensessie 2

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Toegepaste Statistiek, Dag 7 1

Hoofdstuk 2: Verbanden

College 7 Tweeweg Variantie-Analyse

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Hoofdstuk 5: Steekproevendistributies

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

Hoofdstuk 6 Twee populaties: parametrische toetsen

ANTWOORDEN Statistiek

Experimenteel Onderzoek en Experimentele Controle

HOOFDSTUK VII REGRESSIE ANALYSE

duidelijk. Welke groepen verschillen wel/niet van elkaar?wat zijn je hypothesen?

Inhoud. Data. Analyse van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox

Antwoordvel Versie A

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Methoden van Onderzoek en Statistiek, Deeltentamen 2, 29 maart 2012 Versie 2

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Examen Statistiek I Feedback

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

8. Analyseren van samenhang tussen categorische variabelen

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

Gegevensverwerving en verwerking

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

toetskeuze schema verschillen in gemiddelden

Statistiek II. Sessie 4. Feedback Deel 4

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent.

Eindtoets Toegepaste Biostatistiek

Conclusies. Martijn de Ruyter de Wildt en Henk Eskes. KNMI, afdeling Chemie en Klimaat Telefoon

Hoofdstuk 3 Statistiek: het toetsen

Reconstructie Bedrijfsstatistiek 2016

Kansrekening en Statistiek

Feedback examen Statistiek II Juni 2011

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

M M M M M M M M M M M M M M La La La La La La La Mid Mid Mid Mid Mid Mid Mid

Wiskunde B - Tentamen 1

Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 22 april uur

College 3 Interne consistentie; Beschrijvend onderzoek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

College 1 Grondprincipes van de Wetenschap

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

College Week 1 Grondprincipes van de Wetenschap

Experimenteel en Correlationeel Onderzoek (ECO)

Transcriptie:

Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De onafhankelijke variabelen hebben twee meetniveaus, namelijk nominaal (factoren) en interval (covariaten). Wanneer en waarom wordt de ANCOVA gebruikt? Door nominale en interval voorspellers te combineren kan een betere voorspelling van de afhankelijke variabele gedaan worden in vele situaties. ANCOVA wordt veel gebruik in (quasi-)experimenten. Er wordt gekeken hoe groepen verschillen in hun gemiddelden op de afhankelijke variabele. Het toevoegen van covariaten heeft twee voordelen: 1. Reductie van error variantie en dus verhogen van power op F-test 2. Eliminatie van systematische bias door het includeren van verstorende variabelen als covariaat. Dit heet statistische controle. Er zijn altijd individuele verschillen in een onderzoek. Bij een variantieanalyse eindigen deze in de error (MS w ). Hoe hoger de error, hoe lager de F-waarde: F = MS b / MS w. De echte verschillen tussen groepen kunnen dus verborgen raken door de grote individuele verschillen. Switchen van ANOVA naar ANCOVA kan bijvoorbeeld door het toevoegen van een pre-test meting (interval variabele). De error variantie bestaat dan uit twee componenten: Individuele verschillen in de pre-test meting Echte errorvariantie Als de toegevoegde covariaat voldoende correleert met de afhankelijke variabele zal de errorvariantie verminderen en de power van de F-toets verhogen. 1

Systematische bias kan ontstaan wanneer gewerkt wordt met reeds bestaande groepen. Hierdoor kunnen de echte effecten onzichtbaar zijn of worden onjuiste effecten gecreëerd. Zie p.19/20 van het werkboek voor een voorbeeld. ANOCVA model Een ANOVA model heeft drie componenten: Het grote gemiddelde: De afwijking van de groep ten opzichte van het grote gemiddelde: α j = De error of afwijking van ieder individu ten opzichte van het groepsgemiddelde: e ij = Y ij - Y j Dit geeft het volgende model: Y ij = + α j + e ij. De variantie van Y wordt in een tussengroepscomponent (α j ) en een binnengroepscomponent (e ij ) opgedeeld. In het ANCOVA model wordt er een covariaat aan de formule toegevoegd: Y ij = + α j + b w (C ij - ) + e ij. Met deze formules proberen we de Y ij score van elk individu i uit groep j zo goed mogelijk te voorspellen. Het verschil tussen ANOVA en ANCOVA is dat we bij ANOVA alleen weten tot welke groep het individu behoort, terwijl we bij ANCOVA ook de individuele score op de covariaat hebben. Daardoor is de voorspelling bij ANCOVA preciezer. De ANCOVA formule bestaat uit een variantieanalyse component ( + α j ) en een regressie analyse component (b w (C ij - )). De beste voorspelling voor een persoon uit groep j is het aangepaste gemiddelde van zijn groep. Echter wijken veel mensen af van het gemiddelde, en daar houdt de regressieanalyse component rekening mee door de individuele score op de covariaat mee te nemen. De individuele afwijking van het covariaatgemiddelde (C ij - ) wordt vermenigvuldigd door het regressie gewicht b w, waarna het wordt opgeteld bij de variantieanalyse component. Doordat de covariaat meegenomen wordt verandert de tussengroepscomponent (α j ) en de binnengroepscomponent (e ij ). Dit model is weer te geven in een diagram (zie werkboek p.22 voor een voorbeeld). 2

Het regressie gewicht b w heet zo, omdat het de pooled within-groups regressie gewicht is, oftewel de voorspelling van Y uit C voor elke groep. Er wordt vanuit gegaan dat b w gelijk is in alle groepen. De b w is echter niet gelijk aan het totale regressie gewicht b van de relatie tussen de covariaat en de afhankelijke variabele. Hetzelfde geldt voor de totale (r YC ) en pooled-within correlatie (r YC(W) ) tussen de covariaat en de afhankelijke variabele. F-test in ANCOVA De F-test in ANCOVA is gelijk aan die van ANOVA, alleen wordt er met aangepaste een sum of squares en vrijheidsgraden gewerkt waarbij de overlap met de covariaat eruit gefilterd is. De totale aangepaste kwadratensom bestaat uit een tussengroepscomponent en een binnengroepscomponent: SS T *= SS b * + SS W *. Met de volgende formule is de totale variantie van de afhankelijke variabele te berekenen: SS T * = SS T r YC2 SS T = (1- r YC2 )SS T. r YC2 SS T geeft aan hoeveel variantie de covariaat verklaart. De binnengroepscomponent wordt als volgt uitgerekend: SS W * = (1- r YC(W)2 )SS W. de tussengroepsvariantie kan dan makkelijk berekend worden: SS B * = SS T * - SS W *. Voordat de F-waarde berekend kan worden, moeten we MS (mean squares) uitrekenen door de kwadratensom door de vrijheidsgraden te delen. MS b * = SS b * / k-1 en MS W * = SS W * / N-k-c. Hierbij is k het aantal groepen, N de steekproefgrootte en c het aantal covariaten. Nu kan de F-waarde berekend worden: MS b * / MS W * met vrijheidsgraden df b = k-1 en df w = N - k - c. De binnengroepsvariantie blijft gelijk of verlaagd bij aanpassing voor de covariaat, terwijl de tussengroepsvariantie gelijk blijft, verhoogd of verlaagd. Daardoor kan F ook toenemen of afnemen. Het toevoegen van een covariaat heeft dus veel invloed. Over de invloed van r YC en r YC(W) op de F-toets kan op p.25 in het werkboek gekeken worden voor een voorbeeld. Aangepast groepsgemiddelde Het aangepaste groepsgemiddelde kan afgeleid worden uit de volgende formule: j = + α j + b w (C i - ). Omdat j* = + α j is het aangepaste groepsgemiddelde: j* = j - b w (C i - ). Als dit weergegeven wordt in een diagram, wordt het aangepaste groepsgemiddelde gevonden op de intersectie van de regressielijn van de groep met de lijn C =. Zie p.27/28 van het werkboek voor een voorbeeld. Over het algemeen geldt dat groepen met een hoog gemiddelde op de covariaat na aanpassing een lager gemiddelde hebben op de afhankelijke variabelen. Groepen met een laag gemiddelde op de covariaat hebben echter een hoger gemiddelde op de afhankelijke 3

variabele na aanpassing. Als de groep met de hoogste score de laagste score heeft op de covariaat worden de verschillen op de afhankelijke variabele dus groter, terwijl als deze groep ook de hoogste score heeft op de covariaat de verschillen kleiner worden, ze verdwijnen of het signaal wisselt. Het bovenstaande geldt alleen bij een positieve b w. Als b w negatief is geldt precies het omgekeerde. Reductie van errorvariantie Als groepen niet verschillen op de covariaat zijn de aangepaste groepsgemiddelden gelijk aan de originele gemiddelden. Toch leidt het toevoegen van een covariaat wel tot veranderingen in de resultaten. Het vermindert namelijk de errorvariantie. Door het toevoegen van een covariaat wordt het effect van de factor beter geschat en heeft de F-test meer statistische power. Gebruik covariaten spaarzaam Door het toevoegen van een covariaat vermindert het aantal vrijheidsgraden. Dit leidt tot een verhoging van MS w * ten opzichte van MS w. Als r YC r YC(W) 0 of als de covariaat niets toevoegt aan de afhankelijke variabele kan het toevoegen van een covariaat leiden tot een lagere F-waarde. Doordat er minder vrijheidsgraden zijn is de drempelwaarde voor significantie ook hoger. Daarnaast verandert een covariaat de interpretatie van de afhankelijke variabele. Dit kan op drie manieren: 1. Irrelevante interpretatie: het gebruik van een covariaat die irrelevant is voor het onderzoeksdoel. 2. Niet-bestaande of niet-bestudeerde groep. 3. Elimineren van een deel van het effect: als een covariaat gemeten wordt nadat behandelingen zijn toegediend, is er een mogelijkheid dat de score op de covariaat bepaald is door de manier waarop individuen over de groepen zijn verdeeld Op p.30 van het werkboek staat bij elk van de bovenstaande punten een voorbeeld. Assumpties Er moet sprake zijn van een normale verdeling, homogeniteit van varianties en onafhankelijke observaties. Deze gelden voor elke ANOVA. Wanneer er een covariaat bij komt kijken zijn er nog een aantal assumpties, die hieronder besproken worden. 4

Geen error in de covariaat De covariaat moet vrij zijn van error door selectie als door meetfouten. Deze fouten kunnen leiden tot een onderschatting van de relaties met andere variabelen. Volgens Huitema zijn er drie typen overtredingen: vaste covariaat met meetfouten, random covariaat zonder meetfouten en random covariaat met meetfouten. Alleen de laatste leidt tot ernstige problemen zoals te weinig aanpassing in de aangepaste groepsgemiddelden waardoor verkeerde conclusies getrokken kunnen worden. Lineariteit De relatie tussen de covariaat en de afhankelijke variabele moet het best te formuleren zijn door een rechte lijn in plaats van een kromme lijn. Deze assumptie is belangrijk, omdat overtreding kan leiden tot een onderschatting van de relatie tussen de covariaat en de afhankelijke variabele en daardoor een inadequate aanpassing van de groepsgemiddelden. Doordat er geen test is voor lineariteit vertrouwen we op visuele inspectie van het diagram waar voorspelde waardes afgezet worden tegen de errors. Er moet een horizontale band zichtbaar zijn. Als de relatie niet lineair is, is er niet veel aan de hand, omdat het voordeel van een niet-lineair model over een lineair model maar klein is. Bij serieuze niet-lineariteit kan een niet-lineaire vorm van ANCOVA gebruikt worden. Parallelliteit Alle groepen hebben hetzelfde regressiegewicht b w. dit betekent parallelle regressielijnen (bij één covariaat), parallelle regressievlakken (bij twee covariaten) of parallele regressiehypervlakken (bij drie of meer covariaten). Een andere manier om hier naar te kijken is dat er geen interactie mag zijn tussen de covariaat en de behandeling. Als de assumptie van parallelliteit overtreden wordt zijn de aangepaste gemiddelden, aangepaste kwadratensommen en F-testen niet meer correct. De validiteit en de interpreteerbaarheid van de ANCOVA vermindert enorm. Door elke groep een eigen regressiegewicht en eigen aanpassing te geven kan dit probleem opgelost worden, alleen verandert hierdoor de berekening van de aangepaste gemiddelden en verandert hun betekenis. Er moet altijd een ANCOVA uitgevoerd worden waarin de covariaat * behandeling interactie wordt meegenomen. Als de F-toets voor deze interactie niet significant is kan er overgegaan worden op het normale ANCOVA model. Als het wel significant is, moet de variabele niet als covariaat gebruikt worden. 5

ANCOVA in SPSS Voor een voorbeeld wordt verwezen naar p.35 van het werkboek. Bij het gebruik van een post-test meting als afhankelijke variabele en een pre-test meting als covariaat laten de aangepaste scores zien of een persoon of groep beter of slechter presteerde dan we zouden verwachten op basis van de pre-test meting. Het is dan niet het hoofdeffect van de onafhankelijke variabele dat invloed heeft op de afhankelijke variabele, maar de verandering van de onafhankelijke variabele tussen pre- en post-test meting. Het vinden van de kwadratensommen in de SPSS output van een ANCOVA wordt vaak als moeilijk beschouwd. De SS T is te vinden onder de rij Corrected Total. SS b en SS b * zijn de kwadratensommen van de onafhankelijke variabele en SS w en SS w * zijn de Error. SS T * wordt berekend door SS b * en SS w * op te tellen. De rij Corrected Model staat voor de totale verklaarde variantie. Het is gelijk aan de som van de kwadratensommen van de onafhankelijke variabele, de covariaat en de overlap tussen de onafhankelijke variabele en de covariaat. De ANCOVA assumpties moeten altijd eerst gecheckt worden. Een scatterplot van de voorspelde waardes tegenover de residuen kan gebruikt worden om lineariteit te checken. Hieruit kan ook gehaald worden of er sprake is van hetero- of homoscedasticiteit. Bij heteroscedasticiteit is de errorvariantie niet gelijk over alle voorspelde waarden. In het scatterplot kunnen ook uitbijters zichtbaar worden. Om achter de parallelliteitsassumptie te komen moet een ANCOVA uitgevoerd worden met het interactie-effect van de covariaat met de onafhankelijke variabele. Daarbij moeten ook altijd de hoofdeffecten meegenomen worden. Echter bij het beschrijven van de hoofdeffecten moet nooit de output van de analyse met het interactie-effect gebruikt worden, omdat de interpretatie van de hoofdeffecten flink veranderd wordt door de interactie toe te voegen. Een niet-significant interactie effect kan ook komen doordat er te weinig power is. Beperkingen van ANCOVA ANCOVA is belangrijk in experimentele, quasi-experimentele en correlationele ontwerpen. Er zijn echter ook wat beperkingen. In het werkboek is er een experimenteel perspectief ten opzichte van ANCOVA aangenomen. Men kan echter ook focussen op de relatie tussen de kwantitatieve onafhankelijke variabelen en de afhankelijke variabelen, waardoor de categorische variabele gezien wordt als de verstorende variabele en ANCOVA voornamelijk de aangepaste regressiegewichten schat. Daarnaast kan het regressieperspectief gebruikt worden waarbij de categorische en interval voorspellers dezelfde status hebben. Daarnaast 6

zouden post-hoc testen weer kunnen geven welke aangepaste groepsgemiddelden significant verschillen. Helaas zijn deze niet aanwezig in SPSS en moeten deze met de hand berekend worden. Zoals eerder genoemd zorgt een extra covariaat voor minder vrijheidsgraden en een veranderde interpretatie (zie Gebruik covariaten spaarzaam ). De validiteit van ANCOVA vermindert als het uitgevoerd wordt bij reeds bestaande groepen. Er is namelijk sprake van oninterpreteerbaarheid en referentie naar niet-bestaande of niet-bestudeerde groepen. Het voorbeeld op p.41 van het werkboek maakt dit punt duidelijk. Daarnaast zullen reeds bestaande groepen altijd verschillen op bepaalde (onbekende) variabelen. Men moet dus altijd voorzichtig zijn in het interpreteren en conclusies trekken van data gebaseerd op bestaande groepen. 7