X covarieert ook met Y, indien de invloed van confounders Z constant wordt gehouden (no confounding).

Transcriptie

1 CAUSALE ANALYSE Een handreiking Harry B.G. Ganzeboom (Deze versie: 2 maart 2015). Het belang van causaliteit Wetenschap is erop gericht om uit te vinden hoe de wereld werkt. In het onderzoek dienen daarom causale vraagstellingen (Wat veroorzaakt Y? Is X een (de) oorzaak van Y? Hoe ontstaat de invloed van X op Y?) centraal te staan. Als je je daarmee niet wilt bezighouden, moet je geen wetenschappelijk studie willen volgen. Causaliteit We besluiten tot causaliteit als aan drie (twee?) voorwaarden voldaan is: X gaat aan Y vooraf (meer algemeen: X was er eerder dan Y; no reversed causation); X covarieert met Y ( als er meer van X is, is er ook meer Y ); X covarieert ook met Y, indien de invloed van confounders Z constant wordt gehouden (no confounding). In een experimentele opzet is aan de voorwaarden van causale volgorde en het constant houden van confounders voldaan door het onderzoeksdesign; daarom is een experiment zo gemakkelijk en informatief om causale conclusies te trekken. In een observatie-opzet waarop we meestal in maatschappijwetenschappelijk onderzoek zijn aangewezen -- is het aan de onderzoeker om aan de voorwaarden inhoud te geven (en deze overtuigend te beargumenteren). Effect De meest eenvoudige manier om een effect van X op Y te laten zien, is naar het verschil in gemiddelde Y tussen groepen van X te laten zien. Dit werkt het beste als X van nature uit twee groepen bestaat (bv. sekse). Je kunt een meerwaardige X (bv. opleiding, leeftijd) ook altijd in (twee) groepen verdelen, maar dat levert informatieverlies op. De bijbehorende manipulatie in SPSS is means. Meer algemeen is een effect gedefieerd als een slope coefficient in een regressiemodel. Je kunt een regressie-coefficient ook zien als een samenvartting van de gemiddelde van Y voor verschillende categorieën van X. Constant houden via tabelsplitsing Het constant houden van een Z-variabele gaat het gemakkelijkst door Z in (twee) groepen te verdelen en naar X Y te kijken binnen elke groep van Z. Ook dit gaat het gemakkelijkst als je als Z uit twee groepen 1

2 bestaat. Als Z van nature meerwaardig (opleiding) of continu (leeftijd) is, dan gaat er op deze manier informatie en onderscheidingsvermogen 1 verloren. Bij tabel-splitsing krijg je in de subtabellen mogelijk verschillende effect-sterktes X Y te zien. De samenhang tussen X en Y hangt dan af van Z. In dat geval spreken we van interactie (of moderatie). Dat je deze onmiddellijk te zien krijgt in tabel-splitsing, kun je zowel als een voordeel als een nadeel beschouwen. PS: in methodologie-boeken (zoals Babbie: CH15) vind je tabel-splitsing ( tabel-elaboratie ) vaak beschreven in een vorm waarin ook de Y-variabele discreet is gemaakt (bv. percentage ja). Dat is onnodig en meestal een afrader omdat ook op deze manier onderscheidingsvermogen verdwijnt. Constant houden in regressie-analyse Een alternatief voor causale analyse via tabel-splitsing is regressie-analyse. In een regressie-model beschrijf je verwachte (=gemiddelde) Y op basis van variaties in X (enkelvoudige regressie) of met het constant houden van een of meerdere covariaten (meervoudige of multipele regressie). Regressieanalyse heeft de volgende voordelen boven tabel-splitsing: In regressie-analyse kun je zowel dichotome als meerwaardige en continue X-variabelen gebruiken. In regressie-analyse is het geen probleem om meerdere (zelfs: veel) variabelen constant te houden. Statistische evaluatie (significantietesten, betrouwbaarheidsintervallen) is veel gemakkelijker in regressie-analyse dan bij tabel-splitsing. Anders dan bij tabelsplitsing krijg je in regressie-analyse niet automatisch interactie-effecten te zien: regressie-analyse gaat ervan uit dat het effect van X in alle condities van Z hetzelfde is: je kunt het dus zien als een soort gemiddeld effect. Interactie-effecten in regressie-analyse verkrijg je door multiplicatieve interactietermen toe te voegen. Hoe houdt regressie-analyse constant? In tabelsplitsing is het wel duidelijk wat het betekent dat Z constant wordt gehouden: je kijken binnen een conditie van Z (bv. vrouwen) hoe X en Y covariëren. Maar hoe doet het regressiemodel dat? Een inzichtelijke methode is om dat te zien: Bereken Z X en Z Y en neem de residuen. Je hebt dan de variatie in X en Y die niet door Z wordt veroorzaakt. 1 Onderscheidend vermogen = power = 1 de kans dat je de H0 ten onrechte niet verwerpt. Oftewel: dat je onderzoekshypothese Ha opgaat, maar jouw onderzoek het niet opmerkt. Dan heb je je onderzoek slecht gedaan! Zie Agresti, pp

3 Als je de twee residuen in een enkelvoudige regressie met elkaar in verband brengt, zie je de partiële regressiecoefficient verschijnen. Een partiële coefficient is dus de invloed van dat de variatie in X die niet door Z wordt veroorzaakt, op de variatie in Y die niet door Z wordt veroorzaakt. Causale volgorde Tabelsplitsing en regressie-analyse ontlenen beiden hun causale interpretatie aan veronderstellingen van causale volgorde. Op de een of andere manier moet je reversed causation (Y Z) en confounding (Z X; Z Y) weten uit te sluiten. De enige empirische stappen hierin zijn het constant houden van de effecten van de confounders en het vervolgens berekenen van de samenhang tussen X en Y. Waar een variabele staat in een causaal model (dwz of een variabele een confounder of een mediator is), is een assumptie die beargumenteerd moet worden, bij voorkeur uit het research design. De meeste argumenten over causale volgorde berusten op volgorde in de tijd: wat komt eerst wat komt later? Om deze reden heeft het veel voordelen om je gegevens in een paneldesign (herhaalde waarneming bij dezelfde eenheden) te doen. Maar er zijn meer argumenten mogelijk over causale volgorde: Retrospectieve ondervraging Levensloopargumenten Assumptie over relatief stabiele kenmerken (persoonlijkheid): stabiele kenmerken kunnen van invloed zijn op relatief veranderlijke kenmerken, andersom is onaannemelijk.. Het is echter ook zaak om op dit punt kritisch te zijn. Je zien in de literatuur bv. veelvuldig de impliciete veronderstelling dat attitudes of motivaties vooraf gaan aan gedragskeuzes. Dit is een omstreden assumptie. 3

4 DIRECTE, INDIRECTE EN CONFOUNDING EFFECTEN Het meest elementaire causale model kun je op twee manieren bekijken: In het elementaire causale model kijken we naar drie variabelen, waartussen drie correlaties bestaan. Deze correlaties kunnen we als volgt decomponeren (uiteenleggen) in causale effecten: r13 = a + b*c r12 = b r23 = a*b + c [direct + indirect effect] [direct effect] [confounding + direct effect] Algemeen geldt de regel van pad-decompositie van correlaties: Correlatie = direct effect + indirecte effecten + confounding effecten We noemen een effect spurious ( schijnverband ) als het directe effect [c] nul wordt bij constant houden van confounders Z. We noemen een effect indirect als het directe effect [a] nul wordt bij constant houden van mediators M. De causale interpretatie is radicaal verschillend! NB1: Op basis van deze regels en de correlatiematrix kun je de sterkte van effecten uitrekenen. Je hebt hiervoor geen regressieanalyse nodig! NB2: het is gebruikelijk om de effecten mbv regressie-analyse te berekenen. NB3: Pad-analyse werkt doorgaans met correlaties (en gestandaardiseerde regressie-coefficienten), maar noodzakelijk is dat niet; het gaat ook op met covarianties en ongestandaardiseerde regressiecoefficienten. 4

5 Indirecte effecten / mediatie Het totaal effect van X op Y is gedefinieerd als: Totaal effect = Directe effect + indirecte effecten = correlatie confounding effecten Indirecte effecten kunnen we daarom als een percentage van het totaal effect berekenen. In een mediatiemodel is doorgaans het doel om het directe effect tot 0% te reduceren; dan is het totaal effect volledig verklaard. Meestal is hier een mate van en aan we alleen maar in de richting van de 0%. Vaak zijn we al tevreden als mediatie een beetje optreedt. Daarom doet zich ook de vraag naar significantie van indirecte (en ook confounding) effecten voor. De voor deze berekening vereiste standard errors vind je niet in je SPSS output: indirecte en confounding effecten zijn een product van twee afzonderlijke directe effecten en de berekening van de bijbehorende steekproefvariatie blijkt een complexe zaak te zijn. Voor de berekening van de standard error en statistische significantie kun je terecht bij de sobel-test: Je dient daarvoor te beschikken op de omvang, standard error en/of t-value van de betrokken directe effecten. Baron, R. M., & Kenny, D. A. (1986). The moderator-mediator variable distinction in social psychological research: Conceptual, strategic, and statistical considerations. Journal of Personality and Social Psychology, 51, Sobel, M. E. (1982). Asymptotic intervals for indirect effects in structural equations models. In S. Leinhart (Ed.), Sociological methodology 1982 (pp ). San Francisco: Jossey-Bass. De berekeningen beperken zich tot indirecte effect die uit twee stappen bestaan. Voor ingewikkelder situaties kun je terecht bij simultaneous equation models (Lisrel, Mplus, Stata). 5

6 SPSS syntax* ****GET FILE='U:\)Research\ISSP \issp_2010_2011_NL_def.sav'. freq sex age degree nl_rinc isco88. recode sex (1=0)(2=1) into FEMALE. recode age (25 thru 64=1)(else=0) into ADULT. recode nl_rinc (0 thru 5500=copy)(else=sysmiss) into PINC. RECODE ISCO88 (100 THRU 5999=1)(6000 THRU 9939=0) INTO NONMANUAL. recode degree (0 thru 6=copy)(else=sysmiss) into EDUC. ISEI!enddefine. isco88!enddefine. include file='u:\)ismf\incl\ískoisei88.sps'. ** CORRELATIES **. corr female age educ nonmanual isei pinc. ** STAPSGEWIJZE REGRESSIES **. regress /dep=pinc /enter=female. regress /dep=pinc /enter=educ /enter=female age. regress /dep=pinc /enter=nonmanual /enter=educ /enter=age female. regress /dep=pinc /enter=isei /enter=educ /enter=age female. ** INTERACTIES **. COMP ISEI_FEM = ISEI*FEMALE. comp EDUC_FEM = EDUC*FEMALE. regress /des=corr def /stat=change /dep=pinc /enter=isei /enter=educ /enter=age female /enter=isei_fem /enter=educ_fem. ** Z-standaardisatie van beroep en opleiding **. desc educ isei /save. COMP ZISEI_FEM = ZISEI*FEMALE. comp ZEDUC_FEM = ZEDUC*FEMALE. regress /des=corr def /stat=def change 6

7 /dep=pinc /enter=zisei /enter=zeduc /enter=age female /enter=zisei_fem /enter=zeduc_fem. 7

8 STAPPENPLAN CAUSALE ANALYSE Stap 1: Bepaal de causale volgorde van je variabelen Causale analyse begint voordat je je gegevens verzamelt: de indeling van variabelen in Y (het gevolg, de te verklaren variatie), X (oorzaken), Z (confounders) en M (mediatoren) berust op je theorie, maar vooral ook op je onderzoeksdesign. Denk met name om de potentie van retrospectieve vraagstellingen en levensloopmodellen. Het is bij de beschrijving van je onderzoeksdesign van groot belang dat je je veronderstelde causale volgorde expliciet argumenteert. Stap 2: Goed meten Het goed meten van al je variabelen is cruciaal voor een adequate causale analyse, maar het is nog belangrijker voor je X, M en Z variabelen dan voor je Y variabele. Denk bij goed meten ook om: Zoveel mogelijk variatie in alle variabelen (aannemende dat die variatie echt iets betekent). Zorg ervoor dat je zo dicht mogelijk bij een metrisch (interval) meetniveau terecht komt. Stap 3: Bereken en bestudeer de correlaties tussen alle variabelen Hoewel ze niet het eindpunt van een analyse zijn, is weinig zo informatief als het bestuderen van een bivariate correlatie-matrix tussen al je variabelen. Je ziet in correlaties je uiteindelijke causaal model al opdoemen, je kunt er ook aan zien welke variabelen je niet constant hoeft te houden. Omdat correlaties pairwise kunnen worden berekend, geven de correlatiematrix ook een eerste inzicht in het optreden van missing values. Stap 4: Tabelsplitsing Hoewel niet noodzakelijk, kan tabelsplitsing een goede manier zijn om de relatie X Y in beeld te brengen. Als X meer dan twee categorieën heeft, is een grafiek van deze relatie (met bv. box & whiskers) een goed idee. Stap 5: Enkelvoudig regressiemodel Begin met de invloed van X Y zonder dat iets anders constant wordt gehouden (in feit een formule voor het plaatje uit de vorige stap). Stap 6: Toevoegen van confounders In de volgende modellen voeg je de confounders toe. Dat kan je een voor een doen, af allemaal in een klap (blockwise). Stapsgewijze toevoeging geeft je vaak veel inzicht in de werking van het volledige causale model. 8

9 Stap 7: Toevoegen van mediators Een volgende stap kan zijn om een of meerdere mediators aan het model toe te voegen, maar voor het vaststellen van de relatie X Y is dat niet nodig, het geeft alleen inzicht in hoe deze causaliteit tot stand komt. Stap 8: Toevoegen van interacties tussen Z en X (moderatie) Naar interacties hoef je alleen maar te kijken wanneer je daarin geïnteresseerd bent en dat kan heel goed je centrale onderzoekshypothese zijn. Interacties modelleer en interpreteer je het gemakkelijksy als: Zowel X als Z gemeten zijn met een interpreteerbaar 0-punt en eenheid. Voor de hand liggende keuzes zijn: Z-standaardisatie (M=0 en SD=1), range-standaardisatie (min = 0, max=1) of percentielstandaardisatie (min=0, max=1, M=0.50). Interactie bestudeer je het gemakkelijkst in stapsgewijs opgebouwde modellen, waarbij je de F- change gebruikt om over significantie te besluiten. Stap 9 (optioneel): Toevoegen van interacties tussen X en M (moderated mediation) Dit betekent dat je op zoek gaat naar hoe X Y afhangt van M. Voorbeeld: is het effect van sekse op inkomen verschillend tussen hoger en lager opgeleiden? Merk op dat je deze vraag ook kunt stellen als: is het effect van opleiding op inkomen hetzelfde voor mannen en vrouwen. In deze formulering heb je de causale focus van X naar M verschoven. Het hangt af van je theorie en probleemstelling of je in zulke vragen geinteresseerd bent. Stap 10a: Sensitiviteitsanalyse missing values Missing values zijn in de praktijk van onderzoek een zeer groot probleem en aandachtspunt. Regressieanalyse (in SPSS) staat schatting via pairwise deletion en listwise deletion toe. Het is zaak om beide schattingen te vergelijken. Stap 10b: Sensitiviteitsanalyse non-lineariteit In regressie-analyse veronderstel je dat samenhangen tussen variabelen goed kunnen worden samengevat een lineair model. Dit is een heel krachtige en gemakkelijk vereenvoudiging van de werkelijkheid, maar ze gaat niet altijd op. Je kunt op verschillende manieren naar non-lineairiteit kijken. Het gemakkelijkst is om de voorspellende variabelen zowel een keer in continue als discrete vorm op te nemen (vergelijk zowel R2 als effecten). 9

10 VEEL VOORKOMENDE MISVERSTANDEN OVER CAUSALE ANALYSE Correlatie is geen causatie Dat is waar, maar correlatie duidt wel op causatie. Als twee variabelen A en B met elkaar samenhangen, komt dat door een van drie mogelijkheden: (a) A veroorzaakt B, (b) B veroorzaakt A, (c) Z (een confounder) veroorzaakt zowel A als B. Zonder correlatie geen causatie. Causatie kun je alleen testen met experimentele onderzoeksopzetten Als dat zo was, zouden we heel weinig van de wereld om ons heen begrijpen. Ook uit observatie-studies kun je tot causaliteit besluiten, al is dat wel moeilijker en vaak met meer onzekerheden omgeven dan bij experimenten. Als je een lage verklaarde variantie heb, kun je niet meer zeggen over hoe Y tot stand komt Nee, bekijk het anders. Een causale analyse gaat over de invloed van een X op Y. Als die invloed er niet is, heb je ook geen verklaarde variantie en is dat de goede conclusie. Als die invloed klein is, heb je weinig verklaarde variantie, dan is dat de goede conclusie (en heb je een grote N of een scherp onderzoeksdesign nodig om het effect op te merken.) Het belangrijke aan een statistisch model is of het gevonden verschil met de werkelijkheid overeenstemt, niet of het een groot verschil is. Causale analyse in observatie-designs kun je alleen doen in panels (herhaalde meting bij dezelfde eenheden). Panels hebben voordelen voor causale analyse, maar ze hebben niet het alleenvertoningsrecht. Een belangrijk voordeel van panels is dat causale volgorde relatief onomstreden is, maar er zijn ook andere situaties waarin we goed plausibele aannames kunnen maken over de volgorde van events. Een tweede voordeel van panels is dat je via zgn. fixed effect models of first difference models de invloed van individueel stabiele confounders (bv. geslacht, geboortejaar, opleiding, persoonlijkheid) constant kan houden, zelfs zonder over metingen van die variabelen te beschikken. Causale analyse in observatie-designs kun je alleen doen via matching-designs ( quasiexperimenteel ). In matching designs hou je de variabelen waarop je matched constant. Maar omdat matching alleen maar met gemeten variabelen kunt doen, kun je die variabelen ook altijd constant houden via een regressiemodel. Het verschil is dat je bij een regressiemodel ook gebruik maakt van X groepen waarin de Z niet varieert en dat kan zowel een voordeel als een nadeel zijn. Het is overigens onjuist om een matching design quasi-experimenteel te noemen, want ook in experimenten kun je matchen (naast randomiseren), maar doe je het meestal niet. Om tot causaliteit (effect van X op Y) te kunnen besluiten, moet je alle variabelen die op Y van invloed zijn, constant houden 10

11 Nee, dat is niet nodig, in experimenten doe je dat ook niet. Je moet alleen variabelen constant houden als ze een confounder zijn, nl. zowel op X als Y van invloed kunnen zijn (dus voorafgaan aan zowel X als Y). Als een effect in een groep significant is, en in een ander groep niet, verschillen die effecten Nee, groepsverschillen in effect moet je testen via een interactie-term, waarbij de H0 is dat in beide groepen het effect even sterk is. Als een effect in een groep niet significant is, en in een andere groep ook niet, dient de H0 geaccepteerd te worden. Nee, in een gepoolde analyse kan het effect best wel significant zijn. De H0 wordt nooit geaccepteerd, hij wordt niet verworpen. Dit maakt werkelijk verschil! Als een effect niet significant is, bestaat het niet (in de populatie). Nee, niet-significantie betekent dat de H0 niet verworpen is. Dat zegt vaak nog heel erg weinig over je onderzoekshypothese (de Ha), waarin je echt geinteresseerd bent. Het kan heel goed aan je onderzoeksdesign liggen dat er niets uitkomt, bv. te kleine steekproef of slechte metingen. Variantie-analyse en regressie-analyse zijn verschillende modellen Nee, variantie-analyse en regressie-analyse zijn echt hetzelfde. Het misverstand komt voort uit het feit dat variantie-analyse meestal bij experimentele designs worden gebruikt en regressie-analyse bij observatie-designs. Statistische programma s (in SPSS: REGRESSION en UNIANOVA) hebben wel lichtelijk verschillende opties, maar dat is meer toeval dan principe. Variantie-analytische programma s zijn van nature geconcentreerd op groepsverschillen ( factoren ) en continue variabelen ( covariaten ) spelen daarbij een secundaire rol. Regressie-analytische programma hebben soms (zoals in SPSS) stapsgewijze opties en opties om analyse te doen met pairwise deletion of missing values. Om tot causaliteit (van X op Y) te besluiten moet je alle variabelen constant houden die zowel met X als Y te maken hebben. Nee, je moet die variabelen onderscheiden in confounders (Z) en mediators (M). Om X Y te toetsen, moet je Z-variabelen constant houden en M-variabelen juist niet. Het constant houden van M- variabelen heeft ook een belangrijke interpretatie, maar niet dat X Y niet optreedt: mediatie-analyse legt bloot hoe de causale relatie tot stand komt, confounding legt bloot dat de causale relatie niet bestaat. Het verschil tussen confounders en mediators is zeer fundamenteel voor causale conclusies. Causale analyse kun je alleen doen met kwantitatieve gegevens Nee hoor, causaliteit is hoe de wereld werkt, en hangt niet af van hoe je ernaar kijkt. Ook in kwalitatieve analyses gaat het om covariatie tussen X en Y, het uitsluiten van invloed van Z, en moet je nadenken over causale volgorde. In geformaliseerde kwalitatieve methoden (QCA die zich beroept op de 11

12 methoden van JS Mill (method of difference / method of agreement) en verwante zaken als most similar / most different designs) draait het in feite om deze covariatie en constant houden. 12

13 EEN VOORBEELD In het navolgende bestuderen we het volgende causaal model: Leeftijd Opleiding Beroep Inkomen Sekse 13