Causale modellen: Confounding en mediatie Harry Ganzeboom Kwantitatieve Methoden voor PMC-BCO College 2: 25 april 2016
Correlatie en causatie Een standaard wijsheid in methodologie is dat correlatie (samenhang) nog geen causatie (oorzakelijkheid) impliceert. Dit is een onjuiste en onvruchtbare voorstelling van zaken, correlatie impliceert namelijk wel causatie. Als X en Y met elkaar samenhangen, is dit te danken aan drie mogelijke causale processen: X veroorzaakt Y (causation) Y veroorzaakt X (reverse causation) Z veroorzaakt zowel X als Y (spurious causation). De standaard wijsheid betreft de derde mogelijkheid (schijncausaliteit), maar ziet over het hoofd dat ook hier oorzakelijkheid speelt. Standaard voorbeelden van schijncausaliteit: ooievaars en vruchtbaarheid, ijsco-omzet en verdrinking, hoeveelheid brandweermannen en brandschade, schoenmaat en intelligentie. 2
Oorzakelijkheid in een experiment De beste manier om een oorzakelijke relatie X Y vast te stellen is een randomized group experiment: Manipuleer X (treatments) en ken de verschillende treatments toe aan bij toeval ingedeelde groepen. Meet vervolgens Y. De conclusie X Y volgt uit een samenhang tussen X en Y: (gemiddelde) Y varieert met X. Het exclusiviteit van het experiment als methode om causaliteit vast te stellen berust op het uitsluiten van: Reverse causation: eerst manipuleer je X, daarna treedt Y op; Spurious causation: confounders Z kunnen geen rol spelen in de samenhang tussen X en Y, omdat de waarden van Z ongecorreleerd zijn met X (kunnen wel gecorreleerd zijn met Y!). 3
Oorzakelijkheid in observatie-data Hoewel het experiment de ideale methode is om X Y vast te stellen, is het onzin te menen dat dit de enige methode zou zijn. Als al onze causale kennis op goed uitgevoerde experimenten zou berusten, zouden we maar heel weinig begrijpen van de wereld. Experimenten zijn in maatschappijwetenschappen (w.o. organisatiewetenschappen) lastig om uit te voeren; daarin zijn we overigens niet alleen, het geldt bv ook voor de meteorologie, oceanografie, sterrenkunde, en andere eerbare observatiewetenschappen 4
De drie voorwaarden voor causaliteit Om causaliteit X Y vast te stellen in observatiedata, moet je drie dingen weten: Geen reversed causation: Y moet op X volgen (causale volgorde). Geen spurious causation: X moet met Y samenhangen, als je confounders Z constant houdt. Correlatie: samenhang tussen X en Y. Maar wat in het experiment gemakkelijk is uit te voeren, is in observatiestudies lastig. 5
Causale volgorde: een noodzakelijke voorwaarde voor causaliteit Causale volgorde tussen X en Y kan volgen uit je design: Paneldesign: je meet X op t1, Y op t2. Retrospectief: je vraagt de respondent X te rapporteren over een eerdere situatie. Theorie: je beargumenteert dat X in de tijd voorafgaat aan Y (bv. op basis van de levensloop). Causale volgorde per assumptie: Algemene kenmerken veroorzaken specifieke kenmerken, niet andersom. Stabiele kenmerken veroorzaken veranderlijke kenmerken, niet andersom. Contextuele kenmerken veroorzaken individuele kenmerken, niet andersom. 6
Confounders (Z): nog een noodzakelijke voorwaarde Confounders zijn variabelen: die voorafgaan aan X (en dus ook aan Y), en van invloed (kunnen) zijn op zowel X als Y (als Z op een van beiden niet van invloed is, is er geen sprake van spurious causation). (Vaak worden confounders ook controle-variabelen genoemd.) De invloed van Z op X en Y kan tegengesteld van teken zijn; in dat geval spreken van een suppressie-effect : de relatie X wordt sterker als we Z constant houden. Er is sprake van causaliteit wanneer de werking van alle mogelijke confounders is uitgesloten. 7
Confounders in experimenteel en observatie-onderzoek In experimentele design hebben confounders geen werking, omdat ze constant zijn tussen waarden van X. Dit geldt voor alle mogelijke confounders. In observatie-onderzoek moeten we confounders meten en constant houden via statistische analyse. Een kwetsbaar punt van observatie-onderzoek is dus dat we nooit echt kunnen weten alle werkzame confounders te hebben opgespoord. 8
Constant houden via tabellen Je kunt een variabele Z constant houden door de relatie X Y te bekijken binnen subgroepen van Z. Als Z van invloed is op zowel X als Y, zal de relatie X Y in de subgroepen van Z zwakker zijn dan over-all. Er is sprake van volledige confounding (spuriousness) wanneer er in de subtabellen van Z geen relatie X Y meer over is. 9
Constanthouden via regressie-analyse De meer algemeen bruikbare statistische techniek om variabelen constant te houden ( te controleren ) is het multipele regressiemodel: Y = B0 + B1*X + B2*Z Deze methode werkt namelijk ook: Wanneer Z niet in groepen uiteenvalt, doordat Z continue is, of veel groepen kent. Wanneer er niet één Z is, maar meerdere Z- variabelen. Dat zijn beide heel belangrijke voordelen. 10
Omvang van het schijneffect Er is een eenvoudige regel om de omvang van een schijneffect uit te rekenen: Correlatie = totaal effect + schijneffect Schijneffect = (Z X) *(Z Y) Oftewel: r(x,y) = (X Y) + (Z X) *(Z Y), waarbij de beta-coefficienten in een regressiemodel zijn. Deze berekeningen worden doorgaans gemaakt met correlaties en gestandaardiseerde effecten (beta), maar ze werken ook met covariantie en ongestandaardiseerde effecten (B). 11
Een voorbeeld UREN WERK 0.472 INKOMEN 12
Een voorbeeld SEKSE -0.176-0.534 UREN WERK 0.377 INKOMEN 13
SPSS-demonstratie: hoe doe je het Zie aparte handout met spss syntax en tabellen. Je kunt zowel naar gestandaardiseerde als ingestandaardiseerde slopes kijken. De intercepten zijn niet van groot belang voor deze analyse. 14
SPSS-demonstatie: hoe doet regressie dat? (niet behandeld) Je kunt de coefficienten van multiple regressies ook als volgt verkrijgen via enkelvoudige regressie: Bereken effect van Z op X bereken het residu Bereken effect van X op Y bereken het residu. Bereken het effect van het eerste residu op het tweede. Dit geeft een interpretatie van de B s in een multipele regressiemodel: de invloed van het stukje X dat niet beinvloed wordt door Z op het stukje Y dat niet beinvloed wordt door Z. 15
Indirecte effecten (mediatie) Mediatie treedt op wanneer we kunnen laten zien dat de relatie X Y verloopt via een of meerdere mediator-variabelen M: X M Y. Een mediator-variabele staat in de causale volgorde tussen X en Y. we noemen ze ook wel: intervenierende variabelen. M variabelen verklaren hoe (via welk mechanisme) X tot Y leidt. Ook bij volledige mediatie betekent mediatie niet dat X Y schijn is of niet bestaat. Dit is een belangrijk verschil met confounding. Bij (multipele) mediatie-analyse zijn we vaak geinteresseerd in de omvang van de mediatie. 16
Omvang van mediatie Ook voor mediatie geldt dat we de omvang kunnen berekenen via vermenigvuldiging van de betrokken regressie-coefficienten. We doen dit doorgaans met de gestandaardiseerde beta s. Bij mediatie is deze berekening wat interessanter dan bij confounding. Correlatie = (schijneffecten +) direct effect + indirect effecten. r(x,y) = confounding + (X Y) + (X M)*(M Y). Een betere naam voor het directe effect X Y zou zijn residueel effect of onverklaard effect. 17
Een voorbeeld SEKSE -0.378 INKOMEN 18
Een voorbeeld SEKSE -0.176-0.534 UREN WERK 0.377 INKOMEN 19
SPSS demonstratie: hoe doe je het? Ook mediatie-analyse gaat het gemakkelijkst via stapsgewijze multipele regressie: Begin bij het totale effect. Voeg mediatoren een voor een toe. Mate van mediatie lees je af aan het overblijvende residuele effect. Voor berekening van de omvang van mediatie moet je ook het effect X M in een aparte regressie-analyse berekenen. 20
Significantie van mediatie Uit de berekening van de omvang van een direct effect volgt niet of de mediatie statistisch significant is. Voor de berekening van deze significantie moeten we een beroep die op speciale formules: de Sobel-test: http://quantpsy.org/sobel/sobel.htm. Vuistregel: elk van de betrokken deel-effecten dient ruim statistisch significant te zijn (t > 2.2.). 21
Confounding en mediatie Vanuit het regressiemodel lijken confounding en mediatie sprekend op elkaar. Of er spraken is van confounding of mediatie, kun je niet aan de hand van de resultaten zien; het berust op de veronderstellingen over de plaats van de controlevariabelen in de causale volgorde: Voor X Y: confounder Tussen X en Y: mediator. 22
Bloksgewijze regressie In de praktijk van onderzoek wordt causale analyse via bloksgewijze regressie uitgevoerd. Laat eerst X Y bivariaat zien. Dan confounders Z constant houden, daarna mediatoren M constant houden. De concentratie is dus eerst op het totale en vervolgens op het residuele effect. De omvang (en significantie) van confounding en medierende effecten krijgen vaak (te) weinig aandacht. 23