Causale modellen: Confounding en mediatie. Harry Ganzeboom Kwantitatieve Methoden voor PMC-BCO College 2: 25 april 2016

Vergelijkbare documenten
Analyse van confounders en mediatoren. Cursus Bachelor Project 2 B&O College 3 Harry B.G. Ganzeboom

Mediatie-analyse College 4+ Cursus PMC Statistiek Plus. Harry Ganzeboom 1 maart 2019

Kwantitatieve modellen. Harry B.G. Ganzeboom 18 april 2016 College 1: Meetkwaliteit

X covarieert ook met Y, indien de invloed van confounders Z constant wordt gehouden (no confounding).

College 6: Responsiecollege (wijzigingen in rood) Cursus Bachelor Project 2 B&O College 6 Harry B.G. Ganzeboom

Regressie-analyse. Cursus Bachelor Project 2 B&O College 2 Harry B.G. Ganzeboom. Regressie-model en mediatie-analyse 1

Hoofdstuk 8: Multipele regressie Vragen

Waar waren we? Onderzoekspracticum BCO ANALYSEPLAN. Soorten gegevens. Documentatie. Kwalitatieve gegevens. Coderen kwalitatieve gegevens

11. Multipele Regressie en Correlatie

** VOORBEELD VAN CAUSALE ANALYSE MET CONFOUNDER EN MEDIATOR **.. GET FILE='u:\)Research\ISSP-NL\ISSP \Data\issp_2013_2014_NL_def.sav'.

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

9. Lineaire Regressie en Correlatie

Experimenteel Onderzoek en Experimentele Controle

Theorie en Empirisch Onderzoek. Werkcollege 4.3 Experimenteel onderzoek Rijken & Merz. 2014

College 4 Experimenteel Onderzoek en Experimentele Controle

Classification - Prediction

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Moderatie-analyse met continue moderator (wijzigingen in rood) Cursus Bachelor Project 2 B&O College 5 Harry B.G. Ganzeboom

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Valid N Missing N

College 3 Meervoudige Lineaire Regressie

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

10. Moderatie, mediatie en nog meer regressie

20. Multilevel lineaire modellen

Data analyse Inleiding statistiek

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

HOOFDSTUK VII REGRESSIE ANALYSE

Hoofdstuk 2: Verbanden

1. Reductie van error variantie en dus verhogen van power op F-test

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Oplossingen hoofdstuk XI

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

Experimenteel en Correlationeel Onderzoek

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

mlw stroom 2.1: Statistisch modelleren

Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren

Tentamen Biostatistiek 2 voor BMT (2DM50), op maandag 2 juli uur

Oriëntatie Econometrie Tijdreeksmodellen en Voorspellen. Marius Ooms. 23 April 2002, Amsterdam

Dit jaar gaan we MULTIVARIAAT TOETSEN. Bijvoorbeeld: We willen zien of de scores op taal en rekenen van kinderen afwijken in de populatie.

3de bach TEW KBM. Theorie. uickprinter Koningstraat Antwerpen ,00

Wat te doen met die lange variabele- labels in SPSS?

Dit maakt het (iets) eenvoudiger om de getallen te interpreteren.

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

Hoofdstuk 10: Regressie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

Schriftelijk tentamen - UITWERKINGEN

11. Meerdere gemiddelden vergelijken, ANOVA

2.9 Het adolescentieonderzoek Opgaven 72

Meten: algemene beginselen. Harry B.G. Ganzeboom ADEK UvS College 1 28 februari 2011

Sociologie Vrije Universiteit Amsterdam - Faculteit der Sociale Wetenschappen - P Sociologie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

Zelfstandig wonen binnen het huidige zorgklimaat

Random en systematische meetfouten. Harry B.G. Ganzeboom ADEK UvS College 3 5 maart 2011

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Tentamen Biostatistiek 2 voor BMT (2DM50), op dinsdag 5 april uur

Dit maakt het (iets) eenvoudiger om de getallen te interpreteren.

Hoofdstuk 1 Beweging in beeld. Gemaakt als toevoeging op methode Natuurkunde Overal

(slope in het Engels) en het snijpunt met de y-as, b 0

Deel 1: Voorbeeld van beschrijvende analyses in een onderzoeksrapport. Beschrijving van het rookgedrag in Vlaanderen anno 2013

Strategie en resultaat

Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 22 april uur

College 6. Samenhang tussen variabelen. Inleiding M&T Hemmo Smit

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

Toegepaste data-analyse: sessie 3

Bestuurskunde Vrije Universiteit Amsterdam - Faculteit der Sociale Wetenschappen - P Bestuurskunde

Hoofdstuk 1 Beweging in beeld. Gemaakt als toevoeging op methode Natuurkunde Overal

Opgaven hoofdstuk 12 Enkelvoudige lineaire regressie

Tentamen Biostatistiek 3 / Biomedische wiskunde

6 De relatie tussen de intentie tot exploratie, binding en delinquent gedrag

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

D) Alle drie de variabelen kunnen zowel afhankelijke als onafhankelijke variabelen zijn.

College 2 Enkelvoudige Lineaire Regressie

SPSS. Statistiek : SPSS

Experimenteel en Correlationeel Onderzoek (ECO)

DEEL 1 Probleemstelling 1

Rapport. Rapportage Bijzondere Bijstand 2013

Lijst van figuren. Lijst van tabellen

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28

Correlatie = statistische samenhang Meest gebruikt = Spearman s rang correlatie Ordinaal geschaalde variabelen -1 <= r s <= +1 waarbij:

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)

Toegepaste data-analyse: oefensessie 2

Voortgezette regressie- en variantieanalyse

HETEROGAMIE IN OPLEIDINGSNIVEAU:

Hoofdstuk 7 Marktonderzoek

Theorie en Empirisch Onderzoek [TEO] Werkcollege 1.3: Cultuurparticipatie Harry Ganzeboom 2016/02/04

HOOFDSTUK 2: VERBANDEN

LDL-Cholesterol: Gemeten versus Berekende waarde

Schriftelijk tentamen - UITWERKINGEN

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

College 6 Eenweg Variantie-Analyse

MISSING DATA van gatenkaas naar valide uitkomsten

Vitamine B12 deficiëntie

Voorbeeld regressie-analyse

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Voorwoord. Lijst van figuren. Lijst van tabellen

Het samenstellen van een multipele indicator index. Harry B.G. Ganzeboom ADEK UvS College 2 28 februari 2011

Transcriptie:

Causale modellen: Confounding en mediatie Harry Ganzeboom Kwantitatieve Methoden voor PMC-BCO College 2: 25 april 2016

Correlatie en causatie Een standaard wijsheid in methodologie is dat correlatie (samenhang) nog geen causatie (oorzakelijkheid) impliceert. Dit is een onjuiste en onvruchtbare voorstelling van zaken, correlatie impliceert namelijk wel causatie. Als X en Y met elkaar samenhangen, is dit te danken aan drie mogelijke causale processen: X veroorzaakt Y (causation) Y veroorzaakt X (reverse causation) Z veroorzaakt zowel X als Y (spurious causation). De standaard wijsheid betreft de derde mogelijkheid (schijncausaliteit), maar ziet over het hoofd dat ook hier oorzakelijkheid speelt. Standaard voorbeelden van schijncausaliteit: ooievaars en vruchtbaarheid, ijsco-omzet en verdrinking, hoeveelheid brandweermannen en brandschade, schoenmaat en intelligentie. 2

Oorzakelijkheid in een experiment De beste manier om een oorzakelijke relatie X Y vast te stellen is een randomized group experiment: Manipuleer X (treatments) en ken de verschillende treatments toe aan bij toeval ingedeelde groepen. Meet vervolgens Y. De conclusie X Y volgt uit een samenhang tussen X en Y: (gemiddelde) Y varieert met X. Het exclusiviteit van het experiment als methode om causaliteit vast te stellen berust op het uitsluiten van: Reverse causation: eerst manipuleer je X, daarna treedt Y op; Spurious causation: confounders Z kunnen geen rol spelen in de samenhang tussen X en Y, omdat de waarden van Z ongecorreleerd zijn met X (kunnen wel gecorreleerd zijn met Y!). 3

Oorzakelijkheid in observatie-data Hoewel het experiment de ideale methode is om X Y vast te stellen, is het onzin te menen dat dit de enige methode zou zijn. Als al onze causale kennis op goed uitgevoerde experimenten zou berusten, zouden we maar heel weinig begrijpen van de wereld. Experimenten zijn in maatschappijwetenschappen (w.o. organisatiewetenschappen) lastig om uit te voeren; daarin zijn we overigens niet alleen, het geldt bv ook voor de meteorologie, oceanografie, sterrenkunde, en andere eerbare observatiewetenschappen 4

De drie voorwaarden voor causaliteit Om causaliteit X Y vast te stellen in observatiedata, moet je drie dingen weten: Geen reversed causation: Y moet op X volgen (causale volgorde). Geen spurious causation: X moet met Y samenhangen, als je confounders Z constant houdt. Correlatie: samenhang tussen X en Y. Maar wat in het experiment gemakkelijk is uit te voeren, is in observatiestudies lastig. 5

Causale volgorde: een noodzakelijke voorwaarde voor causaliteit Causale volgorde tussen X en Y kan volgen uit je design: Paneldesign: je meet X op t1, Y op t2. Retrospectief: je vraagt de respondent X te rapporteren over een eerdere situatie. Theorie: je beargumenteert dat X in de tijd voorafgaat aan Y (bv. op basis van de levensloop). Causale volgorde per assumptie: Algemene kenmerken veroorzaken specifieke kenmerken, niet andersom. Stabiele kenmerken veroorzaken veranderlijke kenmerken, niet andersom. Contextuele kenmerken veroorzaken individuele kenmerken, niet andersom. 6

Confounders (Z): nog een noodzakelijke voorwaarde Confounders zijn variabelen: die voorafgaan aan X (en dus ook aan Y), en van invloed (kunnen) zijn op zowel X als Y (als Z op een van beiden niet van invloed is, is er geen sprake van spurious causation). (Vaak worden confounders ook controle-variabelen genoemd.) De invloed van Z op X en Y kan tegengesteld van teken zijn; in dat geval spreken van een suppressie-effect : de relatie X wordt sterker als we Z constant houden. Er is sprake van causaliteit wanneer de werking van alle mogelijke confounders is uitgesloten. 7

Confounders in experimenteel en observatie-onderzoek In experimentele design hebben confounders geen werking, omdat ze constant zijn tussen waarden van X. Dit geldt voor alle mogelijke confounders. In observatie-onderzoek moeten we confounders meten en constant houden via statistische analyse. Een kwetsbaar punt van observatie-onderzoek is dus dat we nooit echt kunnen weten alle werkzame confounders te hebben opgespoord. 8

Constant houden via tabellen Je kunt een variabele Z constant houden door de relatie X Y te bekijken binnen subgroepen van Z. Als Z van invloed is op zowel X als Y, zal de relatie X Y in de subgroepen van Z zwakker zijn dan over-all. Er is sprake van volledige confounding (spuriousness) wanneer er in de subtabellen van Z geen relatie X Y meer over is. 9

Constanthouden via regressie-analyse De meer algemeen bruikbare statistische techniek om variabelen constant te houden ( te controleren ) is het multipele regressiemodel: Y = B0 + B1*X + B2*Z Deze methode werkt namelijk ook: Wanneer Z niet in groepen uiteenvalt, doordat Z continue is, of veel groepen kent. Wanneer er niet één Z is, maar meerdere Z- variabelen. Dat zijn beide heel belangrijke voordelen. 10

Omvang van het schijneffect Er is een eenvoudige regel om de omvang van een schijneffect uit te rekenen: Correlatie = totaal effect + schijneffect Schijneffect = (Z X) *(Z Y) Oftewel: r(x,y) = (X Y) + (Z X) *(Z Y), waarbij de beta-coefficienten in een regressiemodel zijn. Deze berekeningen worden doorgaans gemaakt met correlaties en gestandaardiseerde effecten (beta), maar ze werken ook met covariantie en ongestandaardiseerde effecten (B). 11

Een voorbeeld UREN WERK 0.472 INKOMEN 12

Een voorbeeld SEKSE -0.176-0.534 UREN WERK 0.377 INKOMEN 13

SPSS-demonstratie: hoe doe je het Zie aparte handout met spss syntax en tabellen. Je kunt zowel naar gestandaardiseerde als ingestandaardiseerde slopes kijken. De intercepten zijn niet van groot belang voor deze analyse. 14

SPSS-demonstatie: hoe doet regressie dat? (niet behandeld) Je kunt de coefficienten van multiple regressies ook als volgt verkrijgen via enkelvoudige regressie: Bereken effect van Z op X bereken het residu Bereken effect van X op Y bereken het residu. Bereken het effect van het eerste residu op het tweede. Dit geeft een interpretatie van de B s in een multipele regressiemodel: de invloed van het stukje X dat niet beinvloed wordt door Z op het stukje Y dat niet beinvloed wordt door Z. 15

Indirecte effecten (mediatie) Mediatie treedt op wanneer we kunnen laten zien dat de relatie X Y verloopt via een of meerdere mediator-variabelen M: X M Y. Een mediator-variabele staat in de causale volgorde tussen X en Y. we noemen ze ook wel: intervenierende variabelen. M variabelen verklaren hoe (via welk mechanisme) X tot Y leidt. Ook bij volledige mediatie betekent mediatie niet dat X Y schijn is of niet bestaat. Dit is een belangrijk verschil met confounding. Bij (multipele) mediatie-analyse zijn we vaak geinteresseerd in de omvang van de mediatie. 16

Omvang van mediatie Ook voor mediatie geldt dat we de omvang kunnen berekenen via vermenigvuldiging van de betrokken regressie-coefficienten. We doen dit doorgaans met de gestandaardiseerde beta s. Bij mediatie is deze berekening wat interessanter dan bij confounding. Correlatie = (schijneffecten +) direct effect + indirect effecten. r(x,y) = confounding + (X Y) + (X M)*(M Y). Een betere naam voor het directe effect X Y zou zijn residueel effect of onverklaard effect. 17

Een voorbeeld SEKSE -0.378 INKOMEN 18

Een voorbeeld SEKSE -0.176-0.534 UREN WERK 0.377 INKOMEN 19

SPSS demonstratie: hoe doe je het? Ook mediatie-analyse gaat het gemakkelijkst via stapsgewijze multipele regressie: Begin bij het totale effect. Voeg mediatoren een voor een toe. Mate van mediatie lees je af aan het overblijvende residuele effect. Voor berekening van de omvang van mediatie moet je ook het effect X M in een aparte regressie-analyse berekenen. 20

Significantie van mediatie Uit de berekening van de omvang van een direct effect volgt niet of de mediatie statistisch significant is. Voor de berekening van deze significantie moeten we een beroep die op speciale formules: de Sobel-test: http://quantpsy.org/sobel/sobel.htm. Vuistregel: elk van de betrokken deel-effecten dient ruim statistisch significant te zijn (t > 2.2.). 21

Confounding en mediatie Vanuit het regressiemodel lijken confounding en mediatie sprekend op elkaar. Of er spraken is van confounding of mediatie, kun je niet aan de hand van de resultaten zien; het berust op de veronderstellingen over de plaats van de controlevariabelen in de causale volgorde: Voor X Y: confounder Tussen X en Y: mediator. 22

Bloksgewijze regressie In de praktijk van onderzoek wordt causale analyse via bloksgewijze regressie uitgevoerd. Laat eerst X Y bivariaat zien. Dan confounders Z constant houden, daarna mediatoren M constant houden. De concentratie is dus eerst op het totale en vervolgens op het residuele effect. De omvang (en significantie) van confounding en medierende effecten krijgen vaak (te) weinig aandacht. 23