Onderzoeksmethoden II: structurele vergelijkingsmodellen deel 1

Vergelijkbare documenten
Toegepaste data-analyse: sessie 3

11. Multipele Regressie en Correlatie

Oefeningenreeks 4: SEM mediatie en moderatie

20. Multilevel lineaire modellen

9. Lineaire Regressie en Correlatie

Structural Equation Modeling

1. Reductie van error variantie en dus verhogen van power op F-test

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

College 2 Enkelvoudige Lineaire Regressie

Samenvatting Nederlands

HOOFDSTUK VII REGRESSIE ANALYSE

6 De relatie tussen de intentie tot exploratie, binding en delinquent gedrag

Classification - Prediction

Hoofdstuk 10: Regressie

Kwantitatieve modellen. Harry B.G. Ganzeboom 18 april 2016 College 1: Meetkwaliteit

Causale modellen: Confounding en mediatie. Harry Ganzeboom Kwantitatieve Methoden voor PMC-BCO College 2: 25 april 2016

Hoofdstuk 8: Multipele regressie Vragen

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Onderzoeksmethoden II: structurele vergelijkingsmodellen deel 3

Analyse van confounders en mediatoren. Cursus Bachelor Project 2 B&O College 3 Harry B.G. Ganzeboom

College 3 Meervoudige Lineaire Regressie

Hoofdstuk 5 Een populatie: parametrische toetsen

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

Structural Equation Modeling in Stata, R en Mplus

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

2.3 Examenopdracht Bespreking Deel 1 - Gegevens voorbereiden. Analyse oefeningen en programmeertechnieken 7 / 22

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Dit jaar gaan we MULTIVARIAAT TOETSEN. Bijvoorbeeld: We willen zien of de scores op taal en rekenen van kinderen afwijken in de populatie.

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Oplossingen hoofdstuk XI

DATA-ANALYSEPLAN (20/6/2005)

mlw stroom 2.1: Statistisch modelleren

(slope in het Engels) en het snijpunt met de y-as, b 0

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

Feedback examen Statistiek II Juni 2011

Toegepaste data-analyse: oefensessie 2

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

Gegevensverwerving en verwerking

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Voorbeeld regressie-analyse

Data analyse Inleiding statistiek

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

Samenvatting. Inleiding

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

Statistiek II. Sessie 5. Feedback Deel 5

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Examen Statistiek I Feedback

Hertentamen Biostatistiek 3 / Biomedische wiskunde

Praktijkbundel Amos 6.0 in de praktijk

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

Voorbeeldtentamen Statistiek voor Psychologie

College 6 Eenweg Variantie-Analyse

VU University Amsterdam 2018, Maart 27

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Met testscores bepalen we de kwaliteit van bepaalde items. De eisen voor kwaliteit zijn van groot belang voor psychologische testen.

Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Les 2: Toetsen van één gemiddelde

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Hoofdstuk 12: Eenweg ANOVA

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3

MULTIPELE IMPUTATIE IN VOGELVLUCHT

Les 1: de normale distributie

Examen G0N34 Statistiek

statviewtoetsen 18/12/ Statview toets, 2K WE, 30 mei Fitness-campagne Dominantie bij muizen... 4

SPSS. Statistiek : SPSS

Statistiek II. Sessie 4. Feedback Deel 4

beoordelingskader zorgvraagzwaarte

Item-responstheorie (IRT)

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

Statistiek voor A.I.

Hoofdstuk 5: Steekproevendistributies

Tentamen Biostatistiek 3 / Biomedische wiskunde

11. Meerdere gemiddelden vergelijken, ANOVA

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Psychometrie werkgroep: De antwoorden

Examen G0N34 Statistiek

Missing Data: Multipele Imputatie

Les 5: Analysis of variance

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

3de bach TEW KBM. Theorie. uickprinter Koningstraat Antwerpen ,00

1 Inleiding. 2 Methode en selectie

EEN STAPSGEWIJZE HANDLEIDING

4 Domein STATISTIEK - versie 1.2

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Transcriptie:

Onderzoeksmethoden II: structurele vergelijkingsmodellen deel 1 1. Overzicht Padanalyse, CFA & SEM o Padanalyse Onderscheid tussen exogene en endogene variabelen. Indirecte effecten (mediatie)! o Geobserveerde of manifeste variabelen. Univariaat regressiemodel. Exogene variabelen: x1 x4 komt geen enkele pijl toe Endogene variabelen Dubbel statuut: x5-x6 = mediatoren = mediëren. X7: uitkomstvariabele of hoofdvariabele. X1 x7 met een omweg. Voorstelling van de realiteit: hypothese van de onderzoeker. Wanneer padanalyse is uitgezet, dan alle data verzamelen (x1 x7). Model toetsen aan de data Model past. Model past niet: aanpassingen doen en nieuw model maken. Nieuwe mediërende variabelen. Confirmatorische analyse: padanalyse. Pijlen die er niet staan zijn ook belangrijk! Exploratieve analyses: model proberen bloot te leggen. Eerst model (theorie). Daarna variabelen; Welke modellen passen, welke niet? Competitie tussen modellen om eerst theorie te vinden. Fraude in de wetenschappen: Data verzamelen. Model aanpassen aan de data. Confirmatorische factoranalyse (CFA) Aantal factoren + samenhang met indicatoren ligt vast. Confirmatorisch: past dit model met de data: ja of nee? = latente variabelen proberen te meten. o Structurele vergelijkingsmodellen (SEM) Samenvloeiing van padanalyse en confirmatorische factoranalyse. Software voor SEM

o The big four 1 : LISREL (1972) EQS (1985) AMOS (1994) Mplus: meest geavanceerde pakket. (1998) o Als onderdeel van statistische pakketten: Proc calis / tcalis (1990) Sepath (1995) Ramona (1988-1990) o Niet commercieel Mx (1991) Gllamm (2002) R packages (gratis pakket): Sem (2001) Open Mx (2009) Lavaan (2010) 2. Padanalyse 2.1. Inleiding Padanalyse: analyse van structurele modellen waarbij alle variabelen geobserveerd (manifest) zijn. Een structureel model representeert de causale hypothese omtrent de patronen van direct of indirecte effecten tussen deze variabelen. Elk theoretisch construct in het model (bvb. stress, depressie, welbevinden ) wordt gemeten door 1 geobserveerde variabele, en correspondeert dus met 1 variabele in de dataset. 2.2. Voorbeeld Roth, D.L., Wiebe, D.J., Fillingim, R.B., & Shay, K.A. (1989). Life events, fitness, hardiness, and health: A simultaneous analysis of proposed stress-resistance effects. Journal of Personality and Social Psychology, 57, 136 142. o Metingen voor exercise, hardiness, fitness, stress, illness in een steekproef van 373 university studenten. Illness: mate van fysieke ziektesymptomen (laatste maand). Stress: mate van stressvolle life events (laatste maand). Fitness: self-perceived physical fitness. Exercise: current exercise activity (participatie in fysieke oefeningen). Hardiness: dispositional traits such as resiliency and willingness to look for opportunities in difficult situations o Onderzoeksvraag: direct of indirect effect van exercise/hardiness op illness? o Interpretatie figuur Exercise: oefening, sport Exogene variabele. Hardness: hoe sterk ben je mentaal gezien? Exogene variabele. Stress: stress. Mediator. Fitness: fitheid. Mediator. 1 Namen kennen en associëren met structurele vergelijkingsmodellen;

o Illness: hoe ziek voelt u zich. Uitkomstvariabele. Voorbeeld komt uit de persoonlijkheidspsychologie. Hardness direct effect op illness of is het zo dat dit eigenlijk via stress verloopt? Hardness stress illness. Enige eventuele latente variabelen zouden alle andere invloeden kunnen zijn op stress: Foutterm voor elke afhankelijke variabele: 2.3. Elementen van een padanalyse model Geobserveerde exogene variabelen: o De oorzaken van exogene variabelen worden niet verklaard binnen het model: bij een exogene variabele komt er nooit een enkele pijl toe. o Exogene variabelen mogen covarieren (correleren), doch er wordt geen antwoord gegeven op de vraag waarom deze variabelen correleren (bvb. gemeenschappelijke oorzaak, de ene veroorzaakt de andere,... ). Geobserveerde endogene variabelen: o De (veronderstelde) oorzaken van endogene variabelen maken expliciet deel uit van het model. o Padanalyse poogt een verklaring te bieden waarom endogene variabelen (al of niet) correleren met elkaar. o Bij elke endogene variabele komt er minstens een enkele pijl toe. Niet geobserveerde (latente) exogene variabelen (distrubance term): o Elke endogene variabele heeft een disturbance term: deze disturbance term representeert alle weggelaten of niet-gekende oorzaken. o De (geschatte) variantie van deze disturbance term Var(ζ1) is een maat voor de proportie niet-verklaarde variantie van de endogene variabele y1: met R² de proportie verklaarde variantie van y1 (=de determinatiecoëfficiënten op basis van de regressie van y1 op alle variabelen die een direct effect hebben op y1). R² hoog: veel verklaard goed model. 1-R²: niet verklaarde variantie = variantie disturbance = getal. (Veronderstelde) directe causale effecten: enkele pijl o De schatting van een direct effect is een pad coëfficiënt. o Analoog met regressiecoëfficiënten. o Het effect is lineair. Allemaal lineair = nadeel. o Hoe sterk zijn de padcoëfficiënten?! o Door de opeenvolging van directe effecten kunnen in een padanalyse op een natuurlijke wijze indirecte effecten worden gemodelleerd (mediatie) E representeer het direct effect van x1 op y3. Het indirect effect van x1 op y3:. Totaal effect van x1 op y3: direct + indirect : E + buitenste direct effect + binnenste direct effect In niet recursieve modellen is het mogelijk dat er direct en/of indirecte feedback lussen ontstaan: Voorbeeld directe feedback:

Voorbeeld indirecte feedback: Varianties van de exogene variabelen (zowel geobserveerde variabelen, als de latente disturbances) o worden doorgaans niet expliciet aangeduid op het paddiagram. o Covarianties tussen de exogene variabelen (dubbele pijl) o (a) tussen twee geobserveerde variabelen: o o o (b) tussen twee disturbance termen (enkel in niet-recursieve, bow-free of bow-pattern modellen, zie verder). (c)tussen een geobserveerde exogene variabele en een disturbance term (zowat nooit gebruikt). Elke variabele heeft een variantie Covariantie: exercises vs hardness (a) Standaardvariantie (5) Variantie van distrubance 2.4. Stappen om een padanalyse uit te voeren Er zijn 6 basis stappen en 2 optionele stappen: De specificatie van het model: o De door de onderzoeker vooropgestelde set van hypotheses (geen effect, direct effect, indirect effect,... ) in verband met een set van variabelen worden vertaald in een paddiagram. o Dit model bepaalt de parameters die moeten worden geschat op basis van de beschikbare data. o Wellicht de meest belangrijke stap. Identificatie o Is het (statistisch) mogelijk om unieke schattingen te bekomen voor elke parameter in het model? Zo niet, dienen we het model te herspecifieren (zie verder). o 5 variabelen = 5 kolommen met variabelen. Verzamel de data, en prepareer de data voor analyse: o Gebruik bij voorkeur de volledige dataset, of de variantie - covariantie matrix van de variabelen. De volledige dataset gaat altijd voor op de correlatie matrix. Alleen als het pakket het niet toe laat alle gegeven toe te voegen dn kan de correlatie matrix gebruikt worden. o Indien echt geen andere keus, gebruik dan de correlatie - matrix. o Indien naast de correlatie - matrix ook de standaardafwijkingen werden gerapporteerd: transformeer naar variantie - covariantie matrix. Schat het model (met behulp van een adequaat softwareprogramma). o Evalueer de fit van het model; indien niet oké, ga naar stap 5. o Interpreteer de parameter schattingen: zijn ze zinvol en in de lijn van de verwachtingen? o Bedenk of er geen alternatieve modellen mogelijk zijn die evengoed de data zouden fitten. o Ga naar stap 6. Herspecifieer het model (op basis van theoretisch gefundeerde overwegingen en ga terug naar stap 4). Rapporteer de resultaten op een adequate manier (model die goed fit). o Rapportering vaak ondermaats in de psychologische literatuur. o Zie richtlijnen. Optioneel: repliceer de resultaten met een nieuwe steekproef. Optioneel: gebruik het model om bijvoorbeeld uitkomstvariabelen te voorspellen.

2.5. Padanalyse en correlaties De input voor een pad - analyse is vaak een variantie - covariantie matrix van de variabelen die het model worden betrokken. Het doel van padanalyse is om te verklaren waarom twee variabelen X en Y (en zo ook voor alle andere geobserveerde variabelen) al of niet covariëren (correleren!). Voorbeeld: geobserveerde correlatie matrix Roth et.al (1989). o Paddiagram één van de vele mogelijkheden om te verklaren hoe variabelen samenhangen. Waarom observeren we correlaties tussen twee variabelen? o Er zijn verschillende redenen waarom X en y mogelijks correleren: Er is sprake van een (veronderstelde) causale relatie: Unidirectionele effecten. Feedback loops. Er is sprake van een (veronderstelde) niet causale relatie: Niet geanalyseerde correlaties. Spurieuze correlaties. X en y: correleren: hoe kan dit? = 0,50 Invloed van de ene waarde op e andere Correleren niet Kan ons niet schelen, is gewoon zo. Valse correlatie: deze correlatie bloot leggen via padanalyse. Noot: soms is er geen (bivariate) geobserveerde correlatie tussen X en Y omwille van suppressie: een of meerdere variabelen mediëren de relatie tussen X en Y en onderdrukken het verband. Geen correlatie terwijl er wel een correlatie is = suppressie: correlatie wordt onderdrukt door het mechanisme. o Unidirectionele effecten: Er een direct (causaal) effect van X naar Y (of omgekeerd). Er is een indirect (causaal) effect van X naar Y via een of meerdere mediërende variabelen (of omgekeerd). o Feedback loops Er is directe feedback tussen X en Y. Er is indirecte feedback tussen X en Y via e en of meerdere mediërende variabelen o Niet geanalyseerde correlaties: Het is niet gekend waarom twee variabelen covariëren. Drie mogelijkheden: Correlatie tussen de twee exogene geobserveerde variabelen. Correlatie tussen twee (exogene latente) disturbance termen. Dit noemt men een disturbance correlatie (of covariantie). Dit reflecteert de assumptie dat er een gemeenschappelijke (doch onbekende) gemeenschappelijke oorzaak is die verklaart waarom de disturbance termen correleren. Problematisch (want wijst doorgaans op een deficit in de theorie). correlatie tussen een exogene geobserveerde variabele en een disturbance term

o niet gebruikelijk wegens inhoudelijk moeilijk te interpreteren: dit zou impliceren dat er een onbekende gemeenschappelijke oorzaak zou zijn voor deze correlatie. Spurieuze correlaties Spurieuze correlaties worden in een padanalyse model gerepresenteerd door een gemeenschappelijke oorzaak te veronderstellen. Doorgaans is er slechts 1 gemeenschappelijke oorzaak, doch er kunnen er ook meerdere zijn. Voorbeeld waarbij de volledige correlatie tussen Y1 en Y2 als spurieus wordt beschouwd: Bijvoorbeeld: Verdwijnen kerkuilen (y1). Afnemen kerkgangers (y2). Relatie met elkaar? Nee! Wel beïnvloed door de tijd (x1). Tweede voorbeeld: Hoeveelheid calorieën die je eet (y1). Lichaamsgewicht bepaald (y2). Maar causaal verband (klopt niet). X1: lichaamslengte bijvoorbeeld zorgt ervoor dat dit een spurieus verband wordt. Wetenschappelijke reflectie op dit soort modellen is zeer belangrijk! Komt elke dag voor! Voorbeeld waarbij een deel van de correlatie tussen Y1 en Y2 als spurieus wordt beschouwd; het direct effect van Y1 op Y2 wordt uitgezuiverd (gecontroleerd) voor dit gemeenschappelijk effect: Genuanceerd verhaal! Sterk gezuiverd door variabelen. Zonder x was vorig voorbeeld. Met x gezuiverd. Heel ander verhaal. 2.6. Padanalyse en causaliteit Padanalyse (en aanverwante methodes) voor de analyse van causale modellen kunnen nooit causaliteit bewijzen. Ze kunnen hoogstens ondersteuning bieden voor de causale verbanden die door een onderzoeker vooropgesteld worden; of falsifiëren. Wat is er idealiter nodig om vast te stellen dat er een causaal effect is van X op Y? o De oorzaak (X) gaat het gevolg (Y ) vooraf in de tijd: Confirmatie/falsificatie enkel mogelijk met longitudinale studies. Longitudinale studies zijn niet zonder problemen (bvb. uitval van subjecten, lange duurtijd, hoge kost). o De richting van het effect is correct gepreciseerd (X veroorzaakt Y, niet omgekeerd) De onderzoeker moet beschikken over sterke theoretische argumenten om te stellen dat X een effect heeft op Y en niet omgekeerd (indien ze op hetzelfde moment werden gemeten). o De relatie tussen X en Y verdwijnt niet indien men rekening houdt met andere relevante variabelen; kortom, de relatie is niet spurieus. Padanalyse kan hierbij een belangrijke rol spelen. Het is aan de onderzoeker om grondig na te denken over welke variabelen eventueel een rol kunnen spelen (en dus in het model moeten worden betrokken). o Vermoedde causaliteit

o Ondersteunen Weerleggen Bewijzen dat gaat nooit. Data van experimentele dingen kan nooit alle bewijzen geven alleen ondersteunen. 2.7. Specificatieprobleem en meetfout Net zoals bij lineaire modellen moet men bij padmodellen rekening houden met: o Het specificatieprobleem: Het weglaten van cruciale variabelen in een model kan leiden tot (ernstig) vertekende schattingen van de parameters in het model, en dus verkeerde conclusies omtrent de vermeende causale relaties. Vaak gaat het om onder - estimatie van relaties (eerder dan over - estimatie) van de causale effecten. o De meetfout: In het bijzonder voor de exogene variabelen. Elk construct wordt gemeten door (slechts) 1 geobserveerde variabele. Het is van belang dat enkel variabelen worden gebruikt met goede psychometrische kenmerken (bvb. betrouwbaarheid). Meetfout kan leiden tot vertekende schattingen van de parameters. o Opletten met goed passend model want er kan altijd heel ander model zijn die er even goed of beter bij past. o Specificatieprobleem: belangrijke variabele vergeten. o Meetfout: ruwe manier van meten. Ruis op alle variabelen = nadelig effect op de uitkomsten. Voorzichtigheid! 2.8. Vrije parameters, datapunten en vrijheidsgraden De vrije parameters in een padanalyse model: o De padcoefficiënten van de directe effecten. o De varianties van de disturbance termen. o De covarianties tussen de disturbance termen (zeldzaam). o Optioneel: de varianties van de geobserveerde exogene variabelen. o Optioneel: de covarianties tussen de geobserveerde exogene variabelen. 2 Noot: wat betreft de (co)varianties van de exogene variabelen zijn er twee tradities: Fixed.x=TRUE : ze worden niet beschouwd als vrije parameters; we nemen gewoon de geobserveerde variantie/covariantie waarden over; deze geobserveerde (co)varianties worden eveneens niet meegerekend als datapunten. Fixed.x=FALSE : ze worden wel beschouwd als vrije parameters o Hoe meer data hoe meer datapunten. p =5 1 2 3 4 5 1 1 2 1 3 1 4 1 5 1 Hoe meer pijlen, hoe meer schatten. Zuinig model oprichten! Zo weinig mogelijk pijlen! Veel pijlen Gesatureerd model. 2 Klassieker op het examen!!!

Past perfect bij de data. Genoeg pijlen toevoegen. Tellen van de vrije parameters in vergelijking met datapunten. DF: vrijheidsgraden = 0 dan gesatureerd model (niet goed of niet slecht). Ideaal is DF 0. Het aantal datapunten in een padanalyse model o In een padanalyse berekent men het aantal datapunten op basis van het aantal (niet - redundante) elementen in de covariantie - matrix van de variabelen. o Indien er p geobserveerde variabelen in het model worden betrokken zijn er p varianties, en covarianties, of samen elementen. Het aantal datapunten blijft gelijk indien er meer observaties (subjecten) worden toegevoegd aan de dataset. Het aantal parameters van een model kan niet groter zijn dan het aantal datapunten waarop de analyse wordt uitgevoerd: het model is niet geïdentificeerd. In de fixed.x=true benadering worden de (co)varianties van de exogene variabelen niet meegerekend als datapunten; indien er q exogene variabelen zijn, zijn er slechts datapunten. In speciale gevallen worden ook de means (gemiddelden) van de geobserveerde variabelen in rekening gebracht (bvb: multiple group analyse). Vrijheidsgraden o Jet verschil tussen het aantal datapunten en het aantal vrije parameters in het model noemt men de vrijheidsgraden [Engels: degrees of freedom (df)]. o Indien het aantal parameters exact gelijk is aan het aantal datapunten, is het model gesatureerd (net geïdentificeerd), en zal de fit van het model perfect zijn; niettemin blijft de interpretatie van de parameters zinvol. o Indien er minder parameters zijn, is het model niet - gesatureerd (of nog: over - geïdentificeerd; in dit geval is het mogelijk (en noodzakelijk) de globale fit van het model te toetsen. o De kunst van padanalyse is om met zo weinig mogelijk vrije parameters (model is zo zuinig mogelijk) toch een goede (globale) fit te bekomen. Voorbeeld: aantal parameter en aantal datapunten o Manier 1: Aantal enkele pijlen: 9 (9 parameters en 9 regressiecoëfficiënten). Variaties (5 variaties = evenveel als er parameters zijn). Covarianties (tussen elk paar van exogene variabelen) =1. De som 9 + 5 + 1 = 15. En 15 15 =0 = DF. o Manier 2 9 parameters. Varianties 3 want geen exogene (3 varianties. Covarianties niet want exogene variabelen tellen niet mee. Maar exogene variabelen mogen ook niet mee tellen inhet model! Q = 2 = exogene variabelen. 12 12 = 0 = DF Voorbeeld: aantal parameters en aantal datapunten (fixed.x = FALSE)

o Aantal parameters: 15 9 padcoëfficiënten. Exogene variabelen: 2 varianties en 1 covariantie. 3 disturbances (residuele varianties). o Aantal datapunten: p = 5 dus. o Het model is volledig gesatureerd (df=0). Voorbeeld aantal parameters en aantal datapunten (fixed.x = TRUE) o Aantal parameters: 12 9 padcoëfficiënten. 3 disturbances (residuele varianties). o Aantal datapunten: p = 5 en q = 2 dus Vrije gefixeerde en gebonden parameters o Vrije parameters 3 : kunnen vrij geschat worden op basis van de dataset (let wel: varianties moeten in principe positief zijn). o Gefixeerde parameters 4 [Engels: fixed parameters]: de waarde van de parameter is gefixeerd op een constante (typisch 1 of 0). Het fixeren van padcoefficiënten op nul correspondeert vaak met zinvolle theoretische hypotheses (bvb. er is geen direct verband tussen de variabelen X en Y ). Indien het model de data slecht fit, kan dit mogelijks te verklaren zijn omdat een parameter ten onrechte op nul werd gefixeerde (i.e. een direct effect werd verkeerdelijk niet gepreciseerd in het model). o Gebonden parameters [Engels: constrained parameters] 5 : de waarde van de parameters kan vrij geschat worden onder bepaalde restricties: Gelijkheidsrestrictie: twee (of meerdere parameters) worden geforceerd om dezelfde waarde aan te nemen (bvb. bij multiple- group padanalyse: het effect van X op Y is gelijk bij mannen en vrouwen). Proportionele restrictie: de waarde van een parameter moet een proportie (bvb. de helft) of een factor (bvb. twee keer zo groot) zijn van een andere parameter. Niet-lineaire restrictie: de ene parameter is een niet-lineaire functie (bvb. de vierkantswortel) van een andere parameter. Ongelijkheidrestrictie: de waarde van een parameter moet groter zijn dan een vooropgestelde waarde (bvb. > 5.0). 2.9. Verschillende types van padmodellen Recursieve modellen o Alle causale effecten zijn unidirectioneel (geen feedback loops). o Geen correlaties tussen de disturbance termen. o Voorbeeld: Niet recursieve modellen o Feedback loops zijn toegelaten. o Correlaties tussen de disturbance termen zijn mogelijk. o Voorbeeld: 3 Parameters die geschat worden in het model. 4 Parameters die niet mee gerekend worden in het model. 5 2 regressiecoëfficiënten moeten gelijk zijn, maar 1 vrij andere niet, maar 1 laten mee tellen!!

Bow Free modellen (optioneel) o Correlaties tussen de disturbance termen zijn mogelijk; doch geen direct effect tussen de bijhorende endogene variabelen (y1 en y2). o Wordt beschouwd als (partieel) recursief. o Voorbeeld: Bow Pattern modellen (optioneel) o Correlaties tussen de disturbance termen zijn mogelijk met een direct effect tussen de bijhorende endogene variabelen. o Wordt beschouwd als (partieel) niet recursief. o Voorbeeld: Recursief versus non recursief o De analyse van recursieve modellen kan worden uitgevoerd aan de hand van een reeks van multiple lineaire regressie analyses: 1 regressie voor elke endogene variabele. o Causale effecten die niet unidirectioneel zijn (bvb. feedback loops) kunnen niet worden gerepresenteerd in recursieve modellen. o Niet-recursieve modellen worden ten onrechte zelden gebruikt in de sociale wetenschappen (uitzondering: economie!), mogelijks om SEM software te vermijden. 2.10. Model identificatie Een (pad)model is geïdentificeerd indien het (theoretisch) mogelijk is om een unieke waarde te berekenen voor elke parameter van het model op basis van de data: o Onafhankelijk van de steekproefgrootte. o Eigenschap van het model, niet de data. Twee minimum vereisten voor de identificatie van een structureel vergelijkingsmodel (inclusief padmodellen): o Minstens evenveel datapunten (i.e. elementen in de variantie - covariantie matrix) als vrije parameters (df 0). o De schaal (metriek) van elke latente variabele ligt vast. Recursieve padmodellen zijn altijd geïdentificeerd (tenzij er problemen rijzen zoals bvb. multicollineariteit). o Er kunnen niet meer parameters zijn dan datapunten. o De schaal van de latente variabelen (i.e. disturbance termen) wordt vastgelegd door het (niet-gestandaardiseerde) padcoëfficiënt te fixeren op 1.0. Niet-recursieve modellen kunnen niet- geïdentificeerd zijn zelfs indien aan de twee minimum vereisten wordt voldaan. Indien een model niet- geïdentificeerd is, moeten we het herspecifieren: o Restrictie van parameters (bvb. padcoëfficiënten op nul fixeren). o Exogene variabelen toevoegen (kan enkel vooraleer de data wordt verzameld!).

2.11. Het schatten van de parameters: via lineaire regressie Enkel voor recursieve modellen. Omslachtig, doch kan worden uitgevoerd met standaard software (SPSS, SAS, R, ) De analyse komt neer op een serie van multiple regressie analyses: o Telkens een endogene variabele als afhankelijke variabele. o Alle variabelen die een direct effect hebben op deze endogene variabele beschouwen we als predictoren. o De bekomen regressiecoëfficiënten zijn meteen de padcoëfficiënten. o De schatting van de error -variantie ( ) is meteen een schatting van de disturbance varianties voor deze endogene variabele. 2.12. Het schatten van de parameters: via SEM software Zowel recursieve als niet-recursieve modellen. De meest courante schattingsmethode: maximum likelihood estimation o Voor gesatureerde recursieve modellen: exact dezelfde parameterschattingen als met multiple regressie methode. o Voor niet -gesatureerde recursieve modellen: zeer gelijkaardige (doch niet identieke) parameterschattingen als met multiple regressie methode. o Assumptie: endogene variabelen multivariaat normaal verdeeld. o Alle parameters worden tezelfdertijd geschat (nadeel: indien het model verkeerd werd gepreciseerd heeft dit een impact op de schattingen van alle parameters) o De schatting is iteratief: start met initiële waarden die na elke iteratie worden geüpdatet. o Vertrekt van de variantie - covariantie matrix (en niet de correlatie matrix). o Analyse van correlatie- matrices is problematisch: het berekenen van de standaardfouten voor de parameterschattingen is hier niet evident. Het gebruik van SEM software biedt bijzonder veel voordelen: o Indirecte en totale effecten kunnen (doorgaans) automatisch worden berekend, inclusief (gebootstrapte) confidentie intervallen voor deze effecten. o Verscheidene goodness- of- fit indices worden gerapporteerd ter evaluatie van de algemene fit van het model. o Niet-recursieve modellen geen probleem. o... Voorbeeld: Roth et al. (1989) o Hypotheses die we wensen te toetsen: Het effect van exercise op illness is indirect, en enkel gemedieerd door fitness. Het effect van hardiness op illness is indirect, en enkel gemedieerd door stress. Er is geen direct effect van fitness op stress. o Strategie: we gaan een padmodel toetsen die alle veronderstelde directe effecten (volle pijlen) en tevens de niet-veronderstelde (gestreepte pijlen) bevat Dit model is gesatureerd. De (directe of indirecte) effecten waarvan men veronderstelt dat ze gelijk zijn aan nul mogen niet significant zijn. De overige paden dienen wel significant te zijn. o Voorbeeld: uivoering met lavaan

o Output lavaan Resultaten o De resultaten bevestigen (bijna) alle hypotheses in verband met de veronderstelde en niet-veronderstelde directe effecten; enige uitzondering: een niet- significant (p = 0.046) effect voor fitness stress o Indirecte effect = product directe effecten: Bvb. tussen exercise en illness: 0.217 0.442 = 0.096 Is dit indirect effect significant? voor indirecte effecten met e en mediator kunnen we Sobel s test uitvoeren (zie OMI) Beter: bootstrap methode om standaardfouten (en dus p-waarde) te berekenen voor deze indirecte effecten Indirecte effecten: lavaan input

Lavaan output (sobel test) Lavaan output (bootstrap) 2.13. Het model geïmpliceerde covariantie matrix Eenmaal de parameters werden geschat kan men op basis van het paddiagram de bivariate covarianties/correlaties proberen te reconstrueren. De zo bekomen covarianties/correlaties noemt men model -geïmpliceerde covarianties/correlaties. In een gesatureerd model corresponderen deze exact met de geobserveerde covarianties/correlaties; in een niet -gesatureerd model is er vaak een (hopelijk zo kleine mogelijke) discrepantie tussen de voorspelde en geobserveerde covarianties/correlaties (=residuals). Dit verschil kan dienen als een maat van model fit. Voor niet-recursieve modellen laten we de berekening over aan SEM software. Voor recursieve modellen kunnen we deze eventueel manueel berekenen op basis van de padcoëfficiënten. Lavaan: model geïmpliceerde covariantiematrix + residuals

Model zonder directe effecten en niet significante paden Lavaan output Lavaan: model geïmpliceerde covarantiematrix + residuals

2.14. Model fitmaten In principe is de interpretatie van parameters slechts zinvol indien het (pad)model de data adequaat fit. SEM software rapporteert doorgaans een waaier van fitmaten o De chi - kwadraat toets (mag in principe niet significant zijn, doch zeer gevoelig aan de steekproefgrootte). o Incrementele maten zoals de CFI en de TLI (vergelijken een volledig model met een basismodel alwaar er geen enkele correlatie wordt verondersteld tussen de variabelen) (vuistregel: groter dan 0.90 of 0.95). o Overige maten: RMSEA, SRMR,... (vuistregel: kleiner dan 0.05 of 0.06). 2.15. En verder Vergelijken van geneste modellen. Vergelijken van niet geneste modellen (laagste AIC of BIC). Equivalente modellen. Herspecificatie van het model (modifiation indices). Power analyse. Padanalyse met latente variabelen = SEM! Multiple group padanalyse. Padanalyse met categorische (bvb. binaire) endogene variabelen. Multilevel padanalyse.