Toegepaste data-analyse: oefensessie 2

Vergelijkbare documenten
mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

Dit jaar gaan we MULTIVARIAAT TOETSEN. Bijvoorbeeld: We willen zien of de scores op taal en rekenen van kinderen afwijken in de populatie.

Toegepaste data-analyse: sessie 3

20. Multilevel lineaire modellen

11. Multipele Regressie en Correlatie

HOOFDSTUK VII REGRESSIE ANALYSE

MLW -- Toets stroomblok 2.2: Epidemiologie en Biostatistiek

9. Lineaire Regressie en Correlatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Hoofdstuk 10: Regressie

mlw stroom 2.1: Statistisch modelleren

Oplossingen hoofdstuk XI

College 2 Enkelvoudige Lineaire Regressie

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

1. Reductie van error variantie en dus verhogen van power op F-test

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Voorbeeld regressie-analyse

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

Hoofdstuk 5 Een populatie: parametrische toetsen

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Feedback examen Statistiek II Juni 2011

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

Classification - Prediction

Data analyse Inleiding statistiek

M M M M M M M M M M M M M M La La La La La La La Mid Mid Mid Mid Mid Mid Mid

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

Meervoudige variantieanalyse

Toegepaste Statistiek, Dag 7 1

College 3 Meervoudige Lineaire Regressie

Statistiek II. Sessie 4. Feedback Deel 4

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari uur

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Het ANCOVA model is een vorm van het general linear model (GLM), en kan als volgt geschreven worden qua populatie parameters:

Examen G0N34 Statistiek

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

Oefenvragen bij Statistics for Business and Economics van Newbold

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

Statistiek ( ) eindtentamen

2DM71: Eindtoets Biostatistiek, op dinsdag 20 Januari 2015,

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

10. Moderatie, mediatie en nog meer regressie

TYPE EXAMENVRAGEN VOOR TOEGEPASTE STATISTIEK

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie?

Samenvatting Nederlands

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

Statistiek II. Sessie 5. Feedback Deel 5

SPSS. Statistiek : SPSS

Kansrekening en Statistiek

Les 1: Waarschijnlijkheidrekening

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Bestaat er een betekenisvol verband tussen het geslacht en het voorkomen van dyslexie? Gebruik de Chi-kwadraattoets voor kruistabellen.

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

College 6 Eenweg Variantie-Analyse

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

Opgave 1: (zowel 2DM40 als 2S390)

Gegevensverwerving en verwerking

(slope in het Engels) en het snijpunt met de y-as, b 0

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 10 april uur

Examen G0N34 Statistiek

Hoofdstuk 2: Verbanden

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, uur

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

Examenvragen KBM (herexamen)

Hierbij is het steekproefgemiddelde x_gemiddeld= en de steekproefstandaardafwijking

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

Moderatie-analyse met continue moderator (wijzigingen in rood) Cursus Bachelor Project 2 B&O College 5 Harry B.G. Ganzeboom

Vergelijken van twee groepen (SPSS)

werkcollege 6 - D&P9: Estimation Using a Single Sample

College 7 Tweeweg Variantie-Analyse

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Hoofdstuk 6 Twee populaties: parametrische toetsen

Tentamen Biostatistiek 2 voor BMT (2DM50), op dinsdag 5 april uur

De interpretatie van interactieeffecten in regressiemodellen. Jan Pickery

8. Analyseren van samenhang tussen categorische variabelen

Eindtoets Toegepaste Biostatistiek

Transcriptie:

Toegepaste data-analyse: oefensessie 2 Depressie 1. Beschrijf de clustering van de dataset en geef aan op welk niveau de verschillende variabelen behoren Je moet weten hoe de data geclusterd zijn om uit te maken wat je fixed effects zijn. Als het gaat over patiënten en instellingen, kan je bvb zeggen dat de patiënten (level 1) geclusterd zijn in de instellingen (level 2). Hier zijn de meetmomenten geclusterd binnen de individuen. Meetmoment = level 1. Subject = level 2. Waarom is het subject bijvoorbeeld niet geclusterd binnen dosis? Dosis is hier het fixed effect. We willen net het effect van dosis willen zien. Het is niet random, want als we de studie opnieuw zouden willen doen, zullen we de dosissen niet veranderen. We zullen wss wel andere subjecten hebben, maar we zouden nog steeds het effect van dezelfde dosissen zoeken. Hetzelfde geldt voor leeftijd: hiervan zoeken we ook het effect. Leeftijd en dosis zijn variabelen op subjectniveau en horen dus op level 2. Stel dat we een verschillende dosis zouden geven op verschillende meetmomenten, dan zou dosis een level 1 variabele zijn. Maar hier gaat het om dezelfde dosis over verschillende meetmomenten. Hetzelfde geldt voor leeftijd. Moest het over een longitudinale studie gaan, dan zou leeftijd niet samenhangen met het subject, maar met het meetmoment. In dat geval zou leeftijd een level 1 variabelen zijn. Stel dat er nog een variabele zou bijkomen zoals de eiwitwaarden in het bloed, zou dit een variabele zijn die samen hangt met het meetmoment. Dit zou dus een level 1 variabele zijn. 2. Fit een model met dosis, moment en hun interactie als fixed effects en een random intercept voor alle individuen. Beschouw hierbij moment als factor. Wat kan je besluiten? Bereken tevens de ICC. We werken hier met een hiërarchisch model. Meetmomenten zijn geclusterd in de subjecten. Bij Subjects moeten we altijd het hoogste niveau noteren. In dit geval is dit dus SubjectID. Repeated vul je enkel in bij een marginaal model.

Nadat je op Continue hebt gedrukt, kom je op dit scherm. Bij Fixed kan je het model gaan specifiëren. Include intercept gaat over het fixed intercept. Dit zal bij mixed effects altijd zo zijn (itt. bij APIM, maar dit zien we later nog). Nadat je op Continue hebt gedrukt, ga je ook de random effects specifiëren door op Random te klikken.

Door Include intercept aan te vinken, geven we aan dat ons intercept random (bi) is. We hebben niets anders dan een random intercept, dus we moeten ook niets anders specifiëren. We geven ook SubjectID in bij combinations, want we gaan voor de verschillende subjecten random intercept schatten.

Wat is de verwachte depressiemaat voor - Iemand met dosis 3 op meetmoment 3? 8.80 - Iemand met dosis 1 op meetmoment 3? 8.80 + 13,066 = 21,866 - Iemand met dosis 1 op meetmoment 1? 8.80 + 13,066 + 7,733 8,066 = 21,533 Type III Tests of Fixed Effects a Source Numerator df Denominator df F Sig. Intercept 1 42 960,290,000 dosis 2 42 30,184,000 moment 2 84 9,697,000 dosis * moment 4 84 3,059,021 a. Dependent Variable: De depressiemaat. Dit komt exact overeen met de repeated measures vanuit de vorige oefensessie.

Estimates of Covariance Parameters a Parameter Estimate Std. Error Residual 27,212698 4,199011 Intercept [subject = subject] Variance 2,463492 2,880003 a. Dependent Variable: De depressiemaat. Variantie van het subject = onderaan Residuele variantie = bovenaan ICC = 2,46 / (27,21 + 2,46) = 0,082 Opmerking: Het is hier wel een beetje vreemd dat we de meetmomenten als factor hebben beschouwd. De H0 luidt dan m1 = m2 = m3. Ha = minstens 1 verschillend. Als we dit op deze manier toetsen, houden we er geen rekening mee dat meetmoment 1 voor meetmoment 2 komt en 2 voor 3. Het zou bovendien veel interessanter zijn om van meetmoment een lineair effect te maken. Dit betekent dat we meetmoment als covariaat gaan opnemen. 3. Fit vervolgens hetzelfde model, maar nu met moment als covariaat. Hoe verandert de interpretatie hier?

Interpretatie van het hoofdeffect. Alhoewel het hoofdeffect van dosis hier niet significant blijkt te zijn, mogen we dit toch niet eenduidig interpreteren. De significantie van de interactie-effecten toont immers aan dat het effect van meetmoment wel degelijk afhangt van de dosis die men toegediend krijgt. Je kan hier dus niet zomaar zeggen dat dosis onbelangrijk is geworden. Interpretatie van de parameterschatting voor moment : In de groep die dosis 3 toegediend krijgt (referentiegroep) zal de score op de depressiemaat per meetmoment telkens 3,866 eenheden afnemen. Wat is het effect van moment in dosis 3? -3.866 de parameter bij moment is dus geen globale schatting, maar een schatting voor de referentiegroep, met dosis 3. -3,866 = maw de helling van de geschatte rechte die de evolutie over meetmomenten weergeeft, voor mensen in de groep met dosis 3. In de groep met dosis 3 is deze rechte dus een dalende rechte met helling -3,866. Wat is het effect van moment in dosis 2? -3.866 + 0,900 = -2.966 In groep met dosis 2 gaat het om een dalende rechte die iets lichter daalt dan de rechte in dosis 3, nl. met een helling -2.966. Wat is het effect van moment in dosis 1? -3.866 + 4.033 = 0.167 In de groep met dosis 1 gaat het om een licht stijgende rechte met een helling van 0.167. Stijgt of daalt de depressie voor mensen in dosis 1 (placebo)? Effect van meetmoment = - 3.866 Interactie-effect = + 4,033 Totaal effect = 0.167 Op welk meetmoment vinden we het intercept? De intercepten voor de verschillende dosisgroepen zijn een schatting van de gemiddelde score op de depressiemaat op meetmoment 0. Dit intercept verwijst naar het snijpunt met de Y-as. Dit betekent dat we de gevonden effecten hebben geëxtrapoleerd (want we hebben de patiënten niet geobserveerd wanneer ze geen medicatie kregen). Je moet hiermee oppassen! Het is veel zinvoller om VERDER in de tijd te extrapoleren en een voorspelling te maken voor deze verschillende groepen.

ICC verandert een klein beetje, maar niet zoveel. 4. Fit vervolgens een model met random intercept en slope. Bepaal een interval waarbinnen ongeveer 95% van de intercepten en slopes in de populatie zullen liggen. Hoe zijn de intercepten en de slopes gecorreleerd? Wat betekent dit concreet? Fixed-gedeelte van het moment blijft onveranderd. Bij Random gaan we niet enkel een intercept toevoegen, maar ook een random slope. Het heeft enkel zin om voor continue variabelen op te nemen om een random slope per subject te modelleren. Hier betekent dat dat we moment gaan opnemen bij Model. Het covariantie-type is Unstructured.

De correlatie tussen de slopes en de intercepten is negatief. Dit betekent dat hoe hoger het intercept, hoe kleiner de slope zal zijn. Ook andersom: hoe lager het intercept, hoe groter de slope zal zijn. Globale schatting Individuele schattingen

Betrouwbaarheidsinterval voor de intercepten 2 [ β0 1.96. (σσ ssssssssssssss 2 ), β0 + 1.96. (σσ ssssssssssssss ) ] iiiiiiiiiiiiiiiiii iiiiiiiiiiiiiiiiii [ 19.33 1.96. (3,234), 19.33 + 1.96. (3,234) ] Betrouwbaarheidsinterval voor de slopes 2 [ β0 1.96. (σσ ssssssssssssss ssssssssss 2 ), β0 + 1.96. (σσ ssssssssssssss ) ] ssssssssss [19.33 1.96. (0.803), 19.33 + 1.96. (0.803)] Dit betrouwbaarheidsinterval gaat rond de nauwkeurigheid waarmee me de echte schatter kunnen bereiken. Het verwijs naar het échte intercept. Het betrouwbaarheidsinterval dat wij hebben opgesteld rond het intercept, gaat over het interval waarbinnen 95% van de individuen zullen vallen. 95% van de individuen zullen een intercept hebben binnen dit interval. Maar dit zegt niets over het echte intercept. Hetzelfde geldt voor de betrouwbaarheidsintervallen voor de slopes. Scholen 1. Beschrijf de clustering van de dataset en geef aan op welk niveau de verschillende variabelen behoren. Elke student (= level 1) zit geclusterd in een bepaalde school (= level 2). Sex en iq zijn leerlingspecifiek (level 1). FSM en denom zijn schoolvariabelen (level2). Exam is hier de afhankelijke variabele. Moesten we enkel meisjes- of enkel jongensscholen hebben gehad, was sex een schoolgerelateerde variabele zijn. Nu variëren sex en Iiq binnen dezelfde school, maar FSM en denom variëren niet binnen dezelfde school.

2. Centreer de level 1 predictoren (IQ en sex). Waarom is dit belangrijk? Welke veronderstelling maken we als we dit niet doen?

3. We willen nagaan of de visie van de school een invloed heeft op de examenscores Hierbij willen we controleren voor de hoofdeffecten van fsm, seks en iq. Voer deze analyse uit, rekening houdend met het feit dat de data geclusterd zijn, veronderstel een random intercept in elke school. Wat is het effect van een toename in IQ op individueel niveau en op schoolniveau? Heeft de visie van de school een invloed op de scores? Op welke manier? FIXED GEDEELTE AV: exam OV: denom (categorisch) Fsm Seks_mean (nu continu!) Seks_c Iq_mean Iq_c RANDOM GEDEELTE Random intercept per school

Wat is het effect van een toename in IQ op individueel niveau en op schoolniveau? Op individueel niveau: Als 1 leerling een IQ-punt hoger heeft dan een andere leerling, zal zijn examenpunt 0.22 punten hoger liggen als van die andere leerling. Op schoolniveau: Als 1 school een IQ punt hoger heeft dan een andere school, zal de examenscore in die school gemiddeld 0.11 punten hoger liggen. Binnen een school scoren meisjes gemiddeld 2.1 hoger dan jongens. Moest een school volledig uit meisjes bestaat, zou deze school 4 punten hoger scoren dan een school die uit jongens bestaat. Dit is een lineair effect, dus we kunnen dit gedeeltelijk interpreteren. Als de proportie meisjes in een school 10% groter is dan in een andere school, zal deze school ook 0.4 punten hoger scoren op het examen. Door het centreren kunnen we een onderscheid maken tussen de within- en betweensubjectseffecten!!! Heeft de visie van de school een invloed op de scores? We vinden een significant effect van denom. Op welke manier? In de referentiecategorie (denom=3) is de gemiddelde examenscore 16,32. In denom=1 is de gemiddelde examenscore 16.32 3.208. In denom=2 is de gemiddelde examenscore 16.32 1.623.