MLW Stroom 2.2 ANALYSE VAN AFHANKELIJKE DATA

Maat: px
Weergave met pagina beginnen:

Download "MLW Stroom 2.2 ANALYSE VAN AFHANKELIJKE DATA"

Transcriptie

1 MLW Stroom 2.2 ANALYSE VAN AFHANKELIJKE DATA Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht 26 januari 2006 Dr Arnold D. M. Kester Tel: WWW: stat.unimaas.nl

2 Deze syllabus is een aanvulling op het boek van Rosner en behandelt afhankelijke data. De voorbeelden komen uit een soortgelijk stuk van Geert Molenberghs: Epidemiologie en Biostatistiek MLW / BMW: Stroom 2.2 Herhaalde metingen (2003, LUC, Diepenbeek) en uit het boek van William D Dupont: Statistical modeling for biomedical researchers (2002, Cambridge University Press). Afhankelijke data komen vaak voor. Als personen of proefdieren vaker dan een maal gemeten worden, of als de subjecten onderverdeeld zijn in bij elkaar horende groepen, zoals klassen in een school of families. In deze gevallen kunnen de methoden voor onafhankelijke data niet zonder meer gebruikt worden; dit zou in het algemeen leiden tot onjuiste standaardfouten van de schatters en tot ongeldige p-waarden van de toetsen. In dit hoofdstuk worden methoden gepresenteerd voor een geldige analyse van afhankelijke data, eerst de eenvoudige methoden, die er op neerkomen dat de data zo worden samengevat dat er weer wel sprake is van onafhankelijke data, en daarna de meer gecompliceerde methoden waarbij de afhankelijkheid in het model wordt opgenomen. De dataverzamelingen waaraan gerekend kan worden zijn te vinden op de website van MLW Statistiek: Deze syllabus is geproduceerd met behulp van L A TEX%, de figuren zijn gemaakt met R versie 1.8 ( ). De auteur houdt zich van harte aanbevolen voor op en aanmerkingen. Maastricht, 26 januari 2006 Arnold Kester

3 Inhoudsopgave 1 Inleiding, voorbeelden 4 2 Elementaire analyses Gemiddelde Gemiddelde stijging AUC Geschatte stijging (regressie-helling) Analyse-voorbeelden De ibuprofen data Hagedissen Een model voor de hagedissen-data Gewogen gepaarde t-toets Variantie-analyse Isoproterenol Cross-over trials Een 2 x 2 cross-over onderzoek Data-herschikking Het mixed linear model in SPSS De uitvoer van het mixed linear model Carry-over Een 3 x 3 cross-over trial analyse Het mixed linear model Inleiding, het random intercept model Het random intercept model in SPSS Het door SPSS gebruikte model De uitvoer van SPSS Interpretatie van de uitvoer Controle van de modelveronderstellingen Verschillende hellingen per groep Analyse in SPSS Covariantiestructuren Random intercept en compound symmetry Waargenomen covariantiematrix Waargenomen correlatiematrix Andere covariantiestructuren Andere structuren Mixed linear model voor hagedissen-data De analyse met SPSS

4 26 januari 2006: A.K. 1 INLEIDING, VOORBEELDEN 1 Inleiding, voorbeelden In veel onderzoek wordt dezelfde patiënt of hetzelfde proefdier niet eenmaal maar meerdere malen gemeten. In zo n geval moeten we er bij de analyse mee rekening houden dat de metingen aan hetzelfde subject niet onafhankelijk zijn, ze zijn gecorreleerd. Voorbeeld 1.1 Sepsis en ibuprofen. In een onderzoek krijgen 224 sepsis patiënten ibuprofen om de ontsteking te remmen. Bij binnenkomst en na 2 uur wordt de lichaamstemperatuur waargenomen. Is er een verschil te zien? Een analyse door middel van een twee-groepen t-toets om voor en na te vergelijken is ongeldig omdat de voor- en nametingen aan dezelfde patiënt niet onafhankelijk zijn. Een oplossing is hier natuurlijk om de gepaarde t-toets te gebruiken. Figuur 1.1 geeft de data van de eerste 20 patiënten. Temperatuur (Fahrenheit) t=0 t=1 Tijdstip Figuur 1.1: Ibuprofen onderzoek, de eerste 20 patiënten Voorbeeld 1.2 Lengte-groei van schoolgaande meisjes. Bij 20 schoolgaande meisjes is elk jaar de lengte gemeten (figuur 1.2). Vraag is nu of de groei van de meisjes verband houdt met de lengte van hun moeders. We zien dat de lijnen veelal parallel lopen, en dat de variatie iets groter is bij de dochters van grotere moeders. Een analyse door middel van lineaire regressie met lengte als uitkomst en groep, leeftijd en de interactie van groep en leeftijd als verklarende variabelen zou ongeldig zijn omdat de 5 meetpunten van hetzelfde meisje niet onafhankelijk zijn. 4

5 1 INLEIDING, VOORBEELDEN 26 januari 2006: A.K. Short mother Medium mother Tall mother Lengte Leeftijd Lengte Leeftijd Lengte Leeftijd Figuur 1.2: Lengte per jaar van 20 schoolmeisjes in drie groepen Voorbeeld 1.3 Ras en dosis isoproterenol. Een onderzoek naar het effect van de dosis isoproterenol op de doorbloeding van de onderarm is uitgevoerd bij 9 zwarte en 13 witte mannen met een normale bloeddruk. zie figuur 1.3. Bij alle mannen is de doorbloeding gemeten in de beginsituatie en bij oplopende doses isoproterenol. We zien dat het verschil tussen de rassen groter wordt bij hogere doses, en dat de standaardafwijking toeneemt met het gemiddelde. In figuur 1.4 staat het individuele verloop van de doorbloeding van de zwarte mannen. zien we dat ook hier de afwijkingen van het gemiddelde verloop sterk gecorreleerd zijn binnen personen: wie een hogere doorbloeding bij een dosis, heeft dat meestal ook bij de volgende en bij de vorige dosis. De waarnemingen mogen dus niet als onafhankelijk geanalyseerd worden. Forearm blood flow (ml/min/dl) Whites Blacks Isoproterenol dose (ng/min, log scale) Figuur 1.3: Doorbloeding van de onderarm, in twee groepen. De vlaggen geven de grootte van de standaardafwijking Afhankelijke data komen ook voor als er groepen subjecten (clusters) zijn zodat de subjecten meer op elkaar lijken binnen clusters dan tussen clusters. Clusters kunnen bijvoorbeeld zijn: klassen in een school, families of patienten van dezelfde huisarts. Hier een voorbeeld uit de biologie: Voorbeeld 1.4 Aantal rugschubben van hagedissen. 5

6 26 januari 2006: A.K. 2 ELEMENTAIRE ANALYSES Forearm blood flow (ml/min/dl) Blacks Isoproterenol dose (ng/min, log scale) Figuur 1.4: Doorbloeding van de onderarm per subject, een groep Van de nakomelingen van een aantal vrouwtjes-hagedissen zijn de rugschubben geteld, zie figuur 1.5. De vraag is of het aantal verschilt per geslacht. Bij de analyse moeten we er rekening mee houden dat nakomelingen van dezelfde moeder niet onafhankelijk zijn. We zien in de figuur dat de nakomelingen van dezelfde moeder gemiddeld dichter bij elkaar zitten dan de nakomelingen van verschillende moeders en dat voor veel moeders geldt dat haar zonen meer schubben hebben dan haar dochters. Vergelijken van zonen en dochters d.m.v. een twee-steekproeven t-toets is niet geldig vanwege de afhankelijkheid van nakomelingen van dezelfde moeder. Dorsal shells Male Female Index nr. of mother Figuur 1.5: Aantal rugschubben van hagedissen 2 Elementaire analyses Een aantal vraagstellingen bij bovenstaande voorbeelden kan met bekende ( elementaire ) methoden aangepakt worden. De manier om dit te doen is steeds dat per groep bij elkaar horende data (per kind, per hagedissen-moeder, per proefpersoon) één getal berekend wordt dat met de vraag overeenkomt. Bij de lengtegroei kan bijvoorbeeld per meisje het verschil in lengte op 10-jarige leeftijd en op 6-jarige leeftijd genomen worden. Zo n samenvattende 6

7 2 ELEMENTAIRE ANALYSES 26 januari 2006: A.K. maat per onafhankelijke onderzoekseenheid wordt ook wel summary measure of feature genoemd. Voor herhaalde metingen zoals de lengtedata en de isoprotenerol data zijn er een aantal mogelijkheden, waarvan de meest voor de hand liggende hieronder volgen. 2.1 Gemiddelde Het gemiddelde van de waarnemingen per subject kan een geschikte maat zijn als we willen weten of de gemiddelde hoogte van de curve verschilt tussen (groepen van) subjecten. Als de waarnemingen voor ieder op dezelfde tijdstippen gedaan zijn geeft dit vergelijkbare gegevens, maar als bijvoorbeeld een groep vooral op hogere leeftijd is waargenomen wordt alleen al daardoor het gemiddelde in die groep hoger; we krijgen dan een vertekende analyse. In het geval van de schoolmeisjes is iedereen op leeftijden 6, 7, 8, 9 en 10 jaar gemeten. We krijgen we tabel 2.1 voor de gemiddelden per groep van de over de jaren gemiddelde lengte per kind. Negeren we even de ongelijke varianties in de groepen, dan kunnen we Moeder n gemiddeld s.e. Kort Normaal Lang Tabel 2.1: Lengte gemiddeld over jaren d.m.v. variantie-analyse toetsen of de groepen van elkaar verschillen wat betreft de gemiddelde lengte van de meisjes. Opgave 2.1 Bereken in de schoolgirls data per kind de gemiddelde lengte, en toets d.m.v. anova of deze verschilt tussen de groepen. Opgave 2.2 Welke toets zou je gebruiken voor een non-parametrische vergelijking van de drie groepen, wat betreft de gemiddelde lengte over de jaren. 2.2 Gemiddelde stijging Het lengteverschil tussen 6 en 10 jaar geeft de groei in 4 jaar; delen door 4 geeft de gemiddelde groei per jaar. Deze maten zijn in deze data uiteraard equivalent, maar als niet voor iedereen dezelfde begin- en eindjaren gelden, kan de gemiddelde groei per jaar een meer relevante maat zijn. Men moet dan aannemen dat de groei in elk jaar hetzelfde is, afgezien van toevalsafwijkingen. Voor de groei van de schoolmeisjes krijgen we tabel 2.2. Ook hier Moeder n gemiddeld s.e. Kort Normaal Lang Tabel 2.2: Groei van 6 naar 10 jaar 7

8 26 januari 2006: A.K. 2 ELEMENTAIRE ANALYSES is op het oog al duidelijk dat er significante verschillen tussen de groepen zijn, hoewel minder overtuigend dan voor de gemiddelde lengte. Variantie-analyse geeft een F -waarde van 7.05 voor 2 df, en een residual mean square van 2.99, 17 df. Opgave 2.3 Hoe zou je op grond van gemiddelden per cluster kunnen toetsen of de mannelijke hagedissen een ander gemiddeld aantal schubben hebben dan de vrouwelijke? 2.3 AUC Soms is het, als de waarnemingen met ongelijke tussenpozen en/of niet voor iedereen op dezelfde tijdstippen zijn gedaan, nuttig om een op het gemiddelde lijkende maat, de area under the curve, AUC te gebruiken. Voor farmacologisch onderzoek bijvoorbeeld geeft de AUC van gemeten bloedspiegels een maat voor de biologische beschikbaarheid van een geneesmiddel, bij diabetes kan de AUC van de glucose-curve een maat zijn voor de ernst van de insuline-ongevoeligheid. De berekening gaat meestal door aan te nemen dat het verloop tussen meetpunten lineair is, de oppervlakte wordt dan benaderd door de som van oppervlakten van trapeziums. Figuur 2.1 illustreert dit; de oppervlakte onder de kromme is Lengte subject nr oppervlakte trapezium O = (x j+1 x j )(y j + y j+1 ) Leeftijd Figuur 2.1: Berekening AUC dus k 1 AUC = (x j+1 x j )(y j + y j+1 )/2. j=1 We merken nog op dat de AUC ook zinvolle vergelijkingen mogelijk maakt als de meettijdstippen niet equidistant zijn en zelfs als ze niet voor alle subjecten gelijk zijn, bijvoorbeeld omdat er tussentijdse metingen ontbreken. Hiervoor zijn dan weer verdere aannames nodig, zoals bij het ontbrekende punt is het verloop lineair. 8

9 3 ANALYSE-VOORBEELDEN 26 januari 2006: A.K. Opgave 2.4 Als de tijdstippen equidistant zijn is de AUC bijna equivalent aan het gemiddelde, vooral als er veel tijdstippen zijn. Laat dit aan de hand van de formules zien. Opgave 2.5 Bereken voor ieder meisje in de schoolgirls.sav data de AUC, en vergelijk de groepen w.b. deze AUC, door middel van anova. 2.4 Geschatte stijging (regressie-helling) Een soms zinvolle variant van gemiddelde groeisnelheid zoals die in sectie 2.2 gedefinieerd is wordt verkregen door per individu de regressiehelling van lengte tegen leeftijd te berekenen. Het voordeel hiervan boven het eerder genoemde verschil van laatste en eerste lengte is dat doorgaans een iets nauwkeuriger schatting van de werkelijke groei verkregen wordt. Bovendien kan de helling ook nog geschat worden als bijvoorbeeld de laatste waarnemingen ontbreekt, maar de op een na laatste er wel is. De berekening van de helling kan op verschillende manieren gedaan worden. Als de data zo zijn ingevoerd dat de lengtes van de verschillende leeftijden afzonderlijke variabelen zijn, b.v. Lengte6 t/m Lengte10, dan kan de onderstaande formule voor de regressiehelling van de i-e subject gebruikt worden. (De i-e subject heeft waarnemingen x ij, j = 1,..., k) b i = j (x ij x i )(y ij ȳ i ) j (x ij x i ) 2 = j (x ij x i )y ij j (x ij x i ) 2 Vooral met equidistante tijdstippen en volledige data gaat dit gemakkelijk, want de noemer is dan een constante en de teller heeft de vorm (voor de schoolmeisjes) 2 y 6 y y 8 + y y 10. Als de data ingevoerd zijn als één lengtemeting per regel (variabelen zijn dan nummer, groep, leeftijd en lengte), dan kan in SPSS met split file en lineaire regressie per subject de helling berekend worden. Zoek uit hoe je in dat geval de hellingen weer in een data-file krijgt, zodat je de verdere analyses kunt doen. Opgave 2.6 Bereken de regressiehelling per subject in de schoolmeisjes-data, en bepaal door middel van anova of er verschillen tussen groepen zijn. 3 Analyse-voorbeelden 3.1 De ibuprofen data (zie pagina 4) Opgave 3.1 Zijn de volgende methoden toepasbaar op het ibuprofen onderzoek? Ga steeds na of de methode relevant is voor de vraagstelling. 1. gemiddelde per patiënt 2. stijging per tijdseenheid per patiënt 9

10 26 januari 2006: A.K. 3 ANALYSE-VOORBEELDEN 3. AUC per patiënt 4. regressiehelling per patiënt 3.2 Hagedissen Tot nu toe hebben we voor de elementaire analyses steeds per individu, dus per cluster in de data, een samenvattende maat berekend. In de ibuprofen data het verschil tussen voor en nameting, bij de schoolmeisjes het verschil tussen 6 jaar en 10 jaar, etc. Bij de hagedissen kunnen we ook zoiets doen, nl. per moeder het verschil in gemiddeld aantal schubben van de zonen en de dochters berekenen. We hebben de data dan weer teruggebracht tot één gegeven per onafhankelijke eenheid. Naast het voordeel van de eenvoudige uitvoerbaarheid heeft deze methode ook nadelen. Ten eerste wordt geen verschil berekend voor de moeders die alleen zonen of alleen dochters hebben. Dat betekent dat de data onvolledig gebruikt worden en dus verlies van power in de toets. In de tweede plaats wordt in de dan voor de hand liggende gepaarde t-toets gedaan alsof de berekende verschillen alle dezelfde toevalsvariantie hebben. Waarschijnlijk is echter de toevalsvariantie van het gemiddeld verschil tussen de seksen kleiner in grote gezinnen dan in kleine, dus de t-toets is niet geldig. Onder de voorwaarde dat de variantie alleen van de aantallen zonen en dochters afhangt zou men een gewogen gepaarde t-toets kunnen doen Een model voor de hagedissen-data Noteer het aantal rugschubben van de j e nakomeling van de i e moeder als Y ij, en het geslacht van deze nakomeling als G ij (G = 0 voor dochters, G = 1 voor zonen). Veronderstel dat Y ij = α + a i + (β + b i )G ij + e ij, (3.1) waarin α het verwachte aantal rugschubben is voor dochters, a i de afwijking hiervan voor moeder i, β het verschil tussen zonen en dochters en b i de afwijking hiervan voor moeder i. Veronderstel dat b i normaal verdeeld is, b i N(0, τ 2 ) voor elke moeder i. De term e ij is de normaal verdeelde overige variatie, verondersteld N(0, σ 2 ). Omdat de onderzoeksvraag het verschil t.g.v. geslacht betreft, is de verdeling van de toevalsterm a i hier niet van belang. Gewoonlijk echter wordt ook hiervoor een normale verdeling verondersteld Gewogen gepaarde t-toets Voor de gewogen t-toets wordt het gewogen gemiddelde gedeeld door de gewogen standaardfout van dat gemiddelde. Als gewicht wordt de inverse van de variantie gebruikt, we berekenen hier daarom eerst de variantie van het gemiddelde verschil tussen de m i zonen en de n i dochters van moeder i. ( var Y ij /m i Y ij /n i ) = τ 2 + σ 2 (1/m i + 1/n i ). {j:g ij =1} {j:g ij =0} 10

11 3 ANALYSE-VOORBEELDEN 26 januari 2006: A.K. De variantie is dus verschillend per moeder, dit is de reden dat een gewone gepaarde t- toets niet geheel correct is. Echter, als we (de verhouding van) τ 2 en σ 2 kunnen schatten kunnen we de variantie-formule gebruiken in een gewogen toets. Voor het schatten van deze varianties is echter een zogenaamd mixed model nodig, zie paragraaf 5.7. En als we daar aan toe zijn, is het bovenstaande overbodig! Een simplificerende aanname is τ 2 = 0, dan is de variantie van het i-e verschil evenredig met (1/m i + 1/n i ). Als gewicht w i nemen we de inverse van de variantie: w i = 1/(1/m i + 1/n i ), en dan zou een gewogen één-steekproef t-toets kunnen worden berekend. Onder dezelfde voorwaarde (τ 2 = 0) kan echter ook de variantie-analyse van de volgende paragraaf gebruikt worden Variantie-analyse Het model in formule (3.1) kan onder negeren van het toevalskarakter van b i gebruikt worden voor een variantie-analyse. De analyse heeft twee verklarende factoren: Geslacht en Moeder. Deze analyse geeft de volgende tabel (uitvoer van Stata): Number of obs = 102 R-squared = Root MSE = Adj R-squared = Source Partial SS df MS F Prob > F Model moeder geslacht Residual Total We zien dat Geslacht significant is; kennelijk hebben onder de veronderstelling dat het verschil niet van de moeder afhangt de zonen meer rugschubben dan de dochters. Nadeel van deze analyse is dat de genoemde voorwaarde nodig is en dat moeders die alleen zonen of alleen dochters hebben niet meedoen. Dat dit zo is blijkt uit de resultaten van de analyse als men alleen de data van moeders met zowel zonen als dochters analyseert. Opgave 3.2 Gebruik de Lizard.sav data. 1. Reproduceer bovenstaande analyse. 2. Laat nu de data weg waarvan de moeder alleen zonen of alleen dochters heeft en herhaal de analyse. Verklaar waarom hier voor Geslacht en voor het residu identieke kwadratensommen en vrijheidsgraden uitkomen. 3.3 Isoproterenol Opvallend in het plaatje van de gemiddelden per dosis isoproterenol op pagina 5 is dat de gemiddelden zowat lineair uit elkaar lopen, en dat de standaardafwijking groter wordt naarmate het gemiddelde stijgt. 11

12 26 januari 2006: A.K. 4 CROSS-OVER TRIALS De vraagstelling in dit onderzoek is of de verandering in doorbloeding van de onderarm onder invloed van isoproterenol afhangt van het ras, wit of zwart. Hierop aansluitend zouden we per proefpersoon de gemiddelde stijging per eenheid van log(dosis) kunnen berekenen, en die vergelijken tussen de twee groepen proefpersonen. Opgave 3.3 Gebruik de Isoproterenol.sav data. Doe de bovengenoemde analyse: bereken per proefpersoon het verschil tussen de flow bij 400 ng/min en bij geen isoproterenol. Beoordeel dan eerst of de berekende waarden als normaal verdeeld kunnen worden beschouwd en kies op grond daarvan een geschikte toets. Opgave 3.4 In de isoproterenol data ontbreken voor een van de proefpersonen een aantal waarnemingen. Omdat de eerste en de laatste er wel zijn kan het verschil dat hierboven getoetst werd, gewoon berekend worden. Hoe zou de analyse van het vorige vraagstuk kunnen worden gedaan als er waarnemingen ontbreken voor de nul-dosis en/of de hoogste dosis? Let er op dat de lineariteit van flow versus dosis geldt voor log(dosis)! Opgave 3.5 Is het in de isoproterenolstudie ook zinvol de AUC te gebruiken als de te toetsen grootheid? 4 Cross-over trials 4.1 Een 2 x 2 cross-over onderzoek In Rosner, hoofdstuk staat het voorbeeld van de pijnstiller voor een tennisarm (data tennis2.sav). De opzet van het onderzoek was als volgt: Groep periode 1 periode 2 M - P Motrin Placebo P - M Placebo Motrin Twee random ingedeelde groepen deelnemers kregen in twee onderzoeksperioden ofwel eerst Motrin en dan placebo ofwel eerst placebo en dan Motrin. De middelen zaten in identieke capsules en de deelnemers waren niet op de hoogte van de toegewezen volgorde. De analyse in Rosner s hoofdstuk was door middel van een t-toets op de verschillen tussen periode 1 en periode 2; we zullen nu laten zien hoe deze analyse gedaan wordt met afhankelijke-data methoden. Als de data volledig zijn (geen missings) is het resultaat van de analyse identiek aan dat van Rosner Het voordeel van de nu behandelde methode is dat bij onvolledige data alle beschikbare gegevens benut worden. Het model voor de analyse is voor de j e meting aan deelnemer i als volgt: Y ij = α + a i + β 1 P ij + β 2 M ij + e ij (4.1) Hierin is α de gemiddelde uitkomst bij gebruik van placebo in de eerste periode, a i de afwijking hiervan die gemiddeld voor patiënt i geldt, P ij een dichotome variabele die aangeeft of de meting de tweede periode betreft, en M ij een indicatorvariabele die 1 is voor 12

13 4 CROSS-OVER TRIALS 26 januari 2006: A.K. Motrin en 0 voor placebo. De parameter β 2 geeft het onderzochte Motrin-effect, β 1 geeft het periode-effect. De variabelen a en e worden normaal verdeeld verondersteld met verwachting nul en variantie respectievelijk τ 2 en σ 2. Uitgeschreven voor beide groepen en de twee perioden is het model voor de gemiddelden: Groep periode 1 periode 2 M - P α + β 2 α + β 1 P - M α α + β 1 + β Data-herschikking Om de bovenstaande analyse te kunnen doen is een data-herschikking nodig. In het originele Tennis2.sav databestand staan de gegevens van een patiënt op één regel (tabel 4.1). Voor de analyse van model (4.1) moeten we voor elke patiënt twéé regels hebben, voor elke id age sex drug_order overall1 overall M P P M 2 4 Tabel 4.1: Enkele regels van de Motrin data (tennis2.sav) waarneming één. Bovendien hebben we variabelen nodig die aangeven welke patiënt het betreft, of het de eerste of de tweede meting is, en welk middel in de periode van de meting gebruikt is. In het bestand tennis2-long.sav zijn de data in de juiste vorm herschikt; voor de patiënten uit de vorige tabel ziet dat er zó uit (tabel 4.2): id age sex period treat overall (M) (P) (P) (M) 4 Tabel 4.2: Enkele regels van het herschikte Motrin bestand Het mixed linear model in SPSS Nu kunnen we het model schatten met SPSS. In SPSS versie 11.5 of hoger gebruiken we Analyze :Mixed :Linear. 1. In het eerste invulscherm genaamd Linear Mixed Models: Specify Subjects and Repeated hoeven we niets te doen en gaan door met continue. 13

14 26 januari 2006: A.K. 4 CROSS-OVER TRIALS 2. In het volgende scherm: Linear Mixed Models, specificeren we de afhankelijke variabele Overall en de verklarende variabelen id, period en treat. Alle verklarende variabelen zijn factoren; er zijn geen covariates in dit model. Ook het residual weights vakje blijft leeg. 3. Vervolgens drukken we op Fixed om het te schatten model te specificeren w.b. de fixed verklarende variabelen, period en treat. Kies alleen Main Effects. 4. In het Random invulscherm geven we aan dat id een random factor is. Dit is de a i in model (4.1) Terug in het Linear Mixed Models scherm drukken we op Statistics knop. Hier geven we aan dat we Parameter Estimates willen. 6. Vervolgens gebruiken we nog de EMMeans knop en kiezen treat om voor beide behandelingen de gemiddelde score op de uitkomstvariabele te krijgen, en vinken Compare Main Effects aan om een toets en een betrouwbaarheidsinterval te krijgen. 7. Terug in het Linear Mixed Models scherm kiezen we Paste om de hele analyseopdracht in het Syntax scherm te plakken. Het syntax scherm bevat nu de volgende tekst: MIXED overall BY id period treat /CRITERIA = CIN(95) MXITER(100) MXSTEP(5) SCORING(1) SINGULAR( ) HCONVERGE(0, ABSOLUTE) LCONVERGE(0, ABSOLUTE) PCONVERGE( , ABSOLUTE) /FIXED = period treat SSTYPE(3) /METHOD = REML /PRINT = SOLUTION /RANDOM id COVTYPE(VC) /EMMEANS = TABLES(treat) COMPARE ADJ(LSD). De /CRITERIA en /METHOD regels zijn default ingesteld, ook de specificaties SSTYPE(3) en COVTYPE(VC) zijn automatisch goed gekozen. /PRINT = SOLUTION geeft de parameterschattingen. In de andere regels herkennen we onze invoer. Druk nu op de afspelen knop (het pijltje ) om de analyse te draaien De uitvoer van het mixed linear model De uitvoer geeft eerst een echo van de opdrachten en een samenvatting van het gevraagde model. Vervolgens tabel 4.3 met toetsen van de fixed effects. We zien dat de variabele treat zeer significant is (period ook, maar dat interesseert ons minder). In tabel 4.4 de schattingen van de fixed parameters α, β 1 en β 2 (decimalen in tabel tabel verminderd) nee, nét iets anders, want kennelijk kiest SPSS de hoogste waarde van een factor ([PERIOD=2], [TREAT=1] als referentie-categorie, net andersom als in model (4.1). Uit tabel 4.4 kunnen we de gemiddelden per periode en per behandeling berekenen, zie tabel 4.5: Je ziet dat deze gemiddelden precies gelijk zijn aan de waarden in Rosner. 1 Het random deel van het model kan in deze eenvoudige analyse op veel manieren goed worden gespecificeerd; de verschillen tussen die manieren komen pas tot uiting in ingewikkelder situaties. 14

15 4 CROSS-OVER TRIALS 26 januari 2006: A.K. Type III Tests of Fixed Effects(a) Source Numerator df Denominator df F Sig. Intercept ,097 0,000 PERIOD ,400 0,000 TREAT ,543 0,000 a. Dependent Variable: algemene indruk van effectiviteit Tabel 4.3: Toetsen van de fixed factoren Estimates of Fixed Effects(b) Parameter Estimate Std. Error df t Sig. 95% Conf. Interval Lower Upper Intercept [PERIOD=1] [PERIOD=2] 0 (a) [TREAT=0] [TREAT=1] 0 (a) a. This parameter is set to zero because it is redundant b. Dependent Variable: algemene indruk van effectiviteit Tabel 4.4: Geschatte fixed parameters Groep Periode 1 Periode 2 M - P = = P - M = Tabel 4.5: Geschatte gemiddelden Estimates of Covariance Parameters(a) Parameter Estimate Std. Error Residual ID Variance a. Dependent Variable: algemene indruk van effectiviteit Tabel 4.6: Geschatte varianties 15

16 26 januari 2006: A.K. 4 CROSS-OVER TRIALS Tabel 4.6 geeft schattingen van de varianties σ 2 (Residual) en τ 2 (ID). Voor deze analyse zijn de groottes van de varianties niet rechtstreeks van belang, maar we kunnen nu het geschatte model uitschrijven: De uitkomst-score overall wordt geschat met de formule overall = [period = 1] [treat = 0] ( + a + e) (4.2) waarin a N(0, 0.475) een random bijdrage per subject is, en e N(0, 1.295) een random bijdrage per waarneming. We zien dat gecorrigeerd voor periode de uitkomst in groep treat = 0 (placebo) gemiddeld punten lager is dan in groep treat = 1 (Motrin). Vervolgens tabellen 4.7 en 4.8 met geschatte gemiddelden en toetsen van de verschillen van die gemiddelden. In deze analyse niet strikt nodig, want we kennen het Motrin effect al, maar als er méér dan twee behandelingen zijn is dat wel nuttig. We zien hier dat Motrin Estimates(a) TREAT Mean Std. Error df 95% Confidence Interval Lower Bound Upper Bound Placebo Motrin a. Dependent Variable: algemene indruk van effectiviteit Tabel 4.7: Geschatte gemiddelden per behandeling Pairwise Comparisons(b) Mean 95% Conf. Interval (I) TREAT (J) TREAT Difference Std. Error df Sig.(a) for Difference(a) (I-J) Lower Upper Placebo Motrin Motrin Placebo a. Adjustment for multiple comparisons: Least Significant Difference (equivalent to no adjustments). b. Dependent Variable: algemene indruk van effectiviteit. Tabel 4.8: Geschatte verschillen tussen de behandelingen vergeleken met placebo een punten hogere score geeft op de variabele overall, Algemene indruk. Met standaardfout s.e. = en betrouwbaarheidsinterval (0.365; 1.064). Identieke resultaten waren eerder met de methoden in Rosner (hoofdstuk 13, pp ) verkregen. Waarom dan dit ingewikkelde gedoe van stal gehaald? Het antwoord is natuurlijk dat je met ingewikkeld gedoe ook ingewikkelder situaties aankunt, zoals cross-over trials met meer dan twee perioden en/of meer dan twee behandelingen en ook andere analyses met afhankelijke data, zoals het hagedissen-voorbeeld. Bovendien laat dit model toe dat de data onvolledig zijn, en dat gaat zo ver dat als alle tweede periode data ontbreken de analyse equivalent is aan de t-toets op de eerste periode data. 16

17 4 CROSS-OVER TRIALS 26 januari 2006: A.K Carry-over We hebben hier geen aandacht besteed aan het schatten en toetsen van een carry-over effect. Bij aanwezigheid van carry-over is het treatment effect verschillend per periode. Carry-over kan dus in het variantie-analyse model onderzocht worden door middel van interactie tussen behandeling en periode. De reden dat we dit hier niet behandelen is het geringe belang ervan. Als men namelijk van tevoren niet overtuigd is van de afwezigheid van een carry-over effect kan een cross-over trial beter niet gedaan worden; een parallel design geeft dan met minder kosten dezelfde resultaten. 4.2 Een 3 x 3 cross-over trial In een onderzoek naar de invloed van de vetzuursamenstelling in het dieet op de cholesterolspiegel in het bloed werden 40 proefpersonen in drie perioden van telkens zes weken op verschillende diëten gezet, A, B en C. 2 De proefpersonen waren zo goed mogelijk verdeeld over de zes mogelijke volgordes ABC, ACB, BAC, BCA, CAB en CBA. Een overzicht van de data vindt u in tabel 4.9. We mogen deze getallen niet gebruiken om twee-steekproeven Dieet aantal gemiddeld SD A B C Tabel 4.9: Gemiddelden en standaardafwijkingen van het cholesterolgehalte in week 6 t-toetsen te berekenen, of een enkelvoudige variantie-analyse, want dan doen we net alsof het onderzoek met 107 personen in drie groepen gedaan is. We moeten ermee rekening houden dat iedereen (?) drie metingen heeft. Opvallend in dit verband zijn de verschillende aantallen bij de drie diëten; kennelijk heeft niet iedereen alle perioden meegedaan analyse Hoe analyseren we deze data? In principe willen we hierbij de uitkomsten van elke proefpersoon bij dieet A vergelijken met de uitkomst van diezelfde proefpersoon bij dieet B. Dit suggereert een gepaarde t-toets. Probleem hierbij is dat er niet twee maar drie diëten zijn, en dat we op die manier geen rekening houden met een eventueel periode-effect, dat bijvoorbeeld door gewenning of door seizoensinvloed veroorzaakt zou kunnen worden. In tabel 4.10 de aantallen per periode en per dieet. We zien dat slechts 32 van de 40 alle drie perioden afgemaakt hebben. Voor de analyse is het weer nodig om de data met één waarneming per regel te rangschikken. Per subject is dat dus drie regels. Variabelen op elke regel zijn dan: Nr, volgnummer van de proefpersoon; Sexe, geslacht; Periode, eerste, tweede of derde periode; Dieet, vetsamenstelling A, B of C; en uitkomstvariabele Chol56, gemiddelde cholesterol in weken 5 en 6 van de periode. We doen net als in de Motrin trail een Mixed Model analyse 2 Onderzoek van E. Temme, vakgroep Humane Biologie. 17

18 26 januari 2006: A.K. 4 CROSS-OVER TRIALS Dieet periode 1 periode 2 periode 3 A B C Tabel 4.10: Aantallen waarnemingen per periode en per dieet met een random intercept voor Nr. Verder wordt, om voor een eventueel periode-effect te corrigeren, Periode als factor meegenomen. Het dieet-effect wordt natuurlijk onderzocht door Dieet in het model te stoppen. Periode en Dieet zijn fixed, net als in de Motrin trial. Gebruik makend van de computer krijgen we de variantie-analyse tabel Hoe inter- Type III Tests of Fixed Effects(a) Source Numerator df Denominator df F Sig. Intercept 1 39, ,618 0,000 PER 2 63,666 0,423 0,657 DIET 2 63,727 17,490 0,000 Tabel 4.11: Variantie-analyse voor cross-over trial preteren we nu deze tabel? Tweede regel: Het Periode-effect is niet significant. Kennelijk is er geen groot verschil tussen perioden. Niettemin is het, ook vanwege de onbalans van de verdeling van Dieet over Periode, van belang voor periode te corrigeren. Derde regel: hier staat dat er verschil in Chol56 is tussen de drie diëten. Om deze verschillen verder te Estimates(a) DIET Mean Std. Error df 95% Conf. Int. Lower Upper A 5,781 0,166 45,252 5,447 6,115 B 5,588 0,167 46,879 5,251 5,925 C 5,323 0,165 44,377 4,991 5,655 a. Dependent Variable: CHOL56. Tabel 4.12: Gecorrigeerde gemiddelden en standaardfouten van het cholesterolgehalte uit te zoeken moeten we uitgaan van de gecorrigeerde gemiddelden, de estimated means. In tabel 4.12 vindt u de geschatte gemiddelden, gecorrigeerd voor volgnummer en periode. Deze wijken iets af van de ruwe gemiddelden in tabel 4.9 omdat niet alle diëten in alle perioden even vaak gegeten zijn. Aan de standaardfout te zien zou je nu al zeggen dat er een significant verschil zou kunnen zijn tussen diëten A en B, want het verschil is 0.198, dat is toch wel wat groter dan de standaardfout. In tabel 4.13 de paarsgewijze vergelijkingen en toetsen (hier heb ik de overbodige dubbele regels weggelaten). De p-waarden en betrouwbaarheidsintervallen zijn berekend met Bonferroni correctie, er wordt rekening mee gehouden dat er drie verschillen getoetst worden. Voor de afgedrukte p-waarde betekent dit dat ze drie keer zo groot zijn dan de ongecorrigeerde waarden, en voor het betrouwbaarheidsinterval betekent het dat het berekend is voor een nominale onbetrouwbaarheid van 18

19 5 HET MIXED LINEAR MODEL 26 januari 2006: A.K. (I) DIET (J) DIET Pairwise Comparisons(b) Mean 95% Conf. Interval Difference Std. Error df Sig.(a) for Difference(a) (I-J) Lower Upper A B 0,193 0,080 63,550 0,055-0,003 0,389 C 0,458 0,078 63,911 0,000 0,267 0,649 B C 0,265 0,079 63,713 0,004 0,070 0,459 a. Adjustment for multiple comparisons: Bonferroni. b. Dependent Variable: CHOL56. Tabel 4.13: Geschatte verschillen tussen diëten α/3. In de vergelijking van A en B betekent dit dat het verschil niet significant is, ondanks de t-waarde van 0.193/0.080 = Opmerking Let op de gebroken aantallen vrijheidsgraden; dit komt doordat niet alle proefpersonen aan alle perioden hebben meegedaan. Voor personen die zowel dieet A als dieet B gegeten hebben, wordt het verschil van de desbetreffende waarnemingen meegerekend, met de binnen-persoons variantie ˆσ 2 (zie model (4.1)) als precisie-maat. Personen die alleen A of alleen B gegeten hebben worden meegenomen in de vergelijking van A en B met hun totale tussen-persoons plus binnen-persoons variantie ˆτ 2 + ˆσ 2. Ze wegen daarom minder zwaar in de vergelijking en dragen een fractie van een vrijheidsgraad bij aan de vergelijking van A en B. Opgave 4.1 Gebruik het databestand temme.sav van de cross-over trial van deze sectie. 1. Reproduceer de analyse van deze sectie. 2. Laat vervolgens de subjecten weg die maar één meting hebben, en herhaal de analyse. 5 Het mixed linear model In de voorbeelden van sectie 4 hadden we de analyse ook met gewone variantie-analyse kunnen doen, als we in de 3-perioden trial tenminste de personen die maar één periode meededen genegeerd hadden. In deze sectie is het mixed model essentieel voor de analyse. We analyseren het schoolgirls bestand met behulp van SPSS. De opbouw in deze sectie is grotendeels onafhankelijk van die in de vorige sectie. 5.1 Inleiding, het random intercept model Een aantal van de in sectie 3 aan het licht gekomen problemen kunnen worden opgelost door gebruik te maken van een uitgebreider model. De eenvoudigste daarin gebruikelijke veronderstelling is dat er twee van elkaar onafhankelijke toevalsbronnen zijn in de data: een per cluster en een per waarneming. Als voorbeeld nemen we de schoolmeisjes-lengte data. Een model voor de lengte Y ij van het i e schoolmeisje op tijdstip j zou dan kunnen zijn: Y ij = α + a i + βt ij + e ij, (5.1) 19

20 26 januari 2006: A.K. 5 HET MIXED LINEAR MODEL waarin a i het random intercept is, verondersteld a i N(0, τ 2 ), β de lengtegroei per jaar en e ij de onafhankelijk veronderstelde toevalsafwijkingen per waarneming. Naast de gebruikelijke foutterm e ij is hier dus de extra normaal verdeelde toevalsvariabele a i in het model opgenomen. Veronderstellingen in dit model zijn o.a. dat 1. Er zijn geen systematische verschillen in lengte per groep, en 2. Alle meisjes groeien even hard. Dat is niet erg realistisch, gelet op figuur 1.2. We breiden daarom het model uit. We zullen dit in twee stappen doen, eerst laten we veronderstelling 1. los, later ook 2. Een model met verschillende gemiddelde lengtes is: Y ij = α 1 + a i + βt j + e ij in groep 1 Y ij = α 2 + a i + βt j + e ij in groep 2 (5.2) Y ij = α 3 + a i + βt j + e ij in groep 3 Nu heeft elke groep (korte, middelmatig lange of lange moeder) een eigen intercept. De curve per kind ligt op een random afstand a i boven of onder de gemiddelde curve van groep k, α k + β k t. Elke individuele curve heeft haar eigen intercept. De hellingen van de curven zijn alle gelijk. Voor het eerste meisje in de eerste groep is het model Y 1j = α 1 + a 1 + βt j + e 1j. We zien dat dit een gewoon lineair regressiemodel is, met intercept α 1 + a 1 en helling β. Het speciale aan model (5.2) is dat het intercept per subject verschilt en dat dit intercept een toevalsvariabele is. Een dergelijk model heet een mixed model omdat er zowel random (het intercept) als fixed (de groep en de tijd) factoren in voorkomen. Omdat de enige extra random factor het intercept van elke subject is heet zo n model ook wel een random intercept model. Random factoren zijn vrijwel altijd beperkt tot subjecten of clusters van subjecten (de moeders in het hagedissen-probleem), fixed factoren zijn de te vergelijken groepen of condities. 5.2 Het random intercept model in SPSS Het door SPSS gebruikte model Het bovenstaand model (5.2) kan in SPSS (vanaf versie 11.5) worden geschat met de module mixed linear. In SPSS is de parametrisering net iets anders: Y ij = µ + α 1 + a i + βt j + e ij in groep 1 Y ij = µ + α 2 + a i + βt j + e ij in groep 2 (5.3) Y ij = µ + a i + βt j + e ij in groep 3 De parameter µ is het gemiddelde intercept in groep 3, en α 1 geeft aan in hoeverre het gemiddelde intercept in groep 1 daar boven of onder ligt. 20

21 5 HET MIXED LINEAR MODEL 26 januari 2006: A.K De uitvoer van SPSS Type III Tests of Fixed Effects Numerator Denominator Source df df F Sig. Intercept GROUP AGE Tabel 5.1: Toetsen voor "fixed" effecten De uitvoer van SPSS bevat verschillende tabellen, de eerste (tabel 5.1) geeft toetsen voor GROUP en AGE, waarin de nulhypothesen respectievelijk α 1 = α 2 = 0 en β = 0 getoetst worden. We zien dat er een significant verschil is tussen de groepen en dat de leeftijd ook zeer significant is. De volgende tabel (tabel 5.2) geeft de geschatte varianties van de toe- Estimates of Covariance Parameters Parameter Estimate Std. Error Residual Intercept [subject = CHILD] Variance Tabel 5.2: Geschatte varianties valstermen e ij (Residual) en a i (Intercept) in het model. We zien dat de intercept variantie veel groter is dan de residuele variantie, dat klopt met plaatje 1.2, waarin we al zagen dat het verschil tussen de curven groter is dan het verschil binnen curven (d.i. de afwijking van lineariteit). 21

22 26 januari 2006: A.K. 5 HET MIXED LINEAR MODEL Parameter symbool Estimate Std. Error df t Sig. Intercept µ GROUP=1.00 α GROUP=2.00 α GROUP=3.00 a) AGE β a) This parameter is set to zero because it is redundant. Tabel 5.3: Geschatte parameters In tabel 5.3 zien we de geschatte parameters van het model. De symbolen van de geschatte parameters, zie formule (5.3), heb ik toegevoegd. De daaropvolgende tabel is die van de geschatte gemiddelden per groep, tabel 5.4. De tabel geeft voor elke groep de voorspelde waarde die hoort bij het gemiddelde van alle waargenomen leeftijden. Estimated Marginal Means 95% Conf. Int. Length of mother Mean Std. Error df lower upper short medium tall a. Covariates appearing in the model are evaluated at the following values: AGE = b. Dependent Variable: HEIGHT Tabel 5.4: Geschatte gemiddelden Opgave 5.1 Controleer de geschatte gemiddelden uit tabel 5.4 aan de hand van de parameterschattingen van tabel 5.3. Vervolgens krijgen we nog een tabel waarin de groepsgemiddelden paarsgewijs vergeleken worden, in de weergave in tabel 5.5 heb ik de overbodige regels weggelaten. (I) groep (J) groep Pairwise Comparisons(b) Mean 95% Conf. Interval Difference Std. Error df Sig.(a) for Difference(a) (I-J) Lower Upper short medium , tall medium tall a. Adjustment for multiple comparisons: Least Significant Difference (equivalent to no adjustments). b. Dependent Variable: HEIGHT. Tabel 5.5: Geschatte verschillen tussen groepen 22

23 5 HET MIXED LINEAR MODEL 26 januari 2006: A.K Interpretatie van de uitvoer Per groep en per leeftijd kunnen we nu de voorspelde lengte berekenen, zie tabel 5.3. Groep 1: Y = ( 9.65) Age Groep 2: Y = ( 5.60) Age Groep 3: Y = (0) Age Dit zijn nu de voorspellingen per groep, iedere groep heeft zijn eigen intercept, de helling de toename van lengte per jaar is voor iedere groep dezelfde. De geschatte curven van de individuele meisjes liggen een random aantal centimeters boven of onder het groepsgemiddelde, volgens een normale verdeling met standaardafwijking SD = = 2.98 cm. De enkele meetpunten liggen hier weer boven of onder volgens een normale verdeling met standaardafwijking = 1.08 cm Controle van de modelveronderstellingen De modelveronderstellingen zijn 1. Het model (5.2) geldt (lineariteit) 2. De random termen a i en e ij zijn normaal verdeeld, 3. met constante variantie. Controle van de lineariteit kan op twee manieren; door naar de residuen te kijken en door het model te vergelijken met een niet-lineair model, bijvoorbeeld door toevoegen van een kwadratische leeftijd term. Voordat er naar residuen gekeken kan worden moeten deze eerst berekend worden. Een voor de hand liggende definitie is d ij = Y ij Ŷij, (5.4) waarin Ŷij de voorspelde waarde is berekend met de geschatte waarden van de coëfficiënten µ, α 1, α 2 en β. Een plaatje van deze residuen tegen de leeftijd vindt u in figuur 5.1. Short mother Medium mother Tall mother Residual Residual Residual Leeftijd Leeftijd Leeftijd Figuur 5.1: Residuen tegen leeftijd In de figuur zie je dat de individuele lijntjes ver uit elkaar liggen, een patroon wat betreft lineariteit is moeilijk te ontdekken. Ook is normaliteit van de residuen moeilijk te 23

24 26 januari 2006: A.K. 5 HET MIXED LINEAR MODEL beoordelen. Wel zie je dat de lijntjes voor de korte moeders meer omlaag lopen en die van de lange moeders omhoog. Dat betekent dat de in het model geschatte groeisnelheid voor de dochters van de korte moeders te hoog is, en die voor de lange moeders te laag. Het model waarin hiermee rekening gehouden wordt staat in de volgende sectie. Opgemerkt moet worden dat de interpretatie van de residuen moeilijk is omdat ze de optelling zijn van de twee toevalsbijdragen in het model, a i en e ij. De waarde van a i kan worden geschat als het gemiddelde van de residuen per subject; als dit afgetrokken wordt komen de lijntjes van figuur 5.1 dichter bij elkaar te liggen. De lineariteit is dan beter te beoordelen. 5.3 Verschillende hellingen per groep Nu veronderstellen we dat de groeisnelheid per groep verschillen kan. Het model is dan Y ij = α 1 + a i + β 1 t j + e ij in groep 1 Y ij = α 2 + a i + β 2 t j + e ij in groep 2 (5.5) Y ij = α 3 + a i + β 3 t j + e ij in groep 3 Nu heeft elke groep (korte, middelmatig lange of lange moeder) niet alleen een eigen intercept maar ook een eigen helling. De curve per kind kan een random afstand a i boven of onder de gemiddelde curve van groep k, α k + β k t liggen. Elke individuele curve heeft net als in de vorige sectie haar eigen intercept. Voor het eerste meisje in de eerste groep is het model Y 1j = α 1 + a 1 + β 1 t j + e 1j Analyse in SPSS Voor de analyse in SPSS krijgen we weer te maken met de afwijkende parametrisering. Het hiervolgende model wordt geschat: Y ij = µ + α 1 + a i + (γ + β 1 )t j + e ij in groep 1 Y ij = µ + α 2 + a i + (γ + β 2 )t j + e ij in groep 2 Y ij = µ + a i + γt j + e ij in groep 3 De parameter µ is het gemiddelde intercept in groep 3, en α 1 geeft aan in hoeverre het gemiddelde intercept in groep 1 daar boven of onder ligt. Zo is ook γ de helling in groep 3, en β 1 in hoeverre de helling in groep 1 groter of kleiner is. Tabel 5.6 geeft de toetsen voor de fixed effects (GROUP: is er verschil in intercept tussen de groepen; AGE: is er een leeftijdseffect en GROUP * AGE: hangt het leeftijdseffect van de groep af?). Opvallend is het gebroken aantal vrijheidsgraden bij het intercept en bij GROUP. De reden hiervan is dat hiervoor geen exacte waarde gegeven kan worden; de vermelde waarde is een benadering die o.a. afhangt van de verhouding van σ 2 en τ 2. Als parameter estimates is aangevinkt geeft het programma de parameterschattingen. In tabel 5.7 zijn voor de interpreteerbaarheid de symbolen van de parameters toegevoegd. Hieruit 24

25 5 HET MIXED LINEAR MODEL 26 januari 2006: A.K. Type III Tests of Fixed Effects Numerator Denominator Source df df F Sig. Intercept GROUP AGE GROUP * AGE Tabel 5.6: Toetsen voor "fixed" effecten Parameter symbool Estimate Std. Error df t Sig. Intercept µ GROUP=1.00 α GROUP=2.00 α GROUP=3.00 a) AGE γ GROUP=1.00 * AGE β GROUP=2.00 * AGE β GROUP=3.00 * AGE a) a) This parameter is set to zero because it is redundant. Tabel 5.7: Geschatte parameters kunnen de voorspelde waarden per subject en per leeftijd worden berekend. De voorspelde waarden zijn nu: Groep 1: Y = ( 1.82) Age + ( 0.98) Age Groep 2: Y = ( 0.15) Age + ( 0.68) Age Groep 3: Y = (0) Age + (0) Age We hebben nu de geschatte groeisnelheid per groep berekend, en door middel van een toets aangetoond dat deze verschilt tussen de groepen. De coëfficiënten β 1 en β 2 geven het verschil in groei per jaar respectievelijk tussen groep 1 en 3 en tussen groep 2 en 3. Het verschil van groepen 1 en 2 is natuurlijk β 1 β 2, maar een toets daarvan komt niet rechtstreeks uit de uitvoer. Een manier om daar aan te komen is door aanpassen van de codering van de groepen. De groep met de hoogste numerieke code wordt door SPSS als referentiegroep gebruikt; we moeten dus een codering maken waarin de groep van de korte moeders de hoogste code heeft: bijvoorbeeld met de definitie Group1 = 4 Group. Opgave 5.2 Gebruik de Schoolgirls_long.sav data. 1. Reproduceer bovenstaande analyse. 2. Doe dit nogmaals met de aangepaste groepsdefinitie Group1 = 4 Group. 3. Verklaar overeenkomsten en verschillen. 25

26 26 januari 2006: A.K. 5 HET MIXED LINEAR MODEL 5.4 Covariantiestructuren Gegeven het model (5.5) kunnen we de covariantie berekenen van waarnemingen op verschillende tijdstippen j en k: cov(y ij, Y ik ) = cov(a i + e ij, a i + e ik ) = cov(a i, a i ) + cov(a i, e ik ) + cov(e ij, a i ) + cov(e ij, e ik ) = cov(a i, a i ) = τ 2, (5.6) waarbij we gebruiken dat de covariantie van onafhankelijke variabelen nul is. We zien dat de covariantie (5.6) hetzelfde is ongeacht de afstand tussen j en k. De covariantie voor gelijk tijdstip cov(y ij, Y ij ) is de variantie van Y ij, var(y ij ) = τ 2 + σ 2. De zogenaamde covariantiematrix (aangeduid met de griekse letter Σ) ziet er nu zó uit: Σ = τ 2 + σ 2 τ 2 τ 2 τ 2 τ 2 τ 2 τ 2 + σ 2 τ 2 τ 2 τ 2 τ 2 τ 2 τ 2 + σ 2 τ 2 τ 2 τ 2 τ 2 τ 2 τ 2 + σ 2 τ 2 τ 2 τ 2 τ 2 τ 2 τ 2 + σ 2 (5.7) We noemen deze covariantiestructuur de compound symmetry structuur. We kunnen ook de correlatie uitrekenen van Y ij en Y ik, die is ook niet afhankelijk van de afstand tussen j en k, en gelijk aan τ 2 /(τ 2 + σ 2 ). De correlatie bij gelijk tijdstip is uiteraard gelijk aan Random intercept en compound symmetry In spss mixed linear kan de covariantiestructuur worden opgegeven door middel van random effects of door specificeren van de covariantiestructuur. Opgeven van een random intercept geeft hetzelfde model als opgeven van de compound symmetry covariantiestructuur. De compound symmetry structuur is geldig als model (5.5) geldt. Voorwaarden hiervoor zijn dezelfde groeisnelheid binnen groepen en onafhankelijke (meet-)fouten in de lengtewaarnemingen. Vooral de eerste voorwaarde is niet goed verdedigbaar. De groepen zijn immers op grond van de lengte van de moeders ingedeeld, en die lengtes zijn waarschijnlijk ook binnen de groepen nog verschillend. Als de lengte van de moeder van invloed is op de groei van het kind, zal er ook binnen groepen verschil in groeisnelheid zijn. Bovendien is de veronderstelling van een constante groei over de jaren waarschijnlijk niet houdbaar; de groei zal iets afnemen, waardoor de fouten ten opzichte van een lineair model aan het begin en het eind veelal negatief en in het midden vaker positief zullen zijn Waargenomen covariantiematrix We kunnen de covariantiestructuur controleren door de covarianties van de residuen van model (5.5) te berekenen. SPSS geeft uiteindelijk 3 de onderstaande covarianties voor de residuen res6 t/m res10: 3 SPSS geeft dat niet zomaar. We moeten eerst de residuen bewaren, dan deze residuen herstructureren zodat we de residuen van leeftijd 6 jaar kunnen correleren met de residuen van 7 jaar, etc.; we moeten er aparte variabelen van maken. (data :restructure) en vervolgens de covariantiematrix berekenen. 26

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 Bjorn Winkens Methodologie en Statistiek Universiteit Maastricht 21 maart

Nadere informatie

mlw stroom 2.1: Statistisch modelleren

mlw stroom 2.1: Statistisch modelleren mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht

Nadere informatie

MLW -- Toets stroomblok 2.2: Epidemiologie en Biostatistiek

MLW -- Toets stroomblok 2.2: Epidemiologie en Biostatistiek MLW -- Toets stroomblok 2.2: Epidemiologie en Biostatistiek Vrijdag 1 april 2005 Opzet: 5 onderdelen, elk 4 punten. Schrijf uw naam en nummer op elke ingeleverde pagina. Vraag 1 In een cohort van 2000

Nadere informatie

Toegepaste data-analyse: oefensessie 2

Toegepaste data-analyse: oefensessie 2 Toegepaste data-analyse: oefensessie 2 Depressie 1. Beschrijf de clustering van de dataset en geef aan op welk niveau de verschillende variabelen behoren Je moet weten hoe de data geclusterd zijn om uit

Nadere informatie

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Meervoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

11. Multipele Regressie en Correlatie

11. Multipele Regressie en Correlatie 11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in

Nadere informatie

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd

Nadere informatie

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003 ANOVA in SPSS Hugo Quené hugo.quene@let.uu.nl opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003 1 vooraf In dit voorbeeld gebruik ik fictieve gegevens, ontleend aan

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

Antwoordvel Versie A

Antwoordvel Versie A Antwoordvel Versie A Interimtoets Toegepaste Biostatistiek 13 december 013 Naam:... Studentnummer:...... Antwoorden: Vraag Antwoord Antwoord Antwoord Vraag Vraag A B C D A B C D A B C D 1 10 19 11 0 3

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op vrijdag 29-04-2004, 9-2 uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R 14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten

Nadere informatie

Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 10 april 2013 14.00-17.00 uur

Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 10 april 2013 14.00-17.00 uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 10 april 2013 14.00-17.00 uur Bij het tentamen mag alleen gebruik worden gemaakt van een zakrekenmachine. Het

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) Avondopleiding. donderdag 6-6-3, 9.-. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

College 6 Eenweg Variantie-Analyse

College 6 Eenweg Variantie-Analyse College 6 Eenweg Variantie-Analyse - Leary: Hoofdstuk 11, 1 (t/m p. 55) - MM&C: Hoofdstuk 1 (t/m p. 617), p. 63 t/m p. 66 - Aanvullende tekst 6, 7 en 8 Jolien Pas ECO 01-013 Het Experiment: een voorbeeld

Nadere informatie

Kruis per vraag slechts één vakje aan op het antwoordformulier.

Kruis per vraag slechts één vakje aan op het antwoordformulier. Toets Stroom 1.2 Methoden en Statistiek tul, MLW 7 april 2006 Deze toets bestaat uit 25 vierkeuzevragen. Kruis per vraag slechts één vakje aan op het antwoordformulier. Vraag goed beantwoord dan punt voor

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamenopgaven Statistiek 2DD71: UITWERKINGEN 1. Stroopwafels a De som S van de 12 gewichten is X 1 + X 2 + + X 12. Deze is normaal

Nadere informatie

Meervoudige variantieanalyse

Meervoudige variantieanalyse Meervoudige variantieanalyse Inleiding In dit hoofdstuk, dat aansluit op hoofdstuk II-12 (deel2) van het statistiekboek, wordt besproken hoe met SPSS gemiddelden van verschillende groepen met elkaar vergeleken

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 30 januari 2009 - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 2 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

20. Multilevel lineaire modellen

20. Multilevel lineaire modellen 20. Multilevel lineaire modellen Hiërarchische gegevens Veel fenomenen zijn ingebed in een bredere context. Variabelen kunnen dus ook hiërarchisch zijn, ingebed zijn in variabelen op hogere niveaus. Deze

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, 9.00-12.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Hoofdstuk 6 Twee populaties: parametrische toetsen

Hoofdstuk 6 Twee populaties: parametrische toetsen Hoofdstuk 6 Twee populaties: parametrische toetsen 6.1 De t-toets voor het verschil tussen twee gemiddelden: In veel onderzoekssituaties zijn we vooral in de verschillen tussen twee populaties geïnteresseerd.

Nadere informatie

11. Meerdere gemiddelden vergelijken, ANOVA

11. Meerdere gemiddelden vergelijken, ANOVA 11. Meerdere gemiddelden vergelijken, ANOVA Analyse van variantie (ANOVA) wordt gebruikt wanneer er situaties zijn waarbij er meer dan twee condities vergeleken worden. In dit hoofdstuk wordt de onafhankelijke

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse 10.1 Eenwegs-variantieanalyse: Als we gegevens hebben verzameld van verschillende groepen en we willen nagaan of de populatiegemiddelden van elkaar verscihllen,

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op dinsdag 5-03-2005, 9.00-22.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur. VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT

Nadere informatie

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling week 3: schatten en toetsen: de z-toets week 4: het toetsen van gemiddelden: de t-toets Moore, McCabe, and Craig.

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling Kwantitatieve Data Analyse (KDA) Onderzoekspracticum Sessie 2 11 Aanpassingen takenboek! Check studienet om eventuele verbeteringen te downloaden! Huidige versie takenboek: 09 Gjalt-Jorn Peters gjp@ou.nl

Nadere informatie

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren: INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 4 1. Toets met behulp van SPSS de hypothese van Evelien in verband met de baardlengte van metalfans. Ga na of je dezelfde conclusies

Nadere informatie

Interim Toegepaste Biostatistiek deel 1 14 december 2009 Versie A ANTWOORDEN

Interim Toegepaste Biostatistiek deel 1 14 december 2009 Versie A ANTWOORDEN Interim Toegepaste Biostatistiek deel december 2009 Versie A ANTWOORDEN C 2 B C A 5 C 6 B 7 B 8 B 9 D 0 D C 2 A B A 5 C Lever zowel het antwoordformulier als de interim toets in Versie A 2. Dit tentamen

Nadere informatie

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:

Nadere informatie

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008 Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer

Nadere informatie

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan

Nadere informatie

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 13. Factor ANOVA De theorie achter factor ANOVA (tussengroep) Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 1. Onafhankelijke

Nadere informatie

Voorbeeld regressie-analyse

Voorbeeld regressie-analyse Voorbeeld regressie-analyse In dit voorbeeld wordt gebruik gemaakt van het SPSS data-bestand vb_regr.sav (dit bestand kan gedownload worden via de on-line helpdesk). We schatten een model waarin de afhankelijke

Nadere informatie

toetskeuze schema verschillen in gemiddelden

toetskeuze schema verschillen in gemiddelden toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling week 3: schatten en toetsen: de z-toets week 4: het toetsen van gemiddelden: de t-toets week 5: het toetsen van

Nadere informatie

M M M M M M M M M M M M M M La La La La La La La Mid Mid Mid Mid Mid Mid Mid 65 56 83 68 64 47 59 63 93 65 75 68 68 51

M M M M M M M M M M M M M M La La La La La La La Mid Mid Mid Mid Mid Mid Mid 65 56 83 68 64 47 59 63 93 65 75 68 68 51 INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 7 1. Een onderzoeker wil nagaan of de fitheid van jongeren tussen 14 en 18 jaar (laag, matig, hoog) en het geslacht (M, V) een

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

College 2 Enkelvoudige Lineaire Regressie

College 2 Enkelvoudige Lineaire Regressie College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:

Nadere informatie

Verband tussen twee variabelen

Verband tussen twee variabelen Verband tussen twee variabelen Inleiding Dit practicum sluit aan op hoofdstuk I-3 van het statistiekboek en geeft uitleg over het maken van kruistabellen, het berekenen van de correlatiecoëfficiënt en

Nadere informatie

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA) HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA) DATA STRUKTUUR Afhankelijke variabele: Eén kontinue variabele Onafhankelijke variabele(n): - één discrete variabele: één gecontroleerde factor - twee discrete variabelen:

Nadere informatie

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn. Opdracht 12a ------------ enkelvoudige lineaire regressie Kan de leeftijd waarop een kind begint te spreken voorspellen hoe zijn score zal zijn bij een latere test op verstandelijke vermogens? Een studie

Nadere informatie

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 1. Iemand kiest geblinddoekt 4 paaseitjes uit een mand met oneindig veel paaseitjes. De helft is melkchocolade, de andere

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 5 februari - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 9 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

Statistiek ( ) eindtentamen

Statistiek ( ) eindtentamen Statistiek (200300427) eindtentamen studiejaar 2010-11, blok 4; Taalwetenschap, Universiteit Utrecht. woensdag 29 juni 2011, 17:15-19:00u, Educatorium, zaal Gamma. Schrijf je naam en student-nummer op

Nadere informatie

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen. Tentamen Inleiding Intelligente Data Analyse Datum: 19-12-2002 Tijd: 9.00-12.00, BBL 420 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

Opgave 1: (zowel 2DM40 als 2S390)

Opgave 1: (zowel 2DM40 als 2S390) TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (DM4 en S39) op donderdag, 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Hoofdstuk 8 Het toetsen van nonparametrische variabelen Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn

Nadere informatie

Enkelvoudige lineaire regressie

Enkelvoudige lineaire regressie Enkelvoudige lineaire regressie Inleiding Dit hoofdstuk sluit aan op hoofdstuk I-9 van het statistiekboek. Er wordt hier steeds gesproken over het verband tussen één afhankelijke variabele Y en één onafhankelijke

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4), op maandag 5 januari 29 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Tentamen Biostatistiek 2 voor BMT (2DM50), op dinsdag 5 april 2011 9.00-12.00 uur

Tentamen Biostatistiek 2 voor BMT (2DM50), op dinsdag 5 april 2011 9.00-12.00 uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 2 voor BMT (2DM50), op dinsdag 5 april 2011 9.00-12.00 uur Bij het tentamen mag alleen gebruik worden gemaakt van een zakrekenmachine. Het gebruik

Nadere informatie

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 1. De onderzoekers van een preventiedienst vermoeden dat werknemers in een bedrijf zonder liften fitter zijn dan werknemers

Nadere informatie

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen. Herkansing Inleiding Intelligente Data Analyse Datum: 3-3-2003 Tijd: 14.00-17.00, BBL 508 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie?

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie? Opdracht 13a ------------ Een-factor ANOVA (ANOVA-tabel, Contrasten, Bonferroni) Bij een onderzoek naar de leesvaardigheid bij kinderen in de V.S. werden drie onderwijsmethoden met elkaar vergeleken. Verschillende

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN 4. VERGELIJKINGSTOETSEN A. Vergelijken van varianties Men beschouwt twee steekproeven uit normaal verdeelde populaties: X, X,, X n ~ N(µ, σ ) Y, Y,, Y n

Nadere informatie

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA 16. MANOVA MANOVA Multivariate variantieanalyse (MANOVA) kan gebruikt worden in een situatie waarin je meerdere afhankelijke variabelen hebt. Met MANOVA kan er 1 onafhankelijke variabele gebruikt worden

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y 1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld

Nadere informatie

Statistiek II. Sessie 4. Feedback Deel 4

Statistiek II. Sessie 4. Feedback Deel 4 Statistiek II Sessie 4 Feedback Deel 4 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 4 We hebben besloten de bekomen grafieken in R niet in het document in te voegen, dit omdat het document met

Nadere informatie

Oplossingen hoofdstuk XI

Oplossingen hoofdstuk XI Oplossingen hoofdstuk XI. Hierbij vind je de resultaten van het onderzoek naar de relatie tussen een leestest en een schoolrapport voor lezen. Deze gegevens hebben betrekking op een regressieanalyse bij

Nadere informatie

Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 13-14

Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 13-14 Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 1314 Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 1314 Figuren en formules

Nadere informatie

Feedback examen Statistiek II Juni 2011

Feedback examen Statistiek II Juni 2011 Feedback examen Statistiek II Juni 2011 Bij elke vraag is alternatief A correct. 1 De variabele X is Student verdeeld in een bepaalde populatie, met verwachting µ X en variantie σ 2 X. Je trekt steekproeven

Nadere informatie

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Inleveren: Uiterlijk 15 februari voor 16.00 in mijn postvakje Afspraken Overleg is toegestaan, maar iedereen levert zijn eigen werk in. Overschrijven

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

Uitvoer van analyses (SPSS 16) voor het Faalfeedback en Oriëntatie voorbeeld in hoofdstuk 7 (Herhaalde metingen) >

Uitvoer van analyses (SPSS 16) voor het Faalfeedback en Oriëntatie voorbeeld in hoofdstuk 7 (Herhaalde metingen) > Uitvoer van analyses (SPSS 6) voor het aalfeedback en Oriëntatie voorbeeld in hoofdstuk 7 (Herhaalde metingen) > ** Berekening van lineaire en kwadratische trendvariabele. Compute ylin = -.77678 * y +

Nadere informatie

Methoden van Onderzoek en Statistiek, Deeltentamen 2, 29 maart 2012 Versie 2

Methoden van Onderzoek en Statistiek, Deeltentamen 2, 29 maart 2012 Versie 2 Vraag 1. Voor welk van de onderstaande variabelen zal een placebo effect waarschijnlijk het grootst zijn? 1. Haarlengte. 2. Lichaamstemperatuur. 3. Mate van tevredenheid met de behandeling. 4. Hemoglobinegehalte

Nadere informatie

Wiskunde B - Tentamen 2

Wiskunde B - Tentamen 2 Wiskunde B - Tentamen Tentamen van Wiskunde B voor CiT (57) Donderdag 4 april 005 van 900 tot 00 uur Dit tentamen bestaat uit 8 opgaven, 3 tabellen en formulebladen Vermeld ook je studentnummer op je werk

Nadere informatie

Inhoud. Data. Analyse van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox

Inhoud. Data. Analyse van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox Bram Ramaekers Bianca de Greef KEMTA Masterclass Inhoud Data Kaplan-Meier curve Hazard rate Log-rank test Hazard ratio Cox regressie

Nadere informatie

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Formuleblad Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Plaats van de median berekenen: Oneven aantal observaties: (n+1)/2 Even aantal observaties: gemiddelde van de

Nadere informatie

Statistiek II. Sessie 5. Feedback Deel 5

Statistiek II. Sessie 5. Feedback Deel 5 Statistiek II Sessie 5 Feedback Deel 5 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 5 1 Statismex, gewicht en slaperigheid2 1. Lineair model: slaperigheid2 = β 0 + β 1 dosis + β 2 bd + ε H 0 :

Nadere informatie

Voorbeeldtentamen Statistiek voor Psychologie

Voorbeeldtentamen Statistiek voor Psychologie Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

(slope in het Engels) en het snijpunt met de y-as, b 0

(slope in het Engels) en het snijpunt met de y-as, b 0 8. Regressie Een introductie Al vaak is genoemd dat statistische modellen allemaal neerkomen op uitkomst = model + error. Dit model kun je ook gebruiken om de uitkomst te voorspellen, met een correlatie

Nadere informatie

Gebruik van Correlatiecoëfficiënt in onderzoek

Gebruik van Correlatiecoëfficiënt in onderzoek Gebruik van Correlatiecoëfficiënt in onderzoek Wim Krijnen Lector Analyse Technieken voor Praktijkonderzoek Lectoraat Healthy Ageing, Allied Health Care and Nursing Hanze University of Applied Sciences

Nadere informatie

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen.

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen. Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen. 1. (a) In de appendix van deze vraag, is een dataset gegeven met de corresponderende

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 3 februari 2012

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 3 februari 2012 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 3 februari 2012 - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 27 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

Toegepaste Statistiek, Dag 7 1

Toegepaste Statistiek, Dag 7 1 Toegepaste Statistiek, Dag 7 1 Statistiek: Afkomstig uit het Duits: De studie van politieke feiten en cijfers. Afgeleid uit het latijn: status, staat, toestand Belangrijkste associatie: beschrijvende statistiek

Nadere informatie

College 7 Tweeweg Variantie-Analyse

College 7 Tweeweg Variantie-Analyse College 7 Tweeweg Variantie-Analyse - Leary: Hoofdstuk 12 (p. 255 t/m p. 262) - MM&C: Hoofdstuk 12 (p. 618 t/m p. 623 ), Hoofdstuk 13 - Aanvullende tekst 9, 10, 11 Jolien Pas ECO 2012-2013 Het Experiment

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 14 Donderdag 28 Oktober 1 / 37 2 Statistiek Indeling: Hypothese toetsen Schatten 2 / 37 Vragen 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2S390) op maandag 19-11-2001, 14.00-17.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Les 5: Analysis of variance

Les 5: Analysis of variance Les 5: Analysis of variance 2de bachelor in de chemie en biologie 14/11/2018 Jeroen Gilis Gebaseerd op slides Caroline De Tender Testen die we tot nu toe gezien hebben: Toetsen van één gemiddelde ten opzichte

Nadere informatie

Classification - Prediction

Classification - Prediction Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training

Nadere informatie

Eindtoets Toegepaste Biostatistiek

Eindtoets Toegepaste Biostatistiek Eindtoets Toegepaste Biostatistiek 2013-2014 29 januari 2014 Dit tentamen bestaat uit vier opgaven, onderverdeeld in 24 subvragen. Begin bij het maken van een nieuwe opgave steeds op een nieuw antwoordvel.

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 8 september 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, 9.00-12.00 uur

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, 9.00-12.00 uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (DM4) woensdag 8 oktober 9, 9.-. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven Statistisch

Nadere informatie

variantie: achtergronden en berekening

variantie: achtergronden en berekening variantie: achtergronden en berekening Hugo Quené opleiding Taalwetenschap Universiteit Utrecht 8 sept 1995 aangepast 8 mei 007 1 berekening variantie Als je de variantie met de hand moet uitrekenen, is

Nadere informatie

College 3 Meervoudige Lineaire Regressie

College 3 Meervoudige Lineaire Regressie College 3 Meervoudige Lineaire Regressie - Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2) Jolien Pas ECO 2012-2013 'Computerprogramma voorspelt Top 40-hits Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html

Nadere informatie