Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer Y i = ρy i 1 + ɛ i (i = 1, 2, 3). Zoek de variantie-covariantie matrix van Y = (Y 1, Y 2, Y 3 ). Bereken ook de correlatie tussen Y 1 en Y 2 en tussen Y 1 en Y 3. 2. Stel dat we bij standaard, multivariate lineaire regressie de verklarende variabelen x ij herschalen naar w ij zodat x ij = k j w ij voor alle individuen i = 1,..., n, en covariaten j van 1 tot p 1. Bewijs dat Ŷ onveranderd blijft onder deze herschaling. 3. Gegeven het volledige rank model, zoals hierboven in vraagje 2 (zonder herschaling). Stel dat we willen testen H : β j = 0 voor één bepaalde j 0. Laat R 2 H de determinatie-coëfficiënt van het model met β j = 0 zijn. (a) Bewijs dat de F-statistiek om H te testen gegeven wordt door F = R2 RH 2 n p 1 R 2 1 (b) Leid af dat R 2 nooit groter kan worden wanneer men een β coëfficiënt gelijkstelt aan 0. Vraag 2 In het artikel Predictors of depression in a sample of 1,012 primary care patients with osteoarthritis (2007) bestudeert men de mate waarin pijn en andere karakteristieken van patiënten met artritis, een depressiescore voorspellen. Daartoe worden in 75 dokterspraktijken, 1,250 enquêtes uitgedeeld. 1,012 respondenten leverden data aan die in dit artikel werden geanalyzeerd. Gegevens over pijn en de fysieke conditie van de patiënt werden verzameld in een score, waarbij hogere waarden een slechtere fysieke conditie aangeven. Deelscores worden vermeld onder de naam Lower body, Upper body, Symptom, en Social deze geven respectievelijk aan in welke mate de patiënt problemen heeft aan het onder- of bovenlichaam, met 1
symptomen en sociaal contact. De leeftijd, age, is gemeten in jaren en de body mass index is het gewicht in kg. gedeeld door het kwadraat van de lengte (in m 2 ). De respons variabele Y is een totale depressiescore, de PHQ-9 score gemeten op een schaal van 0 (niet depressief) tot 27 (zwaar depressief). De geobseerveerde waarden zijn gemiddeld 15.73 met standaard deviatie 4.7. In tabel 3 wordt voor een reeks van mogelijke predictoren van de depressiescore, eerst de gemeten waarden van de predictor samengevat (in kolom 1) en vervolgens de correlatiecoëfficiënt berekend (in kolom 2). Bekijk de variabele Body mass index. Als Y i de totale depressiescore aangeeft voor het i-de individu, terwijl x i de variabele Body mass index is, beschouw dan het lineaire regressie model met ɛ i verdeeld als N(0, σ 2 ). Y i = β 0 + β 1 x i + ɛ i, Leid met behulp van de gegevens in tabel 3 de geschatte waarden af voor de regressiecoëfficiënten en de MSE in dit model. Leg uit hoe u daartoe komt. Vraag 3 We bekijken tenslotte in tabel 4 de resultaten van een voorwaartse stapsgewijze regressieprocedure uitgevoerd op deze data. 1. Neem aan dat de geschatte waarde voor de constante in dit model gelijk is aan 15. Wat is dan de technische interpretatie van deze waarde, binnen dit model? 2. Hoe verklaart u dat Body mass index nog slechts een p-waarde van 0.02 heeft terwijl we voor die variabele in tabel 3 een veel meer significant resultaat vonden? 3. Hoe zou u onderzoeken of de 3 variabelen in blok 1 gezamenlijk nog iets significants kunnen toevoegen aan de predictie gemaakt op basis van de eerste 6 variabelen in de tabel? 2
3
Vraag 4 We bekijken de studie The effect of AIR pollution on Lung development from 10 to 18 years of age (NEJM, 2004). Voor een steekproef van gemeenten hebben onderzoekers voor jongens en meisjes een gemiddeld verschil in FEV 1 (Forced expiratory volume per seconde) gemeten over een periode van 8 jaar alsook het gemiddeld niveau van vervuilende elementen in de gemeente. Resultaten worden getoond in Figure 2 hieronder. 4
1. Schrijf een multivariaat lineair regressiemodel op waarbij de observaties de punten zijn (bekeken als onafhankelijke observaties) en met de fit van het model voorgesteld door de rechte in Figure 2. Definieer uw notatie en de assumpties van zo n model. 2. Bekijk de concepten van confounding en interactie in deze context en leg uit welke rol ze al dan niet kunnen spelen bij de interpretatie van dit model. 3. Leid (benaderend) geschatte waarden voor alle model parameters (regressie coëfficiënten en residuele standaardafwijking) af uit de figuur. 5