Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Vergelijkbare documenten
11. Multipele Regressie en Correlatie

9. Lineaire Regressie en Correlatie

HOOFDSTUK VII REGRESSIE ANALYSE

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent.

Data analyse Inleiding statistiek

Hoofdstuk 10: Regressie

Statistiek voor A.I. College 2. Donderdag 13 September 2012

mlw stroom 2.1: Statistisch modelleren

Examen Statistiek I Feedback

Populaties beschrijven met kansmodellen

Kansrekening en Statistiek

College 3 Meervoudige Lineaire Regressie

College 2 Enkelvoudige Lineaire Regressie

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

1. Reductie van error variantie en dus verhogen van power op F-test

Statistiek en Data Analyse Opgavenserie 3: Lineaire regressie

Gegevensverwerving en verwerking

Toegepaste data-analyse: oefensessie 2

Oefenvragen bij Statistics for Business and Economics van Newbold

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen.

Toegepaste Statistiek, Dag 7 1

Examen G0N34 Statistiek

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Hoofdstuk 2: Verbanden

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

Kansrekening en Statistiek

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Hoofdstuk 8: Multipele regressie Vragen

Les 1: Waarschijnlijkheidrekening

Les 5: ANOVA. Elke Debrie 1 Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 28 november 2018

Feedback examen Statistiek II Juni 2011

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO

Examen G0N34 Statistiek

Examen Kansrekening en Wiskundige Statistiek: oplossingen

(2016.1) Schouder: Secundair Impingement-syndroom

Tentamen Biostatistiek 2 voor BMT (2DM50), op maandag 2 juli uur

3de bach TEW KBM. Theorie. uickprinter Koningstraat Antwerpen ,00

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

Statistiek. Met het rekentoestel CASIO Collège fx-92b 2D+ kunnen statistische berekeningen in één of in twee variabelen uitgevoerd worden.

DH19 Bedrijfsstatistiek MC, 2e Bach Hir, Juni 2009

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

Spreidingsdiagram, kleinste-kwadraten regressielijn, correlatiecoefficient

Nationaal geluksonderzoek. Deel 3: opvoeding en onderwijs

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

Statistiek ( ) eindtentamen

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

4 Domein STATISTIEK - versie 1.2

Toegepaste data-analyse: sessie 3

Toelichting op de resultaten van de korte enquête (quick scan) René Alberts juni 2011

10. Moderatie, mediatie en nog meer regressie

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Voorbeeldtentamen Statistiek voor Psychologie

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3

Causale modellen: Confounding en mediatie. Harry Ganzeboom Kwantitatieve Methoden voor PMC-BCO College 2: 25 april 2016

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

(slope in het Engels) en het snijpunt met de y-as, b 0

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Oplossingen hoofdstuk XI

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Samenvatting Nederlands

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Regression Analysis for Interval-Valued Data

H6: Enkelvoudige lineaire regressie

BETROUWBAARHEIDSINTERVAL REEKS 1

beoordelingskader zorgvraagzwaarte

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 5 Een populatie: parametrische toetsen

Les 5: Analysis of variance

Vereenvoudigde procedure voor het vaststellen van karakteristieke vermoeiingsrelaties voor gebruik in de standaard ontwerpprogramma's

Statistiek voor A.I. College 14. Dinsdag 30 Oktober

Les 1: de normale distributie

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

Het blijkt dat dit eigenlijk alleen lukt met de exponentiële methode.

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Analyse van confounders en mediatoren. Cursus Bachelor Project 2 B&O College 3 Harry B.G. Ganzeboom

Statistiek voor A.I.

College 6 Eenweg Variantie-Analyse

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Veel van weinig. Hoe vinden we diagnostische markers voor kanker op basis van een beperkt aantal genetische profielen?

Kruis per vraag slechts één vakje aan op het antwoordformulier.

Dit jaar gaan we MULTIVARIAAT TOETSEN. Bijvoorbeeld: We willen zien of de scores op taal en rekenen van kinderen afwijken in de populatie.

Statistiek II. Sessie 5. Feedback Deel 5

1. Gegeven zijn de itemsores van 8 personen op een test van 3 items

G0N11C Statistiek & data-analyse Project tweede zittijd

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Beschrijvende statistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Principe Maken van een Monte Carlo data-set populatie-parameters en standaarddeviaties standaarddeviatie van de bepaling statistische verdeling

Kansrekening en Statistiek

Geachte heer Jabben, Met vriendelijke groet, Henk. RIVM T.a.v. de heer ir. J. Jabben Postbus BA BILTHOVEN 1111i1~ Iiiililil

Interpretatie van de data

1BA PSYCH Statistiek 1 Oefeningenreeks 2 1

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Transcriptie:

Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer Y i = ρy i 1 + ɛ i (i = 1, 2, 3). Zoek de variantie-covariantie matrix van Y = (Y 1, Y 2, Y 3 ). Bereken ook de correlatie tussen Y 1 en Y 2 en tussen Y 1 en Y 3. 2. Stel dat we bij standaard, multivariate lineaire regressie de verklarende variabelen x ij herschalen naar w ij zodat x ij = k j w ij voor alle individuen i = 1,..., n, en covariaten j van 1 tot p 1. Bewijs dat Ŷ onveranderd blijft onder deze herschaling. 3. Gegeven het volledige rank model, zoals hierboven in vraagje 2 (zonder herschaling). Stel dat we willen testen H : β j = 0 voor één bepaalde j 0. Laat R 2 H de determinatie-coëfficiënt van het model met β j = 0 zijn. (a) Bewijs dat de F-statistiek om H te testen gegeven wordt door F = R2 RH 2 n p 1 R 2 1 (b) Leid af dat R 2 nooit groter kan worden wanneer men een β coëfficiënt gelijkstelt aan 0. Vraag 2 In het artikel Predictors of depression in a sample of 1,012 primary care patients with osteoarthritis (2007) bestudeert men de mate waarin pijn en andere karakteristieken van patiënten met artritis, een depressiescore voorspellen. Daartoe worden in 75 dokterspraktijken, 1,250 enquêtes uitgedeeld. 1,012 respondenten leverden data aan die in dit artikel werden geanalyzeerd. Gegevens over pijn en de fysieke conditie van de patiënt werden verzameld in een score, waarbij hogere waarden een slechtere fysieke conditie aangeven. Deelscores worden vermeld onder de naam Lower body, Upper body, Symptom, en Social deze geven respectievelijk aan in welke mate de patiënt problemen heeft aan het onder- of bovenlichaam, met 1

symptomen en sociaal contact. De leeftijd, age, is gemeten in jaren en de body mass index is het gewicht in kg. gedeeld door het kwadraat van de lengte (in m 2 ). De respons variabele Y is een totale depressiescore, de PHQ-9 score gemeten op een schaal van 0 (niet depressief) tot 27 (zwaar depressief). De geobseerveerde waarden zijn gemiddeld 15.73 met standaard deviatie 4.7. In tabel 3 wordt voor een reeks van mogelijke predictoren van de depressiescore, eerst de gemeten waarden van de predictor samengevat (in kolom 1) en vervolgens de correlatiecoëfficiënt berekend (in kolom 2). Bekijk de variabele Body mass index. Als Y i de totale depressiescore aangeeft voor het i-de individu, terwijl x i de variabele Body mass index is, beschouw dan het lineaire regressie model met ɛ i verdeeld als N(0, σ 2 ). Y i = β 0 + β 1 x i + ɛ i, Leid met behulp van de gegevens in tabel 3 de geschatte waarden af voor de regressiecoëfficiënten en de MSE in dit model. Leg uit hoe u daartoe komt. Vraag 3 We bekijken tenslotte in tabel 4 de resultaten van een voorwaartse stapsgewijze regressieprocedure uitgevoerd op deze data. 1. Neem aan dat de geschatte waarde voor de constante in dit model gelijk is aan 15. Wat is dan de technische interpretatie van deze waarde, binnen dit model? 2. Hoe verklaart u dat Body mass index nog slechts een p-waarde van 0.02 heeft terwijl we voor die variabele in tabel 3 een veel meer significant resultaat vonden? 3. Hoe zou u onderzoeken of de 3 variabelen in blok 1 gezamenlijk nog iets significants kunnen toevoegen aan de predictie gemaakt op basis van de eerste 6 variabelen in de tabel? 2

3

Vraag 4 We bekijken de studie The effect of AIR pollution on Lung development from 10 to 18 years of age (NEJM, 2004). Voor een steekproef van gemeenten hebben onderzoekers voor jongens en meisjes een gemiddeld verschil in FEV 1 (Forced expiratory volume per seconde) gemeten over een periode van 8 jaar alsook het gemiddeld niveau van vervuilende elementen in de gemeente. Resultaten worden getoond in Figure 2 hieronder. 4

1. Schrijf een multivariaat lineair regressiemodel op waarbij de observaties de punten zijn (bekeken als onafhankelijke observaties) en met de fit van het model voorgesteld door de rechte in Figure 2. Definieer uw notatie en de assumpties van zo n model. 2. Bekijk de concepten van confounding en interactie in deze context en leg uit welke rol ze al dan niet kunnen spelen bij de interpretatie van dit model. 3. Leid (benaderend) geschatte waarden voor alle model parameters (regressie coëfficiënten en residuele standaardafwijking) af uit de figuur. 5