Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Vergelijkbare documenten
Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

9. Lineaire Regressie en Correlatie

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Tentamen Biostatistiek 3 / Biomedische wiskunde

Hoofdstuk 10: Regressie

Hoofdstuk 5 Een populatie: parametrische toetsen

11. Multipele Regressie en Correlatie

College 2 Enkelvoudige Lineaire Regressie

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

Toets deel 2 Data-analyse en retrieval Vrijdag 30 Juni 2017:

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Wiskunde B - Tentamen 2

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Hertentamen Biostatistiek 3 / Biomedische wiskunde

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

Hoofdstuk 3 Statistiek: het toetsen

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

Examen G0N34 Statistiek

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Voorbeeldtentamen Statistiek voor Psychologie

Statistiek ( ) eindtentamen

Feedback examen Statistiek II Juni 2011

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen.

HOOFDSTUK VII REGRESSIE ANALYSE

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Opgaven hoofdstuk 12 Enkelvoudige lineaire regressie

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

DH19 Bedrijfsstatistiek MC, 2e Bach Hir, Juni 2009

Hoofdstuk 12: Eenweg ANOVA

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

Toegepaste Statistiek, Dag 7 1

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek (2S390) op maandag ,

Examen G0N34 Statistiek

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

VU University Amsterdam 2018, Maart 27

Hertentamen Voortgezette biostatistiek / Biomedische wiskunde

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Data analyse Inleiding statistiek

werkcollege 6 - D&P9: Estimation Using a Single Sample

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

Hoofdstuk 6 Twee populaties: parametrische toetsen

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, uur.

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Herkansing eindtoets statistiek voor HBO

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Modelselectie. Lieven Clement. 2 de bach. in de Biologie, Chemie, Biochemie en Biotechnologie en Biomedische Wetenschappen

Examen Kansrekening en Wiskundige Statistiek: oplossingen

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

Wiskunde B - Tentamen 1

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

20. Multilevel lineaire modellen

Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 22 april uur

Tentamen Statistische methoden MST-STM 8 april 2010, 9:00 12:00

Oefenvragen bij Statistics for Business and Economics van Newbold

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

statviewtoetsen 18/12/ Statview toets, 2K WE, 30 mei Fitness-campagne Dominantie bij muizen... 4

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3

Les 5: Analysis of variance

Statistiek voor A.I. College 14. Dinsdag 30 Oktober

Tentamen Voortgezette biostatistiek / Biomedische wiskunde

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

Kansrekening en Statistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

Statistiek voor A.I.

(c) Bepaal de kans dat de linker bedelaar van 10 voorbijgangers in totaal exact 420 ct ontvangt.

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

Toetsen van hypothesen

Toegepaste Statistiek, Week 6 1

Statistiek en Data Analyse Opgavenserie 3: Lineaire regressie

Data analyse Inleiding statistiek

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Statistiek II. Sessie 4. Feedback Deel 4

Tentamen Wiskunde A CENTRALE COMMISSIE VOORTENTAMEN WISKUNDE. Datum: 19 december Aantal opgaven: 6

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

1. Reductie van error variantie en dus verhogen van power op F-test

Kansrekening en Statistiek

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Het tentamen heeft 25 onderdelen. Met ieder onderdeel kan maximaal 2 punten verdiend worden.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

E Y = ln(β 1 x) ln β 1 + β 2

FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie

Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 13-14

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Tentamen Biostatistiek 2 voor BMT (2DM50), op maandag 2 juli uur

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 10 april uur

Examen Statistiek I Feedback

Kansrekening en Statistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN

Kansrekening en stochastische processen 2S610

Transcriptie:

Tentamen Inleiding Intelligente Data Analyse Datum: 19-12-2002 Tijd: 9.00-12.00, BBL 420 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen. 2. Laat bij het uitvoeren van berekeningen zien hoe u aan een antwoord gekomen bent. Als u alleen een antwoord opschrijft en dat is fout, rest ons niets anders dan het geheel fout te rekenen. Opgave 1 Korte vragen (30 punten) Geef korte, ter zake doende antwoorden op de volgende vragen: a) Wat verstaan we onder overfitting? b) Omschrijf het probleem van multicollineariteit. c) Wat verstaan we onder een zuivere (unbiased) schatter? Wat is naast zuiverheid een tweede belangrijk kwaliteitskenmerk van een schatter? d) Waarom is lineaire regressie minder geschikt wanneer de te verklaren variabele (y) binair is? e) Omschrijf het principe van maximum likelihood schatten. f) Het Akaike Information Criterion (AIC) dat gebruikt wordt voor modelselectie bij lineaire regressie is: AIC = SSE + 2σ 2 p Leg uit welke rol SSE, σ 2 en p in deze expressie spelen, en waarom hun invloed (positief/negatief) op de totale AIC score intuitief plausibel is. 1

g) Stel we hebben een classificatieprobleem met 3 groepen en 10 variabelen. Hoeveel parameters moeten we in totaal schatten voor kwadratische discriminantanalyse? Hoeveel voor lineaire discriminantanalyse? h) Een alwetend wezen weet dat de populatieregressiecurve voor een niet nader te specificeren probleem gelijk is aan E(Y ) = 10 + 5x + 2x 2 Een onwetende onderzoeker overweegt drie modelspecificaties, te weten f 1 (x) = β 0 + β 1 x f 2 (x) = β 0 + β 1 x + β 2 x 2 f 3 (x) = β 0 + β 1 x + β 2 x 2 + β 3 x 3 Welk model heeft de grootste bias component van de gemiddelde voorspelfout (mean square error)? Welk model heeft de grootste variantie component van de gemiddelde voorspelfout? Welk model heeft naar verwachting de kleinste gemiddelde voorspelfout bij een steekproefgrootte van n = 100 000? Leg uit. i) Wat wordt er beweerd in de Gauss-Markov stelling? j) Wat is het kenmerkende verschil tussen de functie-schatten (function estimation) benadering van classificatieproblemen, en de dichtheid-schatten (density estimation) benadering? Noem voor beide één techniek die volgens die benadering te werk gaat. Opgave 2 Lineaire Regressie (25 punten) Een stof die gebruikt wordt in biologisch en medisch onderzoek wordt per vliegtuig naar de afnemers vervoerd in dozen van 1000 ampullen. We hebben gegevens van 10 zendingen waarbij het aantal maal dat een doos van het ene vliegtuig in het andere is overgeladen (x) is vastgelegd, alsmede het aantal gebroken ampullen zoals vastgesteld bij aankomst op de eindbestemming (y). Deze gegevens zijn in onderstaande tabel weergegeven: i 1 2 3 4 5 6 7 8 9 10 x i 1 0 2 0 3 1 0 1 2 0 y i 16 9 17 12 22 13 8 15 19 11 Op basis van deze waarnemingen schatten we het model y i = β 0 + β 1 x i + ε i Neem aan dat de gebruikelijke veronderstellingen van het lineaire regressiemodel van toepassing zijn. 2

a) Bereken de kleinste-kwadraten schattingen van β 0 en β 1. b) Geef een puntschatting van het verwachte aantal gebroken ampullen wanneer de doos één keer is overgeladen. Schat tevens de toename in het verwachte aantal gebroken ampullen wanneer de doos niet één maar twee keer wordt overgeladen. c) Geef een 95% betrouwbaarheidsinterval voor β 1. Leg uit hoe we dit interval dienen te interpreteren. d) Toets of er al dan niet een lineaire samenhang is tussen het aantal keren dat een doos wordt overgeladen (x) en het aantal gebroken ampullen (y), bij α = 0.05. Geef de nulhypothese, de alternatieve hypothese, de beslissingsregel en de conclusie. e) Een consultant claimt dat wanneer de doos niet wordt overgeladen, het gemiddelde aantal gebroken ampullen zeker niet meer dan 9 is. Voer een geschikte toets uit om deze claim the verifiëren bij α = 0.025. Geef de nulhypothese, de alternatieve hypothese, de beslissingsregel en de conclusie. f) Welk percentage van de variatie in het aantal gebroken ampullen wordt verklaard door de variatie in het aantal keer dat overgeladen wordt? g) In de volgende zending wordt er twee keer overgeladen. Geef een 99% voorspelinterval voor het aantal gebroken ampullen voor deze zending. Geef aan hoe het voorspelinterval geïnterpreteerd dient te worden. Opgave 3 Logistische Regressie (10 punten) Een Utrechtse gezondheidsinstelling stuurt folders naar inwoners, vooral ouderen, om ze aan te moedigen een griepprik te gaan halen ter bescherming tegen een verwachte griepepidemie. In een kleine studie is aan 50 willekeurig geselecteerde inwoners gevraagd of ze ook daadwerkelijk een griepprik gehaald hebben. Daarnaast zijn gegevens verzameld over hun leeftijd (x 1 ) en gezondheidsbewustzijn. De gegevens over het gezondheidsbewustzijn zijn gecombineerd tot een index (x 2 ). Een inwoner die een griepprik heeft gehad is gecodeerd met y = 1, en een inwoner die geen griepprik heeft gehad met y = 0. We schatten in eerste instantie het model E(y) = P (y = 1) = exp(β 0 + β 1 x 1 + β 2 x 2 ) 1 + exp(β 0 + β 1 x 1 + β 2 x 2 ) met behulp van maximum likelihood. Dit levert onder andere de volgende resultaten op (zie volgende bladzijde) 3

Coefficients: Value Std. Error (Intercept) -21.5821259 6.33965854 leeftijd 0.2217512 0.07359717 index 0.2034849 0.06206469 Deviance: 32.41631 on 47 degrees of freedom a) We berekenen dat exp( ˆβ 1 ) = exp(0.2217512) 1.25. Heeft dit getal een eenvoudige interpretatie? Leg uit. Iemand beweert dat de invloed van leeftijd op het al dan niet halen van een griepprik, afhangt van het gezondheidsbewustzijn van de betreffende persoon. We schatten daarom tevens het alternatieve model E(y) = P (y = 1) = exp(β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 ) 1 + exp(β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 )) met behulp van maximum likelihood. Dit levert de volgende resultaten op Coefficients: Value Std. Error (Intercept) 26.75512936 23.2458565 leeftijd -0.88140146 0.5399075 index -0.82228216 0.4948594 leeftijd:index 0.02365021 0.0117723 Deviance: 24.28312 on 46 degrees of freedom Hierbij bevat de rij leeftijd:index de resultaten voor de interactieterm x 1 x 2. b) We berekenen dat exp( ˆβ 1 ) = exp( 0.88140146) 0.4. Heeft dit getal nog steeds een eenvoudige interpretatie? Leg uit. c) Bereken de AIC score van beide modellen en geef aan welk model op basis van die score de voorkeur geniet. d) Toets of de bewering dat de invloed van leeftijd afhangt van het gezondheidsbewustzijn door de data wordt gestaafd bij α = 0.05. (Neem aan dat de steekproefomvang zodanig is, dat de asymptotische verdeling van de maximum likelihood schatters van toepassing is). 4

Opgave 4 Discriminantanalyse (25 punten) Gegeven is de trainingsverzameling X 1 = 2 12 4 10 X 2 = 5 7 3 9 3 8 4 5 waarbij X 1 drie waarnemingen van x = [x 1 x 2 ] T voor groep 1 bevat, en X 2 drie waarnemingen van x = [x 1 x 2 ] T voor groep 2. Bijvoorbeeld: de eerste waarneming van groep 1 heeft de waarden x 1 = 2 en x 2 = 12. De groepsgemiddelden zijn [ ] [ ] 3 4 x 1 = x 10 2 = 7 De gepoolde covariantiematrix is [ S = 1 1 1 4 Neem verder aan dat de priorkansen van de twee groepen gelijk zijn, dat wil zeggen: π 1 = π 2. a) Schat de lineaire discriminantfuncties f 1 (x) en f 2 (x) voor groep 1 respectievelijk groep 2. b) Geef één lineaire classificatiefunctie voor dit probleem en maak een confusion matrix door die classificatiefunctie op de trainingsverzameling toe te passen. Wat is de in-sample of apparent error rate van de classificatiefunctie? c) Teken de grens tussen de gebieden die (volgens de classificatiefunctie die je bij b) hebt berekend) aan groep 1 respectievelijk groep 2 toebehoren in een spreidingsdiagram van de data. Is er een rechte lijn te vinden die een lagere apparent error rate heeft? d) Statistische discriminantanalyse is gebaseerd op de veronderstelling dat x normaal verdeeld is in iedere groep. Welke extra veronderstelling leidt tot lineaire discriminantfuncties? Lijkt deze veronderstelling op basis van de gegeven trainingsverzameling gerechtvaardigd? Motiveer uw antwoord. ] Zie achterkant voor laatste opgave! 5

Opgave 5 Een alternatieve schatter (10 punten) Stel dat u de helling van het regressiemodel Y i = β 0 + β 1 x i + ε i wil schatten. U heeft echter drie problemen: 1) u bent gestrand op een onbewoond eiland zonder rekenmachine, en 2) u heeft maar drie waarnemingen, en 3) u bent de formules van de kleinste-kwadraten schatters vergeten. U herinnert zich nog wel dat 2 punten een lijn bepalen, en besluit de waarnemingen 2 en 3 alsvolgt te middelen: y = y 2 + y 3 2 x = x 2 + x 3 2 De helling van de lijn die de punten (x 1, y 1 ) en (x, y ) met elkaar verbindt is b 1 = (y y 1 )/(x x 1 ) U besluit deze formule als schatter van β 1 te gebruiken. Neem verder aan dat de gebruikelijke veronderstellingen van het lineaire regressiemodel van toepassing zijn. a) Laat zien dat b 1 een lineaire schatter is. b) Laat zien dat b 1 een zuivere schatter van β 1 is. c) Bepaal de variantie van b 1. d) Is b 1 net zo goed als de kleinste-kwadraten schatter? Motiveer uw antwoord. EINDE 6