Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Tentamen Inleiding Intelligente Data Analyse Datum: 19-12-2002 Tijd: 9.00-12.00, BBL 420 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen. 2. Laat bij het uitvoeren van berekeningen zien hoe u aan een antwoord gekomen bent. Als u alleen een antwoord opschrijft en dat is fout, rest ons niets anders dan het geheel fout te rekenen. Opgave 1 Korte vragen (30 punten) Geef korte, ter zake doende antwoorden op de volgende vragen: a) Wat verstaan we onder overfitting? b) Omschrijf het probleem van multicollineariteit. c) Wat verstaan we onder een zuivere (unbiased) schatter? Wat is naast zuiverheid een tweede belangrijk kwaliteitskenmerk van een schatter? d) Waarom is lineaire regressie minder geschikt wanneer de te verklaren variabele (y) binair is? e) Omschrijf het principe van maximum likelihood schatten. f) Het Akaike Information Criterion (AIC) dat gebruikt wordt voor modelselectie bij lineaire regressie is: AIC = SSE + 2σ 2 p Leg uit welke rol SSE, σ 2 en p in deze expressie spelen, en waarom hun invloed (positief/negatief) op de totale AIC score intuitief plausibel is. 1

g) Stel we hebben een classificatieprobleem met 3 groepen en 10 variabelen. Hoeveel parameters moeten we in totaal schatten voor kwadratische discriminantanalyse? Hoeveel voor lineaire discriminantanalyse? h) Een alwetend wezen weet dat de populatieregressiecurve voor een niet nader te specificeren probleem gelijk is aan E(Y ) = 10 + 5x + 2x 2 Een onwetende onderzoeker overweegt drie modelspecificaties, te weten f 1 (x) = β 0 + β 1 x f 2 (x) = β 0 + β 1 x + β 2 x 2 f 3 (x) = β 0 + β 1 x + β 2 x 2 + β 3 x 3 Welk model heeft de grootste bias component van de gemiddelde voorspelfout (mean square error)? Welk model heeft de grootste variantie component van de gemiddelde voorspelfout? Welk model heeft naar verwachting de kleinste gemiddelde voorspelfout bij een steekproefgrootte van n = 100 000? Leg uit. i) Wat wordt er beweerd in de Gauss-Markov stelling? j) Wat is het kenmerkende verschil tussen de functie-schatten (function estimation) benadering van classificatieproblemen, en de dichtheid-schatten (density estimation) benadering? Noem voor beide één techniek die volgens die benadering te werk gaat. Opgave 2 Lineaire Regressie (25 punten) Een stof die gebruikt wordt in biologisch en medisch onderzoek wordt per vliegtuig naar de afnemers vervoerd in dozen van 1000 ampullen. We hebben gegevens van 10 zendingen waarbij het aantal maal dat een doos van het ene vliegtuig in het andere is overgeladen (x) is vastgelegd, alsmede het aantal gebroken ampullen zoals vastgesteld bij aankomst op de eindbestemming (y). Deze gegevens zijn in onderstaande tabel weergegeven: i 1 2 3 4 5 6 7 8 9 10 x i 1 0 2 0 3 1 0 1 2 0 y i 16 9 17 12 22 13 8 15 19 11 Op basis van deze waarnemingen schatten we het model y i = β 0 + β 1 x i + ε i Neem aan dat de gebruikelijke veronderstellingen van het lineaire regressiemodel van toepassing zijn. 2

a) Bereken de kleinste-kwadraten schattingen van β 0 en β 1. b) Geef een puntschatting van het verwachte aantal gebroken ampullen wanneer de doos één keer is overgeladen. Schat tevens de toename in het verwachte aantal gebroken ampullen wanneer de doos niet één maar twee keer wordt overgeladen. c) Geef een 95% betrouwbaarheidsinterval voor β 1. Leg uit hoe we dit interval dienen te interpreteren. d) Toets of er al dan niet een lineaire samenhang is tussen het aantal keren dat een doos wordt overgeladen (x) en het aantal gebroken ampullen (y), bij α = 0.05. Geef de nulhypothese, de alternatieve hypothese, de beslissingsregel en de conclusie. e) Een consultant claimt dat wanneer de doos niet wordt overgeladen, het gemiddelde aantal gebroken ampullen zeker niet meer dan 9 is. Voer een geschikte toets uit om deze claim the verifiëren bij α = 0.025. Geef de nulhypothese, de alternatieve hypothese, de beslissingsregel en de conclusie. f) Welk percentage van de variatie in het aantal gebroken ampullen wordt verklaard door de variatie in het aantal keer dat overgeladen wordt? g) In de volgende zending wordt er twee keer overgeladen. Geef een 99% voorspelinterval voor het aantal gebroken ampullen voor deze zending. Geef aan hoe het voorspelinterval geïnterpreteerd dient te worden. Opgave 3 Logistische Regressie (10 punten) Een Utrechtse gezondheidsinstelling stuurt folders naar inwoners, vooral ouderen, om ze aan te moedigen een griepprik te gaan halen ter bescherming tegen een verwachte griepepidemie. In een kleine studie is aan 50 willekeurig geselecteerde inwoners gevraagd of ze ook daadwerkelijk een griepprik gehaald hebben. Daarnaast zijn gegevens verzameld over hun leeftijd (x 1 ) en gezondheidsbewustzijn. De gegevens over het gezondheidsbewustzijn zijn gecombineerd tot een index (x 2 ). Een inwoner die een griepprik heeft gehad is gecodeerd met y = 1, en een inwoner die geen griepprik heeft gehad met y = 0. We schatten in eerste instantie het model E(y) = P (y = 1) = exp(β 0 + β 1 x 1 + β 2 x 2 ) 1 + exp(β 0 + β 1 x 1 + β 2 x 2 ) met behulp van maximum likelihood. Dit levert onder andere de volgende resultaten op (zie volgende bladzijde) 3

Coefficients: Value Std. Error (Intercept) -21.5821259 6.33965854 leeftijd 0.2217512 0.07359717 index 0.2034849 0.06206469 Deviance: 32.41631 on 47 degrees of freedom a) We berekenen dat exp( ˆβ 1 ) = exp(0.2217512) 1.25. Heeft dit getal een eenvoudige interpretatie? Leg uit. Iemand beweert dat de invloed van leeftijd op het al dan niet halen van een griepprik, afhangt van het gezondheidsbewustzijn van de betreffende persoon. We schatten daarom tevens het alternatieve model E(y) = P (y = 1) = exp(β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 ) 1 + exp(β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 )) met behulp van maximum likelihood. Dit levert de volgende resultaten op Coefficients: Value Std. Error (Intercept) 26.75512936 23.2458565 leeftijd -0.88140146 0.5399075 index -0.82228216 0.4948594 leeftijd:index 0.02365021 0.0117723 Deviance: 24.28312 on 46 degrees of freedom Hierbij bevat de rij leeftijd:index de resultaten voor de interactieterm x 1 x 2. b) We berekenen dat exp( ˆβ 1 ) = exp( 0.88140146) 0.4. Heeft dit getal nog steeds een eenvoudige interpretatie? Leg uit. c) Bereken de AIC score van beide modellen en geef aan welk model op basis van die score de voorkeur geniet. d) Toets of de bewering dat de invloed van leeftijd afhangt van het gezondheidsbewustzijn door de data wordt gestaafd bij α = 0.05. (Neem aan dat de steekproefomvang zodanig is, dat de asymptotische verdeling van de maximum likelihood schatters van toepassing is). 4

Opgave 4 Discriminantanalyse (25 punten) Gegeven is de trainingsverzameling X 1 = 2 12 4 10 X 2 = 5 7 3 9 3 8 4 5 waarbij X 1 drie waarnemingen van x = [x 1 x 2 ] T voor groep 1 bevat, en X 2 drie waarnemingen van x = [x 1 x 2 ] T voor groep 2. Bijvoorbeeld: de eerste waarneming van groep 1 heeft de waarden x 1 = 2 en x 2 = 12. De groepsgemiddelden zijn [ ] [ ] 3 4 x 1 = x 10 2 = 7 De gepoolde covariantiematrix is [ S = 1 1 1 4 Neem verder aan dat de priorkansen van de twee groepen gelijk zijn, dat wil zeggen: π 1 = π 2. a) Schat de lineaire discriminantfuncties f 1 (x) en f 2 (x) voor groep 1 respectievelijk groep 2. b) Geef één lineaire classificatiefunctie voor dit probleem en maak een confusion matrix door die classificatiefunctie op de trainingsverzameling toe te passen. Wat is de in-sample of apparent error rate van de classificatiefunctie? c) Teken de grens tussen de gebieden die (volgens de classificatiefunctie die je bij b) hebt berekend) aan groep 1 respectievelijk groep 2 toebehoren in een spreidingsdiagram van de data. Is er een rechte lijn te vinden die een lagere apparent error rate heeft? d) Statistische discriminantanalyse is gebaseerd op de veronderstelling dat x normaal verdeeld is in iedere groep. Welke extra veronderstelling leidt tot lineaire discriminantfuncties? Lijkt deze veronderstelling op basis van de gegeven trainingsverzameling gerechtvaardigd? Motiveer uw antwoord. ] Zie achterkant voor laatste opgave! 5

Opgave 5 Een alternatieve schatter (10 punten) Stel dat u de helling van het regressiemodel Y i = β 0 + β 1 x i + ε i wil schatten. U heeft echter drie problemen: 1) u bent gestrand op een onbewoond eiland zonder rekenmachine, en 2) u heeft maar drie waarnemingen, en 3) u bent de formules van de kleinste-kwadraten schatters vergeten. U herinnert zich nog wel dat 2 punten een lijn bepalen, en besluit de waarnemingen 2 en 3 alsvolgt te middelen: y = y 2 + y 3 2 x = x 2 + x 3 2 De helling van de lijn die de punten (x 1, y 1 ) en (x, y ) met elkaar verbindt is b 1 = (y y 1 )/(x x 1 ) U besluit deze formule als schatter van β 1 te gebruiken. Neem verder aan dat de gebruikelijke veronderstellingen van het lineaire regressiemodel van toepassing zijn. a) Laat zien dat b 1 een lineaire schatter is. b) Laat zien dat b 1 een zuivere schatter van β 1 is. c) Bepaal de variantie van b 1. d) Is b 1 net zo goed als de kleinste-kwadraten schatter? Motiveer uw antwoord. EINDE 6