Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Herkansing Inleiding Intelligente Data Analyse Datum: 3-3-2003 Tijd: 14.00-17.00, BBL 508 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen. 2. Laat bij het uitvoeren van berekeningen zien hoe u aan een antwoord gekomen bent. Als u alleen een antwoord opschrijft en dat is fout, rest ons niets anders dan het geheel fout te rekenen. Opgave 1 Korte vragen (25 punten) Geef korte, ter zake doende antwoorden op de volgende vragen: a) Wat verstaan we onder de curse of dimensionality als het gaat om het schatten van een kansdichtheid (density estimation)? b) Wanneer we een lineair regressiemodel met de kleinste kwadraten methode schatten op basis van een steekproef van n waarnemingen, dan geldt n i=1 e i = 0. Is het ook waar dat n i=1 ε i = 0? Leg uit. c) Iemand beweert: De kleinste-kwadraten methode voor lineaire regressie is alleen correct wanneer Y normaal verdeeld is. Wat is uw antwoord hierop? d) Zoals bekend lineariseert de logit transformatie ( ) π π = ln 1 π de logistische responsfunctie. Waarom kunnen we deze transformatie dan niet gewoon op de individuele waarnemingen Y i toepassen, en daarna een lineaire responsfunctie schatten? 1

e) Een student beweert: Het toevoegen van verklarende variabelen aan een regressiemodel kan nooit leiden tot een afname van R 2, dus we moeten gewoon alle beschikbare verklarende variabelen in het model opnemen. Wat is uw reactie hierop? Opgave 2 Lineaire Regressie (30 punten) Uitgebreide studies hebben aangetoond dat de prestaties van werknemers afhangen van de temperatuur in de werkomgeving volgens het model Y = 230 2x + ε Hierin geeft de variabele x de temperatuur in graden Celcius en Y de prestaties van een werknemer (in een bepaalde eenheid); de relatie geldt voor 20 x 35. Een ondernemer vermoedt dat in zijn bedrijf de temperatuur een nog sterkere negatieve invloed heeft op de pretaties. Hij besluit enige waarnemingen te doen, met de volgende resultaten: i 1 2 3 4 5 6 7 x i 31 25 27 23 32 22 29 y i 80 105 120 105 70 120 100 Op basis van deze waarnemingen schatten we het model Y = β 0 + β 1 x + ε Neem aan dat de gebruikelijke veronderstellingen van het lineaire regressiemodel van toepassing zijn. a) Bereken de kleinste-kwadraten schattingen van β 0 en β 1. b) Welk percentage van de variatie in prestatie wordt door de variatie in temperatuur verklaard? c) Ga met behulp van een toets na of het vermoeden van de ondernemer juist kan worden bevonden. Neem hierbij α = 0.05. Geef de nulhypothese, de alternatieve hypothese, de beslissingsregel en de conclusie. d) Om de resultaten op een congres in de Verenigde Staten te kunnen presenteren moet de temperatuur in graden Fahrenheit worden uitgedrukt. Geef de regressievergelijking die u op het congres gaat presenteren (Omrekening van graden Celsius naar graden Fahrenheit gebeurt door het aantal graden Celsius met 9/5 te vermenigvuldigen en bij het zo ontstane getal nog 32 op te tellen). 2

Opgave 3 Logistische Regressie (15 punten) Onderstaande tabel geeft de testresultaten van het afvuren van 25 luchtdoelraketten op doelen met uiteenlopende snelheid. Het resultaat van iedere test is ofwel een treffer (y = 1) of een misser (y = 0). De verklarende variabele x geeft de snelheid van het doel gemeten in knopen. Snelheid doel Snelheid doel Test (x) in knopen y Test (x) in knopen y 1 400 0 14 330 1 2 220 1 15 280 1 3 490 0 16 210 1 4 210 1 17 300 1 5 500 0 18 470 1 6 270 0 19 230 0 7 200 1 20 430 0 8 470 0 21 460 0 9 480 0 22 220 1 10 310 1 23 250 1 11 240 1 24 200 1 12 490 0 25 390 0 13 420 0 We schatten het model E(y) = P (y = 1) = exp(β 0 + β 1 x) 1 + exp(β 0 + β 1 x) met behulp van maximum likelihood. Dit levert onder andere de volgende resultaten op Coefficients: Value Std. Error (Intercept) 6.07086259 2.105830002 doel.snelheid -0.01770463 0.006065314 Model Deviance: 20.36366 on 23 degrees of freedom a) We berekenen dat exp(50 ˆβ 1 ) = exp( 0.89) 0.41. Hoe dienen we dit getal te interpreteren? b) Ga door middel van een toets na of een toename van de snelheid van het doelobject een negatieve invloed heeft op de trefkans bij α = 0.05. (Neem aan dat de steekproefomvang zodanig is, dat de asymptotische verdeling van de maximum likelihood schatters van toepassing is). Geef de nulhypothese, de alternatieve hypothese, de beslissingsregel en de conclusie. 3

Iemand beweert dat voor een goede voorspelling van de trefkans er ook een kwadratische term in x in het model moet worden opgenomen. We schatten daarom tevens het alternatieve model E(y) = P (y = 1) = exp(β 0 + β 1 x + β 2 x 2 ) 1 + exp(β 0 + β 1 x + β 2 x 2 ) met behulp van maximum likelihood. Dit levert de volgende resultaten op Coefficients: Value Std. Error (Intercept) 6.192757e+000 9.01877932046 doel.snelheid -1.846563e-002 0.05505815155 doel.snelheid.2 1.100548e-006 0.00007910137 Model Deviance: 20.36346 on 22 degrees of freedom Hierbij bevat de rij doel.snelheid.2 de resultaten voor de kwadratische term. c) Bereken de AIC score van het lineaire en het kwadratische model en geef aan welke van de twee op basis van die score de voorkeur geniet. Opgave 4 Discriminantanalyse (30 punten) Gegeven is de trainingsverzameling 2 5 X 1 = 0 3 X 2 = 1 1 0 6 2 4 1 2 X 3 = 1 2 0 0 1 4 waarbij X 1 drie waarnemingen van x = [x 1 x 2 ] T voor groep 1 bevat, X 2 drie waarnemingen van x voor groep 2, en X 3 drie waarnemingen van x voor groep 3. Bijvoorbeeld: de eerste waarneming van groep 1 heeft de waarden x 1 = 2 en x 2 = 5. De groepsgemiddelden zijn derhalve [ ] 1 x 1 = 3 De gepoolde covariantiematrix is [ S = [ ] 1 x 2 = 4 1 1/3 1/3 4 [ x 3 = Neem verder aan dat de priorkansen van de drie groepen gelijk zijn, dat wil zeggen: π 1 = π 2 = π 3. ] 0 2 ] 4

a) Schat de lineaire discriminantfuncties f 1 (x), f 2 (x) en f 3 (x) voor de drie groepen. b) Classificeer de nieuwe waarneming x 0 = [ 2 1] T op basis van het resultaat onder a. c) Bereken S 1 (de zuivere schatter van de covariantiematrix van groep 1) en S 2 op basis van de waarnemingen in de trainingsverzameling. Lijkt op basis van de waarden van S 1 en S 2 aan de veronderstellingen van lineaire discriminantanalyse te zijn voldaan? Leg uit. EINDE 5