Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Vergelijkbare documenten
Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

9. Lineaire Regressie en Correlatie

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Toets deel 2 Data-analyse en retrieval Vrijdag 30 Juni 2017:

Hoofdstuk 10: Regressie

Hoofdstuk 5 Een populatie: parametrische toetsen

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

College 2 Enkelvoudige Lineaire Regressie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

11. Multipele Regressie en Correlatie

Tentamen Biostatistiek 3 / Biomedische wiskunde

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Examen G0N34 Statistiek

Hoofdstuk 12: Eenweg ANOVA

DH19 Bedrijfsstatistiek MC, 2e Bach Hir, Juni 2009

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek (2S390) op maandag ,

Feedback examen Statistiek II Juni 2011

statviewtoetsen 18/12/ Statview toets, 2K WE, 30 mei Fitness-campagne Dominantie bij muizen... 4

HOOFDSTUK VII REGRESSIE ANALYSE

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

Wiskunde B - Tentamen 2

Toegepaste Statistiek, Dag 7 1

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Hoofdstuk 3 Statistiek: het toetsen

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent.

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen.

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Statistiek II. Sessie 5. Feedback Deel 5

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

2. In de klassen 2A en 2B is een proefwerk gemaakt. Je ziet de resultaten in de frequentietabel. 2A 2B

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Tentamenset A. 2. Welke van de volgende beweringen is waar? c. N R N d. R Z R

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

Data analyse Inleiding statistiek

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

Voorbeeldtentamen Statistiek voor Psychologie

Oplossingen hoofdstuk XI

Voorbeeld regressie-analyse

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

Statistiek ( ) eindtentamen

Statistiek II. Sessie 4. Feedback Deel 4

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Les 1: Waarschijnlijkheidrekening

Hoofdstuk 6 Twee populaties: parametrische toetsen

1 Basisbegrippen, W / O voor waar/onwaar

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3

Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 22 april uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

Data analyse Inleiding statistiek

Opgaven hoofdstuk 12 Enkelvoudige lineaire regressie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Wat gaan we doen? Help! Statistiek! Wat is een lineaire relatie? De rechte-lijn-vergelijking: Y = a + b X. Relatie tussen gewicht en lengte

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

Examen G0N34 Statistiek

beoordelingskader zorgvraagzwaarte

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Toegepaste Statistiek, Week 6 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31

Kansrekening en Statistiek

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

Herkansing eindtoets statistiek voor HBO

Tentamen Kansrekening en statistiek wi2105in 25 juni 2007, uur

Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 13-14

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

1. Statistiek gebruiken 1

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Wiskunde B - Tentamen 1

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Hertentamen Biostatistiek 3 / Biomedische wiskunde

Les 5: Analysis of variance

. Dan geldt P(B) = a d. 3 8

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Het tentamen heeft 25 onderdelen. Met ieder onderdeel kan maximaal 2 punten verdiend worden.

Opgeloste Oefeningen Hoofdstuk 8: Het Toetsen van Hypothesen

Oefenvragen bij Statistics for Business and Economics van Newbold

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Antwoordvel Versie A

Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 10 april uur

Tentamen Statistische methoden MST-STM 8 april 2010, 9:00 12:00

1. Inleiding. 2. De analyses. 2.1 Afspraken over kinderopvang versus m/v-verdeling

TECHNISCHE UNIVERSITEIT EINDHOVEN. Eindtoets Experimentele Fysica 1 (3A1X1) - Deel januari 2014 van 14:50 17:00 uur

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK

1. Reductie van error variantie en dus verhogen van power op F-test

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Meetkunde en Lineaire Algebra

Les 1: Waarschijnlijkheidrekening

Transcriptie:

Herkansing Inleiding Intelligente Data Analyse Datum: 3-3-2003 Tijd: 14.00-17.00, BBL 508 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen. 2. Laat bij het uitvoeren van berekeningen zien hoe u aan een antwoord gekomen bent. Als u alleen een antwoord opschrijft en dat is fout, rest ons niets anders dan het geheel fout te rekenen. Opgave 1 Korte vragen (25 punten) Geef korte, ter zake doende antwoorden op de volgende vragen: a) Wat verstaan we onder de curse of dimensionality als het gaat om het schatten van een kansdichtheid (density estimation)? b) Wanneer we een lineair regressiemodel met de kleinste kwadraten methode schatten op basis van een steekproef van n waarnemingen, dan geldt n i=1 e i = 0. Is het ook waar dat n i=1 ε i = 0? Leg uit. c) Iemand beweert: De kleinste-kwadraten methode voor lineaire regressie is alleen correct wanneer Y normaal verdeeld is. Wat is uw antwoord hierop? d) Zoals bekend lineariseert de logit transformatie ( ) π π = ln 1 π de logistische responsfunctie. Waarom kunnen we deze transformatie dan niet gewoon op de individuele waarnemingen Y i toepassen, en daarna een lineaire responsfunctie schatten? 1

e) Een student beweert: Het toevoegen van verklarende variabelen aan een regressiemodel kan nooit leiden tot een afname van R 2, dus we moeten gewoon alle beschikbare verklarende variabelen in het model opnemen. Wat is uw reactie hierop? Opgave 2 Lineaire Regressie (30 punten) Uitgebreide studies hebben aangetoond dat de prestaties van werknemers afhangen van de temperatuur in de werkomgeving volgens het model Y = 230 2x + ε Hierin geeft de variabele x de temperatuur in graden Celcius en Y de prestaties van een werknemer (in een bepaalde eenheid); de relatie geldt voor 20 x 35. Een ondernemer vermoedt dat in zijn bedrijf de temperatuur een nog sterkere negatieve invloed heeft op de pretaties. Hij besluit enige waarnemingen te doen, met de volgende resultaten: i 1 2 3 4 5 6 7 x i 31 25 27 23 32 22 29 y i 80 105 120 105 70 120 100 Op basis van deze waarnemingen schatten we het model Y = β 0 + β 1 x + ε Neem aan dat de gebruikelijke veronderstellingen van het lineaire regressiemodel van toepassing zijn. a) Bereken de kleinste-kwadraten schattingen van β 0 en β 1. b) Welk percentage van de variatie in prestatie wordt door de variatie in temperatuur verklaard? c) Ga met behulp van een toets na of het vermoeden van de ondernemer juist kan worden bevonden. Neem hierbij α = 0.05. Geef de nulhypothese, de alternatieve hypothese, de beslissingsregel en de conclusie. d) Om de resultaten op een congres in de Verenigde Staten te kunnen presenteren moet de temperatuur in graden Fahrenheit worden uitgedrukt. Geef de regressievergelijking die u op het congres gaat presenteren (Omrekening van graden Celsius naar graden Fahrenheit gebeurt door het aantal graden Celsius met 9/5 te vermenigvuldigen en bij het zo ontstane getal nog 32 op te tellen). 2

Opgave 3 Logistische Regressie (15 punten) Onderstaande tabel geeft de testresultaten van het afvuren van 25 luchtdoelraketten op doelen met uiteenlopende snelheid. Het resultaat van iedere test is ofwel een treffer (y = 1) of een misser (y = 0). De verklarende variabele x geeft de snelheid van het doel gemeten in knopen. Snelheid doel Snelheid doel Test (x) in knopen y Test (x) in knopen y 1 400 0 14 330 1 2 220 1 15 280 1 3 490 0 16 210 1 4 210 1 17 300 1 5 500 0 18 470 1 6 270 0 19 230 0 7 200 1 20 430 0 8 470 0 21 460 0 9 480 0 22 220 1 10 310 1 23 250 1 11 240 1 24 200 1 12 490 0 25 390 0 13 420 0 We schatten het model E(y) = P (y = 1) = exp(β 0 + β 1 x) 1 + exp(β 0 + β 1 x) met behulp van maximum likelihood. Dit levert onder andere de volgende resultaten op Coefficients: Value Std. Error (Intercept) 6.07086259 2.105830002 doel.snelheid -0.01770463 0.006065314 Model Deviance: 20.36366 on 23 degrees of freedom a) We berekenen dat exp(50 ˆβ 1 ) = exp( 0.89) 0.41. Hoe dienen we dit getal te interpreteren? b) Ga door middel van een toets na of een toename van de snelheid van het doelobject een negatieve invloed heeft op de trefkans bij α = 0.05. (Neem aan dat de steekproefomvang zodanig is, dat de asymptotische verdeling van de maximum likelihood schatters van toepassing is). Geef de nulhypothese, de alternatieve hypothese, de beslissingsregel en de conclusie. 3

Iemand beweert dat voor een goede voorspelling van de trefkans er ook een kwadratische term in x in het model moet worden opgenomen. We schatten daarom tevens het alternatieve model E(y) = P (y = 1) = exp(β 0 + β 1 x + β 2 x 2 ) 1 + exp(β 0 + β 1 x + β 2 x 2 ) met behulp van maximum likelihood. Dit levert de volgende resultaten op Coefficients: Value Std. Error (Intercept) 6.192757e+000 9.01877932046 doel.snelheid -1.846563e-002 0.05505815155 doel.snelheid.2 1.100548e-006 0.00007910137 Model Deviance: 20.36346 on 22 degrees of freedom Hierbij bevat de rij doel.snelheid.2 de resultaten voor de kwadratische term. c) Bereken de AIC score van het lineaire en het kwadratische model en geef aan welke van de twee op basis van die score de voorkeur geniet. Opgave 4 Discriminantanalyse (30 punten) Gegeven is de trainingsverzameling 2 5 X 1 = 0 3 X 2 = 1 1 0 6 2 4 1 2 X 3 = 1 2 0 0 1 4 waarbij X 1 drie waarnemingen van x = [x 1 x 2 ] T voor groep 1 bevat, X 2 drie waarnemingen van x voor groep 2, en X 3 drie waarnemingen van x voor groep 3. Bijvoorbeeld: de eerste waarneming van groep 1 heeft de waarden x 1 = 2 en x 2 = 5. De groepsgemiddelden zijn derhalve [ ] 1 x 1 = 3 De gepoolde covariantiematrix is [ S = [ ] 1 x 2 = 4 1 1/3 1/3 4 [ x 3 = Neem verder aan dat de priorkansen van de drie groepen gelijk zijn, dat wil zeggen: π 1 = π 2 = π 3. ] 0 2 ] 4

a) Schat de lineaire discriminantfuncties f 1 (x), f 2 (x) en f 3 (x) voor de drie groepen. b) Classificeer de nieuwe waarneming x 0 = [ 2 1] T op basis van het resultaat onder a. c) Bereken S 1 (de zuivere schatter van de covariantiematrix van groep 1) en S 2 op basis van de waarnemingen in de trainingsverzameling. Lijkt op basis van de waarden van S 1 en S 2 aan de veronderstellingen van lineaire discriminantanalyse te zijn voldaan? Leg uit. EINDE 5