TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.



Vergelijkbare documenten
Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Opgave 1: (zowel 2DM40 als 2S390)

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag ,

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek (2S390) op maandag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Tentamen Biostatistiek 1 voor BMT (2DM40), op woensdag 12 november uur

Wiskunde B - Tentamen 2

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 27 oktober 2010, uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Faculteit der Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN

mlw stroom 2.1: Statistisch modelleren

Antwoordvel Versie A

College 2 Enkelvoudige Lineaire Regressie

Wiskunde B - Tentamen 1

Tentamenbundel Statistiek voor T (2S070)

TECHNISCHE UNIVERSITEIT EINDHOVEN

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Hoofdstuk 5 Een populatie: parametrische toetsen

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

Les 1: Waarschijnlijkheidrekening

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN

STATISTIEK 2 VERSIE A MAT Tentamen Statistiek 2 (MAT-15403) Maandag 5 augustus 2013, uur

Residual Plot for Strength. predicted Strength

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek I voor B (2S410) op , uur.

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

11. Multipele Regressie en Correlatie

TECHNISCHE UNIVERSITEIT EINDHOVEN

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Kansrekening en Statistiek

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

. Dan geldt P(B) = a d. 3 8

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek I voor B (2S410) op woensdag 26 juni 2013, 9-12 uur.

HOOFDSTUK VII REGRESSIE ANALYSE

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 6 Twee populaties: parametrische toetsen

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek II voor TeMa (2S195) op maandag ,

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Voorbeeld regressie-analyse

Feedback examen Statistiek II Juni 2011

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op maandag ,

11.0 Voorkennis. Wanneer je met binomcdf werkt, werk je dus altijd met een kans van de vorm P(X k)

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Inleiding Applicatie Software - Statgraphics

Schriftelijk examen statistiek, data-analyse en informatica. Maandag 29 mei 1995

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 10: Regressie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek


introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

Oplossingen hoofdstuk XI

1 vorig = omzet voorgaande jaar. Forward (Criterion: Probability-of-F-to-enter <=,050) 2 bezoek = aantal bezoeken vertegenwoordiger

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

Interim Toegepaste Biostatistiek deel 1 14 december 2009 Versie A ANTWOORDEN

Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 29 juni uur

9. Lineaire Regressie en Correlatie

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

Voorbeeldtentamen Statistiek voor Psychologie

Classification - Prediction

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Toetsen van hypothesen

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

Hoeveel condities zijn er (ga er vanuit dat het design fully crossed is)?

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

TECHNISCHE UNIVERSITEIT EINDHOVEN

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

2DM71: Eindtoets Biostatistiek, op dinsdag 20 Januari 2015,

Oefenvragen bij Statistics for Business and Economics van Newbold

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Kansrekening en Statistiek

statviewtoetsen 18/12/ Statview toets, 2K WE, 30 mei Fitness-campagne Dominantie bij muizen... 4

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op donderdag ,

Voorblad bij tentamen

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

Samenvatting Statistiek

Transcriptie:

VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur. Bij het tentamen mag gebruik worden gemaakt van een (eventueel grafische) zakrekenmachine en van een ONBESCHREVEN Statistisch Compendium. De antwoorden dienen gemotiveerd, duidelijk geformuleerd en overzichtelijk opgeschreven te worden. Er zijn?? vraagstukken met in totaal 20 onderdelen. Elk onderdeel wordt gewaardeerd met 2 punten. Het cijfer voor het schriftelijk wordt bepaald door het totaal der behaalde punten door 4 te delen. Het uiteindelijke cijfer voor het vak 2DD70 wordt bepaald volgens de regeling in de studeerwijzer. 1. In een pak stroopwafels zitten 12 stuks. Een stroopwafel zou 30 gram moeten wegen. Het gewicht van een stroopwafel is normaal verdeeld. De gewichten van afzonderlijke stroopwafels zijn onafhankelijk. a) Neem aan dat de standaardafwijking van een stroopwafel gelijk is aan 2 gram. Men wil dat de kans dat het totale netto gewicht van een pak van 12 stroopwafels minder is dan 360 gram hoogstens gelijk is aan 0.03. Wat moet dan de verwachte waarde van het gewicht van één stroopwafel zijn? b) Neem aan dat de kans dat een pak te weinig weegt (dat wil zeggen minder weegt dan 360 gram) gelijk is aan 0.03. Een klant koopt iedere week een pak stroopwafels. Na hoeveel weken heeft hij naar verwachting 10 pakken gehad met te weinig gewicht? c) Neem nu aan dat de verwachte waarde van het gewicht van één stroopwafel gelijk is aan 30.5 gram. Hoe groot moet de standaardafwijking zijn om te zorgen dat de kans dat een pak van 12 stroopwafels minder weegt dan 360 gram hoogstens gelijk is aan 0.03? 1

2. Het aantal hits van een bepaalde website kan gemodelleerd worden volgens een Poissonproces met een verwachting van 15 hits per uur. a) Vanaf 12 uur s middags zijn in het eerste uur 10 hits geweest. Wat is de kans dat in het volgend uur precies 10 hits zijn? Er wordt een contract gesloten met een firma. Deze firma mag een advertentie op de site plaatsen. Voor iedere 3000 hits van de site betaalt de firma een zeker bedrag aan de eigenaar van de site. b) Het contract gaat in. Geef een benadering (met de normale verdeling) voor de kans dat men meer dan 208 uur moet wachten tot de eerste 3000 hits binnen zijn. Vanaf het moment dat de eerste 3000 hits binnen zijn begint men opnieuw te tellen. c) Na 104 uur zijn de eerste 1500 hits binnen. Wat is de kans dat men meer dan 104 uur moet wachten totdat de resterende 1500 hits binnen zijn? 3. De hoeveelheid brood (met als eenheid 100 kilogram) die door een bakkerij op een dag verkocht wordt kan beschreven worden met de volgende kansdichtheid cx 0 x < 3, f(x) = c(6 x) 3 x 6, 0 anders. a) Bereken het getal c. Neem in het vervolg aan dat c gelijk is aan 1/9. antwoord op onderdeel a) te zijn. Dat hoeft niet het correcte b) De gebeurtenis dat in een dag meer dan 300 kg verkocht wordt noemen we A. De gebeurtenis dat in een dag tussen de 150 en 450 kg verkocht wordt noemen we B. Laat zien dat de gebeurtenissen onafhankelijk zijn. 2

4. Beschouw twee discrete stochastische variabelen X en Y. De simultane kansverdeling wordt gegeven door de kansen P (X = x, Y = y) in de volgende tabel: a) Wat is de variantie van X? y 1 0 1 1 2a a a x 0 a 0 a 1 a a 2a b) Wat is de verwachte waarde van X als bekend is dat Y = 1? c) Zijn X en Y onafhankelijk? (motiveer uw antwoord) 5. Een bedrijf maakt gipsen platen die een lengte van 200 cm moeten hebben en een breedte van 60 cm. De breedte X van een gipsplaat kan gemodelleerd worden met een continue uniforme verdeling op het interval (59, 60). Dus f X (x) = 1 voor 59 < x < 60. Voor de lengte Y geldt Y = 260 X. a) Wat is de verwachte waarde van de oppervlakte X(260 X)? b) Wat is de covariantie van X en Y? 6. Zoals bekend bestaat er het volgende verband tussen de temperatuur C in graden Celsius en de temperatuur F in graden Fahrenheit. C = 5(F 32)/9. a) Men heeft 10 waarnemingen aan de temperatuur in graden Fahrenheit. Het gemiddelde is 44 en de variantie is gelijk aan 4. Als men de waarnemingen had gedaan in graden Celsius, wat zou dan het gemiddelde en de variantie zijn? 7. Laat (X 1, X 2, X 3, X 4, X 5 ) een aselecte steekproef zijn uit een exponentiële verdeling f X (x) = λe λx, x > 0, λ > 0. Beschouw de volgende schatter voor de verwachte waarde van X. W = 1 8 (X 1 + X 2 + X 3 + X 4 ) + 1 4 X 5. a) Is W een zuivere schatter voor de verwachte waarde van X? Wat is de onzuiverheid van de schatter? b) Wat is de gemiddelde kwadratische afwijking (MSE)? 3

8. De productietijd (in minuten) van een bepaald product is een stochastische variabele. De tijd wordt genoteerd met X. Men heeft 20 onafhankelijke metingen x i, i = 1,, 20 van die productietijd. De metingen zijn 13.8 10.0 11.8 12.4 13.1 12.0 9.8 12.4 11.3 12.7 10.7 13.9 13.8 10.9 10.1 13.8 12.4 10.7 12.3 12.1 Hiervoor geldt n i=1 x2 i = 2913.18 en n i=1 x i = 240. a) Geef een schatting voor de kans dat de productietijd groter is dan 13.0. Doe hierbij geen aanname over de verdeling van X. b) Neem nu aan dat X normaal verdeeld is. Schat de parameters van die verdeling en geef nu ook een schatting voor de kans dat de productietijd groter is dan 13.0. c) De kosten bij het maken van een product zijn gelijk aan het kwadraat van de productietijd vermenigvuldigd met 5. Schat de verwachte kosten voor het maken van een product. Doe geen aanname over de verdeling. d) Bereken een 95% tweezijdig betrouwbaarheidsinterval voor de verwachte productietijd. Neem hierbij aan aan dat de waarnemingen uit een normale verdeling komen. e) Toets tweezijdig de nulhypothese dat de verwachte waarde van de productietijd gelijk is aan 13. Neem hierbij aan dat de waarnemingen uit een normale verdeling komen en neem α = 0.05. f) Toets tweezijdig de nulhypothese dat de verwachte waarde van de productietijd gelijk is aan 13. Neem hierbij alleen aan dat de waarnemingen uit een symmetrische verdeling komen en neem α = 0.05. g) Toets tweezijdig de nulhypothese dat de mediaan van de productietijd gelijk is aan 13. Neem hierbij niets aan over de kansverdeling van X en neem α = 0.05. h) Men gaat een product maken. Geef een 95%-voorspellingsinterval voor de productietijd van dat product. Neem weer aan dat de waarnemingen uit een normale verdeling komen. 4

9. Men onderzoekt de verwachte levensduur µ in uren van een batterij. Men wil de nulhypothese µ = 10 tweezijdig toetsen. Daartoe neemt men een aselecte steekproef ter grootte 25. De nulhypothese wordt verworpen als het steekproefgemiddelde groter is dan 11.10 of kleiner is dan 8.90. Aangenomen wordt dat de levensduur normaal verdeeld is met bekende standaardafwijking σ = 3 uur. a) Wat is de onbetrouwbaarheid (α) van deze toets? Men vindt als steekproefresultaat x = 10.90. b) Wat is de p-waarde? Wat is de conclusie van de toets? c) Op grond van het steekproefresultaat x = 10.90 stelt men een 100(1 α)% betrouwbaarheidsinterval op met dezelfde α als in onderdeel a). Geef dat interval. Opmerking: deze vraag kan ook beantwoord worden als u het antwoord op a) niet heeft gevonden. d) Neem nu een onbetrouwbaarheid van de toets van 0.05. Indien de werkelijke verwachte levensduur gelijk is aan 11.0 uur wil men dat het onderscheidingsvermogen minstens 0.90 is. Hoeveel waarnemingen moeten er minstens worden gedaan? 10. Men doet onderzoek naar bepaalde genetische variëteiten onder muizen. Hiertoe wordt een bepaald kenmerk bekeken en men verwacht drie typen hiervan in de verhouding 2:1:1. Om deze nulhypothese te toetsen onderzoekt men 200 muizen. De tabel hieronder bevat de resultaten. Type 1 Type 2 Type 3 89 55 56 a) Wat zijn de verwachte aantallen onder de nulhypothese? Welke toetsingsgrootheid wordt gebruikt? b) Moet de nulhypothese worden verworpen (α = 0.05)? Waarom wel/niet? 5

11. Uit een grote partij aspirinetabletten worden twee onafhankelijke steekproeven genomen, één toen de machine net in gebruik was genomen en één tien dagen later. Men meet het gewicht van de aspirinetabletten in een zekere eenheid. Er is verondersteld dat de gewichten van de twee steekproeven uit twee normale verdelingen komen, waarvan de varianties aan elkaar gelijk zijn. De gewichten van de twee steekproeven werden met behulp van SPSS geanalyseerd. Hieronder staan resultaten Summary Statistics Steekproef 1 Steekproef 2 ------------------------------------------------------------ Count 8 10 Average 332.25 334.9 Standard deviation 2.81577 2.72641 Minimum 328.0 332.0 Maximum 336.0 340.0 Range 8.0 8.0 ------------------------------------------------------------ a) Geef een 95% betrouwbaarheidsinterval voor het verwachte verschil in gewicht. 12. In een experiment wordt de elasticiteit van een rubberen onderdeel (y) gemeten als functie van de test-tijd (x) in minuten. De waarnemingen zijn x 1 2 3 4 5 6 7 y 1.6 1.2 1.8 1.7 2.6 3.0 4.2 Beschouw een enkelvoudig regressiemodel: Y = β 0 + β 1 x 1 + ε, waarbij x 1 = x 4 en met de gebruikelijke veronderstellingen voor ε. a) Geef de schatting voor β 1. b) Laat zien dat de determinatiecoëfficiënt gelijk is aan 0.818. c) Indien de testtijd stochastisch zou zijn, kan men spreken van de correlatiecoëfficiënt tussen de testtijd en de elasticiteit. Geef de schatting voor die correlatiecoëfficiënt. 6

13. In het kader van een kostenbesparing wil een manager meer inzicht krijgen in het energieverbruik van een chemische fabriek. Hij past enkelvoudige regressie-analyse toe op het maandelijkse energieverbruik (power) met als onafhankelijke variabele de gemiddelde maandtemperatuur (in Fahrenheit). Het gebruikelijke model Y = β 0 + β 1 x + ε wordt geformuleerd met de gebruikelijke veronderstellingen. De waarnemingen zijn y i (power) 240 236 290 274 301 316 300 296 267 276 288 261 x i (temperatuur) 25 31 45 60 65 72 80 84 75 60 50 38 Hiervoor geldt 12 i=1 12 x i = 685, y i = 3345, i=1 12 i=1 12 x 2 i = 43245, x i y i = 194890. i=1 a) Bereken de kleinste kwadratenschatting voor β 1. Hieronder staat uitvoer van een statistisch pakket Regression Analysis - Linear model: Y = a + b*x Dependent variable: power Independent variable: temperature Standard T Parameter Estimate Error Statistic P-Value Intercept?? 15.8753?? 0.0000 Slope?? 0.264451???? Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 3758.92???????? Residual?????? Total (Corr.) 6656.25?? b) Toets de hypothese β 1 = 0 tegen het alternatief β 1 0. Neem α = 0.05. 7

14. Het onderhoud van zwembaden is kostbaar omdat men veel chloor moet toevoegen om bacteriën te bestrijden. Een hotelketen met buitenbaden wil de kosten reduceren door te onderzoeken hoe de chloorafname afhangt van een aantal factoren. Men gaat er van uit dat de snelheid waarmee de hoeveelheid chloor afneemt afhankelijk is van de temperatuur van het water (hoe hoger de temperatuur, hoe sneller de afname) en de PH-waarde, die een maat is voor de zuurgraad van het water. De PH-waarde varieert tussen 0 en 14, waarbij 0 erg zuur is en 14 erg basisch (alkalisch). Bij waarden rond de 7.5 wordt het minste chloor verbruikt. Men meet het percentage afname (Pct Afn) in 8 uur van het chloor bij verschillende waarden van temperatuur en zuurgraad. Er zijn 188 waarnemingen. Men doet stapsgewijze regressie met de TWEE variabelen Temperatuur en PH-waarde. Gegeven is de volgende output. MODEL 1 Dependent variable: Pct Afn Standard T Parameter Estimate Error Statistic P-Value CONSTANT 14.3553 3.46853 4.13874 0.0001 Temperatuur 0.195791 0.0457962?? 0.0000 MODEL 2 Dependent variable: Pct Afn Standard T Parameter Estimate Error Statistic P-Value CONSTANT -5.97551 6.60217-0.905084 0.3666 PH-waarde 4.60674 0.86624?? 0.0000 a) Er geldt 188 T i = 14115, i 188 y i = 5462.4, i 188 Ti 2 = 1078430, i 188 yi 2 = 166712, i 188 y i T i = 413772, waarin y i de i-de waarneming van het percentage afname is (Pct Afn) en T i de i-de waarneming van de temperatuur is (in graden Fahrenheit). Geef de schatting voor σ 2 in MODEL 1. b) Welke variabele (Temperatuur of Ph-waarde) wordt als eerste aan het model toegevoegd en waarom? i 8

Het model met beide variabelen heeft de volgende output. MODEL 3 Dependent variable: Pct Afn Standard T Parameter Estimate Error Statistic P-Value CONSTANT -21.2678 7.05692-3.01375 0.0029 Temperatuur 0.198799 0.0423895?? 0.0000 PH-waarde 4.65494 0.821201?? 0.0000 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model?? 2 896.914 26.73 0.0000 Residual 6206.6 185 33.5492 Total (Corr.) 8000.42 187 R-squared =?? percent c) De R 2 is een criterium voor de geschiktheid van het model. Wat is het nadeel van dit criterium? Er is een soortgelijk criterium dat dit nadeel niet kent. Welk criterium is dat? Geef de waarde van dat andere criterium. Omdat de waarde van R 2 erg klein is probeert men het model te verbeteren door het kruisproduct van Temperatuur en PH-waarde toe te voegen. Dit levert de volgende output MODEL 4 Dependent variable: Pct Afn Source Sum of Squares Df Mean Square F-Ratio P-Value Model 1797.33 3 599.109 17.77 0.0000 Residual 6203.1 184 33.7125 Total (Corr.) 8000.42 187 R-squared =?? percent d) De restkwadratensom is afgenomen. Kan men tevreden zijn met deze uitbreiding van het model? Beantwoord deze vraag met behulp van een geschikte toets. 9

Men bedenkt dat het weertype mogelijk van belang is. Gelukkig heeft men bij de metingen genoteerd wat het weer was. Daarbij zijn drie categorieën onderscheiden: zonnig, bewolkt en gedeeltelijk bewolkt. Men neemt het Weertype mee in het model door twee indicator-variabelen in te voeren. De variabele Dummy bewolkt heeft de waarde 1 als het bewolkt is en anders niet. De variabele Dummy zonnig heeft de waarde 1 als het zonnig is an anders niet. De output van het model dat men nu beschouwt is MODEL 5 Dependent variable: Pct Afn Standard T Parameter Estimate Error Statistic P-Value CONSTANT -20.9039 7.03158-2.97286 0.0033 Temperatuur 0.19799 0.0421133 4.70137 0.0000 PH-waarde 4.63877 0.815853 5.68579 0.0000 Dummy bewolkt -1.3381 1.02522-1.30518 0.1935 Dummy zonnig 0.813212 1.02945 0.789947 0.4306 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 1941.5 4 485.375 14.66 0.0000 Residual 6058.93 183 33.1089 Total (Corr.) 8000.42 187 R-squared = 24.2675 percent e) Geef het 95%-betrouwbaarheidsinterval voor de coëfficiënt van de Temperatuur in Model 5. f) Toets of het Weertype van belang is in Model 5. g) Men voegt aan Model 5 alle mogelijke kruisproducten van twee factoren toe (maar niet de kwadratische termen). Hoeveel vrijheidsgraden heeft dan de restkwadratensom in dat model? 10

Toevoegen van die kruisproducten levert geen echte verbetering op. Men analyseert Model 5 door plaatjes te tekenen. De volgende plaatjes worden gevonden. 11

h) Gezien bovenstaande plaatjes en ook gezien de vraagstelling is het wenselijk een term in het model toe te voegen. Welke term is dat? Geef twee argumenten waarom u die term wilt toevoegen. 12