VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur. Bij het tentamen mag gebruik worden gemaakt van een (eventueel grafische) zakrekenmachine en van een ONBESCHREVEN Statistisch Compendium. De antwoorden dienen gemotiveerd, duidelijk geformuleerd en overzichtelijk opgeschreven te worden. Er zijn?? vraagstukken met in totaal 20 onderdelen. Elk onderdeel wordt gewaardeerd met 2 punten. Het cijfer voor het schriftelijk wordt bepaald door het totaal der behaalde punten door 4 te delen. Het uiteindelijke cijfer voor het vak 2DD70 wordt bepaald volgens de regeling in de studeerwijzer. 1. In een pak stroopwafels zitten 12 stuks. Een stroopwafel zou 30 gram moeten wegen. Het gewicht van een stroopwafel is normaal verdeeld. De gewichten van afzonderlijke stroopwafels zijn onafhankelijk. a) Neem aan dat de standaardafwijking van een stroopwafel gelijk is aan 2 gram. Men wil dat de kans dat het totale netto gewicht van een pak van 12 stroopwafels minder is dan 360 gram hoogstens gelijk is aan 0.03. Wat moet dan de verwachte waarde van het gewicht van één stroopwafel zijn? b) Neem aan dat de kans dat een pak te weinig weegt (dat wil zeggen minder weegt dan 360 gram) gelijk is aan 0.03. Een klant koopt iedere week een pak stroopwafels. Na hoeveel weken heeft hij naar verwachting 10 pakken gehad met te weinig gewicht? c) Neem nu aan dat de verwachte waarde van het gewicht van één stroopwafel gelijk is aan 30.5 gram. Hoe groot moet de standaardafwijking zijn om te zorgen dat de kans dat een pak van 12 stroopwafels minder weegt dan 360 gram hoogstens gelijk is aan 0.03? 1
2. Het aantal hits van een bepaalde website kan gemodelleerd worden volgens een Poissonproces met een verwachting van 15 hits per uur. a) Vanaf 12 uur s middags zijn in het eerste uur 10 hits geweest. Wat is de kans dat in het volgend uur precies 10 hits zijn? Er wordt een contract gesloten met een firma. Deze firma mag een advertentie op de site plaatsen. Voor iedere 3000 hits van de site betaalt de firma een zeker bedrag aan de eigenaar van de site. b) Het contract gaat in. Geef een benadering (met de normale verdeling) voor de kans dat men meer dan 208 uur moet wachten tot de eerste 3000 hits binnen zijn. Vanaf het moment dat de eerste 3000 hits binnen zijn begint men opnieuw te tellen. c) Na 104 uur zijn de eerste 1500 hits binnen. Wat is de kans dat men meer dan 104 uur moet wachten totdat de resterende 1500 hits binnen zijn? 3. De hoeveelheid brood (met als eenheid 100 kilogram) die door een bakkerij op een dag verkocht wordt kan beschreven worden met de volgende kansdichtheid cx 0 x < 3, f(x) = c(6 x) 3 x 6, 0 anders. a) Bereken het getal c. Neem in het vervolg aan dat c gelijk is aan 1/9. antwoord op onderdeel a) te zijn. Dat hoeft niet het correcte b) De gebeurtenis dat in een dag meer dan 300 kg verkocht wordt noemen we A. De gebeurtenis dat in een dag tussen de 150 en 450 kg verkocht wordt noemen we B. Laat zien dat de gebeurtenissen onafhankelijk zijn. 2
4. Beschouw twee discrete stochastische variabelen X en Y. De simultane kansverdeling wordt gegeven door de kansen P (X = x, Y = y) in de volgende tabel: a) Wat is de variantie van X? y 1 0 1 1 2a a a x 0 a 0 a 1 a a 2a b) Wat is de verwachte waarde van X als bekend is dat Y = 1? c) Zijn X en Y onafhankelijk? (motiveer uw antwoord) 5. Een bedrijf maakt gipsen platen die een lengte van 200 cm moeten hebben en een breedte van 60 cm. De breedte X van een gipsplaat kan gemodelleerd worden met een continue uniforme verdeling op het interval (59, 60). Dus f X (x) = 1 voor 59 < x < 60. Voor de lengte Y geldt Y = 260 X. a) Wat is de verwachte waarde van de oppervlakte X(260 X)? b) Wat is de covariantie van X en Y? 6. Zoals bekend bestaat er het volgende verband tussen de temperatuur C in graden Celsius en de temperatuur F in graden Fahrenheit. C = 5(F 32)/9. a) Men heeft 10 waarnemingen aan de temperatuur in graden Fahrenheit. Het gemiddelde is 44 en de variantie is gelijk aan 4. Als men de waarnemingen had gedaan in graden Celsius, wat zou dan het gemiddelde en de variantie zijn? 7. Laat (X 1, X 2, X 3, X 4, X 5 ) een aselecte steekproef zijn uit een exponentiële verdeling f X (x) = λe λx, x > 0, λ > 0. Beschouw de volgende schatter voor de verwachte waarde van X. W = 1 8 (X 1 + X 2 + X 3 + X 4 ) + 1 4 X 5. a) Is W een zuivere schatter voor de verwachte waarde van X? Wat is de onzuiverheid van de schatter? b) Wat is de gemiddelde kwadratische afwijking (MSE)? 3
8. De productietijd (in minuten) van een bepaald product is een stochastische variabele. De tijd wordt genoteerd met X. Men heeft 20 onafhankelijke metingen x i, i = 1,, 20 van die productietijd. De metingen zijn 13.8 10.0 11.8 12.4 13.1 12.0 9.8 12.4 11.3 12.7 10.7 13.9 13.8 10.9 10.1 13.8 12.4 10.7 12.3 12.1 Hiervoor geldt n i=1 x2 i = 2913.18 en n i=1 x i = 240. a) Geef een schatting voor de kans dat de productietijd groter is dan 13.0. Doe hierbij geen aanname over de verdeling van X. b) Neem nu aan dat X normaal verdeeld is. Schat de parameters van die verdeling en geef nu ook een schatting voor de kans dat de productietijd groter is dan 13.0. c) De kosten bij het maken van een product zijn gelijk aan het kwadraat van de productietijd vermenigvuldigd met 5. Schat de verwachte kosten voor het maken van een product. Doe geen aanname over de verdeling. d) Bereken een 95% tweezijdig betrouwbaarheidsinterval voor de verwachte productietijd. Neem hierbij aan aan dat de waarnemingen uit een normale verdeling komen. e) Toets tweezijdig de nulhypothese dat de verwachte waarde van de productietijd gelijk is aan 13. Neem hierbij aan dat de waarnemingen uit een normale verdeling komen en neem α = 0.05. f) Toets tweezijdig de nulhypothese dat de verwachte waarde van de productietijd gelijk is aan 13. Neem hierbij alleen aan dat de waarnemingen uit een symmetrische verdeling komen en neem α = 0.05. g) Toets tweezijdig de nulhypothese dat de mediaan van de productietijd gelijk is aan 13. Neem hierbij niets aan over de kansverdeling van X en neem α = 0.05. h) Men gaat een product maken. Geef een 95%-voorspellingsinterval voor de productietijd van dat product. Neem weer aan dat de waarnemingen uit een normale verdeling komen. 4
9. Men onderzoekt de verwachte levensduur µ in uren van een batterij. Men wil de nulhypothese µ = 10 tweezijdig toetsen. Daartoe neemt men een aselecte steekproef ter grootte 25. De nulhypothese wordt verworpen als het steekproefgemiddelde groter is dan 11.10 of kleiner is dan 8.90. Aangenomen wordt dat de levensduur normaal verdeeld is met bekende standaardafwijking σ = 3 uur. a) Wat is de onbetrouwbaarheid (α) van deze toets? Men vindt als steekproefresultaat x = 10.90. b) Wat is de p-waarde? Wat is de conclusie van de toets? c) Op grond van het steekproefresultaat x = 10.90 stelt men een 100(1 α)% betrouwbaarheidsinterval op met dezelfde α als in onderdeel a). Geef dat interval. Opmerking: deze vraag kan ook beantwoord worden als u het antwoord op a) niet heeft gevonden. d) Neem nu een onbetrouwbaarheid van de toets van 0.05. Indien de werkelijke verwachte levensduur gelijk is aan 11.0 uur wil men dat het onderscheidingsvermogen minstens 0.90 is. Hoeveel waarnemingen moeten er minstens worden gedaan? 10. Men doet onderzoek naar bepaalde genetische variëteiten onder muizen. Hiertoe wordt een bepaald kenmerk bekeken en men verwacht drie typen hiervan in de verhouding 2:1:1. Om deze nulhypothese te toetsen onderzoekt men 200 muizen. De tabel hieronder bevat de resultaten. Type 1 Type 2 Type 3 89 55 56 a) Wat zijn de verwachte aantallen onder de nulhypothese? Welke toetsingsgrootheid wordt gebruikt? b) Moet de nulhypothese worden verworpen (α = 0.05)? Waarom wel/niet? 5
11. Uit een grote partij aspirinetabletten worden twee onafhankelijke steekproeven genomen, één toen de machine net in gebruik was genomen en één tien dagen later. Men meet het gewicht van de aspirinetabletten in een zekere eenheid. Er is verondersteld dat de gewichten van de twee steekproeven uit twee normale verdelingen komen, waarvan de varianties aan elkaar gelijk zijn. De gewichten van de twee steekproeven werden met behulp van SPSS geanalyseerd. Hieronder staan resultaten Summary Statistics Steekproef 1 Steekproef 2 ------------------------------------------------------------ Count 8 10 Average 332.25 334.9 Standard deviation 2.81577 2.72641 Minimum 328.0 332.0 Maximum 336.0 340.0 Range 8.0 8.0 ------------------------------------------------------------ a) Geef een 95% betrouwbaarheidsinterval voor het verwachte verschil in gewicht. 12. In een experiment wordt de elasticiteit van een rubberen onderdeel (y) gemeten als functie van de test-tijd (x) in minuten. De waarnemingen zijn x 1 2 3 4 5 6 7 y 1.6 1.2 1.8 1.7 2.6 3.0 4.2 Beschouw een enkelvoudig regressiemodel: Y = β 0 + β 1 x 1 + ε, waarbij x 1 = x 4 en met de gebruikelijke veronderstellingen voor ε. a) Geef de schatting voor β 1. b) Laat zien dat de determinatiecoëfficiënt gelijk is aan 0.818. c) Indien de testtijd stochastisch zou zijn, kan men spreken van de correlatiecoëfficiënt tussen de testtijd en de elasticiteit. Geef de schatting voor die correlatiecoëfficiënt. 6
13. In het kader van een kostenbesparing wil een manager meer inzicht krijgen in het energieverbruik van een chemische fabriek. Hij past enkelvoudige regressie-analyse toe op het maandelijkse energieverbruik (power) met als onafhankelijke variabele de gemiddelde maandtemperatuur (in Fahrenheit). Het gebruikelijke model Y = β 0 + β 1 x + ε wordt geformuleerd met de gebruikelijke veronderstellingen. De waarnemingen zijn y i (power) 240 236 290 274 301 316 300 296 267 276 288 261 x i (temperatuur) 25 31 45 60 65 72 80 84 75 60 50 38 Hiervoor geldt 12 i=1 12 x i = 685, y i = 3345, i=1 12 i=1 12 x 2 i = 43245, x i y i = 194890. i=1 a) Bereken de kleinste kwadratenschatting voor β 1. Hieronder staat uitvoer van een statistisch pakket Regression Analysis - Linear model: Y = a + b*x Dependent variable: power Independent variable: temperature Standard T Parameter Estimate Error Statistic P-Value Intercept?? 15.8753?? 0.0000 Slope?? 0.264451???? Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 3758.92???????? Residual?????? Total (Corr.) 6656.25?? b) Toets de hypothese β 1 = 0 tegen het alternatief β 1 0. Neem α = 0.05. 7
14. Het onderhoud van zwembaden is kostbaar omdat men veel chloor moet toevoegen om bacteriën te bestrijden. Een hotelketen met buitenbaden wil de kosten reduceren door te onderzoeken hoe de chloorafname afhangt van een aantal factoren. Men gaat er van uit dat de snelheid waarmee de hoeveelheid chloor afneemt afhankelijk is van de temperatuur van het water (hoe hoger de temperatuur, hoe sneller de afname) en de PH-waarde, die een maat is voor de zuurgraad van het water. De PH-waarde varieert tussen 0 en 14, waarbij 0 erg zuur is en 14 erg basisch (alkalisch). Bij waarden rond de 7.5 wordt het minste chloor verbruikt. Men meet het percentage afname (Pct Afn) in 8 uur van het chloor bij verschillende waarden van temperatuur en zuurgraad. Er zijn 188 waarnemingen. Men doet stapsgewijze regressie met de TWEE variabelen Temperatuur en PH-waarde. Gegeven is de volgende output. MODEL 1 Dependent variable: Pct Afn Standard T Parameter Estimate Error Statistic P-Value CONSTANT 14.3553 3.46853 4.13874 0.0001 Temperatuur 0.195791 0.0457962?? 0.0000 MODEL 2 Dependent variable: Pct Afn Standard T Parameter Estimate Error Statistic P-Value CONSTANT -5.97551 6.60217-0.905084 0.3666 PH-waarde 4.60674 0.86624?? 0.0000 a) Er geldt 188 T i = 14115, i 188 y i = 5462.4, i 188 Ti 2 = 1078430, i 188 yi 2 = 166712, i 188 y i T i = 413772, waarin y i de i-de waarneming van het percentage afname is (Pct Afn) en T i de i-de waarneming van de temperatuur is (in graden Fahrenheit). Geef de schatting voor σ 2 in MODEL 1. b) Welke variabele (Temperatuur of Ph-waarde) wordt als eerste aan het model toegevoegd en waarom? i 8
Het model met beide variabelen heeft de volgende output. MODEL 3 Dependent variable: Pct Afn Standard T Parameter Estimate Error Statistic P-Value CONSTANT -21.2678 7.05692-3.01375 0.0029 Temperatuur 0.198799 0.0423895?? 0.0000 PH-waarde 4.65494 0.821201?? 0.0000 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model?? 2 896.914 26.73 0.0000 Residual 6206.6 185 33.5492 Total (Corr.) 8000.42 187 R-squared =?? percent c) De R 2 is een criterium voor de geschiktheid van het model. Wat is het nadeel van dit criterium? Er is een soortgelijk criterium dat dit nadeel niet kent. Welk criterium is dat? Geef de waarde van dat andere criterium. Omdat de waarde van R 2 erg klein is probeert men het model te verbeteren door het kruisproduct van Temperatuur en PH-waarde toe te voegen. Dit levert de volgende output MODEL 4 Dependent variable: Pct Afn Source Sum of Squares Df Mean Square F-Ratio P-Value Model 1797.33 3 599.109 17.77 0.0000 Residual 6203.1 184 33.7125 Total (Corr.) 8000.42 187 R-squared =?? percent d) De restkwadratensom is afgenomen. Kan men tevreden zijn met deze uitbreiding van het model? Beantwoord deze vraag met behulp van een geschikte toets. 9
Men bedenkt dat het weertype mogelijk van belang is. Gelukkig heeft men bij de metingen genoteerd wat het weer was. Daarbij zijn drie categorieën onderscheiden: zonnig, bewolkt en gedeeltelijk bewolkt. Men neemt het Weertype mee in het model door twee indicator-variabelen in te voeren. De variabele Dummy bewolkt heeft de waarde 1 als het bewolkt is en anders niet. De variabele Dummy zonnig heeft de waarde 1 als het zonnig is an anders niet. De output van het model dat men nu beschouwt is MODEL 5 Dependent variable: Pct Afn Standard T Parameter Estimate Error Statistic P-Value CONSTANT -20.9039 7.03158-2.97286 0.0033 Temperatuur 0.19799 0.0421133 4.70137 0.0000 PH-waarde 4.63877 0.815853 5.68579 0.0000 Dummy bewolkt -1.3381 1.02522-1.30518 0.1935 Dummy zonnig 0.813212 1.02945 0.789947 0.4306 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 1941.5 4 485.375 14.66 0.0000 Residual 6058.93 183 33.1089 Total (Corr.) 8000.42 187 R-squared = 24.2675 percent e) Geef het 95%-betrouwbaarheidsinterval voor de coëfficiënt van de Temperatuur in Model 5. f) Toets of het Weertype van belang is in Model 5. g) Men voegt aan Model 5 alle mogelijke kruisproducten van twee factoren toe (maar niet de kwadratische termen). Hoeveel vrijheidsgraden heeft dan de restkwadratensom in dat model? 10
Toevoegen van die kruisproducten levert geen echte verbetering op. Men analyseert Model 5 door plaatjes te tekenen. De volgende plaatjes worden gevonden. 11
h) Gezien bovenstaande plaatjes en ook gezien de vraagstelling is het wenselijk een term in het model toe te voegen. Welke term is dat? Geef twee argumenten waarom u die term wilt toevoegen. 12