TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en een onbeschreven Statistisch Compendium, en één A eigen aantekeningen, tweezijdig beschreven. De antwoorden dienen gemotiveerd, duidelijk geformuleerd en overzichtelijk opgeschreven te worden. Er zijn vraagstukken met in totaal onderdelen. Elk onderdeel wordt gewaardeerd met punten.het cijfer wordt bepaald door het totaal der behaalde punten door 7. te delen. Tenzij anders vermeld wordt in dit tentamen getoetst op een significantieniveau van 5%.. Veel gezinnen hebben een huisdier. Is het soort huisdier dat men houdt afhankelijk van het inkomen? Een onderzoek naar die vraag leverde de volgende resultaten op. (Zie ook bijlage ) INKOMEN * HUISDIER Crosstabulation INKOMEN <.5.5-5 5-0 0-0 >0 HUISDIER paard hond kat vogel 95 7 39 73 53 03 9 97 09 00 5 0 9 3 5 75 33 5 5 37 3 9 00 003 000 000 00 (Inkomen in 000 euro) a. Formuleer de hypothese die getoetst wordt. Geef daarbij: H 0, H, de toetsingsgrootheid en het kritieke gebied. Bereken de bijdrage van de bovenste rij van de tabel aan de toetsingsgrootheid. b. Wat is uw conclusie uit de toets bij a.? Geef deze conclusie in statistische termen en in termen van de vraagstelling. c. Beschrijf in woorden het verband (indien aanwezig) tussen inkomen en soort huisdier. d. We verdelen de huisdieren nu in categorieën: Paard en overig. Bereken voor dit geval Gamma, daarbij mag u gebruiken dat het aantal discordante paren gelijk is aan 0
. Barsten in latex verf op houten constructies kunnen onaangename gevolgen hebben. Er is een studie uitgevoerd om het effect van doorlaatbaarheid van water en fractuurenergie (=energie die nodig is om een barst volledig door de verf te laten gaan) op de kwaliteit, uitgedrukt in rating, te onderzoeken. In bijlage zijn met SPSS een aantal analyses uitgevoerd die u bij het beantwoorden van onderstaande vragen kunt gebruiken. Indien nodig kunt u gebruiken: SXX = ( n-) Var( X) a. Welk regressie-model met onafhankelijke varabele kiest u? Geef de bijbehorende regressievergelijking. Wat is in dit model het gevolg voor de rating van het vermeerderen van de onafhankelijke varabele met 5? b. Geef voor het model met fract_en als voorspellende variabele de verwachte waarde van rating bij fract _ en = 0. Uit vroeger onderzoek is zeer nauwkeurig bekend dat de rating bij fract _ en = 0gelijk is aan 3. Is dit experiment daar mee in tegenspraak? c. Binnen welke grenzen zullen 90% van de afzonderlijke waarden van rating zich bevinden bij fract _ en = 0? Geef aan, zonder expliciet rekenwerk, of dit interval voor fract _ en = 5breder of smaller is. d. Geef een 95% betrouwbaarheidsinterval voor de helling. Welke conclusie aangaande de significantie van de regressie trekt u hieruit? e. We bekijken nu de regressie met voorspellende variabelen, is dit een verbetering ten opzichte van de door u bij a. gekozen regressie? f. Tenslotte kijken we naar een regressie met als extra voorspellende variabele het kwadraat van doorlaatbaarheid: dlkwadr. Geef aan waar het idee om naar dit kwadraat te kijken vandaan komt, en of het het model verbetert. Is het nog wel een lineair model? 3. Een kwaliteitsmanager is geïnteresseerd in het effect van werkervaring op de tijdsduur die nodig is om een bepaalde assemblagetaak uit te voeren. Hij selecteert in totaal 3 werknemers: met maand ervaring, en evenzo uit de groepen met, 3 en maanden ervaring. De benodigde tijdsduur (in minuten) staat in onderstaande tabel. (Zie ook bijlage 3). 3 5 7 maand maanden 3 maanden maanden 0.3 3... 5. 5. 9....0. 3...9 9. 7.0. 39. 33. 7. 3.7 9.5. 7.3 9. 9.0 3.0 3. 37.7 5. 5. 5. Tijdsduur (minuten) per ervaringscategrie
a. Vul tabel 3. in bijlage 3 aan tot een volledige ANOVA-tabel. (De significantie mag u benaderen) Voer de bij de tabel behorende significantietoets uit en voer hierbij de volgende stappen uit:. () Formuleer nulhypothese en alternatieve hypothese in termen van de parameters van het datamodel. () Formuleer een geschikte toetsingsgrootheid. (3) Geef de kansverdeling van de toetsingsgrootheid onder H 0. () Bereken of geef de waarde van de toetsingsgrootheid. (5) Bepaal de kritieke waarde(n) en geef het kritieke gebied of geef de p-value. () Formuleer de conclusie omtrent het al dan niet verwerpen van H 0 bij de gegeven onbetrouwbaarheid(sdrempel). (7) Vermeld de conclusie in gewone woorden. b. Geef een 95% betrouwbaarheidsinterval voor het verschil in tijdsduur bij de groepen, resp. maanden ervaring. c. In werkelijkheid voerden niet alle werknemers dezelfde assemblagetaak uit, maar waren er verschillende taken. Elke regel uit bovenstaande tabel heeft betrekking op één taak. Welke conclusies trekt u uit de bij deze structuur behorende analyse? d. Toets, onder de aanname dat de tijden niet normaal verdeeld zijn of er verschillen zijn tussen de groepen met verschillende ervaring. e. We beperken ons nu tot categorieën: maand en maanden. Toets met de tekentoets of er verschil is tussen die categorieën. Welke andere verdelingsvrije toets kunt u gebruiken? Geef voor en nadelen van beide toetsen.. Motiveer duidelijk uw antwoord op onderstaande vragen. b. Bedenk een kruistabel waarbij de χ toets significant is, maar Gamma de waarde 0 heeft. c. Er wordt een onderzoek gedaan dat met regressie-analyse geanalyseerd wordt. De regressie blijkt significant te zijn, en R = 0.9. Kun je hieruit de conclusie trekken dat dus elke regressie-analyse met R 0.9 significant is? d. Bij het onderzoek uit opgave 3 zijn ook betrouwbaarheidsintervallen voor paarsgewijze verschillen berekend, zowel met de LSD methode als met Tukey s HSD methode. Welke intervallen zijn het breedst? 3
Bijlage : Inkomen en huisdier INKOMEN * HUISDIER Crosstabulation INKOMEN <.5.5-5 5-0 0-0 >0 Expected Expected Expected Expected Expected Expected HUISDIER paard hond kat vogel 95 7 39 73 53 33.5 33. 33. 33. 53.0 -. -.7..3 03 9 97 09 00 00.0 00. 99. 99. 00.0.3 -.9 -.3. 5 0 9 7.3 7.7 7.0 7.0 9.0. -. -..3 3 5 75 33 0.3 0.7 0.0 0.0 33.0.0.. -3.0 5 5 37 3 9.0.5.. 9.0.0.0 -. -. 00 003 000 000 00 00.0 003.0 000.0 000.0 00.0 Chi-Square Tests Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Value 35.77 a 35.5.057 00 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 33.37.
Bijlage : Regressie Descriptive Statistics RATING Valid N (listwise) Std. N Minimum Maximum Mean Deviation 0 0.00.79 0.0 7.0.500.79009 0.3.5.0.70 0 0 0 RATING 0 0 RATING 0 0 0 0 30 Bijlage. Regressie met doorlaatbaarheid als predictor Summary Adjusted Std. Error of R R Square R Square the Estimate.0 a.5.0.7 a. Predictors: (Constant), Regression Residual a. Predictors: (Constant), b. Dependent Variable: RATING ANOVA b Squares df Mean Square F Sig. 5.75 5.75 5.09.005 a.9 3.03 70.000 9 5
(Constant) a. Dependent Variable: RATING Coefficients a Unstandardized Standardized Coefficients Coefficients B Std. Error Beta t Sig..03..70.0.7..0 3.5.005 Bijlage. Regressie met fractuurenergie als predictor Summary Adjusted Std. Error of R R Square R Square the Estimate.9 a.79.79.3 a. Predictors: (Constant), Regression Residual a. Predictors: (Constant), b. Dependent Variable: RATING ANOVA b Squares df Mean Square F Sig. 55. 55. 30.90.00 a.3.799 70.000 9 (Constant) a. Dependent Variable: RATING Coefficients a Unstandardized Standardized Coefficients Coefficients B Std. Error Beta t Sig..0.9.79.0.37.07.9 5.5.00 Bijlage.3 Regressie met doorlaatbaarheid en fractuurenergie als predictoren Summary Adjusted Std. Error of R R Square R Square the Estimate.95 a.90.79.97 a. Predictors: (Constant),,
Regression Residual ANOVA b Squares df Mean Square F Sig. 3.397 3.9 33.0.000 a.03 7.93 70.000 9 a. Predictors: (Constant),, b. Dependent Variable: RATING (Constant) a. Dependent Variable: RATING Coefficients a Unstandardized Standardized Coefficients Coefficients B Std. Error Beta t Sig..05.707.3.9..0.3.35.003.5.05..73.0 Bijlage. Regressie met doorlaatbaarheid, fractuurenergie en kwadraat van doorlaatbaarheid als predictoren Summary Adjusted Std. Error of R R Square R Square the Estimate.970 a.9.9. a. Predictors: (Constant), DLKWADR,, Regression Residual ANOVA b Squares df Mean Square F Sig. 5.907 3.99 3.0.000 a.093. 70.000 9 a. Predictors: (Constant), DLKWADR,, b. Dependent Variable: RATING (Constant) DLKWADR a. Dependent Variable: RATING Coefficients a Unstandardized Standardized Coefficients Coefficients B Std. Error Beta t Sig. -.. -.95.37.7.055.55.09.00.30.33..9.03 -.0.05 -.97 -.99.03 7
Bijlage 3: Werkervaring en tijdsduur ervaring in maanden 3 gem tijdsduur 33. 9.5 9..5 Tabel 3. Gemiddelde tijdsduur (in minuten) per ervaringsgroep ANOVA TIJD Between Groups Within Groups Squares 7.5 70.09 7.09 Tabel 3. One-way ANOVA met tijd als afhankelijke variabele en aantal maanden ervaring als onafhankelijke. Tests of Between-Subjects Effects Dependent Variable: TIJD Type III Sum Source of Squares df Mean Square F Sig. Corrected.50 a 0.5.0.075 Intercept.3.3 33.57.000 ERVARING 7.5 3 7.50 3..03 TAAK.339 7 3.0.50. Error 5.759.7 973.90 3 Corrected 7.09 3 a. R Squared =.9 (Adjusted R Squared =.59) Tabel 3.3 ANOVA met tijd als afhankelijke variabele en aantal maanden ervaring en taak als onafhankelijke.