Feedback examen Statistiek II Juni 2011 Bij elke vraag is alternatief A correct. 1 De variabele X is Student verdeeld in een bepaalde populatie, met verwachting µ X en variantie σ 2 X. Je trekt steekproeven met grootte n uit die populatie. De schatter S2 X van σ 2 X is... A niet zuiver maar wel efficiënt B zuiver maar niet efficiënt C zuiver en efficiënt D Geen van de andere alternatieven Zie cursus p.49. 2 [67.2, 76.4] is het betrouwbaarheidsinterval (met α = 95%) voor de verwachting µ X van de variabele X (rusthartslag, in slagen per minuut) in de populatie van mannelijke dertigers in Vlaanderen, gebaseerd op een steekproef van 115 proefpersonen. Welke bewering wordt geïmpliceerd door dit? A Geen van de andere alternatieven B De kans dat µ X in het interval [67.2, 76.4] ligt is 95%. C De kans dat de rusthartslag van een vlaamse mannelijke dertiger in het interval [67.2, 76.4] ligt is 95%. D De kans dat µ X (bij een steekproef met grootte 115) in het interval [67.2, 76.4] ligt is 95%. B. µ X is een getal en [67.2, 76.4] is een vast interval. Dus µ x ligt in dat interval of niet, maar dat is niet stochastisch. Dat is niet toevallig. We kunnen hier niet van kansen spreken. B is dus fout. C. Je kan C herschrijven als P (67.2 X 76.4) = 0.95. Maar dit heeft niets te maken met de betrouwbaarheid van het betrouwbaarheidsinterval. De betrouwbaarheid van het betrouwbaarheidsinterval is P (67.2 X 76.4). Dus C fout. D is fout voor dezelfde reden als B. 1
3 Bij een statistische toets is α de kans dat... A Geen van de andere alternatieven B de alternatieve hypothese fout is C de nulhypothese juist is D de nulhypothese fout is α is de kans dat de nulhypothese verworpen wordt indien die juist is. Tijdens het examen hebben veel studenten gevraagd of ze C moesten aanstippen omdat C gedeeltelijk correct is. Let op, C is absoluut niet correct : de kans dat de nulhypothese juist is bestaat niet. De nulhypothese is juist of fout. Het is niet stochastisch; het is niet toevallig, alhoewel we het niet weten. We kunnen dus hier niet van kansen spreken. 4 Bij een statistische toets wil je de alternatieve hypothese µ X > 10 toetsen. Je trekt een steekproef met grootte n = 70 en je vindt x = 11. De overschrijdingskans is de kans dat... A Geen van de andere alternatieven B x > 11 C x > 10 D µ X > 11 De overschrijdingskans is de kans dat X 11 of X > 11 (met continue variabelen). 5 Om β 1 zo precies mogelijk te schatten bij een enkelvoudige lineaire regressie kunnen we... A zorgen dat de variantie van X groot is in de steekproef B zorgen dat de variantie van X klein is in de steekproef C een kleine steekproef trekken D zorgen dat σ 2 ε zo groot mogelijk is De precisie van een schatter wordt gemeten aan de hand van zijn variantie. De schatter van β 1 is B 1. We willen dus de variantie van B 1 minimaliseren. Op p. 98 vind je V (B 1 ) = σ2 ɛ ns 2. x A. De variantie van X in de steekproef is s 2 x. Hoe groter s 2 x, hoe groter de noemer van V (B 1 ) en hoe kleiner V (B 1 ). A is dus correct. C. Hoe kleiner de steekproef, hoe kleiner de noemer van V (B 1 ) en hoe groter V (B 1 ). C is dus fout. D. Hoe groter σ 2 ε, hoe groter de teller van V (B 1 ) en hoe groter V (B 1 ). D is dus fout. 2
6 Het effectenmodel bij een enkelvoudige variantie-analyse is A Y ik = µ + α i + ε ik, i = 1,..., I, k = 1,..., n i B geen van de andere alternatieven C Y ik = µ i + α ik + ε ik, i = 1,..., I, k = 1,..., n i D Y ik = µ i + α i + ε ik, i = 1,..., I, k = 1,..., n i Zie cursus p.113. 7 De sigma-restrictie bij het effectenmodel bij een enkelvoudige variantie-analyse legt op dat Ii=1 α i = 0. Dit impliceert dat... A α i = µ i µ, i = 1,..., I B α i = µ i, i = 1,..., I C geen van de andere alternatieven D µ i = µ, i = 1,..., I Antwoord op p.115 van de cursus. Hieronder meer uitleg. De definitie van µ i is µ i = µ+α i (cursus p.113). Dus α i = µ i µ ; (1) de sigma-restrictie impliceert dus Bijgevolg, of nog Maw I µ i Iµ = 0, i=1 I I α i = (µ i µ) = 0. i=1 i=1 I I µ i µ = 0 i=1 i=1 I µ i (µ + µ +... + µ) = 0. i=1 I Ii=1 µ i µ i = Iµ en µ =. I i=1 Merk op dat µ dus gelijk is aan µ (zie definitie van µ op p.113). We kunnen dus vergelijking (1) herschrijven als α i = µ i µ. Dit is alternatief A. 3
8 Bij een enkelvoudige variantie-analyse is ŷ ik A de schatting van E(Y ik ) B de schatting van y ik C de schatting van Y ik D geen van de andere alternatieven A. Juist (zie cursus p.116). B. y ik is één van de geobserveerde waarden in je steekproef. Je kent dus y ik perfekt en je hoeft die niet te schatten. C. Y ik is een toevalsvariabele en je kan nooit een toevalsvariabele schatten omdat die altijd variëert. We schatten alleen parameters : vaste (maar onbekende) getallen. 9 Bij een enkelvoudige variantie-analyse met 4 groepen correspondeert de hypothese µ 1 groter dan µ 3 en µ 4 (gemiddeld gezien) met het contrast... A geen van de andere alternatieven B 1 0 1 1 C 1 0 1/3 1/3 D 1 0 1/2 1/2 Het correcte contrast is : 1 0 1/2 1/2 B, C en D. De som van de gewichten moet nul zijn. 4
10 We willen nagaan of de verdeling in vijf categorieën dezelfde is in populatie A en B (homogeniteitstoets). We trekken een steekproef van 40 individuen uit populatie A en een steekproef van 47 individuen uit populatie B. We berekenen deze statistiek Welke bewering is correct? k p i=1 j=1 (f ij n iˆπ j ) 2 n iˆπ j. A Hoe kleiner de statistiek, hoe sterker de argumenten in het voordeel van de homogeniteit B Hoe groter de statistiek, hoe sterker de argumenten in het voordeel van de homogeniteit C Hoe dichter bij 1 de statistiek, hoe sterker de argumenten in het voordeel van de homogeniteit D Geen van de andere alternatieven Als de populaties homogeen zijn, dan zijn de geobserveerde frequenties f ij meestal (in veel cellen) ongeveer gelijk aan de theoretische frequenties n iˆπ j. Bijgevolg zijn de verschillen (f ij n iˆπ j ) meestal klein. De statistiek is dus klein. En hoe kleiner (dichter bij nul), hoe sterker de argumenten in het voordeel van de homogeniteit. 11 Een kwart van de populatie in Vlaanderen heeft kenmerk A. Je wil de hypothese toetsen dat de frequentie van kenmerk A bij Vlaamse vrouwen groter dan 25% is. Je trekt een steekproef van 3 vlaamse vrouwen en je vindt één vrouw met stoornis A. Wat is de overschrijdingskans? A 37/64 B 27/64 C 16/64 D Geen van de andere alternatieven De overschrijdingskans is P (B(n, π) 1) = P (B(3, 0.25) = 1) + P (B(3, 0.25) = 2) + P (B(3, 0.25) = 3) = 1 P (B(3, 0.25) = 0) = 1 (3/4) 3 = 1 27/64 = 37/64. 5
12 Je vermoedt dat de voeding van studenten op kot slecht is. Ze zouden meer junk food eten dan andere jongeren op dezelfde leeftijd en zouden dus dikker zijn. De verwachting van het gewicht van jonge mannen op dezelfde leeftijd is gekend: µ m = 74. De standaard fout is σ m = 5. De nulhypothese is dus H 0 : µ km = 74 en de alternatieve hypothese H a : µ km > 74. Je kiest α = 0.05. Je weegt een steekproef van 100 mannelijke studenten die op kot zitten en je gebruikt de adequate statistische toets om de hypothese te toetsen. Wat is het onderscheidingsvermogen van de toets indien µ km = 76? A 99% B 85% C 64% D Geen van de andere alternatieven Eerst bepaal je de kritieke waarde van de eenzijdige z-toets met α = 0.05. Het is 1.65. Je verwerpt de nulhypothese indien de statistiek groter dan 1.65 is. Dus indien Derhalve verwerp je de nulhypothese indien x µ m σ/ n > 1.65. x > 1.65 σ/ n + µ m. De kans dat je de nulhypothese verwerpt is dus P (X > 1.65 σ/ n + µ m ). Indien µ km = 76, dan weet je dat X = N(76, σ) en X = N(76, σ/ n). De kans dat je de nulhypothese verwerpt, indien µ km = 76 is dan P (N(76, σ/ n) > 1.65 σ/ n + µ m ) = P (N(0, 1) > 1.65 σ/ n + µ m 76 σ/ ) n = P (N(0, 1) > 1.65 + µ m 76 σ/ n ) = P (N(0, 1) > 1.65 + 2 5/10 ) = P (N(0, 1) > 1.65 4) = P (N(0, 1) > 2.35) = P (N(0, 1) < 2.35) = 0.9906. 6
13 De variabelen X (leeftijd) en Y (reactietijd) worden in een experiment geobserveerd bij een steekproef van 10 mannen. X 30 40 25 35 45 55 60 70 65 25 Y 700 800 600 550 450 650 900 850 800 700 Je vermoedt een lineair verband tussen die twee variabelen en je wil het volgende lineair model toetsen : Y i = β 0 + β 1 x i + ε i, i = 1,..., 8. Na enkele berekeningen vind je x = 45, ȳ = 700, s 2 X = 250, s2 Y = 18000, r XY = 0.53, b 0 = 497.5 and b 1 = 4.5. Wat is de predictie ŷ 3 onder het nulmodel? A 700 B 610 C 750 D Geen van de andere alternatieven Onder het nulmodel is er geen verband tussen X en Y. De beste predictie voor Y is dus onafhankelijk van X; en ŷ 3 = ŷ 1 = ŷ 10 =... De beste predictie voor een y-waarde is gewoon de verwachting van Y waarvan de schatting ȳ is. 14 Onduidelijke vraag. Goedgekeurd (dus +3) voor iedereen. 7
15 Je hebt in Flari gelezen dat er meer geboortes zijn tijdens de volle maan dan tijdens de andere fases van de maan (nieuwe maan, eerste kwartier en laatste kwartier). Anderen zeggen dat er meer geboortes zijn tijdens de nieuwe maan. Je wil dit nagaan en je raadpleegt de archieven van een ziekenhuis. In het laatste jaar zijn daar 240 babys geboren. Je beschouwt die 240 geboortes als een aselecte steekproef. Onderstaande tabel geeft het aantal geboortes in de vier fases (elk één week lang). nieuwe maan eerste kwartier volle maan laatste kwartier 63 52 67 58 Je theoretische hypothese is dat het aantal geboortes hoger is in sommige fases dan in anderen. De waarde van de toetsingsgrootheid in die steekproef is A 2.1 B 1.6 C 4.3 D Geen van de andere alternatieven De hypothese gaat over proporties. Zijn de vier proporties identiek? Dus χ 2 -toets. De theoretische proporties in de vier categoriën zijn 0.25 en de theoretische frequenties zijn allemaal 60. De statistiek of toetsingsgrootheid is gelijk aan (63 60) 2 60 + (52 60)2 60 + (67 60)2 60 + (58 60)2 9 + 64 + 49 + 4 + = 60 60 = 126/60 = 2.1. 8
16 Gegeven de onderstaande ANOVA-tabel van een enkelvoudige variantie-analyse met één factor A: Analysis of Variance Table Response: a Df Sum Sq Mean Sq F value Pr(>F) A 4 22953.5 5738.4 480.04 2.2e-16 Residuals 25 298.8 12.0 Welke bewering is volledig correct op basis van bovenstaande output? A de between-groups variance (tussensubject variantie) is hier gelijk aan 22953.5 B De verwachte gemiddelden verschillen niet tussen de niveaus van A C De analyse is uitgevoerd op n = 29 observaties D Er werden Sigma-restricties toegepast B. De verwachte gemiddelden verschillen wel tussen de niveaus van A omdat de overschrijdingskans 2.2 10 16 is. Dit is duidelijk kleiner dan gebruikelijke waarden van α. C. De analyse is uitgevoerd op n = 25 + 4 + 1 = 30 observaties. D. Je kan de restricties uit deze tabel niet afleiden. 9
17 Men doet een onderzoek naar het verband tussen het aantal zonnepanelen op het dak van een gezin en de prijs van de gezinswagen. Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 23.5367238 4.2078215 5.594 0.000230 wagen -0.0004299 0.0002504-1.717 0.116784 --- Residual standard error: 3.938 on 10 degrees of freedom Multiple R-squared: 0.2276,Adjusted R-squared: 0.1504 F-statistic: 2.947 on 1 and 10 DF, p-value: 0.1168 Analysis of Variance Table Response: zon Df Sum Sq Mean Sq F value Pr(>F) wagen 1 45.707 45.707 2.9472 0.1168 Residuals 10 155.088 15.509 Welk uitspraak is correct op basis van de bovenstaande output? A De foutkwadratensom bedraagt 155.088 B Op basis van deze gegevens kan men besluiten dat de regressierechte door de oorsprong gaat C Er namen 10 gezinnen aan het onderzoek deel D De determinatiecoëfficiënt is 0.1504 B. De schatting van β 0 is 23.5367238. Dit impliceert toch niet dat β 0 0. Inderdaad, 23.5367238 is maar een schatting van β 0. Om te besluiten dat β 0 0, kijken we naar de overschrijdingskans die correspondeert met de toets van de hypothese β 0 = 0. Die overschrijdingskans is 0.000230. Die is veel kleiner dan gebruikelijke waarden van α. We besluiten dus dat het intercept niet nul is. C. n = 10 + 1 + 1 = 12. D. De determinatiecoëfficiënt is 0.2276 (de gecorrigeerde determinatiecoëfficiënt is 0.1504). 10
18 Onderstaande output bevat de resultaten van een lineaire regressie met 1 categorische predictor ( ECON ) die werd gehercodeerd met behulp van dummycodering waarbij het laatste niveau als referentie werd gekozen. Welke conclusie kan NIET getrokken worden? A Er is een significant verschil tussen de gemiddelden van het tweede en derde niveau B Het gemiddelde van het laatste niveau heeft de waarde 1.8 C Het regressiegewicht horend bij het eerste niveau bedraagt 1.2 D In het algemeen is er geen statistisch significant verschil tussen de groepen van ECON A. We beschikken over geen informatie betreffende het contrast tussen niveaus 2 en 3. Maar we weten wel dat er geen verschil is tussen de niveaus (overschrijdingskans =.298). Er is dus ook geen verschil tussen het tweede en derde niveau. B. Omdat dummycodering gebruikt werd met het laatste niveau als referentie, kunnen we afleiden dat het gemiddelde van het laatste niveau gelijk aan b 0 is. Dus 1.800. C. Evident. D. De overschrijdingskans is 0.298, dus groter dan de gebruikelijke waarden van α. 11
19 De gegevens in de onderstaande tabel gaan over de inname van proteïnen (X) en de nitrogenenbalans (Y). Variabele Gemiddelde Standaarddeviatie Correlatie Inname x = 1 s x = 0.25 r = 0.99 Nitrogenenbalans ȳ = 20 s y = 1 Indien we de nitrogenenbalans voorspellen op basis van de inname van proteïnen, wat is de voorspelde nitrogenenbalans indien de inname gelijk is aan 2? A 23.96 B 16.04 C 20 D 20.25 De helling (regressiecoëfficiënt) is b 1 = rs y /s x =.99 1/0.25 4. Het intercept is b 0 = ȳ b 1 x 20 4 1 = 16. Uiteindelijk is de voorspelde waarde ongeveer 16+4 2 = 24. 12
20 In de onderstaande tabel vindt u gegevens van een studie over energiedrankjes, met één steekproef van vijf proefpersonen. Elke drank werd beoordeeld (variabele X, intervalmeetniveau, normaal verdeeld) op een schaal van 0 tot 100, waarbij 100 de hoogst mogelijke rating is. Subject 1 2 3 4 5 gemiddelde standaarddev Energiedrank A 43 79 66 88 78 70.8 15.6 Energiedrank B 48 78 61 77 70 66.8 11.2 Is er een significant verschil in voorkeuren? A Nee, indien getoetst met α = 10% B Er zijn niet voldoende gegevens beschikbaar om de toets uit te voeren C Ja, indien getoetst wordt met α = 10% D Ja, indien getoetst wordt met α = 5% A. Hypothese betreffende het verschil tussen twee verwachtingen met één steekproef (afhankelijke waarnemingen). Dus t-toets (p.69 in de cursus). De verschillen d i zijn 5, 1, 5, 11, 8. Het gemiddelde d is 4 en s d = 1 5 ( 5 4)2 + (1 4) 2 + (5 4) 2 + (11 4) 2 + (8 4) 2 = 156/5 31 5.5. Toetsingsgrootheid : Waarde in de steekproef : D s d / n 1. 4 5.5/2 1.5. De kritieke waarden (zie verdelingsfunctie van de Student variabele met 4 vrijheidsgraden en α = 0.10) zijn 2.132 en 2.132. Beslissing : de geobserveerde waarde 1.5 (ongeveer) ligt duidelijk binnen het acceptatieinterval [ 2.132, 2.132]. B. Er zijn slechts 5 respondenten maar de variabele X is normaal verdeeld. De kleine steekproefgrootte is dus geen probleem. 13
21 Studenten van de bachelor in chemie en van de bachelor in de lichamelijke opvoeding en de bewegingswetenschappen krijgen beide een cursus psychologie tijdens hun opleiding. Hoewel de gemiddelde slaagcijfers van beide groepen nagenoeg gelijk zijn, zijn er toch veel meer studenten uit de bachelor in de lichamelijke opvoeding en de bewegingswetenschappen die niet slagen voor dit opleidingsonderdeel in vergelijking met de studenten uit de bachelor in de chemie. Men vermoedt dat dit komt omdat studenten uit de bachelor in de lichamelijke opvoeding en de bewegingswetenschappen veel meer uiteenlopende resultaten behalen voor psychologie dan studenten uit de bachelor chemie. Men wil deze hypothese testen aan de hand van een steekproef bestaande uit 50 studenten uit de bachelor in chemie en 50 studenten uit de bachelor in de lichamelijke opvoeding en de bewegingswetenschappen. Welke verdeling zou je gebruiken om een correct besluit te trekken omtrent de onderzoeksvraag? A F 49,49 B T 48 C T 49 D T 98 De alternatieve hypothese is σlo 2 > σ2 ch. Deze hypothese wordt getoetst aan de hand van de F-toets, die gebaseerd is op een F-verdeelde toetsingsgrootheid (cursus, p.71). A is dus juist. 14