STATISTIEK OPLOSSINGEN OEFENZITTINGEN 5 en 6 c D. Keppens 2004 5 1 (a) Zij µ de verwachtingswaarde van X. We moeten aantonen dat E[M i ] = µ voor i = 1, 2, 3 om te kunnen spreken van zuivere schatters. E[M 1 ] = E[ 1 4 X 1 + 1 2 X 2 + 1 4 X 3] = 1 4 µ + 1 2 µ + 1 4 µ = µ analoog voor E[M 2 ] en E[M 3 ] (b) Zij X = 1 3 (X 1 + X 2 + X 3 ) het rekenkundig gemiddelde van de drie waarnemingen. Dan rekent men na dat E[X] = µ. Om aan te tonen dat deze schatter efficiënter is dan de voorgaande, berekenen we de variantie op de schattingen. Uit de algemene variantiewet volgt V ar[m 1 ] = ( 1 4 )2 σ 2 X 1 + ( 1 2 )2 σ 2 X 2 + ( 1 4 )2 σ 2 X 3 +2( 1 4 ) (1 2 ) ρ 12σ X1 σ X2 +2( 1 4 ) (1 4 ) ρ 13σ X1 σ X3 +2( 1 2 ) (1 4 ) ρ 23σ X2 σ X3 waarin σ 2 X 1 = σ 2 X 2 = σ 2 X 3 = σ 2 en de korrelatiekoëfficiënten gegeven zijn. Men bekomt V ar[m 1 ] = 13 48 σ2 Op analoge wijze vindt men V ar[m 2 ] = 23 75 σ2 en V ar[m 3 ] = 13 36 σ2 terwijl V ar[x] = 11 54 σ2 Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter. 5 2 De konstante C volgt uit de normeringsvoorwaarde : C + 0 x e x ϑ dx = 1 wat na berekening van de integraal (partiële integratie) oplevert : C = 1 ϑ 2 De waarschijnlijkheidsfunktie L is gegeven door L(x 1, x 2,..., x n ; ϑ) = 1 ϑ x 2 1 e x 1 1 ϑ ϑ x 2 2 e x 2 1 ϑ... ϑ x 2 n e xn ϑ = 1 ϑ x 2n 1 x 2... x n e 1 ϑ (x 1+x 2 +...x n ) Overgang op logaritmen geeft : ln L = 2n ln ϑ + n ln x i 1 ϑ i=1 n i=1 x i 1
De gevraagde schatting is de oplossing van de vergelijking d ln L d ϑ = 0 of dus 2n 1 ϑ + 1 n x ϑ 2 i = 0 waaruit we bekomen : ϑ = n i=1 x i 2n = x 2 i=1 5 3 (a) We hebben hier te maken met een intervalschatting voor de verwachtingswaarde van een veranderlijke met ongekende variantie. Omdat we te maken hebben met een grote steekproef mogen we onderstellen dat de veranderlijke bij benadering normaal verdeeld is. In de theorie hebben we gezien dat het schattingsinterval dan (zie opmerking p.4 10)gegeven wordt door [X λ p S n, X + λ p S n ] Hier is p = 2 (want 98 % betrouwbaarheidsinterval) zodat λ 2 = 2, 326 (uit tabel), n = 400, X = 507, 3 en S = 8, 2 Dit geeft het interval [506, 508] (b) Als de breedte van het interval 1 cc moet bedragen, dan moet S n = 0, 5. Met S = 8, 2 en λ p = λ 2 = 2, 33 bekomen we dan λ p n = (2 2, 33 8, 2) 2 = 1460 Opmerking : men kan ook met de t verdeling werken en als schattingsinterval [X t p S S n 1, X + t p n 1 ] nemen. Dit geeft lichtelijk andere waarden voor de oplossing. 5 4 (a) We hebben hier te maken met een intervalschatting voor de verwachtingswaarde van een normaal verdeelde veranderlijke met gekende variantie. In de theorie hebben we gezien dat het schattingsinterval dan gegeven wordt door [X λ p σ n, X + λ p σ n ] Hier is p = 5 (want 95 % betrouwbaarheidsinterval) zodat λ 5 = 1, 96 (uit tabel), n = 25, X = 20, 142 en σ = 100 gram = 0, 1 kg! Dit geeft het interval [20, 1028, 20, 1812] (b) Als de breedte van het interval 20 gram moet bedragen, dan moet σ λ p n = 10. Met σ = 100 gram en λ p = λ 5 = 1, 96 bekomen we dan n = (10 1, 96) 2 = 384, 16. Dus n moet minstens 385 bedragen. 2
5 5 (a) We hebben hier te maken met een puntschatting voor de variantie van een normaal verdeelde veranderlijke. Omdat we te maken hebben met een kleine steekproef gebruiken we als schatter de verbeterde steekproefvariantie. n Dus ŝ 2 i=1 = (x i µ) 2 n 1 Met µ geschat door het steekproefgemiddelde x = 503+496+510+504+492+495+506+495+496+503 10 = 500 en n = 10 Men bekomt ŝ 2 = 316 9 = 35, 11 (b) We hebben hier te maken met een intervalschatting voor de verwachtingswaarde van een normaal verdeelde veranderlijke met ongekende variantie. Omdat de steekproefomvang klein is, moeten we werken met de t verdeling. In de theorie hebben we gezien dat het schattingsinterval dan S gegeven wordt door [X t p S n 1, X + t p n 1 ] Hier is n = 10, p = 5 (want 95 % betrouwbaarheidsinterval) zodat 316 10 t 5 [9] = 2, 26 (uit tabel), X = 500 en S = = 5, 62 (we gebruiken hier S en niet de verbeterde steekproefstandaardafwijking Ŝ) Dit geeft het interval [496, 504] 5 6 We hebben hier te maken met een intervalschatting voor de verwachtingswaarde van een normaal verdeelde veranderlijke met ongekende variantie. Omdat de steekproefomvang eerder klein is, moeten we werken met de t verdeling. In de theorie hebben we gezien dat het schattingsinterval dan gegeven S wordt door [X t p S n 1, X + t p n 1 ] Hier is n = 20, p = 1 (want 99 % betrouwbaarheidsinterval) zodat t 1 [19] = 2, 86 (uit tabel), X = 1832 en S = 497 Dit geeft het interval [1506, 2158] Een schattingsinterval voor σ is gegeven door (zie theorie) : [ ns2 χ 2, ns2 p χ 2 ] 2 1 p 2 Hier is p = 5 en n = 20 zodat χ 2 0,025[19] = 32, 85 en χ 2 0,975[19] = 8, 91 (zie tabel) en S 2 = (497) 2 3
Dit geeft het interval : [150386, 554453] voor σ 2 waaruit dan het interval [388, 745] volgt voor σ 5 7 We formuleren als nulhypothese : H 0 : µ = 150 tegenover de alternatieve hypothese H 1 : µ > 150 We hebben hier te maken met een (eenzijdige) test voor het gemiddelde met gekende variantie. Eigenlijk is de steekproef iets te klein (n = 25 voldoet niet aan n > 30, maar het scheelt niet echt veel en sommige auteurs nemen trouwens n > 20 als voorwaarde) zodat we toch mogen werken met de z test. Als toetsingsgrootheid T nemen we dan T = X µ 0 σ. n Als de nulhypothese waar is, dan heeft deze veranderlijke een standaard normale verdeling ). Bij een drempelwaarde α = 0, 01 in een rechtseenzijdige test, moeten we gebruik maken van λ 2 De waarde daarvan halen we uit tabel 2 : λ 2 = 2, 33 Het verwerpingsgebied is dan ]λ 2, + [=]2.33, + [ De waargenomen waarde van de toestsingsgrootheid is 170 150 20 = 5 en 25 deze ligt in het verwerpingsgebied zodat we de nulhypothese moeten verwerpen. 5 8 We formuleren als nulhypothese : H 0 : µ = 10 tegenover de alternatieve hypothese H 1 : µ > 10 We hebben hier te maken met een (eenzijdige) test voor het gemiddelde met gekende variantie. De steekproef is echter klein, maar dat is geen probleem omdat gegeven is dat de veranderlijke normaal verdeeld is, zodat we toch kunnen werken met de z test. Als toetsingsgrootheid T nemen we dus T = X µ 0 σ. n Als de nulhypothese waar is, dan heeft deze veranderlijke een standaard normale verdeling. Bij een drempelwaarde α = 0, 05 in een rechtseenzijdige test, moeten we gebruik maken van λ 10. Deze halen we uit tabel 2 : λ 10 = 1, 64 Het verwerpingsgebied is dan ]λ 10, + [=]1.64, + [ 4
De waargenomen waarde van de toetsingsgrootheid is gelijk aan 10,7 10 0,9 9 = 2, 33 en deze ligt in het verwerpingsgebied zodat we de nulhypothese moeten verwerpen. 5 9 We formuleren als nulhypothese : H 0 : µ = 300 tegenover de alternatieve hypothese H 1 : µ 300 We hebben hier te maken met een tweezijdige test voor het gemiddelde met gekende variantie. De veranderlijke is normaal verdeeld zodat de grootte van de steekproefomvang niet relevant is. We kunnen dus werken met de z test. Als toetsingsgrootheid T nemen we dan T = X µ 0 σ. n Als de nulhypothese waar is, dan heeft deze veranderlijke een standaard normale verdeling. Bij een drempelwaarde α = 0, 05 in een tweezijdige test, moeten we gebruik maken van λ 5 = 1, 96 (uit tabel). Het verwerpingsgebied bestaat uit twee intervallen en is dan : ], 1, 96[ ]1, 96, + [ De waargenomen waarde van T is gelijk aan 292 300 15 = 2, 67 en deze 25 waarde ligt in het linkerdeel van dit verwerpingsgebied zodat we de nulhypothese moeten verwerpen. 5 10 We formuleren als nulhypothese : H 0 : µ 200 tegenover de alternatieve hypothese H 1 : µ > 200 We hebben hier een (eenzijdige) test voor het gemiddelde waarbij de variantie niet gekend is (en de steekproefomvang is klein) zodat we best werken met de t test. Als toetsingsgrootheid T nemen we dan T = n 1 X µ 0 S µ 0 = 200 en n = 10 waarin Als de nulhypothese waar is, dan is T t verdeeld met 10 1 = 9 vrijheidsgraden. Bij een drempelwaarde α = 0, 05 in een eenzijdige test, moeten we gebruik maken van t 10 [9] = 1, 833 (uit tabel met procentwaarden van de t verdeling). 5
Het verwerpingsgebied is dan ]1, 833, + [ De waargenomen waarde van de toetsingsgrootheid T is gelijk aan 9 300 200 4000 = 4, 74 (nadat uit de steekproefgegevens werd berekend : x = 300 en s 2 = 4000 en deze ligt in het verwerpingsgebied zodat we de nulhypothese moeten verwerpen. 5 11 We formuleren als nulhypothese : H 0 : σ 2 4 tegenover de alternatieve hypothese H 1 : σ 2 > 4 We hebben hier een (eenzijdige) test waarbij een vooropgezette variantie moet worden getest aan de hand van een waargenomen variantie (χ 2 test). Als toetsingsgrootheid T nemen we dan T = ns2 n = 10 σ 2 0 waarin σ 2 0 = 4 en Als de nulhypothese waar is, dan is T χ 2 verdeeld met 10 1 = 9 vrijheidsgraden. Bij een drempelwaarde α = 0, 05 in een eenzijdige test, moeten we gebruik maken van χ 2 5[9] = 16, 92 (uit tabel met procentwaarden van de χ 2 verdeling, in die tabel wordt χ 2 [5] voorgesteld als g 0,95 ). Het verwerpingsgebied is dan ]16, 92, + [ De waargenomen waarde van de toetsingsgrootheid T is gelijk aan 10 69 4 = 172.6 (nadat uit de steekproefgegevens werd berekend : s 2 = 69 en deze ligt in het verwerpingsgebied zodat we de nulhypothese moeten verwerpen. 5 12 We hebben hier te maken met een verschiltoets voor het gemiddelde bij gegeven varianties. Omdat de steekproeven voldoende groot zijn (omvang 50) hoeft men niet te weten of de kansverdeling van de examenresultaten normaal is. We formuleren als nulhypothese : H 0 : µ X = µ Y tegenover de alternatieve hypothese H 1 : µ X µ Y (tweezijdige test) Als toetsingsgrootheid T nemen we dan het verschil X Y σ 2 X n1 + σ2 Y n2 Als de nulhypothese waar is, dan is T standaard normaal verdeeld. Bij een drempelwaarde α = 0, 05 in een tweezijdige test, moeten we gebruik maken van λ 5 = 1, 96 (uit tabel). 6
Het verwerpingsgebied is dan ], 1, 96[ ]1, 96, + [ De waargenomen waarde van de toetsingsgrootheid T is gelijk aan 120 112 4,5 = 3, 77 en deze ligt in het rechterdeel van het verwerpingsgebied zodat we de nulhypothese moeten verwerpen. 5 13 We hebben hier te maken met een verschiltoets voor het gemiddelde bij gelijke, maar onbekende varianties. We formuleren als nulhypothese : H 0 : µ X = µ Y tegenover de alternatieve hypothese H 1 : µ X µ Y (tweezijdige test) Als toetsingsgrootheid T nemen we dan X Y n1 n 2 waarin S P n 1 + n 2 n 1 = 6 en n 2 = 5 en SP 2 = n 1SX 2 + n 2SY 2 (de pooled variance). n 1 + n 2 2 Als de nulhypothese waar is, dan is T t verdeeld met n 1 + n 2 2 = 9 vrijheidsgraden Bij een drempelwaarde α = 0, 05 in een tweezijdige test, moeten we gebruik maken van t 5 [9] = 2, 26 (uit tabel). Het verwerpingsgebied is dan ], 2, 26[ ]2, 26, + [ Met de steekproefgegevens vindt men dat x = 25, y = 20, s 2 X = 22, 7 en s 2 Y = 46 waaruit s2 P = 6 22,7=5 46 6+5 2 = 40, 7. De waargenomen waarde van de toetsingsgrootheid T is dan gelijk aan 25 20 = 1, 29 en deze ligt niet in het verwerpingsgebied zodat 40, 7 6 5 6+5 we de nulhypothese mogen aanvaarden. Er is dus geen signifikant verschil tussen de gemiddelde leveringstijden van beide leveranciers. 5 14 In het eerste deel van de oefening hebben we te maken met een verschiltoets voor de variantie (F test). We formuleren als nulhypothese : H 0 : σx 2 = σ2 Y tegenover de alternatieve hypothese H 1 : σx 2 σ2 Y (tweezijdige test) Als toetsingsgrootheid T nemen we dan n 1(n 2 1)SX 2 n 2 (n 1 1)SY 2 n 2 = 5. waarin n 1 = Als de nulhypothese waar is, dan is T F verdeeld met (n 1 1, n 2 1) = (4, 4) vrijheidsgraden. 7
Bij een drempelwaarde α = 0, 05 in een tweezijdige test, moeten we gebruik maken van F 0,025 [4, 4] = 9, 60 (uit tabel) en F 0,975 [4, 4] = 1 F 0,025 [4, 4] = 1 9, 60 = 0, 104 (eigenschap F 1 p[m, n] = F 1 p [n,m] ). Het verwerpingsgebied is dan ], 0, 10[ ]9, 60, + [ Met de steekproefgegevens vindt men dat x = 3000, y = 1000, s 2 X = 2700000 en s 2 Y = 116000. De waargenomen waarde van de toetsingsgrootheid T is dan gelijk aan 2700000 = 23, 3 en deze ligt in het verwerpingsgebied zodat we 116000 de nulhypothese moeten verwerpen. Er is dus een signifikant verschil tussen de varianties van beide groepen. In het tweede deel van de oefening moeten we een verschil van gemiddelden testen (bij verschillende varianties). Als nulhypothese formuleren we : H 0 : µ X = µ Y tegenover de alternatieve hypothese H 1 : µ X µ Y (tweezijdige test) Als toetsingsgrootheid T neemt men dan X Y S 2 X n1 + S2 Y n 2 die als de nulhypothese waar is, een t verdeling bezit met bij benadering min(n 1, n 2 ) 1 vrijheidsgraden. Hier is n 1 = n 2 = 5 zodat we een t verdeling hebben met 4 vrijheidsgraden. Bij α = 0, 05 bekomt men het verwerpingsgebied ], t 5 [4][ ]t 5 [4], + [=], 2, 78[ ]2, 78, + [ De waargenomen waarde van de toetsingsgrootheid bedraagt 3000 1000 = 2, 66 en deze ligt niet in het verwerpingsgebied. 2700000 5 + 116000 5 Er is dus geen signifikant verschil tussen de gemiddelden van beide groepen. 8
5 15 We moeten gebruik maken van de χ 2 aanpassingstoets. Als nulhypothese stellen we dat het gewicht van de pruimen normaal verdeeld is. In deze veronderstelling worden de theoretische relatieve frekwenties gevonden met de formule P (a X < b) = Φ(b) Φ(a) = Ψ( b µ σ ) Ψ(a µ σ ) en daaruit heeft men dan de theoretische absolute frekwenties (door te vermenigvuldigen met 80 = som van de steekproeffrekwenties). De waarden van µ en σ worden geschat door x en s. Op deze manier bekomt men voor de theoretische frekwenties : gewichtsklasse theoretische frekwentie < 40 8 [40, 50[ 7, 2 [50, 60[ 10, 1 [60, 70[ 12, 2 [70, 80[ 12, 6 [80, 90[ 11, 1 [90, 100[ 8, 3 100 10, 5 De toetsingsgrootheid T is gelijk aan (W i T i ) 2 met W i de waargenomen frekwenties en T i de berekende theoretische T i i frekwenties. Deze bezit een χ 2 verdeling met k 1 m vrijheidsgraden waarin k = 8 (aantal klassen) en m = 2 (het aantal geschatte parameters om T i te kunnen berekenen). Met α = 0, 05 vindt men χ 2 [5] = 11, 1 zodat het verwerpingsgebied gelijk is aan ]11, 1 + [ De waargenomen waarde van T is (na berekening) gelijk aan 19,42 en deze ligt in het verwerpingsgebied. We mogen dus niet veronderstellen dat het gewicht van de pruimen normaal verdeeld is. 9
5 16 We moeten gebruik maken van de χ 2 aanpassingstoets. Als nulhypothese stellen we dat de tijdsduur negatief exponentieel verdeeld is. In deze veronderstelling worden de theoretische relatieve frekwenties gevonden met de formule P (a X < b) = b a ϕ(x) dx = [ e λx ] b a en daaruit volgen dan de theoretische absolute frekwenties door te vermenigvuldigen met 74 (som van de steekproeffrekwenties) Omdat µ = 1 λ kan λ geschat worden met 1 x waarbij x = 1, 75 (gegeven). Op deze manier bekomt men voor de theoretische absolute frekwenties : tijdsduur tussen twee storingen theoretische frekwentie minder dan 1 uur 32 tussen 1 en 2 uur 19 tussen 2 en 3 uur 10 tussen 3 en 5 uur 9 meer dan 5 uur 4 De toetsingsgrootheid T is gelijk aan (W i T i ) 2 met W i de waargenomen frekwenties en T i de berekende theoretische T i i frekwenties. Deze bezit een χ 2 verdeling met k 1 m vrijheidsgraden waarin k = 5 (aantal klassen) en m = 1 (het aantal geschatte parameters om T i te kunnen berekenen). Met α = 0, 05 vindt men χ 2 [3] = 7, 8 zodat het verwerpingsgebied gelijk is aan ]7, 8 + [ De waargenomen waarde van T is gelijk aan 4 32 + 9 ligt niet in het verwerpingsgebied. 19 + 1 9 = 0, 7 en deze We mogen dus veronderstellen dat de tijdsduur tussen twee storingen negatief exponentieel verdeeld is. 10