Opgeloste Oefeningen Hoofdstuk 6: Steekproeven en empirische distributies 6.. Uit een normaal verdeeld universum X met gemiddelde waarde µ = en standaardafwijking σ = worden 0 onafhankelijke steekproefwaarden genomen. Zij k het aantal negatieve steekproefwaarden daartussen. Bepaal : (a) de distributie van k (antw. k d = B(0, 0.03)) (b) de gemiddelde waarde en de variantie van k (antw. 0.3 en 0.5) (c) de kans dat k verschillend is van 0. (antw. 0.08) Oplossing: De waarschijnlijkheid dat een steekproefwaarde negatief is wordt gegeven door p = P(X < 0) = P(U < ) = Φ( ) = 0.03. (a) Het is duidelijk dat k d = B(0, p) = B(0, 0.03). (b) E[k] = np = 0.3 en Var[k] = np( p) = 0.5. (c) De kans dat k verschillend is van 0 wordt gegeven door P(k 0) = P(k = 0) = = (0.977) 0 = 0.08. ( ) 0 p 0 ( p) 0 0 6.. Bepaal het gemiddelde, de mediaan en de variantie van volgende rij getallen: (i) 38, 47, 44, 3, 5, 8 (ii) 9, 0,, 0, 0, 9, 0, 9, 0, Oplossing: (i) 8, 3, 38, 44, 47, 5 Mediaan: n = 6: even dus M := Y n/+y n/+ = 38+44 = 4 Gemiddelde: 6 (8 + 3 + 38 + 44 + 47 + 5) Variantie: 5 (( ) + ( 8) + ( ) + 4 + 7 + = 79, 6 (ii) 9, 0,, 0, 0, 9, 0, 9, 0,
x i n i 9 3 0 5 0 Mediaan: n = 0: even dus M := Y n/+y n/+ = 0 Gemiddelde: 0 (3 9 + 5 0 + ) = 9, 9 Variantie: 9 (3( 0, 9) + 5(0, ) + (, ) = 0, 544 6.3. Van 000 getallen zijn er 00 gelijk aan 4, 400 gelijk aan 5, 300 gelijk aan 6. De overige zijn gelijk aan 7. Bepaal de mediaan, het gemiddelde en de standaardafwijking. Oplossing: x i n i 4 00 5 400 6 300 7 00 000 Mediaan: n = 000: even dus M := Y 000/+Y 000/+ = 5 Gemiddelde: 000 (00 4 + 400 5 + 300 6 + 00 7) = 5, 3 Variantie: 999 (00(, 3) + 400(0, 3) + 300(0, 7) + 00(, 7) = 0, 808 Standaardafwijking= 0, 808 = 0, 9005 6.4. Bij ratten observeerde men 00 verschillende worpen van telkens 5 jongen en men telde het aantal mannetjes per worp: 4 3 3 3 4 3 0 4 5 3 3 4 0 3 3 4 3 4 3 3 3 4 5 3 3 3 3 4 3 4 3 4 3 3 4 3 3 4 3 3 3 4 3 5 4 3 4 3 3 4 3 3 0 3 5 4 3 Maak een frequentietabel en een puntdiagram.
Oplossing: x i n i n i /n (n +... + n i )/n 0 3 0,03 0,03 3 0,3 0,6 30 0,3 0,46 3 33 0,33 0,79 4 7 0,7 0,96 5 4 0,04 00 6.5. Hieronder worden de gewichten van 0 vrouwen uit de leeftijdscategorie 8-5 jaar (in kg; afgerond tot op de eenheid) gegeven. Gevraagd: 54 45 6 68 45 63 6 59 55 44 57 50 6 44 6 58 44 50 57 59 44 6 48 5 53 43 57 5 59 6 53 59 59 6 53 47 59 6 59 49 6 6 66 48 6 66 66 6 6 46 44 70 54 46 6 70 58 5 49 64 46 56 49 66 55 57 6 59 6 57 45 64 58 48 50 64 58 45 63 48 73 76 54 48 66 64 6 46 6 70 5 47 48 54 50 6 54 44 55 57 5 45 5 55 55 44 54 58 53 56 54 75 54 43 57 50 6 57 54 54 (i) Frequentietabel met klassenindeling (ii) Histogram en frequentieveelhoek (iii) Steekproefbereik en Mediaan (iv) Gemiddelde en variantie Oplossing: (i) Methode om een frequentietabel voor continue data op te stellen. Zoek de kleinste en de grootste waarde in de tabel. 3
. Houd er rekening mee dat getabuleerde waarden onstaan door afronding! Bepaal de feitelijke kleinste en grootste waarde. 3. Bereken het verschil tussen de feitelijke extremale waarden. 4. Deel dit verschil door 0 en door 0 en kies dan een klassebreedte die ligt tussen deze twee uitkomsten. Kleinste waarde: 43 Feitelijke kleinste waarde: 4,5 Grootste waarde: 76 Feitelijke grootste waarde: 76,5 Verschil tussen extremale waarden: 76,5-4,5=34 De klassebreedte moet dus liggen tussen Kies bijvoorbeeld 3 als klassebreedte 34/0 =, 7 en 34/0 = 3, 4 (ii) histogram en frequentieveelhoek Klassen Midden Turven abs.freq. [4, 5; 45; 5[ 44 4 [45, 5; 48, 5[ 47 [48, 5; 5, 5[ 50 [5, 5; 54, 5[ 53 7 [54, 5; 57, 5[ 56 5 [57, 5; 60, 5[ 59 3 [60, 5; 63, 5[ 6 [63, 5; 66, 5[ 65 9 [66, 5; 69, 5[ 68 [69, 5; 7, 5[ 7 3 [7, 5; 75, 5[ 74 [75, 5; 78, 5[ 77 0 (iii) Steekproefbereik: R := Y n Y = 76 43 = 33 4
Mediaan: n = 0: even dus M := Y 0/+Y 0/+ = 56+56 = 56 (iv) Gemiddelde: 55,8 Variantie: 9 (4(, 8) + (8, 8) + (5, 8) + 7(, 8) + 5(0, ) +(3, ) + 3(6, ) + 9(9, ) + (, ) +3(5, ) + (8, ) + (, ) = 59, 707 (59, 47) 6.6. Ziehier de stystolische bloeddrukken van 00 vrouwen uit de leefstijdscategorie 0-30 jaar. Groep A betreft 50 vrouwen die de anticonceptiepil niet gebruiken en in groep B zijn 50 vrouwen die de pil wel gebruiken. Vergelijk via box-plot deze twee groepen. Groep A (Niet-gebruikers): Groep B (Gebruikers): 0 6 06 06 4 05 6 98 00 0 9 5 5 34 6 6 8 4 9 30 4 96 36 0 6 00 0 04 8 3 46 4 0 08 36 8 8 3 5 40 3 08 0 06 8 4 08 0 0 0 6 90 4 0 3 4 5 5 6 6 96 8 30 34 98 3 5 5 8 08 34 8 4 36 38 8 05 4 09 3 6 4 36 0 0 30 3 5 Oplossing: Een boxplot is een eenvoudige grafische samenvatting van enkele belangrijke kengetallen van een dataset. In haar eenvoudigste vorm wordt een boxplot getekent met behulp van volgende 5 getallen.. De twee extremen Y n en Y. De mediaan: M := { Yn/ +Y n/+ als n even als n oneven Y n+ 3. Het eerste en het derde kwartielgetal: Opmerking over de kwartielen: De zogenaamde kwartielen vormen een verdere uitbreiding van het begrip mediaan. Van de mediaan kan gezegd worden dat ze een geordende rij gegevens in twee gelijke delen verdeelt. 5
Als we de geordende rij in vier gelijke delen willen verdelen, dan vinden we drie kwartielen. Elke observatie uit een geordende rij heeft een rangnummer: de positie die het in de geordende rij inneemt. We definiëren nu ook niet-gehele rangnummers door te zeggen dat Y i + p (Y i+ Y i ) rangnummer i + p heeft (0 < p < ). Met behulp van het voorgaande definiëren we : het eerste kwartielgetal K is het getal met rangnummer n+ 4 het tweede kwartielgetal K (of mediaan) is het getal met rangnummer n+ het derde kwartielgetal k 3 is het getal met rangnummer 3 n+ 4 Schematisch tekenen we de boxplot als volgt:. Tegenover een schaal wordt een rechthoekige doos getekent van het eerste tot het derde kwartiel.. De lijn in de doos wijst de mediaan aan. 3. De twee kruisjes duiden het grootste en het kleinste getal aan. 4. De twee kruisjes worden door lijnen met de doos verbonden. Om de kwartielgetallen te kunnen bepalen moeten we de data eerst ordenen! Groep A (Niet-gebruikers): 9 96 98 00 00 0 0 04 05 06 06 08 08 0 4 4 5 6 6 6 8 8 8 9 0 0 0 4 4 5 6 6 8 30 3 3 3 34 36 36 40 46 Groep B (Gebruikers): 90 96 98 0 0 05 06 08 08 09 0 4 4 5 5 6 6 8 8 8 0 0 0 4 4 5 5 6 6 8 8 30 30 3 3 3 3 34 34 36 36 38 4 4 5 6
Groep A Groep B 0+ M 8 = 0, 5 K 08 K 3 5+0,5(6-5)=5,5 30+0,5(3-30)=30,5 Y 50 46 5 Y 9 90 6.7. Het Effect van een vegetarisch dieet op het serum-cholesterolgehalte. Een steekproef van 4 hospitaalbedienden die een standaard dieet volgden verklaarden zich akkoord om gedurende maand over te schakelen op een vegetarisch dieet. Hun serum-cholesterolgehalte werd gemeten aan het begin van het vegetarisch dieet en maand later. (i) Bereken de gemiddelde verandering in cholesterolgehalte. (ii) Bereken de standaardafwijking van de verandering in cholesterolgehalte. (iii) Bereken de mediaan van de verandering in cholesterol. (iv) Construeer een box-plot voor de colesterol veranderingen. (v) Geef commentaar over de symmetrie van de verdeling van de cholesterol veranderingen. (vi) Sommige onderzoekers hebben het gevoel dat het effect van een dieet op cholesterolgehalte meer uitgesproken is bij personen met een hoog cholesterolgehalte. Splits de data op naargelang het basis cholesterolgehalte boven of onder de mediaan ligt en geef commentaar op de bewering. 7
Persoon Voor Na Voor-na 95 46 49 45 55-0 3 05 78 7 4 59 46 3 5 44 08 36 6 66 47 9 7 50 0 48 8 36 5 9 9 84 8 0 4 08 6 38 06 3 97 69 8 3 69 8-3 4 58 7 3 5 5 49 6 97 78 9 7 80 6 9 8 87 35 9 68 76-8 0 68 45 3 67 54 3 6 53 8 3 78 37 4 4 37 5 Oplossing: (i) Gemiddelde :9,54 (ii) Standaardafwijking: Variantie: x i = 566 i n x = 965, 04 n (566 965, 04) = (6496) = 8, 4 3 Dus is de standaardafwijking: 6, 8057 (iii) Geordende observaties: Mediaan: 9 3 0 8 8 8 3 3 6 9 9 9 3 7 8 3 3 35 36 8 4 48 49
(iv) Box-plot: K = 8 + 0, 5 4 = 9 K = 3, 75 Y 4 = 49 Y = 3 (v) Geef commentaar over de symmetrie van de verdeling van de cholesterol veranderingen. Rechts is er een iets grotere spreiding in de box. Links is de spreiding kleiner. (vi) Sommige onderzoekers hebben het gevoel dat het effect van een dieet op cholesterolgehalte meer uitgesproken is bij personen met een hoog cholesterolgehalte. Splits de data op naargelang het basis cholesterolgehalte boven of onder de mediaan ligt en geef commentaar op de bewering. Mediaan van het basischolesterolgehalte: 79 Dus we splitsen de data op in twee groepen: Groep : alle personen met cholesterolgehalte 79 Groep : alle personen met cholesterolgehalte 79 Voor elk van de twee groepen berekenen we de kengetallen om een boxplot te kunnen tekenen: Let op bereken de kengetallen op basis van de verandering in cholesterolgehalte! M K K 3 Y Y Groep Groep We zien dan dat het gevoel van de onderzoekers juist is. 9