Kansrekening en Statistiek College 10 Dinsdag 19 Oktober 1 / 39
2 Statistiek Indeling: Maten Standaardscores Normale verdeling 2 / 39
Grapje http://abstrusegoose.com/54: 3 / 39
Vragen: Simpson paradox Het licht er maar aan welke data je gebruikt: Bij een universiteit met twee faculteiten, Geesteswetenschappen en Beta-wetenschappen, solliciteren 200 vrouwen en 200 mannen: 200 bij Geesteswetenschappen en de rest bij Beta-wetenschappen. Het percentage van de vrouwelijke sollicitanten dat wordt aangenomen bij de gehele universiteit blijkt lager dan het percentage van de mannelijke sollicitanten dat wordt aangenomen. Men spreekt er schande van. Bij de beide faculteiten apart is het andersom. Men spreekt zijn goedkeuring uit. Hoe dat kan: soll. aang. % ~soll. ~aang. ~% Universiteit 200 70 35 200 30 15 Geestes 190 70 39 10 10 100 Beta 10 0 0 190 20 11 4 / 39
Hoe onderzoek wordt uitgevoerd In the International Herald Tribune 1 Juli 2010 stond de volgende tabel. Wat bijzonder was: er stond bij hoe het onderzoek was uitgevoerd. How the poll was conducted The poll on gender equality was conducted by the Pew Research Center in association with the International Herald Tribune in 22 countries: Argentina, Brazil, Britain, China, Egypt, France, Germany, India, Indonesia, Japan, Jordan, Kenya, Lebanon, Mexico, Nigeria, Pakistan, Poland, Russia, South Korea, Spain, Turkey and the United States. These questions are part of the larger 2010 Pew Global Attitudes Project. Interviews were conducted either by telephone or in person in April and May. In most countries, samples of 700 to 1,300 people were representative of the adult population. In China, India and Pakistan, the samples included at least 2,000 adults and were disproportionately urban. In addition, areas of instability in Egypt and Lebanon and remote sectors of Indonesia, Russia and South Korea were not surveyed. The margin of sampling error for each country was plus or minus three to five percentage points. In addition, the practical difficulties of conducting any survey of public opinion may introduce other sources of error into the poll. Translation of questions into the many languages involved, for example, may lead to somewhat differing results. Each survey was conducted under the direction of Princeton Survey Research Associates International. 5 / 39
Maten 6 / 39
Maten: percentiel, modus en mediaan Def. Het x percentiel van een verdeling is dat punt in de verdeling waarop of beneden x procent van de scores valt. Def. De modus is de score met de hoogste frequentie. Def. De mediaan is het 50e percentiel (de score waar beneden de helft van de scores valt). Bij een oneven aantal scores is het de middelste score, bij een even aantal scores het midden tussen de twee middelste scores. 7 / 39
Maten: percentiel, modus en mediaan Vb. Van http://www.politiekedialoog.nl: Nederlanders discussiëren op het internet over allerlei zaken die hen bezighouden. Dus ook over politiek. De modus is Wilders. De modus is een van de weinige maten die toepasbaar is op nominale distributies. Er zijn geen percentielen, en dus ook geen mediaan, omdat de schaal nominaal is. 8 / 39
Maten: percentiel, modus en mediaan Vb. Het aantal verkochte ijsjes in een ijskraam per smaak per dag: vanille pistache straciatelle framboos 100 110 80 110 De modus is/zijn pistache en framboos. De modus hoeft niet uniek te zijn. Er zijn geen percentielen, en dus ook geen mediaan, omdat de schaal nominaal is. 9 / 39
Maten: percentiel, modus en mediaan Vb. Het aantal computers per gezin in een bepaald dorp: aantal computers 0 1 2 3 4 5 6 7 frequentie 1 1 3 2 0 1 0 1 Er zijn 9 scores. De modus is 2. De mediaan is de middelste waarde, de waarde van de 5e score: 2. Wanneer de scores op een rij gezet worden is dat makkelijk te zien: 012223357. 7 scores vallen op en beneden score 3. 7 is 78% van 9, dus het 78e percentiel is 3. Vb. Het aantal computers per gezin in een bepaald dorp: aantal computers 0 1 2 3 4 5 6 7 frequentie 1 1 3 2 0 1 0 2 Er zijn 10 scores. De mediaan is het midden tussen de twee middelste waardes (de waardes van de 5e en de 6e score), die 2 en 3 zijn. De mediaan is dus 2.5. 10 / 39
Maten: gemiddelde Def. Het gemiddelde is het rekenkundig gemiddelde van de scores in de categorieën: de som van de scores gedeeld door het aantal categorieën: P n i=1 X = X i, n waarbij X i de scores zijn en n het aantal waarnemingen is. Merk op: Als de data gegeven zijn via een frequentie distributie, dan kan het gemiddelde zo berekend worden: P n i=1 X = f i X i, n waarbij X i de scores (klassen) zijn, n het aantal waarnemingen is en f i de frequentie (het aantal) van de waarnemingen in klasse X i. 11 / 39
Maten: percentiel, modus en mediaan Vb. Gegevens van TNS NIPO. Het aantal grove woorden per uur in 2004: NOS 0.3 IKON 1.5 KRO 1.7 Veronica 2.5 VARA 4.1 BNN 5.1 Modus: elke score, want elke score komt één maal voor. Mediaan: 1.7 + 2.5 = 2.1. 2 Gemiddelde: 0.3 + 1.5 + 1.7 + 2.5 + 4.1 + 5.1 6 = 2.533333. 12 / 39
Maten: gemiddelde Vb. Het aantal computers per huis in een dorp met 9 huizen, waarbij de categorieën de scores bevatten: huizen H1 H2 H3 H4 H5 H6 H7 H8 H9 aantal computers 2 3 0 2 5 2 3 1 7 Het gemiddelde aantal computers: 2 + 3 + 0 + 2 + 5 + 2 + 3 + 1 + 7 9 = 25 9 = 2.8. Het aantal computers per huis in hetzelfde dorp, waarbij de categorieën de scores zijn en hun inhoud de frequentie van het voorkomen van de score: aantal computers 0 1 2 3 4 5 6 7 aantal huizen 1 1 3 2 0 1 0 1 Het gemiddelde aantal computers: 0 1 + 1 1 + 2 3 + 3 2 + 0 4 + 1 5 + 0 6 + 1 7 9 = 25 9 = 2.8. 13 / 39
Maten: afwijking Def. Voor elke score (waarde) X i is de afwijking (van het gemiddelde), x i, het verschil met het gemiddelde: x i = (X i X ). 14 / 39
Vb. Dagelijkse rokers in 10 landen (2006): Maten: afwijking Het gemiddelde percentage van de dagelijkse rokers onder de mannen in de 10 landen: X = 37 + 47 + 35 + 37 + 41 + 32 + 25 + 31 + 22 + 13 10 = 32%. De afwijking van de score van Duitsland is 37% 32% = 5%. Die van Finland is 25 32 = 7%. Evenzo voor de andere landen: Nederland Hongarije Estland Roemenië Portugal... 3 5 9 0-1... 15 / 39
Maten: afwijking St. De som van de afwijkingen van het gemiddelde is 0. Bew. P nx nx nx n i=1 (X i X ) = X i nx = X i n X nx nx i = X i X i = 0. n i=1 i=1 i=1 i=1 i=1 16 / 39
Maten: gemiddelde afwijking Def. De gemiddelde afwijking is het gemiddelde van de absolute waardes van de afwijkingen van het gemiddelde: P n i=1 X i X. n 17 / 39
Maten: gemiddelde afwijking Vb. Begrotingstekort verbeteren in miljarden euro s: VVD (39), CDA (34), PVV (17). Gemiddelde VVD, CDA, PVV: X = 39+34+17 3 = 30. Gemiddelde afwijking: 39 30 + 34 30 + 17 30 3 = 9 + 4 + 13 3 = 8.7. 18 / 39
Maten: gemiddelde afwijking Vb. Het aantal kinderen per persoon van 4 personen A, B, C, D: A B C D 0 2 1 2 Het gemiddelde is 5. De afwijkingen van het gemiddelde zijn 4 De gemiddelde afwijking is x A = 5 4 x B = 3 4 x C = 1 4 x D = 3 4. 5 4 + 3 4 + 1 4 + 3 4 4 = 12 4 4 = 3 4. 19 / 39
Maten: variantie Def. De variantie van een populatie ter grootte N is het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde µ: P n σ 2 i=1 = (X i µ) 2. N Def. De standaard afwijking van een populatie is de wortel uit de variantie: s Pn i=1 σ = (X i µ) 2. N Def. De variantie van een steekproef ter grootte n is P n s 2 i=1 = (X i X ) 2. n 1 Def. De standaard afwijking van een steekproef is de wortel uit de variantie: s Pn i=1 s = (X i X ) 2. n 1 20 / 39
Maten: variantie Vb. De populatie is een vijver met 5 vissen. De lengtes in cm. zijn: v 1 v 2 v 3 v 4 v 5 6 5 9 4 6 Gemiddelde van de populatie: µ = 6 cm. Variantie van de populatie: σ 2 = (6 6)2 + (5 6) 2 + (9 6) 2 + (4 6) 2 + (6 6) 2 5 = 0 + 1 + 9 + +4 + 0 5 = 2.8. Standaardafwijking van de populatie: σ = 2.8 = 1.67332. Er wordt een steekproef uit de vijver gehengeld bestaande uit v 2, v 4 en v 5. Gemiddelde van de steekproef: Variantie van de steekproef: X = 5 + 4 + 6 3 = 5 cm. s 2 = (5 5)2 + (4 5) 2 + (6 5) 2 3 1 = 0 + 1 + 1 2 = 1. Standaardafwijking van de steekproef : s = 1 = 1. 21 / 39
Maten: variantie St. De som van de gekwadrateerde afwijkingen van het gemiddelde is minimaal. Bew. We bewijzen dat voor iedere steekproef, en het geldt dus in het bijzonder voor de gehele populatie. Laat f (y) = nx (X i y) 2 = i=1 f (y) = Dus f is minimaal in X. i=1 nx nx (Xi 2 2X i y + y 2 ) = i=1 i=1 (X 2 i 2X i y) + ny 2. nx nx 2X i + 2ny = 2( X i + ny) f (X ) = 0. i=1 22 / 39
Maten: notatie Def. Notatie: populatie steekproef aantal N n gemiddelde µ X variantie σ 2 s 2 standaard afwijking σ s 23 / 39
Standaardscores 24 / 39
Standaardscores Def. Gegeven een steekproef met gemiddelde X en standaardafwijking s, is de standaardscore (standard score) van score X : X X. s De standaarscore van score X i wordt vaak aangegeven met z i. 25 / 39
Standaardscores Vb. Scores: X 1 = 2 X 2 = 4 X 3 = 6. Gemiddelde: X = 4. Standaardscores: van X 1 : z 1 = 2 4 2 s 2 = (2 4)2 + (4 4) 2 + (6 4) 2 2 = 1, van X 2 : z 2 = 4 4 2 = 4 s = 4 = 2. = 0, van X 3 : z 3 = 6 4 2 Vb. Scores: Y 1 = 1 Y 2 = 2 Y 3 = 3 (de vorige gedeeld door 2). Gemiddelde: X = 2. Standaardscores: van Y 1 : y 1 = 1 2 1 s 2 = (1 2)2 + (2 2) 2 + (3 2) 2 2 = 1, van Y 2 : y 2 = 2 2 1 = 1 s = 1 = 1. = 0, van Y 3 : y 3 = 3 2 1 = 1. = 1. Merk op: De verdelingen van X en Y lijken zodanig op elkaar dat hun standaardscores gelijk zijn. 26 / 39
Normale verdeling 27 / 39
Normale verdeling Def. Een continue stochast X heeft een normale verdeling met gemiddelde µ en standaardafwijking σ als de kansdichtheid deze vorm heeft: f (x) = 1 σ 2π e (x µ) 2 2σ 2. De standaard normale verdeling is de normale verdeling met gemiddelde µ = 0 en standaardafwijking σ = 1. De kansdichtheid is: f (x) = 1 2π e x2 2. De verdeling wordt vaak aangeduid met P s. 28 / 39
Normale verdeling Vb. Het IQ: 29 / 39
Normale verdeling St. Voor elke een normaal verdeelde stochast X met gemiddelde µ en standaardafwijking σ geldt: P(µ σ X µ + σ) = 0.68. P(µ 2σ X µ + 2σ) = 0.95. P(µ 3σ X µ + 3σ) = 0.99. 30 / 39
Normale verdeling en binomiale verdeling St. Bij toenemende n gaat de binomiale verdeling n k p k (1 p) n k lijken op de normale verdeling met gemiddelde p en standaardafwijking p(1 p). Dat wil zeggen: Zij X een binomiaal verdeelde stochast met verdeling `n k pk (1 p) n k. Dan geldt voor grote n dat de kans dat het aantal successen tussen k 1 en k 2 ligt, benaderd kan worden door de normale verdeling: Z k2 1 P(k 1 X k 2 ) p e (x p)2 2p(1 p) dx. k 1 p(1 p) 2π Feit: Veel verdelingen lijken op de normale verdeling (Centrale Limietstelling). 31 / 39
Normale verdeling en binomiale verdeling Vb. 32 / 39
Normale verdeling en binomiale verdeling Vb. 33 / 39
Normale verdeling Vb. Hoe groter de standaardafwijking hoe breder de klok: 34 / 39
Normale verdeling: normaliseren St. Als X een normale verdeling heeft met gemiddelde µ en standaardafwijking σ, dan heeft de stochast X µ σ de standaard normale verdeling. Dat wil zeggen dat de standaardscores van X de standaard normale verdeling hebben. Omdat X µ σ de standaardscore van X is, geldt dat P(X a) = P( X µ σ Met tabel C.1 kan P s( X µ σ a µ σ ) = Ps( X µ a µ σ σ ). a µ ) bepaald worden. σ 35 / 39
Normale verdeling: normaliseren Vb. Zij X een normaal verdeelde stochast met gemiddelde 7 en standaardafwijking 3. De kans dat X 8 is P(X 8) = P( X 7 3 8 7 ) = P X 7 s( 1 3 3 3 ). Uit tabel C.1 blijkt dat ( 1 3 afgerond op 2 decimalen) P s(z 1 3 ) = 0.3707. Dus P(X 8) = 0.3707. 36 / 39
Normale verdeling: normaliseren Vb. Zij X een normaal verdeelde stochast met gemiddelde 7 en standaardafwijking 3. De kans dat X 5 is P(X 5) = P( X 7 3 5 7 ) = P X 7 s( 2 3 3 3 ). Uit tabel C.1 blijkt dat P s(z 2 3 ) = 0.2546. Dus Ps(z 2 ) = 0.2546, en daarmee 3 P s(z 2 ) = 1 0.2546 = 0.7454. 3 Dus P(X 5) = 0.7454. 37 / 39
Normale verdeling: normaliseren Vb. Zij X een normaal verdeelde stochast met gemiddelde -3 en standaardafwijking 2. Het 40 e percentiel is de waarde x waarvoor P(X x) = 0.4. Dat wil zeggen, de x waarvoor P s( X +3 x+3 2 2 ) = 0.4. Uit tabel C.1 blijkt dat P s(z 0.26) = 0.4, dus P s(z 0.26) = 0.4. Daarmee P s( X +3 2 0.26) = 0.4. Het 40 e percentiel is dus x = 2 ( 0.26) 3 = 3.52. 38 / 39
Finis 39 / 39