Kansrekening en Statistiek

Vergelijkbare documenten
Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Statistiek voor A.I. College 2. Donderdag 13 September 2012

Kansrekening en Statistiek

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Statistiek I Samenvatting. Prof. dr. Carette

Kansrekening en Statistiek

Kansrekening en Statistiek

Statistiek voor A.I. College 6. Donderdag 27 September

Inleiding Applicatie Software - Statgraphics

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Eindexamen wiskunde C vwo II

Kansrekening en Statistiek

Transparantie: de schakel tussen institutionele autonomie en publieke verantwoording

Global TV Canada s Pulse 2011

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

FACTSHEET Grapes: special India HScode (10)

IChO26 landenklassement Oslo Noorwegen 1994

CIJFERS BELGIË OVERNIGHT STAYS

De connected shopper journey

Kansrekening en Statistiek

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

Kansrekening en Statistiek

Data analyse Inleiding statistiek

Kansrekening en Statistiek

Sekseverschillen in onderwijssucces. Dr. Margriet van Hek Postdoctoraal onderzoeker Sociologie

Statistiek voor A.I.

Kwantitatieve methoden. Samenvatting met verwijzing naar Excel functies

FACTSHEET WORLDWIDE INTERNATIONAL TRADE Fruit & Vegetable Facts; Jan Kees Boon; ;

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Oefenvragen bij Statistics for Business and Economics van Newbold

Hoofdstuk 5 Een populatie: parametrische toetsen

Opgeloste Oefeningen Hoofdstuk 6: Steekproeven en empirische distributies

4.1 Eigenschappen van de normale verdeling [1]

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

FACTSHEET KIWIFRUIT (HS code ) (8 februari 2013)

Medische Statistiek Kansrekening

BESCHEIDEN ROL NEDERLAND IN WERELDMARKT WALNOTEN

Examen Statistiek I Feedback

FACTSHEETshort PEPPERS

Statistieken ste Vierdaagse

Handels- en investeringscijfers Zuid-Afrika-Nederland 1

toerisme in cijfers tourism in figures aantal overnachtingen naar logiesvorm 2011 number of overnight stays by type of accommodation 2011

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

Opmerking bij alle grafieken die volgen. In de statistieken zijn alleen de gegevens opgenomen van iedereen die zich heeft aangemeld.

College Week 4 Inspecteren van Data: Verdelingen

Formules Excel Bedrijfsstatistiek

Antwoorden bij 4 - De normale verdeling vwo A/C (aug 2012)

Les 1: Waarschijnlijkheidrekening

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

Cutflowers: Export Netherlands and other countries

Hoofdstuk 5: Steekproevendistributies

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Eindexamen wiskunde A1-2 vwo 2008-II

Kansrekening en Statistiek

Rotterdam Wereld Balans Wereld Import & Export. Ukraine Export. EU Balans EU Import & Export EU Mais Import Spaanse S&D Nederlandse S&D

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

Statistiek voor A.I. College 14. Dinsdag 30 Oktober

toerisme in cijfers tourism in figures aantal aankomsten naar logiesvorm 2011 number of arrivals by type of accommodation 2011

Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek. Output gegevens. Kansrekening en statistiek in de informatica

Statistiek: Vorm van de verdeling 1/4/2014. dr. Brenda Casteleyn

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Voorbeeld 1: kansverdeling discrete stochast discrete kansverdeling

Kansrekening en Statistiek

Hoofdstuk 2 De normale verdeling. Kern 1 Normale verdelingen. 1 a

toerisme in cijfers tourism in figures 2010

Statistieken ste Vierdaagse

Overzicht statistiek 5N4p

De connected shopper journey

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling

Transcriptie:

Kansrekening en Statistiek College 10 Dinsdag 19 Oktober 1 / 39

2 Statistiek Indeling: Maten Standaardscores Normale verdeling 2 / 39

Grapje http://abstrusegoose.com/54: 3 / 39

Vragen: Simpson paradox Het licht er maar aan welke data je gebruikt: Bij een universiteit met twee faculteiten, Geesteswetenschappen en Beta-wetenschappen, solliciteren 200 vrouwen en 200 mannen: 200 bij Geesteswetenschappen en de rest bij Beta-wetenschappen. Het percentage van de vrouwelijke sollicitanten dat wordt aangenomen bij de gehele universiteit blijkt lager dan het percentage van de mannelijke sollicitanten dat wordt aangenomen. Men spreekt er schande van. Bij de beide faculteiten apart is het andersom. Men spreekt zijn goedkeuring uit. Hoe dat kan: soll. aang. % ~soll. ~aang. ~% Universiteit 200 70 35 200 30 15 Geestes 190 70 39 10 10 100 Beta 10 0 0 190 20 11 4 / 39

Hoe onderzoek wordt uitgevoerd In the International Herald Tribune 1 Juli 2010 stond de volgende tabel. Wat bijzonder was: er stond bij hoe het onderzoek was uitgevoerd. How the poll was conducted The poll on gender equality was conducted by the Pew Research Center in association with the International Herald Tribune in 22 countries: Argentina, Brazil, Britain, China, Egypt, France, Germany, India, Indonesia, Japan, Jordan, Kenya, Lebanon, Mexico, Nigeria, Pakistan, Poland, Russia, South Korea, Spain, Turkey and the United States. These questions are part of the larger 2010 Pew Global Attitudes Project. Interviews were conducted either by telephone or in person in April and May. In most countries, samples of 700 to 1,300 people were representative of the adult population. In China, India and Pakistan, the samples included at least 2,000 adults and were disproportionately urban. In addition, areas of instability in Egypt and Lebanon and remote sectors of Indonesia, Russia and South Korea were not surveyed. The margin of sampling error for each country was plus or minus three to five percentage points. In addition, the practical difficulties of conducting any survey of public opinion may introduce other sources of error into the poll. Translation of questions into the many languages involved, for example, may lead to somewhat differing results. Each survey was conducted under the direction of Princeton Survey Research Associates International. 5 / 39

Maten 6 / 39

Maten: percentiel, modus en mediaan Def. Het x percentiel van een verdeling is dat punt in de verdeling waarop of beneden x procent van de scores valt. Def. De modus is de score met de hoogste frequentie. Def. De mediaan is het 50e percentiel (de score waar beneden de helft van de scores valt). Bij een oneven aantal scores is het de middelste score, bij een even aantal scores het midden tussen de twee middelste scores. 7 / 39

Maten: percentiel, modus en mediaan Vb. Van http://www.politiekedialoog.nl: Nederlanders discussiëren op het internet over allerlei zaken die hen bezighouden. Dus ook over politiek. De modus is Wilders. De modus is een van de weinige maten die toepasbaar is op nominale distributies. Er zijn geen percentielen, en dus ook geen mediaan, omdat de schaal nominaal is. 8 / 39

Maten: percentiel, modus en mediaan Vb. Het aantal verkochte ijsjes in een ijskraam per smaak per dag: vanille pistache straciatelle framboos 100 110 80 110 De modus is/zijn pistache en framboos. De modus hoeft niet uniek te zijn. Er zijn geen percentielen, en dus ook geen mediaan, omdat de schaal nominaal is. 9 / 39

Maten: percentiel, modus en mediaan Vb. Het aantal computers per gezin in een bepaald dorp: aantal computers 0 1 2 3 4 5 6 7 frequentie 1 1 3 2 0 1 0 1 Er zijn 9 scores. De modus is 2. De mediaan is de middelste waarde, de waarde van de 5e score: 2. Wanneer de scores op een rij gezet worden is dat makkelijk te zien: 012223357. 7 scores vallen op en beneden score 3. 7 is 78% van 9, dus het 78e percentiel is 3. Vb. Het aantal computers per gezin in een bepaald dorp: aantal computers 0 1 2 3 4 5 6 7 frequentie 1 1 3 2 0 1 0 2 Er zijn 10 scores. De mediaan is het midden tussen de twee middelste waardes (de waardes van de 5e en de 6e score), die 2 en 3 zijn. De mediaan is dus 2.5. 10 / 39

Maten: gemiddelde Def. Het gemiddelde is het rekenkundig gemiddelde van de scores in de categorieën: de som van de scores gedeeld door het aantal categorieën: P n i=1 X = X i, n waarbij X i de scores zijn en n het aantal waarnemingen is. Merk op: Als de data gegeven zijn via een frequentie distributie, dan kan het gemiddelde zo berekend worden: P n i=1 X = f i X i, n waarbij X i de scores (klassen) zijn, n het aantal waarnemingen is en f i de frequentie (het aantal) van de waarnemingen in klasse X i. 11 / 39

Maten: percentiel, modus en mediaan Vb. Gegevens van TNS NIPO. Het aantal grove woorden per uur in 2004: NOS 0.3 IKON 1.5 KRO 1.7 Veronica 2.5 VARA 4.1 BNN 5.1 Modus: elke score, want elke score komt één maal voor. Mediaan: 1.7 + 2.5 = 2.1. 2 Gemiddelde: 0.3 + 1.5 + 1.7 + 2.5 + 4.1 + 5.1 6 = 2.533333. 12 / 39

Maten: gemiddelde Vb. Het aantal computers per huis in een dorp met 9 huizen, waarbij de categorieën de scores bevatten: huizen H1 H2 H3 H4 H5 H6 H7 H8 H9 aantal computers 2 3 0 2 5 2 3 1 7 Het gemiddelde aantal computers: 2 + 3 + 0 + 2 + 5 + 2 + 3 + 1 + 7 9 = 25 9 = 2.8. Het aantal computers per huis in hetzelfde dorp, waarbij de categorieën de scores zijn en hun inhoud de frequentie van het voorkomen van de score: aantal computers 0 1 2 3 4 5 6 7 aantal huizen 1 1 3 2 0 1 0 1 Het gemiddelde aantal computers: 0 1 + 1 1 + 2 3 + 3 2 + 0 4 + 1 5 + 0 6 + 1 7 9 = 25 9 = 2.8. 13 / 39

Maten: afwijking Def. Voor elke score (waarde) X i is de afwijking (van het gemiddelde), x i, het verschil met het gemiddelde: x i = (X i X ). 14 / 39

Vb. Dagelijkse rokers in 10 landen (2006): Maten: afwijking Het gemiddelde percentage van de dagelijkse rokers onder de mannen in de 10 landen: X = 37 + 47 + 35 + 37 + 41 + 32 + 25 + 31 + 22 + 13 10 = 32%. De afwijking van de score van Duitsland is 37% 32% = 5%. Die van Finland is 25 32 = 7%. Evenzo voor de andere landen: Nederland Hongarije Estland Roemenië Portugal... 3 5 9 0-1... 15 / 39

Maten: afwijking St. De som van de afwijkingen van het gemiddelde is 0. Bew. P nx nx nx n i=1 (X i X ) = X i nx = X i n X nx nx i = X i X i = 0. n i=1 i=1 i=1 i=1 i=1 16 / 39

Maten: gemiddelde afwijking Def. De gemiddelde afwijking is het gemiddelde van de absolute waardes van de afwijkingen van het gemiddelde: P n i=1 X i X. n 17 / 39

Maten: gemiddelde afwijking Vb. Begrotingstekort verbeteren in miljarden euro s: VVD (39), CDA (34), PVV (17). Gemiddelde VVD, CDA, PVV: X = 39+34+17 3 = 30. Gemiddelde afwijking: 39 30 + 34 30 + 17 30 3 = 9 + 4 + 13 3 = 8.7. 18 / 39

Maten: gemiddelde afwijking Vb. Het aantal kinderen per persoon van 4 personen A, B, C, D: A B C D 0 2 1 2 Het gemiddelde is 5. De afwijkingen van het gemiddelde zijn 4 De gemiddelde afwijking is x A = 5 4 x B = 3 4 x C = 1 4 x D = 3 4. 5 4 + 3 4 + 1 4 + 3 4 4 = 12 4 4 = 3 4. 19 / 39

Maten: variantie Def. De variantie van een populatie ter grootte N is het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde µ: P n σ 2 i=1 = (X i µ) 2. N Def. De standaard afwijking van een populatie is de wortel uit de variantie: s Pn i=1 σ = (X i µ) 2. N Def. De variantie van een steekproef ter grootte n is P n s 2 i=1 = (X i X ) 2. n 1 Def. De standaard afwijking van een steekproef is de wortel uit de variantie: s Pn i=1 s = (X i X ) 2. n 1 20 / 39

Maten: variantie Vb. De populatie is een vijver met 5 vissen. De lengtes in cm. zijn: v 1 v 2 v 3 v 4 v 5 6 5 9 4 6 Gemiddelde van de populatie: µ = 6 cm. Variantie van de populatie: σ 2 = (6 6)2 + (5 6) 2 + (9 6) 2 + (4 6) 2 + (6 6) 2 5 = 0 + 1 + 9 + +4 + 0 5 = 2.8. Standaardafwijking van de populatie: σ = 2.8 = 1.67332. Er wordt een steekproef uit de vijver gehengeld bestaande uit v 2, v 4 en v 5. Gemiddelde van de steekproef: Variantie van de steekproef: X = 5 + 4 + 6 3 = 5 cm. s 2 = (5 5)2 + (4 5) 2 + (6 5) 2 3 1 = 0 + 1 + 1 2 = 1. Standaardafwijking van de steekproef : s = 1 = 1. 21 / 39

Maten: variantie St. De som van de gekwadrateerde afwijkingen van het gemiddelde is minimaal. Bew. We bewijzen dat voor iedere steekproef, en het geldt dus in het bijzonder voor de gehele populatie. Laat f (y) = nx (X i y) 2 = i=1 f (y) = Dus f is minimaal in X. i=1 nx nx (Xi 2 2X i y + y 2 ) = i=1 i=1 (X 2 i 2X i y) + ny 2. nx nx 2X i + 2ny = 2( X i + ny) f (X ) = 0. i=1 22 / 39

Maten: notatie Def. Notatie: populatie steekproef aantal N n gemiddelde µ X variantie σ 2 s 2 standaard afwijking σ s 23 / 39

Standaardscores 24 / 39

Standaardscores Def. Gegeven een steekproef met gemiddelde X en standaardafwijking s, is de standaardscore (standard score) van score X : X X. s De standaarscore van score X i wordt vaak aangegeven met z i. 25 / 39

Standaardscores Vb. Scores: X 1 = 2 X 2 = 4 X 3 = 6. Gemiddelde: X = 4. Standaardscores: van X 1 : z 1 = 2 4 2 s 2 = (2 4)2 + (4 4) 2 + (6 4) 2 2 = 1, van X 2 : z 2 = 4 4 2 = 4 s = 4 = 2. = 0, van X 3 : z 3 = 6 4 2 Vb. Scores: Y 1 = 1 Y 2 = 2 Y 3 = 3 (de vorige gedeeld door 2). Gemiddelde: X = 2. Standaardscores: van Y 1 : y 1 = 1 2 1 s 2 = (1 2)2 + (2 2) 2 + (3 2) 2 2 = 1, van Y 2 : y 2 = 2 2 1 = 1 s = 1 = 1. = 0, van Y 3 : y 3 = 3 2 1 = 1. = 1. Merk op: De verdelingen van X en Y lijken zodanig op elkaar dat hun standaardscores gelijk zijn. 26 / 39

Normale verdeling 27 / 39

Normale verdeling Def. Een continue stochast X heeft een normale verdeling met gemiddelde µ en standaardafwijking σ als de kansdichtheid deze vorm heeft: f (x) = 1 σ 2π e (x µ) 2 2σ 2. De standaard normale verdeling is de normale verdeling met gemiddelde µ = 0 en standaardafwijking σ = 1. De kansdichtheid is: f (x) = 1 2π e x2 2. De verdeling wordt vaak aangeduid met P s. 28 / 39

Normale verdeling Vb. Het IQ: 29 / 39

Normale verdeling St. Voor elke een normaal verdeelde stochast X met gemiddelde µ en standaardafwijking σ geldt: P(µ σ X µ + σ) = 0.68. P(µ 2σ X µ + 2σ) = 0.95. P(µ 3σ X µ + 3σ) = 0.99. 30 / 39

Normale verdeling en binomiale verdeling St. Bij toenemende n gaat de binomiale verdeling n k p k (1 p) n k lijken op de normale verdeling met gemiddelde p en standaardafwijking p(1 p). Dat wil zeggen: Zij X een binomiaal verdeelde stochast met verdeling `n k pk (1 p) n k. Dan geldt voor grote n dat de kans dat het aantal successen tussen k 1 en k 2 ligt, benaderd kan worden door de normale verdeling: Z k2 1 P(k 1 X k 2 ) p e (x p)2 2p(1 p) dx. k 1 p(1 p) 2π Feit: Veel verdelingen lijken op de normale verdeling (Centrale Limietstelling). 31 / 39

Normale verdeling en binomiale verdeling Vb. 32 / 39

Normale verdeling en binomiale verdeling Vb. 33 / 39

Normale verdeling Vb. Hoe groter de standaardafwijking hoe breder de klok: 34 / 39

Normale verdeling: normaliseren St. Als X een normale verdeling heeft met gemiddelde µ en standaardafwijking σ, dan heeft de stochast X µ σ de standaard normale verdeling. Dat wil zeggen dat de standaardscores van X de standaard normale verdeling hebben. Omdat X µ σ de standaardscore van X is, geldt dat P(X a) = P( X µ σ Met tabel C.1 kan P s( X µ σ a µ σ ) = Ps( X µ a µ σ σ ). a µ ) bepaald worden. σ 35 / 39

Normale verdeling: normaliseren Vb. Zij X een normaal verdeelde stochast met gemiddelde 7 en standaardafwijking 3. De kans dat X 8 is P(X 8) = P( X 7 3 8 7 ) = P X 7 s( 1 3 3 3 ). Uit tabel C.1 blijkt dat ( 1 3 afgerond op 2 decimalen) P s(z 1 3 ) = 0.3707. Dus P(X 8) = 0.3707. 36 / 39

Normale verdeling: normaliseren Vb. Zij X een normaal verdeelde stochast met gemiddelde 7 en standaardafwijking 3. De kans dat X 5 is P(X 5) = P( X 7 3 5 7 ) = P X 7 s( 2 3 3 3 ). Uit tabel C.1 blijkt dat P s(z 2 3 ) = 0.2546. Dus Ps(z 2 ) = 0.2546, en daarmee 3 P s(z 2 ) = 1 0.2546 = 0.7454. 3 Dus P(X 5) = 0.7454. 37 / 39

Normale verdeling: normaliseren Vb. Zij X een normaal verdeelde stochast met gemiddelde -3 en standaardafwijking 2. Het 40 e percentiel is de waarde x waarvoor P(X x) = 0.4. Dat wil zeggen, de x waarvoor P s( X +3 x+3 2 2 ) = 0.4. Uit tabel C.1 blijkt dat P s(z 0.26) = 0.4, dus P s(z 0.26) = 0.4. Daarmee P s( X +3 2 0.26) = 0.4. Het 40 e percentiel is dus x = 2 ( 0.26) 3 = 3.52. 38 / 39

Finis 39 / 39