Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling

Vergelijkbare documenten
introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

Hoofdstuk 5: Steekproevendistributies

SOCIALE STATISTIEK (deel 2)

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions

Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

werkcollege 6 - D&P9: Estimation Using a Single Sample

introductie kansen pauze meer kansen random variabelen transformaties ten slotte

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

Toetsende Statistiek 2011

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Medische Statistiek Kansrekening

Kansverdelingen Inductieve statistiek met Geogebra 4.2

Statistiek I Samenvatting. Prof. dr. Carette

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

Kansrekening en Statistiek

introductie toetsen power pauze hypothesen schatten ten slotte introductie toetsen power pauze hypothesen schatten ten slotte

Oefenvragen bij Statistics for Business and Economics van Newbold

Kansrekening en Statistiek

Statistiek voor A.I.

Simulaties een revolutie in de didactiek van de statistiek

Hoofdstuk 4 Kansen. 4.1 Randomheid

Examen Statistiek I Feedback

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Statistiek voor A.I. College 6. Donderdag 27 September

Kansrekening en stochastische processen 2S610

13.1 Kansberekeningen [1]

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Inleiding Applicatie Software - Statgraphics

Data analyse Inleiding statistiek

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

DEEL 3 INDUCTIEVE STATISTIEK INLEIDING TOT DE INDUCTIEVE STATISTIEK 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE

Hoofdstuk 5 Een populatie: parametrische toetsen

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

toetskeuze schema verschillen in gemiddelden

College 3 Interne consistentie; Beschrijvend onderzoek

14.1 Kansberekeningen [1]

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

Kansrekening en Statistiek

Voorbeeldtentamen Statistiek voor Psychologie

11.1 Kansberekeningen [1]

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

variantie: achtergronden en berekening

Hoofdstuk 3 Statistiek: het toetsen

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Statistiek voor A.I. College 10. Dinsdag 16 Oktober

1. De wereld van de kansmodellen.

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

9.0 Voorkennis. Bij samengestelde kansexperimenten maak je gebruik van de productregel.

Kansrekening en Statistiek

Data analyse Inleiding statistiek

4 Domein STATISTIEK - versie 1.2

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

Examen G0N34 Statistiek

Samenvatting Statistiek

Kansrekening en Statistiek

Kansrekening en stochastische processen 2DE18

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

Voorbeelden van gebruik van 5 VUSTAT-apps

Kansrekening en Statistiek

Les 1: Waarschijnlijkheidrekening

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

4.1 Eigenschappen van de normale verdeling [1]

. Dan geldt P(B) = a d. 3 8

Voorbeeld 1: kansverdeling discrete stochast discrete kansverdeling

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

5.0 Voorkennis. Voorbeeld 1: In een vaas zitten 10 rode, 5 witte en 6 blauwe knikkers. Er worden 9 knikkers uit de vaas gepakt.

werkcollege 6 - D&P10: Hypothesis testing using a single sample

Tentamen Voortgezette Kansrekening (WB006C)

Kansrekening en Statistiek

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

Inhoudsopgave. Deel I Schatters en toetsen 1

Levende Statistiek. Een module voor Wiskunde D VWO. Jacob van Eeghen en Liesbeth de Wreede

Beschrijvende statistiek

Statistiek voor A.I. College 2. Donderdag 13 September 2012

Kansrekening en Statistiek

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Feedback proefexamen Statistiek I

Toegepaste Biostatistiek CAST oefeningen 1

Antwoorden bij 4 - De normale verdeling vwo A/C (aug 2012)

College 2 Enkelvoudige Lineaire Regressie

werkcollege 7 - D&P10: Hypothesis testing using a single sample

Toetsen van Hypothesen. Het vaststellen van de hypothese

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

3.1 Het herhalen van kansexperimenten [1]

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

META-kaart vwo5 wiskunde A - domein Afgeleide functies

Hoofdstuk 12: Eenweg ANOVA

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Deel I : beschrijvende statistiek

Een Bernoulli experiment is een experiment met slechts twee mogelijke uitkomsten, die we succes ( S ) en mislukking ( M ) noemen.

De verstrooide professor

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

College 4 Inspecteren van Data: Verdelingen

Transcriptie:

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Moore, McCabe & Craig: 3.3 Toward Statistical Inference From Probability to Inference 5.1 Sampling Distributions for Counts and Proportions 5.2 The Sampling Distribution of a Sample Mean Pierre Simon Laplace (1749-1827) 1

Sampling Distributions (Steekproevenverdelingen) Iedere beschrijvende waarde (statistiek of statistic) van een aselekte steekproef of een gerandomiseerd experiment is een schatting van daarmee samenhangende beschrijvende waarde (parameter) in een populatie en kan variëren in waarde. iedere statistiek kan worden opgevat als een toevalsvariabele en heeft een kansverdeling: de steekproevenverdeling van die statistiek. 2

Opmerkingen 1. We onderscheiden nu a) populatieverdeling (parameter, bijv: µ, ρ, p), b) steekproefverdeling (statistiek, bijv: x, r, pˆ ), c) steekproevenverdeling van een statistiek (parameter) d) verdeling van één waarneming. 2. In een SRS is de verdeling van één willekeurige waarneming gelijk aan de populatieverdeling. 3. De populatie kan denkbeeldig zijn, of een proces (zonder eind), bijv. de verzameling van alle mogelijke testitems. 3

Herhaalde Trekkingen uit een binaire Populatie Wereldwijd is het kenmerk Veilig gehecht als volgt verdeeld: Populatie verdeling 1 e verdeling in willekeurige random steekproef Herhaalde steekproefverdelingen Veilig p 0.65 Niet-veilig 1-p 0.35 Na 12 Bernoulli* trials (1 steekproef): Veilig 6 Niet-veilig 6 Na 7 steekproeven met n12: Veilig 6 9 7 9 5 8 10 Niet-veilig 6 3 5 3 7 4 2 *Bernoulli trial: experiment met 2 random uitkomsten met kansen p en 1-p. 4

Steekproef-fluctuaties van de Primaire Statistieken We kunnen totaalscore (count) bepalen en ook steekproefproporties: count Veilig gehecht 6 9 7 9 5 8 10 steekproef proportie ˆ p.50.75.58.75.42.67.83 q ˆ 1 ˆ p.50.25.42.25.58.33.17 Maak een stem-and-leaf plot van de steekproevenverdeling van ˆ p : 4 2 5 08 6 7 7 55 8 3 Gemiddelde 0.64, mediaan 0.67 Conclusie? 6

Binomial Setting & Binomiale Verdeling B(n, p) De steekproevenverdeling van een telling (count) volgt de binomiale verdeling als aan de volgende aannamen is voldaan: 1. Vaste steekproefgrootte n (tevoren vastgesteld) 2. Onafhankelijke observaties 3. Observaties zijn Bernoulli trials: succes of failure 4. Kans op succes is constant: p (kans op failure : q 1 p) Kans Voorbeeld: een B(10, 0.1). d.w.z. n10 en p0.1 Wat valt op? Aantal successen 7

Kansboom bij drie Bernoulli Trials Er is sprake van onafhankelijke trekkingen met teruglegging v(.65) P(vvv)(.65)(.65)(.65).275 v(.65) n(.35) P(vvn)(.65)(.65)(.35).148 v(.65) v(.65) P(vnv)(.65)(.35)(.65).148 n(.35) n(.35) P(vnn)(.65)(.35)(.35).080 v(.65) P(nvv)(.35)(.65)(.65).148 v(.65) n(.35) n(.35) P(nvn)(.35)(.65)(.35).080 v(.65) P(nnv)(.35)(.35)(.65).080 n(.35) n(.35) P(nnn)(.35)(.35)(.35).043 9

Formule van de Binomiale kansverdeling Aan de kansboom zien we twee dingen: 1. Omdat de trekkingen onafhankelijk zijn, kunnen we de kansen langs ieder pad met elkaar vermenigvuldigen; 2. Er zijn meerdere manieren om aan dezelfde somscore te komen, door verwisseling van de volgorde in de patronen (NB. teruglegging) Dit leidt tot de volgende formule van de binomiale verdeling: P( X k) n k { aantal manieren om k successen te behalen in n Bernoulli trials k n k p (1 p) 144 2443 kans op k successen en n-k niet-successen Voorbeeld: P(X2) P(vvn) + P(vnv) + P(nvv) 10

P(X2) P(vvn) + P(vnv) + P(nvv) P( X P( X P( X P( X P( X 2) 2) 2) 2) 2) 3 2 0.65 0.35 2 3! 2 0.65 2! (3 2)! 0.443625 0.444 3 2 0.35 3 2 1 2 0.65 0.35 2 1 1 3 0.4225 0.35 Of opzoeken van Binomiale Kansen m.b.v. Tabel C in M,M&C Of exact bepalen met software / rekenmachine 3 2 3 2 11

Tabel C in M,M&C: een kijkje n k 0.01 0.35 0.50 p 2 0 0.9801 0.4225 0.2500 1 0.0198 0.4550 0.5000 2 0.0001 0.1225 0.2500 3 0 0.9703 0.2746 0.1250 1 0.0294 0.4436 0.3750 2 0.0003 0.2389 0.3750 3 0.0429 0.1250 5 0 0.9510 0.1160 0.0313 1 0.0480 0.3124 0.1563 2 0.0010 0.3364 0.3125 12

Verwachte Waarde en Standaard Deviatie van de Binomiaal De verwachte waarde van een Bernoulli trial (1 binaire observatie) X P X * P 0 1 - p 0 * (1 - p) 0 1 p 1 * p p + µ p Omdat µ van een som gelijk is aan som van µ's, krijgen we voor de binomiale count X een verwachte waarde µ X p + p + p + + p np De variantie σ 2 van één Bernoulli trial is p (1 p), dus σ 2 van X σ 2 X np (1 p) en σ X np(1 p) 13

Steekproefproporties (Sample Proportions) Als we tellen hoe vaak een verschijnsel voorkomt in een steekproef, kunnen we dat altijd uitdrukken als een steekproefproportie # dat iets voorkomt X pˆ totaal # observaties n telling steekproeflengte Voor een binaire variabele hebben we de volgende relaties tussen verwachte waarden, varianties en standaardafwijkingen: verdeling van verwachte waarde variantie standaard afwijking populatie (1 observatie) p p(1 p) p ( 1 p) binomial count X np np(1 p) n p ( 1 p) steekproef proportie pˆ p p ( 1 p) n p ( 1 p) n 14

Benadering van de Steekproevenverdeling van een Proportie Als np 10 en n(1 p) 10 de steekproeven-verdeling van pˆ en van de telling X (count) bij benadering N(µ, σ). Andere vuistregel: binomiaal normaal (bij n > 30). 15

Hoe goed is de Benadering? Voor B(100,0.1) (nog) niet erg goed Aantal successen Pas daarom continuïteitscorrectie toe. Je corrigeert voor verschil discreet - continu, door in de normaal benadering "een 1/2 stap" naar µ te doen. Dus niet P N (X 9) opzoeken maar P N (X 9.5). 16

17 Een Vergelijking tussen verschillende Aanpakken I. Gegeven: B(100,0.1) Wat is P(X 9)? Binomiaal via software: P(X 9) 0.45129 a) Normaal benadering: 0.36944 3 1 3 10 9 9 9) ( (10,3) 3 0.9 0.1 100 ) (1 10 0.1 100 Z P Z P Z P X P N p p n p n σ µ σ µ

Een Vergelijking tussen verschillende Aanpakken II. b) Normaal benadering + continuïteitscorrectie: n p 100 0.1 10 µ σ N(10,3) Gebruik nu 9.5 in plaats van 9 P( X P Z n p (1 p) 100 0.1 0.9 9.5 µ 9.5) P Z σ 1 0.43382 6 P Z 3 9.5 10 3 18

Steekproefgemiddelde als een Kansvariabele Verdeling reactietijden 200 Individuele reactietijd per pp. 100 0 310 350 390 430 470 510 550 500 RT Gemiddelde reactietijd (n10). 400 300 200 100 Steekproefgemiddelden zijn: (1) minder variabel (2) meer normaal dan individuele observaties 0 310 350 390 430 470 510 550 Mean RT, N10 19

Hoeveel minder variabel is het Steekproefgemiddelde? We gebruiken dezelfde regels voor toevalsvariabelen (random variables) als voor een telling of proportie bij een binaire populatie. Basis-aanname: observaties zijn onafhankelijk en gelijk verdeeld. Voor continue variabelen krijgen we: verdeling van populatie (1 observatie) som van n observaties steekproefgemiddelde x verwachte waarde variantie standaard afwijking µ σ 2 σ nµ nσ 2 n σ µ 2 σ n σ n 20

Doet de Vorm van de Populatieverdeling ertoe? Normaal, µ16, σ 5 Uniform µ 16, σ 9.5 Scheef, µ8.08, σ 6.22 n5, m16, sd 2.23 n5, m 16, sd 4.25 n5, m8.05, sd 2.77 n20, m16, sd 1.12 n20, m16, sd 2.12 n20, m8.08, sd 1.39 21

Wanneer is het Gemiddelde normaal verdeeld? 1. Als populatie is N(µ, σ), dan is het steekproef-gemiddelde x van n onafhankelijke observaties ook normaal verdeeld met N(µ,σ/ n) (unbiased, zuiver). 2. Als populatie niet normaal verdeeld is, dan is x bij benadering normaal verdeeld! (Centrale Limiet Stelling, Laplace, 1810). 3. Als bij grote steekproeven de waarnemingen niet uit dezelfde populatie komen (bijv., lengte mannen, lengte vrouwen), is de verdeling van het gemiddelde toch bij benadering normaal. 4. Bij nog grotere steekproeven zijn zelfs gemiddelden van afhankelijke observaties bij benadering normaal verdeeld. 22

Samenvattend: Een belangrijk Proces. Accuraatheid neemt toe met de steekproefgrootte, maar met afnemende meeropbrengst. 23

Besluit BINOMIAAL: Belangrijke steekproevenverdeling. Er zijn vier manieren om de binomiale verdeling te gebruiken: met formule, door opzoeken in tabel, door uitrekenen en door benaderen met de normaal verdeling HOOFDRESULTAAT STATISTIEK: Gemiddelde is altijd normaal verdeeld bij grote steekproeven dankzij Centrale Limiet Stelling. Stof Volgende Week: Moore McCabe & Craig, chapter 6 Introduction to Inference 6.1 Estimating with Confidence 6.2 Tests of Significance 6.3 Use and Abuse of Tests 24