cursus 4 mei 2012 werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions Huiswerk P&D, opgaven Chapter 6: 9, 19, 25, 33 P&D, opgaven Appendix A: 1, 9 doen we in de loop van vandaag van binomiaal naar normaal vorige bijeenkomst: binomaal-verdeling van P(Voc) in scrabble-spel zonder blanco letters. 1
scrabble zonder blanco blanco letter verwijderen uit spel P(Voc) = 38/100 =.38 = p P(Cons)= 62/100 =.62 = q kansen zijn nu complementair: P(Voc) + P(Cons) = p+q = 1 stel dat we nu n=3 letters trekken, met teruglegging... scrabble zonder blanco uitkomst VVV VVC VCV CVV CCV CVC VCC CCC kans ppp = p 3 ppq = p 2 q pqp = p 2 q qpp = p 2 q qqp = pq 2 qpq = pq 2 pqq = pq 2 qqq = q 3 ditis de binomiaalverdeling de interne ordening van V en C in een uitkomst maakt niet uit voor de kans van die uitkomst; de aantallen van V en C maken wel uit binomiaalverdeling (P&D appendix A) algemene vorm (geen tabel maar formule): (p+q) 3 = 1p 3 + 3 p 2 q + 3 pq 2 + 1q 3 Drie trekkingen betekent (p of q) en (p of q) en (p of q) = (p+q)(p+q)(p+q) = (p+q) 3 2
ordeningen algemeen Op hoeveel manieren kun je 6 verschillende kleuren (personen) ordenen in 6 posities (stoelen)? 1e positie 6 mogelijke kleuren 2e positie nog 5 mogelijke kleuren 6e positie nog maar precies 1 kleur Aantal mogelijkheden: 6.5.4.3.2.1 = 6! Spreek uit: zes faculteit Per definitie: 0! = 1 ordeningen algemeen A.1.a. Op hoeveel manieren kun je precies 1 succesvolle uitkomst verdelen over 6 pogingen? 1e succes kan vallen in elk van 6 pogingen Aantal mogelijkheden: 6 k successen uit n pogingen succes (of niet) is binair (goed of fout) k successen, n-k geen succes onderlinge positie van de successen doet er niet toe k successen: k! onderlinge ordeningen n-k niet-successen: (n-k)! onderlinge ordeningen 3
rood, groen, blauw rgb rbg bgr gbr brg grb 3!=6 rgg rgg rgg ggr ggr grg ggr 3 mogelijkheden grg grg geen verschil tussen groen en blauw: 2!=2 k successen in n pogingen aantal onderlinge ordeningen: n! n of k! (n-k)! k of n over k dwz: n pogingen met in totaal n! verschillende ordeningen, maar de positie van de k successen (en de n-k niet-successen) doet er niet toe. 4
5 successen in 20 pogingen aantal mogelijkheden bij n=20, k=5 20! 20.19.18.17.16.15! 5!15! 5! 15! = = 20.19.18.17.16 5.4.3.2.1 = 15504 1 succes in 3 pogingen aantal mogelijkheden bij n=3, k=1 3! 3! 3 2 1 1!(3-1)! 1! 2! = 1 (2 1) = = 3 totale kans wordt dan 3 p q q = 3pq 2 (= aantal mogelijkheden kans daarop) binomiaalverdeling P(V=0) = qqq = 1 q 3 =.238 P(V=1) = pqq+qpq+qqp = 3 p q 2 =.438 P(V=2) = ppq+pqp+qpp = 3 p 2 q =.269 P(V=3) = ppp = 1 p 3 =.055 p = 0.38, q = 0.62 niet symmetrisch density 0.0 0.1 0.2 0.3 0.4 n = 3 aantal getrokken klinkers in n trekkingen 5
0.0 0.1 0.2 0.3 0.4 n = 3 0.0 0.10 0.20 n = 7 density 0.0 0.04 0.08 0.12 n = 50 0.0 0.04 0.08 n = 60 X gem = p*n = 0.38*60 = 22.8 aantal getrokken klinkers in n trekkingen van binomiaal naar normaal bij toenemende omvang van de steekproef gaat de binomiaal-verdeling steeds meer lijken op een bijzondere verdeling die we overal weer tegenkomen: de gaussische of normale verdeling Gauß (1777-1855) de normale verdeling de normale verdeling is een continue verdeling geeft waarden voor - < x < + kan gepresenteerd worden als een kansdichtheidsverdeling het oppervlak vertelt ons dan over de kans van voorkomen, meestal van - tot x het totale oppervlak is dan 1 6
standaard-normale-verdeling speelt grote rol in statistiek totale oppervlakte onder curve = 1 gemiddelde bij z=0; en s=1 symmetrisch geen discrete balkjes maar continue curve density standard normal distribution -3-2 -1 0 1 2 3 z de variabele heet z 0.0 0.1 0.2 0.3 0.4 standaard-normale-verdeling maar... hoogte van curve, en oppervlakte onder curve, zijn moeilijk te berekenen. gebruik tabellen (binnenkaft boek) standaard-normale-verdeling De kans op een waarde die tussen +1 en 1 standaarddeviatie ligt P( -1< z < 1 ) = P( z<1 ) - P( z<-1) =.8413 -.1587 =.6826 zie voorbeelden en opgaven in boek 7
transformatie naar de standaard normale verdeling we kennen de kansen in een standaard normale verdeling (uit de z-tabel) deze kansen gelden voor elke normale verdeling, mits die getransformeerd wordt naar de standaard normale verdeling z = x x s bijzondere eigenschap voorbeeld: x = ogen gegooid met dobbelsteen uniforme verdeling, p=1/6 voor iedere zijde gemiddelde 3.5 0.0 0.05 0.10 0.15 0.20 uniforme kansverdeling voor dobbelsteen 1 2 3 4 5 6 de distributie van het gemiddelde stel: we gooien 10x met dobbelsteen (verwacht gemiddelde x = 3.5, n=10) dit experiment herhalen we 30 maal, levert 30 gemiddelden op: 3.7 3.4 3.2 2.9 4.0 3.8 3.2 3.3 3.7 3.4 3.6 3.4 2.6 3.5 3.7 3.7 3.3 3.9 3.6 3.4 3.0 3.1 3.9 4.3 4.0 3.0 3.8 3.6 3.3 2.9 0 1 2 3 4 30 experimenten 3.0 3.5 4.0 gemiddelde over 10 worpen 8
300 en 3000 experimenten 0 5 10 15 20 25 30 300 experimenten 0 100 200 300 400 500 3000 experimenten 2.0 2.5 3.0 3.5 4.0 4.5 5.0 2 3 4 5 gemiddelde over 10 worpen gemiddelde over 10 worpen de centrale limiet stelling de gemiddelden x van oneindig herhaalde steekproeven, zijn altijd normaal verdeeld, ongeacht de kansverdeling binnen elke steekproef (normaal, binomiaal, uniform, of nog anders) wiskundig te bewijzen, zonder simulaties de centrale limiet stelling zie P&D 8.1 en 8.2 steekproefgemiddelden x volgen altijd normaalverdeling en convergeren naar gemiddelde µ x s en standaarddeviatie σ x = n standard error of the mean 9
procedure neem 1 steekproef schat populatie-gemiddelde uit steekproef-gemiddelde standard error of the mean geeft nauwkeurigheid van die schatting de centrale limiet stelling s standard error of the mean σ x = n neemt af naarmate steekproefgrootte n toeneemt grotere steekproef geeft je een betere schatting van populatie-gemiddelde µ van binomiaal naar normaal bij voldoende grote steekproeven mag je aannemen dat de kansverdeling normaal is! (n>30) 10
wat is P(V 20) bij n=60 trekkingen uit het blanco-loze scrabble-spel? van binomiaal naar normaal binomiale oplossing: 60 P( V = 20) = ( 0. 38) 20 P( V 20) = 20 ( 0. 62) = 0. 082 au = P( V = 0) + P( V = 1)... + P( V = 19) + P( V = 20) =. 273 40 van binomiaal naar normaal De binomiale verdeling heeft een gemiddelde en standaarddeviatie van (zie D&P A.2) µ= np σ= npq gebruik die in een normale verdeling, in ons geval: µ=np=22.8 σ= npq=3.76 z*= 20-22.8 = -0.745 3.76 p(v<20) =.228 vgl binomiaal: p(v<20) = 0.273 van binomiaal naar normaal binomiaal P=.273 normaal P=.228 11
proportie van successen p = aantal successen n noemen we π voor de populatie Het gemiddelde en standaarddeviatie van p (populatie) zijn µ p = π σ p = π(1- π)/n dit volgt direct uit de formules voor de binomiale verdeling: µ= np en σ= npq en deze delen door n Centrale Limiet Stelling voor jullie reistijden huiswerk opgaven Ch.7: 17, 30, 31 opgaven Ch.8: 1, 2, 7 (video), 16, 17 12