werkcollege 6 - D&P9: Estimation Using a Single Sample

cursus 9 mei 2012 werkcollege 6 - D&P9: Estimation Using a Single Sample van frequentie naar dichtheid we bepalen frequenties van meetwaarden plot in histogram delen door totaal aantal meetwaarden > fracties (x100=percentages) plot in histogram som van waarden is 1 (100%) van discrete meetwaarden naar continue reeks de kans P op een waarde die kleiner is dan een bepaalde waarde, is gelijk aan de oppervlakte tot die waarde: kansdichtheidsfunctie standaard normale verdeling is een continue kansdichtheidsfunctie de oppervlakte tussen z 1 en z 2 geeft de kans op een observatie tussen z 1 en z 2 als z 1 = - dan kans op waarde < z 2 (dat is de tabelwaarde in de z-tabel) de kans op een exacte waarde is nul! daarom maakt < of geen verschil 1

gebruik van z-tabel waarden geven p(z<z*) dwz de kans op een waarde kleiner dan z* de kolommen geven honderdsten ook bruikbaar om bij gegeven p-waarde de bijbehorende z-waarde te vinden [indien alleen waarden voor z<0 gegeven] verdeling is symmetrisch dus p(z<1) = p(z> -1) = 1 p(z < -1) = 1 0.1587 = 0.8413 huiswerk opgaven Ch.7: 17, 30, 31 opgaven Ch.8: 1, 2, 7 (video), 16, 17 opgave 8.7 (zie ook video) 2

it s like magic! op grond van een enkele steekproef (N=1500) schatten we kenmerk van hele populatie (N=miljoenen) puntschatting schatting van kenmerk is zuiver (unbiased) als gemiddelde van herhaalde schattingen gelijk is aan waarde van kenmerk in populatie en anders onzuiver (biased) beste schatter heeft zelf kleinste sd gebruik wel n-1 bij berekening van sd van schatter! betrouwbaarheidsinterval hoe nauwkeurig is de schatting van het gemiddelde? het betrouwbaarheidsinterval met mate van betrouwbaarheid! 90%, 95%, 99% betrouwbaarheidsniveau in bv 99% van de gevallen zal een methode tot een betrouwbaarheidsinterval leiden waar het echte populatiegemiddelde werkelijk in ligt confidence interval, confidence level betrouwbaarheidsinterval plus/min 1 standaarddeviatie geeft betrouwbaarheidsniveau van 68% maar we willen naar bv 95% normale verdeling boven en onder 2.5% p(z)<0.025 > z = -1.96 (z kritiek ) kies interval 1.96 x standaarddeviatie 3

steekproefgemiddelde n > 30 (maar kleiner mag ook nog wel) dan heeft x ongeveer een normale verdeling distributie van populatiewaarden zijn normaal verdeeld met gemiddelde µ en standaard deviatie σ voor x geldt dat µ x = µ en σ x = σ / n we kunnen voor x een gestandaardiseerde variabele (z) afleiden: z = ( x - µ) / (σ / n) op 95% betrouwbaarheidsniveau geldt dan x - 1.96 (σ / n) < µ < x + 1.96 (σ / n) x populatiegemiddelde µ schatting van het populatiegemiddelde µ met bepaald betrouwbaarheidsinterval uit een enkele steekproef is x ± z kritiek σ / n (kies z kritiek op basis van betrouwbaarheidsniveau) 4

steekproefgrootte voor populatie gemiddelde B = 1.96 (σ / n) (95% betrouwbaarheidsniveau) dus n = (1.96 σ / B ) 2 als σ onbekend is dan mag die geschat worden met σ ~ range/4 = (max-min)/4 (neem aan dat tussen max en min 4 standaard deviaties zitten) alsσonbekend is (wat meestal het geval is) gebruik s (de standaard deviatie van de steekproef) in plaats van σ maar nu wordt de gestandaardiseerde variabele, die eerst z was, iets anders: t t = ( x- µ) / (s/ n) leidt tot t-distributie t-distributie als x het steekproefgemiddelde is van een random sample de populatie normaal is verdeeld, of n groot is (n 30) en σ, de sd van de populatie, onbekend is dan is het betrouwbaarheidsinterval x ± t kritiek (s/ n) t-waarden zijn afhankelijk van vrijheidsgraden: df = n-1 voor grote n is t-distributie gelijk aan z-distributie bestudeer de t-tabel in Appendix Table 3 en in de voorkaft van P&D! 5

resumé: 95% betrouwbaarheidsinterval x- t kritiek,95% (s / n) < µ < x + t kritiek,95% (s / n) let op, dat t kritiek (een beetje) van n afhangt (n-1 vrijheidsgraden) in de praktijk kennen we uit een steekproef alleen x, s en n, dus moeten we t gebruiken! dit alles ging over de schatting van een gemiddelde van een populatie nu de schatting van een populatieproportie proportie van successen p = aantal successen n (boek gebruikt p-dak) noemen we π (pi) voor de populatie (boek: p) Het gemiddelde en standaarddeviatie van p (populatie) zijn µ p = π (mu) σ p = π(1- π)/n (sigma) [dit volgt direct uit de formules voor de binomiale verdeling: µ= np en σ= npq en deze delen door n] 6

kritieke waarde de kritieke waarde is de waarde van z die behoort bij het gekozen betrouwbaarheidsniveau Als de steekproefproportie p van een random sample afkomstig is n groot is (np 10) maar n maximaal 10% van populatie dan π ~ p ± z kritiek p(1- p)/n omgekeerd: steekproefgrootte bepalen B = 1.96 π(1- π)/n daaruit volgt n = π(1- π) (1.96 / B) 2 dat is de grootte die de steekproef tenminste moet hebben om een 95% betrouwbaarheid te hebben dat het resultaat minder dan B van π afwijkt als π onbekend is, kies π = 0.5 meest conservatief > grootste n samenvattend prototype betrouwbaarheidsinterval is puntschatting met specifieke schatter ± krititieke waarde x geschatte standaarddeviatie van de schatter geschatte standaarddeviatie van de schatter = standaard fout (standard error) 7

steekproef ~normaal verdeeld 95% betrouwbaarheid, dan: grens van de schattingsfout B = 1.96 * standard error van de schatter huiswerk opgaven Ch.9: 1, 8, 11, 12, 20, 26, 36, 37, 71 Activities 9.3 en 9.4 8