Statstek voor het secudar oderwjs De stadaardafwjkg De stadaardafwjkg Prof dr Herma Callaert Ihoudstafel Motvate Ee groter kader: leare modelle Dre dmeses, twee verklarede veraderljke Twee dmeses, éé verklarede veraderljke 3 3 Eé dmese, gee verklarede veraderljke 4 3 Ee wskudg bewjs: E( S ) 5 3 Iledede egeschappe va kasmodelle 5 3 Het gemddelde va de steekproefvarate s de populatevarate 6 33 Getalwaarde va kasmodelle 6 4 De stadaardafwjkg va ee populate: voorbeelde 7 4 Cotue populates 7 4 Dscrete populates 8 5 Aabevelg 0 5 De stadaardafwjkg va ee dataset 0 5 Beslut 6 Nota: software, GRM e PC Cetrum voor statstek
Statstek voor het secudar oderwjs De stadaardafwjkg Motvate Tekste over statstek zj et altjd dudeljk waeer het over de stadaardafwjkg gaat Zowel de formule als de otate ka tot verwarrg lede De verwarrg wordt soms og versterkt door het gebruk va software (GRM of PC) Deze tekst motveert, vaut verschllede valshoeke, waarom je, bj de berekeg va de stadaardafwjkg va ee verzamelg getalle, zo goed als altjd deelt door ( ) Soms geve we ee wskudg bewjs e soms werke we tuïtef vaut voorbeelde Dt s gee lesmateraal voor het secudar oderwjs Het s ee tekst voor geïteresseerde leerkrachte, et voor leerlge Ee groter kader: leare modelle Somme va kwadratsche afwjkge zj bouwstee om populatevarates te schatte Hoe dat werkt, llustrere we met eevoudge modelle bj leare regresse We toe daarbj aa dat de tuïteve reflex om ee som te dele door het aatal terme helemaal et gebrukeljk s bj het schatte va varabltet De methode der kleste kwadrate klkt vertrouwd bj het schatte va ee beste vlak of ee beste rechte Waarschjljk dek je daar et omddelljk aa bj het bepale va ee beste put Daarom bekjke we voorbeelde de va dmese 3 over dmese aar dmese gaa I de tekst over regresse op http://wwwuhasseltbe/lesmateraal-statstek ka je meer formate vde over de basstermologe Heel wat stadaardwerke over (meervoudge) regresse bevatte wskudge bewjze va egeschappe de we heroder ter llustrate vermelde Dre dmeses, twee verklarede veraderljke I ee stude over de teelt va maïs werd aast de opbregst ook de hoeveelhed toegedede meststof e de temperatuur opgemete Het s de bedoelg om a te gaa hoe de opbregst wjzgt fucte va meststof e temperatuur I deze stude zj meststof e temperatuur verklarede veraderljke e maïsopbregst s de respos De resultate ware als volgt: x = meststof (kg/are) 30 35 40 45 50 55 60 y = temperatuur ( C) 95 85 00 90 0 05 00 z = opbregst (kg/are) 83 8 86 83 87 85 88 I de tabel (e op de fguur) ze je dat bj ee hoeveelhed meststof va 4 kg/are e bj ee temperatuur va 0 C ee opbregst va 86 kg/are s opgemete Als je ee volgede keer werkt Cetrum voor statstek
Statstek voor het secudar oderwjs De stadaardafwjkg met 4 kg/are meststof bj ee temperatuur va 0 C, da verwacht je wellcht ee opbregst va dezelfde grootteorde, maar et exact 86 kg/are De opbregst behadel je als ee realsate va ee oderlgged kasmodel voor opbregst Daarbj oderstel je dat, voor elke combate va meststof e temperatuur, de kasmodelle voor de opbregst ee gemddelde hebbe dat ee vlak lgt, waarbj de varabltet rod dat gemddelde gekemerkt wordt door ee vaste maar et gekede varate Het vlak va de gemddelde schat je op bass va je steekproef Je bepaalt de vergeljkg va ee vlak ẑ = ax + by + c zodag dat z zˆ mmaal s Herbj s z de opgemete opbregst de hoort bj de waarde x, y = (meststof, temperatuur) e z s de verwachte opbregst met waarde ax + by + c (het put het vlak) De methode de je her gebrukt, mmalseert de som va de kwadratsche afwjkge: het s de methode der kleste kwadrate ˆ z zˆ Om ee dee te hebbe over de varabltet start je met ee som waarva de bouwstee de kwadratsche afwjkge zj va opgemete waarde te opzchte va verwachte waarde : z zˆ I softwarepakkette e (Egelstalge) tekstboeke wordt deze som geoteerd als SSE, waarbj SS staat voor Sum of Squares e E voor Error De kwadraatsom houdt rekeg met alle observates Als je u ees dubbel zoveel observates zou hebbe de globaal eezelfde varabltet rod het gemddelde zoude vertoe, da zou de euwe kwadraatsom zowat dubbel zo groot zj Om ee goede schattg voor de (vaste) populatevarate te krjge, moet er dus op ee of adere maer gecompeseerd worde voor het aatal observates Me stapt da over va SSE aar MSE (MS = Mea Square) E hoewel je her het woord mea (= gemddelde) otmoet, toch zal je erges ee tekst vde waar de som der kwadrate gedeeld wordt door het aatal terme De kwadraatsom gepast stadaardsere beteket dat je her moet dele door ( 3) Je werkt da met MSE z ˆ z Als model geldt dat EMSE ( ) : gemddeld kom je exact op de ( 3) populatevarate terecht ( 3) Daarom werk je her met z zˆ Cetrum voor statstek
Statstek voor het secudar oderwjs De stadaardafwjkg Twee dmeses, éé verklarede veraderljke I ee stude over de teelt va maïs werd aast de opbregst ook de hoeveelhed toegedede meststof opgemete Het s de bedoelg om a te gaa hoe de opbregst wjzgt fucte va de meststof I deze stude s meststof de verklarede veraderljke e maïsopbregst s de respos De resultate ware als volgt: x = meststof (kg/are) 30 35 40 45 50 55 60 y = opbregst (kg/are) 83 8 86 83 87 85 88 I de tabel (e op de fguur) ze je dat bj ee hoeveelhed meststof va 4 kg/are ee opbregst va 86 kg/are s opgemete Als je ee volgede keer werkt met 4 kg/are meststof, da verwacht je ee opbregst va dezelfde grootteorde, maar et exact 86 kg/are De opbregst behadel je als ee realsate va ee oderlgged kasmodel voor opbregst Daarbj oderstel je dat, voor elke veau va toegedede meststof, de kasmodelle voor de opbregst ee gemddelde hebbe dat op ee rechte lgt, waarbj de varabltet rod dat gemddelde gekemerkt wordt door ee vaste maar et gekede varate De rechte va de gemddelde schat je op bass va je steekproef Je bepaalt de vergeljkg va ee rechte ŷ = ax + b zodag dat y yˆ mmaal s Herbj s y de opgemete opbregst de hoort bj de waarde x (meststof) e y ˆ s de verwachte opbregst met waarde ax + b (het put op de rechte) De methode de je her gebrukt, mmalseert de som va de kwadratsche afwjkge: het s de methode der kleste kwadrate y yˆ Om ee dee te hebbe over de varabltet start je met ee som waarva de bouwstee de kwadratsche afwjkge zj va opgemete waarde te opzchte va verwachte waarde : y yˆ Ook her oteer je deze som als SSE, met SS = Sum of Squares e E = Error Je stadaardseert e stapt over va SSE aar MSE (MS= Mea Square) E ook her zal je erges ee tekst vde waar de som der kwadrate gedeeld wordt door het aatal terme Je werkt her met MSE y ˆ y Voor MSE (als model) geldt dat EMSE ( ) De ( ) kwadraatsom dele door ( ) levert her ee groothed de gemddeld exact op terechtkomt ( ) Daarom werk je her met y yˆ Cetrum voor statstek 3
Statstek voor het secudar oderwjs De stadaardafwjkg 3 Eé dmese, gee verklarede veraderljke I ee stude over de teelt va maïs werd, op eezelfde perceel e oder dezelfde omstadghede, meerdere kere de opbregst opgemete De resultate ware als volgt: x = opbregst (kg/are) 83 8 86 83 87 85 88 Dat je et altjd dezelfde opbregst vdt, s et verwoderljk De opgemete opbregste behadel je als realsates va ee oderlgged kasmodel voor opbregst (= de populate) Dat kasmodel heeft ee (vast maar et geked) gemddelde e ee varabltet de gekemerkt wordt door ee (vaste maar et gekede) varate Bj twee verklarede veraderljke heb je het vlak va de populategemddelde geschat door ee vlak dat volges de methode der kleste kwadrate het beste aaslut bj de meetpute Bj éé verklarede veraderljke heb je de rechte va de populategemddelde geschat door ee rechte de volges de methode der kleste kwadrate het beste aaslut bj de meetpute Als er gee verklarede veraderljke de stude zj, da schat je het populategemddelde door ee put dat volges de methode der kleste kwadrate het beste aaslut bj de meetpute Het put a waarvoor x a mmaal s wordt gegeve door a x Het gemddelde x s ee schattg voor de verwachte opbregst Om ee dee te hebbe over de varabltet start je met ee som waarva de bouwstee de kwadratsche afwjkge zj va opgemete waarde te opzchte va verwachte waarde : x x Deze kwadraatsom moet je u og stadaardsere Ook her deel je et door het aatal terme maar wel door ( ) Als model geldt mmers voor S x 847 ( X X) ES ( ) De kwadraatsom dele door ( ) levert ee groothed de gemddeld exact op terechtkomt dat x x Daarom werk je her met Cetrum voor statstek 4
Statstek voor het secudar oderwjs De stadaardafwjkg 3 Ee wskudg bewjs: E( S ) Ut ee populate met vaste maar et gekede varate trek je ee steekproef e je bereket s x x Ut dezelfde populate trek je opeuw ee steekproef e je bereket terug s E je vdt (zo goed als zeker) ee adere waarde Als je dt heel veel kere zou herhale, waar kom je da met al de s waarde gemddeld terecht? Om dt te beatwoorde moet je kjke waar het oderlggede model Heroder staat het bewjs dat ES ( ) komt gemddeld op de populatevarate S ( ) X X gemddeld terechtkomt : de steekproefvarate S waarbj je deelt door ( ) terecht 3 Iledede egeschappe va kasmodelle Ee utgebredere utleg over de gebrukte begrppe e otates ka je vde de tekste over kasmodelle op http://wwwuhasseltbe/lesmateraal-statstek De populate (als kasmodel) oteer je met ee hoofdletter X e populate-egeschappe (populateparameters) oteer je met ee Grekse letter: het populategemddelde E( X ) oteer je als de populatevarate var( X ) oteer je als Ee steekproef (als kasmodel) oteer je als ( X, X, X ) waarbj EX ( ) e var( X ) voor elke () de X s oafhakeljk zj () De verwachtgswaarde E s ee leare operator: Ea U a E( U) (3) De varate var voldoet bj kasmodelle aa: var( U ) E U E( U ) (4) var a U a var( U) als de U s oafhakeljk zj (5) Het steekproefgemddelde (als kasmodel) oteer je als EX ( ) var( X ) X X waarbj [gebruk (3) e ()] (6) [gebruk (), (5) e ()] (7) Bemerk dat X X zodat ( ) X X X (8) Cetrum voor statstek 5
Statstek voor het secudar oderwjs De stadaardafwjkg 3 Het gemddelde va de steekproefvarate s de populatevarate X X ( ) De steekproefvarate (als kasmodel) defeer je als Bemerk vooreerst dat X X X X X X X X X X X [gebruk (8)] X ( ) ( ) X X EX XEX zodat S [gebruk () e (6)] E X X E X E X E X E X var ( X ) var ( X ) [gebruk (4)] ( ) ( ) [gebruk (3)] ( ) [gebruk () e (7)] ( ) ( ) Herut volgt dat E X X E X X of dat ES S X X s dus ee goed kasmodel dat gemddeld op de (vaste maar et ( ) gekede) populatevarate terechtkomt ( S s ee overtekede schatter voor ) 33 Getalwaarde va kasmodelle Ee waarde va ee kasmodel stel je voor door de overeekomstge klee letter Na het trekke va ee steekproef beschk je over jouw toevallg gevode steekproefwaarde x, x, x 3,, x De waarde gebruk je om ee waarde va ee kasmodel, gebaseerd op steekproefresultate, te berekee Als je voor de steekproefvarate (als model) de formule S X X gebrukt, da ( ) oteer je ee waarde va dt kasmodel (= de varate va je waaremgsgetalle) als s ( ) x x Voor de stadaardafwjkg heb je: s x ( ) x Cetrum voor statstek 6
Statstek voor het secudar oderwjs De stadaardafwjkg 4 De stadaardafwjkg va ee populate: voorbeelde Ee gegeve verzamelg getalle beschouw k als ee populate e daarom deel k door s ee utspraak de je et zomaar doet Als je echt met ee populate werkt, da moet je dat het juste kader plaatse I de statstek bestudeer je ee populate X het kader va kasmodelle Egeschappe va populates oteer je met ee Grekse letter Dt beteket dat je het gemddelde va ee populate oteert als e de stadaardafwjkg als Om e te berekee gebruk je de algemee formules voor kasmodelle Meer fo vd je oze tekste over kasmodelle op http://wwwuhasseltbe/lesmateraal-statstek Bj de overgrote meerderhed va kasmodelle deel je helemaal et door bj het berekee va de varate (of de stadaardafwjkg) Dat ze je heroder bj cotue populates (zoals de ormale) of bj dscrete populates (zoals de bomale) 4 Cotue populates Ee cotue populate X heeft utkomste de tervalle terechtkome waarbj de kas om ee terval terecht te kome, gestuurd wordt door ee dchthedsfucte ( ) f x De stadaardafwjkg va ee cotu kasmodel X s geljk aa sd( X ) var( X ) x E( X ) f ( x) dx Voorbeeld Normaal verdeeld kasmodel Voor elke vaste waarde va de parameters e heb je ee welbepaald ormaal verdeeld kasmodel X, vastgelegd door de dchthedsfucte ( x ) f( x) e voor x e met 0 Door de algemee formules voor cotue populates toe te passe vd je dat EX ( ) e dat x t x var( X) x e dx t e dt met t zodat sd( X ) Cetrum voor statstek 7
Statstek voor het secudar oderwjs De stadaardafwjkg 4 Dscrete populates Ee dscrete populate X heeft dscrete utkomste met welbepaalde kase, vastgelegd ee kasverdelg [ = de utkomste x same met hu kase PX ( x ) ] De stadaardafwjkg va ee dscreet kasmodel X s geljk aa x sd( X) var( X) x E( X) P( X ) Voorbeeld Bomaal kasmodel Bj oafhakeljke herhalge va ee 0 expermet met succeskas krjg je het k PX ( k) k k bomale kasmodel X met utkomste 0,,,, e kase ( ) De algemee formules voor dscrete populates levere her dat het populategemddelde geljk k s aa ( ) ( ) ( k EX kpx k k ) k 0 k 0 k De populatevarate s geljk aa k ( k) var( X) k P( X k) k ( ) k0 k0 k zodat de stadaardafwjkg gegeve wordt door sd( X ) ( ) Cetrum voor statstek 8
Statstek voor het secudar oderwjs De stadaardafwjkg Voorbeeld Dscreet uform kasmodel Waeer ee populate X ee edg aatal utkomste x, x, x 3,, x heeft waarbj edere utkomst dezelfde kas heeft (da moet PX ( x ) voor elke ), da heb je te make met ee dscreet uform kasmodel Het populategemddelde vd je ut EX ( ) xpx ( x) x x De populatevarate s geljk aa var( X) x P( X x) x Om var( ) X te bepale, maak je de som (over alle utkomste) va: [(de kwadratsche afwjkg va de utkomst tot het gemddelde) maal (de kas va de utkomst)] Als je zegt dat je ee verzamelg getalle beschouwt als ee populate e dus (mstes mplcet) aageeft dat je te make hebt met ee dscreet uform kasmodel, da beteket de de formule x NIET dat je deelt door het aatal terme, maar WEL dat je vermegvuldgt met de kas va elke utkomst Houd da ook goed de otate het oog wat voor ee dscreet uforme populate X geldt: het gemddelde EX ( ) oteer je als e bereke je met de varate var( X ) oteer je als stadaardafwjkg volgt da: x x Voor de e bereke je met x Cetrum voor statstek 9
Statstek voor het secudar oderwjs De stadaardafwjkg 5 Aabevelg 5 De stadaardafwjkg va ee dataset I de tweede graad e de meeste studes de derde graad oderzoek je de structuur va ee verzamelg getalle (zoder verdere cotext of de cotext va steekproefresultate) Daarbj komt het gemddelde (als ee kegetal voor het cetrum) aa bod De otate de je voor dt gemddelde gebrukt s x e de waarde vd je ut de formule x De varabltet va getalle rod hu gemddelde ka je grafsch voorstelle door bjvoorbeeld verzamelge te vergeljke de eezelfde gemddelde hebbe maar ee verschllede varabltet Zowel de eerste als de tweede dataset heeft ee gemddelde dat geljk s aa x 6 Op zcht ze je dat de eerste dataset ee grotere varabltet vertoot da de tweede Als je op ee umereke maer, éé getal, de varabltet wl karaktersere, da wl je ee maat de ee grotere utkomst oplevert aarmate de varabltet groter s Als je her de stadaardafwjkg, geoteerd als s, bereket met de formule x x, da vd je ( ) s 74 voor de eerste dataset e s 37 voor de tweede I deze z voldoet de formule aa de verwachtg Voor de leerlg s ee motvate te grode op het veau va het secudar oderwjs moeljk Waarom werk je voor afstad et met absolute waarde x x? Waarom gebruk je kwadrate x x als bouwstee ee som? Waarom deel je door (-) om te stadaardsere? Atwoorde op deze vrage kome ut statstek op ee hoger veau Als leerlge het hoger oderwjs statstsche methode (toetse va hypothese, leare regresse, ) gebruke, da zulle zj daar de stadaardafwjkg s x x otmoete waarmee zj va het ( ) mddelbaar vertrouwd zj Cetrum voor statstek 0
Statstek voor het secudar oderwjs De stadaardafwjkg 5 Beslut I statstsche studes ka je bj ee verzamelg getalle zo goed als altjd dezelfde methode e formules gebruke als waarmee je werkt bj steekproeve Zelde bestudeer je ee verzamelg getalle het kader va ee dscreet uforme populate Dat doe je allee maar bj de (theoretsche) stude va kasmodelle Bj steekproeve gebruk je x voor het gemddelde e s voor de stadaardafwjkg Bj populates gebruk je voor het gemddelde e voor de stadaardafwjkg Voor de stadaardafwjkg va ee verzamelg getalle werk je met: ZO GOED ALS ALTIJD: s x x ( ) Dt s de klasseke formule het kader va steekproeve ZELDEN: x Dt s de formule het kader va ee dscreet uforme populate NOOIT: x x Dt s ee formule waarbj zegt dat het over ee populate gaat e x aageeft dat het ee steekproef s Cetrum voor statstek
Statstek voor het secudar oderwjs De stadaardafwjkg 6 Nota: software, GRM e PC Als je voor ee dataset de stadaardafwjkg vraagt, da krjg je bj heel wat statstsche software maar éé atwoord Je ka er vaut gaa dat dt atwoord s x x ( ) s Voorbeeld (bj de TI-84 Plus) Druk y9, loop aar MATH e druk 7:stdDEV( Dt s ee maer om de stadaardafwjkg (stddev = stadard Devato) va ee ljst getalle op te vrage Je ka de getalle ter plaatse tkke (zoals {,,3}) of je ka de getalle vooraf ee ljst (zoals d) brege Als atwoord krjg je het getal Dt beteket dat de stadaardafwjkg her bereked s met de formule waarbj er gedeeld wordt door ( ) Voor de getalleset {,,3} s x zodat x x je dt resultaat deelt door ( ), da krjg je dat 0 Als s zodat s Als je zou dele door 3 da zou je et de waarde krjge maar wel 08 3 Als je zowel ee s als ee zet verschje da s: ( ) s x x x x x wat de dataset wordt u beschouwd als ee dscreet uforme populate, waarbj de otate voor de stadaardafwjkg de Grekse letter s e de otate voor het populategemddelde de Grekse letter Ke je ee pakket waar je tusse de berekede kegetalle aast ee ook ee zet staa? Egeaardg etwaar Voorbeeld (bj de TI-84 Plus) De getalleset {,,3} staat de ljst d Druk, loop aar CALC e druk :-Var Stats Zorg ervoor dat de ljst d bj Lst: staat, loop aar Calculate e druk Í Het resultaat Sx= verwjst aar de stadaardafwjkg va de getalleset / steekproef {,,3} e de correcte otate herbj s ee klee letter s Het resultaat x=8649 verwjst aar de stadaardafwjkg va ee dscreet uforme populate waarbj de otate va het populategemddelde et de ljst voorkomt Voor veel leerlge e leerkrachte s x verwarred (e totaal overbodg) Cetrum voor statstek