3 Verdelingsonderzoek

Maat: px
Weergave met pagina beginnen:

Download "3 Verdelingsonderzoek"

Transcriptie

1 3 Verdelingsonderzoek 3.1 Introductie Een statistisch model is een uitdrukking van onze a priori kennis van het kansexperiment waaruit de waargenomen data is voortgekomen. Het model postuleert dat de waarneming X is gegenereerd volgens één van de kansmaten in het model. Hoe vinden we een goed model? In sommige gevallen is het model duidelijk uit de manier waarop het kansexperiment is opgezet. Als bij een opininiepeiling de steekproef inderdaad aselect en zonder teruglegging uit een goed omschreven populatie wordt genomen, dan is de hypergeometrische verdeling onvermijdelijk. Betreffen de waarnemingen aantallen uitgezonden radio-actieve deeltjes, dan is de Poisson-verdeling de juiste keus vanwege de natuurkundige theorie van radioactiviteit. Het is ook mogelijk dat het uitgevoerde experiment sterk lijkt op eerdere experimenten, en dat een bepaald model wordt gesuggereerd door de ervaring in het verleden. Lang niet altijd is een bepaald statistisch model echter geheel onomstreden. Het is dan op z n minst nodig om het gekozen model te valideren. Soms vinden controles plaats na het schatten van de parameters van het model. Een aantal eenvoudige controles kan ook vooraf worden uitgevoerd. In dit hoofdstuk bespreken we enkele grafische technieken om univariate en multivariate steekproeven te onderzoeken. Deze technieken worden, naast op de data zelf, ook veelvuldig toegepast op residuen na het fitten van, bijvoorbeeld, een regressiemodel.

2 3.2 Univariate Steekproeven 3.2: Univariate Steekproeven 23 Veronderstel dat de getallen x 1,..., x n de resultaten zijn van een herhaaldelijk uitgevoerd experiment. Uit de manier waarop de n experimenten zijn uitgevoerd (steeds vanuit dezelfde beginsituatie, zonder herinnering van de voorgaande experimenten) leiden we af dat het redelijk is de n getallen op te vatten als realisaties van onderling onafhankelijke, identiek verdeelde stochastische grootheden X 1,..., X n. Dit legt het statistische model al voor een belangrijk deel vast. De overgebleven vraag is: welke (marginale) verdeling gebruiken we? Histogrammen Een kansverdeling beschrijft de verdeling van de totale kansmassa 1 over de verschillende mogelijke waarden x. We kunnen een kansverdeling vastleggen door zowel de bijbehorende verdelingsfunctie als de bijbehorende kansdichtheid. Een kansdichtheid is een ingewikkelder object dan de verdelingsfunctie, maar geeft een betere visuele indruk van de verdeling van kansen: de verdeling legt veel kansmassa in punten x waar de waarde van de kansdichtheid f(x) groot is, en weinig in x voor welke f(x) 0. Een eenvoudige techniek om een indruk te krijgen van een kansdichtheid waaruit data x 1,..., x n afkomstig zijn is het histogram. Voor een gegeven partitie a 0 < a 1 < < a m die het bereik van de data x 1,..., x n overdekt is dit de functie die op het interval (a j 1, a j ] een waarde aanneemt die gelijk is aan het aantal datapunten x i die in het interval valt, gedeeld door de lengte van het interval. Als de lengten van alle intervallen (a j 1, a j ] gelijk zijn, dan wordt het histogram ook wel gedefinieerd zonder door de intervallengten te delen. In dat geval zijn de hoogten van de staven van het histogram gelijk aan de totale aantallen waarnemingen in de verschillende intervallen. De keuze van de intervallen is een kwestie van smaak. Als de intervallen te smal gekozen worden, dan is het histogram over het algemeen te piekerig om kenmerken van de ware kansdicht op te merken. Als de intervallen te breed gekozen worden, gaat daarentegen elk detail verloren en is er nog maar weinig te zeggen over de ware kansdichtheid op basis van het histogram. Om een indruk te krijgen uit welke kansdichtheid data afkomstig zouden kunnen zijn, is het handig het histogram en mogelijke kansdichtheden in één plaatje weer te geven. Dit kan door het histogram te schalen met 1/n, waarbij n het totaal aantal datapunten is. De oppervlakte onder het histogram is dan gelijk aan 1, net zoals dat het geval is bij een kansdichtheid. In x (a j 1, a j ] is het geschaalde histogram gelijk aan h n (x) = #(1 i n: x i (a j 1, a j ] ) 1 n = 1 aj 1 <x n(a j a j 1 ) n(a j a j 1 ) i a j, waarbij de indicatorfunctie 1 aj 1 <x i a j gelijk is aan 1 als a j 1 < x i i=1

3 24 3: Verdelingsonderzoek a j en 0 als dit niet het geval is. Een alternatieve schrijfwijze voor deze indicatorfunctie is 1 (aj 1,a j](x i ). Een histogram geeft een goede indruk van de dichtheid waaruit de data x 1,..., x n afkomstig zijn, mits de partitie a 0 < a 1 < < a m geschikt gekozen is en het aantal datapunten n niet te klein is. Om dit in te zien beschouwen we x 1,..., x n als realisaties van de stochastische variabelen met een dichtheid f en berekenen we de verwachte waarde van het geschaalde histogram h n in termen van X 1,..., X n in een willekeurig punt x waar f(x) > 0. Veronderstel dat voor zekere 1 < j m geldt dat a j 1 < x a j dan is deze verwachte waarde gelijk aan 1 n 1 Eh n (x) = E 1 aj 1<X n(a j a j 1 ) i a j = E1 aj 1<X a i=1 j a 1 a j j 1 aj 1 a = P(a j 1 < X 1 a j ) = j 1 f(s) ds. a j a j 1 a j a j 1 Als f niet te veel varieert over het interval (a j 1, a j ], dan is de uitdrukking aan de rechterkant ongeveer gelijk aan de waarde van f in dit interval. De berekening leert dat de verwachte waarde van h n (x) bij benadering gelijk is aan f(x). Vanwege de Wet van de Grote Aantallen hebben we bovendien dat de waarde h n (x) in kans naar deze verwachte waarde convergeert. Een histogram geeft dus een indruk van de kansverdeling waaruit een steekproef is gegenereerd. Helaas wordt een goede indruk pas verkregen als een voldoend grote steekproef beschikbaar is (bijvoorbeeld n = 100 of nog liever n = 500). We mogen daarom niet meer dan een eerste indruk van een histogram verwachten. Andere, meer gecompliceerde technieken, kunnen betere resultaten geven. Voorbeeld 3.1. In Figuur 3.1 zijn histogrammen getekend van de lichaamslengte (in cm) van 100 mannen (links) en 110 vrouwen (rechts). De histogrammen zijn zo geschaald dat de oppervlaktes onder de histogrammen gelijk aan 1 zijn. In beide figuren is eveneens de dichtheid van een normale verdeling getekend. De verwachting en variantie van deze normale verdelingen zijn gelijk aan het steekproefgemiddelde en de steekproefvariantie van de bijbehorende data (zie Hoofdstuk 4). Voorbeeld 3.2 (Normale verdeling). Figuur 3.2 geeft de dichtheid van de standaard normale verdeling tezamen met vier realisaties van het histogram, gebaseerd op 30, 30, 100 en 100 waarnemingen, waarbij de partities gekozen werden door het statistische softwarepakket R. De figuren linksboven en rechtsonder vertonen duidelijke afwijkingen van symmetrie. Bron: De data zijn verzameld door de afdeling Biologische Psychologie van de Vrije Universiteit in het kader van een onderzoek naar gezondheid, levensstijl en persoonlijkheid.

4 3.2: Univariate Steekproeven Figuur 3.1. Histogram van de lichaamslengte van 100 mannen (links) en 110 vrouwen (rechts), tezamen met de kansdichtheden van de normale verdeling met de verwachtingen gelijk aan de steekproefgemiddelden en de varianties gelijk aan de steekproefvarianties van de data. Omdat de data uit de normale verdeling werden gegenereerd is dit slechts te wijten aan toevalsvariatie Boxplots Een boxplot is een grafische weergave van de data die een indruk geeft van de locatie en de spreiding van de data, eventuele extreme waarden in de waarnemingen en de symmetrie van de verdeling waaruit de waarnemingen afkomstig zijn. In de boxplot staan de waarnemingen uitgezet langs de verticale as. De onderkant van de box staat getekend ter hoogte van het kleinste kwartiel, en de bovenkant ter hoogte van het grootste kwartiel van de data. Het kleinste (respectievelijk grootste) kwartiel van de data is die waarde x zodanig dat een kwart van de waargenomen data kleiner (respectievelijk groter) is dan x. De breedte van de box is willekeurig. In de box staat ter hoogte van de mediaan van de data een horizontale lijn. De mediaan is de middelste waarde in de rij gesorteerde waarnemingen. Aan de boven- en onderkant van de box staan zogeheten whiskers getekend. De whisker aan de bovenkant verbindt de box met de grootste waarneming die binnen 1.5 maal de interkwartiel afstand boven het grootste kwartiel ligt. De interkwartiel afstand is de afstand tussen het bovenste en het onderste kwartiel, ofwel de hoogte van de box. De whisker aan de onderkant wordt op analoge wijze getekend. Waarnemingen die buiten de whiskers vallen worden apart aangegeven, bijvoorbeeld met een sterretje, rondje of streepje.

5 26 3: Verdelingsonderzoek Figuur 3.2. Histogrammen van steekproeven van 30, 30, 100 en 100 (boven, boven, onder, onder) waarnemingen uit de standaard normale dichtheid en de ware dichtheid. Voorbeeld 3.3. In Figuur 3.3 staan boxplots getekend van steekproeven uit de exponentiële verdeling met parameter 1, de standaard normale verdeling en de standaard Cauchy-verdeling. De steekproeven uit de exponentiële en de Cauchy-verdeling bevatten extreme waarden, te zien aan de rondjes buiten de whiskers. De boxplot in het midden geeft aan dat de data uit de standaard normale verdeling aardig symmetrisch rond de mediaan liggen en geen extreme waarden bevatten Locatie-schaal familie en QQ-plots Na het tekenen van het histogram en eventueel een boxplot kunnen we ons afvragen welke klasse verdelingen passend is als statistisch model. Bijvoorbeeld, is het een redelijke aanname dat de data uit een normale verdeling afkomstig zijn? De normale verdeling is niet een bepaalde verdeling, maar een familie verdelingen, genoteerd met N(µ, σ 2 ), waarbij µ en σ 2 de verwachting en variantie zijn. Als we eerst zouden kunnen besluiten dat een normale verdeling bij de data past, dan zouden we als tweede stap de best passende parameters µ en σ 2 kunnen vinden. Dit laatste is het schattingsprobleem dat in Hoofdstuk 4 aan de orde komt. De familie van normale kansverdelingen is een voorbeeld van een locatie-schaal familie. Als de stochastische grootheid X een verdelingsfunc-

6 3.2: Univariate Steekproeven exp(1) N(0,1) Cauchy Figuur 3.3. Boxplots van steekproeven ter grootte 20 uit de standaard exponentiële verdeling (links), de standaard normale verdeling (midden) en de standaard Cauchy-verdeling (rechts). tie F heeft, dan bezit Y = a + bx de verdelingsfunctie F a,b gegeven door ( y a ) F a,b (y) = P(a + bx y) = F, b > 0. b De familie kansverdelingen {F a,b : a R, b > 0} heet de locatie-schaal familie behorend bij F (of van X ). Bezit F een kansdichtheid f, dan bezit F a,b de kansdichtheid f a,b gegeven door f a,b (y) = d ( y a ) dy F b = 1 ( y a ) b f. b Als EX = 0 en var X = 1, dan zijn a en b 2 precies de verwachting en variantie van Y en dus behorende bij de verdelingsfunctie F a,b. Bij iedere (standaard) verdeling (normaal, Cauchy, exponentieel, etc.) hoort een locatie-schaal familie. Overigens is het niet altijd zo dat de leden uit dezelfde locatie-schaal familie ook allemaal dezelfde naam dragen: de leden uit de locatie-schaal familie van de standaard Cauchy-verdeling zijn niet allemaal Cauchy-verdelingen. Omgekeerd zijn verdelingen met gelijke naam niet altijd leden uit dezelfde locatie-schaal familie: bijvoorbeeld χ 2 -verdelingen met verschillende aantallen vrijheidsgraden zitten niet in dezelfde locatie-schaal familie.

7 28 3: Verdelingsonderzoek Voorbeeld 3.4 (Normale verdeling). Stel dat X een N(0, 1)-verdeelde stochastische grootheid is. Uit de kansrekening is bekend dat Y = a + bx, met b > 0 een N(a, b 2 )-verdeling heeft. Dus, alle leden uit de locatie-schaal familie van de N(0, 1)-verdeling zijn normale verdelingen. Omgekeerd, als Y een N(a, b 2 )-verdeling heeft, dan is Y identiek verdeeld als a + bx met X standaard normaal verdeeld, en dus is de N(a, b 2 )-verdeling lid van de locatie-schaal familie van de standaard normale verdeling. Kortom, alle leden uit de locatie-schaal familie behorend bij de N(0, 1)-verdeling zijn weer normale verdelingen, en omgekeerd, alle normale verdelingen zitten in de locatie-schaal familie behorend bij de N(0, 1)-verdeling. QQ-plots zijn een grafisch hulpmiddel om een geschikte locatieschaal familie bij een gegeven steekproef x 1,..., x n te vinden. Ze zijn gebaseerd op kwantielfuncties. Als voor gegeven α (0, 1) precies één getal x α R bestaat met F (x α ) = α, dan heet x α het α-kwantiel van F (ook wel α-punt), genoteerd met F 1 (α). Zoals de notatie al suggereert, is de functie α F 1 (α) de kwantielfunctie, de inverse functie van F, mits deze goed gedefinieerd is. Als F strikt stijgend en continu is, dan geldt F (F 1 (α)) = α voor alle α (0, 1) en F 1 (F (x)) = x voor alle x R. Voorbeeld 3.5 (Exponentiële verdeling). Stel dat X een exponentiële verdeling met parameter λ heeft. De verdelingsfunctie F van X wordt dan gegeven door F (x) = 1 e λx voor x 0 en de kwantielfunctie F 1 door F 1 (α) = log(1 α)/λ voor α (0, 1). Omdat een verdelingsfunctie zowel sprongen als constante stukken kan hebben, heeft de vergelijking F (x) = α voor gegeven α in zijn algemeenheid geen, precies één of oneindig veel oplossingen (zie Figuur 3.4). Om ook in het eerste en laatste geval over een α-kwantiel te kunnen spreken, definiëren we de kwantielfunctie van F in het algemeen door F 1 (α) = inf{x: F (x) α}, α (0, 1). In woorden: F 1 (α) is het kleinste getal x met F (x) α a b F-1(b) F-1(a) Figuur 3.4. Een verdelingsfunctie en twee kwantielen.

8 3.2: Univariate Steekproeven 29 Er bestaat een lineair verband tussen kwantielfuncties van verdelingen binnen een gegeven locatie-schaal familie: F 1 a,b (α) = a + b F 1 (α) (zie Opgave 3.2). Met andere woorden: de punten {(F 1 (α), F 1 a,b (α)): α (0, 1)} liggen op de rechte lijn y = a + bx. Figuur 3.5 illustreert het feit dat twee normale verdelingen tot dezelfde locatie-schaal familie behoren. kwantielen N(2,16) kwantielen N(0,1) Figuur 3.5. De kwantielen van de N(2, 4 2 ) (y-as) uitgezet tegen die van N(0, 1) (x-as). Voor een rij stochastische grootheden X 1,..., X n is X (1),..., X (n) de rij ordestatistieken (Engels: order statistics): de grootheden geplaatst in stijgende volgorde. In het bijzonder zijn: X (1) = min 1 i n X i en X (n) = max 1 i n X i. Voor de i e ordestatistiek X (i) van een gegeven steekproef X 1,..., X n uit een verdeling F, geldt dat EF (X (i) ) = i/(n + 1) (zie Opgave 3.8). Het is daarom te verwachten dat de punten {( i/(n + 1), F (x (i) ) ) : i = 1,..., n } in het x-y-vlak ongeveer op de lijn y = x zullen liggen. Hetzelfde moet dan gelden voor de punten {( F 1 ( i n + 1 ) ) }, x (i) : i = 1,..., n. Algemener geldt dat als x 1,..., x n uit een element F a,b van de locatieschaal familie van F zijn gegenereerd, dan verwachten we dat bovenstaande punten op de lijn y = a + bx zullen liggen, immers dan geldt dat x (i) F 1 a,b (i/(n+1)) = a+bf 1 (i/(n+1)). Een QQ-plot is een plaatje van deze n punten, en geeft een grafische methode om te controleren of een steekproef uit een bepaalde locatie-schaal familie afkomstig zou kunnen zijn. De Q staat voor Quantile ; de Nederlandse naam zou KK-plaatje zijn.

9 30 3: Verdelingsonderzoek Voorbeeld 3.6 (Normale verdeling). Figuur 3.6 geeft QQ-plots van zes steekproeven, die met behulp van een random number generator uit een N(2, 4 2 )-verdeling gesimuleerd zijn, uitgezet tegen de N(0, 1)-verdeling. Omdat twee normale verdelingen in dezelfde locatie-schaal familie zitten, kunnen we verwachten dat de punten op een min of meer rechte lijn zullen liggen. De bovenste en onderste drie figuren bevatten data van steekproeven ter grootte van respectievelijk 10 en 50 waarnemingen. Te zien is dat de punten in de QQ-plots niet precies op een rechte lijn liggen, maar enigzins variëren rond een rechte lijn. Bij de kleine steekproeven is deze variatie veel groter dan bij de grotere steekproeven. ordestatistieken ordestatistieken ordestatistieken kwantielen N(0,1) kwantielen N(0,1) kwantielen N(0,1) ordestatistieken ordestatistieken ordestatistieken kwantielen N(0,1) kwantielen N(0,1) kwantielen N(0,1) Figuur 3.6. Zes QQ-plots van 10 (bovenste rij figuren) of 50 (onderste rij figuren) datapunten uit N(2, 4 2 ) uitgezet tegen N(0, 1). Geeft een QQ-plot van een steekproef x 1,..., x n tegen de kwantielen van F ongeveer de rechte y = x te zien, dan is dat een aanwijzing dat de data uit de verdeling F afkomstig zijn. Afwijkingen van de rechte y = x geven een aanwijzing over de afwijking van de ware verdeling van de data ten opzichte van F. Het simpelste geval is dat de plot wel een rechte lijn te zien geeft, maar niet de lijn y = x. Dit geeft een aanwijzing dat de data uit een ander lid van de locatie-schaal familie van F afkomstig zijn, zoals in Voorbeeld 3.6. De waarden voor a en b kunnen in dat geval ruwweg afgelezen worden door de lijn y = a+bx aan de QQ-plot te passen. In Hoofdstuk 4 zullen we andere methoden zien om parameters te schatten. Ingewikkelder is de beoordeling van gebogen krommen. Deze geven vooral een aanwijzing over de relatieve

10 3.2: Univariate Steekproeven 31 zwaarte van de staarten van de verdeling van de data ten opzichte van F. Om een indruk van de mogelijke soorten afwijkingen van lineariteit te geven, zijn in Figuur 3.7 een aantal QQ-plots van ware kwantielfuncties getekend. Dit zijn plots van de punten {(F 1 (α), G 1 (α)): α (0, 1)} voor verschillende verdelingsfuncties F en G normaal normaal homogeen logistiek normaal lognormaal chikwadraat_4 exponentieel Figuur 3.7. Plots van paren kwantielfuncties: homogeen-normaal, logistiek-normaal, lognormaal-normaal, exponentieel-χ 2 4. Voorbeeld 3.7. Op basis van de vorm van de histogrammen in Figuur 3.1 is het aannemelijk dat de data van de lichaamslengte afkomstig zijn uit een normale verdeling. Om dit verder te onderzoeken zijn in Figuur 3.8 QQplots getekend van de lichaamslengten van de mannen (links) en de vrouwen (rechts) tegen de kwantielen van de standaard normale verdeling. Om te onderzoeken of de punten goed op een rechte lijn liggen, is in beide figuren een passende lijn y = a+bx getekend. Voor de data van de mannen is dat de lijn y = x en voor de vrouwen is dat y = x. Deze lijnen zijn gevonden door a en b 2 te schatten met de maximum likelihood-schatters voor de verwachting en variantie (zie Voorbeeld 3.4 en Hoofdstuk 4). Aangezien de data de lijnen vrij nauwkeurig volgen, kunnen we concluderen dat de lokatie-schaal familie van de standaard normale verdeling goed past bij deze twee datasets. Omdat deze familie alleen normale verdelingen bevat, wordt het vermoeden dat de twee datasets uit normale verdelingen afkomstig zijn, ondersteund.

11 32 3: Verdelingsonderzoek Figuur 3.8. QQ-plots van de lichaamslengten van 100 mannen (links) en 110 vrouwen (rechts) tegen de kwantielen van de standaard normale verdeling. 3.3 Samenhang In veel gevallen zijn de waarnemingen x i geen getallen, maar vectoren x i = (x i,1,..., x i,d ). We zijn dan vaak geïnteresseerd in de relatie tussen de verschillende coördinaten. We zullen ons in deze paragraaf beperken tot vectoren met twee coördinaten en noteren deze met (x i, y i ) (in plaats van (x i,1, x i,2 )). Een scatterplot van een steekproef van tweedimensionale data (x 1, y 1 ),..., (x n, y n ) is een plot van deze punten in het platte vlak. Is er een duidelijk verband tussen de x- en y-coördinaten van de data, dan is dit op het oog onmiddellijk zichtbaar. De variabelen in het rechterplaatje van Figuur 3.9 vertonen bijvoorbeeld een duidelijk lineair verband, terwijl in het linkerplaatje geen samenhang is te ontdekken. Het lineaire verband in het rechterplaatje van Figuur 3.9 is onmiskenbaar, maar niet perfect. De punten liggen niet exact op een rechte lijn, maar variëren rond een (denkbeeldige) rechte. Een getalsmaat voor de kracht van het lineaire verband is de steekproefcorrelatiecoëfficiënt. Voor een rij waargenomen paren (x 1, y 1 ),..., (x n, y n ) is deze gedefinieerd door n i=1 r x,y = (x i x)(y i y) (n 1), s 2 x s 2 y met x en s 2 x de realisaties van het steekproefgemiddelde X en de steekproef-

12 3.3: Samenhang Figuur 3.9. Scatterplots van twee steekproeven van 50 punten. Links met onafhankelijke coördinaten (r x,y = 0.05), rechts met coördinaten die een lineair verband vertonen (r x,y = 0.87). variantie SX 2 voor X 1,..., X n, X = 1 n X i, SX 2 = 1 n (X i X) 2. n n 1 i=1 Analoge definities gelden voor Y en SY 2. De waarde van de steekproefcorrelatiecoëfficiënt ligt tussen 1 en 1, en kan als volgt worden geïnterpreteerd: (i) Als r x,y = 1, dan liggen de n punten precies op de lijn y = y + (s y /s x ) (x x) (perfect positief verband). (ii) Als r x,y = 1, dan liggen de n punten precies op de lijn y = y (s y /s x ) (x x) (perfect negatief verband). (iii) Zijn X 1,..., X n en Y 1,..., Y n onafhankelijke steekproeven, dan zal de gerealiseerde r x,y waarden dicht bij 0 aannemen. De eerste twee beweringen en dat r x,y 1 zijn een gevolg van de ongelijkheid van Cauchy-Schwarz uit de lineaire algebra. De derde bewering is een gevolg van het feit dat onafhankelijke stochastische grootheden ongecorreleerd zijn, gecombineerd met het intuïtief aannemelijke feit dat de steekproefcorrelatiecoëfficiënt de populatiecorrelatiecoëfficiënt i=1 ρ = cov(x, Y ) E(X EX)(Y EY ) = var X var Y E(X EX) 2 E(Y EY ) 2 zal benaderen voor n groot. Omdat cov(x, Y ) = E(X EX)(Y EY ) = E(XY ) EXEY is ρ gelijk aan 0 voor onafhankelijk stochastische grootheden X en Y : onafhankelijke stochastische grootheden zijn ongecorreleerd. Het inwendig product van vectoren a en b in R n voldoet aan a, b a b voor de Euclidische norm.

13 34 3: Verdelingsonderzoek Een verdere interpretatie van de steekproefcorrelatiecoëfficiënt wordt gegeven bij de behandeling van het lineaire regressiemodel in Hoofdstuk 8. We mogen bewering (iii) niet omdraaien in de zin dat een correlatie dicht bij 0 zou impliceren dat de twee coördinaten onafhankelijk zijn. Dit wordt geïllustreerd in Figuur In het linkerplaatje is een duidelijk lineair verband waarneembaar, corresponderend met een correlatiecoëfficiënt van Het rechterplaatje is een scatterplot van de punten (x i, y 2 i ) voor de punten (x i, y i ) uit het linkerplaatje. Het kwadratische verband is duidelijk zichtbaar. De sterkte van het verband tussen de twee coördinaten in het rechterplaatje doet niet onder voor de sterkte in het linkerplaatje. De steekproefcorrelatiecoëfficiënt voor de punten in het rechterplaatje is echter gelijk aan Blijkbaar is deze getalsmaat blind voor het aanwezige kwadratische verband Figuur Scatterplots van twee steekproeven van 50 punten, met steekproefcorrelatiecoëfficiënten, respectievelijk, 0.98 en Het rechterplaatje geeft de punten (x i, y 2 i ) voor de punten (x i, y i) uit het linkerplaatje. Voorbeeld 3.8 (Tweelingdata). Lichaamslengte wordt in grote mate erfelijk bepaald. Dit hebben we al gezien in Voorbeeld 2.7 waar de relatie tussen de lichaamslengte van de ouders en hun kinderen werd gemodelleerd. Ook bij tweelingonderzoek wordt dit duidelijk. Omdat eeneiige tweelingen genetisch gezien geheel identiek zijn en twee-eiige tweelingen gemiddeld genomen 50% van hun erfelijk materiaal delen, zal de correlatie tussen de lichaamslengtes van eeneiige tweelingen groter zijn dan tussen die van twee-eiige tweelingen (van hetzelfde geslacht). In Figuur 3.11 zijn de lichaamslengtes van eeneiige tweelingen (mannen links, vrouwen rechts) tegen elkaar uitgezet. In beide scatterplots is een sterke correlatie waar te nemen. De steekproefcorrelatie van de 92 mannelijke eeneiige tweelingen is gelijk aan Voor de 140 vrouwelijke eeneiige tweelingen is deze maar liefst Voor twee-eiige tweelingen van gelijk geslacht kunnen we

14 3.3: Samenhang 35 hetzelfde doen, zie de scatterplots in Figuur 3.12 (mannen links, vrouwen rechts). Uit deze figuur blijkt duidelijk dat de correlatie kleiner is bij tweeeiige tweelingen. De steekproefcorrelatie tussen de lichaamslengte van 58 mannelijke twee-eiige tweelingen is gelijk aan 0.55 en voor de 112 vrouwelijke twee-eiige tweelingen is deze gelijk aan In de toepassing na de opgaven in Hoofdstuk 4 komen we uitgebreid terug op erfelijkheidsonderzoek op basis van tweelingengegevens Figuur Scatterplots van de lichaamslengte van 92 mannelijke (links) en 140 vrouwelijke (rechts) eeneiige tweelingen Auto-correlaties Scatterplots kunnen ook gebruikt worden om de vaak gemaakte aanname dat een steekproef x 1,..., x n realisaties van onafhankelijke grootheden zijn te controleren. We kunnen bijvoorbeeld de punten (x 2i 1, x 2i ) voor i = 1,..., n/2 of de punten (x i, x i+1 ) voor i = 1,..., n 1 plotten. Als de aanname juist is, dan zouden we in deze scatterplots niet veel structuur moeten kunnen ontdekken. De steekproef auto-correlatiecoëfficiënt van orde h N van een waargenomen steekproef x 1,..., x n definiëren we door r x (h) = n h i=1 (x i+h x)(x i x) (n h)s 2. x Bron: De data die gebruikt zijn in dit voorbeeld zijn verzameld door de afdeling Biologische Psychologie van de Vrije Universiteit in het kader van een onderzoek naar gezondheid, levensstijl en persoonlijkheid.

15 36 3: Verdelingsonderzoek Figuur Scatterplots van de lichaamslengte van 58 mannelijke (links) en 112 vrouwelijke (rechts) twee-eiige tweelingen. Dan is de steekproefcorrelatiecoëfficiënt die met de punten (x i, x i+1 ) voor i = 1,..., n 1 correspondeert, (in essentie) de steekproef autocorrelatiecoëfficiënt van orde 1. Deze coëfficiënten zijn vooral interessant als de index i van de data x i correspondeert met een tijdsparameter en, de indruk bestaat dat, een tijdseffect in de data aanwezig zou kunnen zijn. We meten dan het verband tussen de variabelen X i en X i h van h tijdstippen eerder. Voorbeeld 3.9 (Beurskoersen). In het bovenste plaatje van Figuur 5.12 staat de waarde van het aandeel Hewlett Packard op de beurs van New York uitgezet tegen de tijd, in de periode Uitgezet zijn de beurswaarden a i van het aandeel op de sluitingstijd van opeenvolgende beursdagen (i = 1, 2,..., 2000); in de grafiek zijn deze waarden lineair geïnterpoleerd. Omdat beurswaarden meestal een exponentieel stijgende (of dalende) rij vormen, is het gebruikelijk om in plaats van de beurswaarden zelf de log returns te analyseren, gedefiniëerd door x i = log a i. a i 1 Deze waarden staan uitgezet in het onderste plaatje van Figuur Omdat de index i van x i correspondeert met de i e beursdag, zou het niet verbazend zijn als x 1,..., x 2000 niet goed gemodelleerd kunnen worden als realisaties van onafhankelijke variabelen X 1,..., X Een grote verandering op dag i zou immers invloed kunnen hebben op de verandering op dag i + 1. Toch was de omgekeerde hypothese van onafhankelijkheid, de random walk hypothese, lange tijd aanvaard in de econometrie.

16 3: Opgaven 37 Een eerste aanzet om deze hypothese te controleren is het berekenen van de steekproef auto-correlaties van de rij x 1,..., x Deze worden grafisch weergegeven in het linkerplaatje van Figuur 3.13, waarin op de horizontale as de waarden h = 0, 1, 2,..., 30 zijn uitgezet, en de hoogten van de lijnstukken de bijbehorende steekproef auto-correlatiecoëfficiënten van orde h geven (de steekproef auto-correlatie van de orde 0 is natuurlijk gelijk aan 1). Bijna alle steekproef auto-correlatiecoëfficiënten zijn klein, wat de conclusie rechtvaardigt, dat de log returns weinig lineair verband vertonen. Het rechterplaatje geeft de steekproef auto-correlatiecoëfficiënten van de kwadraten x 2 1,..., x van de log returns. Hoewel ook deze coëfficiënten laag zijn, is de conclusie dat de kwadratische log returns weinig verband hebben aanvechtbaar: te veel coëfficiënten verschillen te veel van 0. Als de kwadraten niet onafhankelijk zijn, dan zijn de log returns zelf natuurlijk ook niet onafhankelijk. Het is daarom geen goede aanname om x 1,..., x 2000 als realisaties van onafhankelijke variabelen te modelleren: met een tijdseffect moet rekening worden gehouden. Beurskoersen vormen geen random walk. In het voorgaande vonden we de coëfficiënten in het linkerplaatje van Figuur 3.13 klein, terwijl we ze in het rechterplaatje van nul vonden verschillen. Deze meningen zijn objectief te onderbouwen met behulp van statistische toetsen, zoals die behandeld worden in Hoofdstuk 5. De horizontale stippellijnen in de twee figuren geven kritieke waarden voor de steekproef auto-correlaties als toetsingsgrootheden voor de nulhypothese dat x 1,..., x 2000 kunnen worden opgevat als een steekproef van onafhankelijke variabelen (bij een onbetrouwbaarheid van 5 %). Coëfficiënten die niet tussen de twee stippellijnen vallen geven aanleiding deze nulhypothese te verwerpen. Hierbij moeten we rekening houden met het feit dat, wanneer we uitgaan van de nulhypothese, op grond van toevallige variaties er ongeveer 1 op de 20 coëfficiënten buiten de banden zal vallen vanwege de onbetrouwbaarheid van 5 % (zie Hoofdstuk 5). In het rechterplaatje vallen te veel waarden buiten de banden. Opgaven 1. Veronderstel dat h n het geschaalde histogram van een steekproef X 1,..., X n uit een dichtheid f is. De partitie van het histogram wordt gegeven door a 0 < a 1 <... < a m. Bewijs dat voor a j 1 < x a j geldt dat h n (x) (a j a j 1 ) 1 a j a j 1 f(s) ds met kans 1, als n. 2. Veronderstel dat de stochastische grootheid X verdelingsfunctie F en kwantielfunctie Q bezit. Definieer x α als het α-kwantiel van F en y α als het α-kwantiel van de verdeling van Y = a + bx.

17 38 3: Verdelingsonderzoek Series : hp Series : hp^2 ACF ACF Lag Lag Figuur Steekproef auto-correlatiefunctie van de log returns van HP-aandelen in de periode (links) en van de kwadraten van de log returns (rechts). De hoogte van de stippellijnen is ±1.96/ 2000 (zie Voorbeeld 5.36). (i) Stel F is strikt stijgend en continu, zodat de inverse van F bestaat en gelijk is aan Q. Toon aan dat tussen x α = F 1 (α) en y α = F 1 a,b (α) een lineair verband bestaat, door gebruik te maken van de inverteerbaarheid van F. (ii) Toon aan dat hetzelfde lineaire verband bestaat tussen x α en y α voor een algemene verdelingsfunctie F. Gebruik hiervoor de algemene definitie van het α-kwantiel. 3. De standaard exponentiële verdeling bezit verdelingsfunctie x 1 e x op [0, ). (i) Behoort de exponentiële verdeling met parameter λ tot de locatie-schaal familie van de standaard exponentiële verdeling? (ii) Druk de parameters a en b in de locatie-schaal familie F a,b van de standaard exponentiële verdeling uit in de verwachting en variantie van een stochastische variabele met verdeling F a,b. 4. Zij X een stochastische grootheid, homogeen verdeeld op [ 3, 2]. (i) Bepaal de verdelingsfunctie F van X. (ii) Bepaal de kwantielfunctie F 1 van X. 5. Zij X een stochastische grootheid met kansdichtheid f(x) = 2 θ 2 x1 [0,θ](x) waar θ > 0 een constante is. (i) Bepaal de verdelingsfunctie F van X. (ii) Bepaal de kwantielfunctie F 1 van X. 6. Welke lijn is uitgezet in Figuur 3.5? 7. Zij X 1,..., X n een steekproef uit een continue verdeling met verdelingsfunctie F en dichtheid f. Laat zien dat de kansdichtheid van de k e ordestatistiek X (k)

18 3: Opgaven 39 gelijk is aan f (k) (x) = n! (k 1)!(n k)! F (x)k 1 (1 F (x)) n k f(x) door eerst de verdelingsfuctie van X (k) te bepalen. (Hint: X (k) x dan en slechts dan als ten minste k waarnemingen X i kleiner zijn dan of gelijk zijn aan x. Het aantal X i dat kleiner is dan of gelijk is aan x is binomiaal verdeeld met parameters n en P(X i x).) 8. Zij X 1,..., X n een steekproef uit een continue verdeling met verdelingsfunctie F. We willen in deze opgave aantonen dat EF (X (k) ) = k/(n + 1). Definieer U i = F (X i) voor i = 1,..., n. (i) Toon aan dat de stochastische grootheden U 1,..., U n een steekproef vormen uit de homogene verdeling op [0, 1]. (ii) Toon aan dat de verdelingsfunctie F (k) van U (k) wordt gegeven door n ( ) n F (k) (x) = x j (1 x) n j. j (iii) Toon aan dat de dichtheid f (k) van U (k) wordt gegeven door f (k) (x) = j=k (iv) Toon aan dat EU (k) = k/(n + 1). n! (k 1)!(n k)! xk 1 (1 x) n k. 9. Maak een grafiek van de kwantielen van de N(2, 2 2 )-verdeling tegen de kwantielen van de N(0, 3 2 )-verdeling. Welke lijn is dit? 10. Zij X een standaard normaal verdeelde stochastische grootheid. Bereken de correlatiecoëfficiënt tussen de stochastische grootheden X en Y = X Leg uit dat het aannemelijk is dat de steekproefcorrelatie r X,Y bij benadering gelijk is aan de correlatiecoëfficiënt, ρ, voor grote waarden van n. 12. Veronderstel dat X en Y onderling onafhankelijk zijn en beide standaard normaal verdeeld. Bereken de correlatiecoëfficiënt tussen X en Z waar Z = X +Y.

19 DE WET VAN BENFORD In 1938 publiceerde de fysicus Benford een wetenschappelijk artikel waarin hij claimt dat in een dataset de frequentie van het begincijfer van de getallen hoger is naarmate het begincijfer lager is; ofwel dat in een dataset meer getallen met een 1 beginnen dan met een 2, dat meer getallen met een 2 beginnen dan met een 3, enzovoort. Dit patroon komt niet overeen met het algemene gevoel dat alle begincijfers, 1 tot en met 9, ongeveer evenveel voorkomen. Benford stelt zelfs in zijn artikel dat de kans dat een willekeurig getal uit een dataset met het cijfer d begint, gelijk is aan log 10 (1+1/d) voor d {1,..., 9} (waarbij log 10 de logaritme met grondtal 10 betekent). De kans dat het willekeurige getal met een 1 begint is volgens Benford dus ongeveer gelijk aan 0.30 en voor begincijfer 9 is deze kans gedaald tot onder de In Figuur 3.14 staan de kansen uitgezet. Bovenstaande bewering is later de Wet van Benford gaan heten Figuur De kansen op de verschillende begincijfers volgens de Wet van Benford. Benford was niet de eerste die bovenstaande wetmatigheid ontdekte. Ruim vijftig jaar eerder, in 1881, publiceerde de Amerikaanse astronoom Newcomb een wetenschappelijk artikel met dezelfde bevindingen. Newcomb merkte dat de eerste bladzijden van de boeken met logaritmetabellen vuiler en meer versleten waren dan de verdere pagina s. Aangezien in het begin van de boeken de getallen met lage begincijfers stonden, en aan het einde die met hoge begincijfers, concludeerde Newcomb dat logaritmen van getallen met lage begincijfers vaker opgezocht werden dan getallen met hoge begincijfers. We nemen de proef op de som en stellen een dataset samen met inwoneraantallen van alle landen in de wereld. In Figuur 3.15 staat een tot 1 geschaalde histogram van de begincijfers van de inwoneraantallen tezamen met de Benford frequenties. De frequenties van begincijfers lijken aardig aan de Wet van Beford te voldoen.

20 3: De Wet van Benford Figuur Histogram van de waargenomen frequenties van de begincijfers 1 tot en met 9 in de dataset met de populatiegroottes van alle landen in de wereld. De stapfunctie in de figuur geeft de verwachte frequenties op basis van de Wet van Benford weer. Veel datasets zijn onderzocht op de geldigheid van de Wet van Benford; van in het laboratorium gemeten fysische grootheden tot geografische informatie (als lengte van rivieren en inwoneraantallen van hoofdsteden), en van bedrijfsboekhouding tot omrekenfactoren van munteenheden. In bijna alle gevallen wordt aan de wet voldaan. Natuurlijk voldoet niet iedere dataset. Getallen die op basis van pure toeval gevonden worden (bijvoorbeeld dobbelsteenworpen), of getallen die aan beperkingen zijn onderworpen, als de leeftijden van de Nederlanders en de telefoonnummers in het telefoonboek, voldoen niet. De getallen die voorkomen in financiële overzichten, bijvoorbeeld de boekhouding van bedrijven, voldoen veelal bij benadering aan de Wet van Benford. Benfords Wet kan daardoor worden gebruikt bij het controleren van de boekhoudingen en bij het opsporen van fraude en onjuistheden. Een werknemer die fraude pleegt en dit probeert te maskeren, zal veelal verzonnen of gemanipuleerde geldbedragen zo kiezen dat de begincijfers van de bedragen in gelijke mate voorkomen. Als de werknemer relatief vaak geldbedragen manipuleert of verzint, zullen zijn handelingen de verdeling van begincijfers veranderen en zal deze afwijken van de verdeling die de Wet van Benford voorspelt. Als bijvoorbeeld 9% van de geldbedragen in de boekhouding met een 9 begint, zal de boekhouding vrijwel zeker nader onderzocht worden, omdat, volgens Benford, slechts 4.6% van de geldbedragen met een 9 zou moeten beginnen. Echter, een afwijking van de Wet van Benford hoeft niet te betekenen dat er gefraudeerd is. In sommige gevallen heeft men een voorkeur voor getallen die met een 9 beginnen; zo verkoopt een

21 42 3: Verdelingsonderzoek product beter als het 99 en niet 100 euro kost. Alleen structurele fraude kan met de Wet van Benford opgespoord worden. Indien éénmaal een groot bedrag naar een privérekening wordt overgemaakt, dan zal dat niet worden opgemerkt als men slechts kijkt naar afwijkingen van de Wet van Benford. In Figuur 3.16 is een tot 1 geschaalde histogram getekend van de begincijfers van bijna 1,5 miljoen bedragen in een kasboek van een groot bedrijf, tezamen met de frequenties die je zou verwachten op basis van de Wet van Benford. De bedragen in de boekhouding lijken de Wet van Benford aardig te volgen Figuur Histogram van de waargenomen frequentie van de begincijfers 1 tot en met 9 van de bedragen in de boekhouding. De trapfunctie in de histogram geeft de frequenties op basis van de Wet van Benford weer. Ondanks dat er al veel onderzoek gedaan is naar de Wet van Benford, is het nog steeds niet volledig duidelijk waarom de ene dataset wel en de andere niet aan de Wet van Benford voldoet. We bestuderen de Wet van Benford nader. Aangezien we slechts geïnteresseerd zijn in het begincijfer van een getal, schrijven we een getal z in de vorm z = x 10 n met 1 x < 10 en n Z. Deze notatie is mogelijk voor alle positieve getallen. In het vervolg noemen we x de genormeerde waarneming behorende bij z = x 10 n. Het begincijfer van z is gelijk aan het begincijfer van x. Definieer D als de stochast die het begincijfer van een willekeurig (stochastisch) getal Z = X 10 n uit de dataset aangeeft. Veronderstel dat X verdeeld is als 10 Y met

22 3: De Wet van Benford 43 Y homogeen verdeeld op het interval [0, 1], dan geldt P(D = k) = P(k X < k + 1) = P(log 10 k Y < log 10 (k + 1)) = log 10 (k + 1) log 10 k = log 10 (1 + 1/k). Dit is precies de kans op het begincijfer k volgens de Wet van Benford. Ook datasets waarvan log 10 van de begincijfers niet gezien kunnen worden als realisaties uit de standaard homogene verdeling, kunnen wel de Wet van Benford volgen. In Figuur 3.17 is een QQ-plot getekend van de orde-statistieken van log 10 van de genormeerde populatiegroottes tegen de kwantielen van de homogene [0, 1] verdeling. Voor deze dataset is ogenschijnlijk wel aan bovenstaande aanname voldaan Figuur QQ-plot van log 10 van de genormeerde populatiegroottes tegen de kwantielen van de homogene [0, 1] verdeling. De lijn in de figuur is de lijn y = x.

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19 Stochastiek 2 Inleiding in de Mathematische Statistiek 1/19 Herhaling H.1 2/19 Mathematische Statistiek We beschouwen de beschikbare data als realisatie(s) van een stochastische grootheid X.(Vaak een vector

Nadere informatie

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen ALGEMENE STATISTIEK A.W. van der Vaart en anderen VOORWOORD Dit diktaat wordt gebruikt bij het vak Statistiek voor Natuurkunde. Het is een uittreksel van het boek Algemene Statistiek geschreven door A.W.

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een

Nadere informatie

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1) Cursus Statistiek Hoofdstuk 4 Statistiek voor Informatica Hoofdstuk 4: Verwachtingen Cursusjaar 29 Peter de Waal Departement Informatica Inhoud Verwachtingen Variantie Momenten en Momentengenererende functie

Nadere informatie

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan. Afdeling Wiskunde Volledig tentamen Statistics Deeltentamen 2 Statistics Vrije Universiteit 28 mei 2015 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen: opgaven 1,2,3,4. Cijfer=

Nadere informatie

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013 Afdeling Wiskunde Volledig tentamen Algemene Statistiek Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen:

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur Kansrekening en statistiek wi2105in deel 2 27 januari 2010, 14.00 16.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na

Nadere informatie

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur.

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (WS05), vrijdag 9 oktober 010, van 14.00 17.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17 Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 17 Statistische toetsen 2 / 17 Toetsen - algemeen - 1 Setting: observatie X in X, model {P θ : θ Θ}. Gegeven partitie Θ = Θ 0 Θ 1, met Θ 0 Θ 1

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door

Nadere informatie

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Technische Universiteit Delft Mekelweg 4 Faculteit Elektrotechniek, Wiskunde en Informatica 2628 CD Delft Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Formulebladen, rekenmachines,

Nadere informatie

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Basistechnieken 6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. x 0 2 4 6 p(x) ¼ ¼ ¼ ¼ a. Schrijf alle mogelijke verschillende steekproeven van n =

Nadere informatie

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van 4.00 7.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur Kansrekening en statistiek wi20in deel I 29 januari 200, 400 700 uur Bij dit examen is het gebruik van een (evt grafische rekenmachine toegestaan Tevens krijgt u een formuleblad uitgereikt na afloop inleveren

Nadere informatie

Tentamen Voortgezette Kansrekening (WB006C)

Tentamen Voortgezette Kansrekening (WB006C) WB6C: Voortgezette Kansrekening Donderdag 26 januari 212 Tentamen Voortgezette Kansrekening (WB6C) Het is een open boek tentamen. Gebruik van een rekenmachine of andere hulpmiddelen is niet toegestaan.

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop

Nadere informatie

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten Deze week: Steekproefverdelingen Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen Cursusjaar 29 Peter de Waal Zuivere Schatters Betrouwbaarheidsintervallen Departement Informatica Hfdstk

Nadere informatie

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte Classroom Exercises GEO2-4208 Opgave 7.1 a) Regressie-analyse dicteert hier geen stricte regels voor. Wanneer we echter naar causaliteit kijken (wat wordt door wat bepaald), dan is het duidelijk dat hoogte

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur Kansrekening en statistiek WI22TI / WI25IN deel 2 2 februari 22, 4. 6. uur VOOR WI22TI: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad is niet toegestaan.

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

Statistiek I Samenvatting. Prof. dr. Carette

Statistiek I Samenvatting. Prof. dr. Carette Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18 Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 18 t-toetsen 2 / 18 Steekproefgemiddelde en -variantie van normale observaties Stelling. Laat X 1,..., X n o.o. zijn en N(µ, σ 2 )-verdeeld. Dan:

Nadere informatie

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen Vandaag Onderzoeksmethoden: Statistiek 2 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Theoretische kansverdelingen

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2, Vrijdag 23 januari 25, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven dienen

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31 Tentamen Statistische methoden 45STAMEY april, 9: : Studienummers: Vult u alstublieft op het MC formulier uw Delftse studienummer in; en op het open vragen formulier graag beide, naar volgend voorbeeld:

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2), Vrijdag 24 januari 24, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven

Nadere informatie

ALGEMENE STATISTIEK VOOR BWI COMPUTEROPGAVEN 2009/2010. A.W. van der Vaart en F. Bijma

ALGEMENE STATISTIEK VOOR BWI COMPUTEROPGAVEN 2009/2010. A.W. van der Vaart en F. Bijma ALGEMENE STATISTIEK VOOR BWI COMPUTEROPGAVEN 2009/2010 A.W. van der Vaart en F. Bijma 1 Algemene Instructies Het programma R is onder Windows beschikbaar. Je kunt R vinden in de lijst met programma s onder

Nadere informatie

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter. STATISTIEK OPLOSSINGEN OEFENZITTINGEN 5 en 6 c D. Keppens 2004 5 1 (a) Zij µ de verwachtingswaarde van X. We moeten aantonen dat E[M i ] = µ voor i = 1, 2, 3 om te kunnen spreken van zuivere schatters.

Nadere informatie

Meetkunde en Lineaire Algebra

Meetkunde en Lineaire Algebra Hoofdstuk 1 Meetkunde en Lineaire Algebra Vraag 1.1 Zij p en q twee veeltermfuncties met reële coëfficiënten en A een reële vierkante matrix. Dan is p(a) diagonaliseerbaar over R als en slechts dan als

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2WS4, dinsdag 17 juni 28, van 9. 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Populatie: De gehele groep elementen waarover informatie wordt gewenst. Statistiek I Werkcollege 1 Populatie: De gehele groep elementen waarover informatie wordt gewenst. Steekproef: Gedeelte van de populatie dat feitelijk wordt onderzocht om informatie te vergaren. Eenheden:

Nadere informatie

Inleiding Statistiek

Inleiding Statistiek Inleiding Statistiek Practicum 1 Op dit practicum herhalen we wat Matlab. Vervolgens illustreren we het schatten van een parameter en het toetsen van een hypothese met een klein simulatie experiment. Het

Nadere informatie

Zo geldt voor o.o. continue s.v.-en en X en Y dat de kansdichtheid van X + Y gegeven wordt door

Zo geldt voor o.o. continue s.v.-en en X en Y dat de kansdichtheid van X + Y gegeven wordt door APP.1 Appendix A.1 Erlang verdeling verdeling met parameters n en λ Voor o.o. discrete s.v.-en X en Y geldt P (X + Y = z) =P (X = x 1 en Y = z x 1 )+P(X = x en Y = z x )+... = P (X = x 1 )P (Y = z x 1

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN

HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN. Continue Verdelingen 1 A. De uniforme (of rechthoekige) verdeling Kansdichtheid en cumulatieve frequentiefunctie Voor x < a f(x) = 0 F(x) = 0 Voor a x

Nadere informatie

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur Kansrekening en statistiek WI05IN deel I 4 november 0, 4.00 7.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad wordt uitgereikt. Meerkeuzevragen Toelichting:

Nadere informatie

en-splitsingen: een aantal alternatieven worden parallel toegepast, of-splitsingen: van een aantal alternatieven wordt er één toegepast,

en-splitsingen: een aantal alternatieven worden parallel toegepast, of-splitsingen: van een aantal alternatieven wordt er één toegepast, Kansrekening voor Informatiekunde, 25 Les 8 Proces analyse Veel processen laten zich door netwerken beschrijven, waarin knopen acties aangeven en opdrachten langs verbindingen tussen de knopen verwerkt

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Samenvatting Statistiek

Samenvatting Statistiek Samenvatting Statistiek De hoofdstukken 1 t/m 3 gaan over kansrekening: het uitrekenen van kansen in een volledig gespecifeerd model, waarin de parameters bekend zijn en de kans op een gebeurtenis gevraagd

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

Opgaven hoofdstuk 12 Enkelvoudige lineaire regressie

Opgaven hoofdstuk 12 Enkelvoudige lineaire regressie Opgaven hoofdstuk 12 Enkelvoudige lineaire regressie 12.1 Teken voor elk van de volgende gevallen de lijn die door de gegeven punten gaat. a. (1,1) en (5,5). b. (0,3) en (3,0) c. ( 1,1) en (4,2) d. ( 6,

Nadere informatie

Statistiek voor A.I.

Statistiek voor A.I. Statistiek voor A.I. College 13 Donderdag 25 Oktober 1 / 28 2 Deductieve statistiek Orthodoxe statistiek 2 / 28 3 / 28 Jullie - onderzoek Tobias, Lody, Swen en Sander Links: Aantal broers/zussen van het

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen

Nadere informatie

Toetsen van hypothesen

Toetsen van hypothesen Les 4 Toetsen van hypothesen We hebben tot nu toe enigszins algemeen naar grootheden van populaties gekeken en bediscussieerd hoe we deze grootheden uit steekproeven kunnen schatten. Vaak hebben we echter

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie

Nadere informatie

8. Analyseren van samenhang tussen categorische variabelen

8. Analyseren van samenhang tussen categorische variabelen 8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde

Nadere informatie

Meetkunde en Lineaire Algebra

Meetkunde en Lineaire Algebra Hoofdstuk 1 Meetkunde en Lineaire Algebra Vraag 1.1 Zij p en q twee veeltermfuncties met reële coëfficiënten en A een reële vierkante matrix. Dan is p(a) diagonaliseerbaar over R als en slechts dan als

Nadere informatie

Toegepaste Wiskunde 2: Het Kalman-filter

Toegepaste Wiskunde 2: Het Kalman-filter Toegepaste Wiskunde 2: Het Kalman-filter 25 februari, 2008 Hans Maassen 1. Inleiding Het Kalman filter schat de toestand van een systeem op basis van een reeks, door ruis verstoorde waarnemingen. Een meer

Nadere informatie

Voorbeeld 1. Statistiek voor Informatica Hoofdstuk 3: Stochastische Variabelen en Verdelingen. Voorbeeld 2A. Voorbeeld 1 (vervolg)

Voorbeeld 1. Statistiek voor Informatica Hoofdstuk 3: Stochastische Variabelen en Verdelingen. Voorbeeld 2A. Voorbeeld 1 (vervolg) Voorbeeld Statistiek voor Informatica Hoofdstuk 3: Stochastische Variabelen en Verdelingen Cursusjaar 2009 Peter de Waal Departement Informatica In een eperiment gooien we 4 maal met een zuivere munt.

Nadere informatie

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen Lesbrief: Correlatie en Regressie Leerlingmateriaal Je leert nu: -een correlatiecoëfficient gebruiken als maat voor het statistische verband tussen beide variabelen -een regressielijn te tekenen die een

Nadere informatie

Toegepaste Statistiek, Week 6 1

Toegepaste Statistiek, Week 6 1 Toegepaste Statistiek, Week 6 1 Eén ordinale en één nominale variabele Nominale variabele met TWEE categorieën, 1 en 2 Ordinale variabele normaal verdeeld binnen iedere categorie? Variantie in beide categorieën

Nadere informatie

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling Moore, McCabe, and Craig. Introduction to the Practice of Statistics Chapter 5: Sampling Distributions 5.1: The

Nadere informatie

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Learning the Mechanics 6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. De random variabele x wordt tweemaal waargenomen. Ga na dat, indien de waarnemingen

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van 9.00 12.00 uur.

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van 9.00 12.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (WS4), woensdag 3 juni, van 9.. uur. Dit is een tentamen met gesloten boek. De uitwerkingen van de

Nadere informatie

Gezamenlijke kansverdeling van twee stochasten

Gezamenlijke kansverdeling van twee stochasten Gezamenlijke kansverdeling van twee stochasten Voorbeeld: V = de windsnelheid H = hoogte van het waterniveau in een rivier/zee De combinatie (V, H) is van belang voor een overstroming en niet zozeer V

Nadere informatie

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 1. Iemand kiest geblinddoekt 4 paaseitjes uit een mand met oneindig veel paaseitjes. De helft is melkchocolade, de andere

Nadere informatie

Tentamen Kansrekening (NB004B)

Tentamen Kansrekening (NB004B) NB4B: Kansrekening Dinsdag november 2 Tentamen Kansrekening (NB4B) Het is een open boek tentamen. Gebruik van een rekenmachine of andere hulpmiddelen is niet toegestaan. Vermeld op ieder blad je naam en

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 9 Dinsdag 18 Oktober 1 / 1 2 Statistiek Vandaag: Centrale Limietstelling Correlatie Regressie 2 / 1 Centrale Limietstelling 3 / 1 Centrale Limietstelling St. (Centrale

Nadere informatie

Voorbeeld 1: kansverdeling discrete stochast discrete kansverdeling

Voorbeeld 1: kansverdeling discrete stochast discrete kansverdeling 12.0 Voorkennis Voorbeeld 1: Yvette pakt vier knikkers uit een vaas waar er 20 inzitten. 9 van de knikkers zijn rood en 11 van de knikkers zijn blauw. X = het aantal rode knikkers dat Yvette pakt. Er zijn

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Hoofdstuk 6 Twee populaties: parametrische toetsen

Hoofdstuk 6 Twee populaties: parametrische toetsen Hoofdstuk 6 Twee populaties: parametrische toetsen 6.1 De t-toets voor het verschil tussen twee gemiddelden: In veel onderzoekssituaties zijn we vooral in de verschillen tussen twee populaties geïnteresseerd.

Nadere informatie

Tentamen Statistische methoden MST-STM 8 april 2010, 9:00 12:00

Tentamen Statistische methoden MST-STM 8 april 2010, 9:00 12:00 Tentamen Statistische methoden MST-STM 8 april 2, 9: 2: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop inleveren alstublieft.

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2S27), dinsdag 14 juni 25, 9. - 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Tentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander

Tentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander Universiteit Leiden Niels Bohrweg Tentamen Inleiding Kansrekening 25 juni 2009, 0.00 3.00 uur Docent: F. den Hollander Mathematisch Instituut 2333 CA Leiden Bij dit tentamen is het gebruik van een (grafische)

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 8 Donderdag 13 Oktober 1 / 23 2 Statistiek Vandaag: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 23 Stochast en populatie

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel

Nadere informatie

Statistiek voor A.I. College 10. Donderdag 18 Oktober

Statistiek voor A.I. College 10. Donderdag 18 Oktober Statistiek voor A.I. College 10 Donderdag 18 Oktober 1 / 28 Huffington Post poll verkiezingen VS - 12 Oktober 2012 2 / 28 Gallup poll verkiezingen VS - 15 Oktober 2012 3 / 28 Jullie - onderzoek Kimberly,

Nadere informatie

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen ALGEMENE STATISTIEK A.W. van der Vaart en anderen VOORWOORD Dit collegedictaat omvat de stof van het college Algemene Statistiek, zowel de versie voor Econometrie en Wiskunde studenten, als de versie voor

Nadere informatie

SCHATTEN. A.W. van der Vaart en anderen

SCHATTEN. A.W. van der Vaart en anderen SCHATTEN A.W. van der Vaart en anderen VOORWOORD Dit diktaatje wordt gebruikt bij het vak Biostatistiek 2 voor MNW. Het is een uittreksel van het boek Algemene Statistiek geschreven door A.W. van der Vaart

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

Toegepaste Statistiek, Week 3 1

Toegepaste Statistiek, Week 3 1 Toegepaste Statistiek, Week 3 1 In Week 2 hebben we toetsingstheorie besproken mbt een kwantitatieve (ordinale) variabele G, en met name over zijn populatiegemiddelde E(G). Er waren twee gevallen: Er is

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamenopgaven Statistiek 2DD71: UITWERKINGEN 1. Stroopwafels a De som S van de 12 gewichten is X 1 + X 2 + + X 12. Deze is normaal

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Uitwerking tentamen Kansrekening en Stochastische Processen (2S61) op woensdag 27 april 25, 14. 17. uur. 1. Gegeven zijn twee onafhankelijke

Nadere informatie

Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie

Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie Deze week: Schatten Statistiek voor Informatica Hoofdstuk 6: Schatten Cursusjaar 2009 Peter de Waal Departement Informatica Statistische inferentie A Priori en posteriori verdelingen Geconjugeerde a priori

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen ALGEMENE STATISTIEK A.W. van der Vaart en anderen VOORWOORD Dit collegedictaat omvat de stof van het college Algemene Statistiek, zowel de versie voor Econometrie en Wiskunde studenten, als de versie voor

Nadere informatie

Medische Statistiek Kansrekening

Medische Statistiek Kansrekening Medische Statistiek Kansrekening Medisch statistiek- kansrekening Hoorcollege 1 Uitkomstenruimte vaststellen Ook wel S of E. Bij dobbelsteen: E= {1,2,3,4,5,6} Een eindige uitkomstenreeks Bij het gooien

Nadere informatie

Tentamen Kansrekening en statistiek wi2105in 25 juni 2007, uur

Tentamen Kansrekening en statistiek wi2105in 25 juni 2007, uur Tentamen Kansrekening en statistiek wi205in 25 juni 2007, 4.00 7.00 uur Bij dit examen is het gebruik van een (evt. grafische rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop

Nadere informatie

Kansrekening en stochastische processen 2S610

Kansrekening en stochastische processen 2S610 Kansrekening en stochastische processen 2S610 Docent : Jacques Resing E-mail: j.a.c.resing@tue.nl http://www.win.tue.nl/wsk/onderwijs/2s610 1/28 Schatten van de verwachting We hebben een stochast X en

Nadere informatie

V.2 Limieten van functies

V.2 Limieten van functies V.2 Limieten van functies Beschouw een deelverzameling D R, een functie f: D R en zij c R. We willen het gedrag van f in de buurt van c bestuderen. De functiewaarde in c is daarvoor niet belangrijk, de

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 16 Donderdag 4 November 1 / 25 2 Statistiek Indeling: Schatten Correlatie 2 / 25 Schatten 3 / 25 Schatters: maximum likelihood schatters Def. Zij Ω de verzameling van

Nadere informatie

G0N11C Statistiek & data-analyse Project tweede zittijd

G0N11C Statistiek & data-analyse Project tweede zittijd G0N11C Statistiek & data-analyse Project tweede zittijd 2014-2015 Naam : Raimondi Michael Studierichting : Biologie Gebruik deze Word-template om een antwoord te geven op onderstaande onderzoeksvragen.

Nadere informatie

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data p 1/31 Beschrijvende

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Inleveren: Uiterlijk 15 februari voor 16.00 in mijn postvakje Afspraken Overleg is toegestaan, maar iedereen levert zijn eigen werk in. Overschrijven

Nadere informatie

III.2 De ordening op R en ongelijkheden

III.2 De ordening op R en ongelijkheden III.2 De ordening op R en ongelijkheden In de vorige paragraaf hebben we axioma s gegeven voor de optelling en vermenigvuldiging in R, maar om R vast te leggen moeten we ook ongelijkheden in R beschouwen.

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve

Nadere informatie

Wiskunde B - Tentamen 2

Wiskunde B - Tentamen 2 Wiskunde B - Tentamen Tentamen van Wiskunde B voor CiT (57) Donderdag 4 april 005 van 900 tot 00 uur Dit tentamen bestaat uit 8 opgaven, 3 tabellen en formulebladen Vermeld ook je studentnummer op je werk

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 6 oktober 009 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D Hondt

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

Factor = het getal waarmee je de oude hoeveelheid moet vermenigvuldigen om een nieuwe hoeveelheid te krijgen.

Factor = het getal waarmee je de oude hoeveelheid moet vermenigvuldigen om een nieuwe hoeveelheid te krijgen. Samenvatting door een scholier 1569 woorden 23 juni 2017 5,8 6 keer beoordeeld Vak Methode Wiskunde Moderne wiskunde Wiskunde H1 t/m H5 Hoofdstuk 1 Factor = het getal waarmee je de oude hoeveelheid moet

Nadere informatie

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent.

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent. Hoofdstuk 12 : Regressie en correlatie Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Regressie en correlatie p 1/26 Regressielijn Vraag : vind het

Nadere informatie