3 Verdelingsonderzoek

Vergelijkbare documenten
Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Data analyse Inleiding statistiek

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur

Tentamen Voortgezette Kansrekening (WB006C)

Populaties beschrijven met kansmodellen

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Examen Statistiek I Feedback

Statistiek I Samenvatting. Prof. dr. Carette

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

ALGEMENE STATISTIEK VOOR BWI COMPUTEROPGAVEN 2009/2010. A.W. van der Vaart en F. Bijma

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

Meetkunde en Lineaire Algebra

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Inleiding Statistiek

Zo geldt voor o.o. continue s.v.-en en X en Y dat de kansdichtheid van X + Y gegeven wordt door

Oefenvragen bij Statistics for Business and Economics van Newbold

HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

en-splitsingen: een aantal alternatieven worden parallel toegepast, of-splitsingen: van een aantal alternatieven wordt er één toegepast,

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

Samenvatting Statistiek

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Opgaven hoofdstuk 12 Enkelvoudige lineaire regressie

Statistiek voor A.I.

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Data analyse Inleiding statistiek

Toetsen van hypothesen

Meten en experimenteren

8. Analyseren van samenhang tussen categorische variabelen

Meetkunde en Lineaire Algebra

Toegepaste Wiskunde 2: Het Kalman-filter

Voorbeeld 1. Statistiek voor Informatica Hoofdstuk 3: Stochastische Variabelen en Verdelingen. Voorbeeld 2A. Voorbeeld 1 (vervolg)

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

Toegepaste Statistiek, Week 6 1

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van uur.

Gezamenlijke kansverdeling van twee stochasten

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

Tentamen Kansrekening (NB004B)

Kansrekening en Statistiek

Voorbeeld 1: kansverdeling discrete stochast discrete kansverdeling

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

Hoofdstuk 6 Twee populaties: parametrische toetsen

Tentamen Statistische methoden MST-STM 8 april 2010, 9:00 12:00

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Tentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander

Kansrekening en Statistiek

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

Statistiek voor A.I. College 10. Donderdag 18 Oktober

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

SCHATTEN. A.W. van der Vaart en anderen

VOOR HET SECUNDAIR ONDERWIJS

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Hoofdstuk 3 Statistiek: het toetsen

Toegepaste Statistiek, Week 3 1

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie

Hoofdstuk 5 Een populatie: parametrische toetsen

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

Medische Statistiek Kansrekening

Tentamen Kansrekening en statistiek wi2105in 25 juni 2007, uur

Kansrekening en stochastische processen 2S610

V.2 Limieten van functies

Kansrekening en Statistiek

G0N11C Statistiek & data-analyse Project tweede zittijd

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

III.2 De ordening op R en ongelijkheden

Kansrekening en Statistiek

Wiskunde B - Tentamen 2

Meten en experimenteren

9. Lineaire Regressie en Correlatie

Factor = het getal waarmee je de oude hoeveelheid moet vermenigvuldigen om een nieuwe hoeveelheid te krijgen.

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent.

Transcriptie:

3 Verdelingsonderzoek 3.1 Introductie Een statistisch model is een uitdrukking van onze a priori kennis van het kansexperiment waaruit de waargenomen data is voortgekomen. Het model postuleert dat de waarneming X is gegenereerd volgens één van de kansmaten in het model. Hoe vinden we een goed model? In sommige gevallen is het model duidelijk uit de manier waarop het kansexperiment is opgezet. Als bij een opininiepeiling de steekproef inderdaad aselect en zonder teruglegging uit een goed omschreven populatie wordt genomen, dan is de hypergeometrische verdeling onvermijdelijk. Betreffen de waarnemingen aantallen uitgezonden radio-actieve deeltjes, dan is de Poisson-verdeling de juiste keus vanwege de natuurkundige theorie van radioactiviteit. Het is ook mogelijk dat het uitgevoerde experiment sterk lijkt op eerdere experimenten, en dat een bepaald model wordt gesuggereerd door de ervaring in het verleden. Lang niet altijd is een bepaald statistisch model echter geheel onomstreden. Het is dan op z n minst nodig om het gekozen model te valideren. Soms vinden controles plaats na het schatten van de parameters van het model. Een aantal eenvoudige controles kan ook vooraf worden uitgevoerd. In dit hoofdstuk bespreken we enkele grafische technieken om univariate en multivariate steekproeven te onderzoeken. Deze technieken worden, naast op de data zelf, ook veelvuldig toegepast op residuen na het fitten van, bijvoorbeeld, een regressiemodel.

3.2 Univariate Steekproeven 3.2: Univariate Steekproeven 23 Veronderstel dat de getallen x 1,..., x n de resultaten zijn van een herhaaldelijk uitgevoerd experiment. Uit de manier waarop de n experimenten zijn uitgevoerd (steeds vanuit dezelfde beginsituatie, zonder herinnering van de voorgaande experimenten) leiden we af dat het redelijk is de n getallen op te vatten als realisaties van onderling onafhankelijke, identiek verdeelde stochastische grootheden X 1,..., X n. Dit legt het statistische model al voor een belangrijk deel vast. De overgebleven vraag is: welke (marginale) verdeling gebruiken we? 3.2.1 Histogrammen Een kansverdeling beschrijft de verdeling van de totale kansmassa 1 over de verschillende mogelijke waarden x. We kunnen een kansverdeling vastleggen door zowel de bijbehorende verdelingsfunctie als de bijbehorende kansdichtheid. Een kansdichtheid is een ingewikkelder object dan de verdelingsfunctie, maar geeft een betere visuele indruk van de verdeling van kansen: de verdeling legt veel kansmassa in punten x waar de waarde van de kansdichtheid f(x) groot is, en weinig in x voor welke f(x) 0. Een eenvoudige techniek om een indruk te krijgen van een kansdichtheid waaruit data x 1,..., x n afkomstig zijn is het histogram. Voor een gegeven partitie a 0 < a 1 < < a m die het bereik van de data x 1,..., x n overdekt is dit de functie die op het interval (a j 1, a j ] een waarde aanneemt die gelijk is aan het aantal datapunten x i die in het interval valt, gedeeld door de lengte van het interval. Als de lengten van alle intervallen (a j 1, a j ] gelijk zijn, dan wordt het histogram ook wel gedefinieerd zonder door de intervallengten te delen. In dat geval zijn de hoogten van de staven van het histogram gelijk aan de totale aantallen waarnemingen in de verschillende intervallen. De keuze van de intervallen is een kwestie van smaak. Als de intervallen te smal gekozen worden, dan is het histogram over het algemeen te piekerig om kenmerken van de ware kansdicht op te merken. Als de intervallen te breed gekozen worden, gaat daarentegen elk detail verloren en is er nog maar weinig te zeggen over de ware kansdichtheid op basis van het histogram. Om een indruk te krijgen uit welke kansdichtheid data afkomstig zouden kunnen zijn, is het handig het histogram en mogelijke kansdichtheden in één plaatje weer te geven. Dit kan door het histogram te schalen met 1/n, waarbij n het totaal aantal datapunten is. De oppervlakte onder het histogram is dan gelijk aan 1, net zoals dat het geval is bij een kansdichtheid. In x (a j 1, a j ] is het geschaalde histogram gelijk aan h n (x) = #(1 i n: x i (a j 1, a j ] ) 1 n = 1 aj 1 <x n(a j a j 1 ) n(a j a j 1 ) i a j, waarbij de indicatorfunctie 1 aj 1 <x i a j gelijk is aan 1 als a j 1 < x i i=1

24 3: Verdelingsonderzoek a j en 0 als dit niet het geval is. Een alternatieve schrijfwijze voor deze indicatorfunctie is 1 (aj 1,a j](x i ). Een histogram geeft een goede indruk van de dichtheid waaruit de data x 1,..., x n afkomstig zijn, mits de partitie a 0 < a 1 < < a m geschikt gekozen is en het aantal datapunten n niet te klein is. Om dit in te zien beschouwen we x 1,..., x n als realisaties van de stochastische variabelen met een dichtheid f en berekenen we de verwachte waarde van het geschaalde histogram h n in termen van X 1,..., X n in een willekeurig punt x waar f(x) > 0. Veronderstel dat voor zekere 1 < j m geldt dat a j 1 < x a j dan is deze verwachte waarde gelijk aan 1 n 1 Eh n (x) = E 1 aj 1<X n(a j a j 1 ) i a j = E1 aj 1<X a i=1 j a 1 a j j 1 aj 1 a = P(a j 1 < X 1 a j ) = j 1 f(s) ds. a j a j 1 a j a j 1 Als f niet te veel varieert over het interval (a j 1, a j ], dan is de uitdrukking aan de rechterkant ongeveer gelijk aan de waarde van f in dit interval. De berekening leert dat de verwachte waarde van h n (x) bij benadering gelijk is aan f(x). Vanwege de Wet van de Grote Aantallen hebben we bovendien dat de waarde h n (x) in kans naar deze verwachte waarde convergeert. Een histogram geeft dus een indruk van de kansverdeling waaruit een steekproef is gegenereerd. Helaas wordt een goede indruk pas verkregen als een voldoend grote steekproef beschikbaar is (bijvoorbeeld n = 100 of nog liever n = 500). We mogen daarom niet meer dan een eerste indruk van een histogram verwachten. Andere, meer gecompliceerde technieken, kunnen betere resultaten geven. Voorbeeld 3.1. In Figuur 3.1 zijn histogrammen getekend van de lichaamslengte (in cm) van 100 mannen (links) en 110 vrouwen (rechts). De histogrammen zijn zo geschaald dat de oppervlaktes onder de histogrammen gelijk aan 1 zijn. In beide figuren is eveneens de dichtheid van een normale verdeling getekend. De verwachting en variantie van deze normale verdelingen zijn gelijk aan het steekproefgemiddelde en de steekproefvariantie van de bijbehorende data (zie Hoofdstuk 4). Voorbeeld 3.2 (Normale verdeling). Figuur 3.2 geeft de dichtheid van de standaard normale verdeling tezamen met vier realisaties van het histogram, gebaseerd op 30, 30, 100 en 100 waarnemingen, waarbij de partities gekozen werden door het statistische softwarepakket R. De figuren linksboven en rechtsonder vertonen duidelijke afwijkingen van symmetrie. Bron: De data zijn verzameld door de afdeling Biologische Psychologie van de Vrije Universiteit in het kader van een onderzoek naar gezondheid, levensstijl en persoonlijkheid.

3.2: Univariate Steekproeven 25 0.00 0.02 0.04 0.06 0.00 0.02 0.04 0.06 165 175 185 195 155 165 175 185 Figuur 3.1. Histogram van de lichaamslengte van 100 mannen (links) en 110 vrouwen (rechts), tezamen met de kansdichtheden van de normale verdeling met de verwachtingen gelijk aan de steekproefgemiddelden en de varianties gelijk aan de steekproefvarianties van de data. Omdat de data uit de normale verdeling werden gegenereerd is dit slechts te wijten aan toevalsvariatie. 3.2.2 Boxplots Een boxplot is een grafische weergave van de data die een indruk geeft van de locatie en de spreiding van de data, eventuele extreme waarden in de waarnemingen en de symmetrie van de verdeling waaruit de waarnemingen afkomstig zijn. In de boxplot staan de waarnemingen uitgezet langs de verticale as. De onderkant van de box staat getekend ter hoogte van het kleinste kwartiel, en de bovenkant ter hoogte van het grootste kwartiel van de data. Het kleinste (respectievelijk grootste) kwartiel van de data is die waarde x zodanig dat een kwart van de waargenomen data kleiner (respectievelijk groter) is dan x. De breedte van de box is willekeurig. In de box staat ter hoogte van de mediaan van de data een horizontale lijn. De mediaan is de middelste waarde in de rij gesorteerde waarnemingen. Aan de boven- en onderkant van de box staan zogeheten whiskers getekend. De whisker aan de bovenkant verbindt de box met de grootste waarneming die binnen 1.5 maal de interkwartiel afstand boven het grootste kwartiel ligt. De interkwartiel afstand is de afstand tussen het bovenste en het onderste kwartiel, ofwel de hoogte van de box. De whisker aan de onderkant wordt op analoge wijze getekend. Waarnemingen die buiten de whiskers vallen worden apart aangegeven, bijvoorbeeld met een sterretje, rondje of streepje.

26 3: Verdelingsonderzoek 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 Figuur 3.2. Histogrammen van steekproeven van 30, 30, 100 en 100 (boven, boven, onder, onder) waarnemingen uit de standaard normale dichtheid en de ware dichtheid. Voorbeeld 3.3. In Figuur 3.3 staan boxplots getekend van steekproeven uit de exponentiële verdeling met parameter 1, de standaard normale verdeling en de standaard Cauchy-verdeling. De steekproeven uit de exponentiële en de Cauchy-verdeling bevatten extreme waarden, te zien aan de rondjes buiten de whiskers. De boxplot in het midden geeft aan dat de data uit de standaard normale verdeling aardig symmetrisch rond de mediaan liggen en geen extreme waarden bevatten. 3.2.3 Locatie-schaal familie en QQ-plots Na het tekenen van het histogram en eventueel een boxplot kunnen we ons afvragen welke klasse verdelingen passend is als statistisch model. Bijvoorbeeld, is het een redelijke aanname dat de data uit een normale verdeling afkomstig zijn? De normale verdeling is niet een bepaalde verdeling, maar een familie verdelingen, genoteerd met N(µ, σ 2 ), waarbij µ en σ 2 de verwachting en variantie zijn. Als we eerst zouden kunnen besluiten dat een normale verdeling bij de data past, dan zouden we als tweede stap de best passende parameters µ en σ 2 kunnen vinden. Dit laatste is het schattingsprobleem dat in Hoofdstuk 4 aan de orde komt. De familie van normale kansverdelingen is een voorbeeld van een locatie-schaal familie. Als de stochastische grootheid X een verdelingsfunc-

3.2: Univariate Steekproeven 27 6 4 2 0 2 4 exp(1) N(0,1) Cauchy Figuur 3.3. Boxplots van steekproeven ter grootte 20 uit de standaard exponentiële verdeling (links), de standaard normale verdeling (midden) en de standaard Cauchy-verdeling (rechts). tie F heeft, dan bezit Y = a + bx de verdelingsfunctie F a,b gegeven door ( y a ) F a,b (y) = P(a + bx y) = F, b > 0. b De familie kansverdelingen {F a,b : a R, b > 0} heet de locatie-schaal familie behorend bij F (of van X ). Bezit F een kansdichtheid f, dan bezit F a,b de kansdichtheid f a,b gegeven door f a,b (y) = d ( y a ) dy F b = 1 ( y a ) b f. b Als EX = 0 en var X = 1, dan zijn a en b 2 precies de verwachting en variantie van Y en dus behorende bij de verdelingsfunctie F a,b. Bij iedere (standaard) verdeling (normaal, Cauchy, exponentieel, etc.) hoort een locatie-schaal familie. Overigens is het niet altijd zo dat de leden uit dezelfde locatie-schaal familie ook allemaal dezelfde naam dragen: de leden uit de locatie-schaal familie van de standaard Cauchy-verdeling zijn niet allemaal Cauchy-verdelingen. Omgekeerd zijn verdelingen met gelijke naam niet altijd leden uit dezelfde locatie-schaal familie: bijvoorbeeld χ 2 -verdelingen met verschillende aantallen vrijheidsgraden zitten niet in dezelfde locatie-schaal familie.

28 3: Verdelingsonderzoek Voorbeeld 3.4 (Normale verdeling). Stel dat X een N(0, 1)-verdeelde stochastische grootheid is. Uit de kansrekening is bekend dat Y = a + bx, met b > 0 een N(a, b 2 )-verdeling heeft. Dus, alle leden uit de locatie-schaal familie van de N(0, 1)-verdeling zijn normale verdelingen. Omgekeerd, als Y een N(a, b 2 )-verdeling heeft, dan is Y identiek verdeeld als a + bx met X standaard normaal verdeeld, en dus is de N(a, b 2 )-verdeling lid van de locatie-schaal familie van de standaard normale verdeling. Kortom, alle leden uit de locatie-schaal familie behorend bij de N(0, 1)-verdeling zijn weer normale verdelingen, en omgekeerd, alle normale verdelingen zitten in de locatie-schaal familie behorend bij de N(0, 1)-verdeling. QQ-plots zijn een grafisch hulpmiddel om een geschikte locatieschaal familie bij een gegeven steekproef x 1,..., x n te vinden. Ze zijn gebaseerd op kwantielfuncties. Als voor gegeven α (0, 1) precies één getal x α R bestaat met F (x α ) = α, dan heet x α het α-kwantiel van F (ook wel α-punt), genoteerd met F 1 (α). Zoals de notatie al suggereert, is de functie α F 1 (α) de kwantielfunctie, de inverse functie van F, mits deze goed gedefinieerd is. Als F strikt stijgend en continu is, dan geldt F (F 1 (α)) = α voor alle α (0, 1) en F 1 (F (x)) = x voor alle x R. Voorbeeld 3.5 (Exponentiële verdeling). Stel dat X een exponentiële verdeling met parameter λ heeft. De verdelingsfunctie F van X wordt dan gegeven door F (x) = 1 e λx voor x 0 en de kwantielfunctie F 1 door F 1 (α) = log(1 α)/λ voor α (0, 1). Omdat een verdelingsfunctie zowel sprongen als constante stukken kan hebben, heeft de vergelijking F (x) = α voor gegeven α in zijn algemeenheid geen, precies één of oneindig veel oplossingen (zie Figuur 3.4). Om ook in het eerste en laatste geval over een α-kwantiel te kunnen spreken, definiëren we de kwantielfunctie van F in het algemeen door F 1 (α) = inf{x: F (x) α}, α (0, 1). In woorden: F 1 (α) is het kleinste getal x met F (x) α. 0.0 0.2 0.4 0.6 0.8 1.0 a b F-1(b) F-1(a) Figuur 3.4. Een verdelingsfunctie en twee kwantielen.

3.2: Univariate Steekproeven 29 Er bestaat een lineair verband tussen kwantielfuncties van verdelingen binnen een gegeven locatie-schaal familie: F 1 a,b (α) = a + b F 1 (α) (zie Opgave 3.2). Met andere woorden: de punten {(F 1 (α), F 1 a,b (α)): α (0, 1)} liggen op de rechte lijn y = a + bx. Figuur 3.5 illustreert het feit dat twee normale verdelingen tot dezelfde locatie-schaal familie behoren. kwantielen N(2,16) 5 0 5 10 2 1 0 1 2 kwantielen N(0,1) Figuur 3.5. De kwantielen van de N(2, 4 2 ) (y-as) uitgezet tegen die van N(0, 1) (x-as). Voor een rij stochastische grootheden X 1,..., X n is X (1),..., X (n) de rij ordestatistieken (Engels: order statistics): de grootheden geplaatst in stijgende volgorde. In het bijzonder zijn: X (1) = min 1 i n X i en X (n) = max 1 i n X i. Voor de i e ordestatistiek X (i) van een gegeven steekproef X 1,..., X n uit een verdeling F, geldt dat EF (X (i) ) = i/(n + 1) (zie Opgave 3.8). Het is daarom te verwachten dat de punten {( i/(n + 1), F (x (i) ) ) : i = 1,..., n } in het x-y-vlak ongeveer op de lijn y = x zullen liggen. Hetzelfde moet dan gelden voor de punten {( F 1 ( i n + 1 ) ) }, x (i) : i = 1,..., n. Algemener geldt dat als x 1,..., x n uit een element F a,b van de locatieschaal familie van F zijn gegenereerd, dan verwachten we dat bovenstaande punten op de lijn y = a + bx zullen liggen, immers dan geldt dat x (i) F 1 a,b (i/(n+1)) = a+bf 1 (i/(n+1)). Een QQ-plot is een plaatje van deze n punten, en geeft een grafische methode om te controleren of een steekproef uit een bepaalde locatie-schaal familie afkomstig zou kunnen zijn. De Q staat voor Quantile ; de Nederlandse naam zou KK-plaatje zijn.

30 3: Verdelingsonderzoek Voorbeeld 3.6 (Normale verdeling). Figuur 3.6 geeft QQ-plots van zes steekproeven, die met behulp van een random number generator uit een N(2, 4 2 )-verdeling gesimuleerd zijn, uitgezet tegen de N(0, 1)-verdeling. Omdat twee normale verdelingen in dezelfde locatie-schaal familie zitten, kunnen we verwachten dat de punten op een min of meer rechte lijn zullen liggen. De bovenste en onderste drie figuren bevatten data van steekproeven ter grootte van respectievelijk 10 en 50 waarnemingen. Te zien is dat de punten in de QQ-plots niet precies op een rechte lijn liggen, maar enigzins variëren rond een rechte lijn. Bij de kleine steekproeven is deze variatie veel groter dan bij de grotere steekproeven. ordestatistieken 4 2 0 2 4 ordestatistieken 0 5 10 ordestatistieken 4 0 2 4 6 8 1.5 0.5 0.5 1.5 kwantielen N(0,1) 1.5 0.5 0.5 1.5 kwantielen N(0,1) 1.5 0.5 0.5 1.5 kwantielen N(0,1) ordestatistieken 5 0 5 10 ordestatistieken 4 0 4 8 ordestatistieken 5 0 5 10 2 1 0 1 2 kwantielen N(0,1) 2 1 0 1 2 kwantielen N(0,1) 2 1 0 1 2 kwantielen N(0,1) Figuur 3.6. Zes QQ-plots van 10 (bovenste rij figuren) of 50 (onderste rij figuren) datapunten uit N(2, 4 2 ) uitgezet tegen N(0, 1). Geeft een QQ-plot van een steekproef x 1,..., x n tegen de kwantielen van F ongeveer de rechte y = x te zien, dan is dat een aanwijzing dat de data uit de verdeling F afkomstig zijn. Afwijkingen van de rechte y = x geven een aanwijzing over de afwijking van de ware verdeling van de data ten opzichte van F. Het simpelste geval is dat de plot wel een rechte lijn te zien geeft, maar niet de lijn y = x. Dit geeft een aanwijzing dat de data uit een ander lid van de locatie-schaal familie van F afkomstig zijn, zoals in Voorbeeld 3.6. De waarden voor a en b kunnen in dat geval ruwweg afgelezen worden door de lijn y = a+bx aan de QQ-plot te passen. In Hoofdstuk 4 zullen we andere methoden zien om parameters te schatten. Ingewikkelder is de beoordeling van gebogen krommen. Deze geven vooral een aanwijzing over de relatieve

3.2: Univariate Steekproeven 31 zwaarte van de staarten van de verdeling van de data ten opzichte van F. Om een indruk van de mogelijke soorten afwijkingen van lineariteit te geven, zijn in Figuur 3.7 een aantal QQ-plots van ware kwantielfuncties getekend. Dit zijn plots van de punten {(F 1 (α), G 1 (α)): α (0, 1)} voor verschillende verdelingsfuncties F en G. -2-1 0 1 2 normaal -2-1 0 1 2 normaal homogeen 0.0 0.2 0.4 0.6 0.8 1.0 logistiek -4-2 0 2 4-2 -1 0 1 2 normaal lognormaal 0 2 4 6 8 10 12 chikwadraat_4 exponentieel 0 2 4 6 8 10 0 1 2 3 4 Figuur 3.7. Plots van paren kwantielfuncties: homogeen-normaal, logistiek-normaal, lognormaal-normaal, exponentieel-χ 2 4. Voorbeeld 3.7. Op basis van de vorm van de histogrammen in Figuur 3.1 is het aannemelijk dat de data van de lichaamslengte afkomstig zijn uit een normale verdeling. Om dit verder te onderzoeken zijn in Figuur 3.8 QQplots getekend van de lichaamslengten van de mannen (links) en de vrouwen (rechts) tegen de kwantielen van de standaard normale verdeling. Om te onderzoeken of de punten goed op een rechte lijn liggen, is in beide figuren een passende lijn y = a+bx getekend. Voor de data van de mannen is dat de lijn y = 184.9+6.6x en voor de vrouwen is dat y = 171.3+5.9x. Deze lijnen zijn gevonden door a en b 2 te schatten met de maximum likelihood-schatters voor de verwachting en variantie (zie Voorbeeld 3.4 en Hoofdstuk 4). Aangezien de data de lijnen vrij nauwkeurig volgen, kunnen we concluderen dat de lokatie-schaal familie van de standaard normale verdeling goed past bij deze twee datasets. Omdat deze familie alleen normale verdelingen bevat, wordt het vermoeden dat de twee datasets uit normale verdelingen afkomstig zijn, ondersteund.

32 3: Verdelingsonderzoek 170 175 180 185 190 195 200 160 165 170 175 180 185 2 1 0 1 2 2 1 0 1 2 Figuur 3.8. QQ-plots van de lichaamslengten van 100 mannen (links) en 110 vrouwen (rechts) tegen de kwantielen van de standaard normale verdeling. 3.3 Samenhang In veel gevallen zijn de waarnemingen x i geen getallen, maar vectoren x i = (x i,1,..., x i,d ). We zijn dan vaak geïnteresseerd in de relatie tussen de verschillende coördinaten. We zullen ons in deze paragraaf beperken tot vectoren met twee coördinaten en noteren deze met (x i, y i ) (in plaats van (x i,1, x i,2 )). Een scatterplot van een steekproef van tweedimensionale data (x 1, y 1 ),..., (x n, y n ) is een plot van deze punten in het platte vlak. Is er een duidelijk verband tussen de x- en y-coördinaten van de data, dan is dit op het oog onmiddellijk zichtbaar. De variabelen in het rechterplaatje van Figuur 3.9 vertonen bijvoorbeeld een duidelijk lineair verband, terwijl in het linkerplaatje geen samenhang is te ontdekken. Het lineaire verband in het rechterplaatje van Figuur 3.9 is onmiskenbaar, maar niet perfect. De punten liggen niet exact op een rechte lijn, maar variëren rond een (denkbeeldige) rechte. Een getalsmaat voor de kracht van het lineaire verband is de steekproefcorrelatiecoëfficiënt. Voor een rij waargenomen paren (x 1, y 1 ),..., (x n, y n ) is deze gedefinieerd door n i=1 r x,y = (x i x)(y i y) (n 1), s 2 x s 2 y met x en s 2 x de realisaties van het steekproefgemiddelde X en de steekproef-

3.3: Samenhang 33-1 0 1-1.5-1.0-0.5 0.0 0.5 1.0-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 Figuur 3.9. Scatterplots van twee steekproeven van 50 punten. Links met onafhankelijke coördinaten (r x,y = 0.05), rechts met coördinaten die een lineair verband vertonen (r x,y = 0.87). variantie SX 2 voor X 1,..., X n, X = 1 n X i, SX 2 = 1 n (X i X) 2. n n 1 i=1 Analoge definities gelden voor Y en SY 2. De waarde van de steekproefcorrelatiecoëfficiënt ligt tussen 1 en 1, en kan als volgt worden geïnterpreteerd: (i) Als r x,y = 1, dan liggen de n punten precies op de lijn y = y + (s y /s x ) (x x) (perfect positief verband). (ii) Als r x,y = 1, dan liggen de n punten precies op de lijn y = y (s y /s x ) (x x) (perfect negatief verband). (iii) Zijn X 1,..., X n en Y 1,..., Y n onafhankelijke steekproeven, dan zal de gerealiseerde r x,y waarden dicht bij 0 aannemen. De eerste twee beweringen en dat r x,y 1 zijn een gevolg van de ongelijkheid van Cauchy-Schwarz uit de lineaire algebra. De derde bewering is een gevolg van het feit dat onafhankelijke stochastische grootheden ongecorreleerd zijn, gecombineerd met het intuïtief aannemelijke feit dat de steekproefcorrelatiecoëfficiënt de populatiecorrelatiecoëfficiënt i=1 ρ = cov(x, Y ) E(X EX)(Y EY ) = var X var Y E(X EX) 2 E(Y EY ) 2 zal benaderen voor n groot. Omdat cov(x, Y ) = E(X EX)(Y EY ) = E(XY ) EXEY is ρ gelijk aan 0 voor onafhankelijk stochastische grootheden X en Y : onafhankelijke stochastische grootheden zijn ongecorreleerd. Het inwendig product van vectoren a en b in R n voldoet aan a, b a b voor de Euclidische norm.

34 3: Verdelingsonderzoek Een verdere interpretatie van de steekproefcorrelatiecoëfficiënt wordt gegeven bij de behandeling van het lineaire regressiemodel in Hoofdstuk 8. We mogen bewering (iii) niet omdraaien in de zin dat een correlatie dicht bij 0 zou impliceren dat de twee coördinaten onafhankelijk zijn. Dit wordt geïllustreerd in Figuur 3.10. In het linkerplaatje is een duidelijk lineair verband waarneembaar, corresponderend met een correlatiecoëfficiënt van 0.98. Het rechterplaatje is een scatterplot van de punten (x i, y 2 i ) voor de punten (x i, y i ) uit het linkerplaatje. Het kwadratische verband is duidelijk zichtbaar. De sterkte van het verband tussen de twee coördinaten in het rechterplaatje doet niet onder voor de sterkte in het linkerplaatje. De steekproefcorrelatiecoëfficiënt voor de punten in het rechterplaatje is echter gelijk aan 0.05. Blijkbaar is deze getalsmaat blind voor het aanwezige kwadratische verband. -2-1 0 1 2 3 0 2 4 6 8-2 -1 0 1 2 3-2 -1 0 1 2 3 Figuur 3.10. Scatterplots van twee steekproeven van 50 punten, met steekproefcorrelatiecoëfficiënten, respectievelijk, 0.98 en -0.05. Het rechterplaatje geeft de punten (x i, y 2 i ) voor de punten (x i, y i) uit het linkerplaatje. Voorbeeld 3.8 (Tweelingdata). Lichaamslengte wordt in grote mate erfelijk bepaald. Dit hebben we al gezien in Voorbeeld 2.7 waar de relatie tussen de lichaamslengte van de ouders en hun kinderen werd gemodelleerd. Ook bij tweelingonderzoek wordt dit duidelijk. Omdat eeneiige tweelingen genetisch gezien geheel identiek zijn en twee-eiige tweelingen gemiddeld genomen 50% van hun erfelijk materiaal delen, zal de correlatie tussen de lichaamslengtes van eeneiige tweelingen groter zijn dan tussen die van twee-eiige tweelingen (van hetzelfde geslacht). In Figuur 3.11 zijn de lichaamslengtes van eeneiige tweelingen (mannen links, vrouwen rechts) tegen elkaar uitgezet. In beide scatterplots is een sterke correlatie waar te nemen. De steekproefcorrelatie van de 92 mannelijke eeneiige tweelingen is gelijk aan 0.87. Voor de 140 vrouwelijke eeneiige tweelingen is deze maar liefst 0.96. Voor twee-eiige tweelingen van gelijk geslacht kunnen we

3.3: Samenhang 35 hetzelfde doen, zie de scatterplots in Figuur 3.12 (mannen links, vrouwen rechts). Uit deze figuur blijkt duidelijk dat de correlatie kleiner is bij tweeeiige tweelingen. De steekproefcorrelatie tussen de lichaamslengte van 58 mannelijke twee-eiige tweelingen is gelijk aan 0.55 en voor de 112 vrouwelijke twee-eiige tweelingen is deze gelijk aan 0.50. In de toepassing na de opgaven in Hoofdstuk 4 komen we uitgebreid terug op erfelijkheidsonderzoek op basis van tweelingengegevens. 165 170 175 180 185 190 195 170 180 190 155 160 165 170 175 180 155 160 165 170 175 180 Figuur 3.11. Scatterplots van de lichaamslengte van 92 mannelijke (links) en 140 vrouwelijke (rechts) eeneiige tweelingen. 3.3.1 Auto-correlaties Scatterplots kunnen ook gebruikt worden om de vaak gemaakte aanname dat een steekproef x 1,..., x n realisaties van onafhankelijke grootheden zijn te controleren. We kunnen bijvoorbeeld de punten (x 2i 1, x 2i ) voor i = 1,..., n/2 of de punten (x i, x i+1 ) voor i = 1,..., n 1 plotten. Als de aanname juist is, dan zouden we in deze scatterplots niet veel structuur moeten kunnen ontdekken. De steekproef auto-correlatiecoëfficiënt van orde h N van een waargenomen steekproef x 1,..., x n definiëren we door r x (h) = n h i=1 (x i+h x)(x i x) (n h)s 2. x Bron: De data die gebruikt zijn in dit voorbeeld zijn verzameld door de afdeling Biologische Psychologie van de Vrije Universiteit in het kader van een onderzoek naar gezondheid, levensstijl en persoonlijkheid.

36 3: Verdelingsonderzoek 170 175 180 185 190 195 170 175 180 185 190 195 155 165 175 185 160 165 170 175 180 185 Figuur 3.12. Scatterplots van de lichaamslengte van 58 mannelijke (links) en 112 vrouwelijke (rechts) twee-eiige tweelingen. Dan is de steekproefcorrelatiecoëfficiënt die met de punten (x i, x i+1 ) voor i = 1,..., n 1 correspondeert, (in essentie) de steekproef autocorrelatiecoëfficiënt van orde 1. Deze coëfficiënten zijn vooral interessant als de index i van de data x i correspondeert met een tijdsparameter en, de indruk bestaat dat, een tijdseffect in de data aanwezig zou kunnen zijn. We meten dan het verband tussen de variabelen X i en X i h van h tijdstippen eerder. Voorbeeld 3.9 (Beurskoersen). In het bovenste plaatje van Figuur 5.12 staat de waarde van het aandeel Hewlett Packard op de beurs van New York uitgezet tegen de tijd, in de periode 1984 1991. Uitgezet zijn de beurswaarden a i van het aandeel op de sluitingstijd van opeenvolgende beursdagen (i = 1, 2,..., 2000); in de grafiek zijn deze waarden lineair geïnterpoleerd. Omdat beurswaarden meestal een exponentieel stijgende (of dalende) rij vormen, is het gebruikelijk om in plaats van de beurswaarden zelf de log returns te analyseren, gedefiniëerd door x i = log a i. a i 1 Deze waarden staan uitgezet in het onderste plaatje van Figuur 5.12. Omdat de index i van x i correspondeert met de i e beursdag, zou het niet verbazend zijn als x 1,..., x 2000 niet goed gemodelleerd kunnen worden als realisaties van onafhankelijke variabelen X 1,..., X 2000. Een grote verandering op dag i zou immers invloed kunnen hebben op de verandering op dag i + 1. Toch was de omgekeerde hypothese van onafhankelijkheid, de random walk hypothese, lange tijd aanvaard in de econometrie.

3: Opgaven 37 Een eerste aanzet om deze hypothese te controleren is het berekenen van de steekproef auto-correlaties van de rij x 1,..., x 2000. Deze worden grafisch weergegeven in het linkerplaatje van Figuur 3.13, waarin op de horizontale as de waarden h = 0, 1, 2,..., 30 zijn uitgezet, en de hoogten van de lijnstukken de bijbehorende steekproef auto-correlatiecoëfficiënten van orde h geven (de steekproef auto-correlatie van de orde 0 is natuurlijk gelijk aan 1). Bijna alle steekproef auto-correlatiecoëfficiënten zijn klein, wat de conclusie rechtvaardigt, dat de log returns weinig lineair verband vertonen. Het rechterplaatje geeft de steekproef auto-correlatiecoëfficiënten van de kwadraten x 2 1,..., x 2 2000 van de log returns. Hoewel ook deze coëfficiënten laag zijn, is de conclusie dat de kwadratische log returns weinig verband hebben aanvechtbaar: te veel coëfficiënten verschillen te veel van 0. Als de kwadraten niet onafhankelijk zijn, dan zijn de log returns zelf natuurlijk ook niet onafhankelijk. Het is daarom geen goede aanname om x 1,..., x 2000 als realisaties van onafhankelijke variabelen te modelleren: met een tijdseffect moet rekening worden gehouden. Beurskoersen vormen geen random walk. In het voorgaande vonden we de coëfficiënten in het linkerplaatje van Figuur 3.13 klein, terwijl we ze in het rechterplaatje van nul vonden verschillen. Deze meningen zijn objectief te onderbouwen met behulp van statistische toetsen, zoals die behandeld worden in Hoofdstuk 5. De horizontale stippellijnen in de twee figuren geven kritieke waarden voor de steekproef auto-correlaties als toetsingsgrootheden voor de nulhypothese dat x 1,..., x 2000 kunnen worden opgevat als een steekproef van onafhankelijke variabelen (bij een onbetrouwbaarheid van 5 %). Coëfficiënten die niet tussen de twee stippellijnen vallen geven aanleiding deze nulhypothese te verwerpen. Hierbij moeten we rekening houden met het feit dat, wanneer we uitgaan van de nulhypothese, op grond van toevallige variaties er ongeveer 1 op de 20 coëfficiënten buiten de banden zal vallen vanwege de onbetrouwbaarheid van 5 % (zie Hoofdstuk 5). In het rechterplaatje vallen te veel waarden buiten de banden. Opgaven 1. Veronderstel dat h n het geschaalde histogram van een steekproef X 1,..., X n uit een dichtheid f is. De partitie van het histogram wordt gegeven door a 0 < a 1 <... < a m. Bewijs dat voor a j 1 < x a j geldt dat h n (x) (a j a j 1 ) 1 a j a j 1 f(s) ds met kans 1, als n. 2. Veronderstel dat de stochastische grootheid X verdelingsfunctie F en kwantielfunctie Q bezit. Definieer x α als het α-kwantiel van F en y α als het α-kwantiel van de verdeling van Y = a + bx.

38 3: Verdelingsonderzoek Series : hp Series : hp^2 ACF 0.0 0.2 0.4 0.6 0.8 1.0 ACF 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.02 0.04 0.06 0.08 0.10 0.12 Lag 0.0 0.02 0.04 0.06 0.08 0.10 0.12 Lag Figuur 3.13. Steekproef auto-correlatiefunctie van de log returns van HP-aandelen in de periode 1984 1991 (links) en van de kwadraten van de log returns (rechts). De hoogte van de stippellijnen is ±1.96/ 2000 (zie Voorbeeld 5.36). (i) Stel F is strikt stijgend en continu, zodat de inverse van F bestaat en gelijk is aan Q. Toon aan dat tussen x α = F 1 (α) en y α = F 1 a,b (α) een lineair verband bestaat, door gebruik te maken van de inverteerbaarheid van F. (ii) Toon aan dat hetzelfde lineaire verband bestaat tussen x α en y α voor een algemene verdelingsfunctie F. Gebruik hiervoor de algemene definitie van het α-kwantiel. 3. De standaard exponentiële verdeling bezit verdelingsfunctie x 1 e x op [0, ). (i) Behoort de exponentiële verdeling met parameter λ tot de locatie-schaal familie van de standaard exponentiële verdeling? (ii) Druk de parameters a en b in de locatie-schaal familie F a,b van de standaard exponentiële verdeling uit in de verwachting en variantie van een stochastische variabele met verdeling F a,b. 4. Zij X een stochastische grootheid, homogeen verdeeld op [ 3, 2]. (i) Bepaal de verdelingsfunctie F van X. (ii) Bepaal de kwantielfunctie F 1 van X. 5. Zij X een stochastische grootheid met kansdichtheid f(x) = 2 θ 2 x1 [0,θ](x) waar θ > 0 een constante is. (i) Bepaal de verdelingsfunctie F van X. (ii) Bepaal de kwantielfunctie F 1 van X. 6. Welke lijn is uitgezet in Figuur 3.5? 7. Zij X 1,..., X n een steekproef uit een continue verdeling met verdelingsfunctie F en dichtheid f. Laat zien dat de kansdichtheid van de k e ordestatistiek X (k)

3: Opgaven 39 gelijk is aan f (k) (x) = n! (k 1)!(n k)! F (x)k 1 (1 F (x)) n k f(x) door eerst de verdelingsfuctie van X (k) te bepalen. (Hint: X (k) x dan en slechts dan als ten minste k waarnemingen X i kleiner zijn dan of gelijk zijn aan x. Het aantal X i dat kleiner is dan of gelijk is aan x is binomiaal verdeeld met parameters n en P(X i x).) 8. Zij X 1,..., X n een steekproef uit een continue verdeling met verdelingsfunctie F. We willen in deze opgave aantonen dat EF (X (k) ) = k/(n + 1). Definieer U i = F (X i) voor i = 1,..., n. (i) Toon aan dat de stochastische grootheden U 1,..., U n een steekproef vormen uit de homogene verdeling op [0, 1]. (ii) Toon aan dat de verdelingsfunctie F (k) van U (k) wordt gegeven door n ( ) n F (k) (x) = x j (1 x) n j. j (iii) Toon aan dat de dichtheid f (k) van U (k) wordt gegeven door f (k) (x) = j=k (iv) Toon aan dat EU (k) = k/(n + 1). n! (k 1)!(n k)! xk 1 (1 x) n k. 9. Maak een grafiek van de kwantielen van de N(2, 2 2 )-verdeling tegen de kwantielen van de N(0, 3 2 )-verdeling. Welke lijn is dit? 10. Zij X een standaard normaal verdeelde stochastische grootheid. Bereken de correlatiecoëfficiënt tussen de stochastische grootheden X en Y = X 2. 11. Leg uit dat het aannemelijk is dat de steekproefcorrelatie r X,Y bij benadering gelijk is aan de correlatiecoëfficiënt, ρ, voor grote waarden van n. 12. Veronderstel dat X en Y onderling onafhankelijk zijn en beide standaard normaal verdeeld. Bereken de correlatiecoëfficiënt tussen X en Z waar Z = X +Y.

DE WET VAN BENFORD In 1938 publiceerde de fysicus Benford een wetenschappelijk artikel waarin hij claimt dat in een dataset de frequentie van het begincijfer van de getallen hoger is naarmate het begincijfer lager is; ofwel dat in een dataset meer getallen met een 1 beginnen dan met een 2, dat meer getallen met een 2 beginnen dan met een 3, enzovoort. Dit patroon komt niet overeen met het algemene gevoel dat alle begincijfers, 1 tot en met 9, ongeveer evenveel voorkomen. Benford stelt zelfs in zijn artikel dat de kans dat een willekeurig getal uit een dataset met het cijfer d begint, gelijk is aan log 10 (1+1/d) voor d {1,..., 9} (waarbij log 10 de logaritme met grondtal 10 betekent). De kans dat het willekeurige getal met een 1 begint is volgens Benford dus ongeveer gelijk aan 0.30 en voor begincijfer 9 is deze kans gedaald tot onder de 0.05. In Figuur 3.14 staan de kansen uitgezet. Bovenstaande bewering is later de Wet van Benford gaan heten. 0.0 0.1 0.2 0.3 0.4 0.5 0 2 4 6 8 10 Figuur 3.14. De kansen op de verschillende begincijfers volgens de Wet van Benford. Benford was niet de eerste die bovenstaande wetmatigheid ontdekte. Ruim vijftig jaar eerder, in 1881, publiceerde de Amerikaanse astronoom Newcomb een wetenschappelijk artikel met dezelfde bevindingen. Newcomb merkte dat de eerste bladzijden van de boeken met logaritmetabellen vuiler en meer versleten waren dan de verdere pagina s. Aangezien in het begin van de boeken de getallen met lage begincijfers stonden, en aan het einde die met hoge begincijfers, concludeerde Newcomb dat logaritmen van getallen met lage begincijfers vaker opgezocht werden dan getallen met hoge begincijfers. We nemen de proef op de som en stellen een dataset samen met inwoneraantallen van alle landen in de wereld. In Figuur 3.15 staat een tot 1 geschaalde histogram van de begincijfers van de inwoneraantallen tezamen met de Benford frequenties. De frequenties van begincijfers lijken aardig aan de Wet van Beford te voldoen.

3: De Wet van Benford 41 0.00 0.05 0.10 0.15 0.20 0.25 0.30 2 4 6 8 10 Figuur 3.15. Histogram van de waargenomen frequenties van de begincijfers 1 tot en met 9 in de dataset met de populatiegroottes van alle landen in de wereld. De stapfunctie in de figuur geeft de verwachte frequenties op basis van de Wet van Benford weer. Veel datasets zijn onderzocht op de geldigheid van de Wet van Benford; van in het laboratorium gemeten fysische grootheden tot geografische informatie (als lengte van rivieren en inwoneraantallen van hoofdsteden), en van bedrijfsboekhouding tot omrekenfactoren van munteenheden. In bijna alle gevallen wordt aan de wet voldaan. Natuurlijk voldoet niet iedere dataset. Getallen die op basis van pure toeval gevonden worden (bijvoorbeeld dobbelsteenworpen), of getallen die aan beperkingen zijn onderworpen, als de leeftijden van de Nederlanders en de telefoonnummers in het telefoonboek, voldoen niet. De getallen die voorkomen in financiële overzichten, bijvoorbeeld de boekhouding van bedrijven, voldoen veelal bij benadering aan de Wet van Benford. Benfords Wet kan daardoor worden gebruikt bij het controleren van de boekhoudingen en bij het opsporen van fraude en onjuistheden. Een werknemer die fraude pleegt en dit probeert te maskeren, zal veelal verzonnen of gemanipuleerde geldbedragen zo kiezen dat de begincijfers van de bedragen in gelijke mate voorkomen. Als de werknemer relatief vaak geldbedragen manipuleert of verzint, zullen zijn handelingen de verdeling van begincijfers veranderen en zal deze afwijken van de verdeling die de Wet van Benford voorspelt. Als bijvoorbeeld 9% van de geldbedragen in de boekhouding met een 9 begint, zal de boekhouding vrijwel zeker nader onderzocht worden, omdat, volgens Benford, slechts 4.6% van de geldbedragen met een 9 zou moeten beginnen. Echter, een afwijking van de Wet van Benford hoeft niet te betekenen dat er gefraudeerd is. In sommige gevallen heeft men een voorkeur voor getallen die met een 9 beginnen; zo verkoopt een

42 3: Verdelingsonderzoek product beter als het 99 en niet 100 euro kost. Alleen structurele fraude kan met de Wet van Benford opgespoord worden. Indien éénmaal een groot bedrag naar een privérekening wordt overgemaakt, dan zal dat niet worden opgemerkt als men slechts kijkt naar afwijkingen van de Wet van Benford. In Figuur 3.16 is een tot 1 geschaalde histogram getekend van de begincijfers van bijna 1,5 miljoen bedragen in een kasboek van een groot bedrijf, tezamen met de frequenties die je zou verwachten op basis van de Wet van Benford. De bedragen in de boekhouding lijken de Wet van Benford aardig te volgen. 0.00 0.05 0.10 0.15 0.20 0.25 0.30 2 4 6 8 10 Figuur 3.16. Histogram van de waargenomen frequentie van de begincijfers 1 tot en met 9 van de bedragen in de boekhouding. De trapfunctie in de histogram geeft de frequenties op basis van de Wet van Benford weer. Ondanks dat er al veel onderzoek gedaan is naar de Wet van Benford, is het nog steeds niet volledig duidelijk waarom de ene dataset wel en de andere niet aan de Wet van Benford voldoet. We bestuderen de Wet van Benford nader. Aangezien we slechts geïnteresseerd zijn in het begincijfer van een getal, schrijven we een getal z in de vorm z = x 10 n met 1 x < 10 en n Z. Deze notatie is mogelijk voor alle positieve getallen. In het vervolg noemen we x de genormeerde waarneming behorende bij z = x 10 n. Het begincijfer van z is gelijk aan het begincijfer van x. Definieer D als de stochast die het begincijfer van een willekeurig (stochastisch) getal Z = X 10 n uit de dataset aangeeft. Veronderstel dat X verdeeld is als 10 Y met

3: De Wet van Benford 43 Y homogeen verdeeld op het interval [0, 1], dan geldt P(D = k) = P(k X < k + 1) = P(log 10 k Y < log 10 (k + 1)) = log 10 (k + 1) log 10 k = log 10 (1 + 1/k). Dit is precies de kans op het begincijfer k volgens de Wet van Benford. Ook datasets waarvan log 10 van de begincijfers niet gezien kunnen worden als realisaties uit de standaard homogene verdeling, kunnen wel de Wet van Benford volgen. In Figuur 3.17 is een QQ-plot getekend van de orde-statistieken van log 10 van de genormeerde populatiegroottes tegen de kwantielen van de homogene [0, 1] verdeling. Voor deze dataset is ogenschijnlijk wel aan bovenstaande aanname voldaan. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Figuur 3.17. QQ-plot van log 10 van de genormeerde populatiegroottes tegen de kwantielen van de homogene [0, 1] verdeling. De lijn in de figuur is de lijn y = x.