Statistische Methoden voor Bedrijfsbeheer

Vergelijkbare documenten
VOOR HET SECUNDAIR ONDERWIJS

Statistiek I Samenvatting. Prof. dr. Carette

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

Examen Statistiek I Feedback

Checklist Wiskunde A HAVO HML

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

Feedback proefexamen Statistiek I

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Populaties beschrijven met kansmodellen

Data analyse Inleiding statistiek

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Samenvattingen 5HAVO Wiskunde A.

Inleiding Applicatie Software - Statgraphics

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

Hoofdstuk 4 Kansen. 4.1 Randomheid

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

1BA PSYCH Statistiek 1 Oefeningenreeks 3 1

Financiële economie. Opbrengsvoet en risico van een aandeel

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

A. Week 1: Introductie in de statistiek.

Beschrijvende statistiek

Oefeningen statistiek

Financiële economie. Luc Hens 7 maart Opbrengsvoet en risico van een aandeel

1. De wereld van de kansmodellen.

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

11.1 Kansberekeningen [1]

Statistiek: Herhaling en aanvulling

Werkblad 1 Normale dichtheidsfunctie als benadering voor een klokvormig histogram

4.1 Negatieve getallen vermenigvuldigen [1]

Statistiek, gegevens en een kritische houding

Inleiding statistiek

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

Y = ax + b, hiervan is a de richtingscoëfficiënt (1 naar rechts en a omhoog), en b is het snijpunt met de y-as (0,b)

5,1. Samenvatting door een scholier 1647 woorden 18 oktober keer beoordeeld. Wiskunde A

Kerstvakantiecursus. wiskunde A. Rekenregels voor vereenvoudigen. Voorbereidende opgaven HAVO kan niet korter

Niveauproef wiskunde voor AAV

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

8. Analyseren van samenhang tussen categorische variabelen

Onderzoeksmethodiek LE: 2

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

9. Lineaire Regressie en Correlatie

Rekenen met de normale verdeling (met behulp van grafisch rekentoestel)

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Bij het oplossen van een telprobleem zijn de volgende 2 dingen belangrijk: Is de volgorde van de gekozen dingen van belang?

6.0 Voorkennis AD BC. Kruislings vermenigvuldigen: Voorbeeld: 50 10x ( x 1) Willem-Jan van der Zanden

Examen HAVO. Wiskunde A1,2

Statistiek: Centrummaten 12/6/2013. dr. Brenda Casteleyn

Samenvatting Statistiek

2 Data en datasets verwerken

Uitwerkingen oefeningen hoofdstuk 2

9.0 Voorkennis. Bij samengestelde kansexperimenten maak je gebruik van de productregel.

Samenvatting Wiskunde Aantal onderwerpen

Werkbladen 3 Terugzoeken

Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8

2. In de klassen 2A en 2B is een proefwerk gemaakt. Je ziet de resultaten in de frequentietabel. 2A 2B

Significante cijfers en meetonzekerheid

1.1 Rekenen met letters [1]

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor

Hoofdstuk 1: Basisvaardigheden

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO

GEOGEBRAINSTITUUT. VlAANDEREN

Onderzoek. B-cluster BBB-OND2B.2

Tentamen Wiskunde A CENTRALE COMMISSIE VOORTENTAMEN WISKUNDE. Datum: 19 december Aantal opgaven: 6

Statistiek. Beschrijvend statistiek

Overzicht statistiek 5N4p

3 In een klas hebben de meisjes en de jongens gemeten hoe lang ze zijn. De resultaten staan in de tabel hieronder.

Excel. Inleiding. Het meest gebruikte spreadsheet programma is Excel.

Grafieken veranderen met Excel 2007

Examen G0N34 Statistiek

SOCIALE STATISTIEK (deel 2)

2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht?

1.Tijdsduur. maanden:

HOVO statistiek November

werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions

Meten en experimenteren

Korte uitleg van twee veelvoorkomende statistische toetsen Veel wetenschappelijke hypothesen kunnen statistisch worden getoetst. Aan de hand van een

VAARDIGHEDEN EXCEL. MEETWAARDEN INVULLEN In de figuur hieronder zie je twee keer de ingevoerde meetwaarden, eerst ruw en daarna netjes opgemaakt.

College 4 Inspecteren van Data: Verdelingen

Wortels met getallen en letters. 2 Voorbeeldenen met de (vierkants)wortel (Tweedemachts wortel)

Geld en prijzen op de lange termijn

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

Uitwerkingen Mei Eindexamen VWO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Meten en experimenteren

De normale verdeling

Hoofdstuk 5 Een populatie: parametrische toetsen

Wiskunde De Normale en Binomiale Verdeling. Geschreven door P.F.Lammertsma voor mijn lieve Avigail

Notatieafspraken bovenbouw, wiskunde A

Kansrekening en Statistiek

Normale Verdeling Inleiding

Uitwerkingen Mei Eindexamen VWO Wiskunde C. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

VB: De hoeveelheid neemt nu met 12% af. Hoeveel was de oorspronkelijke hoeveelheid? = 1655 oud = 1655 nieuw = 0,88 x 1655 = 1456

Hoofdstuk 20: Wiskundige functies

Transcriptie:

Statistische Methoden voor Bedrijfsbeheer Luc Hens 23 mei 2013 (kleine aanvullingen op p. 59 en 70)

ii

Woord vooraf Het doelpubliek van deze cursus bestaat uit studenten in de bedrijfskunde zonder voorgaande statistische vorming. Er is geen wiskundige voorkennis vereist. De bedoeling van de cursus is om een inzicht te geven in hoe je statistiek kan gebruiken om beslissingsproblemen in een organisatie (zoals een onderneming of een niet-gouvernemenele organisatie) te helpen oplossen. De cursus stelt je ook in staat om empirische wetenschappelijke artikels uit vaktijdschriften in de bedrijfskunde te begrijpen, en reikt je de instrumenten aan om zelf bijvoorbeeld in je masterproef statistische onderzoeksmethoden toe te passen. De cursus toont ook hoe je statistische berekeningen kan doen met een computer, tablet, of smartphone, gebruik makend van Wolfram Alpha (wolframalpha.com), een computational knowledge engine die gebruik maakt van het programma Mathematica. De gratis versie van Wolfram Alpha werkt enkel met kleine datasets, maar volstaat voor het meeste van wat we in deze cursus zullen doen. Voeg wolframalpha.com toe aan de favorieten van je web-bladerprogramma. Je vindt een overzicht van de commando s in Wolfram Alpha (en enkele R scripts en koppelingen) op mijn webstek: http://homepages.vub.ac.be/~lmahens/sta101b.html Deze notities zijn deels gebaseerd op het uitmuntende handboek van Freedman et al. (2007). Een ander goed en toegankelijk handboek (verkrijgbaar in het Nederlands) is Moore and McCabe (2006). Voor de correcte vertaling van termen naar het Nederlands gebruikte ik McClave et al. (2003). Kazmier (1995) is een goedkoop en nuttig boek met samenvattingen en opgeloste oefeningen. Ik zal dit document bijwerken als we vorderen in de leerstof. Deze notities (als ze op het einde van het semester volledig zijn), de notities die je maakt tijdens de les, en de praktijkoefeningen zullen volstaan om je voor te bereiden voor het examen. Breng het volgende naar de hoor- en werkcolleges mee: een geplastificeerd examplaar van de tabel van de cumulatieve normale verdeling, een vulpotlood, een gom, een lineaal met centimeterschaal, en A4-ruitjespapier. Op het examen moet je het volgende meebrengen: een geplastificeerd exemplaar van het formuleblad en van de tabel van de cumulatieve normale verdeling (beide zitten achteraan deze notities; als je recto-verso afdrukt geeft dat twee geplasticieerde bladen), een vulpotlood, een gom, een meetlat van 15 of 20 cm met centimeterschaal, een blauwe en een groene pen, Tipp-Ex (facultatief), en je studentenkaart (met foto en geplastificeerd). Geen pennenzak, geen papier, geen rekenmachine (wij zorgen voor een rekenmachine en voor papier), geen papieren zakdoekjes, geen telefoon. Stop alles in een doorschijnend hersluitbaar (Zip-Loc) plastic zakje van 2 of 3 liter. Je mag een flesje water van 50 cl meenemen als je het etiket verwijdert. iii

iv WOORD VOORAF Onthou de volgende rekenregels: om een getal (vaak een breuk of een decimale fractie) om te zetten naar een percentage vermenigvuldig je met 100% (niet met 100); neem in je berekeningen steeds de eenheden (cm, kg,,... ) mee.

Hoofdstuk 1 Meetschalen De Nationale Bank van België houdt maandelijks een enquête bij consumenten om te peilen naar hun appreciate van de economische toestand en hun vertrouwen. Lees http://www.nbb.be/pub/stats/surveys/opinions.htm?l=nl voor meer achtergrondinformatie. De vragenlijst voor de consumentenenquête vind je hier: http://www.nbb.be/doc/dq/n_pdf_dq/consumer_n.pdf. Overloop even de vragen. De bedoeling van de consumentenenquête is om een en ander te weten te komen over de verwachtingen die de consumenten hebben over macro-economische variabelen zoals inflatie en werkloosheid, en over hun eigen bestedingspatroon en financiële situatie. De populatie (de verzameling van eenheden waarover je iets wil te weten komen) bestaat in dit geval uit alle consumenten van België. Omdat je die natuurlijk niet allemaal elke maand kan bevragen, gebruiken de onderzoekers een steekproef (een deelverzameling van de populatie) om een idee te krijgen van wat álle consumenten denken. In dit geval is de grootte van de steekproef ongeveer 1600 mensen. Statistische inferentie is een methodologie om aan de hand van informatie uit de steekproef veralgemenende conclusies te trekken die bij benadering geldig zijn voor de hele populatie. Dat kan bijvoorbeeld gaan over een schatting van het percentage van alle consumenten die verwachten dat de werkloosheid in de volgende 12 maanden gaat dalen, of van de gemiddelde inflatie die ze voor de volgende 12 maanden verwachten. Beschrijvende statistiek houdt zich bezig met het samenvatten van informatie over de meetwaarden van variabelen uit een steekproef of een populatie in grafieken of kerncijfers. De eerste vraag in de consumentenenquête luidt: Wat is uw geslacht? (man/vrouw) Het geslacht is een variabele: een kenmerk of eigenschap van een eenheid (in dit geval een consument) uit de groep die je wil bestuderen (de populatie). De variabele geslacht kan in dit geval twee meetwaarden aannemen: man of vrouw. Deze meetwaarden kan je niet meten op een natuurlijk voorkomende numerieke schaal; het gaat om een classificatie in een categorie. Dit soort gegevens noemen we kwalitatieve gegevens. Vraag 9 luidt: Met hoeveel percent zijn, volgens u, de consumptieprijzen gestegen/gedaald in de loop van de laatste twaalf maanden? De consumptieprijzen zijn gestegen/gedaald met:... %. De variabele is de (door de consument gepercipieerde) inflatie. Deze variabele neemt numerieke meetwaarden aan zoals 2%, 2,5%, 5% enz. Wanneer we de meetwaarden meten op een natuurlijk voor- 1

2 HOOFDSTUK 1. MEETSCHALEN komende numerieke schaal (zoals in dit geval) spreken we van kwantitatieve variabelen. Wat als we het geslacht coderen als een cijfer (bijvoorbeeld man coderen als 0 en vrouw coderen als 1 )? In dat geval meten we de meetwaarden niet op een natuurlijk voorkomende numerieke schaal: we hebben de codes 0 en 1 arbitrair gekozen, en hadden ze net zo goed kunnen omkeren. De variabele geslacht blijft dus een kwalitatieve variabele, ook al gebruiken we numerieke codes om de categorieën aan te duiden. In de volgende twee hoofdstukken beperken we ons tot kwantitatieve variabelen. Oefening. Overloop all vragen van de consumentenenquête. Wat is de variabele die de vraag probeert te meten? Is de variabele kwalitatief of kwantitatief? (Opgepast: vragen 2 en 23 zijn instinkers.)

Hoofdstuk 2 Histogram We beperken ons in dit en het volgende hoofdstuk tot de beschrijvende statistiek van kwantitatieve variabelen: hoe kunnen we de informatie over een steekproef of populatie, die vaak vele duizendend meetwaarden van een kwantitatieve variabele bevat, bondig samenvatten? Als van een bepaald aandeel op een dag ongewoon veel stuks worden verhandeld, geeft dat meestal aan dat er iets bijzonders aan de hand is. Tabel 2.1 toont het volume van de verhandelde Apple-aandelen op de NASDAQ-aandelenbeurs op eerste de 50 handelsdagen van 2013. Je ziet meteen dat het aantal aandelen dat verhandeld wordt sterk verschilt van dag tot dag. 3

4 HOOFDSTUK 2. HISTOGRAM Tabel 2.1: Volumes verhandelde Apple-aandelen op de NASDAQ-beurs tijdens de eerste 50 beursdagen van 3013. Bron: nasdaq.com Datum Volume Datum Volume (jjjj/mm/dd) (jjjj/mm/dd) 2013/03/14 10.828.780 2013/02/06 21.143.410 2013/03/13 14.473.490 2013/02/05 20.422.720 2013/03/12 16.591.730 2013/02/04 17.006.390 2013/03/11 16.888.770 2013/02/01 19.243.490 2013/03/08 13.923.820 2013/01/31 11.349.350 2013/03/07 16.709.980 2013/01/30 14.877.260 2013/03/06 16.408.620 2013/01/29 20.355.270 2013/03/05 22.746.730 2013/01/28 27.967.400 2013/03/04 20.618.900 2013/01/25 43.088.190 2013/03/01 19.688.520 2013/01/24 52.065.570 2013/02/28 11.501.780 2013/01/23 27.298.580 2013/02/27 20.936.410 2013/01/22 16.392.270 2013/02/26 17.862.940 2013/01/18 16.712.490 2013/02/25 13.259.070 2013/01/17 16.128.630 2013/02/22 11.794.320 2013/01/16 24.627.700 2013/02/21 15.937.660 2013/01/15 31.114.650 2013/02/20 16.974.720 2013/01/14 26.145.870 2013/02/19 15.545.710 2013/01/11 12.509.870 2013/02/15 13.981.970 2013/01/10 21.426.660 2013/02/14 12.683.670 2013/01/09 14.535.530 2013/02/13 16.954.690 2013/01/08 16.350.190 2013/02/12 21.677.620 2013/01/07 17.262.620 2013/02/11 18.315.220 2013/01/04 21.196.320 2013/02/08 22.591.910 2013/01/03 12.579.170 2013/02/07 25.089.680 2013/01/02 19.986.670 Hoe kunnen we deze metingen bondiger en overzichtelijker samenvatten, zodat we een idee krijgen van de typische volumes? Eén manier is om een frequentietabel te maken. Orden eerst de metingen van laag naar hoog: 10.828.780, 11.349.350, 11.501.780, 11.794.320, 12.509.870, 12.579.170, 12.683.670, 13.259.070, 13.923.820, 13.981.970, 14.473.490, 14.535.530, 14.877.260, 15.545.710, 15.937.660, 16.128.630, 16.350.190, 16.392.270, 16.408.620, 16.591.730, 16.709.980, 16.712.490, 16.888.770, 16.954.690, 16.974.720, 17.006.390, 17.262.620, 17.862.940, 18.315.220, 19.243.490, 19.688.520, 19.986.670, 20.355.270, 20.422.720, 20.618.900, 20.936.410, 21.143.410, 21.196.320, 21.426.660, 21.677.620, 22.591.910, 22.746.730, 24.627.700, 25.089.680, 26.145.870, 27.298.580, 27.967.400, 31.114.650, 43.088.190, 52.065.570 De volumes variëren dus tussen 10,8 en 52,1 miljoen aandelen per dag. Definieer nu de meetklassen waarin je de gegevens wil onderverdelen (niet te

5 veel, niet te weinig, en ronde grenswaarden kiezen). Laten we de eerste meetklas definiëren als 10.000.000 tot 15.000.000 (10.000.000 inbegrepen, 15.000.000 niet), de tweede als 15.000.000 tot 20.000.000, enzoverder tot 50.000.000 tot 55.000.000. Construeer nu een frequentietabel met drie kolommen: meetklasse, absolute frequentie, en relatieve frequentie (tabel 2.2). De absolute frequentie is hoeveel metingen in een meetklas vallen. In de eerste meetklas (van 10.000.000 tot 15.000.000) vallen 13 metingen (tel na!): de absolute frequentie is dus 13. De relatieve frequentie drukt het aantal metingen in een meetklas (de absolute frequentie) uit als een percentage van het totale aantal metingen. In de eerste meetklas (van 10.000.000 tot 15.000.000) is de relatieve frequentie dus: 13 100% = 26% 50 Reken zelf de rest van de tabel na. Tabel 2.2: Frequentietabel van de volumes verhandelde Apple-aandelen per dag op de NASDAQ-beurs, eerste 50 beursdagen van 2013 Meetklas Absolute Relatieve (volume in aandelen per dag) frequentie frequentie (%) 10.000.000 tot 15.000.000 13 26 15.000.000 tot 20.000.000 19 38 20.000.000 tot 25.000.000 11 22 25.000.000 tot 30.000.000 4 8 30.000.000 tot 35.000.000 1 2 35.000.000 tot 40.000.000 0 0 40.000.000 tot 45.000.000 1 2 45.000.000 tot 50.000.000 0 0 50.000.000 tot 55.000.000 1 2 Som: 50 100 De som van de absolute frequenties moet gelijk zijn aan het aantal metingen, en de som van de relatieve frequenties moet gelijk zijn aan 100%; als dat niet zo is, heb je rekenfouten gemaakt. Als we de frequenties weergeven in een staafdiagram, met op de horizontale as de variabele (in dit geval: de dagelijkse volumes) en op de verticale as de absolute of relatieve frequentie, krijgen we een frequentiehistogram (afbeelding 2.1). Je ziet in het frequentiehistogram meteen dat beursdagen met volumes tussen de 10 miljoen en de 30 miljoen vaak voorkomen (13, 19, en 12 dagen van de 50 je leest de absolute frequenties af op de verticale as). Er was één beursdag op 50 met een volume tussen 40 miljoen en 45 miljoen aandelen, en één beursdag met een volume tussen 50 miljoen en 55 miljoen aandelen; dit zijn dus eerder zeldzame volumes. In een frequentiehistogram stelt de hoogte van elk staafje de frequentie voor; de oppervlakte van de staafjes heeft geen betekenis. Om redenen die later duidelijk zullen zijn, is het interessanter om een variant van het histogram te gebruiken die densiteitshistogram heet. In een densiteitshistogram stelt de oppervlakte van elk staafje de relatieve frequentie voor; de hoogte van elk staafje meet de densiteit (of dichtheid) van de data in de meetklasse. (Het is

6 HOOFDSTUK 2. HISTOGRAM 15 Absolute frequentie 10 5 0 10 20 30 40 50 Dagelijks volume (in miljoenen) Figuur 2.1: Frequentiehistogram voor de dagelijkse volumes van Apple-aandelen op de NASDAQ-beurs, eerste 50 beursdagen van 2013 belangrijk dat je het verschil tussen frequentiehistogram en densiteitshistogram kent, en dat je een een densiteitshistogram kan construeren voor een lijst met metingen.) Hoe berekenen we de densiteit? De oppervlakte van een rechthoek (zoals de staafjes in een histogram) is gelijk aan (hoogte) (breedte): en dus is: oppervlakte = hoogte breedte relatieve frequentie = densiteit breedte van de meetklasse Deel beide leden door (breedte van het interval) en je krijgt: relatieve frequentie densiteit = breedte van de meetklasse Zo is voor de meetklasse van 10 miljoen tot 15 miljoen aandelen de relatieve frequentie 26%, en dus is de densiteit: densiteit = 26% 15 miljoen aandelen 10 miljoen aandelen

7 26% = 5 miljoen aandelen = 5,2%/miljoen aandelen Deze densiteit wordt dus de hoogte van het staafje over de meetklasse van 10 tot 15 miljoen aandelen. De densiteit (of dichtheid) van de metingen over een meetklasse zegt ons welk percentage van alle metingen gemiddeld binnen een interval van één meeteenheid op de horizontale as vallen. In de meetklasse van 10 tot 15 miljoen aandelen valt dus gemiddeld 5,2% van alle 50 metingen tussen 10 en 11 miljoen aandelen, 5,2% tussen 11 en 12 miljoen aandelen, 5,2% tussen 12 en 13 miljoen aandelen, 5,2% tussen 13 en 14 miljoen aandelen, en 5,2% tussen 14 en 15 miljoen aandelen. We snijden de staafjes als het ware in vertical reepjes van één eenheid (in dat geval: 1 miljoen aandelen) breed; de densiteit zegt hoeveel percent van alle metingen in zo n strookje van één eenheid breed valt. De eenheid van de densiteit is dus: percent per eenheid op de horizontale as (in dit geval: percent per miljoen aandelen). De eenheid van de densiteit is dus niet percent. Afbeelding 2.2 toont het densiteitshistogram. Oefening: Bereken aan de hand van de frequentieties in tabel 2.2 de densiteiten voor de andere meetklassen. Ga na of je resultaten overeenkomen met afbeelding 2.2. Stel dat we enkel het densiteitshistogram (afbeelding 2.2) hebben, en niet de frequentietabel. Wat is het percentage van beursdagen waarbij het volume van verhandelde aandelen ligt tussen 20 en 30 miljoen? Wat is (bij benadering) het percentage van beursdagen waarbij het volume van verhandelde aandelen ligt tussen 24 en 27 miljoen? Geef in de grafiek aan wat je antwoord vertegenwoordigt. Conclusie: het percentage aan metingen die tussen twee waarden vallen, is de oppervlakte van het histogram tussen die twee waarden. Wat is de oppervlakte onder het hele histogram? In een densiteitshistogram staat de densiteit (dichtheid) van de gegevens op de verticale as. De oppervlaktes van de staafjes zijn dan percentages. De oppervlakte onder een densiteitshistogram over een interval is gelijk aan het percentage van de metingen die in dat interval vallen. De totale oppervlakte onder een densiteitshistogram is 100% (Freedman et al., 2007, p. 41). Met een densiteitshistogram kan je dingen doen die je met een frequentiehistogram niet kan: metingen die een heuvelvormige verdeling hebben benaderen door de normale curve (hoofdstuk xxx), en een verband leggen tussen densiteitshistogram en kansverdeling (hoofdstuk xxx). In wat volgt gebruiken we enkel nog densiteitshistogrammen. Vorm van een densiteitshistogram Heuvelvormig of niet? Symmetrisch of niet? Scheef naar links, scheef naar rechts.

8 HOOFDSTUK 2. HISTOGRAM 6% Densiteit (% per miljoen aandelen) 4% 2% 0% 10 20 30 40 50 Dagelijks volume (in miljoenen) Figuur 2.2: Densiteitshistogram voor de dagelijkse volumes van Apple-aandelen op de NASDAQ-beurs, eerste 50 beursdagen van 2013

Hoofdstuk 3 Gemiddelde en standaarddeviatie 3.1 De centrale tendentie van een histogram Het gemiddelde is een veelgebruikte maat van de centrale tendentie van een lijst van metingen (of van het densiteitshistogram). Je berekent het gemiddelde van een lijst met metingen als volgt: gemiddelde = som van alle metingen hoeveel metingen er zijn Voorbeeld: je hebt een lijst van de prijzen voor eenzelfde fles wijn in vijf restaurants: 2, 2, 4, 5, 7. De gemiddelde prijs is: gemiddelde = 2 + 2 + 4 + 5 + 7 5 = 20 5 = 4 Een nadeel van het gemiddelde is dat het gevoelig is voor extreme waarden. Stel dat de lijst van de prijzen er zo uit ziet: 2, 2, 4, 5, 22. De gemiddelde prijs is dan: gemiddelde = 2 + 2 + 4 + 5 + 22 5 = 35 5 = 7 De ene uitzonderlijk dure fles van 22 trekt het gemiddelde aanzienlijk op. In gevallen zoals dit kunnen we een andere maat van de centrale tendentie gebruiken, namelijk de mediaan. De mediaan is een waarde met de volgende eigenschap: ongeveer de helft van de metingen ligt onder de mediaan en ongeveer de helft ligt erboven (of meer precies: minstens de helft van de metingen ligt op of onder de mediaan en minstens de helft van de metingen ligt op of boven de mediaan). Je vindt de mediaan als volgt: rangschik de metingen van laag naar hoog. De mediaan is de middelste meting (als het aantal metingen oneven is) of het gemiddelde van de twee middenste metingen (als het aantal metingen even is). Zo is de mediaan van 2, 2, 4, 5, 7 gelijk aan 4. De mediaan van 2, 2, 4, 5, 22 is ook gelijk aan 4. Als het densiteitshistogram van je gegevens niet symmetrisch maar scheef is, of als er uitbijters zijn, is het gemiddelde doorgaans geen geschikte maat van 9

10 HOOFDSTUK 3. GEMIDDELDE EN STANDAARDDEVIATIE de centrale tendentie. Gebruik in zulke gevallen de mediaan. Een voorbeeld is de verdeling van het netto-vermogen van de gezinnen. Het netto-vermogen is het verschil tussen activa (bezittingen en vorderingen) en passiva (schulden). Het netto-vermogen is zelden negatief, maar kan zeer hoge waarden aannemen. Daardoor geeft het gemiddelde netto-vermogen geen goed idee van de centrale tendentie. Omdat de hoge waarden de verdeling scheeftrekken naar links, is het gemiddelde groter dan de mediaan (schets): in België bedroeg in 2010 het mediane netto-gezinsvermogen 206.200 euro, en het gemiddelde 338.600 euro (European Central Bank, 2013, tabel 4.1 p. 76). Economen gebruiken daarom doorgaans het mediane netto-vermogen als maat van de centrale tendentie van de vermogensverdeling. Oefening. In afbeelding 2.2 zie je dat de dagelijkse volumes van Apple-aandelen ook een scheve verdeling hebben: het histogram is scheefgetrokken naar rechts. Het gemiddelde volume is 19.315.460; bereken zelf de mediaan. Hoe liggen het gemiddelde en de mediaan ten opzichte van elkaar? Is dat wat je had verwacht op basis van de vorm van het histogram? Met Wolfram Alpha (wolframalpha.com) berekent je het gemiddelde en de mediaan van de lijst metingen {2, 2, 4, 5, 7 } als volgt: mean {2, 2, 4, 5, 7 } median {2, 2, 4, 5, 7 } 3.2 De spreiding van een histogram Eén van de manieren om de spreiding van een lijst van metingen (of van het densiteitshistogram ervan) te meten, is te kijken naar hoever de metingen in de lijst van het gemiddelde liggen. We bereken dus eerst het gemiddelde, bijvoorbeeld van de prijzen voor eenzelfde fles wijn in vijf restaurants ( 2, 2, 4, 5, 7): gemiddelde = 2 + 2 + 4 + 5 + 7 5 = 20 5 = 4 Dan berekenen we de deviaties van het gemiddelde, met andere woorden, hoever elke meting onder ( ) of boven (+) het gemiddelde ligt: Dat geeft: deviatie = meting gemiddelde 2 4 = 2 2 4 = 2 4 4 = 0 5 4 = + 1 7 4 = + 3 Om een idee te krijgen van de spreiding zouden we het gemiddelde kunnen nemen van deze deviaties. Het gemiddelde van de deviaties is echter gelijk aan 0 (ga na!). Dat is altijd zo, ongeacht welke lijst van metingen je neemt: de

3.2. DE SPREIDING VAN EEN HISTOGRAM 11 negatieve deviaties heffen de positieve deviaties precies op. Maar als we de mintekens laten vallen (de absolute waarden van de deviaties nemen) krijgen we wel een bruikbare maatstaf van de spreiding van de metingen rond hun gemiddelde: de gemiddelde absolute deviatie. In ons voorbeeld geeft dat: 2 + 2 + 0 + 1 + 3 5 = 8 5 = 1,6 De gemiddelde absolute deviatie van 1,6 wil dus zeggen dat de metingen gemiddeld 1,6 van hun gemiddelde verwijderd liggen. Statistici verkiezen doorgaans echter een andere manier om het gemiddelde van de deviaties te berekenen, namelijk het kwadratisch gemiddelde. Je bekomt dan de standaarddeviatie. De standaarddeviatie (SD) is het kwadratisch gemiddelde (root-mean-square) van de deviaties van het gemiddelde. Onthou dat het kwadratisch gemiddelde de root-mean-square (R-M-S) is, of de vierkantswortel (root) van het gemiddelde (mean) van de kwadraten (square). Eerst kwadrateer je de deviaties, dan neem je het gemiddelde, en tenslotte neem je de vierkantswortel van het resultaat. In ons voorbeeld wordt dat: 1. Kwadrateer de deviaties (square): ( 2) 2 = 2 4 ( 2) 2 = 2 4 ( 0) 2 = 2 0 (+ 1) 2 = 2 1 (+ 3) 2 = 2 9 We zijn de min-tekens kwijt. Merk op dat de eenheden ook gekwadrateerd zijn! 2. Neem vervolgens het gemiddelde (mean) van het resultaten uit de vorige stap: gemiddelde = 2 4 + 2 4 + 2 0 + 2 1 + 2 5 5 De eenheid is nog steeds gekwadrateerd! = 2 18 5 = 2 3,6 3. Neem tenslotte de vierkantswortel (root) van het resultaat uit de vorige stap: 2 3,6 1,90 De standaarddeviatie heeft dezelfde eenheid als je metingen. In dit geval zijn de metingen in euro; de standaarddeviatie is dan ook in euro. In formulevorm is dat: SD = som van (deviaties) 2 aantal metingen

12 HOOFDSTUK 3. GEMIDDELDE EN STANDAARDDEVIATIE (deze formule staat op het formuleblad; je hoeft ze niet van buiten te leren.) Je berekent de standaarddeviatie van een een lijst metingen {2, 2, 4, 5, 7 } als volgt met Wolfram Alpha (wolframalpha.com): population standard deviation {2, 2, 4, 5, 7 } Bovenstaande formule geeft de standaarddeviatie van een populatie. Om redenen waarop we hier niet ingaan, is de standaarddeviatie van een steekproef gelijk aan: som van (deviaties) 2 aantal metingen steekproefgrootte steekproefgrootte 1 (je hoeft deze formule niet te onthouden) Omdat de bijkomende factor groter is dan 1, geeft deze formule geeft een grotere standaarddeviatie. Voor grote steekproeven is het verschil tussen de twee formules echter gering. In de praktijk beschouwen statistici een steekproef doorgaans groot als ze uit minstens 30 metingen bestaat. Bij een populatie van volwassenen bijvoorbeeld ligt de standaarddeviatie van de lichaamslengte doorgaans in de buurt van 10 cm. Als je van een aselecte steekproef van 30 volwassenen de lichaamslengtes meet en de standaarddeviatie berekent, is het verschil tussen beide formules voor de standaarddeviatie minder dan 2 mm (ga na!), en dus uit praktisch oogpunt niet relevant. In oefeningen en op het examen mag je bij grote steekproeven (van meer dan 30 metingen) dan ook de formule voor de SD van een populatie gebruiken. Met Wolfram Alpha gebruik je voor een steekproef de instructie: sample standard deviation {2, 2, 4, 5, 7 } Onthou de volgende regel: Weinig metingen vallen meer dan drie standaarddeviaties van het gemiddelde. 1 Dat is zo voor histogrammen met om het even welke vorm. Metingen die meer dan drie standaarddeviaties van het gemiddelde liggen, noemen we uitbijters (uitzonderlijk kleine of uitzonderlijk grote waarden). Een handige manier om uitbijters te vinden is om voor alle metingen de standaardscore te bereken. De standaardscore van een meting druk uit hoeveel standaarddeviaties de meting onder of boven het gemiddelde ligt: standaardscore van een meting = meting gemiddelde standaarddeviatie Laten we even terugkeren naar de dagelijks verhandelde volumes van Appleaandelen (tabel 2.1). Van de volumes Apple-aandelen die in de eerste 50 handelsdagen van 2013 werden verhandeld (p. 2) is het gemiddelde 19.315.460 en de standaarddeviatie 7.466.246. Op 14 maart 2013 werden slechts 10.828.780 Apple-aandelen verhandeld. Is dat uitzonderlijk weinig? Bereken eerst de stan- 1 Een meer precieze vorm van deze regel (de regel van Tsjebysjev) luidt als volgt: tenminste 8/9 de van de metingen valt binnen drie standaarddeviaties van het gemiddelde, dat wil zeggen binnen het interval [gemiddelde 3 standaarddeviatie, gemiddelde + 3 standaarddeviatie] Bijgevolg ligt ten hoogste 1/9 de van de metingen buiten dat interval.

3.2. DE SPREIDING VAN EEN HISTOGRAM 13 daardscore voor 10.828.780: 10.828.780 19.315.460 7.466.246 = 32.750.110 7.466.246 1,13 De standaardscore 1,13 betekent dat het handelsvolume van 10.828.780 aandelen (van 24 januari 2013) 1,13 standaarddeviaties onder het gemiddelde ligt. Omdat de absolute waarde van de standaardscore (dus na weglating van het min-teken: 1,13) kleiner is dan 3, beschouwen we de meting 10.828.780 niet als een uitbijter. Oefening. Ga na of de handelvolumes 52.065.570 en 43.088.190 uitbijters zijn. Standaardscores hebben geen eenheid. Het volgende voorbeeld maakt dit duidelijk. Uit een lijst met de inkomens per hoofd van bijna alle landen van de wereld (de Penn World Table, Heston et al. (2012)) blijkt dat het gemiddelde $ 15 115 is, en de standaarddeviatie $ 18 651. Het inkomen per hoofd van België is $ 39 759. De standaardscore voor het inkomen per hoofd van België is dus: $39.759 $15.115 $18.651 = $24.644 $18.651 1,32 De eenheden ($) in de teller en de eenheden ($) in de noemer vallen tegen elkaar weg; de standaardscore heeft dus geen eenheden. De standaardscore van 1,32 betekent: het inkomen per hoofd van België ligt 1,32 standaarddeviaties boven het gemiddelde van de inkomens per hoofd van alle landen. Is het inkomen per hoofd in België uitzonderlijk hoog (een uitbijter), vergeleken met de andere landen in de lijst? Als het densiteitshistogram de vorm van een heuvel heeft, is de volgende eigenschap van toepassing (de empirische regel): 1. ongeveer 68% van de metingen ligt binnen één standaardafwijking van het gemiddelde, dus in het interval van gem SD tot gem+sd; 2. ongeveer 95% van de metingen ligt binnen twee standaardafwijkingen van het gemiddelde, dus in het interval van gem 2 SD tot gem+2 SD; 3. ongeveer 99,7% van de metingen ligt binnen drie standaardafwijkingen van het gemiddelde, dus in het interval van gem 3 SD tot gem+3 SD Oefening. Van de volumes Apple-aandelen die in de eerste 50 handelsdagen van 2013 werden verhandeld (p. 2) is het gemiddelde 19.315.460 en de standaarddeviatie 7.466.246. Ga na of de empirische regel een goede benadering geeft door het eigenlijk percentage metingen in het intervals van gem SD tot gem+sd te tellen. Geeft de empirische regel in dit geval een goede benadering? Waarom (niet)? Herhaal voor de intervals van gem 2 SD tot gem+2 SD, en van gem 3 SD tot gem+3 SD. Als we later percentages van een populatie proberen te schatten, gaan we te maken krijgen met lijsten die enkel uit nullen en enen bestaan (0-1-lijsten). Een handige rekenregel 2 luidt als volgt: de standaarddeviatie van een lijst 2 Het bewijs van de rekenregel staat louter ter informatie op de webstek http://homepages.vub.ac.be/~lmahens/sta101b.html

14 HOOFDSTUK 3. GEMIDDELDE EN STANDAARDDEVIATIE metingen die enkel uit nullen en enen bestaat kan snel worden berekend als: ( ) ( ) fractie van fractie van enen nullen Voorbeeld: de standaarddeviatie van {0, 1, 1, 1, 0} is 0,489898; reken na met wolframaplha.com: population standard deviation {0, 1, 1, 1, 0 } Volgens de rekenregel kunnen we de standaarddeviatie snel berekenen als: 3 5 2 5 = 6 25 wat inderdaad ook gelijk is aan 0,489898 (ga na met wolframaplha.com, waar je als volgt een vierkantswortel neemt: sqrt(6/25), of met een rekenmachine). Oefening. Bereken de standaarddeviatie van {1, 1, 1, 1, 0 } op twee manieren: met de gebruikelijke formule (kwadratisch gemiddelde van de deviaties) en met de snelle rekenregel voor 0-1-lijsten. Controleer het resultaat met Wolfram Alpha.

Hoofdstuk 4 Een histogram door de normale curve benaderen 4.1 De normale curve Dit zijn de scores van 100 sollicitanten die aan een selectieproef deelnamen: 74, 82, 70, 84, 54, 60, 79, 62, 72, 66, 72, 79, 73, 73, 84, 59, 53, 65, 62, 81, 76, 67, 72, 89, 70, 72, 71, 78, 98, 58, 68, 89, 70, 62, 71, 56, 68, 68, 76, 63, 63, 71, 82, 63, 98, 76, 74, 71, 52, 80, 80, 66, 69, 67, 70, 81, 62, 63, 76, 57, 89, 60, 87, 80, 75, 71, 87, 59, 69, 65, 66, 67, 62, 87, 58, 58, 60, 54, 74, 83, 48, 77, 79, 60, 84, 86, 68, 64, 83, 65, 77, 79, 68, 75, 77, 72, 47, 77, 68, 67 Het gemiddelde van de scores is ongeveer 70, en de standaarddeviatie is ongeveer 10 (deze dataset is te groot om te gebruiken in de gratis versie van woframalpha.com, maar je mag mij op mijn word geloven). Afbeelding 4.1 toont het densiteitshistogram van de scores op de selectieproef. De vorm van het histogram lijkt op een heuvel. Dergelijke heuvelvormige (bell-shaped) histogrammen kan je benaderen door een bijzondere curve die de normale curve heet (of gausscurve, naar de Duitse wiskundige Carl Friedrich Gauss, 1777-1855). De functie die de normale curve beschrijft is ingewikkeld: y = 1 2π e x2 /2 In de praktijk zal je deze vergelijking niet nodig hebben, en ga je met de normale curve werken aan de hand van afbeeldingen, tabellen, een rekenmachine met statistische functies of een statistisch computerprogramma zoals SPSS, R of Mathematica (via Wolfram Alpha). De vergelijking is die van de standaardnormale curve. Er zijn andere versies van de normale curve, maar die hebben we niet nodig. In wat volgt zal ik het over steeds over de standaardnormale curve hebben als ik spreek van de normale curve. 15

16 HOOFDSTUK 4. EEN HISTOGRAM BENADEREN 3% Densiteit (% per punt) 2% 1% 0% 40 50 60 70 80 90 100 Score (punten) Figuur 4.1: Densiteitshistogram van 100 scores op een selectieproef Afbeelding 4.2 illustreert de eigenschappen van de standaardnormale curve: 1. de curve is symmetrisch rond 0; 2. de oppervlakte onder de curve is 100% (of 1); 3. de curve ligt altijd boven de horizontale as. We zullen verderop vaak de oppervlaktes onder de normale curve nodig hebben. Onthou alvast de volgende eigenschappen van de standaardnormale curve: 1. de oppervlakte onder de curve tussen 1 en +1 is ongeveer 68%; 2. de oppervlakte onder de curve tussen 2 en +2 is ongeveer 95%; 3. de oppervlakte onder de curve tussen 3 en +3 is ongeveer 99,7% (dit staat niet op je formuleblad; je moet deze eigenschap van buiten leren) Statistici gebruiken in de praktijk altijd een statistische rekenmachine of een statistisch computerprogramma om oppervlaktes onder de standaardnormale curve te berekenen. In Wolfram Alpha (wolframalpha.com) bereken je oppervlaktes onder de standaard-normale curve als volgt. De oppervlakte onder de standaardnormale curve tussen 1 en +2 is: Probability[-1 < x < 2] De oppervlakte onder de standaardnormale curve tussen 1 en oneindig is:

4.2. STATISTISCHE TABELLEN GEBRUIKEN 17 50 40 Percent per standaardeenheid 30 20 10 0-4 -2 0 2 4 Standaardeenheden Figuur 4.2: De standaardnormale curve Probability[-1 < x < infinity] De oppervlakte onder de standaardnormale curve tussen min oneindig en +1 is: Probability[-infinity < x < 1] 4.2 Statistische tabellen gebruiken Als je geen statistische rekenmachine hebt of geen toegang hebt tot een statistische computerprogramma, kan je een tabel van de cumulatieve standaardnormale verdeling gebruiken, die je in elk handboek statistiek kan terugvinden (en op de voorlaatste pagina van deze notities). De tabel bevat waarden van de oppervlakte onder de standaardnormale curve van min oneindig tot een bepaalde waarde op de x-as (schets op bord). Bereken, om de opmaak van de tabel te begrijpen, met Wolfram Alpha de oppervlakte onder de normale curve tussen min oneindig en 1,67: Probability[-infinity < x < 1.67] Met de tabel vind je deze oppervlakte als volgt. Ga eerst naar de regel met 1.6. Ga dan naar rechts tot je in de kolom met de hondertallen 0.07 ziet staan. De waarde in de cel van de tabel waar je nu bent is de oppervlakte onder de normale curve tussen min oneindig en 1,67, afgerond tot vier cijfers na de komma. De oppervlakte is 0,9525, of 0,9525 100% = 95,25%. De tabel van de cumulatieve standaard-normale verdeling geeft dus alle waarden die je met Wolfram Alpha

18 HOOFDSTUK 4. EEN HISTOGRAM BENADEREN kan terugvinden met: Probability[-infinity < x < 0.00] Probability[-infinity < x < 0.01] Probability[-infinity < x < 0.02]... Probability[-infinity < x < 3.99] Oefening. Zoek in de tabel de oppervlakte onder de standaardnormale curve tussen min oneindig en 1,73. Verifieer met Wolfram Alpha (opgelet: in het Engels gebruik je een punt om de decimalen te scheiden van de eenheden). Om met een statistische tabel oppervlaktes onder de normale curve tussen min oneindig en een negatieve waarde (bijvoorbeeld 1,73) te vinden, of tussen twee waarden zoals 1,73 en +0,85, moet je enkele truukjes gebruiken. Begin steeds met een schets van de normale curve en arceer de oppervlakte die je zoekt. Benoem de oppervlaktes van links naar rechts als a, b, c. Probeer dan de oppervlakte die je zoekt uit te drukken als een som of verschil van oppervlaktes in de linkerstaart van een normale curve (want dat zijn de oppervlaktes die in een tabel van de cumulatieve normale verdeling staan). Maak gebruik van de eigenschappen van de normale curve: de normale curve is symmetrisch en de oppervlakte onder de normale curve is 1 (of 100%). Voorbeeld 1. Zoek met behulp van de tabel de oppervlakte onder de normale curve tussen 1,73 en plus oneindig. Oplossing. De oppervlakte onder de normale curve is 1, en dus is de oppervlakte tussen 1,73 en plus oneindig gelijk aan 1 (oppervlakte tussen min oneindig en 1,73). De oppervlakte tussen min oneindig en 1,73 kan je vinden in de tabel: 0,9582. Dus de oppervlakte tussen 1,73 en plus oneindig is gelijk aan: 1 0,9582 = 0,0418 = 0,0418 100% = 4,18%. Verifieer met wolframalpha.com: Probability[1.73 < x < infinity] Voorbeeld 2. Zoek met behulp van de tabel de oppervlakte onder de normale curve tussen min oneindig en 1,73. Oplossing. De normale curve is symmetrisch, en dus is de oppervlakte tussen min oneindig en 1,73 gelijk aan de oppervlakte tussen 1,73 en plus oneindig. De oppervlakte tussen 1,73 en plus oneindig is 4,18% (voorbeeld 1), dus is de oppervlakte tussen min oneindig en 1,73 ook gelijk aan 4,18%. Verifieer met wolframalpha.com: Probability[-infinity < x < -1.73]. Voorbeeld 3. Zoek met behulp van de tabel de oppervlakte onder de normale curve tussen 1,73 en +0,85. Oplossing. Schets: [invoegen; gebieden a, b, c]. De oppervlakte tussen 1,73 en +0,85 (b) is gelijk aan oppervlakte a + b - oppervlakte a, of: (oppervlakte tussen min oneindig en +0,85) ( oppervlakte tussen min oneindig en 1,73) = 0,8023 0,0418 (uit de tabel) = 0,7605 Verifieer met wolframalpha.com: Probability[-1.73 < x < 0.85]

4.3. DE NORMALE BENADERING 19 Voorbeeld 4. Zoek met behulp van de tabel de oppervlakte onder de normale curve tussen 3,91 en plus oneindig. Oplossing. De oppervlakte onder de normale curve is 1, en dus is de oppervlakte tussen 3,91 en plus oneindig gelijk aan 1 (oppervlakte tussen min oneindig en 3,90). De oppervlakte tussen min oneindig en 3,90 die je kan je vinden in de tabel is: 1,0000. Dus de oppervlakte tussen 3,90 en plus oneindig is gelijk aan: 1 1,0000 = 0. Maar is de oppervlakte tussen min oneindig en 3,90 echt precies gelijk aan 1,0000? Neen: dee chte oppervlakte is kleiner dan 1. Omdat alle cijfers in de tabel afgerond zijn tot 4 cijfers na de komma, is de echte oppervlakte 0,99995 of meer. Bijgevolg is de oppervlakte tussen tussen 3,90 en plus oneindig kleiner dan: 1 0,99995 = 0,00005 = 0,005% (5 duizendsten van een percent). Verifieer met wolframalpha.com: Probability[3.90 < x < infinity]. Hetzelfde geldt alle oppervlaktes onder de standaardnormale curve tussen cijfers groter dan 3,90 en plus oneindig: deze oppervlaktes zijn zeer klein (kleiner dan 5 duizendsten van een percent). Oefening. Zoek met behulp van de tabel de oppervlakte onder de standaardnormale curve tussen 1,87 en plus oneindig. Verifieer met Wolfram Alpha (opgelet: in het Engels gebruik je een punt om de decimalen te scheiden van de eenheden). Oefening. Zoek met behulp van de tabel de oppervlakte onder de standaardnormale curve tussen 2 en +2. Verifieer met Wolfram Alpha (opgelet: in het Engels gebruik je een punt om de decimalen te scheiden van de eenheden). Oefening. Zoek met behulp van de tabel de oppervlakte onder de standaardnormale curve tussen min oneindig en 5.2. Verifieer met Wolfram Alpha (opgelet: in het Engels gebruik je een punt om de decimalen te scheiden van de eenheden). Voor het examen moet je deze truukjes kennen, omdat je dan geen toegang hebt tot een statistische rekenmachine of een statistisch computerprogramma. In de praktijk gebruik je echter een statistisch computerprogramma. 4.3 De normale benadering De Belgische statisticus Adolphe Quetelet had in 1870 als eerste het idee om heuvelvormige histogrammen te benaderen door de normale curve (Freedman et al., 2007, p. 78). Laten we terugkeren naar de scores van 100 personen die aan een selectieproef deelnamen. De vorm van het histogram (afbeelding 4.1) lijkt op de normale curve (de rode curve in de grafiek), maar de horizontale schaal verschilt: de meeste metingen liggen tussen 40 en 100, terwijl de meeste waarden van de normale curve liggen tussen 3 en +3; en het centrum van het histogram ligt in de buurt van 70, terwijl het centrum van de normale curve op 0 ligt. Dat kunnen we oplossen door van alle scores het gemiddelde

20 HOOFDSTUK 4. EEN HISTOGRAM BENADEREN (70) af te trekken (we krijgen dan de deviaties van het gemiddelde zie sectie xxxref TOEVOEGENxxx). Daardoor schuift het histogram naar links (als het gemiddelde een positief cijfer is, zoals in dit geval), of naar rechts (als het gemiddelde een negatief cijfer is), en komt het centrum van het histogram op 0. De meeste metingen liggen nu tussen 40 70 = 30 en 100 70 = +30. Nu moeten we nog zorgen dat de spreiding van het histogram overeenkomt met de spreiding van de normale curve. Dat doen we door de deviaties te delen door de standaarddeviatie van de metingen (10). We zetten met andere woorden de metingen om in standaardscores: standaardscore van een meting = meting gemiddelde standaarddeviatie Je krijgt dan de volgende lijst: 0,4; 1,2; 0,0;... ; 0,3 (ga na of je zelf de eerste drie waarden kan standaardizeren). Afbeelding 4.3 toont het histogram van de standaardscores. Vergelijk met het histogram van de metingen zelf (afbeelding 4.1): de vorm is precies hetzelfde. 40% 30% Densiteit (% per standaardeenheid) 20% 10% 0% -3-2 -1 0 1 2 3 Standaardeenheden Figuur 4.3: Densiteitshistogram van 100 scores op een selectieproef na standaardizatie Bekijk nu het histogram van de scores (afbeelding 4.1). Welk percentage van de sollicitanten scoorden tussen 75 en 85? In het histogram komt dat overeen met de oppervlakte onder het histogram tussen 75 en 85. De gestandaardizeerde scores van 75 en 85 zijn: 75 70 = +0,5 10

4.3. DE NORMALE BENADERING 21 en 85 70 10 = +1,5 In het histogram van de gestandaardizeerde scores (afbeelding 4.3) komt het gezochte percentage dus overeen met de oppervlakte onder het histogram tussen +0,5 en +1,5. We kunnen deze oppervlakte benaderen door de oppervlakte onder de normale curve tussen +0,5 en +1,5. De normale benadering zal het staafje over het interval van +0,5 tot +1,0 overschatten, en het staafje over het interval van +1,5 tot +1,5 onderschatten. De oppervlakte onder de normale curve tussen +0,5 en +1,5 is ongeveer 24% (ga na met met wolframalpha.com: Probability[0.5 < x < 1.5] ; je moet op het examen deze oppervlakte kunnen berekenen met de tabel; doe dat als een oefening). Als we de lijst met metingen afgaan, zie we dat 25 van de 100 metingen tussen 75 en 85 vallen (ga na!), of 25%. De normale curve geeft dus een goede benadering. Oefening. Gebruik voor dezelfde dataset de normale curve om bij benadering het percentage van sollicitanten te vinden met scores op de selectieproef tussen 50 en 60. Gebruik de tabel van de cumulatieve standaardnormale verdeling om de oppervlakte te onder de normale curve berekenen en verifieer met wolframalpha.com. Vergelijk het geraamde percentage met het werkelijke percentage. Is de normale benadering goed? In de praktijk kan het nuttig zijn om een histogram te benaderen door de normale curve als we niet beschikken over de eigenlijke metingen. Hier is een voorbeeld. De Graduate Admission Management Test (GMAT) is een veel gebruikte test om kandidaten te selecteren voor een MBA-programma. De score ligt tussen 200 en 800. Het histogram van de scores kan benaderd worden door de normale curve. Als je een score haalt van 773, en het gemiddelde van alle deelnemers was 540 en de standaarddeviatie 100, welk percentage van deelnemers scoorde slechter dan jou? Welk percentage van deelnemers aan de test scoorde beter dan jou? Merk op dat we de gegevens van de individuele metingen niet hebben, en dus ook niet de frequentietabel of het histogram. Maar dankzij de normale benadering kunnen we de vraag (bij benadering) beantwoorden. De oplossing gaat als volgt. Maak eerst een schets van de verdeling, en arceer de oppervlakte die je wil vinden. Zet de grenswaarde(n) van het interval om in standaardeenheden: 773 540 = +2,33 100 Voeg in je schets de standaardeenheden toe op de horizontale as. We zoeken nu de oppervlakte onder de standaardnormale curve tussen min oneindig en +2,33. In de tabel van de cumulatieve standaardnormale verdeling kan je terugvinden dat de oppervlakte gelijk is aan 0,9901, of 99,01% (verifieer de oppervlakte met Wolfram Alpha). Kortom: zowat 99% van de deelnemers had een slechtere score, en minder dan 1% had een betere score je zit bij de beste 1% van alle deelnemers. De techniek om histogrammen te benaderen door de normale curve zal van pas komen bij statistische inferentie.

22 HOOFDSTUK 4. EEN HISTOGRAM BENADEREN Oefening. Van 164 volwassen Belgische mannen geboren in 1962 is de gemiddelde lengte 175,7 cm en de standaardafwijking 8,2 cm (Garcia and Quintana- Domeque, 2007). Veronderstel dat de verdeling bij benadering de normale curve volgt (wat bij lengtes vaak het geval is). Wat is bij benadering het percentage van mannen in deze groep met een lengte van 170 cm of minder? Wat is bij benadering het percentage van mannen in deze groep die tussen 170 cm en 180 cm groot zijn? Meer oefeningen Zie het document Reeks 4 Normale verdelingen: Oefeningen #4 op Point- Carré. Oefeningen 1, 3, 4(2), 5, 7 (los 7(5) en 7(6) op met gissen en missen), 8.

Hoofdstuk 5 Kansrekening 5.1 Kansexperimenten Voorbeelden van kansexperimenten zijn: een dobbelsteen werpen en het aantal stippen tellen; een munt opgooien en kijken of we kop of munt krijgen; een willekeurige kaart trekken uit een goed geschud spel kaarten en kijken welke kaart we hebben getrokken. We gaan in wat volgt kansexperimenten proberen terug te brengen tot het volgende kansmodel: we modelleren een kansexperiment als willekeurig één of meerdere bonnetjes trekken uit een doos. Zo is een dobbelsteen werpen als willekeurig een bonnetje trekken uit de doos: 1 2 3 4 5 6 In wolframalpha.com: RandomChoice[{1,2,3,4,5,6}] Een munt opgooien is als willekeurig een bonnetje trekken uit de doos: kop munt In wolframalpha.com: RandomChoice[{'kop','munt'}] 5.2 De klassieke interpretatie van kans Je werpt een (zuivere) dobbelsteen. Wat is de kans dat je een 1 werpt? Antwoord: Er zijn zes mogelijke uitkomsten. Eén daarvan is gunstig (namelijk de uitkomst 1). Als de dobbelsteen zuiver is, heeft elke uitkomst dezelfde kans. De som van de zes kansen moet gelijk zijn aan 1. Dus is de kans van elk van de uitkomsten gelijk aan 1/6. Bijgevolg is de kans dat je een 1 werpt ook gelijk aan 1/6 Analoog: wat is de kans dat je een oneven getal werpt? 23

24 HOOFDSTUK 5. KANSREKENING 100 80 Frequentie van enen (%) 60 40 20 0 0 2000 4000 6000 8000 10000 Aantal worpen Figuur 5.1: Frequentie van enen als je 10.000 maal een dobbelsteen werpt 5.3 De frequentie-interpretatie van kans Je werpt een dobbelsteen en noteert of je een 1 krijgt of niet. Je herhaalt het experiment vele, vele malen. Bij elke worp bereken je het percentage (de relatieve frequentie) van enen tot dan toe, en zet dat percentage uit op een grafiek. Afbeelding 5.1 toont het resultaat van 10.000 herhalingen. Je ziet dat het percentage van enen tendeert naar 16,67% (de horizontale stippellijn). De frequentie-interpretatie van kans stelt dat de kans van een gebeurtenis het percentage is waarnaar de relatieve frequentie neigt als je het kansexperiment vele malen herhaalt, onafhankelijk van elkaar en onder dezelfde omstandigheden (Freedman et al., 2007, p. 222). Voer dit experiment zelf uit. Het script kan je hier terugvinden: http://homepages.vub.ac.be/~lmahens/sta101b.html als dobbelsteen-werpen.r. Dit is een script geschreven in R, een statistische programmeeromgeving die door vele statistici wordt gebruikt. R is openbronprogrammatuur en dus gratis. Copieer het script. Open een nieuw tabblad en ga naar Rweb, waar je de statistische programmeeromgeving R kan gebruiken vanuit een internetbladerprogramma zonder dat je R op je computer moet

5.4. REKENREGELS VOOR KANSEN 25 installeren: http://pbil.univ-lyon1.fr/rweb/ Verwijder eerst alles uit het venster bovenaan (data(meaudret) enz.). Plak dan het script in het venster en klik op de Submit -knop. Wacht even tot je Results from Rweb ziet. Scroll naar beneden om de grafiek te zien. Wat stel je vast? Herhaal enkele keren. Is er een vast patroon? 5.4 Rekenregels voor kansen (als de tijd het toelaat, komen we hier op terug) Complementregel: P (A) = 1 P (niet A) Conditionele (voorwaardelijke) kans: P (B A) Vermenigvuldigingsregel: P (A en B) = P (A) P (B A) Onafhankelijkheid: A en B zijn onafhankelijk als P (B A) = P (B) Somregel: P (A of B) = P (A) + P (B) P (A en B) ( of is hier een inclusieve of: of A, of B, of beide) Voorbeeld van somregel: je trekt een willekeurige kaart uit een grondig geschud kaartspel. Wat is de kans dat je een harten of een dame trekt? P (harten of dame) = P (harten) + P (dame) P (harten en dame) = 13 52 + 4 52 1 52 = 16 52 5.5 Trekken met of zonder teruglegging Beschouw de volgende doos met bonnetjes: 1 2 3 4 5 6 De kans om een even getal te trekken is 3/6. Je trekt nu een willekeurig bonnetje uit de doos, en de uitkomst is 2. Stel dat je het bonnetje terug in de doos stopt, en opnieuw een willekeurig bonnetje uit de doos trekt. Dit noemen we trekken met teruglegging. De (conditionele) kans om bij de tweede trekking een even getal te trekken, gegeven dat je bij de eerste trekking een 2 trok, is: P ( 2de trekking is een even getal 1ste trekking was 2 ) = 3 6 Je merkt dat de conditie ( 1ste trekking was 2 ) geen verschil maakt (P (B A) = P (B)): bij trekking met teruglegging zijn de gebeurtenissen onafhankelijk. Laten we nu een ander kansexperiment beschouwen. Je trekt nu een willekeurig bonnetje uit de doos, en de uitkomst blijkt opnieuw 2 te zijn. Stel dat je het bonnetje nu niet terug in de doos stopt, en opnieuw een willekeurig bonnetje uit de doos trekt. Dit noemen we trekken zonder teruglegging. De doos ziet er bij de tweede trekking zo uit: 1 3 4 5 6

26 HOOFDSTUK 5. KANSREKENING De kans om bij de tweede trekking een even getal te trekken is nu 2/5. Het gaat hier opnieuw om een conditionele kans: P ( 2de trekking is een even getal 1ste trekking was 2 ) = 2 5 Je merkt dat de conditie ( 1ste trekking was 2 ) nu wel een verschil maakt: P (B A) P (B) 2 3 5 6 Bij trekking zonder teruglegging zijn de gebeurtenissen afhankelijk. Je kan een populatie beschouwen als een doos met bonnetjes. Een aselecte steekproef is dan als een trekking zonder teruglegging van n individuën uit de populatie (n is de steekproefgrootte). We komen hierop terug. 5.6 De som van trekkingen Voor de theorie van statistische inferentie zullen we veelvuldig gebruik maken van de som van trekkingen. Bijvoorbeeld: werp een dobbelsteen twee keer, en tel de uitkomsten op. Het kansmodel is: trek twee bonnetjes met teruglegging uit de volgende doos, en tel de uitkomsten op: 1 2 3 4 5 6 In wolframalpha.com: RandomChoice[{1,2,3,4,5,6}] + RandomChoice[{1,2,3,4,5,6}] Herhaal het kansexperiment enkele keren met wolframalpha.com, en schrijf telkens de uitkomst op. Je krijgt iets als {8, 7, 10, 6, 10,... }. Je merkt dat de som van trekkingen onderhevig is aan kansvariabiliteit. De som is een kansvariabele. De som van trekkingen is dus een bondige manier om het volgende te zeggen (Freedman et al., 2007, p. 280): Trek bonnetjes uit een doos. Tel de cijfers op de bonnetjes op. 5.7 Een geschikt kansmodel maken We zullen een populatie modelleren als een doos met bonnetjes. Een aselecte steekproef is dan als een trekking zonder teruglegging van n bonnetjes uit de doos (n is de steekproefgrootte). Om dit kansmodel te gebruiken voor inferentie gaan we gebruik maken van enkele interessante eigenschappen van de som van trekkingen. Het komt er dus op aan om het kansmodel zo te kiezen dat de kansvariabele die we willen bestuderen, overeenkomt met een som van trekkingen. Een voorbeeld zal dit verduidelijken. We werpen een dobbelsteen 25 maal. Stel dat we geïnteresseerd zijn in de vraag: Hoeveel bedraagt de som van de uitkomsten? Wat is een geschikt kansmodel? Wat is de kansvariabele? Een geschikt kansmodel is de doos met bonnetjes:

5.7. EEN GESCHIKT KANSMODEL MAKEN 27 1 2 3 4 5 6 en de kansvariabele is de som van 25 willekeurige trekkingen met teruglegging uit deze doos. Stel nu dat we geïnteresseerd zijn in de volgende vraag: hoeveel keer werpen we een 6? Eerst moeten we een geschikt kansmodel definiëren. Als we een dobbelsteen werpen, kunnen we nu twee soorten uitkomsten hebben: een 6 (gunstig), of een cijfer anders dan een 6 (niet gunstig). We zijn geïnteresseerd in het aantal gunstige resultaten. In dit geval is een geschikt kansmodel een doos met bonnetjes: 0 0 0 0 0 1 De nullen staan hierbij voor een ongunstig resultaat (een cijfer anders dan een 6) en de enen voor een gunstig resultaat (een 6). Wat is dan de kansvariabele (het aantal zessen in 25 worpen)? De kansvariabele is in dit geval (net zoals in het vorige geval) de som van de trekkingen! In het eerste geval (het totaal aantal ogen bij 25 worpen) kwam het erop aan om gewoon de cijfers op de bonnetjes op te tellen. In het tweede geval (het aantal zessen bij 25 worpen) kwam het erop aan om het resultaat van de worp te classificeren (een zes of niet?) en het aantal gunstige resultaten te tellen. In dat geval gebruiken we een kansmodel waarbij in de doos enkel nullen en enen zitten: de nullen voor een ongunstig resultaat en de enen voor een gunstig resultaat. Zo n doos zullen we voortaan kortweg een 0-1-doos noemen. Het onderscheid tussen optellen enerzijds en classificeren & tellen anderzijds is dus belangrijk. Een praktijkvoorbeeld. Je bent de marketingmanager van een nieuwe aanbieder van digitale kabel-tv in het Brussels Gewest. Je wil nagaan welk percentage van gezinnen in het Brussels Gewest al een abonnement op digitale kabeltelevisie heeft. In dit geval is het een goed idee om de populatie te modelleren als een doos met bonnetjes. Er zijn evenveel bonnetjes als gezinnen. Op het bonnetje staat een 0 als het gezin geen digitale kabeltelevisie heeft, en een 1 als het gezin wel digitale kabel-tv heeft. Je steekproef is dan als een trekking zonder teruglegging van een aantal bonnetjes uit deze doos. Het aantal gezinnen met digitale kabeltelevisie in de steekproef is de som van de trekkingen. Het percentage van het aantal gezinnen met digitale kabeltelevisie in de steekproef is: som van de trekkingen steekproefgrootte 100%