Statistische Methoden voor Bedrijfsbeheer

Maat: px
Weergave met pagina beginnen:

Download "Statistische Methoden voor Bedrijfsbeheer"

Transcriptie

1 Statistische Methoden voor Bedrijfsbeheer Luc Hens 23 mei 2013 (kleine aanvullingen op p. 59 en 70)

2 ii

3 Woord vooraf Het doelpubliek van deze cursus bestaat uit studenten in de bedrijfskunde zonder voorgaande statistische vorming. Er is geen wiskundige voorkennis vereist. De bedoeling van de cursus is om een inzicht te geven in hoe je statistiek kan gebruiken om beslissingsproblemen in een organisatie (zoals een onderneming of een niet-gouvernemenele organisatie) te helpen oplossen. De cursus stelt je ook in staat om empirische wetenschappelijke artikels uit vaktijdschriften in de bedrijfskunde te begrijpen, en reikt je de instrumenten aan om zelf bijvoorbeeld in je masterproef statistische onderzoeksmethoden toe te passen. De cursus toont ook hoe je statistische berekeningen kan doen met een computer, tablet, of smartphone, gebruik makend van Wolfram Alpha (wolframalpha.com), een computational knowledge engine die gebruik maakt van het programma Mathematica. De gratis versie van Wolfram Alpha werkt enkel met kleine datasets, maar volstaat voor het meeste van wat we in deze cursus zullen doen. Voeg wolframalpha.com toe aan de favorieten van je web-bladerprogramma. Je vindt een overzicht van de commando s in Wolfram Alpha (en enkele R scripts en koppelingen) op mijn webstek: Deze notities zijn deels gebaseerd op het uitmuntende handboek van Freedman et al. (2007). Een ander goed en toegankelijk handboek (verkrijgbaar in het Nederlands) is Moore and McCabe (2006). Voor de correcte vertaling van termen naar het Nederlands gebruikte ik McClave et al. (2003). Kazmier (1995) is een goedkoop en nuttig boek met samenvattingen en opgeloste oefeningen. Ik zal dit document bijwerken als we vorderen in de leerstof. Deze notities (als ze op het einde van het semester volledig zijn), de notities die je maakt tijdens de les, en de praktijkoefeningen zullen volstaan om je voor te bereiden voor het examen. Breng het volgende naar de hoor- en werkcolleges mee: een geplastificeerd examplaar van de tabel van de cumulatieve normale verdeling, een vulpotlood, een gom, een lineaal met centimeterschaal, en A4-ruitjespapier. Op het examen moet je het volgende meebrengen: een geplastificeerd exemplaar van het formuleblad en van de tabel van de cumulatieve normale verdeling (beide zitten achteraan deze notities; als je recto-verso afdrukt geeft dat twee geplasticieerde bladen), een vulpotlood, een gom, een meetlat van 15 of 20 cm met centimeterschaal, een blauwe en een groene pen, Tipp-Ex (facultatief), en je studentenkaart (met foto en geplastificeerd). Geen pennenzak, geen papier, geen rekenmachine (wij zorgen voor een rekenmachine en voor papier), geen papieren zakdoekjes, geen telefoon. Stop alles in een doorschijnend hersluitbaar (Zip-Loc) plastic zakje van 2 of 3 liter. Je mag een flesje water van 50 cl meenemen als je het etiket verwijdert. iii

4 iv WOORD VOORAF Onthou de volgende rekenregels: om een getal (vaak een breuk of een decimale fractie) om te zetten naar een percentage vermenigvuldig je met 100% (niet met 100); neem in je berekeningen steeds de eenheden (cm, kg,,... ) mee.

5 Hoofdstuk 1 Meetschalen De Nationale Bank van België houdt maandelijks een enquête bij consumenten om te peilen naar hun appreciate van de economische toestand en hun vertrouwen. Lees voor meer achtergrondinformatie. De vragenlijst voor de consumentenenquête vind je hier: Overloop even de vragen. De bedoeling van de consumentenenquête is om een en ander te weten te komen over de verwachtingen die de consumenten hebben over macro-economische variabelen zoals inflatie en werkloosheid, en over hun eigen bestedingspatroon en financiële situatie. De populatie (de verzameling van eenheden waarover je iets wil te weten komen) bestaat in dit geval uit alle consumenten van België. Omdat je die natuurlijk niet allemaal elke maand kan bevragen, gebruiken de onderzoekers een steekproef (een deelverzameling van de populatie) om een idee te krijgen van wat álle consumenten denken. In dit geval is de grootte van de steekproef ongeveer 1600 mensen. Statistische inferentie is een methodologie om aan de hand van informatie uit de steekproef veralgemenende conclusies te trekken die bij benadering geldig zijn voor de hele populatie. Dat kan bijvoorbeeld gaan over een schatting van het percentage van alle consumenten die verwachten dat de werkloosheid in de volgende 12 maanden gaat dalen, of van de gemiddelde inflatie die ze voor de volgende 12 maanden verwachten. Beschrijvende statistiek houdt zich bezig met het samenvatten van informatie over de meetwaarden van variabelen uit een steekproef of een populatie in grafieken of kerncijfers. De eerste vraag in de consumentenenquête luidt: Wat is uw geslacht? (man/vrouw) Het geslacht is een variabele: een kenmerk of eigenschap van een eenheid (in dit geval een consument) uit de groep die je wil bestuderen (de populatie). De variabele geslacht kan in dit geval twee meetwaarden aannemen: man of vrouw. Deze meetwaarden kan je niet meten op een natuurlijk voorkomende numerieke schaal; het gaat om een classificatie in een categorie. Dit soort gegevens noemen we kwalitatieve gegevens. Vraag 9 luidt: Met hoeveel percent zijn, volgens u, de consumptieprijzen gestegen/gedaald in de loop van de laatste twaalf maanden? De consumptieprijzen zijn gestegen/gedaald met:... %. De variabele is de (door de consument gepercipieerde) inflatie. Deze variabele neemt numerieke meetwaarden aan zoals 2%, 2,5%, 5% enz. Wanneer we de meetwaarden meten op een natuurlijk voor- 1

6 2 HOOFDSTUK 1. MEETSCHALEN komende numerieke schaal (zoals in dit geval) spreken we van kwantitatieve variabelen. Wat als we het geslacht coderen als een cijfer (bijvoorbeeld man coderen als 0 en vrouw coderen als 1 )? In dat geval meten we de meetwaarden niet op een natuurlijk voorkomende numerieke schaal: we hebben de codes 0 en 1 arbitrair gekozen, en hadden ze net zo goed kunnen omkeren. De variabele geslacht blijft dus een kwalitatieve variabele, ook al gebruiken we numerieke codes om de categorieën aan te duiden. In de volgende twee hoofdstukken beperken we ons tot kwantitatieve variabelen. Oefening. Overloop all vragen van de consumentenenquête. Wat is de variabele die de vraag probeert te meten? Is de variabele kwalitatief of kwantitatief? (Opgepast: vragen 2 en 23 zijn instinkers.)

7 Hoofdstuk 2 Histogram We beperken ons in dit en het volgende hoofdstuk tot de beschrijvende statistiek van kwantitatieve variabelen: hoe kunnen we de informatie over een steekproef of populatie, die vaak vele duizendend meetwaarden van een kwantitatieve variabele bevat, bondig samenvatten? Als van een bepaald aandeel op een dag ongewoon veel stuks worden verhandeld, geeft dat meestal aan dat er iets bijzonders aan de hand is. Tabel 2.1 toont het volume van de verhandelde Apple-aandelen op de NASDAQ-aandelenbeurs op eerste de 50 handelsdagen van Je ziet meteen dat het aantal aandelen dat verhandeld wordt sterk verschilt van dag tot dag. 3

8 4 HOOFDSTUK 2. HISTOGRAM Tabel 2.1: Volumes verhandelde Apple-aandelen op de NASDAQ-beurs tijdens de eerste 50 beursdagen van Bron: nasdaq.com Datum Volume Datum Volume (jjjj/mm/dd) (jjjj/mm/dd) 2013/03/ /02/ /03/ /02/ /03/ /02/ /03/ /02/ /03/ /01/ /03/ /01/ /03/ /01/ /03/ /01/ /03/ /01/ /03/ /01/ /02/ /01/ /02/ /01/ /02/ /01/ /02/ /01/ /02/ /01/ /02/ /01/ /02/ /01/ /02/ /01/ /02/ /01/ /02/ /01/ /02/ /01/ /02/ /01/ /02/ /01/ /02/ /01/ /02/ /01/ Hoe kunnen we deze metingen bondiger en overzichtelijker samenvatten, zodat we een idee krijgen van de typische volumes? Eén manier is om een frequentietabel te maken. Orden eerst de metingen van laag naar hoog: , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , De volumes variëren dus tussen 10,8 en 52,1 miljoen aandelen per dag. Definieer nu de meetklassen waarin je de gegevens wil onderverdelen (niet te

9 5 veel, niet te weinig, en ronde grenswaarden kiezen). Laten we de eerste meetklas definiëren als tot ( inbegrepen, niet), de tweede als tot , enzoverder tot tot Construeer nu een frequentietabel met drie kolommen: meetklasse, absolute frequentie, en relatieve frequentie (tabel 2.2). De absolute frequentie is hoeveel metingen in een meetklas vallen. In de eerste meetklas (van tot ) vallen 13 metingen (tel na!): de absolute frequentie is dus 13. De relatieve frequentie drukt het aantal metingen in een meetklas (de absolute frequentie) uit als een percentage van het totale aantal metingen. In de eerste meetklas (van tot ) is de relatieve frequentie dus: % = 26% 50 Reken zelf de rest van de tabel na. Tabel 2.2: Frequentietabel van de volumes verhandelde Apple-aandelen per dag op de NASDAQ-beurs, eerste 50 beursdagen van 2013 Meetklas Absolute Relatieve (volume in aandelen per dag) frequentie frequentie (%) tot tot tot tot tot tot tot tot tot Som: De som van de absolute frequenties moet gelijk zijn aan het aantal metingen, en de som van de relatieve frequenties moet gelijk zijn aan 100%; als dat niet zo is, heb je rekenfouten gemaakt. Als we de frequenties weergeven in een staafdiagram, met op de horizontale as de variabele (in dit geval: de dagelijkse volumes) en op de verticale as de absolute of relatieve frequentie, krijgen we een frequentiehistogram (afbeelding 2.1). Je ziet in het frequentiehistogram meteen dat beursdagen met volumes tussen de 10 miljoen en de 30 miljoen vaak voorkomen (13, 19, en 12 dagen van de 50 je leest de absolute frequenties af op de verticale as). Er was één beursdag op 50 met een volume tussen 40 miljoen en 45 miljoen aandelen, en één beursdag met een volume tussen 50 miljoen en 55 miljoen aandelen; dit zijn dus eerder zeldzame volumes. In een frequentiehistogram stelt de hoogte van elk staafje de frequentie voor; de oppervlakte van de staafjes heeft geen betekenis. Om redenen die later duidelijk zullen zijn, is het interessanter om een variant van het histogram te gebruiken die densiteitshistogram heet. In een densiteitshistogram stelt de oppervlakte van elk staafje de relatieve frequentie voor; de hoogte van elk staafje meet de densiteit (of dichtheid) van de data in de meetklasse. (Het is

10 6 HOOFDSTUK 2. HISTOGRAM 15 Absolute frequentie Dagelijks volume (in miljoenen) Figuur 2.1: Frequentiehistogram voor de dagelijkse volumes van Apple-aandelen op de NASDAQ-beurs, eerste 50 beursdagen van 2013 belangrijk dat je het verschil tussen frequentiehistogram en densiteitshistogram kent, en dat je een een densiteitshistogram kan construeren voor een lijst met metingen.) Hoe berekenen we de densiteit? De oppervlakte van een rechthoek (zoals de staafjes in een histogram) is gelijk aan (hoogte) (breedte): en dus is: oppervlakte = hoogte breedte relatieve frequentie = densiteit breedte van de meetklasse Deel beide leden door (breedte van het interval) en je krijgt: relatieve frequentie densiteit = breedte van de meetklasse Zo is voor de meetklasse van 10 miljoen tot 15 miljoen aandelen de relatieve frequentie 26%, en dus is de densiteit: densiteit = 26% 15 miljoen aandelen 10 miljoen aandelen

11 7 26% = 5 miljoen aandelen = 5,2%/miljoen aandelen Deze densiteit wordt dus de hoogte van het staafje over de meetklasse van 10 tot 15 miljoen aandelen. De densiteit (of dichtheid) van de metingen over een meetklasse zegt ons welk percentage van alle metingen gemiddeld binnen een interval van één meeteenheid op de horizontale as vallen. In de meetklasse van 10 tot 15 miljoen aandelen valt dus gemiddeld 5,2% van alle 50 metingen tussen 10 en 11 miljoen aandelen, 5,2% tussen 11 en 12 miljoen aandelen, 5,2% tussen 12 en 13 miljoen aandelen, 5,2% tussen 13 en 14 miljoen aandelen, en 5,2% tussen 14 en 15 miljoen aandelen. We snijden de staafjes als het ware in vertical reepjes van één eenheid (in dat geval: 1 miljoen aandelen) breed; de densiteit zegt hoeveel percent van alle metingen in zo n strookje van één eenheid breed valt. De eenheid van de densiteit is dus: percent per eenheid op de horizontale as (in dit geval: percent per miljoen aandelen). De eenheid van de densiteit is dus niet percent. Afbeelding 2.2 toont het densiteitshistogram. Oefening: Bereken aan de hand van de frequentieties in tabel 2.2 de densiteiten voor de andere meetklassen. Ga na of je resultaten overeenkomen met afbeelding 2.2. Stel dat we enkel het densiteitshistogram (afbeelding 2.2) hebben, en niet de frequentietabel. Wat is het percentage van beursdagen waarbij het volume van verhandelde aandelen ligt tussen 20 en 30 miljoen? Wat is (bij benadering) het percentage van beursdagen waarbij het volume van verhandelde aandelen ligt tussen 24 en 27 miljoen? Geef in de grafiek aan wat je antwoord vertegenwoordigt. Conclusie: het percentage aan metingen die tussen twee waarden vallen, is de oppervlakte van het histogram tussen die twee waarden. Wat is de oppervlakte onder het hele histogram? In een densiteitshistogram staat de densiteit (dichtheid) van de gegevens op de verticale as. De oppervlaktes van de staafjes zijn dan percentages. De oppervlakte onder een densiteitshistogram over een interval is gelijk aan het percentage van de metingen die in dat interval vallen. De totale oppervlakte onder een densiteitshistogram is 100% (Freedman et al., 2007, p. 41). Met een densiteitshistogram kan je dingen doen die je met een frequentiehistogram niet kan: metingen die een heuvelvormige verdeling hebben benaderen door de normale curve (hoofdstuk xxx), en een verband leggen tussen densiteitshistogram en kansverdeling (hoofdstuk xxx). In wat volgt gebruiken we enkel nog densiteitshistogrammen. Vorm van een densiteitshistogram Heuvelvormig of niet? Symmetrisch of niet? Scheef naar links, scheef naar rechts.

12 8 HOOFDSTUK 2. HISTOGRAM 6% Densiteit (% per miljoen aandelen) 4% 2% 0% Dagelijks volume (in miljoenen) Figuur 2.2: Densiteitshistogram voor de dagelijkse volumes van Apple-aandelen op de NASDAQ-beurs, eerste 50 beursdagen van 2013

13 Hoofdstuk 3 Gemiddelde en standaarddeviatie 3.1 De centrale tendentie van een histogram Het gemiddelde is een veelgebruikte maat van de centrale tendentie van een lijst van metingen (of van het densiteitshistogram). Je berekent het gemiddelde van een lijst met metingen als volgt: gemiddelde = som van alle metingen hoeveel metingen er zijn Voorbeeld: je hebt een lijst van de prijzen voor eenzelfde fles wijn in vijf restaurants: 2, 2, 4, 5, 7. De gemiddelde prijs is: gemiddelde = = 20 5 = 4 Een nadeel van het gemiddelde is dat het gevoelig is voor extreme waarden. Stel dat de lijst van de prijzen er zo uit ziet: 2, 2, 4, 5, 22. De gemiddelde prijs is dan: gemiddelde = = 35 5 = 7 De ene uitzonderlijk dure fles van 22 trekt het gemiddelde aanzienlijk op. In gevallen zoals dit kunnen we een andere maat van de centrale tendentie gebruiken, namelijk de mediaan. De mediaan is een waarde met de volgende eigenschap: ongeveer de helft van de metingen ligt onder de mediaan en ongeveer de helft ligt erboven (of meer precies: minstens de helft van de metingen ligt op of onder de mediaan en minstens de helft van de metingen ligt op of boven de mediaan). Je vindt de mediaan als volgt: rangschik de metingen van laag naar hoog. De mediaan is de middelste meting (als het aantal metingen oneven is) of het gemiddelde van de twee middenste metingen (als het aantal metingen even is). Zo is de mediaan van 2, 2, 4, 5, 7 gelijk aan 4. De mediaan van 2, 2, 4, 5, 22 is ook gelijk aan 4. Als het densiteitshistogram van je gegevens niet symmetrisch maar scheef is, of als er uitbijters zijn, is het gemiddelde doorgaans geen geschikte maat van 9

14 10 HOOFDSTUK 3. GEMIDDELDE EN STANDAARDDEVIATIE de centrale tendentie. Gebruik in zulke gevallen de mediaan. Een voorbeeld is de verdeling van het netto-vermogen van de gezinnen. Het netto-vermogen is het verschil tussen activa (bezittingen en vorderingen) en passiva (schulden). Het netto-vermogen is zelden negatief, maar kan zeer hoge waarden aannemen. Daardoor geeft het gemiddelde netto-vermogen geen goed idee van de centrale tendentie. Omdat de hoge waarden de verdeling scheeftrekken naar links, is het gemiddelde groter dan de mediaan (schets): in België bedroeg in 2010 het mediane netto-gezinsvermogen euro, en het gemiddelde euro (European Central Bank, 2013, tabel 4.1 p. 76). Economen gebruiken daarom doorgaans het mediane netto-vermogen als maat van de centrale tendentie van de vermogensverdeling. Oefening. In afbeelding 2.2 zie je dat de dagelijkse volumes van Apple-aandelen ook een scheve verdeling hebben: het histogram is scheefgetrokken naar rechts. Het gemiddelde volume is ; bereken zelf de mediaan. Hoe liggen het gemiddelde en de mediaan ten opzichte van elkaar? Is dat wat je had verwacht op basis van de vorm van het histogram? Met Wolfram Alpha (wolframalpha.com) berekent je het gemiddelde en de mediaan van de lijst metingen {2, 2, 4, 5, 7 } als volgt: mean {2, 2, 4, 5, 7 } median {2, 2, 4, 5, 7 } 3.2 De spreiding van een histogram Eén van de manieren om de spreiding van een lijst van metingen (of van het densiteitshistogram ervan) te meten, is te kijken naar hoever de metingen in de lijst van het gemiddelde liggen. We bereken dus eerst het gemiddelde, bijvoorbeeld van de prijzen voor eenzelfde fles wijn in vijf restaurants ( 2, 2, 4, 5, 7): gemiddelde = = 20 5 = 4 Dan berekenen we de deviaties van het gemiddelde, met andere woorden, hoever elke meting onder ( ) of boven (+) het gemiddelde ligt: Dat geeft: deviatie = meting gemiddelde 2 4 = = = = = + 3 Om een idee te krijgen van de spreiding zouden we het gemiddelde kunnen nemen van deze deviaties. Het gemiddelde van de deviaties is echter gelijk aan 0 (ga na!). Dat is altijd zo, ongeacht welke lijst van metingen je neemt: de

15 3.2. DE SPREIDING VAN EEN HISTOGRAM 11 negatieve deviaties heffen de positieve deviaties precies op. Maar als we de mintekens laten vallen (de absolute waarden van de deviaties nemen) krijgen we wel een bruikbare maatstaf van de spreiding van de metingen rond hun gemiddelde: de gemiddelde absolute deviatie. In ons voorbeeld geeft dat: = 8 5 = 1,6 De gemiddelde absolute deviatie van 1,6 wil dus zeggen dat de metingen gemiddeld 1,6 van hun gemiddelde verwijderd liggen. Statistici verkiezen doorgaans echter een andere manier om het gemiddelde van de deviaties te berekenen, namelijk het kwadratisch gemiddelde. Je bekomt dan de standaarddeviatie. De standaarddeviatie (SD) is het kwadratisch gemiddelde (root-mean-square) van de deviaties van het gemiddelde. Onthou dat het kwadratisch gemiddelde de root-mean-square (R-M-S) is, of de vierkantswortel (root) van het gemiddelde (mean) van de kwadraten (square). Eerst kwadrateer je de deviaties, dan neem je het gemiddelde, en tenslotte neem je de vierkantswortel van het resultaat. In ons voorbeeld wordt dat: 1. Kwadrateer de deviaties (square): ( 2) 2 = 2 4 ( 2) 2 = 2 4 ( 0) 2 = 2 0 (+ 1) 2 = 2 1 (+ 3) 2 = 2 9 We zijn de min-tekens kwijt. Merk op dat de eenheden ook gekwadrateerd zijn! 2. Neem vervolgens het gemiddelde (mean) van het resultaten uit de vorige stap: gemiddelde = De eenheid is nog steeds gekwadrateerd! = = 2 3,6 3. Neem tenslotte de vierkantswortel (root) van het resultaat uit de vorige stap: 2 3,6 1,90 De standaarddeviatie heeft dezelfde eenheid als je metingen. In dit geval zijn de metingen in euro; de standaarddeviatie is dan ook in euro. In formulevorm is dat: SD = som van (deviaties) 2 aantal metingen

16 12 HOOFDSTUK 3. GEMIDDELDE EN STANDAARDDEVIATIE (deze formule staat op het formuleblad; je hoeft ze niet van buiten te leren.) Je berekent de standaarddeviatie van een een lijst metingen {2, 2, 4, 5, 7 } als volgt met Wolfram Alpha (wolframalpha.com): population standard deviation {2, 2, 4, 5, 7 } Bovenstaande formule geeft de standaarddeviatie van een populatie. Om redenen waarop we hier niet ingaan, is de standaarddeviatie van een steekproef gelijk aan: som van (deviaties) 2 aantal metingen steekproefgrootte steekproefgrootte 1 (je hoeft deze formule niet te onthouden) Omdat de bijkomende factor groter is dan 1, geeft deze formule geeft een grotere standaarddeviatie. Voor grote steekproeven is het verschil tussen de twee formules echter gering. In de praktijk beschouwen statistici een steekproef doorgaans groot als ze uit minstens 30 metingen bestaat. Bij een populatie van volwassenen bijvoorbeeld ligt de standaarddeviatie van de lichaamslengte doorgaans in de buurt van 10 cm. Als je van een aselecte steekproef van 30 volwassenen de lichaamslengtes meet en de standaarddeviatie berekent, is het verschil tussen beide formules voor de standaarddeviatie minder dan 2 mm (ga na!), en dus uit praktisch oogpunt niet relevant. In oefeningen en op het examen mag je bij grote steekproeven (van meer dan 30 metingen) dan ook de formule voor de SD van een populatie gebruiken. Met Wolfram Alpha gebruik je voor een steekproef de instructie: sample standard deviation {2, 2, 4, 5, 7 } Onthou de volgende regel: Weinig metingen vallen meer dan drie standaarddeviaties van het gemiddelde. 1 Dat is zo voor histogrammen met om het even welke vorm. Metingen die meer dan drie standaarddeviaties van het gemiddelde liggen, noemen we uitbijters (uitzonderlijk kleine of uitzonderlijk grote waarden). Een handige manier om uitbijters te vinden is om voor alle metingen de standaardscore te bereken. De standaardscore van een meting druk uit hoeveel standaarddeviaties de meting onder of boven het gemiddelde ligt: standaardscore van een meting = meting gemiddelde standaarddeviatie Laten we even terugkeren naar de dagelijks verhandelde volumes van Appleaandelen (tabel 2.1). Van de volumes Apple-aandelen die in de eerste 50 handelsdagen van 2013 werden verhandeld (p. 2) is het gemiddelde en de standaarddeviatie Op 14 maart 2013 werden slechts Apple-aandelen verhandeld. Is dat uitzonderlijk weinig? Bereken eerst de stan- 1 Een meer precieze vorm van deze regel (de regel van Tsjebysjev) luidt als volgt: tenminste 8/9 de van de metingen valt binnen drie standaarddeviaties van het gemiddelde, dat wil zeggen binnen het interval [gemiddelde 3 standaarddeviatie, gemiddelde + 3 standaarddeviatie] Bijgevolg ligt ten hoogste 1/9 de van de metingen buiten dat interval.

17 3.2. DE SPREIDING VAN EEN HISTOGRAM 13 daardscore voor : = ,13 De standaardscore 1,13 betekent dat het handelsvolume van aandelen (van 24 januari 2013) 1,13 standaarddeviaties onder het gemiddelde ligt. Omdat de absolute waarde van de standaardscore (dus na weglating van het min-teken: 1,13) kleiner is dan 3, beschouwen we de meting niet als een uitbijter. Oefening. Ga na of de handelvolumes en uitbijters zijn. Standaardscores hebben geen eenheid. Het volgende voorbeeld maakt dit duidelijk. Uit een lijst met de inkomens per hoofd van bijna alle landen van de wereld (de Penn World Table, Heston et al. (2012)) blijkt dat het gemiddelde $ is, en de standaarddeviatie $ Het inkomen per hoofd van België is $ De standaardscore voor het inkomen per hoofd van België is dus: $ $ $ = $ $ ,32 De eenheden ($) in de teller en de eenheden ($) in de noemer vallen tegen elkaar weg; de standaardscore heeft dus geen eenheden. De standaardscore van 1,32 betekent: het inkomen per hoofd van België ligt 1,32 standaarddeviaties boven het gemiddelde van de inkomens per hoofd van alle landen. Is het inkomen per hoofd in België uitzonderlijk hoog (een uitbijter), vergeleken met de andere landen in de lijst? Als het densiteitshistogram de vorm van een heuvel heeft, is de volgende eigenschap van toepassing (de empirische regel): 1. ongeveer 68% van de metingen ligt binnen één standaardafwijking van het gemiddelde, dus in het interval van gem SD tot gem+sd; 2. ongeveer 95% van de metingen ligt binnen twee standaardafwijkingen van het gemiddelde, dus in het interval van gem 2 SD tot gem+2 SD; 3. ongeveer 99,7% van de metingen ligt binnen drie standaardafwijkingen van het gemiddelde, dus in het interval van gem 3 SD tot gem+3 SD Oefening. Van de volumes Apple-aandelen die in de eerste 50 handelsdagen van 2013 werden verhandeld (p. 2) is het gemiddelde en de standaarddeviatie Ga na of de empirische regel een goede benadering geeft door het eigenlijk percentage metingen in het intervals van gem SD tot gem+sd te tellen. Geeft de empirische regel in dit geval een goede benadering? Waarom (niet)? Herhaal voor de intervals van gem 2 SD tot gem+2 SD, en van gem 3 SD tot gem+3 SD. Als we later percentages van een populatie proberen te schatten, gaan we te maken krijgen met lijsten die enkel uit nullen en enen bestaan (0-1-lijsten). Een handige rekenregel 2 luidt als volgt: de standaarddeviatie van een lijst 2 Het bewijs van de rekenregel staat louter ter informatie op de webstek

18 14 HOOFDSTUK 3. GEMIDDELDE EN STANDAARDDEVIATIE metingen die enkel uit nullen en enen bestaat kan snel worden berekend als: ( ) ( ) fractie van fractie van enen nullen Voorbeeld: de standaarddeviatie van {0, 1, 1, 1, 0} is 0,489898; reken na met wolframaplha.com: population standard deviation {0, 1, 1, 1, 0 } Volgens de rekenregel kunnen we de standaarddeviatie snel berekenen als: = 6 25 wat inderdaad ook gelijk is aan 0, (ga na met wolframaplha.com, waar je als volgt een vierkantswortel neemt: sqrt(6/25), of met een rekenmachine). Oefening. Bereken de standaarddeviatie van {1, 1, 1, 1, 0 } op twee manieren: met de gebruikelijke formule (kwadratisch gemiddelde van de deviaties) en met de snelle rekenregel voor 0-1-lijsten. Controleer het resultaat met Wolfram Alpha.

19 Hoofdstuk 4 Een histogram door de normale curve benaderen 4.1 De normale curve Dit zijn de scores van 100 sollicitanten die aan een selectieproef deelnamen: 74, 82, 70, 84, 54, 60, 79, 62, 72, 66, 72, 79, 73, 73, 84, 59, 53, 65, 62, 81, 76, 67, 72, 89, 70, 72, 71, 78, 98, 58, 68, 89, 70, 62, 71, 56, 68, 68, 76, 63, 63, 71, 82, 63, 98, 76, 74, 71, 52, 80, 80, 66, 69, 67, 70, 81, 62, 63, 76, 57, 89, 60, 87, 80, 75, 71, 87, 59, 69, 65, 66, 67, 62, 87, 58, 58, 60, 54, 74, 83, 48, 77, 79, 60, 84, 86, 68, 64, 83, 65, 77, 79, 68, 75, 77, 72, 47, 77, 68, 67 Het gemiddelde van de scores is ongeveer 70, en de standaarddeviatie is ongeveer 10 (deze dataset is te groot om te gebruiken in de gratis versie van woframalpha.com, maar je mag mij op mijn word geloven). Afbeelding 4.1 toont het densiteitshistogram van de scores op de selectieproef. De vorm van het histogram lijkt op een heuvel. Dergelijke heuvelvormige (bell-shaped) histogrammen kan je benaderen door een bijzondere curve die de normale curve heet (of gausscurve, naar de Duitse wiskundige Carl Friedrich Gauss, ). De functie die de normale curve beschrijft is ingewikkeld: y = 1 2π e x2 /2 In de praktijk zal je deze vergelijking niet nodig hebben, en ga je met de normale curve werken aan de hand van afbeeldingen, tabellen, een rekenmachine met statistische functies of een statistisch computerprogramma zoals SPSS, R of Mathematica (via Wolfram Alpha). De vergelijking is die van de standaardnormale curve. Er zijn andere versies van de normale curve, maar die hebben we niet nodig. In wat volgt zal ik het over steeds over de standaardnormale curve hebben als ik spreek van de normale curve. 15

20 16 HOOFDSTUK 4. EEN HISTOGRAM BENADEREN 3% Densiteit (% per punt) 2% 1% 0% Score (punten) Figuur 4.1: Densiteitshistogram van 100 scores op een selectieproef Afbeelding 4.2 illustreert de eigenschappen van de standaardnormale curve: 1. de curve is symmetrisch rond 0; 2. de oppervlakte onder de curve is 100% (of 1); 3. de curve ligt altijd boven de horizontale as. We zullen verderop vaak de oppervlaktes onder de normale curve nodig hebben. Onthou alvast de volgende eigenschappen van de standaardnormale curve: 1. de oppervlakte onder de curve tussen 1 en +1 is ongeveer 68%; 2. de oppervlakte onder de curve tussen 2 en +2 is ongeveer 95%; 3. de oppervlakte onder de curve tussen 3 en +3 is ongeveer 99,7% (dit staat niet op je formuleblad; je moet deze eigenschap van buiten leren) Statistici gebruiken in de praktijk altijd een statistische rekenmachine of een statistisch computerprogramma om oppervlaktes onder de standaardnormale curve te berekenen. In Wolfram Alpha (wolframalpha.com) bereken je oppervlaktes onder de standaard-normale curve als volgt. De oppervlakte onder de standaardnormale curve tussen 1 en +2 is: Probability[-1 < x < 2] De oppervlakte onder de standaardnormale curve tussen 1 en oneindig is:

21 4.2. STATISTISCHE TABELLEN GEBRUIKEN Percent per standaardeenheid Standaardeenheden Figuur 4.2: De standaardnormale curve Probability[-1 < x < infinity] De oppervlakte onder de standaardnormale curve tussen min oneindig en +1 is: Probability[-infinity < x < 1] 4.2 Statistische tabellen gebruiken Als je geen statistische rekenmachine hebt of geen toegang hebt tot een statistische computerprogramma, kan je een tabel van de cumulatieve standaardnormale verdeling gebruiken, die je in elk handboek statistiek kan terugvinden (en op de voorlaatste pagina van deze notities). De tabel bevat waarden van de oppervlakte onder de standaardnormale curve van min oneindig tot een bepaalde waarde op de x-as (schets op bord). Bereken, om de opmaak van de tabel te begrijpen, met Wolfram Alpha de oppervlakte onder de normale curve tussen min oneindig en 1,67: Probability[-infinity < x < 1.67] Met de tabel vind je deze oppervlakte als volgt. Ga eerst naar de regel met 1.6. Ga dan naar rechts tot je in de kolom met de hondertallen 0.07 ziet staan. De waarde in de cel van de tabel waar je nu bent is de oppervlakte onder de normale curve tussen min oneindig en 1,67, afgerond tot vier cijfers na de komma. De oppervlakte is 0,9525, of 0, % = 95,25%. De tabel van de cumulatieve standaard-normale verdeling geeft dus alle waarden die je met Wolfram Alpha

22 18 HOOFDSTUK 4. EEN HISTOGRAM BENADEREN kan terugvinden met: Probability[-infinity < x < 0.00] Probability[-infinity < x < 0.01] Probability[-infinity < x < 0.02]... Probability[-infinity < x < 3.99] Oefening. Zoek in de tabel de oppervlakte onder de standaardnormale curve tussen min oneindig en 1,73. Verifieer met Wolfram Alpha (opgelet: in het Engels gebruik je een punt om de decimalen te scheiden van de eenheden). Om met een statistische tabel oppervlaktes onder de normale curve tussen min oneindig en een negatieve waarde (bijvoorbeeld 1,73) te vinden, of tussen twee waarden zoals 1,73 en +0,85, moet je enkele truukjes gebruiken. Begin steeds met een schets van de normale curve en arceer de oppervlakte die je zoekt. Benoem de oppervlaktes van links naar rechts als a, b, c. Probeer dan de oppervlakte die je zoekt uit te drukken als een som of verschil van oppervlaktes in de linkerstaart van een normale curve (want dat zijn de oppervlaktes die in een tabel van de cumulatieve normale verdeling staan). Maak gebruik van de eigenschappen van de normale curve: de normale curve is symmetrisch en de oppervlakte onder de normale curve is 1 (of 100%). Voorbeeld 1. Zoek met behulp van de tabel de oppervlakte onder de normale curve tussen 1,73 en plus oneindig. Oplossing. De oppervlakte onder de normale curve is 1, en dus is de oppervlakte tussen 1,73 en plus oneindig gelijk aan 1 (oppervlakte tussen min oneindig en 1,73). De oppervlakte tussen min oneindig en 1,73 kan je vinden in de tabel: 0,9582. Dus de oppervlakte tussen 1,73 en plus oneindig is gelijk aan: 1 0,9582 = 0,0418 = 0, % = 4,18%. Verifieer met wolframalpha.com: Probability[1.73 < x < infinity] Voorbeeld 2. Zoek met behulp van de tabel de oppervlakte onder de normale curve tussen min oneindig en 1,73. Oplossing. De normale curve is symmetrisch, en dus is de oppervlakte tussen min oneindig en 1,73 gelijk aan de oppervlakte tussen 1,73 en plus oneindig. De oppervlakte tussen 1,73 en plus oneindig is 4,18% (voorbeeld 1), dus is de oppervlakte tussen min oneindig en 1,73 ook gelijk aan 4,18%. Verifieer met wolframalpha.com: Probability[-infinity < x < -1.73]. Voorbeeld 3. Zoek met behulp van de tabel de oppervlakte onder de normale curve tussen 1,73 en +0,85. Oplossing. Schets: [invoegen; gebieden a, b, c]. De oppervlakte tussen 1,73 en +0,85 (b) is gelijk aan oppervlakte a + b - oppervlakte a, of: (oppervlakte tussen min oneindig en +0,85) ( oppervlakte tussen min oneindig en 1,73) = 0,8023 0,0418 (uit de tabel) = 0,7605 Verifieer met wolframalpha.com: Probability[-1.73 < x < 0.85]

23 4.3. DE NORMALE BENADERING 19 Voorbeeld 4. Zoek met behulp van de tabel de oppervlakte onder de normale curve tussen 3,91 en plus oneindig. Oplossing. De oppervlakte onder de normale curve is 1, en dus is de oppervlakte tussen 3,91 en plus oneindig gelijk aan 1 (oppervlakte tussen min oneindig en 3,90). De oppervlakte tussen min oneindig en 3,90 die je kan je vinden in de tabel is: 1,0000. Dus de oppervlakte tussen 3,90 en plus oneindig is gelijk aan: 1 1,0000 = 0. Maar is de oppervlakte tussen min oneindig en 3,90 echt precies gelijk aan 1,0000? Neen: dee chte oppervlakte is kleiner dan 1. Omdat alle cijfers in de tabel afgerond zijn tot 4 cijfers na de komma, is de echte oppervlakte 0,99995 of meer. Bijgevolg is de oppervlakte tussen tussen 3,90 en plus oneindig kleiner dan: 1 0,99995 = 0,00005 = 0,005% (5 duizendsten van een percent). Verifieer met wolframalpha.com: Probability[3.90 < x < infinity]. Hetzelfde geldt alle oppervlaktes onder de standaardnormale curve tussen cijfers groter dan 3,90 en plus oneindig: deze oppervlaktes zijn zeer klein (kleiner dan 5 duizendsten van een percent). Oefening. Zoek met behulp van de tabel de oppervlakte onder de standaardnormale curve tussen 1,87 en plus oneindig. Verifieer met Wolfram Alpha (opgelet: in het Engels gebruik je een punt om de decimalen te scheiden van de eenheden). Oefening. Zoek met behulp van de tabel de oppervlakte onder de standaardnormale curve tussen 2 en +2. Verifieer met Wolfram Alpha (opgelet: in het Engels gebruik je een punt om de decimalen te scheiden van de eenheden). Oefening. Zoek met behulp van de tabel de oppervlakte onder de standaardnormale curve tussen min oneindig en 5.2. Verifieer met Wolfram Alpha (opgelet: in het Engels gebruik je een punt om de decimalen te scheiden van de eenheden). Voor het examen moet je deze truukjes kennen, omdat je dan geen toegang hebt tot een statistische rekenmachine of een statistisch computerprogramma. In de praktijk gebruik je echter een statistisch computerprogramma. 4.3 De normale benadering De Belgische statisticus Adolphe Quetelet had in 1870 als eerste het idee om heuvelvormige histogrammen te benaderen door de normale curve (Freedman et al., 2007, p. 78). Laten we terugkeren naar de scores van 100 personen die aan een selectieproef deelnamen. De vorm van het histogram (afbeelding 4.1) lijkt op de normale curve (de rode curve in de grafiek), maar de horizontale schaal verschilt: de meeste metingen liggen tussen 40 en 100, terwijl de meeste waarden van de normale curve liggen tussen 3 en +3; en het centrum van het histogram ligt in de buurt van 70, terwijl het centrum van de normale curve op 0 ligt. Dat kunnen we oplossen door van alle scores het gemiddelde

24 20 HOOFDSTUK 4. EEN HISTOGRAM BENADEREN (70) af te trekken (we krijgen dan de deviaties van het gemiddelde zie sectie xxxref TOEVOEGENxxx). Daardoor schuift het histogram naar links (als het gemiddelde een positief cijfer is, zoals in dit geval), of naar rechts (als het gemiddelde een negatief cijfer is), en komt het centrum van het histogram op 0. De meeste metingen liggen nu tussen = 30 en = +30. Nu moeten we nog zorgen dat de spreiding van het histogram overeenkomt met de spreiding van de normale curve. Dat doen we door de deviaties te delen door de standaarddeviatie van de metingen (10). We zetten met andere woorden de metingen om in standaardscores: standaardscore van een meting = meting gemiddelde standaarddeviatie Je krijgt dan de volgende lijst: 0,4; 1,2; 0,0;... ; 0,3 (ga na of je zelf de eerste drie waarden kan standaardizeren). Afbeelding 4.3 toont het histogram van de standaardscores. Vergelijk met het histogram van de metingen zelf (afbeelding 4.1): de vorm is precies hetzelfde. 40% 30% Densiteit (% per standaardeenheid) 20% 10% 0% Standaardeenheden Figuur 4.3: Densiteitshistogram van 100 scores op een selectieproef na standaardizatie Bekijk nu het histogram van de scores (afbeelding 4.1). Welk percentage van de sollicitanten scoorden tussen 75 en 85? In het histogram komt dat overeen met de oppervlakte onder het histogram tussen 75 en 85. De gestandaardizeerde scores van 75 en 85 zijn: = +0,5 10

25 4.3. DE NORMALE BENADERING 21 en = +1,5 In het histogram van de gestandaardizeerde scores (afbeelding 4.3) komt het gezochte percentage dus overeen met de oppervlakte onder het histogram tussen +0,5 en +1,5. We kunnen deze oppervlakte benaderen door de oppervlakte onder de normale curve tussen +0,5 en +1,5. De normale benadering zal het staafje over het interval van +0,5 tot +1,0 overschatten, en het staafje over het interval van +1,5 tot +1,5 onderschatten. De oppervlakte onder de normale curve tussen +0,5 en +1,5 is ongeveer 24% (ga na met met wolframalpha.com: Probability[0.5 < x < 1.5] ; je moet op het examen deze oppervlakte kunnen berekenen met de tabel; doe dat als een oefening). Als we de lijst met metingen afgaan, zie we dat 25 van de 100 metingen tussen 75 en 85 vallen (ga na!), of 25%. De normale curve geeft dus een goede benadering. Oefening. Gebruik voor dezelfde dataset de normale curve om bij benadering het percentage van sollicitanten te vinden met scores op de selectieproef tussen 50 en 60. Gebruik de tabel van de cumulatieve standaardnormale verdeling om de oppervlakte te onder de normale curve berekenen en verifieer met wolframalpha.com. Vergelijk het geraamde percentage met het werkelijke percentage. Is de normale benadering goed? In de praktijk kan het nuttig zijn om een histogram te benaderen door de normale curve als we niet beschikken over de eigenlijke metingen. Hier is een voorbeeld. De Graduate Admission Management Test (GMAT) is een veel gebruikte test om kandidaten te selecteren voor een MBA-programma. De score ligt tussen 200 en 800. Het histogram van de scores kan benaderd worden door de normale curve. Als je een score haalt van 773, en het gemiddelde van alle deelnemers was 540 en de standaarddeviatie 100, welk percentage van deelnemers scoorde slechter dan jou? Welk percentage van deelnemers aan de test scoorde beter dan jou? Merk op dat we de gegevens van de individuele metingen niet hebben, en dus ook niet de frequentietabel of het histogram. Maar dankzij de normale benadering kunnen we de vraag (bij benadering) beantwoorden. De oplossing gaat als volgt. Maak eerst een schets van de verdeling, en arceer de oppervlakte die je wil vinden. Zet de grenswaarde(n) van het interval om in standaardeenheden: = +2, Voeg in je schets de standaardeenheden toe op de horizontale as. We zoeken nu de oppervlakte onder de standaardnormale curve tussen min oneindig en +2,33. In de tabel van de cumulatieve standaardnormale verdeling kan je terugvinden dat de oppervlakte gelijk is aan 0,9901, of 99,01% (verifieer de oppervlakte met Wolfram Alpha). Kortom: zowat 99% van de deelnemers had een slechtere score, en minder dan 1% had een betere score je zit bij de beste 1% van alle deelnemers. De techniek om histogrammen te benaderen door de normale curve zal van pas komen bij statistische inferentie.

26 22 HOOFDSTUK 4. EEN HISTOGRAM BENADEREN Oefening. Van 164 volwassen Belgische mannen geboren in 1962 is de gemiddelde lengte 175,7 cm en de standaardafwijking 8,2 cm (Garcia and Quintana- Domeque, 2007). Veronderstel dat de verdeling bij benadering de normale curve volgt (wat bij lengtes vaak het geval is). Wat is bij benadering het percentage van mannen in deze groep met een lengte van 170 cm of minder? Wat is bij benadering het percentage van mannen in deze groep die tussen 170 cm en 180 cm groot zijn? Meer oefeningen Zie het document Reeks 4 Normale verdelingen: Oefeningen #4 op Point- Carré. Oefeningen 1, 3, 4(2), 5, 7 (los 7(5) en 7(6) op met gissen en missen), 8.

27 Hoofdstuk 5 Kansrekening 5.1 Kansexperimenten Voorbeelden van kansexperimenten zijn: een dobbelsteen werpen en het aantal stippen tellen; een munt opgooien en kijken of we kop of munt krijgen; een willekeurige kaart trekken uit een goed geschud spel kaarten en kijken welke kaart we hebben getrokken. We gaan in wat volgt kansexperimenten proberen terug te brengen tot het volgende kansmodel: we modelleren een kansexperiment als willekeurig één of meerdere bonnetjes trekken uit een doos. Zo is een dobbelsteen werpen als willekeurig een bonnetje trekken uit de doos: In wolframalpha.com: RandomChoice[{1,2,3,4,5,6}] Een munt opgooien is als willekeurig een bonnetje trekken uit de doos: kop munt In wolframalpha.com: RandomChoice[{'kop','munt'}] 5.2 De klassieke interpretatie van kans Je werpt een (zuivere) dobbelsteen. Wat is de kans dat je een 1 werpt? Antwoord: Er zijn zes mogelijke uitkomsten. Eén daarvan is gunstig (namelijk de uitkomst 1). Als de dobbelsteen zuiver is, heeft elke uitkomst dezelfde kans. De som van de zes kansen moet gelijk zijn aan 1. Dus is de kans van elk van de uitkomsten gelijk aan 1/6. Bijgevolg is de kans dat je een 1 werpt ook gelijk aan 1/6 Analoog: wat is de kans dat je een oneven getal werpt? 23

28 24 HOOFDSTUK 5. KANSREKENING Frequentie van enen (%) Aantal worpen Figuur 5.1: Frequentie van enen als je maal een dobbelsteen werpt 5.3 De frequentie-interpretatie van kans Je werpt een dobbelsteen en noteert of je een 1 krijgt of niet. Je herhaalt het experiment vele, vele malen. Bij elke worp bereken je het percentage (de relatieve frequentie) van enen tot dan toe, en zet dat percentage uit op een grafiek. Afbeelding 5.1 toont het resultaat van herhalingen. Je ziet dat het percentage van enen tendeert naar 16,67% (de horizontale stippellijn). De frequentie-interpretatie van kans stelt dat de kans van een gebeurtenis het percentage is waarnaar de relatieve frequentie neigt als je het kansexperiment vele malen herhaalt, onafhankelijk van elkaar en onder dezelfde omstandigheden (Freedman et al., 2007, p. 222). Voer dit experiment zelf uit. Het script kan je hier terugvinden: als dobbelsteen-werpen.r. Dit is een script geschreven in R, een statistische programmeeromgeving die door vele statistici wordt gebruikt. R is openbronprogrammatuur en dus gratis. Copieer het script. Open een nieuw tabblad en ga naar Rweb, waar je de statistische programmeeromgeving R kan gebruiken vanuit een internetbladerprogramma zonder dat je R op je computer moet

29 5.4. REKENREGELS VOOR KANSEN 25 installeren: Verwijder eerst alles uit het venster bovenaan (data(meaudret) enz.). Plak dan het script in het venster en klik op de Submit -knop. Wacht even tot je Results from Rweb ziet. Scroll naar beneden om de grafiek te zien. Wat stel je vast? Herhaal enkele keren. Is er een vast patroon? 5.4 Rekenregels voor kansen (als de tijd het toelaat, komen we hier op terug) Complementregel: P (A) = 1 P (niet A) Conditionele (voorwaardelijke) kans: P (B A) Vermenigvuldigingsregel: P (A en B) = P (A) P (B A) Onafhankelijkheid: A en B zijn onafhankelijk als P (B A) = P (B) Somregel: P (A of B) = P (A) + P (B) P (A en B) ( of is hier een inclusieve of: of A, of B, of beide) Voorbeeld van somregel: je trekt een willekeurige kaart uit een grondig geschud kaartspel. Wat is de kans dat je een harten of een dame trekt? P (harten of dame) = P (harten) + P (dame) P (harten en dame) = = Trekken met of zonder teruglegging Beschouw de volgende doos met bonnetjes: De kans om een even getal te trekken is 3/6. Je trekt nu een willekeurig bonnetje uit de doos, en de uitkomst is 2. Stel dat je het bonnetje terug in de doos stopt, en opnieuw een willekeurig bonnetje uit de doos trekt. Dit noemen we trekken met teruglegging. De (conditionele) kans om bij de tweede trekking een even getal te trekken, gegeven dat je bij de eerste trekking een 2 trok, is: P ( 2de trekking is een even getal 1ste trekking was 2 ) = 3 6 Je merkt dat de conditie ( 1ste trekking was 2 ) geen verschil maakt (P (B A) = P (B)): bij trekking met teruglegging zijn de gebeurtenissen onafhankelijk. Laten we nu een ander kansexperiment beschouwen. Je trekt nu een willekeurig bonnetje uit de doos, en de uitkomst blijkt opnieuw 2 te zijn. Stel dat je het bonnetje nu niet terug in de doos stopt, en opnieuw een willekeurig bonnetje uit de doos trekt. Dit noemen we trekken zonder teruglegging. De doos ziet er bij de tweede trekking zo uit:

30 26 HOOFDSTUK 5. KANSREKENING De kans om bij de tweede trekking een even getal te trekken is nu 2/5. Het gaat hier opnieuw om een conditionele kans: P ( 2de trekking is een even getal 1ste trekking was 2 ) = 2 5 Je merkt dat de conditie ( 1ste trekking was 2 ) nu wel een verschil maakt: P (B A) P (B) Bij trekking zonder teruglegging zijn de gebeurtenissen afhankelijk. Je kan een populatie beschouwen als een doos met bonnetjes. Een aselecte steekproef is dan als een trekking zonder teruglegging van n individuën uit de populatie (n is de steekproefgrootte). We komen hierop terug. 5.6 De som van trekkingen Voor de theorie van statistische inferentie zullen we veelvuldig gebruik maken van de som van trekkingen. Bijvoorbeeld: werp een dobbelsteen twee keer, en tel de uitkomsten op. Het kansmodel is: trek twee bonnetjes met teruglegging uit de volgende doos, en tel de uitkomsten op: In wolframalpha.com: RandomChoice[{1,2,3,4,5,6}] + RandomChoice[{1,2,3,4,5,6}] Herhaal het kansexperiment enkele keren met wolframalpha.com, en schrijf telkens de uitkomst op. Je krijgt iets als {8, 7, 10, 6, 10,... }. Je merkt dat de som van trekkingen onderhevig is aan kansvariabiliteit. De som is een kansvariabele. De som van trekkingen is dus een bondige manier om het volgende te zeggen (Freedman et al., 2007, p. 280): Trek bonnetjes uit een doos. Tel de cijfers op de bonnetjes op. 5.7 Een geschikt kansmodel maken We zullen een populatie modelleren als een doos met bonnetjes. Een aselecte steekproef is dan als een trekking zonder teruglegging van n bonnetjes uit de doos (n is de steekproefgrootte). Om dit kansmodel te gebruiken voor inferentie gaan we gebruik maken van enkele interessante eigenschappen van de som van trekkingen. Het komt er dus op aan om het kansmodel zo te kiezen dat de kansvariabele die we willen bestuderen, overeenkomt met een som van trekkingen. Een voorbeeld zal dit verduidelijken. We werpen een dobbelsteen 25 maal. Stel dat we geïnteresseerd zijn in de vraag: Hoeveel bedraagt de som van de uitkomsten? Wat is een geschikt kansmodel? Wat is de kansvariabele? Een geschikt kansmodel is de doos met bonnetjes:

31 5.7. EEN GESCHIKT KANSMODEL MAKEN en de kansvariabele is de som van 25 willekeurige trekkingen met teruglegging uit deze doos. Stel nu dat we geïnteresseerd zijn in de volgende vraag: hoeveel keer werpen we een 6? Eerst moeten we een geschikt kansmodel definiëren. Als we een dobbelsteen werpen, kunnen we nu twee soorten uitkomsten hebben: een 6 (gunstig), of een cijfer anders dan een 6 (niet gunstig). We zijn geïnteresseerd in het aantal gunstige resultaten. In dit geval is een geschikt kansmodel een doos met bonnetjes: De nullen staan hierbij voor een ongunstig resultaat (een cijfer anders dan een 6) en de enen voor een gunstig resultaat (een 6). Wat is dan de kansvariabele (het aantal zessen in 25 worpen)? De kansvariabele is in dit geval (net zoals in het vorige geval) de som van de trekkingen! In het eerste geval (het totaal aantal ogen bij 25 worpen) kwam het erop aan om gewoon de cijfers op de bonnetjes op te tellen. In het tweede geval (het aantal zessen bij 25 worpen) kwam het erop aan om het resultaat van de worp te classificeren (een zes of niet?) en het aantal gunstige resultaten te tellen. In dat geval gebruiken we een kansmodel waarbij in de doos enkel nullen en enen zitten: de nullen voor een ongunstig resultaat en de enen voor een gunstig resultaat. Zo n doos zullen we voortaan kortweg een 0-1-doos noemen. Het onderscheid tussen optellen enerzijds en classificeren & tellen anderzijds is dus belangrijk. Een praktijkvoorbeeld. Je bent de marketingmanager van een nieuwe aanbieder van digitale kabel-tv in het Brussels Gewest. Je wil nagaan welk percentage van gezinnen in het Brussels Gewest al een abonnement op digitale kabeltelevisie heeft. In dit geval is het een goed idee om de populatie te modelleren als een doos met bonnetjes. Er zijn evenveel bonnetjes als gezinnen. Op het bonnetje staat een 0 als het gezin geen digitale kabeltelevisie heeft, en een 1 als het gezin wel digitale kabel-tv heeft. Je steekproef is dan als een trekking zonder teruglegging van een aantal bonnetjes uit deze doos. Het aantal gezinnen met digitale kabeltelevisie in de steekproef is de som van de trekkingen. Het percentage van het aantal gezinnen met digitale kabeltelevisie in de steekproef is: som van de trekkingen steekproefgrootte 100%

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

Statistiek I Samenvatting. Prof. dr. Carette

Statistiek I Samenvatting. Prof. dr. Carette Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

Checklist Wiskunde A HAVO 4 2014-2015 HML

Checklist Wiskunde A HAVO 4 2014-2015 HML Checklist Wiskunde A HAVO 4 2014-2015 HML 1 Hoofdstuk 1 Ik weet hoe je met procenten moet rekenen: procenten en breuken, percentage berekenen, toename en afname in procenten, rekenen met groeifactoren.

Nadere informatie

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken

Nadere informatie

Feedback proefexamen Statistiek I 2009 2010

Feedback proefexamen Statistiek I 2009 2010 Feedback proefexamen Statistiek I 2009 2010 Het correcte antwoord wordt aangeduid door een sterretje. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Een derde van de mannen is

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door

Nadere informatie

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken de rekenregel breuk Ik kan

Nadere informatie

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke Niet de hoogte, wel de oppervlakte Prof. dr. Herman Callaert Aandachtspunten bij - statistische technieken voor een continue veranderlijke - de interpretatie van een histogram - de normale dichtheidsfunctie

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

Samenvattingen 5HAVO Wiskunde A.

Samenvattingen 5HAVO Wiskunde A. Samenvattingen 5HAVO Wiskunde A. Boek 1 H7, Boek 2 H7&8 Martin@CH.TUdelft.NL Boek 2: H7. Verbanden (Recht) Evenredig Verband ( 1) Omgekeerd Evenredig Verband ( 1) Hyperbolisch Verband ( 2) Machtsverband

Nadere informatie

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een

Nadere informatie

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn Statistiek: Spreiding en dispersie 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Met spreiding willen we in één getal uitdrukken hoe verspreid de gegevens zijn: in hoeveel

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen Vandaag Onderzoeksmethoden: Statistiek 2 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Theoretische kansverdelingen

Nadere informatie

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. 3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. Absolute verandering = Aantal 2004 Aantal 1994 = 1625 3070 = -1445 Relatieve verandering = Nieuw Oud Aantal

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Hoofdstuk 4 Kansen. 4.1 Randomheid

Hoofdstuk 4 Kansen. 4.1 Randomheid Hoofdstuk 4 Kansen 4.1 Randomheid Herhalingen en kansen Als je een munt opgooit (of zelfs als je een SRS trekt) kunnen de resultaten van tevoren voorspeld worden, omdat de uitkomsten zullen variëren wanneer

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

1BA PSYCH Statistiek 1 Oefeningenreeks 3 1

1BA PSYCH Statistiek 1 Oefeningenreeks 3 1 Juno KOEKELKOREN D.1.3. OEFENINGENREEKS 3 OEFENING 1 In onderstaande tabel vind je zes waarnemingen van twee variabelen (ratio meetniveau). Eén van de waarden van y is onbekend. Waarde x y 1 1 2 2 9 2

Nadere informatie

Financiële economie. Opbrengsvoet en risico van een aandeel

Financiële economie. Opbrengsvoet en risico van een aandeel Financiële economie Opbrengsvoet en risico van een aandeel Financiële economen gebruiken de wiskundige verwachting E(x) van de opbrengstvoet x als een maatstaf van de verwachte opbrengstvoet, en de standaardafwijking

Nadere informatie

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Basistechnieken 6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. x 0 2 4 6 p(x) ¼ ¼ ¼ ¼ a. Schrijf alle mogelijke verschillende steekproeven van n =

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Populatie: een intuïtieve definitie.... Een

Nadere informatie

A. Week 1: Introductie in de statistiek.

A. Week 1: Introductie in de statistiek. A. Week 1: Introductie in de statistiek. Populatie en steekproef. In dit vak leren we de basis van de statistiek. In de statistiek probeert men erachter te komen hoe we de populatie het beste kunnen observeren.

Nadere informatie

Beschrijvende statistiek

Beschrijvende statistiek Duur 45 minuten Overzicht Tijdens deze lesactiviteit leer je op welke manier centrum- en spreidingsmaten je helpen bij de interpretatie van statistische gegevens. Je leert ook dat grafische voorstellingen

Nadere informatie

Oefeningen statistiek

Oefeningen statistiek Oefeningen statistiek Hoofdstuk De wereld van de kansmodellen.. Tabel A en tabel B zijn de kansverdelingen van model X en van model Y. In beide tabellen is een getal verloren gegaan. Kan jij dat verloren

Nadere informatie

Financiële economie. Luc Hens 7 maart Opbrengsvoet en risico van een aandeel

Financiële economie. Luc Hens 7 maart Opbrengsvoet en risico van een aandeel Financiële economie Luc Hens 7 maart 2016 Opbrengsvoet en risico van een aandeel Financiële economen gebruiken de wiskundige verwachting E(x) van de opbrengstvoet x als een maatstaf van de verwachte opbrengstvoet,

Nadere informatie

1. De wereld van de kansmodellen.

1. De wereld van de kansmodellen. STATISTIEK 3 DE GRAAD.. De wereld van de kansmodellen... Kansmodellen X kansmodel Discreet model Continu model Kansverdeling Vaas Staafdiagram Dichtheidsfunctie f(x) GraJiek van f Definitie: Een kansmodel

Nadere informatie

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2 INHOUDSOPGAVE Leswijzer...3 Beschrijvende Statistiek...3 Kansberekening...3 Inductieve statistiek, inferentiele statistiek...3 Hoofdstuk...3. Drie deelgebieden...3. Frequentieverdeling....3. Frequentieverdeling....4.5

Nadere informatie

11.1 Kansberekeningen [1]

11.1 Kansberekeningen [1] 11.1 Kansberekeningen [1] Kansdefinitie van Laplace: P(gebeurtenis) = Aantal gunstige uitkomsten/aantal mogelijke uitkomsten Voorbeeld 1: Wat is de kans om minstens 16 te gooien, als je met 3 dobbelstenen

Nadere informatie

Statistiek: Herhaling en aanvulling

Statistiek: Herhaling en aanvulling Statistiek: Herhaling en aanvulling 11 mei 2009 1 Algemeen Statistiek is de wetenschap die beschrijft hoe we gegevens kunnen verzamelen, verwerken en analyseren om een beter inzicht te krijgen in de aard,

Nadere informatie

Werkblad 1 Normale dichtheidsfunctie als benadering voor een klokvormig histogram

Werkblad 1 Normale dichtheidsfunctie als benadering voor een klokvormig histogram Werkblad 1 Normale dichtheidsfunctie als benadering voor een klokvormig histogram Probeer zeker de opdrachten 1, 4 en 6 te maken. 1. In de tabel hieronder vind je gegevens over de borstomtrek van 5732

Nadere informatie

4.1 Negatieve getallen vermenigvuldigen [1]

4.1 Negatieve getallen vermenigvuldigen [1] 4.1 Negatieve getallen vermenigvuldigen [1] Voorbeeld 1: 5 x 3 = 15 (3 + 3 + 3 + 3 + 3 = 15) Voorbeeld 2: 5 x -3 = -15 (-3 +-3 +-3 +-3 +-3 = -3-3 -3-3 -3 = -15) Voorbeeld 3: -5 x 3 = -15 Afspraak: In plaats

Nadere informatie

Statistiek, gegevens en een kritische houding

Statistiek, gegevens en een kritische houding Statistiek Hoofdstuk 1. Statistiek, gegevens en een kritische houding 1.1. Statistiek 1.2. De wetenschap statistiek de wetenschap van gegevens verzamelen evalueren (classificeren, samenvatten, organiseren,

Nadere informatie

Inleiding statistiek

Inleiding statistiek Inleiding Statistiek Pagina 1 uit 8 Inleiding statistiek 1. Inleiding In deze oefeningensessie is het de bedoeling jullie vertrouwd te maken met een aantal basisbegrippen van de statistiek, meer bepaald

Nadere informatie

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Learning the Mechanics 6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. De random variabele x wordt tweemaal waargenomen. Ga na dat, indien de waarnemingen

Nadere informatie

Y = ax + b, hiervan is a de richtingscoëfficiënt (1 naar rechts en a omhoog), en b is het snijpunt met de y-as (0,b)

Y = ax + b, hiervan is a de richtingscoëfficiënt (1 naar rechts en a omhoog), en b is het snijpunt met de y-as (0,b) Samenvatting door E. 1419 woorden 11 november 2013 6,1 14 keer beoordeeld Vak Methode Wiskunde A Getal en ruimte Lineaire formule A = 0.8t + 34 Er bestaat dan een lineair verband tussen A en t, de grafiek

Nadere informatie

5,1. Samenvatting door een scholier 1647 woorden 18 oktober keer beoordeeld. Wiskunde A

5,1. Samenvatting door een scholier 1647 woorden 18 oktober keer beoordeeld. Wiskunde A Samenvatting door een scholier 1647 woorden 18 oktober 2010 5,1 4 keer beoordeeld Vak Wiskunde A Samenvatting A2 Recht evenredig Bij een stapgrootte van y hoort een constante eerste augmentatie van x Omgekeerd

Nadere informatie

Kerstvakantiecursus. wiskunde A. Rekenregels voor vereenvoudigen. Voorbereidende opgaven HAVO kan niet korter

Kerstvakantiecursus. wiskunde A. Rekenregels voor vereenvoudigen. Voorbereidende opgaven HAVO kan niet korter Voorbereidende opgaven HAVO Kerstvakantiecursus wiskunde A Tips: Maak de voorbereidende opgaven voorin in een van de A4-schriften die je gaat gebruiken tijdens de cursus. Als een opdracht niet lukt, werk

Nadere informatie

Niveauproef wiskunde voor AAV

Niveauproef wiskunde voor AAV Niveauproef wiskunde voor AAV Waarom? Voor wiskunde zijn er in AAV 3 modules: je legt een niveauproef af, zodat je op het juiste niveau kan starten. Er is de basismodule voor wie de rekenvaardigheden moet

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

8. Analyseren van samenhang tussen categorische variabelen

8. Analyseren van samenhang tussen categorische variabelen 8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde

Nadere informatie

Onderzoeksmethodiek LE: 2

Onderzoeksmethodiek LE: 2 Onderzoeksmethodiek LE: 2 3 Parameters en grootheden 3.1 Parameters Wat is een parameter? Een karakteristieke grootheid van een populatie Gem. gewicht van een 34-jarige man 3.2 Steekproefgrootheden Wat

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

Rekenen met de normale verdeling (met behulp van grafisch rekentoestel)

Rekenen met de normale verdeling (met behulp van grafisch rekentoestel) Rekenen met de normale verdeling (met behulp van grafisch rekentoestel) In 1947 werd in opdracht van N.V. Magazijn De Bijenkorf een statistisch onderzoek verricht naar de lichaamsafmetingen van de Nederlandse

Nadere informatie

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data p 1/31 Beschrijvende

Nadere informatie

Bij het oplossen van een telprobleem zijn de volgende 2 dingen belangrijk: Is de volgorde van de gekozen dingen van belang?

Bij het oplossen van een telprobleem zijn de volgende 2 dingen belangrijk: Is de volgorde van de gekozen dingen van belang? 4. tellen & kansen 4.1 Tellen Herkennen Je kunt een vraag over telproblemen herkennen aan signaalwoorden: - hoeveel mogelijkheden, manieren, routes, volgordes etc. zijn er?, - bereken het aantal mogelijkheden/manieren

Nadere informatie

6.0 Voorkennis AD BC. Kruislings vermenigvuldigen: Voorbeeld: 50 10x. 50 10( x 1) Willem-Jan van der Zanden

6.0 Voorkennis AD BC. Kruislings vermenigvuldigen: Voorbeeld: 50 10x. 50 10( x 1) Willem-Jan van der Zanden 6.0 Voorkennis Kruislings vermenigvuldigen: A C AD BC B D Voorbeeld: 50 0 x 50 0( x ) 50 0x 0 0x 60 x 6 6.0 Voorkennis Herhaling van rekenregels voor machten: p p q pq a pq a a a [] a [2] q a q p pq p

Nadere informatie

Examen HAVO. Wiskunde A1,2

Examen HAVO. Wiskunde A1,2 Wiskunde A1,2 Examen HAVO Hoger Algemeen Voortgezet Onderwijs Tijdvak 1 Donderdag 25 mei 13.30 16.30 uur 20 00 Dit examen bestaat uit 19 vragen. Voor elk vraagnummer is aangegeven hoeveel punten met een

Nadere informatie

Statistiek: Centrummaten 12/6/2013. dr. Brenda Casteleyn

Statistiek: Centrummaten 12/6/2013. dr. Brenda Casteleyn Statistiek: Centrummaten 12/6/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie 1) Nominaal niveau: Gebruik de Modus, dit is de meest frequente waarneming 2) Ordinaal niveau:

Nadere informatie

Samenvatting Statistiek

Samenvatting Statistiek Samenvatting Statistiek De hoofdstukken 1 t/m 3 gaan over kansrekening: het uitrekenen van kansen in een volledig gespecifeerd model, waarin de parameters bekend zijn en de kans op een gebeurtenis gevraagd

Nadere informatie

2 Data en datasets verwerken

2 Data en datasets verwerken Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken 1 Data presenteren 1.4 Oefenen In opdracht van: Commissie Toekomst Wiskunde Onderwijs 1.4 Oefenen Opgave 9 Bekijk de genoemde dataset

Nadere informatie

Uitwerkingen oefeningen hoofdstuk 2

Uitwerkingen oefeningen hoofdstuk 2 Uitwerkingen oefeningen hoofdstuk 2 2.4.1 Basis Verhoudingen 1 13 cm : 390 km, dat is 13 cm : 390.000 m. Dat komt overeen met 13 cm : 39.000.000 cm en dat is te vereenvoudigen tot 1 : 3.000.000. 2 De schaal

Nadere informatie

9.0 Voorkennis. Bij samengestelde kansexperimenten maak je gebruik van de productregel.

9.0 Voorkennis. Bij samengestelde kansexperimenten maak je gebruik van de productregel. 9.0 Voorkennis Bij samengestelde kansexperimenten maak je gebruik van de productregel. Productregel: Voor de gebeurtenis G 1 bij het ene kansexperiment en de gebeurtenis G 2 bij het andere kansexperiment

Nadere informatie

Samenvatting Wiskunde Aantal onderwerpen

Samenvatting Wiskunde Aantal onderwerpen Samenvatting Wiskunde Aantal onderwerpen Samenvatting door een scholier 2378 woorden 4 juni 2005 5,1 222 keer beoordeeld Vak Wiskunde Gelijkvormigheid Bij vergroten of verkleinen van een figuur worden

Nadere informatie

Werkbladen 3 Terugzoeken

Werkbladen 3 Terugzoeken Werkbladen Terugzoeken We keren nu de vraag om. Bij een gegeven percentage (oppervlakte zoeken we de bijbehorende grenswaarde(n. Als voorbeeld zoeken we hoe groot een Nederlandse vrouw anno 97 moest zijn

Nadere informatie

Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8

Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8 Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8 Samenvatting door N. 1410 woorden 6 januari 2013 5,4 13 keer beoordeeld Vak Methode Wiskunde Getal en Ruimte 7.1 toenamediagrammen Interval

Nadere informatie

2. In de klassen 2A en 2B is een proefwerk gemaakt. Je ziet de resultaten in de frequentietabel. 2A 2B

2. In de klassen 2A en 2B is een proefwerk gemaakt. Je ziet de resultaten in de frequentietabel. 2A 2B 1. (a) Bereken het gemiddelde salaris van de werknemers in de tabel hiernaast. (b) Bereken ook het mediale salaris. (c) Hoe groot is het modale salaris hier? salaris in euro s aantal werknemers 15000 1

Nadere informatie

Significante cijfers en meetonzekerheid

Significante cijfers en meetonzekerheid Inhoud Significante cijfers en meetonzekerheid... 2 Significante cijfers... 2 Wetenschappelijke notatie... 3 Meetonzekerheid... 3 Significante cijfers en meetonzekerheid... 4 Opgaven... 5 Opgave 1... 5

Nadere informatie

1.1 Rekenen met letters [1]

1.1 Rekenen met letters [1] 1.1 Rekenen met letters [1] Voorbeeld 1: Een kaars heeft een lengte van 30 centimeter. Per uur brand er 6 centimeter van de kaars op. Hieruit volgt de volgende woordformule: Lengte in cm = -6 aantal branduren

Nadere informatie

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor 4 juni 2012 Het voorkomen van ziekte kan op drie manieren worden weergegeven: - Prevalentie - Cumulatieve incidentie - Incidentiedichtheid In de

Nadere informatie

Hoofdstuk 1: Basisvaardigheden

Hoofdstuk 1: Basisvaardigheden Hoofdstuk 1: Basisvaardigheden Wiskunde VMBO 2011/2012 www.lyceo.nl Hoofdstuk 1: Basisvaardigheden Wiskunde 1. Basisvaardigheden 2. Grafieken en formules 3. Algebraïsche verbanden 4. Meetkunde Getallen

Nadere informatie

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO Leerlingmateriaal 1. Doel van de praktische opdracht Het doel van deze praktische opdracht is om de theorie uit je boek te verbinden met de data

Nadere informatie

GEOGEBRAINSTITUUT. VlAANDEREN

GEOGEBRAINSTITUUT. VlAANDEREN GEOGEBRAINSTITUUT VlAANDEREN Statistiek met GeoGebra Roger Van Nieuwenhuyze Hoofdlector wiskunde HUB, lerarenopleiding Auteur VBTL, Die Keure Pedagogisch begeleider wiskunde VLP roger.van.nieuwenhuyze@skynet.be

Nadere informatie

Onderzoek. B-cluster BBB-OND2B.2

Onderzoek. B-cluster BBB-OND2B.2 Onderzoek B-cluster BBB-OND2B.2 Succes met leren Leuk dat je onze bundels hebt gedownload. Met deze bundels hopen we dat het leren een stuk makkelijker wordt. We proberen de beste samenvattingen voor jou

Nadere informatie

Tentamen Wiskunde A CENTRALE COMMISSIE VOORTENTAMEN WISKUNDE. Datum: 19 december Aantal opgaven: 6

Tentamen Wiskunde A CENTRALE COMMISSIE VOORTENTAMEN WISKUNDE. Datum: 19 december Aantal opgaven: 6 CENTRALE COMMISSIE VOORTENTAMEN WISKUNDE Tentamen Wiskunde A Datum: 19 december 2018 Tijd: 13.30 16.30 uur Aantal opgaven: 6 Lees onderstaande aanwijzingen s.v.p. goed door voordat u met het tentamen begint.

Nadere informatie

Statistiek. Beschrijvend statistiek

Statistiek. Beschrijvend statistiek Statistiek Beschrijvend statistiek Verzameling van gegevens en beschrijvingen Populatie, steekproef Populatie = o de gehele groep ondervragen o parameter is een kerngetal Steekproef = o een onderdeel van

Nadere informatie

Overzicht statistiek 5N4p

Overzicht statistiek 5N4p Overzicht statistiek 5N4p EEB2 GGHM2012 Inhoud 1 Frequenties, absoluut en relatief... 3 1.1 Frequentietabel... 3 1.2 Absolute en relatieve frequentie... 3 1.3 Cumulatieve frequentie... 4 2 Centrum en spreiding...

Nadere informatie

3 In een klas hebben de meisjes en de jongens gemeten hoe lang ze zijn. De resultaten staan in de tabel hieronder.

3 In een klas hebben de meisjes en de jongens gemeten hoe lang ze zijn. De resultaten staan in de tabel hieronder. 4N4p Oefningen statistiek met de rekenmachine 1 De resultaten van een test voor Engels zijn als volgt: 5 9 4 6 7 5 9 6 5 7 6 7 5 8 Voer de cijfers in op de grafische rekenmachine a) Plot en schets een

Nadere informatie

Excel. Inleiding. Het meest gebruikte spreadsheet programma is Excel.

Excel. Inleiding. Het meest gebruikte spreadsheet programma is Excel. Excel Inleiding Het woord computer betekent zoiets als rekenmachine. Daarmee is is eigenlijk aangegeven wat een computer doet. Het is een ingewikkelde rekenmachine. Zelf voor tekstverwerken moet hij rekenen.

Nadere informatie

Grafieken veranderen met Excel 2007

Grafieken veranderen met Excel 2007 Grafieken veranderen met Excel 2007 Hoe werkt Excel? Eerste oefening Hieronder zie je een gedeelte van het openingsscherm van Excel. Let op hoe we alle onderdelen van het werkblad noemen! Aantal decimalen

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 7 juni 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

SOCIALE STATISTIEK (deel 2)

SOCIALE STATISTIEK (deel 2) SOCIALE STATISTIEK (deel 2) D. Vanpaemel KU Leuven D. Vanpaemel (KU Leuven) SOCIALE STATISTIEK (deel 2) 1 / 57 Hoofdstuk 5: Schatters en hun verdeling 5.1 Steekproefgemiddelde als toevalsvariabele D. Vanpaemel

Nadere informatie

2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht?

2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht? 2.1.4 Oefenen Opgave 9 Bekijk de genoemde dataset GEGEVENS154LEERLINGEN. a. Hoe lang is het grootste meisje? En de grootste jongen? b. Welke lengtes komen het meeste voor? c. Is het berekenen van gemiddelden

Nadere informatie

1.Tijdsduur. maanden:

1.Tijdsduur. maanden: 1.Tijdsduur 1 etmaal = 24 uur 1 uur = 60 minuten 1 minuut = 60 seconden 1 uur = 3600 seconden 1 jaar = 12 maanden 1 jaar = 52 weken 1 jaar = 365 (of 366 in schrikkeljaar) dagen 1 jaar = 4 kwartalen 1 kwartaal

Nadere informatie

HOVO statistiek November 2011 1

HOVO statistiek November 2011 1 Principale Componentenanalyse en hockeystick-short centring Principale Componentenanalyse bedacht door Karl Pearson in 1901 Peter Grünwald HOVO 31-10 2011 Stel we hebben een grote hoeveelheid data. Elk

Nadere informatie

werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions

werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions cursus 4 mei 2012 werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions Huiswerk P&D, opgaven Chapter 6: 9, 19, 25, 33 P&D, opgaven Appendix A: 1, 9 doen

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 6 oktober 009 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D Hondt

Nadere informatie

Korte uitleg van twee veelvoorkomende statistische toetsen Veel wetenschappelijke hypothesen kunnen statistisch worden getoetst. Aan de hand van een

Korte uitleg van twee veelvoorkomende statistische toetsen Veel wetenschappelijke hypothesen kunnen statistisch worden getoetst. Aan de hand van een Korte uitleg van twee veelvoorkomende statistische toetsen Veel wetenschappelijke hypothesen kunnen statistisch worden getoetst. Aan de hand van een statistische toets beslis je of een hypothese waar is.

Nadere informatie

VAARDIGHEDEN EXCEL. MEETWAARDEN INVULLEN In de figuur hieronder zie je twee keer de ingevoerde meetwaarden, eerst ruw en daarna netjes opgemaakt.

VAARDIGHEDEN EXCEL. MEETWAARDEN INVULLEN In de figuur hieronder zie je twee keer de ingevoerde meetwaarden, eerst ruw en daarna netjes opgemaakt. VAARDIGHEDEN EXCEL Excel is een programma met veel mogelijkheden om meetresultaten te verwerken, maar het was oorspronkelijk een programma voor boekhouders. Dat betekent dat we ons soms in bochten moeten

Nadere informatie

College 4 Inspecteren van Data: Verdelingen

College 4 Inspecteren van Data: Verdelingen College Inspecteren van Data: Verdelingen Inleiding M&T 01 013 Hemmo Smit Overzicht van deze cursus 1. Grondprincipes van de wetenschap. Observeren en meten 3. Interne consistentie; Beschrijvend onderzoek.

Nadere informatie

Wortels met getallen en letters. 2 Voorbeeldenen met de (vierkants)wortel (Tweedemachts wortel)

Wortels met getallen en letters. 2 Voorbeeldenen met de (vierkants)wortel (Tweedemachts wortel) 1 Inleiding Wortels met getallen en letters WISNET-HBO update sept 2009 Voorkennis voor deze les over Wortelvormen is de les over Machten. Voor de volledigheid staat aan het eind van deze les een overzicht

Nadere informatie

Geld en prijzen op de lange termijn

Geld en prijzen op de lange termijn Geld en prijzen op de lange termijn De geldvoorraad in de eurozone Cijfers over de geldvoorraad in de eurozone vind je in Europan Central Bank, Monthly Bulletin, tabel 2.3. Tabel 2.C geeft de opsplitsing

Nadere informatie

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling Moore, McCabe, and Craig. Introduction to the Practice of Statistics Chapter 5: Sampling Distributions 5.1: The

Nadere informatie

Uitwerkingen Mei Eindexamen VWO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Uitwerkingen Mei Eindexamen VWO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Uitwerkingen Mei 2012 Eindexamen VWO Wiskunde A Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Schroefas Opgave 1. In de figuur trekken we een lijn tussen 2600 tpm op de linkerschaal en

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 5 oktober 007 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D Hondt

Nadere informatie

De normale verdeling

De normale verdeling De normale verdeling Les 2 De klokvorm en de normale verdeling (Deze les sluit aan bij paragraaf 8 en 9 van Binomiale en normale verdelingen van de Wageningse Methode) De grafische rekenmachine Vooraf

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

Wiskunde De Normale en Binomiale Verdeling. Geschreven door P.F.Lammertsma voor mijn lieve Avigail

Wiskunde De Normale en Binomiale Verdeling. Geschreven door P.F.Lammertsma voor mijn lieve Avigail Wiskunde De Normale en Binomiale Verdeling Geschreven door P.F.Lammertsma voor mijn lieve Avigail Opmerkingen vooraf Wiskunde Pagina 2 uit 20 Opmerkingen vooraf Pak je rekenmachine, de TI-83, erbij en

Nadere informatie

Notatieafspraken bovenbouw, wiskunde A

Notatieafspraken bovenbouw, wiskunde A Notatieafspraken bovenbouw, wiskunde A Bewaar dit document zorgvuldig Het wordt slechts éénmaal verstrekt Dit document bevat afspraken voor de correcte notatie volgens de gehele sectie wiskunde van het

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 7 Dinsdag 11 Oktober 1 / 33 2 Statistiek Vandaag: Populatie en steekproef Maten Standaardscores Normale verdeling Stochast en populatie Experimenten herhalen 2 / 33 3

Nadere informatie

Normale Verdeling Inleiding

Normale Verdeling Inleiding Normale Verdeling Inleiding Wisnet-hbo update maart 2010 1 De Normale verdeling De Normale Verdeling beschrijft het gedrag van een continue kansvariabele x. Om kansen te berekenen, moet de dichtheidsfunctie

Nadere informatie

Uitwerkingen Mei 2012. Eindexamen VWO Wiskunde C. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Uitwerkingen Mei 2012. Eindexamen VWO Wiskunde C. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Uitwerkingen Mei 2012 Eindexamen VWO Wiskunde C Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek I Tjing Opgave 1. Het aantal hoofdstukken in de I Tjing correspondeert met het totale aantal

Nadere informatie

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 2 : Grafische beschrijving van data Marnix Van Daele Marnix.VanDaele@UGent.be Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Grafische beschrijving van data p. 1/35 Soorten meetwaarden

Nadere informatie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Hoofdstuk 8 Het toetsen van nonparametrische variabelen Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn

Nadere informatie

VB: De hoeveelheid neemt nu met 12% af. Hoeveel was de oorspronkelijke hoeveelheid? = 1655 oud = 1655 nieuw = 0,88 x 1655 = 1456

VB: De hoeveelheid neemt nu met 12% af. Hoeveel was de oorspronkelijke hoeveelheid? = 1655 oud = 1655 nieuw = 0,88 x 1655 = 1456 Formules, grafieken en tabellen Procenten - altijd afronden op 1 decimaal tenzij anders vermeld VB: Een hoeveelheid neemt met 12% toe to 1456. Hoeveel was de oorspronkelijke hoeveelheid? Oud =? Nieuw =

Nadere informatie

Hoofdstuk 20: Wiskundige functies

Hoofdstuk 20: Wiskundige functies Hoofdstuk 20: Wiskundige functies 20.0 Introductie Er is een uitgebreid aanbod aan wiskundige functies in Excel, variërend van het simpele + teken tot de esoterische statistiek functies voor een correlatie

Nadere informatie