Statistiek I. Thierry Marchant Vakgroep Data analyse Universiteit Gent

Maat: px
Weergave met pagina beginnen:

Download "Statistiek I. Thierry Marchant Vakgroep Data analyse Universiteit Gent"

Transcriptie

1 Statistiek I Thierry Marchant Vakgroep Data analyse Universiteit Gent Academiejaar

2 Voorwoord Deze cursus is een inleiding tot de statistiek. Veel aandacht wordt aan de interpretaties van de formules en stellingen besteed. Daarom bevat deze cursus veel tekst. Maar men kan niet ernstig statistiek leren zonder een beetje wiskunde. Deze cursus bevat dus ook formules en stellingen. De moeilijkste of formeelste wiskundige definities of stellingen worden vaak door een zwarte streep aangeduid (zoals de volgende paragraaf). De belangrijkste paragrafen zijn toch de andere paragrafen : de paragrafen waar de formules geïnterpreteerd worden. Bijna alle experimenten en data die in deze cursus voorgesteld worden om de statistische begrippen te illustreren zijn fictief en misschien soms niet realistisch. Ze ondersteunen het onderwijs van de statistische redenering. Hun waarde in de psychologie zelf, in de pedagogische wetenschappen of in andere domeinen is nul. Deze cursus bevat 133 oefeningen in de marge. In sommige oefeningen moet de student gewoon enkele berekeningen uitvoeren om vertrouwd te raken met de formules. In sommige oefeningen moet de student de al bestudeerde begrippen of procedures aanpassen aan nieuwe toestanden. Er zijn ook oefeningen waar de student moet nadenken en nog niet geziene begrippen proberen te ontdekken. Enkele begrippen worden in de oefeningen en niet in de tekst gezien. Het is dus zeer belangrijk dat de student alle oefeningen verwoed probeert op te lossen. De lezing van de oplossingen is niet genoeg. Sommige oefeningen zijn zeer moeilijk. De student moet zich niet laten ontmoedigen als hij de oplossing niet heeft kunnen vinden. Het is normaal. Wat belangrijk is, is na te denken, niet noodzakelijk de oplossing te vinden. Deze cursus bevat waarschijnlijk een aantal fouten. Meldingen van fouten kunnen naar Thierry.Marchant@UGent.be gestuurd worden. Ik ben dank verschuldigd aan mijn collega s van de vakgroep data-analyse en aan veel studenten die enkele fouten in de vorige versies hebben verbeterd. Met speciale aandacht bedank ik An Gheysen en Kathleen Peeters die de hele cursus nauwlettend hebben gelezen en die veel fouten hebben verbeterd. 1

3 Inhoudsopgave 1 Inleiding De grafische voorstelling van data d.m.v. een histogram De veralgemening van observaties van een steekproef naar een populatie Is melk gevaarlijk voor de gezondheid? Conclusie I Beschrijvende statistiek 14 2 Basisbegrippen Populatie en steekproef Variabele Budget voor boeken Ordeningstechnieken Reductietechnieken Conclusie Pas op de Wielrenners Tchmil en Spruch Inleiding tot de meettheorie Enkele voorbeelden Schaalfamilies De verschillende meetniveaus Conclusie Ordeningstechnieken Frequentieverdelingen Gegroepeerde frequentieverdelingen

4 5.1.2 Cumulatieve frequentieverdelingen Cumulatieve gegroepeerde frequentieverdelingen Relatieve frequentieverdelingen Grafische voorstellingen Niet cumulatieve frequenties Cumulatieve frequenties Reductietechnieken Maten van centrale tendentie Het rekenkundig gemiddelde De mediaan De modus Welke maat van centrale tendentie moet ik gebruiken? Maten van spreiding De variantie De interkwartiele afstand De variatiebreedte De spreidingsmaat d Bivariate statistiek Inleiding Hoeveel kinderen? De bivariate frequentieverdeling Het spreidingsdiagram (scatter plot) Marginale vs bivariate frequentieverdelingen De gezinsgrootte en de geboortedatum van de moeder De gezinsgrootte en de grootte van het oorspronkelijke gezin van de vader Associatietechnieken De eerste stappen De covariantie De correlatiecoëfficiënt De regressielijn Kendall s τ associatie maat De rangcorrelatiecoëfficiënt van Spearman : r s Conclusie

5 II Kansrekening 18 8 Toevalsvariabelen en kansverdelingen Toevalsproces en gebeurtenis Bewerkingen met gebeurtenissen Toevalsvariabele Continue en discrete toevalsvariabelen Meetniveau Kansen Het begrip kans De kans van de unie van twee gebeurtenissen Afhankelijke gebeurtenissen De kans van de doorsnede van twee gebeurtenissen De kansen van complementaire gebeurtenissen Kansverdelingen Kansverdelingen van discrete variabelen Kansverdelingen van continue variabelen De dichtheidsfunctie Eigenschappen van de dichtheidsfunctie < of? Reductietechnieken Discrete toevalsvariabelen Continue toevalsvariabelen Bivariate kansverdelingen Discrete toevalsvariabelen Continue toevalsvariabelen Afhankelijke toevalsvariabelen De voorwaardelijke verwachting Associatietechnieken Discrete toevalsvariabelen Continue toevalsvariabelen Correlatie en afhankelijkheid Enkele nuttige stellingen Bijzondere kansverdelingen De binomiale variabele Eigenschappen van de binomiale variabele Gebruiksvoorwaarden De normale variabele Hoe gebruikt men de normale verdeling?

6 9.2.2 Waarom is de normale variabele belangrijk? De χ 2 -verdeling De Student of t-verdeling De F -verdeling De parameters De steekproevenverdelingen Een voorbeeld Definities Enkele belangrijke steekproevenverdelingen Enkele toepassingen van steekproevenverdelingen III Inductieve statistiek Inleiding tot de inductieve statistiek Puntschatting Wat is de proportie van twijfelaars? Definities De grootste aannemelijkheid methode Enkele schatters IV Bijlagen 196 A Tabellen en figuren van de oefeningen 197 B Formuleblad 22 C Rechten 24 C.1 Curves C.2 Proportioneel verband C.3 Lineair verband C.4 Van de vergelijking naar de grafische representatie en omgekeerd21 C.4.1 Grafische representatie op basis van de vergelijking C.4.2 Grafische representatie op basis van de richtingscoëfficiënt en een punt (x 1, y 1 ) C.4.3 De vergelijking op basis van de grafische representatie. 211 D Vectoren 212 5

7 E Oefeningen 216 E.1 Opgaves E.1.1 Oefeningenreeks E.1.2 Oefeningenreeks E.1.3 Oefeningenreeks E.1.4 Oefeningenreeks E.1.5 Oefeningenreeks E.1.6 Oefeningenreeks E.2 Antwoorden E.2.1 Oefeningenreeks E.2.2 Oefeningenreeks E.2.3 Oefeningenreeks E.2.4 Oefeningenreeks E.2.5 Oefeningenreeks E.2.6 Oefeningenreeks

8 Hoofdstuk 1 Inleiding Statistiek heeft een slechte reputatie bij studenten in sociale wetenschappen en, in het bijzonder, in psychologie en de pedagogische wetenschappen. Statistiek wordt beschouwd als een nutteloos en verschrikkelijk moeilijk vak. Is het echt moeilijk of niet? Wel, dat hangt af van de student en van zijn motivatie. Natuurlijk wordt zijn motivatie beïnvloed door het feit of hij het nut van statistiek inziet of niet. Laten we dus over het nut van statistiek spreken. Daarom zal ik een aantal voorbeelden voorstellen. 1.1 De grafische voorstelling van data d.m.v. een histogram. Stel dat een journalist een onderzoek omtrent de lonen van arbeiders wil doen. Hij ondervraagt 1 arbeiders. Eén van de vragen is de volgende : Wat is uw huidige netto loon? Streep het gepaste hokje aan. Tussen 1 en 1 25 Euro, Tussen 1 25 en 1 5 Euro, Tussen 1 5 en 1 75 Euro, Tussen 1 75 en 2 Euro, Tussen 2 en 3 Euro, Tussen 3 en 4 Euro. De antwoorden op deze vraag vindt u in Tabel 1.1. Om het resultaat van zijn onderzoek leesbaarder te maken, besluit de journalist grafische voorstellingen te gebruiken. Voor de huidige nettolonen, kiest hij het populaire histogram (zie Fig. 1.1). De verschillende looncategorieën worden op de abscis 7

9 Looncategorieën Aantal arb Tabel 1.1: Lonen van 1 arbeiders in Euro Loon 4 Figuur 1.1: Histogram van de lonen van 1 arbeiders. categorie. Y -as : aantal arbeiders per (horizontaal as) voorgesteld en, boven elke categorie, wordt een rechthoek getekend, waarvan de hoogte gelijk is aan het aantal arbeiders in de overeenkomende categorie. Het voordeel van zo n grafische voorstelling is duidelijk: de lezer heeft onmiddellijk een goed overzicht van de toestand. Maar is dit echt zo? Als we naar Fig. 1.1 kijken, is de door het histogram gemaakte indruk dan gelijk aan de werkelijkheid? Voor de meeste mensen, geeft Fig. 1.1 de visuele indruk dat salarissen tussen 2 en 3 e het vaakst voorkomen en dat salarissen tussen 3 en 4 e ook zeer frequent zijn (omdat onze ogen op de oppervlakte van de kolommen reageren). Toch is dit niet zo in de werkelijkheid : er zijn 28 arbeiders in de categorie 2-3 ; dat is niet veel. In feite, als we de categorie 2-3 in vier gelijke categorieën indelen, dan hebben we ongeveer maar 7 arbeiders per categorie. Delen we ook de categorie 3-4 in in 4 gelijke categorieën, dan bekomen we het histogram van Fig. 1.2 met 12 categorieën. Het histogram van Fig. 1.2 is gelijkvormiger aan de werkelijkheid, omdat de categoriebreedte nu dezelfde is voor alle categorieën. Het is nu duidelijk dat de meest voorkomende verloningen in de categorie te vinden zijn. Maar het is nog niet echt goed. We hebben de 28 arbeiders van categorie 2-3 willekeurig in de vier nieuwe categorieën verdeeld : 7 in elke categorie. Misschien zijn er in werkelijkheid 12 arbeiders in de categorie , 9 in de categorie , 6 in de categorie en 1 in de categorie Er zijn veel mogelijke verdelingen en we kunnen niet op basis van de data 8

10 Figuur 1.2: Histogram van de lonen van 1 arbeiders. categorie. Y -as : aantal arbeiders per kiezen welke de beste is. Alles wat we weten is dat 28 arbeiders zich in de categorie 2-3 bevinden. Daarom is het histogram van Fig. 1.2 nog niet helemaal bevredigend. De data zijn in 6 categorieën ingedeeld en we moeten dus een histogram met 6 categorieën gebruiken, maar we moeten ook het gebrek van Fig. 1.1 vermijden. De oplossing is eenvoudig : we gaan de hoogte van elke rechthoek door de breedte van de overeenkomende categorie delen. Dan moeten we de hoogte van de categorieën , , en door 25 delen, terwijl de hoogte van de twee andere categorieën door 1 gedeeld worden. Het resultaat is Fig Nu krijgen we de indruk dat het diagram overeenstemt met de Figuur 1.3: Histogram van de lonen van 1 arbeiders. Euro. Y -as : aantal arbeiders per werkelijkheid en hebben we geen willekeurige keuze (de verdeling in kleinere categorieën) gedaan. Dit soort probleem is een probleem van beschrijvende statistiek. Beschrijvende statistiek is een verzameling van technieken om data synthetisch voor te stellen of samen te vatten. Gemiddelden, percentielen, variantie, cirkeldiagram (pie charts), enz. zijn andere welbekende technieken van be- 1. Wat representeert de oppervlakte van een rechthoek in het histogram van Fig. 1.3? 1) Het aantal arbeiders in de overeenkomende categorie. 9

11 schrijvende statistiek. Om ze correct te kunnen gebruiken of interpreteren (wanneer ze niet door jullie getekend of berekend worden), om verkeerde gebruiken zoals Fig. 1.1 te kunnen vermijden, is het noodzakelijk ze te bestuderen. Een ander onderzoek (reëel) zal u overtuigen. The American Psychologist is een zeer algemeen maandelijks tijdschrift over psychologie. In de 6 laatste nummers van 1999, gebruikten ongeveer 8% van de artikels beschrijvende statistiek! Wilt u de psychologische literatuur begrijpen, dan moet u beschrijvende statistiek begrijpen. Dit geldt ook voor de dagelijkse lectuur. Neem een gewone krant : ze staat ook vol statistiek. Figuur 1.4: Door statistiek te misbruiken kan je aantonen wat je wil. 1.2 De veralgemening van observaties van een steekproef naar een populatie Voor de 1 arbeiders die onderzocht werden (de steekproef), weten we nu dat de meest voorkomende lonen zich tussen 1 75 en 2 bevinden. Is dit ook zo voor de populatie van alle Belgische arbeiders in 21? Mogen we onze conclusie veralgemenen? Op welke voorwaarden? Dit is het probleem van inductieve statistiek. We gaan een ander voorbeeld gebruiken om de problematiek van inductieve statistiek te illustreren. Een onderzoeker wil de werkzaamheid van een nieuwe leermethode bestuderen. Twintig leerlingen van een school waar deze nieuwe methode gebruikt 1

12 wordt, ondergaan een test na één jaar. De resultaten van deze test zijn in Tabel 1.2 voorgesteld. De grootst mogelijke score is 1; de kleinste is. Score Aantal lln Tabel 1.2: Resultaten van 2 leerlingen Op basis van deze resultaten berekent de onderzoeker het rekenkundig gemiddelde van de resultaten : (1 2) + (2 4) + (3 5) + (3 6) + (5 7) + (2 8) + (3 9) + (1 1) 2 = = De navorser weet nu dat, in zijn steekproef (de 2 leerlingen), de gemiddelde score gelijk aan 6.55 is 1. Mag hij beweren dat de gemiddelde score van alle leerlingen die de nieuwe methode hebben gevolgd of ooit zullen volgen (de populatie) gelijk aan 6.55 is? Mag hij zijn observaties veralgemenen van de steekproef naar de populatie? Natuurlijk is het antwoord neen. Het gemiddelde in de populatie kan groter of kleiner zijn. Misschien zijn er toevallig veel zwakke leerlingen in de steekproef (of omgekeerd). In zo n geval zeggen we dat de steekproef niet representatief voor de populatie is. Wat kunnen we dan doen? Wel, stel nu dat de steekproefgrootte 1 is; we mogen nog niet beweren dat het gemiddelde van de populatie gelijk aan 6.55 is, maar onze onderzoeker zou echt geen geluk hebben als het gemiddelde van de populatie veel van 6.55 zou afwijken. Daarentegen, in het geval van een kleine steekproef (bvb 3 leerlingen), zou hij uiterst veel geluk hebben als het gemiddelde van de populatie niet veel van 6.55 zou afwijken. Dus, beweren we dat het populatiegemiddelde 6.55 is, dan bestaat er een kans dat we een zware fout maken (indien de afwijking groot is). Deze kans varieert onder andere met de grootte van de steekproef. Inductieve (veralgemenende) statistiek stelt ons in staat deze kans te berekenen. Gebruiken we inductieve statistiek, dan kunnen we onze observaties van de steekproef naar de populatie veralgemenen met een bekend risico. En als dit risico te groot is, dan kunnen we beslissen om geen veralgemening te doen. Inductieve statistiek bevat ook technieken om het risico te verkleinen. Waarom is het zo belangrijk onze observaties te veralgemenen? Waarom is het interessant voor onze onderzoeker om het gemiddelde van de populatie 1 Voor de decimale getallen gebruik ik de punt en niet de komma. 11

13 te kennen? Gewoon omdat hij de efficiëntie van de nieuwe leermethode met de klassieke methodes wil vergelijken. Veralgemeningen en vergelijkingen vinden we in alle domeinen van wetenschap. De ingenieur wil de snelheid van een nieuwe computerprocessor met die van een oude vergelijken. De fysicus wil weten of zijn theorie een bepaald verschijnsel correct beschrijft. De geneesheer wil de efficiëntie van een nieuwe behandeling met een oude vergelijken... In al die domeinen zal de onderzoeker eén of meerdere experimenten doen, een steekproef observeren. Dan zal hij conclusies trekken op het niveau van de populatie. Als hij de technieken van inductieve statistiek niet gebruikt en toch veralgemeningen doet, dan kent hij het risico om een fout te maken niet en kan hij dit risico niet verkleinen. We kunnen deze toestand met de volgende vergelijken. Stel dat iemand u een kansspel biedt : indien u wint dan krijgt u 1 e. Indien u verliest, dan moet u 1 e betalen. U kent de regels van het spel niet. U hebt geen idee van uw kans om te winnen. Zal u spelen? 1.3 Is melk gevaarlijk voor de gezondheid? Enkele jaren geleden discussieerde een commissie van de Franse regering over de legalisatie van softdrugs. Een argument van de tegenstanders (onder andere Charles Pasqua, minister van binnenlandse zaken) was het volgende. Negentig procent van de heroïneverslaafden hebben eerst softdrugs gebruikt. Het schijnt dus dat softdrugs een etappe op de weg naar heroïne zijn. Het gebruik van softdrugs verhoogt de kans dat later heroïne wordt gebruikt. We kunnen ons afvragen waar deze 9% vandaan komt. Hebben ze al de heroïneverslaafden onderzocht? Natuurlijk niet. Ze hebben maar een steekproef geobserveerd. Is hun steekproef groot genoeg om te kunnen beweren, met een redelijk risico, dat de proportie in de populatie 9% is? We weten het niet maar we gaan ons op een ander gezichtspunt concentreren. Stel dat 9% een tamelijk goede schatting van de proportie in de populatie is. Is de redenering van de tegenstanders dan correct? We gaan het argument van de tegenstanders een beetje modifiëren en zien wat er gebeurt. Negentig procent van de heroïneverslaafden hebben eerst melk gedronken. Het schijnt dus dat melk een etappe op de weg naar 12

14 heroïne is. Het gebruik van melk verhoogt de kans dat later heroïne wordt gebruikt. De structuur van het argument is dezelfde. En het is ook waar dat 9% van de heroïneverslaafden eerst melk hebben gedronken. In feite is 9% waarschijnlijk een onderschatting. Dit maakt het melkargument nog sterker dan het softdrugs argument. Maar het is nu evident dat de redenering die onder het argument ligt verkeerd is. We gaan geen melk verbieden omdat 9 procent van de heroïneverslaafden tijdens hun kinderjaren melk hebben gedronken. Als de tegenstanders een verband tussen het gebruik van softdrugs en heroïne willen aantonen, dan moeten ze de twee volgende proporties vergelijken : de proportie van softdrugsgebruikers die later heroïneverslaafden worden en de proportie van mensen die geen softdrugs hebben gebruikt en die wel heroïneverslaafden worden. Is de eerste proportie groter dan de tweede, dan hebben ze misschien een argument tegen de legalisatie. Zijn de twee proporties ongeveer gelijk, dan hebben de tegenstanders geen argument. Dit voorbeeld illustreert het feit dat kansen (of proporties) heel gemakkelijk verkeerd gebruikt kunnen worden. Het risico is groot dat u zo n verkeerd gebruik maakt of dat u een verkeerd gebruik in de literatuur niet ontdekt. Toch zijn die verkeerde gebruiken talrijk : er zijn veel mensen die de kansen niet genoeg kennen en die dus kansen verkeerd gebruiken. Er zijn ook mensen die de onwetenheid van de massa gebruiken om bedrieglijke redeneringen te doen. Kansrekening is een gebied van de wiskunde dat het redeneren met kansen bestudeert. Een goede kennis van kansrekening is noodzakelijk om verkeerde redeneringen te kunnen vermijden of ontdekken. Kansrekening is ook noodzakelijk om inductieve statistiek te begrijpen : inductieve statistiek zegt ons hoe groot het risico is dat we een fout maken als we een veralgemening doen. Het berekenen van het risico is natuurlijk op kansrekening gebaseerd. 1.4 Conclusie. U hebt het vastgesteld : statistiek is moeilijk te vermijden. Zonder statistiek kunt u niet veel doen of is het risico groot dat u zware fouten maakt. In deze cursus zal u de beginselen van statistiek en kansrekening leren. 13

15 Deel I Beschrijvende statistiek 14

16 Hoofdstuk 2 Basisbegrippen 2.1 Populatie en steekproef Als iemand schrijft of zegt volgens ons onderzoek, ervaart één persoon op tien op de één of de andere dag een psychologische stoornis, wat bedoelt hij dan? 1. Dat van de 12 personen die hij onderzocht heeft, 12 tenminste al één keer een psychologische stoornis hebben ervaren. 2. Dat van alle Europeanen die in de tweede helft van de XXste eeuw geboren zijn, één op tien tenminste één keer een psychologische stoornis heeft gehad of zal hebben. 3. Dat onder alle personen die geleefd hebben of die zullen leven, één op tien tenminste één keer een psychologische stoornis heeft gehad of zal hebben. 4. Dat, op basis van een onderzoek met 12 proefpersonen, hij met een redelijke betrouwbaarheid tot de volgende schatting kan komen : van alle Europeanen die in de tweede helft van de XXste eeuw geboren zijn, één op tien tenminste één keer een psychologische stoornis heeft gehad of zal hebben Zijn bedoeling is niet echt duidelijk maar we kunnen veronderstellen dat het vierde item het geschiktste is. Dit soort bewering is frequent : de Nederlandse man is 1.82 meter lang (De Standaard, 1 Maart 2); meer dan 4 procent van de Afrikanen moet het stellen met een inkomen dat lager 15

17 ligt dan 1 dollar (De Morgen, 1 Maart 2); gevreesd wordt dat 1 procent van de Britse bedrijven door het virus is getroffen (De Standaard, 11 Mei 2, omtrent het i love you virus); slimme tieners beginnen later aan seks dan tieners met een gemiddelde intelligentie (De Morgen, 1 Maart 2); De meerderheid van de Belgen (54 procent) vindt dat België en Europa niet militair mogen tussenkomen als er na de aanslagen in de Verenigde Staten een oorlog volgt (De Standaard, 14 September 21); De gemiddelde Russische man wordt slechts 59 jaar (De Morgen, 15 juni 27); Belgen staken veel meer dan EU-gemiddelde (Het Laatste Nieuws, 27 augustus 21);... Om dingen te kunnen verduidelijken, gaan we een aantal concepten definiëren. De gehele groep objecten of personen waarover informatie wordt gewenst, wordt de populatie genoemd. Individuele leden van de populatie worden elementen genoemd. Een steekproef is een gedeelte van de populatie dat feitelijk wordt onderzocht om informatie te vergaren. Bijvoorbeeld, in Rubriek 1.1, is de steekproef uit 1 arbeiders samengesteld. Elke arbeider is een element. De populatie is niet vermeld. Het zou de verzameling van alle Belgische arbeiders op 1 januari 21 kunnen zijn. Dat hangt af van het doel van de journalist. In Rubriek 1.2, bestaat de steekproef uit 2 leerlingen terwijl de populatie alle leerlingen die de nieuwe methode hebben gevolgd of ooit zullen volgen bevat. Merk op dat men soms spreekt van de populatie van de scores of de populaties van de lonen, etc. Waarom is het onderscheid tussen populatie en steekproef zo belangrijk? Populaties bevatten vaak (maar niet altijd) veel elementen. Daarom, als we de eigenschappen van de populatie willen kennen, moeten we heel veel tijd, energie en misschien geld spenderen om alle elementen te examineren. Bijvoorbeeld, in het geval van de lonen, om het loon van elke arbeider te kennen, moeten we eerst een lijst van die arbeiders hebben en, daarna, alle arbeiders (een paar miljoenen) contacteren. Dat zou uiterst duur zijn. In het geval van de nieuwe leermethode, is het feitelijk onmogelijk alle elementen 2. Uit wie of wat is de steekproef samengesteld in het inleidende voorbeeld van dit hoofdstuk? 2) De steekproef bevat 12 personen. De populatie is de verzameling van alle Europeanen die in de tweede helft van de XXste eeuw geboren zijn of de verzameling van alle personen die ooit leefden of die zullen leven of de verzameling van... 16

18 van de populatie (alle leerlingen die de nieuwe methode hebben gevolgd of ooit zullen volgen) te examineren. Daarom zal de onderzoeker dikwijls alleen maar een gedeelte van de populatie (een steekproef) examineren en zijn conclusies naar de populatie proberen te veralgemenen. Nochtans zijn er gevallen waar de populatie zo klein is dat men geen steekproef trekt : de hele populatie wordt onderzocht. Bijvoorbeeld, wil men de emotieregulatie van alle spaceshuttle bestuurders bestuderen, dan is het gemakkelijk alle bestuurders te onderzoeken. 2.2 Variabele We hebben al verschillende variabelen ontmoet : het loon van een arbeider en de score van een leerling. Het zijn getallen. Betekent dit dat statistici alleen in getallen geïnteresseerd zijn? Neen. Er zijn veel eigenschappen die in een populatie of in een steekproef variëren en die niet numeriek zijn. Bijvoorbeeld, sociabiliteit, haarkleur, intelligentie, etc. Ook dit zijn variabelen. Het is soms nuttig een niet-numerieke variabele (zoals geslacht) door een numerieke variabele te vervangen of coderen (b.v.b. voor mannelijk en 1 voor vrouwelijk). Een variabele is een eigenschap die bij de elementen van de populatie of van de steekproef variëert. De mogelijke waarden van een numerieke variabele zijn getallen. We kunnen ook onderscheid maken tussen kwalitatieve en kwantitatieve variabelen. Kwantitatieve variabelen zijn variabelen die, in tegenstelling tot kwalitatieve variabelen, een kwantiteit of een hoeveelheid afbeelden. De variabelen geslacht (mannelijk-vrouwelijk zowel als -1) en haarkleur zijn kwalitatief. De variabelen gezinsgrootte of loon zijn 3. Is de variabele lengte kwantitatief. Een ander onderscheid dat later zeer belangrijk zal zijn is het van een man kwantitatief? onderscheid tussen continue en discrete variabelen. 3) Ja, ze is kwantitatief 17

19 Continue variabelen zijn variabelen die continu variëren. Dit betekent dat tussen elke twee willekeurige waarden van deze variabele een derde waarde ligt. Discrete variabelen zijn variabelen die niet continu zijn. De numerieke variabele geslacht (-1) is discreet : tussen de waarden en 1 ligt geen derde waarde. De variabele leeftijd is een continue variabele : tussen de leeftijd 3 en 31 jaar, ligt de leeftijd 3 jaar en 6 maanden. Tussen 3 jaar aan de ene kant en 3 jaar en 6 maanden aan de andere kant, ligt 3 jaar en 3 maanden, enz. Er zijn bijna continue variabelen die zoals continue variabelen worden behandeld. Bijvoorbeeld, de variabele loon die discreet is (tussen e en e ligt er geen ander loon) wordt vaak als continu beschouwd, bij benadering. Maar stricto sensu is loon discreet. Het begrip variabele is centraal in statistiek. Ze laat ons toe een populatie of een steekproef te beschrijven. 18

20 Hoofdstuk 3 Budget voor boeken Kijk naar het volgende voorbeeld. Een socioloog wil het budget dat stedelijke huisgezinnen aan boeken besteden bestuderen. Hij wil dit budget met 4. Wat is de relevante het budget van landelijke huisgezinnen vergelijken. Een steekproef van 187 stedelijke huisgezinnen werd getrokken. Aan elk huisgezin werd gevraagd variabele? Is ze numeriek, kwantitatief, continu? hoeveel ze aan de aankoop van boeken spenderen per maand. De resultaten worden in Tabel 3.1 voorgesteld Tabel 3.1: Budget voor boeken, in Euro per maand. Stedelijke huisgezinnen Kunt u zich de toestand goed voorstellen door te kijken naar Tabel 3.1? Natuurlijk niet. Er zijn zoveel getallen in deze tabel dat het onmogelijk is een goed overzicht te verkrijgen. Toch is deze tabel klein. Tabellen met duizenden gegevens komen frequent voor. Die tabellen bevatten veel infor- 4) De relevante variabele is het budget voor boeken, in Euro. Ze is numeriek, kwantitatief en discreet. 19

21 matie maar de informatie is onbruikbaar. Beschrijvende statistiek bevat een aantal technieken om informatie te ordenen en in een bruikbare vorm te presenteren. 3.1 Ordeningstechnieken Het eerste wat we kunnen doen om de data van Tabel 3.1 te ordenen is eenvoudig. We gaan een nieuwe tabel bouwen met de verschillende geobserveerde waarden van de variabele en, voor elke waarde, het aantal keer dat deze waarde geobserveerd werd. We bekomen Tabel 3.2. Budget Frequentie Budget Frequentie Budget Frequentie Tabel 3.2: Frequentieverdeling van het budget voor boeken, in Euro per maand. Stedelijke huisgezinnen Merk op dat de verschillende waarden van de variabele gerangschikt zijn om de leesbaarheid te verbeteren. Dit soort tabel wordt frequentieverdeling genoemd. We hebben al één stap gemaakt. De nieuwe tabel is veel gemakkelijker te lezen dan de vorige (Tabel 3.1). Misschien kunnen we nu een grafiek gebruiken om de gegevens (de observaties) nog leesbaarder voor te stellen. In Figuur 3.1 is er een lijn voor elke geobserveerde waarde (budget) en de hoogte van de lijn geeft de frequentie voor die waarde. De grafiek van Aantal huisgezinnen 2 1 Budget in Euro Figuur 3.1: Lijndiagram voor het budget voor boeken van 187 stedelijke huisgezinnen. 2

22 Fig. 3.1 wordt lijndiagram genoemd. Dank zij dit lijndiagram hebben we nu een beter idee van de verdeling van de huisgezinnen. Maar we kunnen het nog beter doen : er zijn te veel lijnen en ze zijn onregelmatig verspreid. Dat maakt de grafiek moeilijk te lezen. We gaan dus de data in klassen van gelijke breedte groeperen. Bijvoorbeeld 15 klassen met breedte 5e. De eerste klasse zal dus de budgetten tussen (inbegrepen) en 5 (niet inbegrepen) Euro per maand bevatten; de tweede klasse zal de budgetten tussen 5 (inbegrepen) en 1 (niet inbegrepen) e/maand bevatten, enz. De vijftiende klasse zal de budgetten tussen 7 (inbegrepen) en 75 (niet inbegrepen) e/maand bevatten. Tabel 3.3 stelt de gegroepeerde data voor. Klasse Frequentie Klasse Frequentie [, 5[ 2 [4, 45[ [5, 1[ 15 [45, 5[ 4 [1, 15[ 29 [5, 55[ [15, 2[ 51 [55, 6[ [2, 25[ 27 [6, 65[ 2 [25, 3[ 22 [65, 7[ [3, 35[ 14 [7, 75[ 1 [35, 4[ 2 Tabel 3.3: Gegroepeerde frequentieverdeling van het budget voor boeken, in Euro per maand. Stedelijke huisgezinnen Voor de klasse [ 5[ vinden we een frequentie van 2; dat is de optelling van 2, 2, 1, 5, 6 en 4. Tabel 3.3 wordt een gegroepeerde frequentieverdeling genoemd. Mogen we nu de inhoud van deze gegroepeerde frequentiever- 5. We hebben al twee deling d.m.v. een lijndiagram voorstellen, zoals de frequentieverdeling van Tabel 3.2? Als we dat doen, waar zullen we de lijn met hoogte 29, die met de derde klasse correspondeert, plaatsen? Boven 1, 11, 12.5, 15? Geen van die oplossingen is goed. Elke zou de indruk maken dat 29 huisgezinnen 1 (of 11, 12.5, 15) Euro/maand aan boeken besteden. Maar dat is niet het geval. We gaan dus best een histogram gebruiken. Boven de derde klasse gaan we een rechthoek tekenen met hoogte 29. De breedte van de rechthoek is gelijk aan de breedte van de klasse en we hebben dus niet het probleem dat we met het lijndiagram gehad hebben. Dit histogram vindt u in Fig. 3.2 Nu hebben we iets duidelijks en overzichtelijks. We zien onmiddellijk dat de meeste huisgezinnen minder dan 5 Euro aan boeken besteden, het frequentste budget tussen 15 en 2 Euro ligt, frequentieverdelingen in de inleiding ontmoet. De welke? Zijn ze gegroepeerd of niet? 5) Tabel 1.1 (gegroepeerde) en Tabel 1.2 (niet gegroepeerde). 21

23 Aantal huisgezinnen Budget in Euro/maand Figuur 3.2: Histogram voor het budget voor boeken van 187 stedelijke huisgezinnen. naargelang men verder van het centrale budget (15-2e) gaat, wordt de frequentie kleiner, met één uitzondering: er zijn veel huisgezinnen die minder dan 5 Euro aan boeken besteden. Dit is al een goede analyse, een goede samenvatting. Misschien kunnen 6. Wat is de totale we nog een beter inzicht in ons probleem krijgen door de data (de gegevens) meer samen te vatten. We gaan dus hetzelfde werk doen, maar met 3 klassen oppervlakte van de rechthoeken in Fig. 3.2? in plaats van 15. Eerst berekenen we de gegroepeerde frequentieverdeling (Tabel 3.4). Dan tekenen we het histogram (Figuur 3.3). Op dit histogram Klasse Frequentie [, 25[ 142 [25, 5[ 42 [5, 75[ 3 Tabel 3.4: Gegroepeerde frequentieverdeling van het budget voor boeken, in Euro per maand. Stedelijke huisgezinnen kunnen we ook vaststellen dat de meeste huisgezinnen minder dan 5 Euro per maand aan boeken besteden maar, voor de rest, kunnen we niet veel zien. Er zijn te weinig klassen, we zijn te ver in ons samenvattingsproces gegaan en we hebben te veel informatie verloren. We zullen dus bij ons 15-klassenhistogram blijven. Laten we nu de steekproef met landelijke huisgezinnen onderzoeken. Een steekproef van 123 landelijke huisgezinnen werd getrokken en de antwoorden op de vraag Hoeveel spendeert u maandelijks aan de aankoop van 6) Het is

24 Aantal huisgezinnen Budget in Euro/maand Figuur 3.3: Histogram voor het budget voor boeken van 187 stedelijke huisgezinnen. Drie klassen. boeken zijn in Tabel 3.5 voorgesteld. Er zijn ook zo veel data in deze tabel Tabel 3.5: Budget voor boeken, in Euro per maand. Landelijke huisgezinnen dat het bijna onmogelijk is om een goed idee van de toestand te krijgen. Op basis van deze antwoorden kunnen we een frequentieverdeling of een gegroepeerde frequentieverdeling berekenen en ook een histogram tekenen. Een histogram wordt in Fig. 3.4 gepresenteerd. De klassen hebben dezelfde breedte als in Fig We zien onmiddellijk dat alle huisgezinnen minder dan 4 Euro aan boeken besteden, 7. Bereken de gegroepeerde frequentieverdeling voor de data van Tabel 3.5. Gebruik klassen van breedte 5. de verdeling tamelijk uniform tussen 5 en 3 Euro is, 7) Zie Tabel A.1 in bijlage. 23

25 Aantal huisgezinnen Budget in Euro/maand Figuur 3.4: Histogram voor het budget voor boeken van 123 landelijke huisgezinnen. bijna geen huisgezinnen minder dan 5 Euro aan boeken besteden. De toestand op het platteland is dus zeer verschillend van de toestand in de steden. We kunnen de twee histogrammen (landelijk en stedelijk) proberen 8. De totale oppervlakte van te vergelijken. Bijvoorbeeld, we merken op dat meer mensen tussen 2 en de rechthoeken in Fig. 3.2 is 935. In Fig. 3.4 is dat 25 Euro spenderen in de steekproef met stedelijke huisgezinnen (27 huisgezinnen) dan in de steekproef met landelijke huisgezinnen (19 huisgezinnen). dit? slechts 615. Hoe verklaar je Maar we mogen niet vergeten dat de steekproef met landelijke huisgezinnen kleiner is. Laten we dan in termen van proporties praten. Veertien procent van de stedelijke huisgezinnen in onze steekproef liggen in de klasse [2, 25[ terwijl vijftien procent van de landelijke huisgezinnen in onze steekproef in de klasse [2, 25[ liggen. De proportie is dus kleiner in de steden dan op het platteland. Dit is het tegenovergestelde van onze conclusie toen we in termen van aantal de vergelijking hebben gemaakt. Dit toont aan dat het zeer belangrijk is in termen van proporties te redeneren. Voortaan, telkens als we populaties of steekproeven van verschillende grootte zullen vergelijken, zullen we altijd met relatieve frequenties (proporties) in plaats van frequenties (aantal) werken. In dat geval, zullen we ook van relatieve frequentiever- 9. Bereken de gegroepeerde deling en histogram van de relatieve frequentie spreken (zie b.v.b. tabel 3.6 relatieve frequentieverdeling voor de steekproef met en Fig. 3.5). landelijke huisgezinnen. Uiteindelijk kunnen we de twee steekproeven in een enkele grafiek voorstellen, zoals in Fig Merk op dat de vorm van het histogram in Fig. 3.5 relatieve frequentie voor de Teken het histogram van de gelijk is aan de vorm van het histogram in Fig Dat is te danken aan het feit dat alle frequenties door hetzelfde getal (123) gedeeld worden. steekproef met stedelijke huisgezinnen. 8) Het is gewoon omdat de landelijke steekproef kleiner is dan de stedelijke steekproef. 9) Zie Tabel A.2 en Fig. A.1 in bijlage. 24

26 Klasse Frequentie Relatieve Frequentie, in % [, 5[ 2 11 [5, 1[ 15 8 [1, 15[ [15, 2[ [2, 25[ [25, 3[ [3, 35[ 14 7 [35, 4[ 2 1 [4, 45[ [45, 5[ 4 2 [5, 55[ [55, 6[ [6, 65[ 2 1 [65, 7[ [7, 75[ 1 1 Tabel 3.6: Gegroepeerde relatieve frequentieverdeling van het budget voor boeken, in Euro per maand. Stedelijke huisgezinnen Rel. frequentie in % Budget in Euro/maand Figuur 3.5: Histogram voor het budget voor boeken van 123 landelijke huisgezinnen. 3.2 Reductietechnieken Met de frequentieverdelingen en histogrammen zijn we al zeer ver in onze zoektocht naar duidelijkheid en leesbaarheid geraakt. Toch is het nog moeilijk de twee verdelingen (stad en platteland) te vergelijken. Klasse per klasse kunnen we gemakkelijk zeggen of de relatieve frequentie groter is in de steden of op het platteland. Maar een vergelijking van de twee verdelingen over het geheel kunnen we nog niet maken. Daarom zou het interessant zijn de informatie van een frequentieverdeling d.m.v. een enkel getal samen te vatten. Maar welk getal? Een getal dat de centrale tendens zou vertonen, zou interessant zijn. Bijvoorbeeld het budget dat meest frequent is (met de grootste frequentie). Dit getal wordt modus benoemd. In onze steekproef met de stedelijke gezinnen is de modus gelijk aan 16.5e terwijl de modus van de steekproef met de landelijke gezinnen gelijk aan 7.25e is. De modus van de stedelijke steekproef is dus groter dan de modus van de steekproef met landelijke huisgezinnen. 25

27 Rel. frequentie in % 2 Stad Platteland Budget in Euro/maand Figuur 3.6: Histogram voor het budget voor boeken van 187 stedelijke en 123 landelijke huisgezinnen. Dit blijkt aan te wijzen dat, over het geheel, mensen in de steekproef met stedelijke huisgezinnen meer dan in de steekproef met landelijke huisgezinnen aan boeken spenderen. Maar is deze bewering gegrond? De vergelijking die we pas hebben gedaan, is op de twee frequentste waarden gebaseerd en houdt geen rekening met de rest van de verdelingen. Dit kan een probleem zijn. Stel dat de steekproef met landelijke huisgezinnen een klein beetje verschillend is : er zijn twee huisgezinnen meer die 26e spenderen. Dan is de modus gelijk aan 26 omdat de frequentie van 26 nu gelijk aan 7 is. Als we nu de twee modi vergelijken, dan hebben we de indruk dat huisgezinnen in de steekproef met landelijke huisgezinnen veel meer dan huisgezinnen in de steekproef met stedelijke huisgezinnen spenderen. Onze conclusie is helemaal veranderd ofschoon de verandering in de verdeling gering is. De modus is zeer gevoelig aan kleine frequentieveranderingen. Dit is niet wat we verwachten. Om dit probleem te vermijden, kunnen we met de gegroepeerde frequentieverdeling werken. In dit geval spreken we niet meer van de modus maar van de modale klasse : de klasse met de grootste frequentie. Voor de steekproef met landelijke huisgezinnen is de modale klasse [1, 15[. Veranderen 1. Wat is de modale klasse we nog de frequentie van de huisgezinnen die in de steekproef met landelijke huisgezinnen 26e spenderen (twee meer huisgezinnen), dan blijft de modale klasse [1, 15[. De modale klasse is minder gevoelig dan de modus doordat de klassen verscheidene waarden bevatten. De modale klasse is dus op verschillende waarden gebaseerd maar niet op de hele verdeling. En dit kan soms een probleem zijn. Kijk naar Fig Ze representeert drie hy- voor de steekproef met stedelijke huisgezinnen? 1) De modale klasse is [15, 2[. 26

28 Frequentie Frequentie Frequentie Figuur 3.7: Drie histogrammen met dezelfde modale klasse. pothetische histogrammen met 8 klassen. Alle drie histogrammen hebben dezelfde modale klasse : de vierde klasse. Toch zijn de drie histogrammen zeer verschillend van elkaar. In het middelste histogram staat de modale klasse wel centraal in de verdeling; vanuit een intuïtief standpunt is het een goede maat van centrale tendentie. In het rechtse histogram staat het helemaal niet centraal; vanuit een intuïtief standpunt zou je eerder denken dat de centrale klasse de zesde klasse is. De modale klasse is dus, in dit geval, geen goede maat van centrale tendentie. Dezelfde analyse geldt voor het linkse histogram. Je ziet dus dat de modale klasse goed werkt bij min of meer symmetrische verdelingen (zoals in het midden) maar niet bij sterk asymmetrische verdelingen. Het zou toch interessant zijn over een getal, een maat van de centrale tendens te beschikken die afhankelijk van de hele frequentieverdeling zou zijn. Het rekenkundig gemiddelde (het gewone gemiddelde) is misschien een goede kandidaat om dat te doen. Laten we dan het rekenkundig gemiddelde van de budgetten berekenen. In de steekproef met stedelijke huisgezinnen is het gemiddelde gelijk aan de som van de getallen in Tabel 3.1 door 187 gedeeld, dat is pffff 187 Dat is te lang om te schrijven ; we gaan afkortingen en symbolen gebruiken. In dit hoofdstuk hebben we tot nu toe twee variabelen ontmoet : het maandelijks budget dat stedelijke huisgezinnen aan boeken besteden en het maandelijks budget dat landelijke huisgezinnen aan boeken besteden. Deze namen zijn te lang. We gaan hen X en Y noemen. We gaan eerst X beschouwen. Aan elk getal dat we in de steekproef hebben geobserveerd, gaan we een naam toekennen. Het eerste getal zal x 1 heten. Het tweede getal zal x 2 heten. Enz. Het laatste getal zal x 187 heten. We gaan ook een naam (een symbool) voor de grootte van de steekproef gebruiken : n. De laatste waarde 27

29 van onze steekproef is dus x n. Noemen we x het rekenkundig gemiddelde 11. Stel dat x 1 = 3, x 2 = van de variabele X in de steekproef, dan is het gemiddelde van X gegeven 1, x 3 = 2, x 4 = 5. Hoeveel is x 1x 3? En x 2 2? En door x 2 2? En x x1? x = x 1 + x x n. n De som aan de teller van deze breuk gaan we ook korter schrijven. We gaan de som representeren dmv het symbool (de griekse S of Sigma). En we herschrijven het gemiddelde als x = x 1 + x x n n i=1 = x i n n of x = x 1 + x x n n = 1 n n x i = (3.1) Dit is korter om te schrijven en handiger. Het symbool is het sommatieteken en de formule 1 n n i=1 x i wordt gelezen als één op n maal de som van x i voor i gaande van 1 tot n of één op n maal de som van x i over alle individuen. Laten we nu y (het rekenkundig gemiddelde van de budgetten van landelijke huisgezinnen) berekenen. In dit geval is n gelijk aan 123. i=1 y = 1 n n y i = i=1 Merk op dat we hetzelfde symbool, n, voor de twee steekproefgrootten hebben gebruikt. Om helemaal precies te zijn, zouden we best de symbolen n X en n Y gebruiken. Maar dan wordt de notatie zwaar en moeilijk leesbaar. Daarom, wanneer de context het duidelijk maakt of we van X of van Y spreken, zullen we gewoon n schrijven. Het doel van een symbolische notatie is de leesbaarheid te verhogen; niet omgekeerd. Dankzij het gebruik van het gemiddelde (een reductietechniek) kunnen we nu de twee verdelingen over het geheel vergelijken : we kunnen gewoon de twee getallen x en y vergelijken. Laten we dat doen. Het gemiddelde in de steekproef van stedelijke huisgezinnen (18.417) is bijna hetzelfde als in de steekproef van landelijke huisgezinnen ( ). 12. Stel dat x 1 = 3, x 2 = 5, x 3 = 4. Hoeveel is P 3 i=1 xi? En P 3 P i=2 2xi? 2 i=1 ixi? P 3 Pi=1 3 i=1 (xi + 1)? (xi + x1)? 11) x 1x3 = 3 2 = 6, x2 2 = 1 2 = 2, x2 2 = x4 = 5, xx1 = x 3 = 2. 12) 12; 18; 13, 15,

30 Met andere woorden, x y. 1 Ondanks het grote verschil tussen de twee verdelingen, mogen we dus niet beweren dat, in onze steekproef, landelijke huisgezinnen meer of minder dan stedelijke huisgezinnen spenderen. Misschien kunnen we nu een andere reductietechniek (een techniek die een verdeling tot een getal reduceert, zoals het gemiddelde) gebruiken. Met het gemiddelde hebben we het accent op de centrale tendens gezet : het gemiddelde is een maat die altijd min of meer in het centrum van de verdeling ligt. We gaan nu een andere maat beschouwen, die de nadruk op de spreiding legt. De eenvoudigste spreidingsmaat die we kunnen uitdenken is gewoon de afstand tussen de grootste geobserveerde waarde en de kleinste. Ze wordt variatiebreedte genoemd en haar symbool is v. Dus, voor een variabele X, v X = max n i=1 x i min n i=1 x i. 2 Met andere woorden : de variatiebreedte is gelijk aan de totale spreiding van de verdeling. In ons voorbeeld is de variatiebreedte van X, v X, gelijk aan = 73.5 terwijl v Y = = Het verschil tussen X en Y, in termen van variatiebreedte, is dus enorm : 73.5 ten opzichte van Maar misschien is dit een beetje overdreven. Kijken we naar Fig. 3.6, dan zien we dat X een grote variatiebreedte heeft vanwege een paar elementen met een budget hoger dan 4e. Het is een beetje raar dat die enkele elementen zo n grote invloed op de spreidingsmaat (hier de variatiebreedte) hebben. We gaan dus een andere spreidingsmaat proberen te bouwen. Intuïtief is de spreiding een meting van hoe ver van elkaar de verschillende elementen liggen of hoe ver van het centrum van de 1 Het symbool betekent ongeveer gelijk aan. 2 min k i=1 a i is gelijk aan de kleinste van de k getallen a 1, a 2,... a k. 13. Wat is de variatiebreedte van de variabele loon in het voorbeeld van paragraaf 1.1? 14. Wat denkt u van de variatiebreedte in het geval van het voorbeeld van par. 1.2? Is het een interessante maat? niet kennen omdat de data in klassen gegroepeerd zijn, vanaf het begin van de enquête. De arbeiders duiden niet hun salaris aan maar een categorie. Een redelijke manier om toch verder te kunnen gaan is de volgende. We berekenen de afstand tussen de bovengrens van de laatste klasse en de benedengrens van de eerste klas, dat is 3 Euro. Dit is een goede benadering van de echte variatiebreedte. De echte variatiebreedte is waarschijnlijk kleiner dan 3 e maar niet veel. 14) In de meeste groepen is er een leerling die 1/1 haalt en een andere die nul of bijna nul krijgt. De variatiebreedte is dus meestal gelijk aan 1, soms 9 en zelden minder dan 9. In dit geval heeft dus de variatiebreedte weinig waarde want ze geeft ons weinig informatie. Toch kan de spreiding drastisch variëren. Het kan gebeuren dat de meeste studenten tussen 6 en 9 hebben (kleine spreiding of dat evenveel studenten lage punten krijgen dan hoge punten (grote spreiding). 13) Het probleem met het voorbeeld van par. 1.1 is dat we de kleinste en grootste waarden 29

31 verdeling ze liggen. Beschouwen we het gemiddelde van de verdeling als het centrum van de verdeling, dan is de afstand tussen x 4 en x gelijk aan x 4 x, dat is = We kunnen ook de afstand tussen x 6 en x berekenen; dat is = Enz. Om een samenvatting van 15. Bereken de afstand al deze afstanden te bekomen, kunnen we bijvoorbeeld het gemiddelde van tussen x n en x de afstanden berekenen, dat is Als we dat doen, vinden we dat 1 n 1 n n (x i x). (3.2) i=1 n (x i x) =. i=1 De gemiddelde afstand tussen de elementen en het gemiddelde is nul. Laten we de gemiddelde afstand voor de steekproef met landelijke huisgezinnen ook berekenen. We komen 1 n (y i y) = (3.3) n i=1 uit. Opgelet, n is hier niet dezelfde als in de vergelijking (3.2). We moeten hier de grootte van de steekproef met landelijke huisgezinnen gebruiken. De gemiddelde afstand in de steekproef met landelijke huisgezinnen is dus ook nul. Raar!! Is dit puur toeval? In feite is de gemiddelde afstand tussen de observaties en het rekenkundig gemiddelde altijd nul. Het is een gevolg van de definitie van het gemiddelde : de afstanden tussen het gemiddelde en de elementen op de linkse kant van x zijn negatief en vormen een tegenwicht tegen de afstanden tussen x en de elementen op zijn rechtse kant. Het is altijd zo. De gemiddelde afstand is dus geen goede spreidingsmaat. Dat zegt ons niets over de spreiding. De oorzaak van dit probleem is het feit dat negatieve waarden positieve waarden compenseren. We gaan dus de negatieve waarden positief maken door de absolute waarde te gebruiken. De absolute waarde van een getal z wordt aangeduid door het symbool z en wordt als volgt gedefiniëerd: { z als z, z = z als z <. 15) x n x = x187 x = = Dit is een negatief getal omdat xn kleiner dan x is. 3

Grafische voorstellingen

Grafische voorstellingen Grafische voorstellingen Onderzoek omtrent de lonen. Wat is uw huidige loon. Streep het gepaste hokje aan. q 40 000-45 000 q 45 000-50 000 q 50 000-55 000 q 55 000-60 000 q 60 000-80 000 q 80 000-100 000

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

Inleiding tot de meettheorie

Inleiding tot de meettheorie Inleiding tot de meettheorie Meten is het toekennen van cijfers aan voorwerpen. Koeien Koeien in een kudde, studenten in een auditorium, mensen met een bepaalde stoornis, leerlingen met meer dan 15 in

Nadere informatie

STATISTIEK I Samenvatting

STATISTIEK I Samenvatting STATISTIEK I Samenvatting Academiejaar 2013-2014 Prof. T. MARCHANT Juno KOEKELKOREN 1BA PSYCH Statistiek 1: 2013-2014 1 1BA PSYCH Statistiek 1: 2013-2014 2 DEEL 0 INTODUCTIE INHOUD H 1: INLEIDING 1.1 DE

Nadere informatie

Feedback proefexamen Statistiek I 2009 2010

Feedback proefexamen Statistiek I 2009 2010 Feedback proefexamen Statistiek I 2009 2010 Het correcte antwoord wordt aangeduid door een sterretje. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Een derde van de mannen is

Nadere informatie

1BA PSYCH Statistiek 1 Oefeningenreeks 3 1

1BA PSYCH Statistiek 1 Oefeningenreeks 3 1 Juno KOEKELKOREN D.1.3. OEFENINGENREEKS 3 OEFENING 1 In onderstaande tabel vind je zes waarnemingen van twee variabelen (ratio meetniveau). Eén van de waarden van y is onbekend. Waarde x y 1 1 2 2 9 2

Nadere informatie

Statistiek I Samenvatting. Prof. dr. Carette

Statistiek I Samenvatting. Prof. dr. Carette Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De

Nadere informatie

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

DEEL 3 INDUCTIEVE STATISTIEK INLEIDING TOT DE INDUCTIEVE STATISTIEK 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE

DEEL 3 INDUCTIEVE STATISTIEK INLEIDING TOT DE INDUCTIEVE STATISTIEK 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE DEEL 3 INDUCTIEVE STATISTIEK INHOUD H 10: INLEIDING TOT DE INDUCTIEVE STATISTIEK H 11: PUNTSCHATTING 11.1 ALGEMEEN 11.1.1 Definities 11.1.2 Eigenschappen 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE 11.3

Nadere informatie

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO Leerlingmateriaal 1. Doel van de praktische opdracht Het doel van deze praktische opdracht is om de theorie uit je boek te verbinden met de data

Nadere informatie

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn Statistiek: Spreiding en dispersie 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Met spreiding willen we in één getal uitdrukken hoe verspreid de gegevens zijn: in hoeveel

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

Statistiek: Herhaling en aanvulling

Statistiek: Herhaling en aanvulling Statistiek: Herhaling en aanvulling 11 mei 2009 1 Algemeen Statistiek is de wetenschap die beschrijft hoe we gegevens kunnen verzamelen, verwerken en analyseren om een beter inzicht te krijgen in de aard,

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

Hoofdstuk 5: Steekproevendistributies

Hoofdstuk 5: Steekproevendistributies Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

College 4 Inspecteren van Data: Verdelingen

College 4 Inspecteren van Data: Verdelingen College Inspecteren van Data: Verdelingen Inleiding M&T 01 013 Hemmo Smit Overzicht van deze cursus 1. Grondprincipes van de wetenschap. Observeren en meten 3. Interne consistentie; Beschrijvend onderzoek.

Nadere informatie

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een

Nadere informatie

Examenprogramma wiskunde D vwo

Examenprogramma wiskunde D vwo Examenprogramma wiskunde D vwo Het eindexamen Het eindexamen bestaat uit het schoolexamen. Het examenprogramma bestaat uit de volgende domeinen: Domein A Vaardigheden Domein B Kansrekening en statistiek

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

SOCIALE STATISTIEK (deel 2)

SOCIALE STATISTIEK (deel 2) SOCIALE STATISTIEK (deel 2) D. Vanpaemel KU Leuven D. Vanpaemel (KU Leuven) SOCIALE STATISTIEK (deel 2) 1 / 57 Hoofdstuk 5: Schatters en hun verdeling 5.1 Steekproefgemiddelde als toevalsvariabele D. Vanpaemel

Nadere informatie

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data p 1/31 Beschrijvende

Nadere informatie

Inleiding statistiek

Inleiding statistiek Inleiding Statistiek Pagina 1 uit 8 Inleiding statistiek 1. Inleiding In deze oefeningensessie is het de bedoeling jullie vertrouwd te maken met een aantal basisbegrippen van de statistiek, meer bepaald

Nadere informatie

Onderzoeksmethodiek LE: 2

Onderzoeksmethodiek LE: 2 Onderzoeksmethodiek LE: 2 3 Parameters en grootheden 3.1 Parameters Wat is een parameter? Een karakteristieke grootheid van een populatie Gem. gewicht van een 34-jarige man 3.2 Steekproefgrootheden Wat

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel

Nadere informatie

Samenvattingen 5HAVO Wiskunde A.

Samenvattingen 5HAVO Wiskunde A. Samenvattingen 5HAVO Wiskunde A. Boek 1 H7, Boek 2 H7&8 Martin@CH.TUdelft.NL Boek 2: H7. Verbanden (Recht) Evenredig Verband ( 1) Omgekeerd Evenredig Verband ( 1) Hyperbolisch Verband ( 2) Machtsverband

Nadere informatie

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken de rekenregel breuk Ik kan

Nadere informatie

INLEIDING FUNCTIES 1. COÖRDINATEN

INLEIDING FUNCTIES 1. COÖRDINATEN INLEIDING FUNCTIES 1. COÖRDINATEN...1 2. FUNCTIES...2 3. ARGUMENT EN BEELD...3 4. HET FUNCTIEVOORSCHRIFT...4 5. DE FUNCTIEWAARDETABEL...5 6. DE GRAFIEK...6 7. FUNCTIES HERKENNEN...7 8. OPLOSSINGEN...9

Nadere informatie

1BA PSYCH Statistiek 1 Oefeningenreeks 2 1

1BA PSYCH Statistiek 1 Oefeningenreeks 2 1 D..2. OEFENINGENREEKS 2 OEFENING Gegevens over de regenval (in cm) in South Bend (Indiana) over een periode van 30 jaar. Klasse K K f F f. 00 F. 00 n n 2,3 2, 3,7 3,7 3,4 3, 4 4,29 7,8 4, 4, 4 9 4,29 32,4,,

Nadere informatie

Paragraaf 5.1 : Frequentieverdelingen

Paragraaf 5.1 : Frequentieverdelingen Hoofdstuk 5 Beschrijvende statistiek (V4 Wis A) Pagina 1 van 7 Paragraaf 5.1 : verdelingen Les 1 Allerlei diagrammen = { Hoe vaak iets voorkomt } Relatief = { In procenten } Absoluut = { Echte getallen

Nadere informatie

WISKUNDE D VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

WISKUNDE D VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 WISKUNDE D VWO VAKINFORMATIE STAATSEAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de

Nadere informatie

WISKUNDE D HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

WISKUNDE D HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 WISKUNDE D HAVO VAKINFORMATIE STAATSEAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de

Nadere informatie

Voorbeelden van gebruik van 5 VUSTAT-apps

Voorbeelden van gebruik van 5 VUSTAT-apps Voorbeelden van gebruik van 5 VUSTAT-apps Piet van Blokland Begrijpen van statistiek door simulaties en visualisaties Hoe kun je deze apps gebruiken bij het statistiek onderwijs? De apps van VUSTAT zijn

Nadere informatie

DOEN! - Praktische Opdracht Statistiek 4 Havo Wiskunde A

DOEN! - Praktische Opdracht Statistiek 4 Havo Wiskunde A DOEN! - Praktische Opdracht Statistiek 4 Havo Wiskunde A Docentenhandleiding 1. Voorwoord Doel van de praktische opdracht bij het hoofdstuk over statistiek 1 : Het doel van de praktische opdracht (PO)

Nadere informatie

Statistische variabelen. formuleblad

Statistische variabelen. formuleblad Statistische variabelen formuleblad 0. voorkennis Soorten variabelen Discreet of continu Bij kwantitatieve gegevens gaat het om meetbare gegeven, zoals temperatuur, snelheid of gewicht. Bij een discrete

Nadere informatie

Havo A deel 1 H2 Statistiek - Samenvatting

Havo A deel 1 H2 Statistiek - Samenvatting Havo A deel 1 H2 Statistiek - Samenvatting Begrip 1. Staafdiagram Schetsje: zo ziet het er uit 2. Lijndiagram = polygoon 3. Cirkeldiagram = sectordidagram 4. Beeldiagram = pictogram 5. Stapeldiagram 6.

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

Examenprogramma wiskunde D havo

Examenprogramma wiskunde D havo Examenprogramma wiskunde D havo Het eindexamen Het eindexamen bestaat uit het schoolexamen. Het examenprogramma bestaat uit de volgende domeinen: Domein A Vaardigheden Domein B Kansrekening en statistiek

Nadere informatie

College Week 4 Inspecteren van Data: Verdelingen

College Week 4 Inspecteren van Data: Verdelingen College Week 4 Inspecteren van Data: Verdelingen Inleiding in de Methoden & Technieken 2013 2014 Hemmo Smit Dus volgende week Geen college en werkgroepen Maar Oefententamen on-line (BB) Data invoeren voor

Nadere informatie

Domein A: Vaardigheden

Domein A: Vaardigheden Examenprogramma Wiskunde A havo Het eindexamen bestaat uit het centraal examen en het schoolexamen. Het examenprogramma bestaat uit de volgende domeinen: Domein A Vaardigheden Domein B Algebra en tellen

Nadere informatie

A. Week 1: Introductie in de statistiek.

A. Week 1: Introductie in de statistiek. A. Week 1: Introductie in de statistiek. Populatie en steekproef. In dit vak leren we de basis van de statistiek. In de statistiek probeert men erachter te komen hoe we de populatie het beste kunnen observeren.

Nadere informatie

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 2 : Grafische beschrijving van data Marnix Van Daele Marnix.VanDaele@UGent.be Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Grafische beschrijving van data p. 1/35 Soorten meetwaarden

Nadere informatie

Overzicht statistiek 5N4p

Overzicht statistiek 5N4p Overzicht statistiek 5N4p EEB2 GGHM2012 Inhoud 1 Frequenties, absoluut en relatief... 3 1.1 Frequentietabel... 3 1.2 Absolute en relatieve frequentie... 3 1.3 Cumulatieve frequentie... 4 2 Centrum en spreiding...

Nadere informatie

Formules Excel Bedrijfsstatistiek

Formules Excel Bedrijfsstatistiek Formules Excel Bedrijfsstatistiek Hoofdstuk 2 Data en hun voorstelling AANTAL.ALS vb: AANTAL.ALS(A1 :B6,H1) Telt hoeveel keer (frequentie) de waarde die in H1 zit in A1:B6 voorkomt. Vooral bedoeld voor

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Populatie: een intuïtieve definitie.... Een

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor 4 juni 2012 Het voorkomen van ziekte kan op drie manieren worden weergegeven: - Prevalentie - Cumulatieve incidentie - Incidentiedichtheid In de

Nadere informatie

TIP 10: ANALYSE VAN DE CIJFERS

TIP 10: ANALYSE VAN DE CIJFERS TOETSTIP 10 oktober 2011 Bepaling wat en waarom je wilt meten Toetsopzet Materiaal Betrouw- baarheid Beoordeling Interpretatie resultaten TIP 10: ANALYSE VAN DE CIJFERS Wie les geeft, botst automatisch

Nadere informatie

Kansverdelingen Inductieve statistiek met Geogebra 4.2

Kansverdelingen Inductieve statistiek met Geogebra 4.2 Kansverdelingen Inductieve statistiek met Geogebra 4.2 Brecht Dekeyser Pedic 20 november 2013 Gent 1 Inhoud Nieuw in Geogebra 4.2 Kansverdelingen: Berekeningen en grafische voorstellingen Manueel in rekenblad

Nadere informatie

Examen Statistiek I Januari 2010 Feedback

Examen Statistiek I Januari 2010 Feedback Examen Statistiek I Januari 2010 Feedback Correcte alternatieven worden door een sterretje aangeduid. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Twee derden van de mannen

Nadere informatie

Statistiek. Beschrijvend statistiek

Statistiek. Beschrijvend statistiek Statistiek Beschrijvend statistiek Verzameling van gegevens en beschrijvingen Populatie, steekproef Populatie = o de gehele groep ondervragen o parameter is een kerngetal Steekproef = o een onderdeel van

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

Examenprogramma wiskunde A vwo

Examenprogramma wiskunde A vwo Examenprogramma wiskunde A vwo Het eindexamen Het eindexamen bestaat uit het centraal examen en het schoolexamen. Het examenprogramma bestaat uit de volgende domeinen: Domein A Vaardigheden Domein Bg Functies

Nadere informatie

Officiële uitgave van het Koninkrijk der Nederlanden sinds 1814.

Officiële uitgave van het Koninkrijk der Nederlanden sinds 1814. STAATSCOURANT Officiële uitgave van het Koninkrijk der Nederlanden sinds 1814. Nr. 7228 14 maart 2014 Regeling van de Staatssecretaris van Onderwijs, Cultuur en Wetenschap van 22 februari 2014, nr. VO/599178,

Nadere informatie

Kun je met statistiek werkelijk alles bewijzen?

Kun je met statistiek werkelijk alles bewijzen? Kun je met statistiek werkelijk alles bewijzen? Geert Verbeke Biostatistisch Centrum, K.U.Leuven International Institute for Biostatistics and statistical Bioinformatics geert.verbeke@med.kuleuven.be http://perswww.kuleuven.be/geert

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie

Nadere informatie

Niveauproef wiskunde voor AAV

Niveauproef wiskunde voor AAV Niveauproef wiskunde voor AAV Waarom? Voor wiskunde zijn er in AAV 3 modules: je legt een niveauproef af, zodat je op het juiste niveau kan starten. Er is de basismodule voor wie de rekenvaardigheden moet

Nadere informatie

Economie en maatschappij(a/b)

Economie en maatschappij(a/b) Natuur en gezondheid(a/b) Economie en maatschappij(a/b) Cultuur en maatschappij(a/c) http://profielkeuze.qompas.nl/ Economische studies Talen Recht Gedrag en maatschappij http://www.connectcollege.nl/download/decanaat/vwo%20doorstroomeisen%20universiteit.pdf

Nadere informatie

SPSS. Statistiek : SPSS

SPSS. Statistiek : SPSS SPSS - hoofdstuk 1 : 1.4. fase 4 : verrichten van metingen en / of verzamelen van gegevens Gegevens gevonden bij een onderzoek worden systematisch weergegeven in een datamatrix bij SPSS De datamatrix Gebruik

Nadere informatie

2 Data en datasets verwerken

2 Data en datasets verwerken Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken 3 Frequentieverdelingen typeren 3.6 Geïntegreerd oefenen In opdracht van: Commissie Toekomst Wiskunde Onderwijs 3 Frequentieverdelingen

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 9 Woensdag 7 Oktober 1 / 51 Kansrekening en Statistiek? Bevordert luieren de fantasie? Psychologie 2 / 51 Kansrekening en Statistiek? Bevordert luieren de fantasie? Psychologie

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen Vandaag Onderzoeksmethoden: Statistiek 2 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Theoretische kansverdelingen

Nadere informatie

Referentieniveaus uitgelegd. 1S - rekenen Vaardigheden referentieniveau 1S rekenen. 1F - rekenen Vaardigheden referentieniveau 1F rekenen

Referentieniveaus uitgelegd. 1S - rekenen Vaardigheden referentieniveau 1S rekenen. 1F - rekenen Vaardigheden referentieniveau 1F rekenen Referentieniveaus uitgelegd De beschrijvingen zijn gebaseerd op het Referentiekader taal en rekenen'. In 'Referentieniveaus uitgelegd' zijn de niveaus voor de verschillende sectoren goed zichtbaar. Door

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

Uitwerkingen Mei 2012. Eindexamen VWO Wiskunde C. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Uitwerkingen Mei 2012. Eindexamen VWO Wiskunde C. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Uitwerkingen Mei 2012 Eindexamen VWO Wiskunde C Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek I Tjing Opgave 1. Het aantal hoofdstukken in de I Tjing correspondeert met het totale aantal

Nadere informatie

1 Rekenen in eindige precisie

1 Rekenen in eindige precisie Rekenen in eindige precisie Een computer rekent per definitie met een eindige deelverzameling van getallen. In dit hoofdstuk bekijken we hoe dit binnen een computer is ingericht, en wat daarvan de gevolgen

Nadere informatie

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. 3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. Absolute verandering = Aantal 2004 Aantal 1994 = 1625 3070 = -1445 Relatieve verandering = Nieuw Oud Aantal

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

werkcollege 6 - D&P9: Estimation Using a Single Sample

werkcollege 6 - D&P9: Estimation Using a Single Sample cursus 9 mei 2012 werkcollege 6 - D&P9: Estimation Using a Single Sample van frequentie naar dichtheid we bepalen frequenties van meetwaarden plot in histogram delen door totaal aantal meetwaarden > fracties

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 16 Donderdag 4 November 1 / 25 2 Statistiek Indeling: Schatten Correlatie 2 / 25 Schatten 3 / 25 Schatters: maximum likelihood schatters Def. Zij Ω de verzameling van

Nadere informatie

WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de

Nadere informatie

Bijlage 11 - Toetsenmateriaal

Bijlage 11 - Toetsenmateriaal Bijlage - Toetsenmateriaal Toets Module In de eerste module worden de getallen behandeld: - Natuurlijke getallen en talstelsels - Gemiddelde - mediaan - Getallenas en assenstelsel - Gehele getallen met

Nadere informatie

Beschrijvend statistiek

Beschrijvend statistiek 1 Beschrijvend statistiek 1. In een school werd het intelligentiequotiënt gemeten van de leerlingen van het zesde jaar (zie tabel). De getallen werden afgerond tot op de eenheid. De berekeningen mogen

Nadere informatie

Kerstvakantiecursus. wiskunde A. Rekenregels voor vereenvoudigen. Voorbereidende opgaven HAVO kan niet korter

Kerstvakantiecursus. wiskunde A. Rekenregels voor vereenvoudigen. Voorbereidende opgaven HAVO kan niet korter Voorbereidende opgaven HAVO Kerstvakantiecursus wiskunde A Tips: Maak de voorbereidende opgaven voorin in een van de A4-schriften die je gaat gebruiken tijdens de cursus. Als een opdracht niet lukt, werk

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen

Nadere informatie

Y = ax + b, hiervan is a de richtingscoëfficiënt (1 naar rechts en a omhoog), en b is het snijpunt met de y-as (0,b)

Y = ax + b, hiervan is a de richtingscoëfficiënt (1 naar rechts en a omhoog), en b is het snijpunt met de y-as (0,b) Samenvatting door E. 1419 woorden 11 november 2013 6,1 14 keer beoordeeld Vak Methode Wiskunde A Getal en ruimte Lineaire formule A = 0.8t + 34 Er bestaat dan een lineair verband tussen A en t, de grafiek

Nadere informatie

Didactiek van Informatieverwerking en Statistiek voor leerlingen van 12-16?

Didactiek van Informatieverwerking en Statistiek voor leerlingen van 12-16? Didactiek van Informatieverwerking en Statistiek voor leerlingen van 12-16? Ontwikkeling van een module en boek voor de 2 e graads lerarenopleiding wiskunde. Informatieverwerking en Statistiek Gerard van

Nadere informatie

Deel I : beschrijvende statistiek

Deel I : beschrijvende statistiek HOOFDSTUK 1 TYPISCHE FOUTEN BIJ STATISTIEK Foute gegevens Fouten in berekening kans Foute interpretatie resultaten Statistiek : de wetenschap van het leren uit data & van het meten, controleren en communiceren

Nadere informatie

Open en Gepersonaliseerd Statistiekonderwijs (OGS) Deliverable 1.1 Requirements

Open en Gepersonaliseerd Statistiekonderwijs (OGS) Deliverable 1.1 Requirements Open en Gepersonaliseerd Statistiekonderwijs (OGS) Deliverable 1.1 Requirements Sietske Tacoma, Susanne Tak, Henk Hietbrink en Wouter van Joolingen Inleiding Het doel van dit project is om een aantal vrij

Nadere informatie

Netwerk, 4 Havo D, uitwerkingen Hoofdstuk 1, Statistische verwerking 1

Netwerk, 4 Havo D, uitwerkingen Hoofdstuk 1, Statistische verwerking 1 Netwerk, 4 Havo D, uitwerkingen Hoofdstuk, Statistische verwerking Hoofdstuk Statistische verwerking Kern Populatie en steekproef a In Derbroek vonden + 6 ondervraagden de overlast ernstig tot zeer ernstig.

Nadere informatie

Inhoud. 1 Inleiding tot de beschrijvende statistiek Maatstaven voor ligging en spreiding Kansrekening 99

Inhoud. 1 Inleiding tot de beschrijvende statistiek Maatstaven voor ligging en spreiding Kansrekening 99 Inhoud 1 Inleiding tot de beschrijvende statistiek 13 1.1 Een eerste verkenning 14 1.2 Frequentieverdelingen 22 1.3 Grafische voorstellingen 30 1.4 Diverse diagrammen 35 1.5 Stamdiagram, histogram en frequentiepolygoon

Nadere informatie

2 Data en datasets verwerken

2 Data en datasets verwerken Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken 1 Data presenteren 1.4 Oefenen In opdracht van: Commissie Toekomst Wiskunde Onderwijs 1.4 Oefenen Opgave 9 Bekijk de genoemde dataset

Nadere informatie

HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN

HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN. Continue Verdelingen 1 A. De uniforme (of rechthoekige) verdeling Kansdichtheid en cumulatieve frequentiefunctie Voor x < a f(x) = 0 F(x) = 0 Voor a x

Nadere informatie

Voorbeeldtentamen Statistiek voor Psychologie

Voorbeeldtentamen Statistiek voor Psychologie Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij

Nadere informatie

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten Hoofdstuk 8 Betrouwbaarheidsintervallen In het vorige hoofdstuk lieten we zien hoe het mogelijk is om over een ongekende karakteristiek van een populatie hypothesen te formuleren. Een andere manier van

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 6 oktober 009 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D Hondt

Nadere informatie

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke Niet de hoogte, wel de oppervlakte Prof. dr. Herman Callaert Aandachtspunten bij - statistische technieken voor een continue veranderlijke - de interpretatie van een histogram - de normale dichtheidsfunctie

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 5 oktober 007 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D Hondt

Nadere informatie

Samenvatting Statistiek

Samenvatting Statistiek Samenvatting Statistiek De hoofdstukken 1 t/m 3 gaan over kansrekening: het uitrekenen van kansen in een volledig gespecifeerd model, waarin de parameters bekend zijn en de kans op een gebeurtenis gevraagd

Nadere informatie

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2 INHOUDSOPGAVE Leswijzer...3 Beschrijvende Statistiek...3 Kansberekening...3 Inductieve statistiek, inferentiele statistiek...3 Hoofdstuk...3. Drie deelgebieden...3. Frequentieverdeling....3. Frequentieverdeling....4.5

Nadere informatie

1. De wereld van de kansmodellen.

1. De wereld van de kansmodellen. STATISTIEK 3 DE GRAAD.. De wereld van de kansmodellen... Kansmodellen X kansmodel Discreet model Continu model Kansverdeling Vaas Staafdiagram Dichtheidsfunctie f(x) GraJiek van f Definitie: Een kansmodel

Nadere informatie

In de Theorie worden de begrippen toevalsvariabele, kansverdeling en verwachtingswaarde toegelicht.

In de Theorie worden de begrippen toevalsvariabele, kansverdeling en verwachtingswaarde toegelicht. Toevalsvariabelen Verkennen www.mathall.nl MAThADORE-basic HAVO/VWO /5/6 VWO wi-a Kansrekening Toevalsvariabelen Inleiding Verkennen Beantwoord de vragen bij Verkennen. Uitleg www.mathall.nl MAThADORE-basic

Nadere informatie

Methoden van het Wetenschappelijk. Onderzoek. Zin en onzin van statistiek

Methoden van het Wetenschappelijk. Onderzoek. Zin en onzin van statistiek Methoden van het Wetenschappelijk Onderzoek Zin en onzin van statistiek Statistiek komt ernstig over of niet Deze tandpasta helpt tegen caries in 1 op 2 gevallen. Het werd slechts geprobeerd op 4 personen.

Nadere informatie

ECTS-fiche. 1. Identificatie

ECTS-fiche. 1. Identificatie ECTS-fiche Opzet van de ECTS-fiche is om een uitgebreid overzicht te krijgen van de invulling en opbouw van de module. Er bestaat slechts één ECTS-fiche voor elke module. 1. Identificatie Opleiding Graduaat

Nadere informatie

2.3 Frequentieverdelingen typeren

2.3 Frequentieverdelingen typeren 2.3 Frequentieverdelingen typeren 2.3.1 Introductie Kijkend naar een datarepresentatie valt meestal al snel op hoe de verdeling van de tellingen/frequenties over de verschillende waarden eruitziet. Zitten

Nadere informatie

Statistiek voor A.I. College 1. Dinsdag 11 September 2012

Statistiek voor A.I. College 1. Dinsdag 11 September 2012 Statistiek voor A.I. College 1 Dinsdag 11 September 2012 1 / 39 Literatuur Website: http://phil.uu.nl/statistiek/ Applied Statistics for the Behavioral Sciences - 5th edition, Dennis E. Hinkle, William

Nadere informatie