VOOR HET SECUNDAIR ONDERWIJS. Exploratieve statistiek. Infoboekje. Prof. dr. Herman Callaert

Vergelijkbare documenten
VOOR HET SECUNDAIR ONDERWIJS. Correlatie: exploratieve methoden. Werktekst voor de leerling. Prof. dr. Herman Callaert

Variantie-analyse (ANOVA)

Toepassing: Codes. Hoofdstuk 3

VOOR HET SECUNDAIR ONDERWIJS. Exploratieve statistiek. Infoboekje. Prof. dr. Herman Callaert

Van beschrijvende naar verklarende statistiek

Bij een invalshoek i =(15.0 ± 0.5) meet hij r =(9.5 ± 0.5). 100%-intervallen. Welke conclusie kan de onderzoeker trekken?

Inhoudstafel Regressie: exploratieve methoden

VOOR HET SECUNDAIR ONDERWIJS. Exploratieve statistiek. Infoboekje. Prof. dr. Herman Callaert

Statica in een notendop

INLEIDING FYSISCH-EXPERIMENTELE VAARDIGHEDEN (3A560) , UUR

PROEFEXAMEN SOCIALE STATISTIEK

Aanbevolen literatuur

1. In de hoofdstad van Ivoorkust, Yamoussoukro, meet men de lengte van 100 mannen (in cm) :

Websites beoordeel je zo!

Verslag Regeltechniek 2

Onderzoeksmethoden en techieken I

MEERJAREN OPBRENGSTEN VO 2013 TOELICHTING

1 Rekenen met complexe getallen

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Examen Neurale Netwerken (2L490), op woensdag 28 juni 2006, uur.

Waardeoverdracht. Uw opgebouwde pensioen meenemen naar uw nieuwe pensioenuitvoerder

VOOR EEN GOED RESULTAAT IS HET ABSOLUUT NOODZAKELIJK DEZE LEGINSTRUCTRIES NAUWKEURIG TE VOLGEN.

Les 2 / 3: Meetschalen en Parameters

ALCOHOLKENNIS DOORGESPEELD

Meten en experimenteren

Hoe schrijf je een tekst die opvalt? 80. Hoe zorg je dat je tekst er goed uitziet? 85. Extra opdrachten 89

Regressie en correlatie

anwb.nl/watersport, de site voor watersporters

~~i~il' 1025 VS Amsterdam. Geacht bestuur,

Regressie en correlatie

aantallen in van de prooiresten gewicht min of meer mogelijk, doch als de gebitsmaten van een groot aantal gevangen dat de gewichtsfaktor

INLEIDING FYSISCH-EXPERIMENTELE VAARDIGHEDEN (3A560) , UUR

INLEIDING FYSISCH-EXPERIMENTELE VAARDIGHEDEN (3A560) , UUR

i i Datzelfde aggregaat in een vorig jaar 0 stellen we voor door

Het gemiddelde. Prof. dr. Herman Callaert. Inhoudstafel

Gemeentefonds verevent minder dan gedacht

De standaardafwijking

Ondersteuning en hulp bij leren

Is de app een onmisbaar onderdeel van de les of het leerproces? nee. Is de leerling/student 16 jaar of ouder?

7. Behandeling van communicatie en mondmotoriek

is gelijk aan de open-klemmen spanning van het netwerk. De impedantie Z th

lus+ De klachtencommissie en de rol van de vertrouwenspersoon ongewenste omgangsvormen

Onderzoeksmethoden en techieken I

VOOR HET SECUNDAIR ONDERWIJS

w 73 »EFSTATIŒN VOOR DE GROENTEN- EN FRUITTEELT ONDER GLAS, te NAALDWIJK. Verslag andijvierassenproef onder staand glas,

Combinatoriek groep 2

MRT/RT MKT/KT. Wormwielreductoren.

VOOR HET SECUNDAIR ONDERWIJS

Rekenen met rente en rendement

STUDIEBOEK. wiskunde. Meester Kenneth Zesde leerjaar

Integere programmering voor cyclische personeelsplanning

Uitwerkingen tentamen Statistiek 2 voor TeMa Maandag

Via de grafische rekenmachine krijg je o.a. de volgende statistische resultaten: . In rekenmachinetaal wordt dit 3, 3248.

5.1 Elektrische stroom en spanning

Meeneemset Herkansing Deterrninanten-3:Fysische Factoren dd

werken en leren in de brugklas Je groeit op de RGO

Onderzoek! Ontdek! Onderneem! WELKOM BIJ DE EUREKA!CUP Eureka!Cup is een programma van Stichting Techniekpromotie

<l= Inhoud GEBEDEN OM

DETERGENTEN IN UW DAGELIJKS LEVEN

Forse besparing op telefonie

Methode met ladder operatoren deel 2

C.P. van Splunter. Grote afwijkingen. Bachelorscriptie, 21 april Scriptiebegeleiders: prof.dr. F. Redig prof.dr. E.A.

Installatiehandleiding

De Collegereeks Statistiek. Stel je wilt wat weten over. Complexe begrippen: construct. Homogeniteit. Verder met. Statistiek

1.1 Oplossingen. + 1 x ( ) Oplossing oefening 2.1. Oplossing oefening 2.2

Eindtoets Model-driven development

Centraal Bureau voor de Statistiek Keten Economische Statistieken

- 2 - Datum vergadenn Nota openbaar: ľľo 9. Verzoek toepassing regeling Rood voor Rood met gesloten beurs op de locatie Scharlebeltweg 1 te Nijverdal

3.7.3 Welke meetinstrumenten zijn geschikt voor het vastleggen van motorische vaardigheden?

Middenkaderfunctionaris bouw & infra (Netwerkschool)

LOCATIEBEPALING VAN EEN ROBOT MET BEHULP VAN LANDMARKS IN GRIJSBEELDEN

Samenvatting Farmaco-epidemiologie april 2011

Prijs ƒ 3.- "OCTllCO' HA AD

Beroepsregistratie en vooraanmelden voor beroepsregistratie. in de jeugdhulp en jeugdbescherming

Websiteoptimalisatie aan de hand van online zoek en klikgedrag analyse

Feedback. Helpende zorg & welzijn. Start. Hoe geef je als helpende feedback aan een cliënt? Neem een kijkje! Wat zou jij doen?

Wie is er aan de beurt?

VOOR HET SECUNDAIR ONDERWIJS

Op pad! Ontdek onze 5 wandelroutes. Sprok kels. Opening. Met. 09 Parkbos nieuws Herfst - Winter 14. p03. p07. p08. wandelkaart Kijk snel binnenin

Wat is licht? worden door schijnende voorwerpen? (Isaac Newton). Christiaan Huygens daarentegen ontwikkelde een theorie die volledig gebaseerd was

flits+ Geen idee Ongeveer de helft? Wanneer is de vraag... Uh..? Ik weet het! bpfhibin.nl Ik verkoop mijn huis Wie dan leeft... Zien we dan wel weer

Hoveniers. Zie Bestrijdingsmiddelendatabank.

Hoofdstuk 7 - Complexe getallen

Afhaling. Afhaling van gefrankeerde zendingen 1. Collect & Send 2. ATH (Afhaling ten Huize) 3. Transport (Afhaling per vrachtwagen)

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

Appendix F: Het Snelheid-Wegdiagram, trekkracht en indicatie

Inhoud leereenheid 1. Van informatiemodel naar informatiesysteem. Introductie 15. Leerkern 16. Terugkoppeling 37 Uitwerking van de opgaven 37

Tentamen van Wiskunde B voor CiT (151217) Tentamen van Statistiek voor BIT (153031) Vrijdag 27 januari 2006 van 9.00 tot uur

officiële bijdrage aan het CMMI. Jan Jaap Cannegieter

Bronnen & Methoden bij Marktscan medischspecialistische zorg 2015

Uitgebreide aandacht warmtapwatersystemen. Door afnemende warmtevraag voor ruimteverwarming, neemt het belang van het

GEMEENTE HELLEN DOORN lichand.: 1 FEB A1 B Stuk itreťw.: Werkpr.. Kopie aan: Archief' ü 1 N reeks/vlvcrtr.:

Inhoud leereenheid 1. Van informatiemodel naar informatiesysteem. Introductie 3. Leerkern 4. Terugkoppeling 25 Uitwerking van de opgaven 25

De Waarde van Toekomstige Kasstromen

TECHNISCHE UNIVERSITEIT EINDHOVEN

Toelichting advies gemeenteraad bij aanvraag aanwijzing als lokale publieke media-instelling

Module 8 Uitwerkingen van de opdrachten

Zwaartepunten, traagheidsmomenten en verdeelde belasting

One size fits not all

Verbind uw huishoudelijke apparaat met de toekomst. Quick Start Guide

Noordhoff Uitgevers bv

Transcriptie:

VOOR HET SECUNDAIR ONDERWIJS Explorateve statstek Infoboekje Prof. dr. Herman Callaert Hans Bekaert Cecle Goethals Les Provoost Marc Vancaudenberg www.uhasselt.be/lesmateraal-statstek

. Van deze boxplot kan je meerdere dngen aflezen: het sterretje zegt dat 9.92 een utscheter s. Het klenste getal n de dataset dat geen utscheter s, s 10.02 want vanaf dat punt begnt het lnkerstaafje. Op de ene utscheter na lggen alle getallen tussen 10.02 en 10.69 (het grootste datapunt). de box toont waar de mddelste helft van de geordende getallen lgt, dat s tussen Q1 10.31 en Q3 10.56. De mddelste helft s op zchzelf helemaal net symmetrsch rond de medaan Me 10.50. Het streepje van de medaan staat veel dchter tegen de rechterkant van de box dan tegen de lnkerkant. Van deze mddelste groep getallen zt de helft geconcentreerd tussen 10.50 en 10.56 terwjl de andere helft naar lnks utgespred s van 10.50 tot 10.31. De mddelste helft getallen s bljkbaar scheef naar lnks ten opzchte van de medaan. de staafjes tonen waar het klenste en het grootste verde van de getallen lggen. Ook her s er geen symmetre. Het lnkerstaafje s veel langer (0.29 mm) dan het rechterstaafje (0.13 mm). Dt betekent dat eenzelfde aantal getallen (nameljk een kwart) veel verder lnks uteengespred lgt dan rechts. de globale ndruk van de boxplot laat vermoeden dat je her te maken hebt met een dataset de ten opzchte van de medaan scheef naar lnks s, met uterst lnks zelfs een utscheter. Pas op! In een boxplot vertegenwoordgt de rechthoek lnks of rechts van de medaan telkens een even groot aantal gegevens, nameljk een kwart. Dus hoe groter de rechthoek s, hoe meer verspred je gegevens zjn. Bj een hstogram s dat anders: hoe groter de oppervlakte van een rechthoek, hoe meer gegevens er n de klasse voorkomen. Er s nog een ander verschl tussen boxplot en hstogram: je kan maar 1 boxplot tekenen van een dataset maar er zjn meerdere hstogrammen mogeljk. Bj hstogrammen moet je dus zelf wat expermenteren. Meestal s het goed om zowel hstogrammen als een boxplot n je rapport op te nemen bj de nterpretate van je dataset. Centrum voor Statstek 27

4.2.2 Een boxplot nterpreteren Heronder ze je de boxplot voor de dameter van de precsewerkstukken. Inledng Dt nfoboekje bevat achtergrondnformate bj de tekst Explorateve statstek voor het secundar onderwjs. Statstsche begrppen worden her met dudeljke voorbeelden utvoerg geïllustreerd. De fguur, samen met de getallen op de x-as, vertelt al heel wat over je dataset: alle getallen lggen tussen 10.01 (het mnmum) en 10.98 (het maxmum) en er zjn geen utscheters (want er zjn geen sterretjes) de box toont waar de mddelste helft van de geordende getallen lgt: dt s van Q1 10.37 tot Q3 10.63. De getallen lggen daar symmetrsch rond de medaan Me 10.50 want de medaan lgt n het mdden van de box, halfweg tussen het eerste en derde kwartel. het centrale gebed tussen het eerste en derde kwartel s veel korter dan de helft van het totale gebed (0.26 mm op een totaal van 0.97 mm). De getallen n het centrum lggen dus dchter bj elkaar. In de staarten lggen zj meer utgespred. de staafjes tonen waar het klenste verde en het grootste verde van de getallen lgt. Ook her s er symmetre lnks en rechts van de box. Het eerste en laatste verde lggen meer utgespred dan de box en lopen elk over een afstand van ongeveer 0.36 mm. Een boxplot vertelt net alles over een dataset, maar deze fguur laat toch vermoeden dat je te maken hebt met opmetngen de symmetrsch rond 10.50 lggen, waarvan de meerderhed net te ver van dat centrum verwjderd s. Een andere dataset zet er als volgt ut. Ook hervan s de boxplot getekend. 10.50 10.13 10.50 10.25 10.55 10.51 10.32 10.55 10.54 10.31 10.50 10.51 10.53 10.30 10.25 10.22 10.59 10.44 10.39 10.27 10.50 10.35 10.31 10.52 10.16 10.43 10.57 10.46 10.54 10.51 10.47 10.42 10.34 10.60 10.57 10.36 10.54 10.67 10.52 10.02 10.23 10.23 10.58 10.57 10.31 10.61 10.04 10.24 10.66 10.63 10.41 10.40 10.51 10.30 10.03 10.36 10.52 10.41 10.52 10.20 10.51 10.53 10.21 10.37 10.39 10.56 10.52 10.57 10.69 10.53 10.59 10.44 10.51 10.33 10.58 10.12 10.60 10.08 10.22 10.43 10.61 10.57 10.43 10.59 10.50 10.66 10.55 10.53 10.16 10.08 10.50 10.54 10.24 10.60 10.08 10.05 10.39 10.64 10.54 10.63 10.60 10.58 10.50 10.57 10.62 10.40 10.63 10.12 10.04 10.15 10.60 10.63 10.50 10.30 10.43 10.54 10.28 10.62 10.51 10.55 10.56 10.12 10.65 10.55 10.61 10.47 10.56 10.55 9.92 10.15 10.67 10.62 10.30 10.45 10.29 10.26 10.36 10.47 10.53 10.20 10.58 10.37 10.54 10.53 10.08 10.20 10.65 10.18 10.58 10.42 10.39 10.62 10.47 Terwjl je n dt boekje leest, kan je msschen een markeerstft bj de hand houden om belangrjke begrppen aan te duden. Zo heb je meteen een goed overzcht. Superhandg s dat je dt boekje ook gewoon kan bjhouden om later nog wat dngen weer op te zoeken. Inhoud Inledng... Inhoud... 1 De structuur van een dataset... 1 1.1 Gegevensverzamelng of dataset... 1 1.2 Elementen... 2 1.3 Veranderljken... 2 2 Dscreet numereke gegevens: gemddelde, medaan en staafdagram... 3 2.1 Gemddelde en medaan... 3 2.2 Staafdagrammen... 5 3 Contnu numereke gegevens: gemddelde, standaardafwjkng en hstogram... 12 3.1 Het gemddelde... 12 3.2 De standaardafwjkng... 13 3.3 Het hstogram.... 14 4 Contnu numereke gegevens: medaan, nterkwartelafstand en boxplot.22 4.1 De medaan en de kwartelen... 22 4.2 De boxplot... 24 Centrum voor Statstek 26 Centrum voor Statstek

plaats van de medaan Me. De staafjes de ut de doos komen lopen langs rechts vanaf het derde kwartel tot aan het grootste observategetal en langs lnks vanaf het eerste kwartel tot aan het klenste observategetal. Controleer dat voor de dataset {4, 6, 7, 8, 9, 10, 11, 12, 13, 19, 20} de boxplot er als volgt utzet. Wanneer er utscheters zjn n je gegevens, dan worden de staafjes anders getekend. Neem nu het grootste en het klenste datapunt dat nog net bnnen het nterval Q 1 1.5 IQR ; Q 3 1.5 IQR lgt. Teken nu je staafjes tot aan dt grootste en klenste datapunt. De getallen de er buten vallen stel je voor door een sterretje: dat zjn utscheters. Voor {4, 6, 7, 8, 9, 10, 11, 12, 13, 19, 23} s Q1 7, Q3 13 en IQR 6. Getallen de groter zjn dan Q 1.5 I QR 13 3 1.5 6 22 zjn utscheters. Een klasseke fout maak je als je het rechterstaafje laat lopen tot 22 en dan een sterretje zet op 23. Dt s net de afspraak voor het tekenen van dat staafje. Het staafje moet lopen tot aan het grootste gewoon (= geen utscheter) datapunt (= getal n je dataset). In dt voorbeeld s dat tot aan 19 want dat s het grootste getal n je dataset dat nog geen utscheter s. Je krjgt dan de volgende boxplot. Centrum voor Statstek 25

Voor utzonderljk groot start je op het derde kwartel Q 3 en daar tel je nog anderhalve keer de nterkwartelafstand bj. Alle getallen de nog voorbj dat punt lggen zjn utzonderljk groot en worden utscheters genoemd. Voor utzonderljk klen doe je egenljk hetzelfde maar n de andere rchtng. Je start daar met het klenste kwartel Q 1 en daar trek je nog anderhalve keer de nterkwartelafstand af. Alle getallen de daar nog onder lggen zjn utzonderljk klen en worden utscheters genoemd. Een getal dat buten Q 1.5 IQR ; Q 1.5 IQR valt s een utscheter. 1 3 Voor {4, 6, 7, 8, 9, 10, 11, 12, 13, 19, 20} s Q1 7, Q3 13 en IQR 6. Dus s Q 1.5 IQR 7 1 1.5 6 2 en Q 1. 5 IQR 13 3 1.5 6 22. Er zjn geen data de buten het nterval [ 2 ; 22] vallen. Her zjn dus geen utscheters. Voor {4, 6, 7, 8, 9, 10, 11, 12, 13, 19, 23} s Q1 7, Q3 13 en IQR 6. Het getal 23 s groter dan Q 1.5 I QR 13 3 1.5 6 22. Het s een utscheter. Een utscheter beïnvloedt het gemddelde en de standaardafwjkng. De medaan en de IQR veranderen net door een utscheter. Zj zjn n aanwezghed van utscheters dkwjls een betere centrum- en spredngsmaat. 4.2 De boxplot De medaan en de kwartelen vertellen je al een en ander over je dataset. De boxplot s een goede fguur om de nformate nog beter te ontdekken. 4.2.1 Een boxplot tekenen Een boxplot s een eenvoudge fguur de bestaat ut een rechthoekg doosje (een box ) waarut langs bede zjden een staafje komt. Soms noemt men een boxplot ook wel eens een snorrendoos (een box-and-whsker plot). Wanneer er geen utscheters zjn, zet een boxplot er als volgt ut. 1 De structuur van een dataset 1.1 Gegevensverzamelng of dataset De oorspronkeljke opmetngen, samen met nformate over de maner waarop je de hebt verzameld, zjn het bassmateraal voor elke stude. Als voorbeeld kjk je even naar een stude de n de jaren zeventg plaats vond n Calfornë. Daar werd, n het kader van de volksgezondhed, een utgebrede gegevensverzamelng aangelegd bj de geboorte van een knd. Heel wat kenmerken van dat knd werden opgeschreven (geslacht, bloedgroep, gewcht, lengte, tjdstp van geboorte, ), samen met kenmerken van de vader en de moeder (leeftjd, gewcht, lengte,...). Ten jaar later werd elk gezn opneuw onderzocht. Een heel klen stukje ut de gegevensverzamelng (ook gegevensbank, databank of dataset genoemd) zet er als volgt ut. Elementen = geznnen Veranderljken ID SEX BLGK LGTK1 GEWK1 GEWM2 1 J B 53.3 3.810 60.3 2 J AB 55.9 3.720 73.9 3 M O 50.8 3.180 66.2 4 M O 50.8 2.990 59.0 5 J A 50.8 2.900 47.2 6 M A 55.9 4.350 78.5 7 M AB 49.5 2.770 53.1 8 M A 53.3 3.670 57.6 De tabel de je her zet s typsch voor elk statstsch onderzoek. Bj gegevens moet je ook altjd zeggen n welke context ze zjn opgemeten. De context s, samen met de getallen, belangrjk voor het verdere onderzoek. Daarom moet je bj elke dataset mnstens kunnen antwoorden op de vragen: Welke elementen zjn er her onderzocht?, Welke veranderljken zjn er bj de elementen opgemeten? en Hoe zjn de gegevens verzameld?. Op de x-as dud je aan waar het eerste en het derde kwartel Q 1 en Q 3 lggen en daarboven teken je de rechthoekge doos. Bnnen de doos trek je een ljn op de Centrum voor Statstek 24 Centrum voor Statstek 1

1.2 Elementen Elementen s de verzamelnaam voor de objecten de n een statstsche stude worden onderzocht. Dt kunnen personen zjn (knderen, Vlamngen, ) of deren (paarden, muzen, ) of planten (rssen, eken, ) of zaken (gemeenten, auto s, ), enz. De elementen schrjf je op de rjen van een rechthoekg schema (matrx). Bj elke rj hoort just één element. In ons voorbeeld bestaan de elementen ut Calfornsche geznnen de n 1971 een baby kregen. Elke rj stelt dus zo n gezn voor. Deze geznnen hebben n de gegevensbank geen naam gekregen maar enkel een dentfcatenummer (afgekort door ID). Het s net ongewoon dat elementen enkel met een code worden geïdentfceerd wanneer de gegevens te maken hebben met prvacy of met medsch gehem. Afhankeljk van het type onderzoek kom je voor het woord element ook meer specfeke namen tegen zoals respondent (bj een enquête), patënt (bj een klnsche stude) of ndvdu, deelnemer, geval, enz. 1.3 Veranderljken Per element meet je bepaalde egenschappen op en de resultaten hervan schrjf je n de kolommen van de matrx. Elke kolom draagt een naam om aan te geven over welke egenschap het just gaat. Elke egenschap de je zo opmeet wordt een veranderljke genoemd. Let op: de naam van de veranderljke en de waarden van de veranderljke zjn twee verschllende dngen! Bloedgroep s een voorbeeld van een naam van een veranderljke, terwjl AB een voorbeeld s van een mogeljke waarde van deze veranderljke. De naam s dkwjls afgekort en dan weet je nog net just waarover het gaat. Daarom voeg je een preceze beschrjvng van de veranderljken toe aan je gegevensbank. Als je bjvoorbeeld zet staan dat het gewcht van emand geljk s aan 100, dan moet je wel weten of dt gewcht opgemeten s n klogram of n Engelse ponden. In het voorbeeld van de Calfornsche databank kan je de veranderljken als volgt omschrjven: ID dentfcatenummer van het gezn SEX geslacht van het knd (M=mesje, J=jongen) BLGK bloedgroep van het knd (O, A, B of AB) LGTK1 lengte (n cm) van het knd bj de geboorte GEWK1 gewcht (n kg) van het knd bj de geboorte GEWM2 gewcht (n kg) van de moeder ten jaar later Als je een oneven aantal getallen hebt ga je als volgt te werk. Neem de geordende dataset {4, 6, 7, 8, 9, 10, 11, 12, 13, 19, 20} en deel de eerst n twee. Dat doe je door de medaan te zoeken. Her s de medaan geljk aan 10 en dat s één van de observategetallen zelf. Neem nu de eerste helft klener dan 10 nameljk {4, 6, 7, 8, 9} en de tweede helft groter dan 10, nameljk {11, 12, 13, 19, 20}. Deel deze twee helften terug n twee door telkens hun medaan te zoeken. Het mdden van de eerste helft {4, 6, 7, 8, 9} s geljk aan 7 en dat noem je het eerste kwartel Q 1. Het mdden van de tweede helft {11, 12, 13, 19, 20} s geljk aan 13 en dat noem je het derde kwartel Q 3. Als je n {4, 6, 7, 8, 9, 10, 11, 12, 13, 19, 20} de getallen 7, 10 en 13 kleurt dan ze je dat zj de geordende dataset n 4 geljke delen verdelen. Bj een even aantal getallen s de medaan geen observategetal. Je neemt dan alle getallen klener dan de medaan als eerste helft en alle getallen groter dan de medaan als tweede helft. En de twee helften deel je terug n twee door telkens hun egen medaan te bepalen. Voor {4, 6, 7, 8, 9, 10, 11, 12, 13, 19} s de medaan geljk aan 9.5. De eerste helft s dan {4, 6, 7, 8, 9} en de medaan daarvan s 7. De tweede helft s {10, 11, 12, 13, 19} en de medaan daarvan s 12. Je hebt dus voor {4, 6, 7, 8, 9, 10, 11, 12, 13, 19} dat Q1 7, Me 9.5 en Q3 12. 4.1.3 De nterkwartelafstand De nterkwartelafstand s gewoon de afstand tussen de twee kwartelen Q 1 en Q 3. De nterkwartelafstand heet n het Engels nter-quartle range en daarom wordt hj afgekort als IQR. De nterkwartelafstand s de lengte van een gebed rond de medaan waarbnnen de mddelste helft van al je gegevens lgt. Als de IQR klen s, dan betekent dt dat de mddelste helft van je data dcht rond de medaan geconcentreerd lgt. Bj een grote IQR lggen de data verder uteen. Daarom gebrukt men de IQR als een maat om aan te geven hoe groot de spredng s van je getallen rond hun medaan. Voor {4, 6, 7, 8, 9, 10, 11, 12, 13, 19} s de nterkwartelafstand IQR geljk aan Q3 Q 1 12 7 5. Voor {4, 6, 7, 8, 9, 10, 11, 12, 13, 19, 20} s IQR = 6. 4.1.4 Utscheters Utscheters zjn getallen de utzonderljk groot of utzonderljk klen zjn n vergeljkng met de getallen n je dataset. Je kan natuurljk net zomaar op je gevoel afgaan om te weten of een getal een utscheter s. Daarom gebruk je n de statstek een vustregel. Centrum voor Statstek 2 Centrum voor Statstek 23

De frequente van de eerste klasse s geljk aan 14 en de oppervlakte van de eerste rechthoek s 0.20 350 70, wat geljk s aan 5 keer 14. Het hstogram heeft één top maar s rond de top helemaal net symmetrsch. De fguur s scheef naar lnks, wat betekent dat de getallen veel verder naar lnks utgespred lggen dan naar rechts. Bj fguren de heel erg scheef zjn of de egenaardge patronen vertonen geven het gemddelde en de standaardafwjkng je nog weng nformate. Dkwjls s het verstandg om naast een hstogram ook een boxplot te tekenen en om naast het gemddelde en de standaardafwjkng ook te kjken naar de medaan en de nterkwartelafstand. Herover lees je meer n het volgende hoofdstuk. 4 Contnu numereke gegevens: medaan, nterkwartelafstand en boxplot 4.1 De medaan en de kwartelen De medaan en de kwartelen zjn kengetallen de je gebrukt om een bepaalde plaats aan te duden n een geordende rj waarnemngsgetallen. Je kan de zowel bj dscrete als bj contnue gegevens gebruken. 4.1.1 De medaan De medaan bepaal je net zoals bj dscrete veranderljken: je ordent de getallen van klen naar groot. Bj een oneven aantal getallen neem je het mddelste. Bj een even aantal neem je het gemddelde van de 2 mddelste. 4.1.2 De kwartelen Om de kwartelen te zoeken, orden je de data van klen naar groot. Bepaal 3 plaatsen zodat je de getallenrj n ver geljke delen verdeelt. De getallen de op de plaatsen staan, zjn de kwartelen. Een verde wordt ook wel een kwart genoemd en zo kan je het woord kwartel gemakkeljk onthouden. Je hebt dre plaatsen nodg om een rj n ver te verdelen en egenljk heb je dre kwartelen: Q 1, Q 2 en Q 3. Maar het tweede kwartel Q 2 verdeelt de rj n twee geljke delen en s dus geljk aan de medaan. Daarom spreek je net over het tweede kwartel maar wel over de medaan Me. 2 Dscreet numereke gegevens: gemddelde, medaan en staafdagram Numereke gegevens kan je opschrjven met een getal en je kan er bovenden znvolle wskundge bewerkngen (zoals som of product) mee maken. Je noemt zo n gegevens dscreet als net alle tussenlggende getallen kunnen voorkomen. De mogeljke utkomsten maken telkens een sprong. Tussen 2 en 3 lgt bjvoorbeeld ook het getal 2.25 maar dt kan je net utkomen als je wl weten hoeveel knderen er n een gezn zjn. 2.1 Gemddelde en medaan Gemddelde en medaan zjn twee kengetallen de gebrukt worden om het centrum van een verzamelng getallen aan te duden. Soms geven zj brukbare nformate, soms ook net. Om dat te weten te komen, moet je een fguur tekenen. In combnate met een fguur krjgen het gemddelde en de medaan pas echt betekens. 2.1.1 Het gemddelde Bj het gemddelde van n getallen x1, x2,..., x n zjn dre grootheden met elkaar verbonden: het aantal getallen, wat je algemeen noteert door n de som van de n getallen, nameljk x 1 x 2... xn, wat je op een korte n maner opschrjft als x 1 1 n het gemddelde van de n getallen, wat geljk s aan x x. n 1 In woorden zeg je: het gemddelde van een verzamelng getallen s geljk aan de som van de getallen gedeeld door het aantal getallen. Voorbeeld Het gemddelde x van de volgende 9 getallen {8, 23, 6, 9, 13, 10, 12, 7, 11} s geljk aan 11, want 8+23+6+9+13+10+12+7+11 = 99 en 99/9 = 11. Waar afronden nodg s, schrjf je het gemddelde op met één decmale plaats meer dan de oorspronkeljke getallen. Dat s gewoon een afspraak. Als je je aan de afspraak houdt, dan s het net moeljk om zo n gemddelde op te schrjven. Centrum voor Statstek 22 Centrum voor Statstek 3

Maar het s wel moeljk om er de juste nterpretate aan te geven. Je moet mmers goed n het oog houden dat het gemddelde, als neuw getal, ontstaan s door een wskundge bewerkng ut te voeren (de som delen door het aantal). En wskundge bewerkngen storen zch net aan de context. Als je dat weet, dan weet je ook hoe je een gemddelde moet nterpreteren. Wat dacht je anders van de utspraak: n ons land heeft een gezn gemddeld 2.1 knderen? Waarschjnljk denk jj daar anders over dan een knd ut de lagere school n Australë dat ze: dat betekent dat elk gezn twee knderen heeft en dat de mama terug n verwachtng s! Je zou aan het gemddelde ook een fyssche betekens kunnen geven: het s het zwaartepunt op de x-as van een staafdagram of hstogram (ze verder). Als je de fguur zou utknppen en je zou aftasten tot zj n evenwcht op je vnger rust, dan heb je daar de plaats van het gemddelde ontdekt. 2.1.2 De medaan Fguur 1 Heel dkwjls ze je de fouteve utspraak de zegt dat de medaan het mddelste getal s. Als je naar {8, 23, 6, 9, 13, 10, 12, 7, 11} kjkt, dan zou de medaan 13 moeten zjn want dat getal staat moo n het mdden, met 4 getallen ervoor en 4 getallen erna. Maar dt s fout. egenaardge patronen. In zo n geval zjn het gemddelde en de standaardafwjkng goede maten voor het centrum en de spredng van de data. Her s x 10.50 mm en s 0.196 mm. De gebeden waar de data lggen ze je op de x-as. Of er n bepaalde gebeden meer of mnder data lggen, ze je door naar de oppervlakte boven de gebeden te kjken. Zo s de oppervlakte boven [10.50 ; 10.60[ veel groter dan boven [10.80 ; 10.90[ terwjl de ntervallen toch even lang zjn. Een andere dataset levert de volgende frequentetabel met klassenndelng. Voor de hoogtes n het bjhorende hstogram s een evenredghedsfactor k 5 genomen, gewoon om te llustreren dat je echt een vrje keuze hebt. Je verwacht nu dat elke rechthoek een oppervlakte zal hebben de geljk s aan 5 keer de frequente van de klasse waarop hj staat. Dat klopt. Reken maar na! Frequentetabel met klassenndelng voor dameters (n mm) Klasse Klassenbreedte b Frequente Hoogte f h 5 f/ b [9.95 ; 10.15[ 0.20 14 350 [10.15 ; 10.25[ 0.10 15 750 [10.25 ; 10.35[ 0.10 16 800 [10.35 ; 10.45[ 0.10 24 1200 [10.45 ; 10.55[ 0.10 43 2150 [10.55 ; 10.65[ 0.10 41 2050 [10.65 ; 10.75[ 0.10 7 350 Hoe kom je dan wel te weten wat de medaan s? Wel, je moet begnnen met eerst al je getallen te rangschkken, van klen naar groot. In dt voorbeeld krjg je dan {6, 7, 8, 9, 10, 11, 12, 13, 23}. En pas nu mag je het mddelste getal nemen. Dat s her 10 en dat s dan ook de medaan van de 9 getallen. De medaan s dus het mddelste getal van een verzamelng getallen de geordend zjn van klen naar groot. We noteren: Me = 10. Als je een even aantal getallen hebt, wat moet je dan doen? Ook her moet je ze eerst ordenen van klen naar groot. En dan zal je bemerken dat er egenljk twee getallen n het mdden staan. Zo heb je voor {6, 7, 8, 9, 10, 11, 12, 13} dat er Fguur 13 Centrum voor Statstek 4 Centrum voor Statstek 21

Opmerkng over de keuze van de klassenbreedte Andere keuze van klassen geven andere hstogrammen. Een beetje expermenteren kan her geen kwaad. Heronder staan nog twee hstogrammen van dezelfde dataset. Te brede klassen geven soms te weng nformate (wat zou er her gebeuren als je de klassenbreedte geljk zou nemen aan één?). Te smalle klassen leden dkwjls tot een zenuwachtge fguur. dre getallen vóór 9 staan en dat er ook just dre getallen na 10 staan. Negen en ten staan dus bede n het mdden en voor de medaan neem je dan het gemddelde van de twee mddelste, nameljk Me = 9 10 9.5. 2 Een leuk opdrachtje dat je met je klas kan doen: ga eens op een rj van klen naar groot staan. We heeft de medaanlengte? 2.2 Staafdagrammen 3.3.3 Een hstogram nterpreteren Fguur 11 Een hstogram gebruk je om een globaal zcht te krjgen op contnue data. Je kjkt naar kenmerken zoals symmetre, scheefhed, aantal utgesproken toppen, opvallende gaten, enz. Stap af van de drang om naar hoogtes te kjken maar laat je aandacht trekken door oppervlakten en door de globale vorm van de fguur. Staafdagrammen kan je tekenen voor categorsche gegevens. Dat zjn gegevens waarbj je de waarnemngen n verschllende categoreën klasseert. Soms hebben deze categoreën geen logsche volgorde (zoals kleuren of bloedgroepen), maar soms hebben zj dat wel (zoals goed, beter, best of getalwaarden zoals 1, 2, 3 ). In bede gevallen worden de balkjes n het staafdagram los van elkaar getekend. Als de categoreën geen logsche volgorde hebben, dan laat je een andere karakterstek (zoals hun frequente) de volgorde bepalen. Vaak ze je dat men kest voor een alfabetsche volgorde maar dat s meestal geen goed dee. In dt hoofdstuk bekjk je dscreet numereke opmetngen en de hebben een logsche volgorde. De volgorde gebruk je bj het tekenen van je staafdagram. 2.2.1 Symmetrsch rond één top Op een donderdag werd n een school aan 120 leerlngen gevraagd hoeveel boeken (handboeken, schrften en rngmappen) zj de dag hadden meegebracht. Het antwoord was als volgt. 12 13 12 13 13 12 17 20 13 12 12 12 11 14 10 11 9 10 9 13 7 9 11 12 12 12 12 11 10 9 7 9 11 11 13 11 12 9 10 16 16 14 8 11 10 11 13 8 13 12 15 12 13 10 17 16 12 12 16 14 11 15 9 11 12 12 6 8 12 12 11 10 16 5 9 8 10 15 10 8 9 12 13 12 11 11 11 18 11 11 12 12 12 13 9 8 10 13 12 14 14 11 10 11 10 9 10 15 9 10 6 11 10 13 14 14 14 10 10 13 Fguur 12 Het hstogram van de dameters heeft her één top-gebed waarrond de fguur vrj symmetrsch daalt naar lnks en naar rechts. Er zjn verder geen Het gaat her over het aantal boeken, wat een dscreet numereke veranderljke s met een beperkt aantal verschllende utkomsten (het mnmum s 5 en het maxmum s 20 n dt voorbeeld). Als je al de getallen samentelt en het resultaat deelt door 120 krjg je het gemddelde x en dat s her geljk aan 11.5. Centrum voor Statstek 20 Centrum voor Statstek 5

Om de medaan te vnden, moet je eerst de getallen ordenen van klen naar groot. Dat zet er als volgt ut. 5 6 6 7 7 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9 9 9 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 13 13 13 13 13 13 13 13 13 13 13 13 13 13 14 14 14 14 14 14 14 14 15 15 15 15 16 16 16 16 16 17 17 18 20 In het mdden staan twee getallen, op plaats 60 (want daar staan 59 getallen vóór) en op plaats 61 (want daar staan 59 getallen achter). Maak het gemddelde van de getallen op plaats 60 (dat s her het getal 11) en op plaats 61 (dat s her het getal 12 ). Zo krjg je de medaan Me = 11 12 11.5. 2 In de praktjk betekent dt dat, per klasse, de hoogte geljk moet zjn aan f / b, op een vrj te kezen evenredghedsfactor k na. De hoogte wordt dus berekend va k f / b. Bj het voorbeeld met de scharneren was de evenredghedsfactor k geljk aan één want je nam daar h f/ b 1 f/ b. Je hebt daar gezen dat de oppervlakte van een rechthoek dan geljk s aan de frequente. Als je nu de hoogte van zo n rechthoek vermengvuldgt met k dan wordt natuurljk ook de oppervlakte vermengvuldgd met hetzelfde getal k. De oppervlakte s dan net meer geljk aan de frequente maar aan k keer de frequente. Om het hstogram voor de dameters te tekenen s als evenredghedsfactor k 0.10 gekozen. De evenredghedsfactor s her dus geljk aan de klassenbreedte. h Wanneer je beschkt over een geordende ljst getallen, dan s het heel eenvoudg om een frequentetabel op te stellen. Let erop dat je begnt bj de klenste observate (dat s her 5) en stapsgewjs verder gaat tot aan je grootste observate (dat s her 20), zonder een stap over te slaan. Dat wl her bjvoorbeeld zeggen dat je n je frequentetabel ook het getal 19 moet zetten, hoewel dat getal net n je dataset voorkomt. Wat net voorkomt geef je een frequente geljk aan nul. Controleer dat de som van alle frequentes geljk s aan het totale aantal observates, dat s her 120. Aantal boeken Frequente = hoeveel leerlngen met dt aantal boeken Aantal boeken Frequente = hoeveel leerlngen met dt aantal boeken 5 1 13 14 6 2 14 8 7 2 15 4 8 6 16 5 9 12 17 2 10 17 18 1 11 21 19 0 12 24 20 1 SOM = 120 Fguur 10 Als je (zonder eenheden) de oppervlakte van de rechthoeken narekent dan vnd je 0.3 voor de eerste, 0.6 voor de tweede, 1.5 voor de derde, enz. Deze getallen zjn recht evenredg met het aantal observates per klasse. Inderdaad, het zjn de getallen de je vndt als je het product maakt: k frequente met k 0.10. Een staafdagram s een grafsche voorstellng van de nformate n je frequentetabel. De verschllende waarden van de veranderljke staan geordend op de x-as. De frequente of relateve frequente vnd je op de y-as. Centrum voor Statstek 6 Centrum voor Statstek 19

Om met de hand een hstogram te tekenen heb je een frequentetabel met klassenndelng nodg. Hoe je de klassen maakt, mag je vrj kezen maar je moet er natuurljk voor zorgen dat je totale gebed groot genoeg s om al je gegevens te bevatten. Met een klen beetje speurwerk ontdek je her dat het klenste getal 10.01 en het grootste 10.98 s. Meestal kes je ronde getallen en her zou je bjvoorbeeld kunnen starten bj 10 en lopen tot 11 met een klassenbreedte van 0.10. Frequentetabel met klassenndelng voor dameters (n mm) Klasse Klassenbreedte b Frequente Hoogte f h 0.10 f/ b [10.00 ; 10.10[ 0.10 3 3 [10.10 ; 10.20[ 0.10 6 6 [10.20 ; 10.30[ 0.10 15 15 [10.30 ; 10.40[ 0.10 25 25 [10.40 ; 10.50[ 0.10 29 29 [10.50 ; 10.60[ 0.10 30 30 [10.60 ; 10.70[ 0.10 26 26 [10.70 ; 10.80[ 0.10 16 16 [10.80 ; 10.90[ 0.10 7 7 [10.90 ; 11.00[ 0.10 3 3 Let erop dat de klassen begnnen met een gesloten haakje en endgen met een open haakje. Het zjn dus half gesloten half open ntervallen. Het klassenmdden s het gemddelde van de onder- en de bovengrens van de klasse. De formule voor de hoogte h wordt n de volgende paragraaf verklaard. Een hstogram teken je nu als volgt: Start met de klassen aan te duden op de x-as. Je kan de klassengrenzen aangeven of, als alle klassen even breed zjn, enkel het klassenmdden. Teken dan op elk nterval een rechthoek. Aangezen alle ntervallen op elkaar aansluten, lggen ook alle rechthoeken tegen elkaar. Hoe hoog moet de rechthoek zjn? Schrk net, maar het antwoord herop s: dat mag je zelf kezen, zolang je de bassegenschap van een hstogram respecteert. Bassafspraak voor het tekenen van een hstogram. De OPPERVLAKTE van een rechthoek s recht evenredg met het aantal observates n de klasse waarop de rechthoek staat Fguur 2 Als je naar de globale vorm van dt staafdagram kjkt, dan bemerk je dat er geen opvallende peken of gaten n ztten. Er s natuurljk wat schommelng en perfect symmetrsch s de fguur ook net. Maar dat s net erg, want echt utgesproken scheef zet hj er zeker net ut. Het globale patroon zegt dat er heel wat waarnemngsgetallen n het centrum lggen (ergens tussen 10 en 13) en dat er mnder en mnder waarnemngsgetallen voorkomen naarmate je verder van dt centrum weggaat (zowel naar lnks als naar rechts). Bj fguren de er globaal utzen zoals dt staafdagram s het gemddelde typsch voor je opmetngen. Dat gemddelde s her x 11.5 en je kan zeggen dat een typsche leerlng zo n 11 à 12 boeken bj heeft. Daarbj verwacht je ook heel wat leerlngen met 10 of 13 boeken maar veel mnder leerlngen met een aantal boeken dat ver van het gemddelde lgt, zoals 6 of 18. Ook de medaan s her een goede maat voor het centrum, n de betekens van typsch voor deze opmetngen. De medaan s geljk aan 11.5, wat toevallg exact samenvalt met het gemddelde. Bj staafdagrammen de een globale vorm hebben zoals n fguur 2 (met één utgesproken top en bovenden redeljk symmetrsch dalend naar lnks en naar rechts) vnd je meestal dat het gemddelde en de medaan net veel van elkaar verschllen. Zj zjn bede een goede maat voor het centrum. Zj geven je al een eerste ndruk voor wat typsch s bj je onderzoek. Centrum voor Statstek 18 Centrum voor Statstek 7

2.2.2 Eén top en scheef Scheef naar rechts Een ander onderzoek zou een volgend beeld kunnen geven. Fguur 9 Dt hstogram vertelt het juste verhaal. De lange rechthoek vertegenwoordgt nu één derde van de totale oppervlakte. Eén derde van de scharneren s te groot. Dat bleek ook ut de frequentetabel. Fguur 3 Op deze fguur ze je dat veel waarnemngsgetallen de waarde 7, 8, of 9 hebben en her lgt dudeljk de top als je naar de globale vorm van de grafek kjkt. Lnks en rechts van de top worden de staafjes klener maar dat gebeurt helemaal net op een symmetrsche maner. Naar rechts s de fguur veel verder utgespred dan naar lnks. Zo n vorm heet scheef naar rechts. Waar lggen gemddelde en medaan bj een grafek de scheef naar rechts s? Voor de 120 observates van fguur 3 s de medaan Me geljk aan 8 terwjl het gemddelde x geljk s aan 10.1. Het gemddelde s her groter dan de medaan. Wat je op dt voorbeeld ontdekt hebt, s ook algemeen waar. Staafdagrammen de scheef naar rechts zjn, stellen een dataset voor waarbj het gemddelde groter s dan de medaan. Je kan dt als volgt begrjpen. Het gemddelde houdt rekenng met de waarde van alle getallen. Als er dus veel getallen naar rechts verschuven, dan verschuft het gemddelde ook naar rechts. De medaan houdt geen rekenng met de waarde van de naar rechts verschoven getallen, alleen met het aantal (er moeten er evenveel lnks als rechts van de medaan lggen). Bemerk dat de y-as onbenoemd s gebleven. Dt s net erg als je her afspreekt dat je het hstogram zo tekent dat het maatgetal van de oppervlakte geljk s aan de frequente. Dat s her ook zo. De oppervlakte (zonder eenheden) van de laatste rechthoek s geljk aan bass hoogte 5 10 50 en dat s nderdaad geljk aan het aantal scharneren dat te groot s. 3.3.2 Een hstogram tekenen De volgende dataset toont de dameter (n mm) van 160 precsewerkstukken. 10.41 10.42 10.87 10.37 10.30 10.47 10.37 10.55 10.40 10.33 10.43 10.66 10.40 10.72 10.69 10.55 10.28 10.27 10.01 10.64 10.22 10.47 10.54 10.49 10.63 10.84 10.74 10.24 10.48 10.68 10.50 10.88 10.34 10.59 10.68 10.48 10.35 10.63 10.62 10.21 10.52 10.50 10.68 10.23 10.54 10.45 10.42 10.18 10.62 10.16 10.32 10.69 10.76 10.58 10.51 10.53 10.53 10.75 10.12 10.39 10.58 10.31 10.56 10.21 10.15 10.47 10.62 10.63 10.33 10.04 10.49 10.65 10.50 10.93 10.47 10.75 10.55 10.64 10.67 10.20 10.90 10.27 10.43 10.30 10.78 10.25 10.27 10.38 10.52 10.30 10.82 10.52 10.30 10.66 10.79 10.49 10.60 10.57 10.60 10.57 10.78 10.63 10.47 10.36 10.61 10.44 10.49 10.46 10.42 10.05 10.85 10.36 10.45 10.61 10.45 10.51 10.74 10.51 10.86 10.22 10.46 10.25 10.50 10.63 10.54 10.48 10.45 10.72 10.71 10.98 10.55 10.44 10.37 10.15 10.39 10.58 10.45 10.36 10.39 10.51 10.60 10.13 10.54 10.38 10.23 10.39 10.77 10.65 10.74 10.55 10.74 10.85 10.22 10.53 10.37 10.33 10.65 10.37 10.72 10.70 Centrum voor Statstek 8 Centrum voor Statstek 17

In deze fguur word je overdonderd door de grote rechthoek boven de klasse met slechte scharneren [ 101 ; 106 [. Bj deze volle fguur kjk je automatsch naar de oppervlakte. Je kan de totale oppervlakte van de eerste dre rechthoeken dre keer n de laatste rechthoek schuven en dan heb je nog overschot! De laatste rechthoek overheerst het totale beeld, zelfs al s hj net de hoogste. Ut de getekende fguur zou je afleden dat er dre keer zoveel slechte scharneren zjn als goede. Scheef naar lnks Het staafdagram n fguur 4 stelt 120 getallen voor met medaan Me = 21 en gemddelde x = 18.9. Her s het gemddelde dus klener dan de medaan. Dat had je natuurljk al verwacht, na de vorge paragraaf. De frequentetabel leerde ons dat er maar één derde van het totale aantal slecht s. De getekende fguur s dus verkeerd. Het s geen goed dee om op de y-as de frequentes ut te zetten. Maar wat dan wel? Een hstogram s net zoals een staafdagram met losse staafjes waar de hoogte de aandacht trekt. Een hstogram s een volle fguur van aaneenslutende rechthoeken waar de oppervlakte de aandacht trekt. Je moet er dus voor zorgen dat de oppervlakte van de rechthoeken een goede weerspegelng s van het aantal scharneren. De oppervlakte boven een klasse moet evenredg zjn met het aantal observates n de klasse. Als je bjvoorbeeld wl dat de oppervlakte van elke rechthoek geljk s aan de frequente (het aantal scharneren n de klasse) dan kan je heel eenvoudg vnden wat de hoogte moet zjn. Ut bass hoogte oppervlakte volgt dat klassenbreedte hoogte frequente of dat b h f. Herbj s b de breedte en f de frequente van de -de klasse. Voor de hoogte h van de rechthoek boven deze klasse volgt dan dat h f / b. Je kan de hoogte als een extra kolom aan je frequentetabel toevoegen. 2.2.3 Utscheters Fguur 4 Utscheters zjn getallen de ver weg lggen van de overgrote meerderhed van je opmetngen en de meestal een tussenrumte (een gat n de fguur) creëren. Als je een grafek hebt met utscheters, dan moet je goed opletten. Meestal trekken zj zeer sterk je aandacht zodat je wel eens een verkeerde ndruk kan krjgen van het globaal gedrag van de meerderhed van je waarnemngen. Frequentetabel met klassenndelng voor de lengte van scharneren (n mm) Klasse Klassenbreedte Aantal scharneren Hoogte b f (frequente) h f/ b [ 99.0 ; 99.5 [ 0.5 20 40 [ 99.5 ; 100.5 [ 1 56 56 [ 100.5 ; 101.0 [ 0.5 24 48 [ 101.0 ; 106.0 [ 5 50 10 Het hstogram met aangepaste hoogte zet er dan als volgt ut. Fguur 5 Centrum voor Statstek 16 Centrum voor Statstek 9

Als je naar fguur 5 kjkt, zou je wel eens aan scheef naar rechts kunnen denken. Maar egenljk s dat net zo en je mag zeker net besluten dat scheef naar rechts de globale egenschap s van je opmetngen. Van de 120 getallen zjn er maar 4 de utzonderljk ver naar rechts lggen. De andere 116 getallen lggen moo tussen 5 en 17 en hun staafdagram zou je kunnen omschrjven als ongeveer symmetrsch en met één top. Utscheters moet je altjd specale aandacht geven. Ga terug naar je oorspronkeljk onderzoek en probeer te achterhalen hoe de utscheters tot stand zjn gekomen. Het zou net de eerste keer zjn dat bj het ntkken van een dataset er her en daar een tkfout wordt gemaakt. Een getal dat oorspronkeljk s opgeschreven als 14 s msschen ngebracht als 144. Ook als je geen tkfout ontdekt, dan nog moet je n je rapport de utscheters afzonderljk vermelden. Probeer, als je kan, er een znvolle utleg aan te geven. Het gemddelde s gevoelg voor utscheters, zelfs als er slechts 4 zjn op een totaal van 120. Zonder de utscheters s, voor de resterende 116 getallen, de medaan Me = 11 en het gemddelde x = 10.8. Er s bjna geen verschl en dat verwacht je ook bj het staafdagram van de 116 getallen. Maar voor alle 120 getallen, dus met de utscheters erbj, s het gemddelde gestegen tot x = 11.8, terwjl de medaan nog steeds Me = 11 s. Op fguur 5 geeft de medaan ets beter weer waar je getallen globaal lggen. In andere stuates verandert het gemddelde nog veel meer door utscheters. Dan s x helemaal net goed om te zeggen waar je getallen globaal lggen. De bedrjfsleder wl deze resultaten bespreken op een werkvergaderng waarbj hj met een fguur de frequentetabel wl verdudeljken. Op de x-as zet hj de 4 klassen ut en daarboven tekent hj rechthoeken de verwjzen naar het aantal scharneren per klasse. Een eerste fout: de x-as. De ondergrens van de eerste klasse s 99 en de bovengrens van de laatste klasse s 106. Dat betekent dat je tussen 99 en 106 de 4 klassen moet tekenen op de x-as. Sommgen doen dt als volgt. Als je even kjkt ze je dat dt net just s. Er zjn nderdaad 4 klassen, maar zj zjn net allemaal even groot, en daar moet je natuurljk rekenng mee houden. Een juste fguur zet er als volgt ut. Een tweede fout: de y-as. Boven elke klasse moet je nu een rechthoek tekenen zodat je een goed dee krjgt van het aantal scharneren per klasse. Sommgen nemen als hoogte van zo n rechthoek gewoon de frequente (dat s dus het aantal scharneren n de klasse). Je krjgt dan de volgende fguur. 2.2.4 Clusters Aan 120 leerlngen werd gevraagd hoeveel boeken zj bj hadden. Twee leerkrachten (de net n dezelfde klassen kwamen) ondervroegen elk 60 leerlngen en legden hun getallen samen. Her zjn de 120 antwoorden. 8 4 5 10 11 12 16 5 5 11 6 14 4 5 11 17 6 5 10 14 6 4 13 12 6 4 7 10 11 6 11 12 5 3 10 9 4 11 6 11 8 13 11 8 5 10 10 11 4 18 7 10 10 5 10 10 6 11 9 11 10 7 11 5 5 5 5 15 4 6 7 4 5 9 13 9 5 5 6 7 4 5 15 5 15 4 13 4 4 6 3 4 4 11 9 12 13 11 4 12 10 10 11 5 5 5 6 4 12 11 13 15 6 6 4 12 6 5 11 4 Fguur 8 Centrum voor Statstek 10 Centrum voor Statstek 15

3.3 Het hstogram Een hstogram s de meest gebrukte fguur om het globale gedrag van contnu numereke gegevens te onderzoeken. 3.3.1 Een praktjkvoorbeeld Het klenste van deze 120 getallen s 3 en het grootste s 18. Het gemddelde s x 8.2 en de medaan s Me = 7.5. Zjn het gemddelde en de medaan her goede kengetallen voor de typsche lggng van je observates? Is het waar dat de meerderhed van de leerlngen rond de acht boeken per dag meebrengt? Om dt te weten heb je net genoeg aan een getal, zoals een gemddelde of een medaan. Een fguur bljft altjd nodg. De volgende dataset toont de lengte van 150 scharneren (n mm). 102.4 99.7 101.6 100.5 101.4 99.2 99.5 100.2 103.7 99.6 100.0 99.1 100.2 99.5 99.8 99.5 99.4 101.9 100.1 100.0 102.9 100.9 103.5 100.4 99.3 99.3 100.3 99.5 100.8 100.4 101.7 99.3 100.6 99.6 99.8 105.2 101.5 100.2 99.5 99.9 100.0 101.3 99.9 100.6 103.5 99.9 101.5 99.4 99.7 100.9 99.4 100.3 100.3 99.2 104.1 100.5 100.6 99.7 102.4 99.9 101.2 100.7 99.1 101.3 99.9 101.8 101.4 101.9 99.2 100.3 99.2 99.8 100.4 99.3 102.7 101.1 101.1 100.2 99.6 100.0 102.5 99.7 99.9 100.4 103.6 99.9 99.5 102.5 102.0 99.2 101.3 101.6 102.1 99.2 100.5 102.2 99.5 100.8 100.7 101.0 99.6 101.2 99.1 100.1 99.6 102.8 100.8 99.7 102.8 100.9 102.2 100.7 100.5 100.3 100.4 102.4 99.7 100.1 100.5 100.9 101.2 99.3 99.1 99.9 101.3 101.8 103.8 100.8 101.0 102.4 100.4 103.2 102.6 100.7 101.3 100.8 100.7 100.7 100.2 99.7 102.2 101.8 99.6 100.2 104.0 99.3 99.1 99.7 103.4 100.8 Het s de bedoelng dat de scharneren 10 cm (= 100 mm) lang zjn, maar een afwjkng (zowel te groot als te klen) tot ongeveer 0.5 mllmeter s nog altjd prma. De scharneren met een lengte tussen 99 en 99.5 mm of tussen 100.5 en 101 mm zjn ook nog brukbaar maar moeten afzonderljk verpakt worden. Alle scharneren de 101 mm of meer zjn mogen net verkocht worden. Om een zcht te krjgen op hoeveel scharneren er n elk van de groepen ztten, heeft de bedrjfsleder al de lengtes laten samenvatten n een frequentetabel. In deze tabel lees je dat 50 van de 150 scharneren net verkocht mogen worden. Dat s één derde van deze scharneren. Frequentetabel met klassenndelng voor de lengte van scharneren (n mm) Klasse Aantal scharneren f (frequente) [ 99.0 ; 99.5 [ 20 [ 99.5 ; 100.5 [ 56 [ 100.5 ; 101.0 [ 24 [ 101.0 ; 106.0 [ 50 Fguur 6 Het bljkt helemaal net waar te zjn dat een groot aantal leerlngen ongeveer 8 boeken bj heeft. Het staafdagram vertelt een heel ander verhaal. Het ljkt wel een fguur met twee toppen. Er zjn bljkbaar 2 clusters (ophopngen), één rond 5 en één rond 11. Hoe kan dat verklaard worden? Als je n je onderzoek een fguur ontmoet de ljkt op fguur 6, dan s de kans groot dat je te maken hebt met twee verschllende fenomenen. Probeer de te ontdekken en als je ze gevonden hebt, bestudeer dan elke stuate eens afzonderljk. Als je net vndt hoe je de twee clusters ut elkaar kan krjgen, beschrjf dan n je rapport dat je clusters hebt opgemerkt en geef aan dat het gemddelde en de medaan waarschjnljk geen goede kengetallen zjn om je waarnemngen samen te vatten. In het voorbeeld van de boeken kan de maner van opmeten je op een spoor brengen. De getallen werden verzameld door twee verschllende leerkrachten. Eén van de leerkrachten had de vraag gesteld op een donderdag maar de andere leerkracht had de vraag gesteld op een woensdag, en dan s er maar een halve dag les. De staafdagrammen voor de twee groepen (elk gebaseerd op 60 opmetngen) zen er als volgt ut. Centrum voor Statstek 14 Centrum voor Statstek 11

3.2 De standaardafwjkng De standaardafwjkng s een maat voor de spredng van getallen rond hun gemddelde. Als getallen ver uteen lggen, dan s de standaardafwjkng groot. Als zj dcht tegen elkaar lggen, dan s de standaardafwjkng klen. Fguur 7 Voor de eerste groep s de medaan 5 en het gemddelde 5.1. Voor de tweede groep s de medaan 11 en het gemddelde 11.4. Bede staafdagrammen vertonen nu geen egenaardge patronen meer en je zou ze kunnen omschrjven als ongeveer symmetrsch en met één top. Zowel de medaan als het gemddelde zjn her goede kengetallen om, per groep, het typsch centrum aan te geven. De 60 leerlngen de over de mddag thus gaan eten hebben per halve dag ongeveer 5 boeken bj. De andere 60 leerlngen brengen ongeveer 11 boeken mee voor een volledge schooldag. Als je dataset bestaat ut dudeljk verschllende groepen met elk een egen gemddelde en medaan, dan s de kans groot dat je n je staafdagram clusters zet. Dt s ets anders dan een fguur de scheef s naar lnks of naar rechts. 3 Contnu numereke gegevens: gemddelde, standaardafwjkng en hstogram Sommge veranderljken hebben utkomsten de een contnuüm bestrjken. Het echte geboortegewcht van een baby s msschen 3.49652485421154125 klogram. Je hebt daar geen weegschaal voor en je moet ergens afronden. Maar n fete bestrjkt gewcht een heel contnuüm van numereke utkomsten. Daarom noem je zo n veranderljke contnu numerek. 3.1 Het gemddelde Bj contnue gegevens s het gemddelde van n getallen x1, x2,..., x n geljk aan 1 n x x, net zoals bj dscrete gegevens. n 1 De standaardafwjkng bepaal je als volgt. Kjk eerst hoeveel elk getal afwjkt van het gemddelde x. Voor een getal x s de afwjkng geljk aan x x. Als x groter s dan x, dan s x x postef, maar als x klener s dan x, dan s x x negatef. Om altjd een posteve bjdrage te hebben, kan je werken met de absolute waarde x x maar dat s ngewkkeld. Daarom neemt men gewoon het kwadraat x 2 x, want kwadrateren maakt ook elke utdrukkng postef. Al de kwadratsche verschllen worden dan samengeteld. Zo krjg je n 2 x x. De som deel je door (n 1), wat ééntje mnder s dan het totale 1 aantal getallen. Delen door (n 1) heeft een goede reden n de statstek maar daar gaan we nu nog net op n. Tenslotte trek je ut dat resultaat de posteve verkantswortel. Eerst kwadrateren en later de wortel trekken zorgt ervoor dat je utkomst terug n dezelfde eenhed kan geschreven worden als de eenhed van je oorspronkeljke opmetngen. De notate voor de standaardafwjkng van je opmetngen s een klene letter s, en de formule s n 1 s x 2 x. n 1 De formule voor de standaardafwjkng moet je net ut het hoofd leren maar je moet ze wel n woorden kunnen lezen en er de bouwstenen van begrjpen. 1 Rekenmachnes hebben dkwjls een knop voor de standaardafwjkng waarbj gedeeld wordt door n en een andere knop de (n 1) gebrukt. Als je wl weten welke knop de juste s, dan s daar een handg trucje voor. Maak een ljst met de getallen 1, 2, 3 en druk op een knop voor de standaardafwjkng. Als het antwoord 1 (één) s, dan heb je de goede knop te pakken. Soms kom je het woord varante tegen. Dat s nets anders dan het kwadraat van de standaardafwjkng. De notate hervoor s s², zoals verwacht. Ook voor dscreet numereke veranderljken kan je s berekenen. De formule s dezelfde. Centrum voor Statstek 12 Centrum voor Statstek 13