In de praktijk gaat men eerder werken met numerieke codes. Aan de hand van een codeboek wordt per variabele een nummer aan een waarde toegekend.

Maat: px
Weergave met pagina beginnen:

Download "In de praktijk gaat men eerder werken met numerieke codes. Aan de hand van een codeboek wordt per variabele een nummer aan een waarde toegekend."

Transcriptie

1 Basisconcepten De statistiek heeft de studie van gegevens, die kenmerken van een bevolking beschrijven, tot object. Als je zelf onderzoek wil verrichten of de resultaten van het werk van een ander wil bestuderen is het van belang dat je goed de basiscomponenten van een onderzoek kan definiëren of herkennen. Stel dat we het bioscoopbezoek van Vlaamse studenten willen onderzoeken. > Onze bevolking zal bestaan uit alle Vlaamse studenten, ook nog wel de onderzoekspopulatie genoemd. Een onderzoekspopulatie bevat (onderzoeks )elementen of (statistische) eenheden. In ons voorbeeld gaat het om Vlaamse studenten, maar een populatie kan even goed bestaan uit gebeurtenissen, collectiviteiten, voorwerpen Het is belangrijk dat je deze eenduidig definieert! > Het bioscoopbezoek is het kenmerk van deze populatie dat we gaan onderzoeken. Een kenmerk kan variëren over de eenheden. Zo gaat de ene student maandelijks naar de bioscoop, terwijl de ander maar 1 keer per jaar gaat. Vandaar dat we in het vervolg zullen spreken van een variabele. De verzameling van alle mogelijke uitkomsten van een variabele noemen we de uitkomstenverzameling. Het bepalen van de uitkomsten gebeurt aan de hand van meten. Op deze manier wordt de waarde van een kenmerk bij een element vastgesteld, en dit aan de hand van een meetschaal. In onze casus stellen we de student de vraag hoeveel keer hij naar de bioscoop gaat en we bieden hem bijvoorbeeld een meetschaal aan die volgende categorieën bevat: jaarlijks, maandelijks, wekelijks, nooit. De gegevens worden tenslotte verzameld in een datamatrix. In de datamatrix (ook nog gegevensset of dataset genoemd) neemt elke case of statistisch eenheid een rij in. In de eerste kolom vermelden we de cases (dit kan door het invullen van de naam, maar is vaak het nummer dat aan een case wordt gekoppeld). In de kolommen die daarop volgen zetten we de vastgestelde waarde op het bestudeerde kenmerk. In de praktijk gaat men eerder werken met numerieke codes. Aan de hand van een codeboek wordt per variabele een nummer aan een waarde toegekend. Bijvoorbeeld: Geslacht: 1=Man, 2=Vrouw, 9= Geen Idee/ Geen Antwoord. Op die manier bekom je een datamatrix met getallen die een statistische verwerking mogelijk maakt. Let wel op: hoewel we in beide gevallen dus vaak getalnotaties gebruiken, bestaat er inhoudelijk een heel belangrijk verschil tussen 'echte' waarden en 'codes'. Zo slaat de variabele Leeftijd '19' letterlijk op iemand die '19' jaar oud is. Deze waarde is dus inhoudelijk zinvol, je kan er ook echt mee rekenen. Bij Geslacht werden de codes '1' en '2' louter arbitrair toegekend. Het betekent niet dat een vrouw '1 meer waard is' dan een man. LEES MEER: Moore & McCabe: pp. 3 6

2 Meetniveau van variabelen Voor het uitvoeren van statistische bewerkingen hebben we de waarden van de te onderzoeken variabele nodig. Variabelen kunnen ofwel kwantitatief ofwel kwalitatief zijn. Voorbeelden van kwantitatieve variabelen zijn onder meer lichaamslengte en loon, terwijl woonplaats of politieke voorkeur voorbeelden zijn van kwalitatieve variabelen. Het verschil tussen beide types variabelen is gemakkelijk samen te vatten: kwantitatieve variabelen omvatten 'numerieke waarden', getallen waarmee je ook kan gaan rekenen. Kwalitatieve variabelen omvatten enkel (kwalitatief te onderscheiden) categorieën, waaraan 'codes' werden toegekend. Bijvoorbeeld Woonplaats: Centrum Gent = 1, Randgemeente van Gent = 2 Met deze codes kan je zeker niet gaan rekenen. De verzameling van de waarden die een variabele kan aannemen wordt de meetschaal genoemd. De gebruikte meetschaal bepaalt het meetniveau van de variabele en bepaalt zodoende de hoeveelheid informatie die deze variabele bevat en welke bewerkingen we met de data mogen uitvoeren. 1. Kwalitatieve/Categorische variabelen Nominale variabelen Waarden die uitsluitend dienen voor identificatie en classificatie. Men kan ze niet ordenen. Bijvoorbeeld: geslacht, TV zender, haarkleur, werelddeel, Ordinale variabelen Waarden die we kunnen ordenen. De ene waarde is meer of minder (of kleiner of groter) dan de andere waarde, maar het is niet mogelijk om exact vast te stellen hoeveel meer of minder de ene waarde is. We kunnen er dan ook geen berekeningen op uitvoeren. Bijvoorbeeld: Opleidingsniveau gemeten aan de hand van hoogst behaalde niveau, kwaliteitsoordeel met sterretjes, 2. Kwantitatieve/Metrische variabelen Intervalvariabelen Waarden die we kunnen ordenen én waarbij het mogelijk is om gelijke afstanden tussen de mogelijke waarden vast te stellen. Er is dus sprake van ordenbaarheid en een meeteenheid. We kunnen de waarden optellen of aftrekken van elkaar: A is zoveel punten meer dan B. Bijvoorbeeld: temperatuur, Ratiovariabelen Waarden die we én kunnen ordenen, én een meeteenheid én een absoluut nulpunt hebben. Een absoluut nulpunt is een waarde die de afwezigheid van het bestudeerde kenmerk weergeeft, wat tevens de aanwezigheid van negatieve waarden uitsluit. Dit laat ons toe om verhoudingen tussen waarden te nemen. We vergelijken bijvoorbeeld de leeftijd van Tom (21 jaar) met die van Luc (42 jaar). Dan kunnen we stellen dat Tom tweemaal zo jong is als Luc. Dit kan je niet met bijvoorbeeld temperatuur omwille van de waarden onder nul. We kunnen de waarden hier niet alleen optellen of aftrekken van elkaar, maar ook vermenigvuldigen of delen. Andere voorbeelden van ratiovariabelen: budget (uitgedrukt in euro), exact tijdsverschil, lengte (gemeten in cm), > Ratiovariabelen bevatten meer informatie dan nominale.

3 3. Discrete en continue variabelen Tot slot moeten we ook nog het onderscheid maken tussen discrete en continue variabelen. Het indelen van variabelen in deze twee categorieën is van belang voor sommige analysetechnieken. Discrete variabelen zijn variabelen die niet verder kunnen worden onderverdeeld, eenmaal uitgedrukt in een eenheid. We hebben te maken met een eindige uitkomstenverzameling. Bijvoorbeeld: leeftijd in verstreken jaren, aantal kinderen, aantal keer bioscoop bezocht Continue variabelen zijn variabelen waarbij we voor elke twee mogelijke uitkomsten een derde uitkomst kunnen bedenken die tussen beide uitkomsten ligt. We hebben te maken met een oneindige uitkomstenverzameling. Zo hebben we mensen die 143 cm groot zijn, maar het kan goed zijn dat er mensen zijn die 142,35 cm groot zijn of 143, cm. Het is dan ook vaak de gewoonte dat we continue variabelen voorstellen door het dichtst bijzijnde getal, bijvoorbeeld wanneer we zeggen dat iemand 180cm groot is, dan staat dit getal eigenlijk voor alle waarden tussen 179,5 en 180,499 cm. Andere voorbeelden: tijd, gewicht Let op! Ook niet numerieke variabelen kunnen continue zijn, denk maar bijvoorbeeld aan haarkleur. LEES MEER: Moore & McCabe: pp. 4 Bevolkingsgegevens vs. steekproefgegevens 1. Bevolkingsgegevens Indien we beschikken over bevolkingsgegevens, dan hebben we informatie over de volledige onderzoekspopulatie. Als deze gegevens valide en betrouwbaar zijn, volstaat 'beschrijvende statistiek'. Beschrijvende statistiek is het samenvatten en beschrijven van een reeks gegevens. 2. Steekproefgegevens Het is echter vaak onmogelijk om alle eenheden uit een populatie te onderzoeken. Men kiest dan voor een steekproef: een selectie van eenheden uit de onderzoekspopulatie. > Steekproef: Deelverzameling van n aantal eenheden uit populatie Als we echter op de gegevens van de steekproef beschrijvende statistiek toepassen, krijgen we enkel informatie over de steekproefpopulatie. Indien we uitspraken over de volledige populatie willen doen op basis van de steekproef (wat meestal de bedoeling is), moeten we ons wenden tot 'inductieve statistiek'. Deze vorm van statistiek wendt technieken aan die ons toelaten om dergelijke uitspraken (op basis van een steekproef over een populatie) te doen. De essentie van inductieve statistiek is dat we expliciet rekening houden met de onzekerheid door het werken met een steekproef. Een bepaalde steekproef kan immers een iets anders resultaat opleveren dan mocht een andere steekproef genomen zijn. Er zal daarom een foutenmarge rond de resultaten worden opgenomen die ons toelaat om met een gekozen niveau van betrouwbaarheid te stellen dat de populatiewaarde in het berekende interval ligt. Daarnaast laat inductieve statistiek toe om concrete hypotheses m.b.t. de populatie te toetsen.

4 1. Univariate statistiek Doelstellingen Univariate Statistiek De univariate beschrijvende statistiek wil gegevens van 1 variabele op een overzichtelijke en synthetische wijze weergeven. Het kernbegrip hier is de frequentie waarmee de verschillende waarden van een variabele voorkomen in een steekproef of populatie. Deze beschrijvingen zullen we frequentieverdelingen noemen. In de univariate statistiek worden deze verdelingen op verschillende manieren beschreven: Frequentietabellen Grafieken Centrummaten Spreidingsmaten Niet alles is zo maar mogelijk: wat kan, is afhankelijk van het meetniveau. Een belangrijke regel is dat wat op een lager meetniveau kan ook op een hoger meetniveau kan, maar niet omgekeerd. Doel van dit hele verhaal is informatie verkrijgen. Op een grafische voorstelling zal het mogelijk zijn om het globale patroon en eventueel ongewone waarnemingen op te merken. Ook aspecten zoals het rekenkundig gemiddelde en de mediaan kunnen ons helpen bij het begrijpen van gegevens. Frequenties Absolute, relatieve en cumulatieve frequenties, frequentietabel, in klassen gegroepeerde gegevens 1. Frequenties Het aantal keer dat een bepaalde waarde voorkomt, wordt de absolute frequentie van die waarde genoemd. Bijvoorbeeld: je wil de leeftijd weten van de 600 studenten uit de 1 e bachelor pol & soc en je vindt in je onderzoek 420 studenten van 18 jaar, 120 studenten van 19 jaar en 60 studenten van 20 jaar. In absolute frequenties: de absolute frequentie van 18 jaar is 420 (= 18 jaar komt bij 420 studenten voor), de absolute frequentie van 19 jaar is 120 en de absolute frequentie van 20 jaar is 60. > Relatieve frequenties geven weer hoe vaak een waarde voorkomt t.o.v. het totaal aantal waarnemingen. In relatieve frequenties: de relatieve frequentie van 18 jaar is 70% (= 18 jaar komt bij 70% van de 600 studenten voor), de relatieve frequentie van 19 jaar is 20% en die van 20 jaar is 10%. Relatieve frequenties kan je uitdrukken in percentages op 100 (70%, 20% en 10%) of in proporties op 1 (0,7, 0,2 en 0,1). Proporties worden ook wel eens aangeduid als fracties. Om frequenties overzichtelijk weer te geven, worden ze in frequentietabellen geplaatst. Daarbij worden de woorden vervangen door symbolen: absolute frequentie wordt f i en proportie wordt p i. Het totaal aantal waarnemingen wordt n.

5 De i staat voor 'een bepaalde waarde'. In het voorbeeld zijn er drie i's: de waarde '18 jaar', de waarde '19 jaar' en de waarde '20 jaar'. Naast elke waarde (i) staat de absolute en relatieve frequentie van die waarde (f of p).vb: f 18 = 420 en p 18 = 0,7. Leeftijd studenten 1 e bachelor PSW in jaren (fictieve gegevens) Soms kan het interessant zijn om uitspraken te doen in de stijl van zoveel studenten zijn zo oud of jonger. Dat kan aan de hand van de cumulatieve frequentie. De laatste kolommen lees je als volgt: 420 studenten (of 70% van de studenten) zijn 18 jaar, 540 studenten (90%) zijn 19 jaar of jonger en 600 studenten (100%) zijn 20 jaar of jonger. In statistiektaal: de cumulatieve frequentie is het aantal (bijvoorbeeld 450) of het percentage (vb 90%) eenheden met een waarde i (vb 19) of lager. Cumulatieve frequenties en percentages kan je pas berekenen vanaf ordinaal niveau, dus pas vanaf het moment dat je de categorieën logisch kan ordenen van laag naar hoog! De cumulatieve frequentie van de laatste waarde is steeds gelijk aan het totaal aantal waarnemingen. Idem voor het cumulatief percentage bij de laatste waarde. 2. In klassen gegroepeerde gegevens Wanneer je te maken hebt met metrische variabelen (interval en ratio), kan het zijn dat je zodanig veel verschillende waarden hebt dat het opstellen van een frequentietabel niet echt veel bijdraagt aan de overzichtelijkheid. Stel dat je van die 600 studenten 1 e bachelor pol & soc de lichaamslengte wil weten. Veel kans dat je 80 verschillende lengtes vindt. In een frequentietabel zou dat 80 rijen onder elkaar betekenen. De oplossing hiervoor is het groeperen van gegevens in klassen. Je neemt groepen van waarden samen. Lichaamslengte studenten 1 e bachelor pol en soc in centimeter (fictieve gegevens) De grenzen van de klassenindeling kan je kiezen op basis van de beschikbare gegevens en op basis van wat je met je onderzoek wil bereiken. Het gevolg van indelen in klassen is een overzichtelijker weergave, maar ook een verlies aan informatie. Zo kan je bijvoorbeeld niet zien hoe de verdeling van de eenheden is binnen elke klasse. De 80 studenten in de klasse cm, zijn die allemaal 150 cm of liggen ze mooi gespreid over alle waarden tussen 150 en 159?

6 Een mogelijke procedure om gegevens in klassen in te delen: Bepaal de variatiebreedte. Dat is de maximumwaarde min de minimumwaarde (in het voorbeeld: de grootste student de kleinste student). Kies het aantal gewenste klassen (meestal tussen 3 en 20 klassen, op basis van theorie en praktische overwegingen). De breedte van de klassen: deel de variatiebreedte door het aantal klassen. Voor de duidelijkheid best gelijke klassenbreedten en afgeronde klassen (niet bv , , ). Bij de onderste en de bovenste klasse kan je eventueel kiezen om er open klassen van te maken (vb: kleiner dan 159 en groter dan 200). Zo kan je voorkomen dat je een aantal klassen krijgt met maar 1 of enkele eenheden met een extreme waarde. Er is tevens een verschil bij het weergeven van klassengrenzen voor discrete variabelen en continue variabelen. Bij continue variabelen moeten de grenzen exclusief zijn. Er mag geen twijfel over bestaan waar iemand met een lichaamslengte van 180,3 cm bij hoort (in de vierde klasse). Vandaar de symbolen groter dan/gelijk aan en kleiner dan. Tot slot is het belangrijk om te weten dat bij continue variabelen bij het maken van berekeningen (zie verder) gewerkt wordt met de werkelijke klassengrenzen en niet met de weergegeven klassengrenzen. In het voorbeeld zijn de weergegeven grenzen 150. <160, maar de exacte zijn 149,5. <159,5. Deze exacte grenzen komen overeen met het midden tussen de bovengrens van de eerste klasse en de ondergrens van de daarop volgende klasse. LEES MEER: Moore & McCabe: pp Grafische voorstelling van frequentieverdelingen Taart, staaf, stamdiagram, histogram Frequentietabellen vertellen ons veel, maar vaak zal een grafische voorstelling een duidelijker beeld scheppen van de gegevens. We zullen hieronder enkele grafische voorstellingen beschrijven. Het is goed mogelijk dat je uiteindelijk kiest voor een variant van de hieronder beschreven voorbeelden; zolang de voorstelling de gegevens exact weergeeft is dit geen probleem. Je moet bij het opstellen van grafieken je wel aan enkele vormelijke voorschriften houden: categorieën exhaustief en exclusief titel: kort en bondig inhoud aangeven kolomkoppen, met exacte aanduiding inhoud logische ordening totalen best steeds bron vermelden, of aangeven dat het om fictieve data gaat 1. Taartdiagram In een taartdiagram worden de frequenties door cirkelsectoren voorgesteld. De oppervlakte van elke sector is recht evenredig met de relatieve frequentie. Voordeel: Een taartdiagram maakt direct de verdeling duidelijk. Nadeel: Aantal categorieën is beperkt. Zo is het weergeven van bijvoorbeeld twaalf frequenties in een taartdiagram een slechte keuze: de verschillen onderling zullen moeilijker waar te nemen zijn. Opmerking: driedimensionale taartdiagrammen kunnen ten gevolge van het perspectief misleidend zijn.

7 2. Staafdiagram In een staafdiagram wordt de frequentie van elke categorie weergegeven door een staaf. De staafjes staan in de grafiek los van elkaar. De hoogte van ieder staafje is recht evenredig met de absolute of de relatieve frequentie. In het geval van nominale variabelen staan de waarden nevengeschikt op de abscis. In het geval van ordinale variabelen wordt de abscis van een pijl voorzien omdat de waarden ordenbaar zijn. Voordeel: Staafdiagrammen zijn gemakkelijk te interpreteren. Opmerking: Men kan best opletten voor misleiding. Bijvoorbeeld: Een grafiek waarbij men begint met een frequentie van 65% op de Y as in plaats van met de gebruikelijke 0%. Zo lijken sommige categorieën bijzonder klein. Een staaf van 70% ziet er plots als een staafje van 5% uit. 3. Stamdiagram (stam en blad diagram) Een stam en blad diagram brengt op een snelle manier een verdeling in beeld en werkt het best voor een gering aantal waarnemingen met waarden die groter zijn dan 0. De stam van zo'n diagram is een kolom dat bestaat uit alle stamcijfers van de data (die bekom je bijvoorbeeld door het laatste cijfer te laten vallen van de waarde). Achter iedere stam in de kolom worden de 'bladeren' geplaatst, waarbij een blad staat voor het laatste cijfer. Bijvoorbeeld voor de waarde 45 is 4 de stam en 5 het blad dat hoort bij stam 4. Indien er bij de waarden getallen zoals 47 en 48 zitten, voegen we de bladeren 7 en 8 toe aan de rij achter stam 4. In een laatste fase worden de cijfers achter de stam geordend van klein naar groot.

8 Bijvoorbeeld: het aantal optredens dat een populaire rockgroep deed per jaar, en dit van 1990 tot en met 2005: Op basis van deze stamdiagram kunnen we bijvoorbeeld opmaken dat ze in die 15 jaar drie jaren hebben gehad met meer dan 90 optredens. 4. Histogram Een histogram vertoont gelijkenissen met een staafdiagram maar kan enkel bij metrische variabelen. De staafjes plakken nu tegen elkaar. We hebben tevens te maken met in klassen gegroepeerde gegevens. Hier is het oppervlak per staafje recht evenredig met de (relatieve) frequentie. Voordeel: Een verdeling op metrisch niveau is visueel mogelijk. Nadeel: De verdeling is afhankelijk van de klassenindeling. Opmerking: Op de X as vermeld je de exacte klassengrenzen, of de klassenmiddens. Let wel op dat je in dat laatste geval vermeldt dat het over waargenomen klassen gaat. LEES MEER: Moore & McCabe: pp Maten van positie Modus, mediaan, kwartielen, rekenkundig gemiddelde De doelstelling van de beschrijvende statistiek is de verdeling van een variabele zo compact mogelijk weer te geven. Dit kan via frequentietabellen en grafieken, maar ook door de verdeling in een beperkt aantal statistische maten weer te geven. Meer specifiek onderscheiden we drie types maten die elk een ander aspect van een verdeling samenvatten in één cijfer:

9 maten van positie maten van spreiding maten van vorm We beginnen met de maten van positie. Maten van positie geven weer rond welke waarden de verdeling van een variabele gepositioneerd is. Een specifiek type van maten van positie zijn de maten van centraliteit. Die geven weer welke de meest centrale waarde van een verdeling is. Bijvoorbeeld: als je kijkt naar de punten op het examen statistiek van alle studenten uit 1e bachelor pol & soc, kan je stellen dat het gemiddelde 11/20 is. Dit houdt in dat 11 de centrale waarde of centrale positie is waarrond de punten van alle studenten gespreid liggen. Er bestaan drie verschillende maten van centraliteit. Welke maat van centraliteit je kan gebruiken, hangt af van het meetniveau van de variabele. 1. De modus Nominaal meetniveau: de modus ( M o ) > De modus is de waarde met de hoogste frequentie. Bijvoorbeeld: De waarde met de hoogste frequentie is drama'. Dit komt 80 keer voor, terwijl de andere waarden minder voorkomen. LET OP voor één van de meest gemaakte beginnersfouten op examens: de modus is nooit een frequentie, altijd een waarde!! De modus is niet 80, de modus is drama'. Bij in klassen gegroepeerde gegevens wordt gesproken over de modale klasse in plaats van over de modus. De modus en de modale klasse geven op zich niet zoveel informatie. Er wordt enkel iets gezegd over de waarde die meest voorkomt maar daarmee weet je nog niks over de verdeling van de eenheden over de andere waarden. 2. De mediaan Ordinaal meetniveau: de mediaan ( M ) De mediaan is het middelpunt van de verdeling. Het is die waarde waarvan je kan zeggen: er zijn evenveel eenheden met een waarde die lager is dan dat er eenheden zijn met een waarde die hoger is dan de mediaan. Of anders gezegd, de mediaan is de waarde die de verdeling splitst in: 50% van de waarnemingen is lager en 50% van de waarnemingen is hoger dan deze waarde.

10 De mediaan vind je door de waarde te zoeken die hoort bij de waarneming (n+1)/2 nadat de waarnemingen van laag naar hoog werden gesorteerd. Waar bij n staat voor het aantal waarnemingen. Bijvoorbeeld: de score van 5 studenten op het examen: 10, 10, 11, 12 en 13. Je neemt (5+1)/2 = 3. De waarde van de derde waarneming is de mediaan: de waarde 11 (er zijn evenveel waarnemingen kleiner als groter dan 11). Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. Je neemt (6+1)/2 = 3,5. De mediaan ligt tussen de derde en de vierde waarneming: 11,5. 3. Kwartielen Ordinaal meetniveau: de kwartielen ( Q 1, Q 2 en Q 3 ) In analogie met de mediaan, kan je de kwartielen bekijken als een waarde die de verdeling opsplitst in twee groepen. Maar waar de mediaan een 50% 50% verdeling oplevert, geven de kwartielen de volgende verdeling: Q 1 (het eerste kwartiel) is de waarde die de verdeling splitst in: 25% van de waarnemingen is lager en 75% van de waarnemingen is hoger dan deze waarde. Q 3 (het derde kwartiel) is de waarde die de verdeling splitst in: 75% van de waarnemingen is lager en 25% van de waarnemingen is hoger dan deze waarde. Q 2 (het tweede kwartiel) splitst de verdeling in 50% 50% en is dan ook identiek aan de mediaan. Nog een stap verder kom je bij de percentielen uit. Bijvoorbeeld : Percentiel 15 is de waarde die de groep splitst in 15% van de waarnemingen kleiner en 85% van de waarnemingen groter dan deze waarde. En zo is alles mogelijk: Percentiel 32, Percentiel 78, Let ook hier weer op het feit dat de mediaan, de kwartielen en de percentielen steeds waarden zijn, nooit frequenties! 4. Het rekenkundig gemiddelde Metrisch meetniveau: het rekenkundig gemiddelde ( ) Het rekenkundig gemiddelde geeft het centrale punt weer (ook wel het evenwichtspunt of het zwaartepunt genoemd) van de verdeling.

11 Er zijn 4 methodes om het rekenkundig gemiddelde te berekenen. met individuele waarnemingen Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = ( ) / 6 = 11,3 met absolute frequenties Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = (2x10)+(1x11)+(2x12)+(1x13) / 6 = 11,3 met relatieve frequenties Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = (10x33%)+(11x17%)+(12x33%)+(13x17%) / 6 = 11,3 (met percentages) of = (10x0,33)+(11x0,17)+(12x0,33)+(13x0,17) / 6 = 11,3 (met proporties) met gegroepeerde gegevens Identiek aan het werken met de absolute of relatieve frequenties, maar de waarden zijn dan de gemiddelden tussen de ondergrens en de bovengrens van elke klasse (het klassemidden). Een nadeel bij het rekenkundig gemiddelde is dat deze maat gevoelig is aan uitschieters (wat niet het geval is bij de mediaan). Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. Dit geeft een mediaan van 11,5 en een gemiddelde van 11,3. Stel dat de laatste student in plaats van 13 een 20 heeft behaald. De mediaan blijft ongewijzigd, het rekenkundig gemiddelde maakt een sprong naar 12,5. Een kenmerk van het rekenkundig gemiddelde dat later nog belangrijk wordt, is dat de som van de deviatiescores steeds gelijk is aan 0. In andere woorden: als je van alle waarden het gemiddelde aftrekt en je maakt de som van die uitkomsten, dan krijg je steeds 0. Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = ( ) / 6 = 11,3 (10 11,3)+(10 11,3)+(11 11,3)+(12 11,3)+(12 11,3)+(13 11,3) = 0 LEES MEER: Moore & McCabe: pp Maten van spreiding Interkwartielafstand, variantie, standaardafwijking, boxplot Maten van spreiding geven weer hoe heterogeen de waarnemingen zijn. Hoe kleiner de maat, hoe dichter de verschillende waarnemingen bij elkaar liggen. Hoe groter de maat, hoe groter de verschillen zijn tussen de waarnemingen. Of met andere woorden: hoe meer spreiding.

12 1. De interkwartielafstand Interkwartielafstand (IKA) (metrisch niveau) Met de kwartielen (zie het deel over maten van positie) kan je iets zeggen over een bepaalde waarde waarrond de gegevens zijn gegroepeerd. Zo heb heb je Q 1 (het eerste kwartiel) dat de verdeling splitst in 25% van de waarnemingen lager en 75% van de waarnemingen hoger dan de waarde van Q 1,en Q 3 (het derde kwartiel) dat de verdeling splitst in 75% van de waarnemingen lager en 25% van de waarnemingen hoger dan de waarde ervan. De interkwartielafstand is een spreidingsmaat gebaseerd op Q 1 en Q 3. Deze geeft namelijk de afstand tussen beide kwartielen weer. Bij geringe spreiding, zullen het eerste en het derde kwartiel niet ver uit elkaar liggen. Wanneer je dan Q 1 aftrekt van Q 3 kom je aan een klein getal, wat wijst op een kleine spreiding. Bij een grote mate van spreiding, gebeurt het omgekeerde: Q 1 en Q 3 liggen ver uit elkaar en het verschil van beide geeft een groot getal, wat wijst op een grote spreiding. Let op: dit gaat enkel over de centrale 50% van de waarnemingen (de waarnemingen die liggen tussen het eerste en het derde kwartiel). De IKA zegt je niks over wat er gebeurt met de 25% waarnemingen onder Q 1 en de 25% waarnemingen boven Q 3. Hoe de spreiding daar is en of er sprake is van uitschieters, kan je niet vatten met de IKA. Een positief gevolg hiervan is evenwel dat het een stabiele maat is die niet beïnvloed wordt door eventuele uitschieters. 2. De variantie Variantie ( s²) (metrisch niveau) Waar de interkwartielafstand iets zegt over de verschillen tussen de centrale 50% waarnemingen, kijkt de variantie naar alle waarnemingen. Meer bepaald wordt voor (van) elke waarneming nagegaan (gekeken) hoe ver die van het gemiddelde ligt. Heel letterlijk zou je de variantie kunnen opvatten als een soort (gekwadrateerde) gemiddelde afwijking tot het gemiddelde. Bijvoorbeeld: de leeftijd van 6 kinderen/jongeren uitgedrukt in jaren. Stap 1 (kolom 1): 6 waargenomen waarden. Stap 2 (onderaan kolom 1): bereken het gemiddelde. Stap 3 (kolom 2): het verschil tussen elke waarde en het gemiddelde van de 6 waarden. Stap 4 (kolom 3): aangezien de som van de afwijkingen ten opzichte van het gemiddelde steeds 0

13 is (is altijd zo!), worden de verschillen gekwadrateerd. Stap 5 (onderaan kolom 3): de som van de gekwadrateerde verschillen. Om tot de variantie te komen volgt nog stap 6: het delen van de som van de gekwadrateerde verschillen door n 1: 34,84 / 6 1 = 6,97. Voor de formule en meer informatie hieromtrent verwijzen wij naar het boek van Moore & McCabe. 3. De standaardafwijking Het probleem met de variantie is dat door het kwadrateren de verhoudingen zijn gewijzigd en ook de meeteenheid gekwadrateerd werd (de variantie in het voorbeeld hierboven is 6,97 jaren²). Om beide problemen op te vangen wordt de vierkantswortel van de variantie genomen: 2,64 jaren. Dit getal heet de standaardafwijking s. Dit is de meest gebruikte spreidingsmaat voor metrische variabelen, en komt neer op een soort gemiddelde afwijking van alle waarnemingen tot het gemiddelde. Net zoals bij de variantie geldt dat een kleine standaardafwijking wijst op een geringe spreiding (alle waarnemingen liggen dicht bij elkaar waardoor er kleine verschillen zijn ten opzichte van het gemiddelde) en een grote s² of s wijst op een grote spreiding (grote verschillen tussen de waarnemingen waardoor er ook grote verschillen t.o.v. het gemiddelde voorkomen). Een s² of s van 0 komt voor wanneer alle waarnemingen dezelfde waarde hebben. In het bovenstaande voorbeeld: als alle 6 de eenheden bijvoorbeeld 11 jaar zouden zijn. Een nadeel echter is dat s heel gevoelig is voor de invloed van uitschieters. Door het kwadrateren krijgt het verschil van een uitschieter t.o.v. het gemiddelde een nog grotere impact dan de invloed van uitschieters bij bijvoorbeeld het berekenen van het gemiddelde. 4. De boxplot De boxplot (doosdiagram, box and whisker plot) is een manier om in één tekening 5 getallen die iets zeggen over de verdeling van een variabele grafisch weer te geven. Aan de hand van een boxplot kan je iets zeggen over zowel de positie, de spreiding als de vorm van een verdeling. Zo weet je steeds dat binnen de box de centrale 50% van de waarnemingen zit, aangezien de box begrensd wordt door Q 1 en Q 3. En weet je ook dat binnen de box steeds 25% van de waarnemingen boven en 25% van de waarnemingen onder de mediaan lijn zit. In het voorbeeld kan je dan ook zien dat de 25% waarnemingen onder de mediaan meer van elkaar verschillen dan de 25% waarnemingen boven de mediaan: het onderste deel is veel breder dan het bovenste deel (lees: meer spreiding in het onderste deel). Dit wordt vaak gebruikt bij en is zeer handig bij de vergelijking van groepen eenheden (bijvoorbeeld het verschil tussen mannen en vrouwen in uren televisie kijken, het verschil in autodiefstallen tussen 1995 en 2005, ).LEES MEER: Moore & McCabe: pp

14 Vorm van een verdeling De vorm van een verdeling is een volgende bron aan informatie. We kunnen drie soorten vormen onderscheiden: > Symmetrisch Er is sprake van een spiegelbeeld. In dit geval is het gemiddelde gelijk aan de mediaan. = M > Rechts a symmetrisch In dit geval is er sprake van een lange staart naar rechts, met hogere frequenties aan de linkerkant. Het gemiddelde is groter dan de mediaan. > M > Links a symmetrisch In dit geval is er sprake van een lange staart naar links, met hogere frequenties aan de rechterkant. Het gemiddelde is kleiner dan de mediaan. < M

15 Opmerking! Het kan ook voorkomen dat je te maken hebt met een bi modale verdeling. In de vorige verdelingen was er telkens sprake van 1 modus, maar een bi modale verdeling kan 2 tot meer modi hebben. Dat merk je in het histogram: twee of meerdere waarden zullen een even grote frequentie hebben. LEES MEER: Moore & McCabe: pp Transformaties van variabelen Wanneer er iets verandert in de waarden van een variabele (transformatie), heeft dat een invloed op de maten van centraliteit en de maten van spreiding. Er zijn twee mogelijke scenario's: 1) Als bij elke waarde eenzelfde getal wordt bijgeteld, schuift de verdeling op. Het gevolg is een wijziging in de maten van centraliteit. De maten van spreiding wijzigen niet. Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. Dit geeft een mediaan van 11,5 en een gemiddelde van 11,3. De standaardafwijking is 1,21. Als je bij elke score 2 optelt (12, 12, 13, 14, 14 en 15), dan kom je aan een mediaan van 13,5 en een gemiddelde van 13,3. Er is dus evenveel (2) bijgekomen als de toename in de scores zelf. De standaardafwijking blijft 1,21. 2) Wanneer elke waarde vermenigvuldigd wordt met eenzelfde getal, schuift de verdeling op én wordt de spreiding groter. Zowel de maten van centraliteit als de maten van spreiding wijzigen. Bijvoorbeeld: het aantal uren televisie kijken per week van 6 mensen: 10, 10, 11, 12, 12 en 13. Dit geeft een mediaan van 11,5 en een gemiddelde van 11,3. De standaardafwijking is 1,21 Als je elke waarde vermenigvuldigt met 2 (20, 20, 22, 24, 24 en 26), kom je aan een mediaan van

16 23 en een gemiddelde van 22,6. De standaardafwijking wordt 2,42. Net zoals de waarden, worden de mediaan, het gemiddelde én de standaardafwijking met 2 vermenigvuldigd. LEES MEER: Moore & McCabe: pp Dichtheidskrommen en theoretische verdelingen Een dichtheidskromme is een specifiek soort grafiek waarmee een verdeling kan worden weergegeven. Dit kan zowel een waargenomen verdeling zijn, als een theoretische verdeling. We starten met een voorbeeld. Stel dat je bij 1700 studenten de lichaamslengte hebt gemeten. Omdat er zoveel verschillende waarden zijn, hebben we ze samengenomen in klassen. Hier zijn de klassenmiddens gepresenteerd. Grafisch kan je deze verdeling voorstellen met een histogram en een dichtheidskromme: Het staafdiagram in dit voorbeeld omvat de werkelijk gevonden gegevens en wordt uitgedrukt in

17 absolute getallen. De dichtheidskromme geeft eerder een theoretische benadering en wordt uitgedrukt in proporties. De oppervlakte onder de volledige kromme kan je dus benoemen als 1. Met andere woorden '100% van alle waarnemingen zit onder de kromme'. Een dichtheidskromme heeft daarenboven ook een modus, een mediaan, kwartielen en een verwachting (wat je zou kunnen gelijk stellen met het gemiddelde) die iets vertellen over de positie van de verdeling. De spreiding van de kromme wordt vertaald in de interkwartielafstand, de variantie en de standaardafwijking. Op basis van deze gegevens kan je een dichtheidskromme benoemen als symmetrisch of asymmetrisch, ééntoppig of meertoppig, scherp of afgeplat. Vaak voorkomende soorten verdelingen (en hiermee overeenstemmende dichtheidskrommes) kunnen samengevat worden door theoretische verdelingen. Dit zijn verdelingen die volledig wiskundig beschreven zijn en waarvan de kenmerken gekend zijn. Ze zijn als het ware sjablonen die een waargenomen verdeling dicht benaderen. Het nut van een theoretische verdeling ligt in het feit dat dit een samenvatting geeft van de belangrijkste kenmerken van een verdeling in een zeer compacte vorm. Een theoretische verdeling heeft ook een aantal eigenschappen die verdere bewerkingen mogelijk maken. De meest gebruikte theoretische verdeling is de normaalverdeling. Die is symmetrisch, ééntoppig en klokvormig (zie volgende webpagina). LEES MEER: Moore & McCabe: pp De normaalverdeling Kenmerken, standaardisering, rekenen met de standaardnormale verdeling 1. Kenmerken De normaalverdeling (ook: standaardnormaalverdeling) is een symmetrische, ééntoppige, klokvormige theoretische verdeling. Vooral het element symmetrisch' is belangrijk om steeds in het achterhoofd te houden bij verdere bewerkingen met de normaalverdeling. Elke normaalverdeling heeft een gemiddelde μ en een standaardafwijking σ (notatie: N(μ, σ)). Los van de specifieke gegevens waarop je de normale verdeling toepast, heeft elke perfect symmetrische verdeling, zoals de normaalverdeling, de eigenschap dat de mediaan gelijk is aan het gemiddelde. Je kan dan ook zeggen dat 50% van de waarnemingen onder het gemiddelde μ en 50% van de waarnemingen boven het gemiddelde μ ligt. Een bijkomende eigenschap van de normaalverdeling is de ,7 regel:

18 Als je vanuit het gemiddelde 1 keer de standaardafwijking σ bijtelt en 1 keer de standaardafwijking σ aftrekt, kom je aan 68% van alle waarnemingen. Anders gezegd: 68% van alle waarnemingen ligt binnen het interval μ ± σ. Hetzelfde geldt voor het interval dat je krijgt als je ongeveer 2 keer (precies 1,96) de standaardafwijking van het gemiddelde aftrekt en bij het gemiddelde bijtelt. Binnen dat interval omvat je 95% van alle waarnemingen. Bij drie keer de standaardafwijking omvat je 99,7% van alle waarnemingen. 2. Standaardisering en de standaardnormaalverdeling In een verdere stap kan je de normaalverdeling omzetten in de standaardnormaalverdeling. Je zet elke waarde binnen een normaalverdeling letterlijk om in het aantal standaardafwijkingen dat deze waarde verwijderd ligt van het gemiddelde. Deze verdeling heeft als eigenschap dat het gemiddelde μ steeds gelijk is aan 0 en de standaardafwijking σ steeds gelijk is aan 1 (notatie: N(0,1) ). Het nut van deze standaardisatie is dat de meeteenheden (score, cm, jaar) wegvallen en dat alle waarden worden uitgedrukt in termen van aantal standaardafwijkingen afwijking t.o.v. het gemiddelde'. Op die manier kan je verdelingen zonder probleem met elkaar vergelijken wat betreft spreiding, positie en vorm, ook al gaat het in oorsprong over verschillende kenmerken. Het standaardiseren van gegevens houdt in dat je deze omzet naar z scores. Van elke waarneming trek je het gemiddelde af en die uitkomst deel je door de standaardafwijking. De bekomen z score lees je als volgt: 'de waarneming wijkt z keer de standaardafwijking af van het gemiddelde'. Nogmaals: of het nu gaat over cm, jaar of scores, met de uitdrukking 'zoveel keer de standaardafwijking afwijkend van het gemiddelde' zeg je iets over de plaats van elke waarde en bij uitbreiding over de spreiding van de verdeling. En kan je anders niet te vergelijken gegevens toch naast elkaar zetten.

19 3. Rekenen met de standaardnormaalverdeling De eigenschappen van de standaardnormaalverdeling laten toe om bewerkingen uit te voeren. De twee mogelijke toepassingen zijn: een proportie zoeken op basis van een waarde Bijvoorbeeld: wat is het percentage studenten die lager scoren dan 12/20 aanpak: waarde > z score > proportie een waarde zoeken op basis van een proportie Bijvoorbeeld: welke minimale score op 20 heeft de 30% beste studenten aanpak: proportie > z score > waarde De stap tussen een waarde en een z score, of omgekeerd, kan je maken aan de hand van de formule. En de stap tussen z score en proportie, of omgekeerd, kan je maken aan de hand van de tabel van de standaardnormaalverdelingen (vaak ook de z tabel genoemd). Deze tabel vind je als tabel A achteraan in het boek van Moore & McCabe. LEES MEER: Moore & McCabe: pp Effecten van non respons Unit en item non respons Opmerking: schakel en voorbereidingsstudenten die het vak 'methodologie' in hun curriculum hebben, zullen in de lessen van dit vak dieper ingaan op de effecten van nonrespons! Tot nu toe zijn we er steeds vanuit gegaan dat we alle informatie hadden van alle variabelen. Het kan echter voorkomen dat er informatie zal ontbreken. 1. Unit non respons Een eerste variant is de unit non respons. Hier ontbreekt alle informatie van een eenheid of eenheden. We bevinden ons in een situatie waarin één of meerdere eenheden uit de getrokken steekproef weigerden mee te werken, onmogelijk te contacteren waren of niet inzetbaar waren. In zo'n geval is er sprake van een dekkingsfout. Hoe groot het percentage unit non respons is hangt af van het steekproefdesign en het steekproefkader. We kunnen de mogelijke vertekening (zij het beperkt) inschatten door de steekproef te vergelijken met de populatie op kenmerken waarover wel informatie op populatieniveau beschikbaar is. Neem bijvoorbeeld de survey 'Cultuurparticipatie in Vlaanderen '. Indien we de relatieve frequenties bekijken van het aantal mannen en vrouwen in leeftijdscategorieën in onze survey en die vergelijken met dezelfde gegevens gekend voor heel Vlaanderen, dan kunnen we merken dat op de meeste categorieën geen grote verschillen te merken zijn. Maar toch stellen we vast dat we 1,2% meer mannen van 14 tot en met 17 jaar hebben (4,1% in onze survey, 2,8% in Vlaanderen) of 1,8% te weinig vrouwen tussen 75 tot en met 85 jaar (2,8% in onze survey, 4,6% in Vlaanderen). Bij het interpreteren van de resultaten op andere variabelen zijn dit de categorieën die je extra in de gaten moet houden. Deze materie zal grondig worden behandeld in het vak Methodologie en is het kader van deze online cursus minder relevant. Zij die dit vak niet moeten volgen maar hierover meer willen lezen kunnen het boek van "Billiet, J. & Waege, H. (eds) (2003). Een samenleving onderzocht. Methoden van sociaal wetenschappelijk onderzoek. Antwerpen: Standaard Uitgeverij" raadplegen.

20 De mogelijke vertekening kan ook (beperkt) ingecalculeerd worden via wegingprocedures. In deze cursus gaan wij hier niet dieper op in; ook dit onderdeel wordt behandeld in de cursus Methodologie. 2. Item non respons In dit geval hebben we te maken met informatie die ontbreekt op bepaalde variabelen: eenheden die bepaalde topics weigeren te beantwoorden, het antwoord niet weten of eenvoudigweg geen mening over de topic hebben. Hoe groot het percentage item non respons is hangt af van het type vraag, de verwoording van de vraag, De eenheden worden bij de analyse van de variabele waarop de informatie ontbreekt niet opgenomen. Er bestaat wel een mogelijkheid om via (complexe) technieken ontbrekende data te imputeren. Ook hier moet je enkel het bestaan afweten van deze technieken. Vaak vind je bij de resultaten ook het aantal missings (de eenheden die niet in de analyse van de variabele werden opgenomen). Opmerking: Zowel bij de unit non respons als de item non respons gaan wij uit van 'missing completely at random'. Dit betekent dat er geen sprake is van systematische fouten in de survey.

21 2. Bivariate beschrijvende statistiek Doelstellingen Bivariate Beschrijvende Statistiek In het vorige onderdeel hebben we ons geconcentreerd op de beschrijving (frequentieverdeling) van één variabele, maar in de sociale wetenschappen zijn we meestal geïnteresseerd in de relatie tussen twee of meer variabelen. Aan de hand van bivariate beschrijvende statistiek onderzoeken we of er al dan niet een samenhang is tussen twee variabelen. > Samenhang: verdeling van ene variabele verschilt naargelang de waarden van een andere variabele. De manier waarop we de samenhang gaan beschrijven hangt af van het meetniveau. De samenhang tussen categorische variabelen zullen beschreven worden aan de hand van een kruistabel, conditionele verdelingen, percentageverschil, oddsratio en associatiematen. De samenhang tussen metrische variabelen zullen beschreven worden aan de hand van een spreidingsdiagram en correlatie en regressieanalyse. Het blijft dus van belang dat je op voorhand weet wat voor types variabelen je met elkaar wilt vergelijken (categorisch met categorisch, categorisch met metrisch, metrisch met metrisch). In dit onderdeel gaan we opnieuw enkel beschrijven. Het nagaan of een geobserveerde relatie met betrekking tot een steekproef veralgemeend kan worden voor de volledige populatie behoort tot het domein van de inductieve statistiek. Vooraleer we de relaties tussen categorische variabelen gaan behandelen, wijzen we op een belangrijk onderscheid in relaties: Enerzijds hebben we symmetrische relaties waarbij er sprake is van een wederzijdse samenhang. Anderzijds hebben we a symmetrische relaties waarbij er sprake is van een effect relatie. De ene variabele heeft een invloed op de andere of deze relatie kan ook een oorzaakgevolg relatie zijn. We wijzen erop dat X de onafhankelijke variabele is, en Y de afhankelijke variabele. Bijvoorbeeld: Het gebruiken van de verkiezingsuitslag voor het voorspellen van de volgende uitslag X = verkiezingsuitslag van de vorige gemeenteraadsverkiezingen Y = de uitkomst van de komende gemeenteraadsverkiezingen LEES MEER: Moore & McCabe: pp

22 Relaties tussen categorische variabelen Kruistabel, percentageverschil, oddsratio 1. Kruistabel Gegevens over de samenhang tussen twee variabelen worden niet langer in twee afzonderlijke frequentietabellen gepresenteerd, maar kan je samenvoegen tot een gezamenlijke frequentieverdeling: de kruistabel. Bijvoorbeeld: geslacht en inkomen In de kolommen staat de variabele geslacht' die bestaat uit twee categorieën: man en vrouw. In de rijen staat de variabele inkomen die ook bestaat uit twee categorieën: laag inkomen en hoog inkomen. Je kan uiteraard ook kruistabellen hebben met meer rijen en kolommen. Zo zou je hier het inkomen kunnen opsplitsen in zeer laag, laag, midden, hoog en zeer hoog. Het gevolg is een kruistabel met 5 rijen en 2 kolommen. 'Rijen' wordt afgekort als r, 'kolommen' als k. Het bovenstaande voorbeeld is een 2*2 tabel, bij meerdere rijen of kolommen wordt gesproken van een r*k tabel. In een kruistabel staan verschillende gegevens: celfrequenties Bij de 2*2 tabel voor geslacht en inkomen heb je 4 cellen. Elke cel geeft je informatie over de twee variabelen. Zo toont de cel met 3049' aan dat er 3049 mannen zijn met een laag inkomen. Op dezelfde manier kan je zien dat er 118 vrouwen zijn met een laag inkomen, 3688 mannen met een hoog inkomen en 606 vrouwen met een hoog inkomen. marginale verdelingen Deze vind je terug in de laatste kolom en in de onderste rij. Deze cijfers geven de univariate verdeling aan van de twee afzonderlijke variabelen. In de onderste rij zie je dat er 6737 mannen zijn en 724 vrouwen. En deze verdeling zegt je niks over hoe die mannen en vrouwen verdeeld zijn wat betreft het inkomen. Idem voor de laatste kolom: je kan daar lezen dat er 3167 mensen zijn met een laag inkomen en 4294 met een hoog inkomen, maar dit zegt je niks over mannen en vrouwen. conditionele verdelingen Hierbij kijk je hoe één van beide variabelen verdeeld is binnen 1 enkele categorie van de andere variabele. We noemen dit een conditionele verdeling. Als je kiest voor conditie 'man', zie je dat de 6737 mannen verdeeld zijn over 3049 mannen met een laag inkomen en 3688 mannen met een hoog inkomen. Bij de conditie vrouw' wordt de conditionele verdeling 118 vrouwen met een laag inkomen en 606 vrouwen met een hoog inkomen. Je kan dit ook in de andere richting bekijken. Als je kiest voor de conditie 'laag inkomen', dan is de conditionele verdeling van de 3167 mensen met een laag inkomen verdeeld over 3049 mannen met een laag inkomen en 118 vrouwen met een laag inkomen. 2. Relaties tussen categorische variabelen, uitgedrukt in een cijfer Conditionele verdelingen op basis van absolute frequenties zeggen niet veel over de relatie tussen twee variabelen. Absolute frequenties zijn daarvoor te veel afhankelijk van het totaal aantal

23 eenheden en van de univariate verdelingen van de afzonderlijke variabelen. Om relaties te bestuderen tussen twee categorische variabelen gebruiken we daarom relatieve conditionele verdelingen, die ons informatie geven over de percentageverschillen. Naast percentageverschillen kunnen ook oddsratio's en andere associatiematen gebruikt worden. Welke maat je best neemt, hangt af van het aantal categorieën van beide variabelen (2*2 of r*k), van de relatie tussen de variabelen (symmetrisch of asymmetrisch) en van het meetniveau (waarbij het laagste meetniveau van beide variabelen beslissend is). Op deze pagina behandelen we enkel het percentageverschil en de oddsratio. Voor de informatie over andere associatiematen, verwijzen wij je naar het boek van Moore & McCabe Percentageverschil Het percentageverschil geeft het verschil in percentagepunten aan tussen 2 conditionele verdelingen. Bijvoorbeeld: geslacht en inkomen Bij de mannen hebben 3049 van de 6737 mannen een laag inkomen, wat overeenkomt met 45,26%. Bij de vrouwen hebben 118 van de 724 vrouwen een laag inkomen: 16,3%. Het verschil tussen beide: 45,26% 16,3% geeft 28,95 percentagepunten. Deze 28,95 percentagepunten geeft aan wat het verschil is tussen mannen en vrouwen in het hebben van een laag inkomen. Hoe kleiner het percentageverschil, hoe minder verschil er is tussen mannen en vrouwen. Met andere woorden, hoe minder invloed er is van geslacht op inkomen. Een percentageverschil van 0 percentagepunten duidt dan ook op het ontbreken van een samenhang tussen beide variabelen. Percentages kunnen zowel in de rijen ( rij percentages ) als in de kolommen ( kolom percentages ) berekend worden. In het eerste geval worden de rij marginalen op 100% gezet. In het tweede geval worden alle kolom marginalen op 100% gezet. Bij a symmetrische relaties dienen de percentages berekend te worden binnen de categorieën van de onafhankelijke variabele. Anders worden foutieve conclusies getrokken (omdat het percentageverschil dan bepaald wordt door de univariate verdeling van de onafhankelijke variabele). Indien de onafhankelijke variabele bijvoorbeeld in de kolommen staat (zoals in het voorbeeld hierboven) worden kolompercentages berekend. Het percentageverschil wordt dan berekend door de kolompercentages te vergelijken binnen elke rij Oddsratio Een andere manier om een univariate frequentieverdeling weer te geven dan percentages, zijn odds. Bij een percentage zet je het aantal eenheden met een bepaald kenmerk af tegenover het totaal aantal eenheden. Zo zie je in het onderstaande voorbeeld dat er 3167 mensen met een laag inkomen zijn tegenover 7461 mensen in totaal. De interpretatie: 42,44% van alle mensen hebben een hoog inkomen. Bijvoorbeeld: geslacht en inkomen

24 Bij de odds zet je het aantal eenheden met een bepaald kenmerk af tegenover het aantal eenheden in een andere categorie van dezelfde variabele. Zo zien we in het voorbeeld dat er 4294 mensen zijn met een hoog inkomen tegenover 3167 mensen met een laag inkomen. De verhouding (ratio) tussen die twee bedraagt: 4294/3267 = 1,36. Interpretatie: er zijn 1,36 keer meer mensen met een hoog dan met een laag inkomen. De odds die we hier berekenden zijn marginale odds (berekend in de marginalen, dus gebaseerd op de univariate verdeling van een variabele). Daarnaast kunnen ook conditionele odds berekend worden. Die geven de odds binnen een categorie van de andere variabele. Door conditionele odds met elkaar te vergelijken krijgen we informatie over de samenhang tussen de twee variabelen. Bij mannen wordt dat 3049 mannen met een laag inkomen tegenover de 3688 mannen met een hoog inkomen. Het resultaat van 3049 / 3688 geeft 0,83. De interpretatie: mannen hebben 0,83 keer meer kans om een laag inkomen te hebben dan om een hoog inkomen te hebben. Je kan het ook omkeren: 6388/3049 = 1,21. Wat betekent: mannen hebben 1,21 keer meer kans om een hoog inkomen te hebben dan om een laag inkomen te hebben. Dit is de conditionele odds voor mannen op het hebben van een hoog vs. laag inkomen. Je kan de odds ook berekenen voor vrouwen (kans dat een vrouw een laag inkomen heeft ten opzichte van een hoog inkomen of omgekeerd), voor laag inkomen (kans dat iemand met een laag inkomen een vrouw is ten opzichte van dat die een man is of omgekeerd) en voor hoog inkomen. Met de conditionele odds zeg je enkel iets over 1 conditionele verdeling. Een stap verder is de oddsratio, waarmee je iets zegt over verschillende conditionele verdelingen en daardoor over de samenhang tussen beide variabelen. De naam zegt het al, het is de ratio (breuk) van twee odds. vb: (zie tabel hierboven) 1) de kans dat een man een laag inkomen heeft tov een hoog inkomen is 3049/ ) de kans dat een vrouw een laag inkomen heeft tov een hoog inkomen is 118/606. 3) de ratio tussen beide: (3049/3688) / (118/606) = 4,25. 4) interpretatie: mannen hebben 4,25 keer meer kans dan vrouwen om een laag inkomen te hebben tov een hoog inkomen. Een oddsratio van 1 wijst erop dat er geen samenhang is tussen beide variabelen. Hoe meer de oddsratio van 1 afwijkt (naar 0 of naar +oneindig toe), hoe groter de samenhang. Een groot probleem echter is het ontbreken van een eindpunt. Wanneer kan je spreken van een grote odds? Is dat bij 2, bij 4,25, bij 60? Dat hangt per geval af van de verhoudingen en de schaal. Ook de aanwezigheid van 0 cellen vormt een probleem bij de berekening en de interpretatie van de oddsratio. LEES MEER: Moore & McCabe: pp

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

College 4 Inspecteren van Data: Verdelingen

College 4 Inspecteren van Data: Verdelingen College Inspecteren van Data: Verdelingen Inleiding M&T 01 013 Hemmo Smit Overzicht van deze cursus 1. Grondprincipes van de wetenschap. Observeren en meten 3. Interne consistentie; Beschrijvend onderzoek.

Nadere informatie

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn Statistiek: Spreiding en dispersie 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Met spreiding willen we in één getal uitdrukken hoe verspreid de gegevens zijn: in hoeveel

Nadere informatie

Samenvattingen 5HAVO Wiskunde A.

Samenvattingen 5HAVO Wiskunde A. Samenvattingen 5HAVO Wiskunde A. Boek 1 H7, Boek 2 H7&8 Martin@CH.TUdelft.NL Boek 2: H7. Verbanden (Recht) Evenredig Verband ( 1) Omgekeerd Evenredig Verband ( 1) Hyperbolisch Verband ( 2) Machtsverband

Nadere informatie

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 2 : Grafische beschrijving van data Marnix Van Daele Marnix.VanDaele@UGent.be Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Grafische beschrijving van data p. 1/35 Soorten meetwaarden

Nadere informatie

Havo A deel 1 H2 Statistiek - Samenvatting

Havo A deel 1 H2 Statistiek - Samenvatting Havo A deel 1 H2 Statistiek - Samenvatting Begrip 1. Staafdiagram Schetsje: zo ziet het er uit 2. Lijndiagram = polygoon 3. Cirkeldiagram = sectordidagram 4. Beeldiagram = pictogram 5. Stapeldiagram 6.

Nadere informatie

2 Data en datasets verwerken

2 Data en datasets verwerken Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken 1 Data presenteren 1.4 Oefenen In opdracht van: Commissie Toekomst Wiskunde Onderwijs 1.4 Oefenen Opgave 9 Bekijk de genoemde dataset

Nadere informatie

Statistiek I Samenvatting. Prof. dr. Carette

Statistiek I Samenvatting. Prof. dr. Carette Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De

Nadere informatie

2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht?

2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht? 2.1.4 Oefenen Opgave 9 Bekijk de genoemde dataset GEGEVENS154LEERLINGEN. a. Hoe lang is het grootste meisje? En de grootste jongen? b. Welke lengtes komen het meeste voor? c. Is het berekenen van gemiddelden

Nadere informatie

Statistiek: Herhaling en aanvulling

Statistiek: Herhaling en aanvulling Statistiek: Herhaling en aanvulling 11 mei 2009 1 Algemeen Statistiek is de wetenschap die beschrijft hoe we gegevens kunnen verzamelen, verwerken en analyseren om een beter inzicht te krijgen in de aard,

Nadere informatie

A. Week 1: Introductie in de statistiek.

A. Week 1: Introductie in de statistiek. A. Week 1: Introductie in de statistiek. Populatie en steekproef. In dit vak leren we de basis van de statistiek. In de statistiek probeert men erachter te komen hoe we de populatie het beste kunnen observeren.

Nadere informatie

TIP 10: ANALYSE VAN DE CIJFERS

TIP 10: ANALYSE VAN DE CIJFERS TOETSTIP 10 oktober 2011 Bepaling wat en waarom je wilt meten Toetsopzet Materiaal Betrouw- baarheid Beoordeling Interpretatie resultaten TIP 10: ANALYSE VAN DE CIJFERS Wie les geeft, botst automatisch

Nadere informatie

Onderzoeksmethodiek LE: 2

Onderzoeksmethodiek LE: 2 Onderzoeksmethodiek LE: 2 3 Parameters en grootheden 3.1 Parameters Wat is een parameter? Een karakteristieke grootheid van een populatie Gem. gewicht van een 34-jarige man 3.2 Steekproefgrootheden Wat

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door

Nadere informatie

8. Analyseren van samenhang tussen categorische variabelen

8. Analyseren van samenhang tussen categorische variabelen 8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde

Nadere informatie

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een

Nadere informatie

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

Statistische variabelen. formuleblad

Statistische variabelen. formuleblad Statistische variabelen formuleblad 0. voorkennis Soorten variabelen Discreet of continu Bij kwantitatieve gegevens gaat het om meetbare gegeven, zoals temperatuur, snelheid of gewicht. Bij een discrete

Nadere informatie

Inleiding tot de meettheorie

Inleiding tot de meettheorie Inleiding tot de meettheorie Meten is het toekennen van cijfers aan voorwerpen. Koeien Koeien in een kudde, studenten in een auditorium, mensen met een bepaalde stoornis, leerlingen met meer dan 15 in

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

2 Data en datasets verwerken

2 Data en datasets verwerken Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken 3 Frequentieverdelingen typeren 3.6 Geïntegreerd oefenen In opdracht van: Commissie Toekomst Wiskunde Onderwijs 3 Frequentieverdelingen

Nadere informatie

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. 3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. Absolute verandering = Aantal 2004 Aantal 1994 = 1625 3070 = -1445 Relatieve verandering = Nieuw Oud Aantal

Nadere informatie

Feedback proefexamen Statistiek I 2009 2010

Feedback proefexamen Statistiek I 2009 2010 Feedback proefexamen Statistiek I 2009 2010 Het correcte antwoord wordt aangeduid door een sterretje. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Een derde van de mannen is

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

2.3 Frequentieverdelingen typeren

2.3 Frequentieverdelingen typeren 2.3 Frequentieverdelingen typeren 2.3.1 Introductie Kijkend naar een datarepresentatie valt meestal al snel op hoe de verdeling van de tellingen/frequenties over de verschillende waarden eruitziet. Zitten

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

College Week 4 Inspecteren van Data: Verdelingen

College Week 4 Inspecteren van Data: Verdelingen College Week 4 Inspecteren van Data: Verdelingen Inleiding in de Methoden & Technieken 2013 2014 Hemmo Smit Dus volgende week Geen college en werkgroepen Maar Oefententamen on-line (BB) Data invoeren voor

Nadere informatie

Onderzoek. B-cluster BBB-OND2B.2

Onderzoek. B-cluster BBB-OND2B.2 Onderzoek B-cluster BBB-OND2B.2 Succes met leren Leuk dat je onze bundels hebt gedownload. Met deze bundels hopen we dat het leren een stuk makkelijker wordt. We proberen de beste samenvattingen voor jou

Nadere informatie

WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de

Nadere informatie

Kerstvakantiecursus. wiskunde A. Rekenregels voor vereenvoudigen. Voorbereidende opgaven HAVO kan niet korter

Kerstvakantiecursus. wiskunde A. Rekenregels voor vereenvoudigen. Voorbereidende opgaven HAVO kan niet korter Voorbereidende opgaven HAVO Kerstvakantiecursus wiskunde A Tips: Maak de voorbereidende opgaven voorin in een van de A4-schriften die je gaat gebruiken tijdens de cursus. Als een opdracht niet lukt, werk

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

Overzicht statistiek 5N4p

Overzicht statistiek 5N4p Overzicht statistiek 5N4p EEB2 GGHM2012 Inhoud 1 Frequenties, absoluut en relatief... 3 1.1 Frequentietabel... 3 1.2 Absolute en relatieve frequentie... 3 1.3 Cumulatieve frequentie... 4 2 Centrum en spreiding...

Nadere informatie

8.1 Centrum- en spreidingsmaten [1]

8.1 Centrum- en spreidingsmaten [1] 8.1 Centrum- en spreidingsmaten [1] Gegeven zijn de volgende 10 waarnemingsgetallen: 1, 3, 3, 3, 4, 5, 6, 8, 8, 9 Het gemiddelde is: De mediaan is het middelste waarnemingsgetal als de getallen naar grootte

Nadere informatie

Vaardigheden IV Delphine De smet 3 theorielessen 2 practica in groepen per 40, oefenen in SPSS

Vaardigheden IV Delphine De smet 3 theorielessen 2 practica in groepen per 40, oefenen in SPSS Vaardigheden IV Delphine De smet 3 theorielessen 2 practica in groepen per 40, oefenen in SPSS Examen: week 20-24 april: schriftelijk examen met toepassing SPSS, geen open boek, wel sterk toepassingsgericht,

Nadere informatie

Statistiek: Stam-bladdiagram en boxplot 6/12/2013. dr. Brenda Casteleyn

Statistiek: Stam-bladdiagram en boxplot 6/12/2013. dr. Brenda Casteleyn Statistiek: Stam-bladdiagram en boxplot 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Stam-bladdiagram en boxplot zijn methoden om visueel een verdeling voor te stellen.

Nadere informatie

Factor = het getal waarmee je de oude hoeveelheid moet vermenigvuldigen om een nieuwe hoeveelheid te krijgen.

Factor = het getal waarmee je de oude hoeveelheid moet vermenigvuldigen om een nieuwe hoeveelheid te krijgen. Samenvatting door een scholier 1569 woorden 23 juni 2017 5,8 6 keer beoordeeld Vak Methode Wiskunde Moderne wiskunde Wiskunde H1 t/m H5 Hoofdstuk 1 Factor = het getal waarmee je de oude hoeveelheid moet

Nadere informatie

STATISTIEK. Een korte samenvatting over: Termen Tabellen Diagrammen

STATISTIEK. Een korte samenvatting over: Termen Tabellen Diagrammen STATISTIEK Een korte samenvatting over: Termen Tabellen Diagrammen Modus De waarneming die het meeste voorkomt. voorbeeld 1: De waarnemingen zijn 2, 3, 4, 5, 5, 5, 6, 6, 7 en 8. De waarneming 5 komt het

Nadere informatie

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO Leerlingmateriaal 1. Doel van de praktische opdracht Het doel van deze praktische opdracht is om de theorie uit je boek te verbinden met de data

Nadere informatie

2 Data en datasets verwerken

2 Data en datasets verwerken Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken 1 Data presenteren 1.3 Representaties In opdracht van: Commissie Toekomst Wiskunde Onderwijs 1 Data presenteren 1.1 Introductie In

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

DOEN! - Praktische Opdracht Statistiek 4 Havo Wiskunde A

DOEN! - Praktische Opdracht Statistiek 4 Havo Wiskunde A DOEN! - Praktische Opdracht Statistiek 4 Havo Wiskunde A Docentenhandleiding 1. Voorwoord Doel van de praktische opdracht bij het hoofdstuk over statistiek 1 : Het doel van de praktische opdracht (PO)

Nadere informatie

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken de rekenregel breuk Ik kan

Nadere informatie

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor 4 juni 2012 Het voorkomen van ziekte kan op drie manieren worden weergegeven: - Prevalentie - Cumulatieve incidentie - Incidentiedichtheid In de

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data p 1/31 Beschrijvende

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel

Nadere informatie

Beschrijvende statistiek

Beschrijvende statistiek Duur 45 minuten Overzicht Tijdens deze lesactiviteit leer je op welke manier centrum- en spreidingsmaten je helpen bij de interpretatie van statistische gegevens. Je leert ook dat grafische voorstellingen

Nadere informatie

Paragraaf 5.1 : Frequentieverdelingen

Paragraaf 5.1 : Frequentieverdelingen Hoofdstuk 5 Beschrijvende statistiek (V4 Wis A) Pagina 1 van 7 Paragraaf 5.1 : verdelingen Les 1 Allerlei diagrammen = { Hoe vaak iets voorkomt } Relatief = { In procenten } Absoluut = { Echte getallen

Nadere informatie

META-kaart domein - Exponentieel verband havo4 wiskunde A H=bxg^t

META-kaart domein - Exponentieel verband havo4 wiskunde A H=bxg^t META-kaart domein - Exponentieel verband havo4 wiskunde A H=bxg^t Welk verband zie ik tussen de gegeven informatie en wat er gevraagd wordt? Wat heb ik nodig? Heb ik de gegevens uit de tekst gehaald? Welke

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

SPSS. Statistiek : SPSS

SPSS. Statistiek : SPSS SPSS - hoofdstuk 1 : 1.4. fase 4 : verrichten van metingen en / of verzamelen van gegevens Gegevens gevonden bij een onderzoek worden systematisch weergegeven in een datamatrix bij SPSS De datamatrix Gebruik

Nadere informatie

2 Data en datasets verwerken

2 Data en datasets verwerken Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken 4 Twee groepen vergelijken 4.4 Oefenen In opdracht van: Commissie Toekomst Wiskunde Onderwijs 4.4 Oefenen Voorbeeld Bekijk de dataset

Nadere informatie

datavisualisatie Stappen 14-12-12 verzamelen en opschonen analyseren van data interpeteren hoorcollege 4 visualisatie representeren

datavisualisatie Stappen 14-12-12 verzamelen en opschonen analyseren van data interpeteren hoorcollege 4 visualisatie representeren Stappen datavisualisatie hoorcollege 4 visualisatie HVA CMD V2 12 december 2012 verzamelen en opschonen analyseren van data interpeteren representeren in context plaatsen 1 "Ultimately, the key to a successful

Nadere informatie

WISKUNDE A HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

WISKUNDE A HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 WISKUNDE A HAVO VAKINFORMATIE STAATSEAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de

Nadere informatie

Niveauproef wiskunde voor AAV

Niveauproef wiskunde voor AAV Niveauproef wiskunde voor AAV Waarom? Voor wiskunde zijn er in AAV 3 modules: je legt een niveauproef af, zodat je op het juiste niveau kan starten. Er is de basismodule voor wie de rekenvaardigheden moet

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

Grafieken Cirkeldiagram

Grafieken Cirkeldiagram Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14 Statistiek met Excel Schoolexamen en Uitbreidingsopdrachten 2 Inhoudsopgave Achtergrondinformatie... 4 Schoolexamen Wiskunde VWO: Statistiek met grote datasets... 5 Uibreidingsopdrachten vwo 5... 6 Schoolexamen

Nadere informatie

Statistiek. Beschrijvend statistiek

Statistiek. Beschrijvend statistiek Statistiek Beschrijvend statistiek Verzameling van gegevens en beschrijvingen Populatie, steekproef Populatie = o de gehele groep ondervragen o parameter is een kerngetal Steekproef = o een onderdeel van

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 9 Woensdag 7 Oktober 1 / 51 Kansrekening en Statistiek? Bevordert luieren de fantasie? Psychologie 2 / 51 Kansrekening en Statistiek? Bevordert luieren de fantasie? Psychologie

Nadere informatie

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018 Statistiek in de alfa en gamma studies Aansluiting wiskunde VWO-WO 16 april 2018 Wie ben ik? Marieke Westeneng Docent bij afdeling Methoden en Statistiek Faculteit Sociale Wetenschappen Universiteit Utrecht

Nadere informatie

GEGEVENS154LEERLINGEN

GEGEVENS154LEERLINGEN 2.4.4 Oefenen Voorbeeld Bekijk de dataset GEGEVENS154LEERLINGEN nog een keer. Je wilt nagaan of leerlingen die wiskunde B kiezen beter waren in wiskunde in de onderbouw dan leerlingen die wiskunde A kiezen.

Nadere informatie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Hoofdstuk 8 Het toetsen van nonparametrische variabelen Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn

Nadere informatie

bijspijkercursus wiskunde voor psychologiestudenten bijeenkomst 6 statistiek/gegevensverwerking los materiaal, niet uit boek [PW]

bijspijkercursus wiskunde voor psychologiestudenten bijeenkomst 6 statistiek/gegevensverwerking los materiaal, niet uit boek [PW] bijspijkercursus wiskunde voor psychologiestudenten bijeenkomst statistiek/gegevensverwerking los materiaal, niet uit boek [PW] procenten percentage: bv: van de 0 kinderen hadden er 7: hoeveel procent

Nadere informatie

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke Niet de hoogte, wel de oppervlakte Prof. dr. Herman Callaert Aandachtspunten bij - statistische technieken voor een continue veranderlijke - de interpretatie van een histogram - de normale dichtheidsfunctie

Nadere informatie

Kwantitatieve methoden. Samenvatting met verwijzing naar Excel functies

Kwantitatieve methoden. Samenvatting met verwijzing naar Excel functies Kwantitatieve methoden Samenvatting met verwijzing naar Excel functies I. Inleiding Statistiek is een gebied in de wiskunde dat zich bezighoudt met het samenvatten, beschrijven en analyseren van (grote

Nadere informatie

1 a Partij is een kwalitatieve variabele, kindertal een kwantitatieve, discrete variabele. b,c

1 a Partij is een kwalitatieve variabele, kindertal een kwantitatieve, discrete variabele. b,c Hoofdstuk 8, Statistische maten 1 Hoofdstuk 8 Statistische maten Kern 1 Centrum- en spreidingsmaten 1 a Partij is een kwalitatieve variaele, kindertal een kwantitatieve, discrete variaele.,c d kindertal

Nadere informatie

Inleiding tot het opstellen van een elektronische enquête met LimeSurvey

Inleiding tot het opstellen van een elektronische enquête met LimeSurvey Inleiding tot het opstellen van een elektronische enquête met LimeSurvey Cursus Wetenschappelijk denken en Informatica voor leidinggevenden in het UZ Brussel (voorjaar 2011) 4-3-2011 Herhaling titel van

Nadere informatie

Checklist Wiskunde A HAVO 4 2014-2015 HML

Checklist Wiskunde A HAVO 4 2014-2015 HML Checklist Wiskunde A HAVO 4 2014-2015 HML 1 Hoofdstuk 1 Ik weet hoe je met procenten moet rekenen: procenten en breuken, percentage berekenen, toename en afname in procenten, rekenen met groeifactoren.

Nadere informatie

Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren

Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren Hoofdstuk 18 Verbanden tussen variabelen vaststellen en interpreteren Analyse van verbanden Analyse van verbanden: bij de analyse van verbanden stel je vast of er een stabiel verband bestaat tussen twee

Nadere informatie

2 Data en datasets verwerken

2 Data en datasets verwerken Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken Inhoud 2.0 Data voor onderzoek 2.1 Data presenteren 2.2 Centrum en spreiding 2.3 Verdelingen typeren 2.4 Relaties 2.5 Overzicht In

Nadere informatie

1BA PSYCH Statistiek 1 Oefeningenreeks 2 1

1BA PSYCH Statistiek 1 Oefeningenreeks 2 1 D..2. OEFENINGENREEKS 2 OEFENING Gegevens over de regenval (in cm) in South Bend (Indiana) over een periode van 30 jaar. Klasse K K f F f. 00 F. 00 n n 2,3 2, 3,7 3,7 3,4 3, 4 4,29 7,8 4, 4, 4 9 4,29 32,4,,

Nadere informatie

Praktische opdracht Wiskunde Statistiek

Praktische opdracht Wiskunde Statistiek Praktische opdracht Wiskunde Statistiek Praktische-opdracht door R. 3948 woorden 5 december 2016 2,8 3 keer beoordeeld Vak Wiskunde Scoreformulier: Statistisch onderzoek havo 4 wiskunde A Namen groepsleden:

Nadere informatie

Steelbladdiagram In een steelbladdiagram staan alle leerlingen genoemd. Je kunt precies zien waar Wouter staat.

Steelbladdiagram In een steelbladdiagram staan alle leerlingen genoemd. Je kunt precies zien waar Wouter staat. 2.1.3 Representaties In de voorbeelden kijken we steeds naar gewicht. Je gaat daarna zelf kijken naar de informatie over lengte en cijfergemiddelde. Voor alle opgaven geldt dat je deze zowel in de DWO

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 10 Donderdag 14 Oktober 1 / 71 1 Kansrekening Indeling: Bayesiaans leren 2 / 71 Bayesiaans leren 3 / 71 Bayesiaans leren: spelletje Vb. Twee enveloppen met kralen, waarvan

Nadere informatie

Les 1 Kwaliteitsbeheersing. Les 2 Kwaliteitsgegevens. Les 3 Introductie Statistiek. Les 4 Normale verdeling. Kwaliteit

Les 1 Kwaliteitsbeheersing. Les 2 Kwaliteitsgegevens. Les 3 Introductie Statistiek. Les 4 Normale verdeling. Kwaliteit Kwaliteit Les 1 Kwaliteitsbeheersing Introductie & Begrippen Monstername Les 2 Kwaliteitsgegevens Gegevens Verzamelen Gegevens Weergeven Les 3 Introductie Statistiek Statistische begrippen Statistische

Nadere informatie

1BA PSYCH Statistiek 1 Oefeningenreeks 3 1

1BA PSYCH Statistiek 1 Oefeningenreeks 3 1 Juno KOEKELKOREN D.1.3. OEFENINGENREEKS 3 OEFENING 1 In onderstaande tabel vind je zes waarnemingen van twee variabelen (ratio meetniveau). Eén van de waarden van y is onbekend. Waarde x y 1 1 2 2 9 2

Nadere informatie

lengte aantal sportende broers/zussen

lengte aantal sportende broers/zussen Oefening 1 Alvorens opgenomen te worden in een speciaal begeleidingsprogramma s voor jonge talentvolle lopers, worden jonge atleten eerst onderworpen aan een aantal vragenlijsten en onderzoeken. Uit het

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Exploratieve statistiek. Infoboekje. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Exploratieve statistiek. Infoboekje. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Exploratieve statistiek Infoboekje Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg www.uhasselt.be/lesmateriaal-statistiek . Van deze

Nadere informatie

Vendorrating: statistische presentatiemiddelen

Vendorrating: statistische presentatiemiddelen pag.: 1 van 6 Vendorrating: statistische presentatiemiddelen Hieronder bespreken we in het kort een aantal verschillende presentatievormen waarmee we vendorratingresultaten op een duidelijke manier kunnen

Nadere informatie

Y = ax + b, hiervan is a de richtingscoëfficiënt (1 naar rechts en a omhoog), en b is het snijpunt met de y-as (0,b)

Y = ax + b, hiervan is a de richtingscoëfficiënt (1 naar rechts en a omhoog), en b is het snijpunt met de y-as (0,b) Samenvatting door E. 1419 woorden 11 november 2013 6,1 14 keer beoordeeld Vak Methode Wiskunde A Getal en ruimte Lineaire formule A = 0.8t + 34 Er bestaat dan een lineair verband tussen A en t, de grafiek

Nadere informatie

Formules Excel Bedrijfsstatistiek

Formules Excel Bedrijfsstatistiek Formules Excel Bedrijfsstatistiek Hoofdstuk 2 Data en hun voorstelling AANTAL.ALS vb: AANTAL.ALS(A1 :B6,H1) Telt hoeveel keer (frequentie) de waarde die in H1 zit in A1:B6 voorkomt. Vooral bedoeld voor

Nadere informatie

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2 INHOUDSOPGAVE Leswijzer...3 Beschrijvende Statistiek...3 Kansberekening...3 Inductieve statistiek, inferentiele statistiek...3 Hoofdstuk...3. Drie deelgebieden...3. Frequentieverdeling....3. Frequentieverdeling....4.5

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

Klantonderzoek: statistiek!

Klantonderzoek: statistiek! Klantonderzoek: statistiek! Statistiek bij klantonderzoek Om de resultaten van klantonderzoek juist te interpreteren is het belangrijk de juiste analyses uit te voeren. Vaak worden de mogelijkheden van

Nadere informatie

Correctievoorschrift VWO. Wiskunde A1 (nieuwe stijl)

Correctievoorschrift VWO. Wiskunde A1 (nieuwe stijl) Wiskunde A (nieuwe stijl) Correctievoorschrift VWO Voorbereidend Wetenschappelijk Onderwijs 20 02 Tijdvak 2 Inzenden scores Uiterlijk op 2 juni de scores van de alfabetisch eerste vijf kandidaten per school

Nadere informatie

Oplossingen hoofdstuk 7

Oplossingen hoofdstuk 7 Oplossingen hoofdstuk 7 1. X is normaal verdeeld met µ=5 en =2. Tussen welke grenzen liggen P Z z 0, 3 z 0, 52 P Z z 0, 7 z 0,52. a) 30, 70 De ondergrens is x30 5z30 2 50,52 2 3,96 De bovengrens isx 70

Nadere informatie

Statistiek: Centrummaten 12/6/2013. dr. Brenda Casteleyn

Statistiek: Centrummaten 12/6/2013. dr. Brenda Casteleyn Statistiek: Centrummaten 12/6/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie 1) Nominaal niveau: Gebruik de Modus, dit is de meest frequente waarneming 2) Ordinaal niveau:

Nadere informatie

Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8

Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8 Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8 Samenvatting door N. 1410 woorden 6 januari 2013 5,4 13 keer beoordeeld Vak Methode Wiskunde Getal en Ruimte 7.1 toenamediagrammen Interval

Nadere informatie

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen Lesbrief: Correlatie en Regressie Leerlingmateriaal Je leert nu: -een correlatiecoëfficient gebruiken als maat voor het statistische verband tussen beide variabelen -een regressielijn te tekenen die een

Nadere informatie

GEOGEBRAINSTITUUT. VlAANDEREN

GEOGEBRAINSTITUUT. VlAANDEREN GEOGEBRAINSTITUUT VlAANDEREN Statistiek met GeoGebra Roger Van Nieuwenhuyze Hoofdlector wiskunde HUB, lerarenopleiding Auteur VBTL, Die Keure Pedagogisch begeleider wiskunde VLP roger.van.nieuwenhuyze@skynet.be

Nadere informatie

Eerst wordt ingegaan op de verschillende soorten data die we kunnen verzamelen en hoe datasets georganiseerd zijn.

Eerst wordt ingegaan op de verschillende soorten data die we kunnen verzamelen en hoe datasets georganiseerd zijn. HOOFDSTUK 1: DISTRIBUTIES Inleiding Statistiek is de wetenschap van kennis opdoen op basis van data. Data zijn numerieke (of kwalitatieve) beschrijvingen en gegevens van objecten om te bestuderen. Dit

Nadere informatie

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1 Statistiek II Sessie 1 Verzamelde vragen en feedback Deel 1 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 1 1 Staafdiagram 1. Wat is de steekproefgrootte? Op de horizontale as vinden we de respectievelijke

Nadere informatie

Zelfstudiefiches M&T: Deel 2 (H6-7)

Zelfstudiefiches M&T: Deel 2 (H6-7) Zelfstudiefiches M&T: Deel 2 (H6-7) Hoofdstuk 6 1. Bekijk figuur 6.2. Het meetproces (p. 133 cursus). Dit schema en bijhorende tekst moet je heel goed begrijpen, heel vaak komen tijdens de colleges termen

Nadere informatie

Bijlage 11 - Toetsenmateriaal

Bijlage 11 - Toetsenmateriaal Bijlage - Toetsenmateriaal Toets Module In de eerste module worden de getallen behandeld: - Natuurlijke getallen en talstelsels - Gemiddelde - mediaan - Getallenas en assenstelsel - Gehele getallen met

Nadere informatie

Gemiddelde: Het gemiddelde van een rij getallen is de som van al die getallen gedeeld door het aantal getallen.

Gemiddelde: Het gemiddelde van een rij getallen is de som van al die getallen gedeeld door het aantal getallen. Statistiek Modus De waarneming die het meeste voorkomt. voorbeeld 1: De waarnemingen zijn 2, 3, 4, 5, 5, 5, 6, 6, 7 en 8. De waarneming 5 komt het meeste (driemaal) voor, dus de modus is 5. (Kijk maar:

Nadere informatie

Inleiding statistiek

Inleiding statistiek Inleiding Statistiek Pagina 1 uit 8 Inleiding statistiek 1. Inleiding In deze oefeningensessie is het de bedoeling jullie vertrouwd te maken met een aantal basisbegrippen van de statistiek, meer bepaald

Nadere informatie

Normale Verdeling Inleiding

Normale Verdeling Inleiding Normale Verdeling Inleiding Wisnet-hbo update maart 2010 1 De Normale verdeling De Normale Verdeling beschrijft het gedrag van een continue kansvariabele x. Om kansen te berekenen, moet de dichtheidsfunctie

Nadere informatie