In de praktijk gaat men eerder werken met numerieke codes. Aan de hand van een codeboek wordt per variabele een nummer aan een waarde toegekend.
|
|
- Gijs de Vos
- 8 jaren geleden
- Aantal bezoeken:
Transcriptie
1 Basisconcepten De statistiek heeft de studie van gegevens, die kenmerken van een bevolking beschrijven, tot object. Als je zelf onderzoek wil verrichten of de resultaten van het werk van een ander wil bestuderen is het van belang dat je goed de basiscomponenten van een onderzoek kan definiëren of herkennen. Stel dat we het bioscoopbezoek van Vlaamse studenten willen onderzoeken. > Onze bevolking zal bestaan uit alle Vlaamse studenten, ook nog wel de onderzoekspopulatie genoemd. Een onderzoekspopulatie bevat (onderzoeks )elementen of (statistische) eenheden. In ons voorbeeld gaat het om Vlaamse studenten, maar een populatie kan even goed bestaan uit gebeurtenissen, collectiviteiten, voorwerpen Het is belangrijk dat je deze eenduidig definieert! > Het bioscoopbezoek is het kenmerk van deze populatie dat we gaan onderzoeken. Een kenmerk kan variëren over de eenheden. Zo gaat de ene student maandelijks naar de bioscoop, terwijl de ander maar 1 keer per jaar gaat. Vandaar dat we in het vervolg zullen spreken van een variabele. De verzameling van alle mogelijke uitkomsten van een variabele noemen we de uitkomstenverzameling. Het bepalen van de uitkomsten gebeurt aan de hand van meten. Op deze manier wordt de waarde van een kenmerk bij een element vastgesteld, en dit aan de hand van een meetschaal. In onze casus stellen we de student de vraag hoeveel keer hij naar de bioscoop gaat en we bieden hem bijvoorbeeld een meetschaal aan die volgende categorieën bevat: jaarlijks, maandelijks, wekelijks, nooit. De gegevens worden tenslotte verzameld in een datamatrix. In de datamatrix (ook nog gegevensset of dataset genoemd) neemt elke case of statistisch eenheid een rij in. In de eerste kolom vermelden we de cases (dit kan door het invullen van de naam, maar is vaak het nummer dat aan een case wordt gekoppeld). In de kolommen die daarop volgen zetten we de vastgestelde waarde op het bestudeerde kenmerk. In de praktijk gaat men eerder werken met numerieke codes. Aan de hand van een codeboek wordt per variabele een nummer aan een waarde toegekend. Bijvoorbeeld: Geslacht: 1=Man, 2=Vrouw, 9= Geen Idee/ Geen Antwoord. Op die manier bekom je een datamatrix met getallen die een statistische verwerking mogelijk maakt. Let wel op: hoewel we in beide gevallen dus vaak getalnotaties gebruiken, bestaat er inhoudelijk een heel belangrijk verschil tussen 'echte' waarden en 'codes'. Zo slaat de variabele Leeftijd '19' letterlijk op iemand die '19' jaar oud is. Deze waarde is dus inhoudelijk zinvol, je kan er ook echt mee rekenen. Bij Geslacht werden de codes '1' en '2' louter arbitrair toegekend. Het betekent niet dat een vrouw '1 meer waard is' dan een man. LEES MEER: Moore & McCabe: pp. 3 6
2 Meetniveau van variabelen Voor het uitvoeren van statistische bewerkingen hebben we de waarden van de te onderzoeken variabele nodig. Variabelen kunnen ofwel kwantitatief ofwel kwalitatief zijn. Voorbeelden van kwantitatieve variabelen zijn onder meer lichaamslengte en loon, terwijl woonplaats of politieke voorkeur voorbeelden zijn van kwalitatieve variabelen. Het verschil tussen beide types variabelen is gemakkelijk samen te vatten: kwantitatieve variabelen omvatten 'numerieke waarden', getallen waarmee je ook kan gaan rekenen. Kwalitatieve variabelen omvatten enkel (kwalitatief te onderscheiden) categorieën, waaraan 'codes' werden toegekend. Bijvoorbeeld Woonplaats: Centrum Gent = 1, Randgemeente van Gent = 2 Met deze codes kan je zeker niet gaan rekenen. De verzameling van de waarden die een variabele kan aannemen wordt de meetschaal genoemd. De gebruikte meetschaal bepaalt het meetniveau van de variabele en bepaalt zodoende de hoeveelheid informatie die deze variabele bevat en welke bewerkingen we met de data mogen uitvoeren. 1. Kwalitatieve/Categorische variabelen Nominale variabelen Waarden die uitsluitend dienen voor identificatie en classificatie. Men kan ze niet ordenen. Bijvoorbeeld: geslacht, TV zender, haarkleur, werelddeel, Ordinale variabelen Waarden die we kunnen ordenen. De ene waarde is meer of minder (of kleiner of groter) dan de andere waarde, maar het is niet mogelijk om exact vast te stellen hoeveel meer of minder de ene waarde is. We kunnen er dan ook geen berekeningen op uitvoeren. Bijvoorbeeld: Opleidingsniveau gemeten aan de hand van hoogst behaalde niveau, kwaliteitsoordeel met sterretjes, 2. Kwantitatieve/Metrische variabelen Intervalvariabelen Waarden die we kunnen ordenen én waarbij het mogelijk is om gelijke afstanden tussen de mogelijke waarden vast te stellen. Er is dus sprake van ordenbaarheid en een meeteenheid. We kunnen de waarden optellen of aftrekken van elkaar: A is zoveel punten meer dan B. Bijvoorbeeld: temperatuur, Ratiovariabelen Waarden die we én kunnen ordenen, én een meeteenheid én een absoluut nulpunt hebben. Een absoluut nulpunt is een waarde die de afwezigheid van het bestudeerde kenmerk weergeeft, wat tevens de aanwezigheid van negatieve waarden uitsluit. Dit laat ons toe om verhoudingen tussen waarden te nemen. We vergelijken bijvoorbeeld de leeftijd van Tom (21 jaar) met die van Luc (42 jaar). Dan kunnen we stellen dat Tom tweemaal zo jong is als Luc. Dit kan je niet met bijvoorbeeld temperatuur omwille van de waarden onder nul. We kunnen de waarden hier niet alleen optellen of aftrekken van elkaar, maar ook vermenigvuldigen of delen. Andere voorbeelden van ratiovariabelen: budget (uitgedrukt in euro), exact tijdsverschil, lengte (gemeten in cm), > Ratiovariabelen bevatten meer informatie dan nominale.
3 3. Discrete en continue variabelen Tot slot moeten we ook nog het onderscheid maken tussen discrete en continue variabelen. Het indelen van variabelen in deze twee categorieën is van belang voor sommige analysetechnieken. Discrete variabelen zijn variabelen die niet verder kunnen worden onderverdeeld, eenmaal uitgedrukt in een eenheid. We hebben te maken met een eindige uitkomstenverzameling. Bijvoorbeeld: leeftijd in verstreken jaren, aantal kinderen, aantal keer bioscoop bezocht Continue variabelen zijn variabelen waarbij we voor elke twee mogelijke uitkomsten een derde uitkomst kunnen bedenken die tussen beide uitkomsten ligt. We hebben te maken met een oneindige uitkomstenverzameling. Zo hebben we mensen die 143 cm groot zijn, maar het kan goed zijn dat er mensen zijn die 142,35 cm groot zijn of 143, cm. Het is dan ook vaak de gewoonte dat we continue variabelen voorstellen door het dichtst bijzijnde getal, bijvoorbeeld wanneer we zeggen dat iemand 180cm groot is, dan staat dit getal eigenlijk voor alle waarden tussen 179,5 en 180,499 cm. Andere voorbeelden: tijd, gewicht Let op! Ook niet numerieke variabelen kunnen continue zijn, denk maar bijvoorbeeld aan haarkleur. LEES MEER: Moore & McCabe: pp. 4 Bevolkingsgegevens vs. steekproefgegevens 1. Bevolkingsgegevens Indien we beschikken over bevolkingsgegevens, dan hebben we informatie over de volledige onderzoekspopulatie. Als deze gegevens valide en betrouwbaar zijn, volstaat 'beschrijvende statistiek'. Beschrijvende statistiek is het samenvatten en beschrijven van een reeks gegevens. 2. Steekproefgegevens Het is echter vaak onmogelijk om alle eenheden uit een populatie te onderzoeken. Men kiest dan voor een steekproef: een selectie van eenheden uit de onderzoekspopulatie. > Steekproef: Deelverzameling van n aantal eenheden uit populatie Als we echter op de gegevens van de steekproef beschrijvende statistiek toepassen, krijgen we enkel informatie over de steekproefpopulatie. Indien we uitspraken over de volledige populatie willen doen op basis van de steekproef (wat meestal de bedoeling is), moeten we ons wenden tot 'inductieve statistiek'. Deze vorm van statistiek wendt technieken aan die ons toelaten om dergelijke uitspraken (op basis van een steekproef over een populatie) te doen. De essentie van inductieve statistiek is dat we expliciet rekening houden met de onzekerheid door het werken met een steekproef. Een bepaalde steekproef kan immers een iets anders resultaat opleveren dan mocht een andere steekproef genomen zijn. Er zal daarom een foutenmarge rond de resultaten worden opgenomen die ons toelaat om met een gekozen niveau van betrouwbaarheid te stellen dat de populatiewaarde in het berekende interval ligt. Daarnaast laat inductieve statistiek toe om concrete hypotheses m.b.t. de populatie te toetsen.
4 1. Univariate statistiek Doelstellingen Univariate Statistiek De univariate beschrijvende statistiek wil gegevens van 1 variabele op een overzichtelijke en synthetische wijze weergeven. Het kernbegrip hier is de frequentie waarmee de verschillende waarden van een variabele voorkomen in een steekproef of populatie. Deze beschrijvingen zullen we frequentieverdelingen noemen. In de univariate statistiek worden deze verdelingen op verschillende manieren beschreven: Frequentietabellen Grafieken Centrummaten Spreidingsmaten Niet alles is zo maar mogelijk: wat kan, is afhankelijk van het meetniveau. Een belangrijke regel is dat wat op een lager meetniveau kan ook op een hoger meetniveau kan, maar niet omgekeerd. Doel van dit hele verhaal is informatie verkrijgen. Op een grafische voorstelling zal het mogelijk zijn om het globale patroon en eventueel ongewone waarnemingen op te merken. Ook aspecten zoals het rekenkundig gemiddelde en de mediaan kunnen ons helpen bij het begrijpen van gegevens. Frequenties Absolute, relatieve en cumulatieve frequenties, frequentietabel, in klassen gegroepeerde gegevens 1. Frequenties Het aantal keer dat een bepaalde waarde voorkomt, wordt de absolute frequentie van die waarde genoemd. Bijvoorbeeld: je wil de leeftijd weten van de 600 studenten uit de 1 e bachelor pol & soc en je vindt in je onderzoek 420 studenten van 18 jaar, 120 studenten van 19 jaar en 60 studenten van 20 jaar. In absolute frequenties: de absolute frequentie van 18 jaar is 420 (= 18 jaar komt bij 420 studenten voor), de absolute frequentie van 19 jaar is 120 en de absolute frequentie van 20 jaar is 60. > Relatieve frequenties geven weer hoe vaak een waarde voorkomt t.o.v. het totaal aantal waarnemingen. In relatieve frequenties: de relatieve frequentie van 18 jaar is 70% (= 18 jaar komt bij 70% van de 600 studenten voor), de relatieve frequentie van 19 jaar is 20% en die van 20 jaar is 10%. Relatieve frequenties kan je uitdrukken in percentages op 100 (70%, 20% en 10%) of in proporties op 1 (0,7, 0,2 en 0,1). Proporties worden ook wel eens aangeduid als fracties. Om frequenties overzichtelijk weer te geven, worden ze in frequentietabellen geplaatst. Daarbij worden de woorden vervangen door symbolen: absolute frequentie wordt f i en proportie wordt p i. Het totaal aantal waarnemingen wordt n.
5 De i staat voor 'een bepaalde waarde'. In het voorbeeld zijn er drie i's: de waarde '18 jaar', de waarde '19 jaar' en de waarde '20 jaar'. Naast elke waarde (i) staat de absolute en relatieve frequentie van die waarde (f of p).vb: f 18 = 420 en p 18 = 0,7. Leeftijd studenten 1 e bachelor PSW in jaren (fictieve gegevens) Soms kan het interessant zijn om uitspraken te doen in de stijl van zoveel studenten zijn zo oud of jonger. Dat kan aan de hand van de cumulatieve frequentie. De laatste kolommen lees je als volgt: 420 studenten (of 70% van de studenten) zijn 18 jaar, 540 studenten (90%) zijn 19 jaar of jonger en 600 studenten (100%) zijn 20 jaar of jonger. In statistiektaal: de cumulatieve frequentie is het aantal (bijvoorbeeld 450) of het percentage (vb 90%) eenheden met een waarde i (vb 19) of lager. Cumulatieve frequenties en percentages kan je pas berekenen vanaf ordinaal niveau, dus pas vanaf het moment dat je de categorieën logisch kan ordenen van laag naar hoog! De cumulatieve frequentie van de laatste waarde is steeds gelijk aan het totaal aantal waarnemingen. Idem voor het cumulatief percentage bij de laatste waarde. 2. In klassen gegroepeerde gegevens Wanneer je te maken hebt met metrische variabelen (interval en ratio), kan het zijn dat je zodanig veel verschillende waarden hebt dat het opstellen van een frequentietabel niet echt veel bijdraagt aan de overzichtelijkheid. Stel dat je van die 600 studenten 1 e bachelor pol & soc de lichaamslengte wil weten. Veel kans dat je 80 verschillende lengtes vindt. In een frequentietabel zou dat 80 rijen onder elkaar betekenen. De oplossing hiervoor is het groeperen van gegevens in klassen. Je neemt groepen van waarden samen. Lichaamslengte studenten 1 e bachelor pol en soc in centimeter (fictieve gegevens) De grenzen van de klassenindeling kan je kiezen op basis van de beschikbare gegevens en op basis van wat je met je onderzoek wil bereiken. Het gevolg van indelen in klassen is een overzichtelijker weergave, maar ook een verlies aan informatie. Zo kan je bijvoorbeeld niet zien hoe de verdeling van de eenheden is binnen elke klasse. De 80 studenten in de klasse cm, zijn die allemaal 150 cm of liggen ze mooi gespreid over alle waarden tussen 150 en 159?
6 Een mogelijke procedure om gegevens in klassen in te delen: Bepaal de variatiebreedte. Dat is de maximumwaarde min de minimumwaarde (in het voorbeeld: de grootste student de kleinste student). Kies het aantal gewenste klassen (meestal tussen 3 en 20 klassen, op basis van theorie en praktische overwegingen). De breedte van de klassen: deel de variatiebreedte door het aantal klassen. Voor de duidelijkheid best gelijke klassenbreedten en afgeronde klassen (niet bv , , ). Bij de onderste en de bovenste klasse kan je eventueel kiezen om er open klassen van te maken (vb: kleiner dan 159 en groter dan 200). Zo kan je voorkomen dat je een aantal klassen krijgt met maar 1 of enkele eenheden met een extreme waarde. Er is tevens een verschil bij het weergeven van klassengrenzen voor discrete variabelen en continue variabelen. Bij continue variabelen moeten de grenzen exclusief zijn. Er mag geen twijfel over bestaan waar iemand met een lichaamslengte van 180,3 cm bij hoort (in de vierde klasse). Vandaar de symbolen groter dan/gelijk aan en kleiner dan. Tot slot is het belangrijk om te weten dat bij continue variabelen bij het maken van berekeningen (zie verder) gewerkt wordt met de werkelijke klassengrenzen en niet met de weergegeven klassengrenzen. In het voorbeeld zijn de weergegeven grenzen 150. <160, maar de exacte zijn 149,5. <159,5. Deze exacte grenzen komen overeen met het midden tussen de bovengrens van de eerste klasse en de ondergrens van de daarop volgende klasse. LEES MEER: Moore & McCabe: pp Grafische voorstelling van frequentieverdelingen Taart, staaf, stamdiagram, histogram Frequentietabellen vertellen ons veel, maar vaak zal een grafische voorstelling een duidelijker beeld scheppen van de gegevens. We zullen hieronder enkele grafische voorstellingen beschrijven. Het is goed mogelijk dat je uiteindelijk kiest voor een variant van de hieronder beschreven voorbeelden; zolang de voorstelling de gegevens exact weergeeft is dit geen probleem. Je moet bij het opstellen van grafieken je wel aan enkele vormelijke voorschriften houden: categorieën exhaustief en exclusief titel: kort en bondig inhoud aangeven kolomkoppen, met exacte aanduiding inhoud logische ordening totalen best steeds bron vermelden, of aangeven dat het om fictieve data gaat 1. Taartdiagram In een taartdiagram worden de frequenties door cirkelsectoren voorgesteld. De oppervlakte van elke sector is recht evenredig met de relatieve frequentie. Voordeel: Een taartdiagram maakt direct de verdeling duidelijk. Nadeel: Aantal categorieën is beperkt. Zo is het weergeven van bijvoorbeeld twaalf frequenties in een taartdiagram een slechte keuze: de verschillen onderling zullen moeilijker waar te nemen zijn. Opmerking: driedimensionale taartdiagrammen kunnen ten gevolge van het perspectief misleidend zijn.
7 2. Staafdiagram In een staafdiagram wordt de frequentie van elke categorie weergegeven door een staaf. De staafjes staan in de grafiek los van elkaar. De hoogte van ieder staafje is recht evenredig met de absolute of de relatieve frequentie. In het geval van nominale variabelen staan de waarden nevengeschikt op de abscis. In het geval van ordinale variabelen wordt de abscis van een pijl voorzien omdat de waarden ordenbaar zijn. Voordeel: Staafdiagrammen zijn gemakkelijk te interpreteren. Opmerking: Men kan best opletten voor misleiding. Bijvoorbeeld: Een grafiek waarbij men begint met een frequentie van 65% op de Y as in plaats van met de gebruikelijke 0%. Zo lijken sommige categorieën bijzonder klein. Een staaf van 70% ziet er plots als een staafje van 5% uit. 3. Stamdiagram (stam en blad diagram) Een stam en blad diagram brengt op een snelle manier een verdeling in beeld en werkt het best voor een gering aantal waarnemingen met waarden die groter zijn dan 0. De stam van zo'n diagram is een kolom dat bestaat uit alle stamcijfers van de data (die bekom je bijvoorbeeld door het laatste cijfer te laten vallen van de waarde). Achter iedere stam in de kolom worden de 'bladeren' geplaatst, waarbij een blad staat voor het laatste cijfer. Bijvoorbeeld voor de waarde 45 is 4 de stam en 5 het blad dat hoort bij stam 4. Indien er bij de waarden getallen zoals 47 en 48 zitten, voegen we de bladeren 7 en 8 toe aan de rij achter stam 4. In een laatste fase worden de cijfers achter de stam geordend van klein naar groot.
8 Bijvoorbeeld: het aantal optredens dat een populaire rockgroep deed per jaar, en dit van 1990 tot en met 2005: Op basis van deze stamdiagram kunnen we bijvoorbeeld opmaken dat ze in die 15 jaar drie jaren hebben gehad met meer dan 90 optredens. 4. Histogram Een histogram vertoont gelijkenissen met een staafdiagram maar kan enkel bij metrische variabelen. De staafjes plakken nu tegen elkaar. We hebben tevens te maken met in klassen gegroepeerde gegevens. Hier is het oppervlak per staafje recht evenredig met de (relatieve) frequentie. Voordeel: Een verdeling op metrisch niveau is visueel mogelijk. Nadeel: De verdeling is afhankelijk van de klassenindeling. Opmerking: Op de X as vermeld je de exacte klassengrenzen, of de klassenmiddens. Let wel op dat je in dat laatste geval vermeldt dat het over waargenomen klassen gaat. LEES MEER: Moore & McCabe: pp Maten van positie Modus, mediaan, kwartielen, rekenkundig gemiddelde De doelstelling van de beschrijvende statistiek is de verdeling van een variabele zo compact mogelijk weer te geven. Dit kan via frequentietabellen en grafieken, maar ook door de verdeling in een beperkt aantal statistische maten weer te geven. Meer specifiek onderscheiden we drie types maten die elk een ander aspect van een verdeling samenvatten in één cijfer:
9 maten van positie maten van spreiding maten van vorm We beginnen met de maten van positie. Maten van positie geven weer rond welke waarden de verdeling van een variabele gepositioneerd is. Een specifiek type van maten van positie zijn de maten van centraliteit. Die geven weer welke de meest centrale waarde van een verdeling is. Bijvoorbeeld: als je kijkt naar de punten op het examen statistiek van alle studenten uit 1e bachelor pol & soc, kan je stellen dat het gemiddelde 11/20 is. Dit houdt in dat 11 de centrale waarde of centrale positie is waarrond de punten van alle studenten gespreid liggen. Er bestaan drie verschillende maten van centraliteit. Welke maat van centraliteit je kan gebruiken, hangt af van het meetniveau van de variabele. 1. De modus Nominaal meetniveau: de modus ( M o ) > De modus is de waarde met de hoogste frequentie. Bijvoorbeeld: De waarde met de hoogste frequentie is drama'. Dit komt 80 keer voor, terwijl de andere waarden minder voorkomen. LET OP voor één van de meest gemaakte beginnersfouten op examens: de modus is nooit een frequentie, altijd een waarde!! De modus is niet 80, de modus is drama'. Bij in klassen gegroepeerde gegevens wordt gesproken over de modale klasse in plaats van over de modus. De modus en de modale klasse geven op zich niet zoveel informatie. Er wordt enkel iets gezegd over de waarde die meest voorkomt maar daarmee weet je nog niks over de verdeling van de eenheden over de andere waarden. 2. De mediaan Ordinaal meetniveau: de mediaan ( M ) De mediaan is het middelpunt van de verdeling. Het is die waarde waarvan je kan zeggen: er zijn evenveel eenheden met een waarde die lager is dan dat er eenheden zijn met een waarde die hoger is dan de mediaan. Of anders gezegd, de mediaan is de waarde die de verdeling splitst in: 50% van de waarnemingen is lager en 50% van de waarnemingen is hoger dan deze waarde.
10 De mediaan vind je door de waarde te zoeken die hoort bij de waarneming (n+1)/2 nadat de waarnemingen van laag naar hoog werden gesorteerd. Waar bij n staat voor het aantal waarnemingen. Bijvoorbeeld: de score van 5 studenten op het examen: 10, 10, 11, 12 en 13. Je neemt (5+1)/2 = 3. De waarde van de derde waarneming is de mediaan: de waarde 11 (er zijn evenveel waarnemingen kleiner als groter dan 11). Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. Je neemt (6+1)/2 = 3,5. De mediaan ligt tussen de derde en de vierde waarneming: 11,5. 3. Kwartielen Ordinaal meetniveau: de kwartielen ( Q 1, Q 2 en Q 3 ) In analogie met de mediaan, kan je de kwartielen bekijken als een waarde die de verdeling opsplitst in twee groepen. Maar waar de mediaan een 50% 50% verdeling oplevert, geven de kwartielen de volgende verdeling: Q 1 (het eerste kwartiel) is de waarde die de verdeling splitst in: 25% van de waarnemingen is lager en 75% van de waarnemingen is hoger dan deze waarde. Q 3 (het derde kwartiel) is de waarde die de verdeling splitst in: 75% van de waarnemingen is lager en 25% van de waarnemingen is hoger dan deze waarde. Q 2 (het tweede kwartiel) splitst de verdeling in 50% 50% en is dan ook identiek aan de mediaan. Nog een stap verder kom je bij de percentielen uit. Bijvoorbeeld : Percentiel 15 is de waarde die de groep splitst in 15% van de waarnemingen kleiner en 85% van de waarnemingen groter dan deze waarde. En zo is alles mogelijk: Percentiel 32, Percentiel 78, Let ook hier weer op het feit dat de mediaan, de kwartielen en de percentielen steeds waarden zijn, nooit frequenties! 4. Het rekenkundig gemiddelde Metrisch meetniveau: het rekenkundig gemiddelde ( ) Het rekenkundig gemiddelde geeft het centrale punt weer (ook wel het evenwichtspunt of het zwaartepunt genoemd) van de verdeling.
11 Er zijn 4 methodes om het rekenkundig gemiddelde te berekenen. met individuele waarnemingen Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = ( ) / 6 = 11,3 met absolute frequenties Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = (2x10)+(1x11)+(2x12)+(1x13) / 6 = 11,3 met relatieve frequenties Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = (10x33%)+(11x17%)+(12x33%)+(13x17%) / 6 = 11,3 (met percentages) of = (10x0,33)+(11x0,17)+(12x0,33)+(13x0,17) / 6 = 11,3 (met proporties) met gegroepeerde gegevens Identiek aan het werken met de absolute of relatieve frequenties, maar de waarden zijn dan de gemiddelden tussen de ondergrens en de bovengrens van elke klasse (het klassemidden). Een nadeel bij het rekenkundig gemiddelde is dat deze maat gevoelig is aan uitschieters (wat niet het geval is bij de mediaan). Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. Dit geeft een mediaan van 11,5 en een gemiddelde van 11,3. Stel dat de laatste student in plaats van 13 een 20 heeft behaald. De mediaan blijft ongewijzigd, het rekenkundig gemiddelde maakt een sprong naar 12,5. Een kenmerk van het rekenkundig gemiddelde dat later nog belangrijk wordt, is dat de som van de deviatiescores steeds gelijk is aan 0. In andere woorden: als je van alle waarden het gemiddelde aftrekt en je maakt de som van die uitkomsten, dan krijg je steeds 0. Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = ( ) / 6 = 11,3 (10 11,3)+(10 11,3)+(11 11,3)+(12 11,3)+(12 11,3)+(13 11,3) = 0 LEES MEER: Moore & McCabe: pp Maten van spreiding Interkwartielafstand, variantie, standaardafwijking, boxplot Maten van spreiding geven weer hoe heterogeen de waarnemingen zijn. Hoe kleiner de maat, hoe dichter de verschillende waarnemingen bij elkaar liggen. Hoe groter de maat, hoe groter de verschillen zijn tussen de waarnemingen. Of met andere woorden: hoe meer spreiding.
12 1. De interkwartielafstand Interkwartielafstand (IKA) (metrisch niveau) Met de kwartielen (zie het deel over maten van positie) kan je iets zeggen over een bepaalde waarde waarrond de gegevens zijn gegroepeerd. Zo heb heb je Q 1 (het eerste kwartiel) dat de verdeling splitst in 25% van de waarnemingen lager en 75% van de waarnemingen hoger dan de waarde van Q 1,en Q 3 (het derde kwartiel) dat de verdeling splitst in 75% van de waarnemingen lager en 25% van de waarnemingen hoger dan de waarde ervan. De interkwartielafstand is een spreidingsmaat gebaseerd op Q 1 en Q 3. Deze geeft namelijk de afstand tussen beide kwartielen weer. Bij geringe spreiding, zullen het eerste en het derde kwartiel niet ver uit elkaar liggen. Wanneer je dan Q 1 aftrekt van Q 3 kom je aan een klein getal, wat wijst op een kleine spreiding. Bij een grote mate van spreiding, gebeurt het omgekeerde: Q 1 en Q 3 liggen ver uit elkaar en het verschil van beide geeft een groot getal, wat wijst op een grote spreiding. Let op: dit gaat enkel over de centrale 50% van de waarnemingen (de waarnemingen die liggen tussen het eerste en het derde kwartiel). De IKA zegt je niks over wat er gebeurt met de 25% waarnemingen onder Q 1 en de 25% waarnemingen boven Q 3. Hoe de spreiding daar is en of er sprake is van uitschieters, kan je niet vatten met de IKA. Een positief gevolg hiervan is evenwel dat het een stabiele maat is die niet beïnvloed wordt door eventuele uitschieters. 2. De variantie Variantie ( s²) (metrisch niveau) Waar de interkwartielafstand iets zegt over de verschillen tussen de centrale 50% waarnemingen, kijkt de variantie naar alle waarnemingen. Meer bepaald wordt voor (van) elke waarneming nagegaan (gekeken) hoe ver die van het gemiddelde ligt. Heel letterlijk zou je de variantie kunnen opvatten als een soort (gekwadrateerde) gemiddelde afwijking tot het gemiddelde. Bijvoorbeeld: de leeftijd van 6 kinderen/jongeren uitgedrukt in jaren. Stap 1 (kolom 1): 6 waargenomen waarden. Stap 2 (onderaan kolom 1): bereken het gemiddelde. Stap 3 (kolom 2): het verschil tussen elke waarde en het gemiddelde van de 6 waarden. Stap 4 (kolom 3): aangezien de som van de afwijkingen ten opzichte van het gemiddelde steeds 0
13 is (is altijd zo!), worden de verschillen gekwadrateerd. Stap 5 (onderaan kolom 3): de som van de gekwadrateerde verschillen. Om tot de variantie te komen volgt nog stap 6: het delen van de som van de gekwadrateerde verschillen door n 1: 34,84 / 6 1 = 6,97. Voor de formule en meer informatie hieromtrent verwijzen wij naar het boek van Moore & McCabe. 3. De standaardafwijking Het probleem met de variantie is dat door het kwadrateren de verhoudingen zijn gewijzigd en ook de meeteenheid gekwadrateerd werd (de variantie in het voorbeeld hierboven is 6,97 jaren²). Om beide problemen op te vangen wordt de vierkantswortel van de variantie genomen: 2,64 jaren. Dit getal heet de standaardafwijking s. Dit is de meest gebruikte spreidingsmaat voor metrische variabelen, en komt neer op een soort gemiddelde afwijking van alle waarnemingen tot het gemiddelde. Net zoals bij de variantie geldt dat een kleine standaardafwijking wijst op een geringe spreiding (alle waarnemingen liggen dicht bij elkaar waardoor er kleine verschillen zijn ten opzichte van het gemiddelde) en een grote s² of s wijst op een grote spreiding (grote verschillen tussen de waarnemingen waardoor er ook grote verschillen t.o.v. het gemiddelde voorkomen). Een s² of s van 0 komt voor wanneer alle waarnemingen dezelfde waarde hebben. In het bovenstaande voorbeeld: als alle 6 de eenheden bijvoorbeeld 11 jaar zouden zijn. Een nadeel echter is dat s heel gevoelig is voor de invloed van uitschieters. Door het kwadrateren krijgt het verschil van een uitschieter t.o.v. het gemiddelde een nog grotere impact dan de invloed van uitschieters bij bijvoorbeeld het berekenen van het gemiddelde. 4. De boxplot De boxplot (doosdiagram, box and whisker plot) is een manier om in één tekening 5 getallen die iets zeggen over de verdeling van een variabele grafisch weer te geven. Aan de hand van een boxplot kan je iets zeggen over zowel de positie, de spreiding als de vorm van een verdeling. Zo weet je steeds dat binnen de box de centrale 50% van de waarnemingen zit, aangezien de box begrensd wordt door Q 1 en Q 3. En weet je ook dat binnen de box steeds 25% van de waarnemingen boven en 25% van de waarnemingen onder de mediaan lijn zit. In het voorbeeld kan je dan ook zien dat de 25% waarnemingen onder de mediaan meer van elkaar verschillen dan de 25% waarnemingen boven de mediaan: het onderste deel is veel breder dan het bovenste deel (lees: meer spreiding in het onderste deel). Dit wordt vaak gebruikt bij en is zeer handig bij de vergelijking van groepen eenheden (bijvoorbeeld het verschil tussen mannen en vrouwen in uren televisie kijken, het verschil in autodiefstallen tussen 1995 en 2005, ).LEES MEER: Moore & McCabe: pp
14 Vorm van een verdeling De vorm van een verdeling is een volgende bron aan informatie. We kunnen drie soorten vormen onderscheiden: > Symmetrisch Er is sprake van een spiegelbeeld. In dit geval is het gemiddelde gelijk aan de mediaan. = M > Rechts a symmetrisch In dit geval is er sprake van een lange staart naar rechts, met hogere frequenties aan de linkerkant. Het gemiddelde is groter dan de mediaan. > M > Links a symmetrisch In dit geval is er sprake van een lange staart naar links, met hogere frequenties aan de rechterkant. Het gemiddelde is kleiner dan de mediaan. < M
15 Opmerking! Het kan ook voorkomen dat je te maken hebt met een bi modale verdeling. In de vorige verdelingen was er telkens sprake van 1 modus, maar een bi modale verdeling kan 2 tot meer modi hebben. Dat merk je in het histogram: twee of meerdere waarden zullen een even grote frequentie hebben. LEES MEER: Moore & McCabe: pp Transformaties van variabelen Wanneer er iets verandert in de waarden van een variabele (transformatie), heeft dat een invloed op de maten van centraliteit en de maten van spreiding. Er zijn twee mogelijke scenario's: 1) Als bij elke waarde eenzelfde getal wordt bijgeteld, schuift de verdeling op. Het gevolg is een wijziging in de maten van centraliteit. De maten van spreiding wijzigen niet. Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. Dit geeft een mediaan van 11,5 en een gemiddelde van 11,3. De standaardafwijking is 1,21. Als je bij elke score 2 optelt (12, 12, 13, 14, 14 en 15), dan kom je aan een mediaan van 13,5 en een gemiddelde van 13,3. Er is dus evenveel (2) bijgekomen als de toename in de scores zelf. De standaardafwijking blijft 1,21. 2) Wanneer elke waarde vermenigvuldigd wordt met eenzelfde getal, schuift de verdeling op én wordt de spreiding groter. Zowel de maten van centraliteit als de maten van spreiding wijzigen. Bijvoorbeeld: het aantal uren televisie kijken per week van 6 mensen: 10, 10, 11, 12, 12 en 13. Dit geeft een mediaan van 11,5 en een gemiddelde van 11,3. De standaardafwijking is 1,21 Als je elke waarde vermenigvuldigt met 2 (20, 20, 22, 24, 24 en 26), kom je aan een mediaan van
16 23 en een gemiddelde van 22,6. De standaardafwijking wordt 2,42. Net zoals de waarden, worden de mediaan, het gemiddelde én de standaardafwijking met 2 vermenigvuldigd. LEES MEER: Moore & McCabe: pp Dichtheidskrommen en theoretische verdelingen Een dichtheidskromme is een specifiek soort grafiek waarmee een verdeling kan worden weergegeven. Dit kan zowel een waargenomen verdeling zijn, als een theoretische verdeling. We starten met een voorbeeld. Stel dat je bij 1700 studenten de lichaamslengte hebt gemeten. Omdat er zoveel verschillende waarden zijn, hebben we ze samengenomen in klassen. Hier zijn de klassenmiddens gepresenteerd. Grafisch kan je deze verdeling voorstellen met een histogram en een dichtheidskromme: Het staafdiagram in dit voorbeeld omvat de werkelijk gevonden gegevens en wordt uitgedrukt in
17 absolute getallen. De dichtheidskromme geeft eerder een theoretische benadering en wordt uitgedrukt in proporties. De oppervlakte onder de volledige kromme kan je dus benoemen als 1. Met andere woorden '100% van alle waarnemingen zit onder de kromme'. Een dichtheidskromme heeft daarenboven ook een modus, een mediaan, kwartielen en een verwachting (wat je zou kunnen gelijk stellen met het gemiddelde) die iets vertellen over de positie van de verdeling. De spreiding van de kromme wordt vertaald in de interkwartielafstand, de variantie en de standaardafwijking. Op basis van deze gegevens kan je een dichtheidskromme benoemen als symmetrisch of asymmetrisch, ééntoppig of meertoppig, scherp of afgeplat. Vaak voorkomende soorten verdelingen (en hiermee overeenstemmende dichtheidskrommes) kunnen samengevat worden door theoretische verdelingen. Dit zijn verdelingen die volledig wiskundig beschreven zijn en waarvan de kenmerken gekend zijn. Ze zijn als het ware sjablonen die een waargenomen verdeling dicht benaderen. Het nut van een theoretische verdeling ligt in het feit dat dit een samenvatting geeft van de belangrijkste kenmerken van een verdeling in een zeer compacte vorm. Een theoretische verdeling heeft ook een aantal eigenschappen die verdere bewerkingen mogelijk maken. De meest gebruikte theoretische verdeling is de normaalverdeling. Die is symmetrisch, ééntoppig en klokvormig (zie volgende webpagina). LEES MEER: Moore & McCabe: pp De normaalverdeling Kenmerken, standaardisering, rekenen met de standaardnormale verdeling 1. Kenmerken De normaalverdeling (ook: standaardnormaalverdeling) is een symmetrische, ééntoppige, klokvormige theoretische verdeling. Vooral het element symmetrisch' is belangrijk om steeds in het achterhoofd te houden bij verdere bewerkingen met de normaalverdeling. Elke normaalverdeling heeft een gemiddelde μ en een standaardafwijking σ (notatie: N(μ, σ)). Los van de specifieke gegevens waarop je de normale verdeling toepast, heeft elke perfect symmetrische verdeling, zoals de normaalverdeling, de eigenschap dat de mediaan gelijk is aan het gemiddelde. Je kan dan ook zeggen dat 50% van de waarnemingen onder het gemiddelde μ en 50% van de waarnemingen boven het gemiddelde μ ligt. Een bijkomende eigenschap van de normaalverdeling is de ,7 regel:
18 Als je vanuit het gemiddelde 1 keer de standaardafwijking σ bijtelt en 1 keer de standaardafwijking σ aftrekt, kom je aan 68% van alle waarnemingen. Anders gezegd: 68% van alle waarnemingen ligt binnen het interval μ ± σ. Hetzelfde geldt voor het interval dat je krijgt als je ongeveer 2 keer (precies 1,96) de standaardafwijking van het gemiddelde aftrekt en bij het gemiddelde bijtelt. Binnen dat interval omvat je 95% van alle waarnemingen. Bij drie keer de standaardafwijking omvat je 99,7% van alle waarnemingen. 2. Standaardisering en de standaardnormaalverdeling In een verdere stap kan je de normaalverdeling omzetten in de standaardnormaalverdeling. Je zet elke waarde binnen een normaalverdeling letterlijk om in het aantal standaardafwijkingen dat deze waarde verwijderd ligt van het gemiddelde. Deze verdeling heeft als eigenschap dat het gemiddelde μ steeds gelijk is aan 0 en de standaardafwijking σ steeds gelijk is aan 1 (notatie: N(0,1) ). Het nut van deze standaardisatie is dat de meeteenheden (score, cm, jaar) wegvallen en dat alle waarden worden uitgedrukt in termen van aantal standaardafwijkingen afwijking t.o.v. het gemiddelde'. Op die manier kan je verdelingen zonder probleem met elkaar vergelijken wat betreft spreiding, positie en vorm, ook al gaat het in oorsprong over verschillende kenmerken. Het standaardiseren van gegevens houdt in dat je deze omzet naar z scores. Van elke waarneming trek je het gemiddelde af en die uitkomst deel je door de standaardafwijking. De bekomen z score lees je als volgt: 'de waarneming wijkt z keer de standaardafwijking af van het gemiddelde'. Nogmaals: of het nu gaat over cm, jaar of scores, met de uitdrukking 'zoveel keer de standaardafwijking afwijkend van het gemiddelde' zeg je iets over de plaats van elke waarde en bij uitbreiding over de spreiding van de verdeling. En kan je anders niet te vergelijken gegevens toch naast elkaar zetten.
19 3. Rekenen met de standaardnormaalverdeling De eigenschappen van de standaardnormaalverdeling laten toe om bewerkingen uit te voeren. De twee mogelijke toepassingen zijn: een proportie zoeken op basis van een waarde Bijvoorbeeld: wat is het percentage studenten die lager scoren dan 12/20 aanpak: waarde > z score > proportie een waarde zoeken op basis van een proportie Bijvoorbeeld: welke minimale score op 20 heeft de 30% beste studenten aanpak: proportie > z score > waarde De stap tussen een waarde en een z score, of omgekeerd, kan je maken aan de hand van de formule. En de stap tussen z score en proportie, of omgekeerd, kan je maken aan de hand van de tabel van de standaardnormaalverdelingen (vaak ook de z tabel genoemd). Deze tabel vind je als tabel A achteraan in het boek van Moore & McCabe. LEES MEER: Moore & McCabe: pp Effecten van non respons Unit en item non respons Opmerking: schakel en voorbereidingsstudenten die het vak 'methodologie' in hun curriculum hebben, zullen in de lessen van dit vak dieper ingaan op de effecten van nonrespons! Tot nu toe zijn we er steeds vanuit gegaan dat we alle informatie hadden van alle variabelen. Het kan echter voorkomen dat er informatie zal ontbreken. 1. Unit non respons Een eerste variant is de unit non respons. Hier ontbreekt alle informatie van een eenheid of eenheden. We bevinden ons in een situatie waarin één of meerdere eenheden uit de getrokken steekproef weigerden mee te werken, onmogelijk te contacteren waren of niet inzetbaar waren. In zo'n geval is er sprake van een dekkingsfout. Hoe groot het percentage unit non respons is hangt af van het steekproefdesign en het steekproefkader. We kunnen de mogelijke vertekening (zij het beperkt) inschatten door de steekproef te vergelijken met de populatie op kenmerken waarover wel informatie op populatieniveau beschikbaar is. Neem bijvoorbeeld de survey 'Cultuurparticipatie in Vlaanderen '. Indien we de relatieve frequenties bekijken van het aantal mannen en vrouwen in leeftijdscategorieën in onze survey en die vergelijken met dezelfde gegevens gekend voor heel Vlaanderen, dan kunnen we merken dat op de meeste categorieën geen grote verschillen te merken zijn. Maar toch stellen we vast dat we 1,2% meer mannen van 14 tot en met 17 jaar hebben (4,1% in onze survey, 2,8% in Vlaanderen) of 1,8% te weinig vrouwen tussen 75 tot en met 85 jaar (2,8% in onze survey, 4,6% in Vlaanderen). Bij het interpreteren van de resultaten op andere variabelen zijn dit de categorieën die je extra in de gaten moet houden. Deze materie zal grondig worden behandeld in het vak Methodologie en is het kader van deze online cursus minder relevant. Zij die dit vak niet moeten volgen maar hierover meer willen lezen kunnen het boek van "Billiet, J. & Waege, H. (eds) (2003). Een samenleving onderzocht. Methoden van sociaal wetenschappelijk onderzoek. Antwerpen: Standaard Uitgeverij" raadplegen.
20 De mogelijke vertekening kan ook (beperkt) ingecalculeerd worden via wegingprocedures. In deze cursus gaan wij hier niet dieper op in; ook dit onderdeel wordt behandeld in de cursus Methodologie. 2. Item non respons In dit geval hebben we te maken met informatie die ontbreekt op bepaalde variabelen: eenheden die bepaalde topics weigeren te beantwoorden, het antwoord niet weten of eenvoudigweg geen mening over de topic hebben. Hoe groot het percentage item non respons is hangt af van het type vraag, de verwoording van de vraag, De eenheden worden bij de analyse van de variabele waarop de informatie ontbreekt niet opgenomen. Er bestaat wel een mogelijkheid om via (complexe) technieken ontbrekende data te imputeren. Ook hier moet je enkel het bestaan afweten van deze technieken. Vaak vind je bij de resultaten ook het aantal missings (de eenheden die niet in de analyse van de variabele werden opgenomen). Opmerking: Zowel bij de unit non respons als de item non respons gaan wij uit van 'missing completely at random'. Dit betekent dat er geen sprake is van systematische fouten in de survey.
21 2. Bivariate beschrijvende statistiek Doelstellingen Bivariate Beschrijvende Statistiek In het vorige onderdeel hebben we ons geconcentreerd op de beschrijving (frequentieverdeling) van één variabele, maar in de sociale wetenschappen zijn we meestal geïnteresseerd in de relatie tussen twee of meer variabelen. Aan de hand van bivariate beschrijvende statistiek onderzoeken we of er al dan niet een samenhang is tussen twee variabelen. > Samenhang: verdeling van ene variabele verschilt naargelang de waarden van een andere variabele. De manier waarop we de samenhang gaan beschrijven hangt af van het meetniveau. De samenhang tussen categorische variabelen zullen beschreven worden aan de hand van een kruistabel, conditionele verdelingen, percentageverschil, oddsratio en associatiematen. De samenhang tussen metrische variabelen zullen beschreven worden aan de hand van een spreidingsdiagram en correlatie en regressieanalyse. Het blijft dus van belang dat je op voorhand weet wat voor types variabelen je met elkaar wilt vergelijken (categorisch met categorisch, categorisch met metrisch, metrisch met metrisch). In dit onderdeel gaan we opnieuw enkel beschrijven. Het nagaan of een geobserveerde relatie met betrekking tot een steekproef veralgemeend kan worden voor de volledige populatie behoort tot het domein van de inductieve statistiek. Vooraleer we de relaties tussen categorische variabelen gaan behandelen, wijzen we op een belangrijk onderscheid in relaties: Enerzijds hebben we symmetrische relaties waarbij er sprake is van een wederzijdse samenhang. Anderzijds hebben we a symmetrische relaties waarbij er sprake is van een effect relatie. De ene variabele heeft een invloed op de andere of deze relatie kan ook een oorzaakgevolg relatie zijn. We wijzen erop dat X de onafhankelijke variabele is, en Y de afhankelijke variabele. Bijvoorbeeld: Het gebruiken van de verkiezingsuitslag voor het voorspellen van de volgende uitslag X = verkiezingsuitslag van de vorige gemeenteraadsverkiezingen Y = de uitkomst van de komende gemeenteraadsverkiezingen LEES MEER: Moore & McCabe: pp
22 Relaties tussen categorische variabelen Kruistabel, percentageverschil, oddsratio 1. Kruistabel Gegevens over de samenhang tussen twee variabelen worden niet langer in twee afzonderlijke frequentietabellen gepresenteerd, maar kan je samenvoegen tot een gezamenlijke frequentieverdeling: de kruistabel. Bijvoorbeeld: geslacht en inkomen In de kolommen staat de variabele geslacht' die bestaat uit twee categorieën: man en vrouw. In de rijen staat de variabele inkomen die ook bestaat uit twee categorieën: laag inkomen en hoog inkomen. Je kan uiteraard ook kruistabellen hebben met meer rijen en kolommen. Zo zou je hier het inkomen kunnen opsplitsen in zeer laag, laag, midden, hoog en zeer hoog. Het gevolg is een kruistabel met 5 rijen en 2 kolommen. 'Rijen' wordt afgekort als r, 'kolommen' als k. Het bovenstaande voorbeeld is een 2*2 tabel, bij meerdere rijen of kolommen wordt gesproken van een r*k tabel. In een kruistabel staan verschillende gegevens: celfrequenties Bij de 2*2 tabel voor geslacht en inkomen heb je 4 cellen. Elke cel geeft je informatie over de twee variabelen. Zo toont de cel met 3049' aan dat er 3049 mannen zijn met een laag inkomen. Op dezelfde manier kan je zien dat er 118 vrouwen zijn met een laag inkomen, 3688 mannen met een hoog inkomen en 606 vrouwen met een hoog inkomen. marginale verdelingen Deze vind je terug in de laatste kolom en in de onderste rij. Deze cijfers geven de univariate verdeling aan van de twee afzonderlijke variabelen. In de onderste rij zie je dat er 6737 mannen zijn en 724 vrouwen. En deze verdeling zegt je niks over hoe die mannen en vrouwen verdeeld zijn wat betreft het inkomen. Idem voor de laatste kolom: je kan daar lezen dat er 3167 mensen zijn met een laag inkomen en 4294 met een hoog inkomen, maar dit zegt je niks over mannen en vrouwen. conditionele verdelingen Hierbij kijk je hoe één van beide variabelen verdeeld is binnen 1 enkele categorie van de andere variabele. We noemen dit een conditionele verdeling. Als je kiest voor conditie 'man', zie je dat de 6737 mannen verdeeld zijn over 3049 mannen met een laag inkomen en 3688 mannen met een hoog inkomen. Bij de conditie vrouw' wordt de conditionele verdeling 118 vrouwen met een laag inkomen en 606 vrouwen met een hoog inkomen. Je kan dit ook in de andere richting bekijken. Als je kiest voor de conditie 'laag inkomen', dan is de conditionele verdeling van de 3167 mensen met een laag inkomen verdeeld over 3049 mannen met een laag inkomen en 118 vrouwen met een laag inkomen. 2. Relaties tussen categorische variabelen, uitgedrukt in een cijfer Conditionele verdelingen op basis van absolute frequenties zeggen niet veel over de relatie tussen twee variabelen. Absolute frequenties zijn daarvoor te veel afhankelijk van het totaal aantal
23 eenheden en van de univariate verdelingen van de afzonderlijke variabelen. Om relaties te bestuderen tussen twee categorische variabelen gebruiken we daarom relatieve conditionele verdelingen, die ons informatie geven over de percentageverschillen. Naast percentageverschillen kunnen ook oddsratio's en andere associatiematen gebruikt worden. Welke maat je best neemt, hangt af van het aantal categorieën van beide variabelen (2*2 of r*k), van de relatie tussen de variabelen (symmetrisch of asymmetrisch) en van het meetniveau (waarbij het laagste meetniveau van beide variabelen beslissend is). Op deze pagina behandelen we enkel het percentageverschil en de oddsratio. Voor de informatie over andere associatiematen, verwijzen wij je naar het boek van Moore & McCabe Percentageverschil Het percentageverschil geeft het verschil in percentagepunten aan tussen 2 conditionele verdelingen. Bijvoorbeeld: geslacht en inkomen Bij de mannen hebben 3049 van de 6737 mannen een laag inkomen, wat overeenkomt met 45,26%. Bij de vrouwen hebben 118 van de 724 vrouwen een laag inkomen: 16,3%. Het verschil tussen beide: 45,26% 16,3% geeft 28,95 percentagepunten. Deze 28,95 percentagepunten geeft aan wat het verschil is tussen mannen en vrouwen in het hebben van een laag inkomen. Hoe kleiner het percentageverschil, hoe minder verschil er is tussen mannen en vrouwen. Met andere woorden, hoe minder invloed er is van geslacht op inkomen. Een percentageverschil van 0 percentagepunten duidt dan ook op het ontbreken van een samenhang tussen beide variabelen. Percentages kunnen zowel in de rijen ( rij percentages ) als in de kolommen ( kolom percentages ) berekend worden. In het eerste geval worden de rij marginalen op 100% gezet. In het tweede geval worden alle kolom marginalen op 100% gezet. Bij a symmetrische relaties dienen de percentages berekend te worden binnen de categorieën van de onafhankelijke variabele. Anders worden foutieve conclusies getrokken (omdat het percentageverschil dan bepaald wordt door de univariate verdeling van de onafhankelijke variabele). Indien de onafhankelijke variabele bijvoorbeeld in de kolommen staat (zoals in het voorbeeld hierboven) worden kolompercentages berekend. Het percentageverschil wordt dan berekend door de kolompercentages te vergelijken binnen elke rij Oddsratio Een andere manier om een univariate frequentieverdeling weer te geven dan percentages, zijn odds. Bij een percentage zet je het aantal eenheden met een bepaald kenmerk af tegenover het totaal aantal eenheden. Zo zie je in het onderstaande voorbeeld dat er 3167 mensen met een laag inkomen zijn tegenover 7461 mensen in totaal. De interpretatie: 42,44% van alle mensen hebben een hoog inkomen. Bijvoorbeeld: geslacht en inkomen
24 Bij de odds zet je het aantal eenheden met een bepaald kenmerk af tegenover het aantal eenheden in een andere categorie van dezelfde variabele. Zo zien we in het voorbeeld dat er 4294 mensen zijn met een hoog inkomen tegenover 3167 mensen met een laag inkomen. De verhouding (ratio) tussen die twee bedraagt: 4294/3267 = 1,36. Interpretatie: er zijn 1,36 keer meer mensen met een hoog dan met een laag inkomen. De odds die we hier berekenden zijn marginale odds (berekend in de marginalen, dus gebaseerd op de univariate verdeling van een variabele). Daarnaast kunnen ook conditionele odds berekend worden. Die geven de odds binnen een categorie van de andere variabele. Door conditionele odds met elkaar te vergelijken krijgen we informatie over de samenhang tussen de twee variabelen. Bij mannen wordt dat 3049 mannen met een laag inkomen tegenover de 3688 mannen met een hoog inkomen. Het resultaat van 3049 / 3688 geeft 0,83. De interpretatie: mannen hebben 0,83 keer meer kans om een laag inkomen te hebben dan om een hoog inkomen te hebben. Je kan het ook omkeren: 6388/3049 = 1,21. Wat betekent: mannen hebben 1,21 keer meer kans om een hoog inkomen te hebben dan om een laag inkomen te hebben. Dit is de conditionele odds voor mannen op het hebben van een hoog vs. laag inkomen. Je kan de odds ook berekenen voor vrouwen (kans dat een vrouw een laag inkomen heeft ten opzichte van een hoog inkomen of omgekeerd), voor laag inkomen (kans dat iemand met een laag inkomen een vrouw is ten opzichte van dat die een man is of omgekeerd) en voor hoog inkomen. Met de conditionele odds zeg je enkel iets over 1 conditionele verdeling. Een stap verder is de oddsratio, waarmee je iets zegt over verschillende conditionele verdelingen en daardoor over de samenhang tussen beide variabelen. De naam zegt het al, het is de ratio (breuk) van twee odds. vb: (zie tabel hierboven) 1) de kans dat een man een laag inkomen heeft tov een hoog inkomen is 3049/ ) de kans dat een vrouw een laag inkomen heeft tov een hoog inkomen is 118/606. 3) de ratio tussen beide: (3049/3688) / (118/606) = 4,25. 4) interpretatie: mannen hebben 4,25 keer meer kans dan vrouwen om een laag inkomen te hebben tov een hoog inkomen. Een oddsratio van 1 wijst erop dat er geen samenhang is tussen beide variabelen. Hoe meer de oddsratio van 1 afwijkt (naar 0 of naar +oneindig toe), hoe groter de samenhang. Een groot probleem echter is het ontbreken van een eindpunt. Wanneer kan je spreken van een grote odds? Is dat bij 2, bij 4,25, bij 60? Dat hangt per geval af van de verhoudingen en de schaal. Ook de aanwezigheid van 0 cellen vormt een probleem bij de berekening en de interpretatie van de oddsratio. LEES MEER: Moore & McCabe: pp
5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:
5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van
Nadere informatie5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:
5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van
Nadere informatieCollege 4 Inspecteren van Data: Verdelingen
College Inspecteren van Data: Verdelingen Inleiding M&T 01 013 Hemmo Smit Overzicht van deze cursus 1. Grondprincipes van de wetenschap. Observeren en meten 3. Interne consistentie; Beschrijvend onderzoek.
Nadere informatieStatistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn
Statistiek: Spreiding en dispersie 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Met spreiding willen we in één getal uitdrukken hoe verspreid de gegevens zijn: in hoeveel
Nadere informatieSamenvattingen 5HAVO Wiskunde A.
Samenvattingen 5HAVO Wiskunde A. Boek 1 H7, Boek 2 H7&8 Martin@CH.TUdelft.NL Boek 2: H7. Verbanden (Recht) Evenredig Verband ( 1) Omgekeerd Evenredig Verband ( 1) Hyperbolisch Verband ( 2) Machtsverband
Nadere informatieHoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent
Hoofdstuk 2 : Grafische beschrijving van data Marnix Van Daele Marnix.VanDaele@UGent.be Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Grafische beschrijving van data p. 1/35 Soorten meetwaarden
Nadere informatieHavo A deel 1 H2 Statistiek - Samenvatting
Havo A deel 1 H2 Statistiek - Samenvatting Begrip 1. Staafdiagram Schetsje: zo ziet het er uit 2. Lijndiagram = polygoon 3. Cirkeldiagram = sectordidagram 4. Beeldiagram = pictogram 5. Stapeldiagram 6.
Nadere informatie2 Data en datasets verwerken
Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken 1 Data presenteren 1.4 Oefenen In opdracht van: Commissie Toekomst Wiskunde Onderwijs 1.4 Oefenen Opgave 9 Bekijk de genoemde dataset
Nadere informatieStatistiek I Samenvatting. Prof. dr. Carette
Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De
Nadere informatie2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht?
2.1.4 Oefenen Opgave 9 Bekijk de genoemde dataset GEGEVENS154LEERLINGEN. a. Hoe lang is het grootste meisje? En de grootste jongen? b. Welke lengtes komen het meeste voor? c. Is het berekenen van gemiddelden
Nadere informatieStatistiek: Herhaling en aanvulling
Statistiek: Herhaling en aanvulling 11 mei 2009 1 Algemeen Statistiek is de wetenschap die beschrijft hoe we gegevens kunnen verzamelen, verwerken en analyseren om een beter inzicht te krijgen in de aard,
Nadere informatieA. Week 1: Introductie in de statistiek.
A. Week 1: Introductie in de statistiek. Populatie en steekproef. In dit vak leren we de basis van de statistiek. In de statistiek probeert men erachter te komen hoe we de populatie het beste kunnen observeren.
Nadere informatieTIP 10: ANALYSE VAN DE CIJFERS
TOETSTIP 10 oktober 2011 Bepaling wat en waarom je wilt meten Toetsopzet Materiaal Betrouw- baarheid Beoordeling Interpretatie resultaten TIP 10: ANALYSE VAN DE CIJFERS Wie les geeft, botst automatisch
Nadere informatieOnderzoeksmethodiek LE: 2
Onderzoeksmethodiek LE: 2 3 Parameters en grootheden 3.1 Parameters Wat is een parameter? Een karakteristieke grootheid van een populatie Gem. gewicht van een 34-jarige man 3.2 Steekproefgrootheden Wat
Nadere informatieData analyse Inleiding statistiek
Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door
Nadere informatie8. Analyseren van samenhang tussen categorische variabelen
8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde
Nadere informatieInleiding Applicatie Software - Statgraphics
Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een
Nadere informatieHAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf
HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken
Nadere informatieInleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek
Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje
Nadere informatieStatistische variabelen. formuleblad
Statistische variabelen formuleblad 0. voorkennis Soorten variabelen Discreet of continu Bij kwantitatieve gegevens gaat het om meetbare gegeven, zoals temperatuur, snelheid of gewicht. Bij een discrete
Nadere informatieInleiding tot de meettheorie
Inleiding tot de meettheorie Meten is het toekennen van cijfers aan voorwerpen. Koeien Koeien in een kudde, studenten in een auditorium, mensen met een bepaalde stoornis, leerlingen met meer dan 15 in
Nadere informatieG0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing
G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag
Nadere informatie2 Data en datasets verwerken
Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken 3 Frequentieverdelingen typeren 3.6 Geïntegreerd oefenen In opdracht van: Commissie Toekomst Wiskunde Onderwijs 3 Frequentieverdelingen
Nadere informatie3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.
3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. Absolute verandering = Aantal 2004 Aantal 1994 = 1625 3070 = -1445 Relatieve verandering = Nieuw Oud Aantal
Nadere informatieFeedback proefexamen Statistiek I 2009 2010
Feedback proefexamen Statistiek I 2009 2010 Het correcte antwoord wordt aangeduid door een sterretje. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Een derde van de mannen is
Nadere informatiePopulaties beschrijven met kansmodellen
Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.
Nadere informatie2.3 Frequentieverdelingen typeren
2.3 Frequentieverdelingen typeren 2.3.1 Introductie Kijkend naar een datarepresentatie valt meestal al snel op hoe de verdeling van de tellingen/frequenties over de verschillende waarden eruitziet. Zitten
Nadere informatieExamen Statistiek I Feedback
Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).
Nadere informatieCollege Week 4 Inspecteren van Data: Verdelingen
College Week 4 Inspecteren van Data: Verdelingen Inleiding in de Methoden & Technieken 2013 2014 Hemmo Smit Dus volgende week Geen college en werkgroepen Maar Oefententamen on-line (BB) Data invoeren voor
Nadere informatieOnderzoek. B-cluster BBB-OND2B.2
Onderzoek B-cluster BBB-OND2B.2 Succes met leren Leuk dat je onze bundels hebt gedownload. Met deze bundels hopen we dat het leren een stuk makkelijker wordt. We proberen de beste samenvattingen voor jou
Nadere informatieWISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0
WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de
Nadere informatieKerstvakantiecursus. wiskunde A. Rekenregels voor vereenvoudigen. Voorbereidende opgaven HAVO kan niet korter
Voorbereidende opgaven HAVO Kerstvakantiecursus wiskunde A Tips: Maak de voorbereidende opgaven voorin in een van de A4-schriften die je gaat gebruiken tijdens de cursus. Als een opdracht niet lukt, werk
Nadere informatieHoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1
Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch
Nadere informatieOverzicht statistiek 5N4p
Overzicht statistiek 5N4p EEB2 GGHM2012 Inhoud 1 Frequenties, absoluut en relatief... 3 1.1 Frequentietabel... 3 1.2 Absolute en relatieve frequentie... 3 1.3 Cumulatieve frequentie... 4 2 Centrum en spreiding...
Nadere informatie8.1 Centrum- en spreidingsmaten [1]
8.1 Centrum- en spreidingsmaten [1] Gegeven zijn de volgende 10 waarnemingsgetallen: 1, 3, 3, 3, 4, 5, 6, 8, 8, 9 Het gemiddelde is: De mediaan is het middelste waarnemingsgetal als de getallen naar grootte
Nadere informatieVaardigheden IV Delphine De smet 3 theorielessen 2 practica in groepen per 40, oefenen in SPSS
Vaardigheden IV Delphine De smet 3 theorielessen 2 practica in groepen per 40, oefenen in SPSS Examen: week 20-24 april: schriftelijk examen met toepassing SPSS, geen open boek, wel sterk toepassingsgericht,
Nadere informatieStatistiek: Stam-bladdiagram en boxplot 6/12/2013. dr. Brenda Casteleyn
Statistiek: Stam-bladdiagram en boxplot 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Stam-bladdiagram en boxplot zijn methoden om visueel een verdeling voor te stellen.
Nadere informatieFactor = het getal waarmee je de oude hoeveelheid moet vermenigvuldigen om een nieuwe hoeveelheid te krijgen.
Samenvatting door een scholier 1569 woorden 23 juni 2017 5,8 6 keer beoordeeld Vak Methode Wiskunde Moderne wiskunde Wiskunde H1 t/m H5 Hoofdstuk 1 Factor = het getal waarmee je de oude hoeveelheid moet
Nadere informatieSTATISTIEK. Een korte samenvatting over: Termen Tabellen Diagrammen
STATISTIEK Een korte samenvatting over: Termen Tabellen Diagrammen Modus De waarneming die het meeste voorkomt. voorbeeld 1: De waarnemingen zijn 2, 3, 4, 5, 5, 5, 6, 6, 7 en 8. De waarneming 5 komt het
Nadere informatieDEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO
DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO Leerlingmateriaal 1. Doel van de praktische opdracht Het doel van deze praktische opdracht is om de theorie uit je boek te verbinden met de data
Nadere informatie2 Data en datasets verwerken
Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken 1 Data presenteren 1.3 Representaties In opdracht van: Commissie Toekomst Wiskunde Onderwijs 1 Data presenteren 1.1 Introductie In
Nadere informatieSPSS Introductiecursus. Sanne Hoeks Mattie Lenzen
SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen
Nadere informatieDOEN! - Praktische Opdracht Statistiek 4 Havo Wiskunde A
DOEN! - Praktische Opdracht Statistiek 4 Havo Wiskunde A Docentenhandleiding 1. Voorwoord Doel van de praktische opdracht bij het hoofdstuk over statistiek 1 : Het doel van de praktische opdracht (PO)
Nadere informatieHAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....
HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken de rekenregel breuk Ik kan
Nadere informatieFrequentiematen voor ziekte: Hoe vaak komt de ziekte voor
Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor 4 juni 2012 Het voorkomen van ziekte kan op drie manieren worden weergegeven: - Prevalentie - Cumulatieve incidentie - Incidentiedichtheid In de
Nadere informatieVOOR HET SECUNDAIR ONDERWIJS
VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg
Nadere informatieHoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent
Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data p 1/31 Beschrijvende
Nadere informatieVOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert
VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel
Nadere informatieBeschrijvende statistiek
Duur 45 minuten Overzicht Tijdens deze lesactiviteit leer je op welke manier centrum- en spreidingsmaten je helpen bij de interpretatie van statistische gegevens. Je leert ook dat grafische voorstellingen
Nadere informatieParagraaf 5.1 : Frequentieverdelingen
Hoofdstuk 5 Beschrijvende statistiek (V4 Wis A) Pagina 1 van 7 Paragraaf 5.1 : verdelingen Les 1 Allerlei diagrammen = { Hoe vaak iets voorkomt } Relatief = { In procenten } Absoluut = { Echte getallen
Nadere informatieMETA-kaart domein - Exponentieel verband havo4 wiskunde A H=bxg^t
META-kaart domein - Exponentieel verband havo4 wiskunde A H=bxg^t Welk verband zie ik tussen de gegeven informatie en wat er gevraagd wordt? Wat heb ik nodig? Heb ik de gegevens uit de tekst gehaald? Welke
Nadere informatie9. Lineaire Regressie en Correlatie
9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)
Nadere informatieSPSS. Statistiek : SPSS
SPSS - hoofdstuk 1 : 1.4. fase 4 : verrichten van metingen en / of verzamelen van gegevens Gegevens gevonden bij een onderzoek worden systematisch weergegeven in een datamatrix bij SPSS De datamatrix Gebruik
Nadere informatie2 Data en datasets verwerken
Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken 4 Twee groepen vergelijken 4.4 Oefenen In opdracht van: Commissie Toekomst Wiskunde Onderwijs 4.4 Oefenen Voorbeeld Bekijk de dataset
Nadere informatiedatavisualisatie Stappen 14-12-12 verzamelen en opschonen analyseren van data interpeteren hoorcollege 4 visualisatie representeren
Stappen datavisualisatie hoorcollege 4 visualisatie HVA CMD V2 12 december 2012 verzamelen en opschonen analyseren van data interpeteren representeren in context plaatsen 1 "Ultimately, the key to a successful
Nadere informatieWISKUNDE A HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0
WISKUNDE A HAVO VAKINFORMATIE STAATSEAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de
Nadere informatieNiveauproef wiskunde voor AAV
Niveauproef wiskunde voor AAV Waarom? Voor wiskunde zijn er in AAV 3 modules: je legt een niveauproef af, zodat je op het juiste niveau kan starten. Er is de basismodule voor wie de rekenvaardigheden moet
Nadere informatieOefenvragen bij Statistics for Business and Economics van Newbold
Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd
Nadere informatieGrafieken Cirkeldiagram
Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd
Nadere informatieStatistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
Statistiek met Excel Schoolexamen en Uitbreidingsopdrachten 2 Inhoudsopgave Achtergrondinformatie... 4 Schoolexamen Wiskunde VWO: Statistiek met grote datasets... 5 Uibreidingsopdrachten vwo 5... 6 Schoolexamen
Nadere informatieStatistiek. Beschrijvend statistiek
Statistiek Beschrijvend statistiek Verzameling van gegevens en beschrijvingen Populatie, steekproef Populatie = o de gehele groep ondervragen o parameter is een kerngetal Steekproef = o een onderdeel van
Nadere informatieKansrekening en Statistiek
Kansrekening en Statistiek College 9 Woensdag 7 Oktober 1 / 51 Kansrekening en Statistiek? Bevordert luieren de fantasie? Psychologie 2 / 51 Kansrekening en Statistiek? Bevordert luieren de fantasie? Psychologie
Nadere informatieStatistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018
Statistiek in de alfa en gamma studies Aansluiting wiskunde VWO-WO 16 april 2018 Wie ben ik? Marieke Westeneng Docent bij afdeling Methoden en Statistiek Faculteit Sociale Wetenschappen Universiteit Utrecht
Nadere informatieGEGEVENS154LEERLINGEN
2.4.4 Oefenen Voorbeeld Bekijk de dataset GEGEVENS154LEERLINGEN nog een keer. Je wilt nagaan of leerlingen die wiskunde B kiezen beter waren in wiskunde in de onderbouw dan leerlingen die wiskunde A kiezen.
Nadere informatieHoofdstuk 8 Het toetsen van nonparametrische variabelen
Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn
Nadere informatiebijspijkercursus wiskunde voor psychologiestudenten bijeenkomst 6 statistiek/gegevensverwerking los materiaal, niet uit boek [PW]
bijspijkercursus wiskunde voor psychologiestudenten bijeenkomst statistiek/gegevensverwerking los materiaal, niet uit boek [PW] procenten percentage: bv: van de 0 kinderen hadden er 7: hoeveel procent
Nadere informatieNiet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke
Niet de hoogte, wel de oppervlakte Prof. dr. Herman Callaert Aandachtspunten bij - statistische technieken voor een continue veranderlijke - de interpretatie van een histogram - de normale dichtheidsfunctie
Nadere informatieKwantitatieve methoden. Samenvatting met verwijzing naar Excel functies
Kwantitatieve methoden Samenvatting met verwijzing naar Excel functies I. Inleiding Statistiek is een gebied in de wiskunde dat zich bezighoudt met het samenvatten, beschrijven en analyseren van (grote
Nadere informatie1 a Partij is een kwalitatieve variabele, kindertal een kwantitatieve, discrete variabele. b,c
Hoofdstuk 8, Statistische maten 1 Hoofdstuk 8 Statistische maten Kern 1 Centrum- en spreidingsmaten 1 a Partij is een kwalitatieve variaele, kindertal een kwantitatieve, discrete variaele.,c d kindertal
Nadere informatieInleiding tot het opstellen van een elektronische enquête met LimeSurvey
Inleiding tot het opstellen van een elektronische enquête met LimeSurvey Cursus Wetenschappelijk denken en Informatica voor leidinggevenden in het UZ Brussel (voorjaar 2011) 4-3-2011 Herhaling titel van
Nadere informatieChecklist Wiskunde A HAVO 4 2014-2015 HML
Checklist Wiskunde A HAVO 4 2014-2015 HML 1 Hoofdstuk 1 Ik weet hoe je met procenten moet rekenen: procenten en breuken, percentage berekenen, toename en afname in procenten, rekenen met groeifactoren.
Nadere informatieHoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren
Hoofdstuk 18 Verbanden tussen variabelen vaststellen en interpreteren Analyse van verbanden Analyse van verbanden: bij de analyse van verbanden stel je vast of er een stabiel verband bestaat tussen twee
Nadere informatie2 Data en datasets verwerken
Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken Inhoud 2.0 Data voor onderzoek 2.1 Data presenteren 2.2 Centrum en spreiding 2.3 Verdelingen typeren 2.4 Relaties 2.5 Overzicht In
Nadere informatie1BA PSYCH Statistiek 1 Oefeningenreeks 2 1
D..2. OEFENINGENREEKS 2 OEFENING Gegevens over de regenval (in cm) in South Bend (Indiana) over een periode van 30 jaar. Klasse K K f F f. 00 F. 00 n n 2,3 2, 3,7 3,7 3,4 3, 4 4,29 7,8 4, 4, 4 9 4,29 32,4,,
Nadere informatiePraktische opdracht Wiskunde Statistiek
Praktische opdracht Wiskunde Statistiek Praktische-opdracht door R. 3948 woorden 5 december 2016 2,8 3 keer beoordeeld Vak Wiskunde Scoreformulier: Statistisch onderzoek havo 4 wiskunde A Namen groepsleden:
Nadere informatieSteelbladdiagram In een steelbladdiagram staan alle leerlingen genoemd. Je kunt precies zien waar Wouter staat.
2.1.3 Representaties In de voorbeelden kijken we steeds naar gewicht. Je gaat daarna zelf kijken naar de informatie over lengte en cijfergemiddelde. Voor alle opgaven geldt dat je deze zowel in de DWO
Nadere informatieKansrekening en Statistiek
Kansrekening en Statistiek College 10 Donderdag 14 Oktober 1 / 71 1 Kansrekening Indeling: Bayesiaans leren 2 / 71 Bayesiaans leren 3 / 71 Bayesiaans leren: spelletje Vb. Twee enveloppen met kralen, waarvan
Nadere informatieLes 1 Kwaliteitsbeheersing. Les 2 Kwaliteitsgegevens. Les 3 Introductie Statistiek. Les 4 Normale verdeling. Kwaliteit
Kwaliteit Les 1 Kwaliteitsbeheersing Introductie & Begrippen Monstername Les 2 Kwaliteitsgegevens Gegevens Verzamelen Gegevens Weergeven Les 3 Introductie Statistiek Statistische begrippen Statistische
Nadere informatie1BA PSYCH Statistiek 1 Oefeningenreeks 3 1
Juno KOEKELKOREN D.1.3. OEFENINGENREEKS 3 OEFENING 1 In onderstaande tabel vind je zes waarnemingen van twee variabelen (ratio meetniveau). Eén van de waarden van y is onbekend. Waarde x y 1 1 2 2 9 2
Nadere informatielengte aantal sportende broers/zussen
Oefening 1 Alvorens opgenomen te worden in een speciaal begeleidingsprogramma s voor jonge talentvolle lopers, worden jonge atleten eerst onderworpen aan een aantal vragenlijsten en onderzoeken. Uit het
Nadere informatieVOOR HET SECUNDAIR ONDERWIJS. Exploratieve statistiek. Infoboekje. Prof. dr. Herman Callaert
VOOR HET SECUNDAIR ONDERWIJS Exploratieve statistiek Infoboekje Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg www.uhasselt.be/lesmateriaal-statistiek . Van deze
Nadere informatieVendorrating: statistische presentatiemiddelen
pag.: 1 van 6 Vendorrating: statistische presentatiemiddelen Hieronder bespreken we in het kort een aantal verschillende presentatievormen waarmee we vendorratingresultaten op een duidelijke manier kunnen
Nadere informatieY = ax + b, hiervan is a de richtingscoëfficiënt (1 naar rechts en a omhoog), en b is het snijpunt met de y-as (0,b)
Samenvatting door E. 1419 woorden 11 november 2013 6,1 14 keer beoordeeld Vak Methode Wiskunde A Getal en ruimte Lineaire formule A = 0.8t + 34 Er bestaat dan een lineair verband tussen A en t, de grafiek
Nadere informatieFormules Excel Bedrijfsstatistiek
Formules Excel Bedrijfsstatistiek Hoofdstuk 2 Data en hun voorstelling AANTAL.ALS vb: AANTAL.ALS(A1 :B6,H1) Telt hoeveel keer (frequentie) de waarde die in H1 zit in A1:B6 voorkomt. Vooral bedoeld voor
Nadere informatieStatistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2
INHOUDSOPGAVE Leswijzer...3 Beschrijvende Statistiek...3 Kansberekening...3 Inductieve statistiek, inferentiele statistiek...3 Hoofdstuk...3. Drie deelgebieden...3. Frequentieverdeling....3. Frequentieverdeling....4.5
Nadere informatieHOOFDSTUK VII REGRESSIE ANALYSE
HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens
Nadere informatieKlantonderzoek: statistiek!
Klantonderzoek: statistiek! Statistiek bij klantonderzoek Om de resultaten van klantonderzoek juist te interpreteren is het belangrijk de juiste analyses uit te voeren. Vaak worden de mogelijkheden van
Nadere informatieCorrectievoorschrift VWO. Wiskunde A1 (nieuwe stijl)
Wiskunde A (nieuwe stijl) Correctievoorschrift VWO Voorbereidend Wetenschappelijk Onderwijs 20 02 Tijdvak 2 Inzenden scores Uiterlijk op 2 juni de scores van de alfabetisch eerste vijf kandidaten per school
Nadere informatieOplossingen hoofdstuk 7
Oplossingen hoofdstuk 7 1. X is normaal verdeeld met µ=5 en =2. Tussen welke grenzen liggen P Z z 0, 3 z 0, 52 P Z z 0, 7 z 0,52. a) 30, 70 De ondergrens is x30 5z30 2 50,52 2 3,96 De bovengrens isx 70
Nadere informatieStatistiek: Centrummaten 12/6/2013. dr. Brenda Casteleyn
Statistiek: Centrummaten 12/6/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie 1) Nominaal niveau: Gebruik de Modus, dit is de meest frequente waarneming 2) Ordinaal niveau:
Nadere informatieSamenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8
Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8 Samenvatting door N. 1410 woorden 6 januari 2013 5,4 13 keer beoordeeld Vak Methode Wiskunde Getal en Ruimte 7.1 toenamediagrammen Interval
Nadere informatieJe kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen
Lesbrief: Correlatie en Regressie Leerlingmateriaal Je leert nu: -een correlatiecoëfficient gebruiken als maat voor het statistische verband tussen beide variabelen -een regressielijn te tekenen die een
Nadere informatieGEOGEBRAINSTITUUT. VlAANDEREN
GEOGEBRAINSTITUUT VlAANDEREN Statistiek met GeoGebra Roger Van Nieuwenhuyze Hoofdlector wiskunde HUB, lerarenopleiding Auteur VBTL, Die Keure Pedagogisch begeleider wiskunde VLP roger.van.nieuwenhuyze@skynet.be
Nadere informatieEerst wordt ingegaan op de verschillende soorten data die we kunnen verzamelen en hoe datasets georganiseerd zijn.
HOOFDSTUK 1: DISTRIBUTIES Inleiding Statistiek is de wetenschap van kennis opdoen op basis van data. Data zijn numerieke (of kwalitatieve) beschrijvingen en gegevens van objecten om te bestuderen. Dit
Nadere informatieStatistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1
Statistiek II Sessie 1 Verzamelde vragen en feedback Deel 1 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 1 1 Staafdiagram 1. Wat is de steekproefgrootte? Op de horizontale as vinden we de respectievelijke
Nadere informatieZelfstudiefiches M&T: Deel 2 (H6-7)
Zelfstudiefiches M&T: Deel 2 (H6-7) Hoofdstuk 6 1. Bekijk figuur 6.2. Het meetproces (p. 133 cursus). Dit schema en bijhorende tekst moet je heel goed begrijpen, heel vaak komen tijdens de colleges termen
Nadere informatieBijlage 11 - Toetsenmateriaal
Bijlage - Toetsenmateriaal Toets Module In de eerste module worden de getallen behandeld: - Natuurlijke getallen en talstelsels - Gemiddelde - mediaan - Getallenas en assenstelsel - Gehele getallen met
Nadere informatieGemiddelde: Het gemiddelde van een rij getallen is de som van al die getallen gedeeld door het aantal getallen.
Statistiek Modus De waarneming die het meeste voorkomt. voorbeeld 1: De waarnemingen zijn 2, 3, 4, 5, 5, 5, 6, 6, 7 en 8. De waarneming 5 komt het meeste (driemaal) voor, dus de modus is 5. (Kijk maar:
Nadere informatieInleiding statistiek
Inleiding Statistiek Pagina 1 uit 8 Inleiding statistiek 1. Inleiding In deze oefeningensessie is het de bedoeling jullie vertrouwd te maken met een aantal basisbegrippen van de statistiek, meer bepaald
Nadere informatieNormale Verdeling Inleiding
Normale Verdeling Inleiding Wisnet-hbo update maart 2010 1 De Normale verdeling De Normale Verdeling beschrijft het gedrag van een continue kansvariabele x. Om kansen te berekenen, moet de dichtheidsfunctie
Nadere informatie