In de praktijk gaat men eerder werken met numerieke codes. Aan de hand van een codeboek wordt per variabele een nummer aan een waarde toegekend.

Transcriptie

1 Basisconcepten De statistiek heeft de studie van gegevens, die kenmerken van een bevolking beschrijven, tot object. Als je zelf onderzoek wil verrichten of de resultaten van het werk van een ander wil bestuderen is het van belang dat je goed de basiscomponenten van een onderzoek kan definiëren of herkennen. Stel dat we het bioscoopbezoek van Vlaamse studenten willen onderzoeken. > Onze bevolking zal bestaan uit alle Vlaamse studenten, ook nog wel de onderzoekspopulatie genoemd. Een onderzoekspopulatie bevat (onderzoeks )elementen of (statistische) eenheden. In ons voorbeeld gaat het om Vlaamse studenten, maar een populatie kan even goed bestaan uit gebeurtenissen, collectiviteiten, voorwerpen Het is belangrijk dat je deze eenduidig definieert! > Het bioscoopbezoek is het kenmerk van deze populatie dat we gaan onderzoeken. Een kenmerk kan variëren over de eenheden. Zo gaat de ene student maandelijks naar de bioscoop, terwijl de ander maar 1 keer per jaar gaat. Vandaar dat we in het vervolg zullen spreken van een variabele. De verzameling van alle mogelijke uitkomsten van een variabele noemen we de uitkomstenverzameling. Het bepalen van de uitkomsten gebeurt aan de hand van meten. Op deze manier wordt de waarde van een kenmerk bij een element vastgesteld, en dit aan de hand van een meetschaal. In onze casus stellen we de student de vraag hoeveel keer hij naar de bioscoop gaat en we bieden hem bijvoorbeeld een meetschaal aan die volgende categorieën bevat: jaarlijks, maandelijks, wekelijks, nooit. De gegevens worden tenslotte verzameld in een datamatrix. In de datamatrix (ook nog gegevensset of dataset genoemd) neemt elke case of statistisch eenheid een rij in. In de eerste kolom vermelden we de cases (dit kan door het invullen van de naam, maar is vaak het nummer dat aan een case wordt gekoppeld). In de kolommen die daarop volgen zetten we de vastgestelde waarde op het bestudeerde kenmerk. In de praktijk gaat men eerder werken met numerieke codes. Aan de hand van een codeboek wordt per variabele een nummer aan een waarde toegekend. Bijvoorbeeld: Geslacht: 1=Man, 2=Vrouw, 9= Geen Idee/ Geen Antwoord. Op die manier bekom je een datamatrix met getallen die een statistische verwerking mogelijk maakt. Let wel op: hoewel we in beide gevallen dus vaak getalnotaties gebruiken, bestaat er inhoudelijk een heel belangrijk verschil tussen 'echte' waarden en 'codes'. Zo slaat de variabele Leeftijd '19' letterlijk op iemand die '19' jaar oud is. Deze waarde is dus inhoudelijk zinvol, je kan er ook echt mee rekenen. Bij Geslacht werden de codes '1' en '2' louter arbitrair toegekend. Het betekent niet dat een vrouw '1 meer waard is' dan een man. LEES MEER: Moore & McCabe: pp. 3 6

2 Meetniveau van variabelen Voor het uitvoeren van statistische bewerkingen hebben we de waarden van de te onderzoeken variabele nodig. Variabelen kunnen ofwel kwantitatief ofwel kwalitatief zijn. Voorbeelden van kwantitatieve variabelen zijn onder meer lichaamslengte en loon, terwijl woonplaats of politieke voorkeur voorbeelden zijn van kwalitatieve variabelen. Het verschil tussen beide types variabelen is gemakkelijk samen te vatten: kwantitatieve variabelen omvatten 'numerieke waarden', getallen waarmee je ook kan gaan rekenen. Kwalitatieve variabelen omvatten enkel (kwalitatief te onderscheiden) categorieën, waaraan 'codes' werden toegekend. Bijvoorbeeld Woonplaats: Centrum Gent = 1, Randgemeente van Gent = 2 Met deze codes kan je zeker niet gaan rekenen. De verzameling van de waarden die een variabele kan aannemen wordt de meetschaal genoemd. De gebruikte meetschaal bepaalt het meetniveau van de variabele en bepaalt zodoende de hoeveelheid informatie die deze variabele bevat en welke bewerkingen we met de data mogen uitvoeren. 1. Kwalitatieve/Categorische variabelen Nominale variabelen Waarden die uitsluitend dienen voor identificatie en classificatie. Men kan ze niet ordenen. Bijvoorbeeld: geslacht, TV zender, haarkleur, werelddeel, Ordinale variabelen Waarden die we kunnen ordenen. De ene waarde is meer of minder (of kleiner of groter) dan de andere waarde, maar het is niet mogelijk om exact vast te stellen hoeveel meer of minder de ene waarde is. We kunnen er dan ook geen berekeningen op uitvoeren. Bijvoorbeeld: Opleidingsniveau gemeten aan de hand van hoogst behaalde niveau, kwaliteitsoordeel met sterretjes, 2. Kwantitatieve/Metrische variabelen Intervalvariabelen Waarden die we kunnen ordenen én waarbij het mogelijk is om gelijke afstanden tussen de mogelijke waarden vast te stellen. Er is dus sprake van ordenbaarheid en een meeteenheid. We kunnen de waarden optellen of aftrekken van elkaar: A is zoveel punten meer dan B. Bijvoorbeeld: temperatuur, Ratiovariabelen Waarden die we én kunnen ordenen, én een meeteenheid én een absoluut nulpunt hebben. Een absoluut nulpunt is een waarde die de afwezigheid van het bestudeerde kenmerk weergeeft, wat tevens de aanwezigheid van negatieve waarden uitsluit. Dit laat ons toe om verhoudingen tussen waarden te nemen. We vergelijken bijvoorbeeld de leeftijd van Tom (21 jaar) met die van Luc (42 jaar). Dan kunnen we stellen dat Tom tweemaal zo jong is als Luc. Dit kan je niet met bijvoorbeeld temperatuur omwille van de waarden onder nul. We kunnen de waarden hier niet alleen optellen of aftrekken van elkaar, maar ook vermenigvuldigen of delen. Andere voorbeelden van ratiovariabelen: budget (uitgedrukt in euro), exact tijdsverschil, lengte (gemeten in cm), > Ratiovariabelen bevatten meer informatie dan nominale.

3 3. Discrete en continue variabelen Tot slot moeten we ook nog het onderscheid maken tussen discrete en continue variabelen. Het indelen van variabelen in deze twee categorieën is van belang voor sommige analysetechnieken. Discrete variabelen zijn variabelen die niet verder kunnen worden onderverdeeld, eenmaal uitgedrukt in een eenheid. We hebben te maken met een eindige uitkomstenverzameling. Bijvoorbeeld: leeftijd in verstreken jaren, aantal kinderen, aantal keer bioscoop bezocht Continue variabelen zijn variabelen waarbij we voor elke twee mogelijke uitkomsten een derde uitkomst kunnen bedenken die tussen beide uitkomsten ligt. We hebben te maken met een oneindige uitkomstenverzameling. Zo hebben we mensen die 143 cm groot zijn, maar het kan goed zijn dat er mensen zijn die 142,35 cm groot zijn of 143, cm. Het is dan ook vaak de gewoonte dat we continue variabelen voorstellen door het dichtst bijzijnde getal, bijvoorbeeld wanneer we zeggen dat iemand 180cm groot is, dan staat dit getal eigenlijk voor alle waarden tussen 179,5 en 180,499 cm. Andere voorbeelden: tijd, gewicht Let op! Ook niet numerieke variabelen kunnen continue zijn, denk maar bijvoorbeeld aan haarkleur. LEES MEER: Moore & McCabe: pp. 4 Bevolkingsgegevens vs. steekproefgegevens 1. Bevolkingsgegevens Indien we beschikken over bevolkingsgegevens, dan hebben we informatie over de volledige onderzoekspopulatie. Als deze gegevens valide en betrouwbaar zijn, volstaat 'beschrijvende statistiek'. Beschrijvende statistiek is het samenvatten en beschrijven van een reeks gegevens. 2. Steekproefgegevens Het is echter vaak onmogelijk om alle eenheden uit een populatie te onderzoeken. Men kiest dan voor een steekproef: een selectie van eenheden uit de onderzoekspopulatie. > Steekproef: Deelverzameling van n aantal eenheden uit populatie Als we echter op de gegevens van de steekproef beschrijvende statistiek toepassen, krijgen we enkel informatie over de steekproefpopulatie. Indien we uitspraken over de volledige populatie willen doen op basis van de steekproef (wat meestal de bedoeling is), moeten we ons wenden tot 'inductieve statistiek'. Deze vorm van statistiek wendt technieken aan die ons toelaten om dergelijke uitspraken (op basis van een steekproef over een populatie) te doen. De essentie van inductieve statistiek is dat we expliciet rekening houden met de onzekerheid door het werken met een steekproef. Een bepaalde steekproef kan immers een iets anders resultaat opleveren dan mocht een andere steekproef genomen zijn. Er zal daarom een foutenmarge rond de resultaten worden opgenomen die ons toelaat om met een gekozen niveau van betrouwbaarheid te stellen dat de populatiewaarde in het berekende interval ligt. Daarnaast laat inductieve statistiek toe om concrete hypotheses m.b.t. de populatie te toetsen.

4 1. Univariate statistiek Doelstellingen Univariate Statistiek De univariate beschrijvende statistiek wil gegevens van 1 variabele op een overzichtelijke en synthetische wijze weergeven. Het kernbegrip hier is de frequentie waarmee de verschillende waarden van een variabele voorkomen in een steekproef of populatie. Deze beschrijvingen zullen we frequentieverdelingen noemen. In de univariate statistiek worden deze verdelingen op verschillende manieren beschreven: Frequentietabellen Grafieken Centrummaten Spreidingsmaten Niet alles is zo maar mogelijk: wat kan, is afhankelijk van het meetniveau. Een belangrijke regel is dat wat op een lager meetniveau kan ook op een hoger meetniveau kan, maar niet omgekeerd. Doel van dit hele verhaal is informatie verkrijgen. Op een grafische voorstelling zal het mogelijk zijn om het globale patroon en eventueel ongewone waarnemingen op te merken. Ook aspecten zoals het rekenkundig gemiddelde en de mediaan kunnen ons helpen bij het begrijpen van gegevens. Frequenties Absolute, relatieve en cumulatieve frequenties, frequentietabel, in klassen gegroepeerde gegevens 1. Frequenties Het aantal keer dat een bepaalde waarde voorkomt, wordt de absolute frequentie van die waarde genoemd. Bijvoorbeeld: je wil de leeftijd weten van de 600 studenten uit de 1 e bachelor pol & soc en je vindt in je onderzoek 420 studenten van 18 jaar, 120 studenten van 19 jaar en 60 studenten van 20 jaar. In absolute frequenties: de absolute frequentie van 18 jaar is 420 (= 18 jaar komt bij 420 studenten voor), de absolute frequentie van 19 jaar is 120 en de absolute frequentie van 20 jaar is 60. > Relatieve frequenties geven weer hoe vaak een waarde voorkomt t.o.v. het totaal aantal waarnemingen. In relatieve frequenties: de relatieve frequentie van 18 jaar is 70% (= 18 jaar komt bij 70% van de 600 studenten voor), de relatieve frequentie van 19 jaar is 20% en die van 20 jaar is 10%. Relatieve frequenties kan je uitdrukken in percentages op 100 (70%, 20% en 10%) of in proporties op 1 (0,7, 0,2 en 0,1). Proporties worden ook wel eens aangeduid als fracties. Om frequenties overzichtelijk weer te geven, worden ze in frequentietabellen geplaatst. Daarbij worden de woorden vervangen door symbolen: absolute frequentie wordt f i en proportie wordt p i. Het totaal aantal waarnemingen wordt n.

5 De i staat voor 'een bepaalde waarde'. In het voorbeeld zijn er drie i's: de waarde '18 jaar', de waarde '19 jaar' en de waarde '20 jaar'. Naast elke waarde (i) staat de absolute en relatieve frequentie van die waarde (f of p).vb: f 18 = 420 en p 18 = 0,7. Leeftijd studenten 1 e bachelor PSW in jaren (fictieve gegevens) Soms kan het interessant zijn om uitspraken te doen in de stijl van zoveel studenten zijn zo oud of jonger. Dat kan aan de hand van de cumulatieve frequentie. De laatste kolommen lees je als volgt: 420 studenten (of 70% van de studenten) zijn 18 jaar, 540 studenten (90%) zijn 19 jaar of jonger en 600 studenten (100%) zijn 20 jaar of jonger. In statistiektaal: de cumulatieve frequentie is het aantal (bijvoorbeeld 450) of het percentage (vb 90%) eenheden met een waarde i (vb 19) of lager. Cumulatieve frequenties en percentages kan je pas berekenen vanaf ordinaal niveau, dus pas vanaf het moment dat je de categorieën logisch kan ordenen van laag naar hoog! De cumulatieve frequentie van de laatste waarde is steeds gelijk aan het totaal aantal waarnemingen. Idem voor het cumulatief percentage bij de laatste waarde. 2. In klassen gegroepeerde gegevens Wanneer je te maken hebt met metrische variabelen (interval en ratio), kan het zijn dat je zodanig veel verschillende waarden hebt dat het opstellen van een frequentietabel niet echt veel bijdraagt aan de overzichtelijkheid. Stel dat je van die 600 studenten 1 e bachelor pol & soc de lichaamslengte wil weten. Veel kans dat je 80 verschillende lengtes vindt. In een frequentietabel zou dat 80 rijen onder elkaar betekenen. De oplossing hiervoor is het groeperen van gegevens in klassen. Je neemt groepen van waarden samen. Lichaamslengte studenten 1 e bachelor pol en soc in centimeter (fictieve gegevens) De grenzen van de klassenindeling kan je kiezen op basis van de beschikbare gegevens en op basis van wat je met je onderzoek wil bereiken. Het gevolg van indelen in klassen is een overzichtelijker weergave, maar ook een verlies aan informatie. Zo kan je bijvoorbeeld niet zien hoe de verdeling van de eenheden is binnen elke klasse. De 80 studenten in de klasse cm, zijn die allemaal 150 cm of liggen ze mooi gespreid over alle waarden tussen 150 en 159?

6 Een mogelijke procedure om gegevens in klassen in te delen: Bepaal de variatiebreedte. Dat is de maximumwaarde min de minimumwaarde (in het voorbeeld: de grootste student de kleinste student). Kies het aantal gewenste klassen (meestal tussen 3 en 20 klassen, op basis van theorie en praktische overwegingen). De breedte van de klassen: deel de variatiebreedte door het aantal klassen. Voor de duidelijkheid best gelijke klassenbreedten en afgeronde klassen (niet bv , , ). Bij de onderste en de bovenste klasse kan je eventueel kiezen om er open klassen van te maken (vb: kleiner dan 159 en groter dan 200). Zo kan je voorkomen dat je een aantal klassen krijgt met maar 1 of enkele eenheden met een extreme waarde. Er is tevens een verschil bij het weergeven van klassengrenzen voor discrete variabelen en continue variabelen. Bij continue variabelen moeten de grenzen exclusief zijn. Er mag geen twijfel over bestaan waar iemand met een lichaamslengte van 180,3 cm bij hoort (in de vierde klasse). Vandaar de symbolen groter dan/gelijk aan en kleiner dan. Tot slot is het belangrijk om te weten dat bij continue variabelen bij het maken van berekeningen (zie verder) gewerkt wordt met de werkelijke klassengrenzen en niet met de weergegeven klassengrenzen. In het voorbeeld zijn de weergegeven grenzen 150. <160, maar de exacte zijn 149,5. <159,5. Deze exacte grenzen komen overeen met het midden tussen de bovengrens van de eerste klasse en de ondergrens van de daarop volgende klasse. LEES MEER: Moore & McCabe: pp Grafische voorstelling van frequentieverdelingen Taart, staaf, stamdiagram, histogram Frequentietabellen vertellen ons veel, maar vaak zal een grafische voorstelling een duidelijker beeld scheppen van de gegevens. We zullen hieronder enkele grafische voorstellingen beschrijven. Het is goed mogelijk dat je uiteindelijk kiest voor een variant van de hieronder beschreven voorbeelden; zolang de voorstelling de gegevens exact weergeeft is dit geen probleem. Je moet bij het opstellen van grafieken je wel aan enkele vormelijke voorschriften houden: categorieën exhaustief en exclusief titel: kort en bondig inhoud aangeven kolomkoppen, met exacte aanduiding inhoud logische ordening totalen best steeds bron vermelden, of aangeven dat het om fictieve data gaat 1. Taartdiagram In een taartdiagram worden de frequenties door cirkelsectoren voorgesteld. De oppervlakte van elke sector is recht evenredig met de relatieve frequentie. Voordeel: Een taartdiagram maakt direct de verdeling duidelijk. Nadeel: Aantal categorieën is beperkt. Zo is het weergeven van bijvoorbeeld twaalf frequenties in een taartdiagram een slechte keuze: de verschillen onderling zullen moeilijker waar te nemen zijn. Opmerking: driedimensionale taartdiagrammen kunnen ten gevolge van het perspectief misleidend zijn.

7 2. Staafdiagram In een staafdiagram wordt de frequentie van elke categorie weergegeven door een staaf. De staafjes staan in de grafiek los van elkaar. De hoogte van ieder staafje is recht evenredig met de absolute of de relatieve frequentie. In het geval van nominale variabelen staan de waarden nevengeschikt op de abscis. In het geval van ordinale variabelen wordt de abscis van een pijl voorzien omdat de waarden ordenbaar zijn. Voordeel: Staafdiagrammen zijn gemakkelijk te interpreteren. Opmerking: Men kan best opletten voor misleiding. Bijvoorbeeld: Een grafiek waarbij men begint met een frequentie van 65% op de Y as in plaats van met de gebruikelijke 0%. Zo lijken sommige categorieën bijzonder klein. Een staaf van 70% ziet er plots als een staafje van 5% uit. 3. Stamdiagram (stam en blad diagram) Een stam en blad diagram brengt op een snelle manier een verdeling in beeld en werkt het best voor een gering aantal waarnemingen met waarden die groter zijn dan 0. De stam van zo'n diagram is een kolom dat bestaat uit alle stamcijfers van de data (die bekom je bijvoorbeeld door het laatste cijfer te laten vallen van de waarde). Achter iedere stam in de kolom worden de 'bladeren' geplaatst, waarbij een blad staat voor het laatste cijfer. Bijvoorbeeld voor de waarde 45 is 4 de stam en 5 het blad dat hoort bij stam 4. Indien er bij de waarden getallen zoals 47 en 48 zitten, voegen we de bladeren 7 en 8 toe aan de rij achter stam 4. In een laatste fase worden de cijfers achter de stam geordend van klein naar groot.

8 Bijvoorbeeld: het aantal optredens dat een populaire rockgroep deed per jaar, en dit van 1990 tot en met 2005: Op basis van deze stamdiagram kunnen we bijvoorbeeld opmaken dat ze in die 15 jaar drie jaren hebben gehad met meer dan 90 optredens. 4. Histogram Een histogram vertoont gelijkenissen met een staafdiagram maar kan enkel bij metrische variabelen. De staafjes plakken nu tegen elkaar. We hebben tevens te maken met in klassen gegroepeerde gegevens. Hier is het oppervlak per staafje recht evenredig met de (relatieve) frequentie. Voordeel: Een verdeling op metrisch niveau is visueel mogelijk. Nadeel: De verdeling is afhankelijk van de klassenindeling. Opmerking: Op de X as vermeld je de exacte klassengrenzen, of de klassenmiddens. Let wel op dat je in dat laatste geval vermeldt dat het over waargenomen klassen gaat. LEES MEER: Moore & McCabe: pp Maten van positie Modus, mediaan, kwartielen, rekenkundig gemiddelde De doelstelling van de beschrijvende statistiek is de verdeling van een variabele zo compact mogelijk weer te geven. Dit kan via frequentietabellen en grafieken, maar ook door de verdeling in een beperkt aantal statistische maten weer te geven. Meer specifiek onderscheiden we drie types maten die elk een ander aspect van een verdeling samenvatten in één cijfer:

9 maten van positie maten van spreiding maten van vorm We beginnen met de maten van positie. Maten van positie geven weer rond welke waarden de verdeling van een variabele gepositioneerd is. Een specifiek type van maten van positie zijn de maten van centraliteit. Die geven weer welke de meest centrale waarde van een verdeling is. Bijvoorbeeld: als je kijkt naar de punten op het examen statistiek van alle studenten uit 1e bachelor pol & soc, kan je stellen dat het gemiddelde 11/20 is. Dit houdt in dat 11 de centrale waarde of centrale positie is waarrond de punten van alle studenten gespreid liggen. Er bestaan drie verschillende maten van centraliteit. Welke maat van centraliteit je kan gebruiken, hangt af van het meetniveau van de variabele. 1. De modus Nominaal meetniveau: de modus ( M o ) > De modus is de waarde met de hoogste frequentie. Bijvoorbeeld: De waarde met de hoogste frequentie is drama'. Dit komt 80 keer voor, terwijl de andere waarden minder voorkomen. LET OP voor één van de meest gemaakte beginnersfouten op examens: de modus is nooit een frequentie, altijd een waarde!! De modus is niet 80, de modus is drama'. Bij in klassen gegroepeerde gegevens wordt gesproken over de modale klasse in plaats van over de modus. De modus en de modale klasse geven op zich niet zoveel informatie. Er wordt enkel iets gezegd over de waarde die meest voorkomt maar daarmee weet je nog niks over de verdeling van de eenheden over de andere waarden. 2. De mediaan Ordinaal meetniveau: de mediaan ( M ) De mediaan is het middelpunt van de verdeling. Het is die waarde waarvan je kan zeggen: er zijn evenveel eenheden met een waarde die lager is dan dat er eenheden zijn met een waarde die hoger is dan de mediaan. Of anders gezegd, de mediaan is de waarde die de verdeling splitst in: 50% van de waarnemingen is lager en 50% van de waarnemingen is hoger dan deze waarde.

10 De mediaan vind je door de waarde te zoeken die hoort bij de waarneming (n+1)/2 nadat de waarnemingen van laag naar hoog werden gesorteerd. Waar bij n staat voor het aantal waarnemingen. Bijvoorbeeld: de score van 5 studenten op het examen: 10, 10, 11, 12 en 13. Je neemt (5+1)/2 = 3. De waarde van de derde waarneming is de mediaan: de waarde 11 (er zijn evenveel waarnemingen kleiner als groter dan 11). Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. Je neemt (6+1)/2 = 3,5. De mediaan ligt tussen de derde en de vierde waarneming: 11,5. 3. Kwartielen Ordinaal meetniveau: de kwartielen ( Q 1, Q 2 en Q 3 ) In analogie met de mediaan, kan je de kwartielen bekijken als een waarde die de verdeling opsplitst in twee groepen. Maar waar de mediaan een 50% 50% verdeling oplevert, geven de kwartielen de volgende verdeling: Q 1 (het eerste kwartiel) is de waarde die de verdeling splitst in: 25% van de waarnemingen is lager en 75% van de waarnemingen is hoger dan deze waarde. Q 3 (het derde kwartiel) is de waarde die de verdeling splitst in: 75% van de waarnemingen is lager en 25% van de waarnemingen is hoger dan deze waarde. Q 2 (het tweede kwartiel) splitst de verdeling in 50% 50% en is dan ook identiek aan de mediaan. Nog een stap verder kom je bij de percentielen uit. Bijvoorbeeld : Percentiel 15 is de waarde die de groep splitst in 15% van de waarnemingen kleiner en 85% van de waarnemingen groter dan deze waarde. En zo is alles mogelijk: Percentiel 32, Percentiel 78, Let ook hier weer op het feit dat de mediaan, de kwartielen en de percentielen steeds waarden zijn, nooit frequenties! 4. Het rekenkundig gemiddelde Metrisch meetniveau: het rekenkundig gemiddelde ( ) Het rekenkundig gemiddelde geeft het centrale punt weer (ook wel het evenwichtspunt of het zwaartepunt genoemd) van de verdeling.

11 Er zijn 4 methodes om het rekenkundig gemiddelde te berekenen. met individuele waarnemingen Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = ( ) / 6 = 11,3 met absolute frequenties Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = (2x10)+(1x11)+(2x12)+(1x13) / 6 = 11,3 met relatieve frequenties Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = (10x33%)+(11x17%)+(12x33%)+(13x17%) / 6 = 11,3 (met percentages) of = (10x0,33)+(11x0,17)+(12x0,33)+(13x0,17) / 6 = 11,3 (met proporties) met gegroepeerde gegevens Identiek aan het werken met de absolute of relatieve frequenties, maar de waarden zijn dan de gemiddelden tussen de ondergrens en de bovengrens van elke klasse (het klassemidden). Een nadeel bij het rekenkundig gemiddelde is dat deze maat gevoelig is aan uitschieters (wat niet het geval is bij de mediaan). Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. Dit geeft een mediaan van 11,5 en een gemiddelde van 11,3. Stel dat de laatste student in plaats van 13 een 20 heeft behaald. De mediaan blijft ongewijzigd, het rekenkundig gemiddelde maakt een sprong naar 12,5. Een kenmerk van het rekenkundig gemiddelde dat later nog belangrijk wordt, is dat de som van de deviatiescores steeds gelijk is aan 0. In andere woorden: als je van alle waarden het gemiddelde aftrekt en je maakt de som van die uitkomsten, dan krijg je steeds 0. Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. = ( ) / 6 = 11,3 (10 11,3)+(10 11,3)+(11 11,3)+(12 11,3)+(12 11,3)+(13 11,3) = 0 LEES MEER: Moore & McCabe: pp Maten van spreiding Interkwartielafstand, variantie, standaardafwijking, boxplot Maten van spreiding geven weer hoe heterogeen de waarnemingen zijn. Hoe kleiner de maat, hoe dichter de verschillende waarnemingen bij elkaar liggen. Hoe groter de maat, hoe groter de verschillen zijn tussen de waarnemingen. Of met andere woorden: hoe meer spreiding.

12 1. De interkwartielafstand Interkwartielafstand (IKA) (metrisch niveau) Met de kwartielen (zie het deel over maten van positie) kan je iets zeggen over een bepaalde waarde waarrond de gegevens zijn gegroepeerd. Zo heb heb je Q 1 (het eerste kwartiel) dat de verdeling splitst in 25% van de waarnemingen lager en 75% van de waarnemingen hoger dan de waarde van Q 1,en Q 3 (het derde kwartiel) dat de verdeling splitst in 75% van de waarnemingen lager en 25% van de waarnemingen hoger dan de waarde ervan. De interkwartielafstand is een spreidingsmaat gebaseerd op Q 1 en Q 3. Deze geeft namelijk de afstand tussen beide kwartielen weer. Bij geringe spreiding, zullen het eerste en het derde kwartiel niet ver uit elkaar liggen. Wanneer je dan Q 1 aftrekt van Q 3 kom je aan een klein getal, wat wijst op een kleine spreiding. Bij een grote mate van spreiding, gebeurt het omgekeerde: Q 1 en Q 3 liggen ver uit elkaar en het verschil van beide geeft een groot getal, wat wijst op een grote spreiding. Let op: dit gaat enkel over de centrale 50% van de waarnemingen (de waarnemingen die liggen tussen het eerste en het derde kwartiel). De IKA zegt je niks over wat er gebeurt met de 25% waarnemingen onder Q 1 en de 25% waarnemingen boven Q 3. Hoe de spreiding daar is en of er sprake is van uitschieters, kan je niet vatten met de IKA. Een positief gevolg hiervan is evenwel dat het een stabiele maat is die niet beïnvloed wordt door eventuele uitschieters. 2. De variantie Variantie ( s²) (metrisch niveau) Waar de interkwartielafstand iets zegt over de verschillen tussen de centrale 50% waarnemingen, kijkt de variantie naar alle waarnemingen. Meer bepaald wordt voor (van) elke waarneming nagegaan (gekeken) hoe ver die van het gemiddelde ligt. Heel letterlijk zou je de variantie kunnen opvatten als een soort (gekwadrateerde) gemiddelde afwijking tot het gemiddelde. Bijvoorbeeld: de leeftijd van 6 kinderen/jongeren uitgedrukt in jaren. Stap 1 (kolom 1): 6 waargenomen waarden. Stap 2 (onderaan kolom 1): bereken het gemiddelde. Stap 3 (kolom 2): het verschil tussen elke waarde en het gemiddelde van de 6 waarden. Stap 4 (kolom 3): aangezien de som van de afwijkingen ten opzichte van het gemiddelde steeds 0

13 is (is altijd zo!), worden de verschillen gekwadrateerd. Stap 5 (onderaan kolom 3): de som van de gekwadrateerde verschillen. Om tot de variantie te komen volgt nog stap 6: het delen van de som van de gekwadrateerde verschillen door n 1: 34,84 / 6 1 = 6,97. Voor de formule en meer informatie hieromtrent verwijzen wij naar het boek van Moore & McCabe. 3. De standaardafwijking Het probleem met de variantie is dat door het kwadrateren de verhoudingen zijn gewijzigd en ook de meeteenheid gekwadrateerd werd (de variantie in het voorbeeld hierboven is 6,97 jaren²). Om beide problemen op te vangen wordt de vierkantswortel van de variantie genomen: 2,64 jaren. Dit getal heet de standaardafwijking s. Dit is de meest gebruikte spreidingsmaat voor metrische variabelen, en komt neer op een soort gemiddelde afwijking van alle waarnemingen tot het gemiddelde. Net zoals bij de variantie geldt dat een kleine standaardafwijking wijst op een geringe spreiding (alle waarnemingen liggen dicht bij elkaar waardoor er kleine verschillen zijn ten opzichte van het gemiddelde) en een grote s² of s wijst op een grote spreiding (grote verschillen tussen de waarnemingen waardoor er ook grote verschillen t.o.v. het gemiddelde voorkomen). Een s² of s van 0 komt voor wanneer alle waarnemingen dezelfde waarde hebben. In het bovenstaande voorbeeld: als alle 6 de eenheden bijvoorbeeld 11 jaar zouden zijn. Een nadeel echter is dat s heel gevoelig is voor de invloed van uitschieters. Door het kwadrateren krijgt het verschil van een uitschieter t.o.v. het gemiddelde een nog grotere impact dan de invloed van uitschieters bij bijvoorbeeld het berekenen van het gemiddelde. 4. De boxplot De boxplot (doosdiagram, box and whisker plot) is een manier om in één tekening 5 getallen die iets zeggen over de verdeling van een variabele grafisch weer te geven. Aan de hand van een boxplot kan je iets zeggen over zowel de positie, de spreiding als de vorm van een verdeling. Zo weet je steeds dat binnen de box de centrale 50% van de waarnemingen zit, aangezien de box begrensd wordt door Q 1 en Q 3. En weet je ook dat binnen de box steeds 25% van de waarnemingen boven en 25% van de waarnemingen onder de mediaan lijn zit. In het voorbeeld kan je dan ook zien dat de 25% waarnemingen onder de mediaan meer van elkaar verschillen dan de 25% waarnemingen boven de mediaan: het onderste deel is veel breder dan het bovenste deel (lees: meer spreiding in het onderste deel). Dit wordt vaak gebruikt bij en is zeer handig bij de vergelijking van groepen eenheden (bijvoorbeeld het verschil tussen mannen en vrouwen in uren televisie kijken, het verschil in autodiefstallen tussen 1995 en 2005, ).LEES MEER: Moore & McCabe: pp

14 Vorm van een verdeling De vorm van een verdeling is een volgende bron aan informatie. We kunnen drie soorten vormen onderscheiden: > Symmetrisch Er is sprake van een spiegelbeeld. In dit geval is het gemiddelde gelijk aan de mediaan. = M > Rechts a symmetrisch In dit geval is er sprake van een lange staart naar rechts, met hogere frequenties aan de linkerkant. Het gemiddelde is groter dan de mediaan. > M > Links a symmetrisch In dit geval is er sprake van een lange staart naar links, met hogere frequenties aan de rechterkant. Het gemiddelde is kleiner dan de mediaan. < M

15 Opmerking! Het kan ook voorkomen dat je te maken hebt met een bi modale verdeling. In de vorige verdelingen was er telkens sprake van 1 modus, maar een bi modale verdeling kan 2 tot meer modi hebben. Dat merk je in het histogram: twee of meerdere waarden zullen een even grote frequentie hebben. LEES MEER: Moore & McCabe: pp Transformaties van variabelen Wanneer er iets verandert in de waarden van een variabele (transformatie), heeft dat een invloed op de maten van centraliteit en de maten van spreiding. Er zijn twee mogelijke scenario's: 1) Als bij elke waarde eenzelfde getal wordt bijgeteld, schuift de verdeling op. Het gevolg is een wijziging in de maten van centraliteit. De maten van spreiding wijzigen niet. Bijvoorbeeld: de score van 6 studenten: 10, 10, 11, 12, 12 en 13. Dit geeft een mediaan van 11,5 en een gemiddelde van 11,3. De standaardafwijking is 1,21. Als je bij elke score 2 optelt (12, 12, 13, 14, 14 en 15), dan kom je aan een mediaan van 13,5 en een gemiddelde van 13,3. Er is dus evenveel (2) bijgekomen als de toename in de scores zelf. De standaardafwijking blijft 1,21. 2) Wanneer elke waarde vermenigvuldigd wordt met eenzelfde getal, schuift de verdeling op én wordt de spreiding groter. Zowel de maten van centraliteit als de maten van spreiding wijzigen. Bijvoorbeeld: het aantal uren televisie kijken per week van 6 mensen: 10, 10, 11, 12, 12 en 13. Dit geeft een mediaan van 11,5 en een gemiddelde van 11,3. De standaardafwijking is 1,21 Als je elke waarde vermenigvuldigt met 2 (20, 20, 22, 24, 24 en 26), kom je aan een mediaan van

16 23 en een gemiddelde van 22,6. De standaardafwijking wordt 2,42. Net zoals de waarden, worden de mediaan, het gemiddelde én de standaardafwijking met 2 vermenigvuldigd. LEES MEER: Moore & McCabe: pp Dichtheidskrommen en theoretische verdelingen Een dichtheidskromme is een specifiek soort grafiek waarmee een verdeling kan worden weergegeven. Dit kan zowel een waargenomen verdeling zijn, als een theoretische verdeling. We starten met een voorbeeld. Stel dat je bij 1700 studenten de lichaamslengte hebt gemeten. Omdat er zoveel verschillende waarden zijn, hebben we ze samengenomen in klassen. Hier zijn de klassenmiddens gepresenteerd. Grafisch kan je deze verdeling voorstellen met een histogram en een dichtheidskromme: Het staafdiagram in dit voorbeeld omvat de werkelijk gevonden gegevens en wordt uitgedrukt in

17 absolute getallen. De dichtheidskromme geeft eerder een theoretische benadering en wordt uitgedrukt in proporties. De oppervlakte onder de volledige kromme kan je dus benoemen als 1. Met andere woorden '100% van alle waarnemingen zit onder de kromme'. Een dichtheidskromme heeft daarenboven ook een modus, een mediaan, kwartielen en een verwachting (wat je zou kunnen gelijk stellen met het gemiddelde) die iets vertellen over de positie van de verdeling. De spreiding van de kromme wordt vertaald in de interkwartielafstand, de variantie en de standaardafwijking. Op basis van deze gegevens kan je een dichtheidskromme benoemen als symmetrisch of asymmetrisch, ééntoppig of meertoppig, scherp of afgeplat. Vaak voorkomende soorten verdelingen (en hiermee overeenstemmende dichtheidskrommes) kunnen samengevat worden door theoretische verdelingen. Dit zijn verdelingen die volledig wiskundig beschreven zijn en waarvan de kenmerken gekend zijn. Ze zijn als het ware sjablonen die een waargenomen verdeling dicht benaderen. Het nut van een theoretische verdeling ligt in het feit dat dit een samenvatting geeft van de belangrijkste kenmerken van een verdeling in een zeer compacte vorm. Een theoretische verdeling heeft ook een aantal eigenschappen die verdere bewerkingen mogelijk maken. De meest gebruikte theoretische verdeling is de normaalverdeling. Die is symmetrisch, ééntoppig en klokvormig (zie volgende webpagina). LEES MEER: Moore & McCabe: pp De normaalverdeling Kenmerken, standaardisering, rekenen met de standaardnormale verdeling 1. Kenmerken De normaalverdeling (ook: standaardnormaalverdeling) is een symmetrische, ééntoppige, klokvormige theoretische verdeling. Vooral het element symmetrisch' is belangrijk om steeds in het achterhoofd te houden bij verdere bewerkingen met de normaalverdeling. Elke normaalverdeling heeft een gemiddelde μ en een standaardafwijking σ (notatie: N(μ, σ)). Los van de specifieke gegevens waarop je de normale verdeling toepast, heeft elke perfect symmetrische verdeling, zoals de normaalverdeling, de eigenschap dat de mediaan gelijk is aan het gemiddelde. Je kan dan ook zeggen dat 50% van de waarnemingen onder het gemiddelde μ en 50% van de waarnemingen boven het gemiddelde μ ligt. Een bijkomende eigenschap van de normaalverdeling is de ,7 regel:

18 Als je vanuit het gemiddelde 1 keer de standaardafwijking σ bijtelt en 1 keer de standaardafwijking σ aftrekt, kom je aan 68% van alle waarnemingen. Anders gezegd: 68% van alle waarnemingen ligt binnen het interval μ ± σ. Hetzelfde geldt voor het interval dat je krijgt als je ongeveer 2 keer (precies 1,96) de standaardafwijking van het gemiddelde aftrekt en bij het gemiddelde bijtelt. Binnen dat interval omvat je 95% van alle waarnemingen. Bij drie keer de standaardafwijking omvat je 99,7% van alle waarnemingen. 2. Standaardisering en de standaardnormaalverdeling In een verdere stap kan je de normaalverdeling omzetten in de standaardnormaalverdeling. Je zet elke waarde binnen een normaalverdeling letterlijk om in het aantal standaardafwijkingen dat deze waarde verwijderd ligt van het gemiddelde. Deze verdeling heeft als eigenschap dat het gemiddelde μ steeds gelijk is aan 0 en de standaardafwijking σ steeds gelijk is aan 1 (notatie: N(0,1) ). Het nut van deze standaardisatie is dat de meeteenheden (score, cm, jaar) wegvallen en dat alle waarden worden uitgedrukt in termen van aantal standaardafwijkingen afwijking t.o.v. het gemiddelde'. Op die manier kan je verdelingen zonder probleem met elkaar vergelijken wat betreft spreiding, positie en vorm, ook al gaat het in oorsprong over verschillende kenmerken. Het standaardiseren van gegevens houdt in dat je deze omzet naar z scores. Van elke waarneming trek je het gemiddelde af en die uitkomst deel je door de standaardafwijking. De bekomen z score lees je als volgt: 'de waarneming wijkt z keer de standaardafwijking af van het gemiddelde'. Nogmaals: of het nu gaat over cm, jaar of scores, met de uitdrukking 'zoveel keer de standaardafwijking afwijkend van het gemiddelde' zeg je iets over de plaats van elke waarde en bij uitbreiding over de spreiding van de verdeling. En kan je anders niet te vergelijken gegevens toch naast elkaar zetten.

19 3. Rekenen met de standaardnormaalverdeling De eigenschappen van de standaardnormaalverdeling laten toe om bewerkingen uit te voeren. De twee mogelijke toepassingen zijn: een proportie zoeken op basis van een waarde Bijvoorbeeld: wat is het percentage studenten die lager scoren dan 12/20 aanpak: waarde > z score > proportie een waarde zoeken op basis van een proportie Bijvoorbeeld: welke minimale score op 20 heeft de 30% beste studenten aanpak: proportie > z score > waarde De stap tussen een waarde en een z score, of omgekeerd, kan je maken aan de hand van de formule. En de stap tussen z score en proportie, of omgekeerd, kan je maken aan de hand van de tabel van de standaardnormaalverdelingen (vaak ook de z tabel genoemd). Deze tabel vind je als tabel A achteraan in het boek van Moore & McCabe. LEES MEER: Moore & McCabe: pp Effecten van non respons Unit en item non respons Opmerking: schakel en voorbereidingsstudenten die het vak 'methodologie' in hun curriculum hebben, zullen in de lessen van dit vak dieper ingaan op de effecten van nonrespons! Tot nu toe zijn we er steeds vanuit gegaan dat we alle informatie hadden van alle variabelen. Het kan echter voorkomen dat er informatie zal ontbreken. 1. Unit non respons Een eerste variant is de unit non respons. Hier ontbreekt alle informatie van een eenheid of eenheden. We bevinden ons in een situatie waarin één of meerdere eenheden uit de getrokken steekproef weigerden mee te werken, onmogelijk te contacteren waren of niet inzetbaar waren. In zo'n geval is er sprake van een dekkingsfout. Hoe groot het percentage unit non respons is hangt af van het steekproefdesign en het steekproefkader. We kunnen de mogelijke vertekening (zij het beperkt) inschatten door de steekproef te vergelijken met de populatie op kenmerken waarover wel informatie op populatieniveau beschikbaar is. Neem bijvoorbeeld de survey 'Cultuurparticipatie in Vlaanderen '. Indien we de relatieve frequenties bekijken van het aantal mannen en vrouwen in leeftijdscategorieën in onze survey en die vergelijken met dezelfde gegevens gekend voor heel Vlaanderen, dan kunnen we merken dat op de meeste categorieën geen grote verschillen te merken zijn. Maar toch stellen we vast dat we 1,2% meer mannen van 14 tot en met 17 jaar hebben (4,1% in onze survey, 2,8% in Vlaanderen) of 1,8% te weinig vrouwen tussen 75 tot en met 85 jaar (2,8% in onze survey, 4,6% in Vlaanderen). Bij het interpreteren van de resultaten op andere variabelen zijn dit de categorieën die je extra in de gaten moet houden. Deze materie zal grondig worden behandeld in het vak Methodologie en is het kader van deze online cursus minder relevant. Zij die dit vak niet moeten volgen maar hierover meer willen lezen kunnen het boek van "Billiet, J. & Waege, H. (eds) (2003). Een samenleving onderzocht. Methoden van sociaal wetenschappelijk onderzoek. Antwerpen: Standaard Uitgeverij" raadplegen.

20 De mogelijke vertekening kan ook (beperkt) ingecalculeerd worden via wegingprocedures. In deze cursus gaan wij hier niet dieper op in; ook dit onderdeel wordt behandeld in de cursus Methodologie. 2. Item non respons In dit geval hebben we te maken met informatie die ontbreekt op bepaalde variabelen: eenheden die bepaalde topics weigeren te beantwoorden, het antwoord niet weten of eenvoudigweg geen mening over de topic hebben. Hoe groot het percentage item non respons is hangt af van het type vraag, de verwoording van de vraag, De eenheden worden bij de analyse van de variabele waarop de informatie ontbreekt niet opgenomen. Er bestaat wel een mogelijkheid om via (complexe) technieken ontbrekende data te imputeren. Ook hier moet je enkel het bestaan afweten van deze technieken. Vaak vind je bij de resultaten ook het aantal missings (de eenheden die niet in de analyse van de variabele werden opgenomen). Opmerking: Zowel bij de unit non respons als de item non respons gaan wij uit van 'missing completely at random'. Dit betekent dat er geen sprake is van systematische fouten in de survey.

21 2. Bivariate beschrijvende statistiek Doelstellingen Bivariate Beschrijvende Statistiek In het vorige onderdeel hebben we ons geconcentreerd op de beschrijving (frequentieverdeling) van één variabele, maar in de sociale wetenschappen zijn we meestal geïnteresseerd in de relatie tussen twee of meer variabelen. Aan de hand van bivariate beschrijvende statistiek onderzoeken we of er al dan niet een samenhang is tussen twee variabelen. > Samenhang: verdeling van ene variabele verschilt naargelang de waarden van een andere variabele. De manier waarop we de samenhang gaan beschrijven hangt af van het meetniveau. De samenhang tussen categorische variabelen zullen beschreven worden aan de hand van een kruistabel, conditionele verdelingen, percentageverschil, oddsratio en associatiematen. De samenhang tussen metrische variabelen zullen beschreven worden aan de hand van een spreidingsdiagram en correlatie en regressieanalyse. Het blijft dus van belang dat je op voorhand weet wat voor types variabelen je met elkaar wilt vergelijken (categorisch met categorisch, categorisch met metrisch, metrisch met metrisch). In dit onderdeel gaan we opnieuw enkel beschrijven. Het nagaan of een geobserveerde relatie met betrekking tot een steekproef veralgemeend kan worden voor de volledige populatie behoort tot het domein van de inductieve statistiek. Vooraleer we de relaties tussen categorische variabelen gaan behandelen, wijzen we op een belangrijk onderscheid in relaties: Enerzijds hebben we symmetrische relaties waarbij er sprake is van een wederzijdse samenhang. Anderzijds hebben we a symmetrische relaties waarbij er sprake is van een effect relatie. De ene variabele heeft een invloed op de andere of deze relatie kan ook een oorzaakgevolg relatie zijn. We wijzen erop dat X de onafhankelijke variabele is, en Y de afhankelijke variabele. Bijvoorbeeld: Het gebruiken van de verkiezingsuitslag voor het voorspellen van de volgende uitslag X = verkiezingsuitslag van de vorige gemeenteraadsverkiezingen Y = de uitkomst van de komende gemeenteraadsverkiezingen LEES MEER: Moore & McCabe: pp

22 Relaties tussen categorische variabelen Kruistabel, percentageverschil, oddsratio 1. Kruistabel Gegevens over de samenhang tussen twee variabelen worden niet langer in twee afzonderlijke frequentietabellen gepresenteerd, maar kan je samenvoegen tot een gezamenlijke frequentieverdeling: de kruistabel. Bijvoorbeeld: geslacht en inkomen In de kolommen staat de variabele geslacht' die bestaat uit twee categorieën: man en vrouw. In de rijen staat de variabele inkomen die ook bestaat uit twee categorieën: laag inkomen en hoog inkomen. Je kan uiteraard ook kruistabellen hebben met meer rijen en kolommen. Zo zou je hier het inkomen kunnen opsplitsen in zeer laag, laag, midden, hoog en zeer hoog. Het gevolg is een kruistabel met 5 rijen en 2 kolommen. 'Rijen' wordt afgekort als r, 'kolommen' als k. Het bovenstaande voorbeeld is een 2*2 tabel, bij meerdere rijen of kolommen wordt gesproken van een r*k tabel. In een kruistabel staan verschillende gegevens: celfrequenties Bij de 2*2 tabel voor geslacht en inkomen heb je 4 cellen. Elke cel geeft je informatie over de twee variabelen. Zo toont de cel met 3049' aan dat er 3049 mannen zijn met een laag inkomen. Op dezelfde manier kan je zien dat er 118 vrouwen zijn met een laag inkomen, 3688 mannen met een hoog inkomen en 606 vrouwen met een hoog inkomen. marginale verdelingen Deze vind je terug in de laatste kolom en in de onderste rij. Deze cijfers geven de univariate verdeling aan van de twee afzonderlijke variabelen. In de onderste rij zie je dat er 6737 mannen zijn en 724 vrouwen. En deze verdeling zegt je niks over hoe die mannen en vrouwen verdeeld zijn wat betreft het inkomen. Idem voor de laatste kolom: je kan daar lezen dat er 3167 mensen zijn met een laag inkomen en 4294 met een hoog inkomen, maar dit zegt je niks over mannen en vrouwen. conditionele verdelingen Hierbij kijk je hoe één van beide variabelen verdeeld is binnen 1 enkele categorie van de andere variabele. We noemen dit een conditionele verdeling. Als je kiest voor conditie 'man', zie je dat de 6737 mannen verdeeld zijn over 3049 mannen met een laag inkomen en 3688 mannen met een hoog inkomen. Bij de conditie vrouw' wordt de conditionele verdeling 118 vrouwen met een laag inkomen en 606 vrouwen met een hoog inkomen. Je kan dit ook in de andere richting bekijken. Als je kiest voor de conditie 'laag inkomen', dan is de conditionele verdeling van de 3167 mensen met een laag inkomen verdeeld over 3049 mannen met een laag inkomen en 118 vrouwen met een laag inkomen. 2. Relaties tussen categorische variabelen, uitgedrukt in een cijfer Conditionele verdelingen op basis van absolute frequenties zeggen niet veel over de relatie tussen twee variabelen. Absolute frequenties zijn daarvoor te veel afhankelijk van het totaal aantal

23 eenheden en van de univariate verdelingen van de afzonderlijke variabelen. Om relaties te bestuderen tussen twee categorische variabelen gebruiken we daarom relatieve conditionele verdelingen, die ons informatie geven over de percentageverschillen. Naast percentageverschillen kunnen ook oddsratio's en andere associatiematen gebruikt worden. Welke maat je best neemt, hangt af van het aantal categorieën van beide variabelen (2*2 of r*k), van de relatie tussen de variabelen (symmetrisch of asymmetrisch) en van het meetniveau (waarbij het laagste meetniveau van beide variabelen beslissend is). Op deze pagina behandelen we enkel het percentageverschil en de oddsratio. Voor de informatie over andere associatiematen, verwijzen wij je naar het boek van Moore & McCabe Percentageverschil Het percentageverschil geeft het verschil in percentagepunten aan tussen 2 conditionele verdelingen. Bijvoorbeeld: geslacht en inkomen Bij de mannen hebben 3049 van de 6737 mannen een laag inkomen, wat overeenkomt met 45,26%. Bij de vrouwen hebben 118 van de 724 vrouwen een laag inkomen: 16,3%. Het verschil tussen beide: 45,26% 16,3% geeft 28,95 percentagepunten. Deze 28,95 percentagepunten geeft aan wat het verschil is tussen mannen en vrouwen in het hebben van een laag inkomen. Hoe kleiner het percentageverschil, hoe minder verschil er is tussen mannen en vrouwen. Met andere woorden, hoe minder invloed er is van geslacht op inkomen. Een percentageverschil van 0 percentagepunten duidt dan ook op het ontbreken van een samenhang tussen beide variabelen. Percentages kunnen zowel in de rijen ( rij percentages ) als in de kolommen ( kolom percentages ) berekend worden. In het eerste geval worden de rij marginalen op 100% gezet. In het tweede geval worden alle kolom marginalen op 100% gezet. Bij a symmetrische relaties dienen de percentages berekend te worden binnen de categorieën van de onafhankelijke variabele. Anders worden foutieve conclusies getrokken (omdat het percentageverschil dan bepaald wordt door de univariate verdeling van de onafhankelijke variabele). Indien de onafhankelijke variabele bijvoorbeeld in de kolommen staat (zoals in het voorbeeld hierboven) worden kolompercentages berekend. Het percentageverschil wordt dan berekend door de kolompercentages te vergelijken binnen elke rij Oddsratio Een andere manier om een univariate frequentieverdeling weer te geven dan percentages, zijn odds. Bij een percentage zet je het aantal eenheden met een bepaald kenmerk af tegenover het totaal aantal eenheden. Zo zie je in het onderstaande voorbeeld dat er 3167 mensen met een laag inkomen zijn tegenover 7461 mensen in totaal. De interpretatie: 42,44% van alle mensen hebben een hoog inkomen. Bijvoorbeeld: geslacht en inkomen

24 Bij de odds zet je het aantal eenheden met een bepaald kenmerk af tegenover het aantal eenheden in een andere categorie van dezelfde variabele. Zo zien we in het voorbeeld dat er 4294 mensen zijn met een hoog inkomen tegenover 3167 mensen met een laag inkomen. De verhouding (ratio) tussen die twee bedraagt: 4294/3267 = 1,36. Interpretatie: er zijn 1,36 keer meer mensen met een hoog dan met een laag inkomen. De odds die we hier berekenden zijn marginale odds (berekend in de marginalen, dus gebaseerd op de univariate verdeling van een variabele). Daarnaast kunnen ook conditionele odds berekend worden. Die geven de odds binnen een categorie van de andere variabele. Door conditionele odds met elkaar te vergelijken krijgen we informatie over de samenhang tussen de twee variabelen. Bij mannen wordt dat 3049 mannen met een laag inkomen tegenover de 3688 mannen met een hoog inkomen. Het resultaat van 3049 / 3688 geeft 0,83. De interpretatie: mannen hebben 0,83 keer meer kans om een laag inkomen te hebben dan om een hoog inkomen te hebben. Je kan het ook omkeren: 6388/3049 = 1,21. Wat betekent: mannen hebben 1,21 keer meer kans om een hoog inkomen te hebben dan om een laag inkomen te hebben. Dit is de conditionele odds voor mannen op het hebben van een hoog vs. laag inkomen. Je kan de odds ook berekenen voor vrouwen (kans dat een vrouw een laag inkomen heeft ten opzichte van een hoog inkomen of omgekeerd), voor laag inkomen (kans dat iemand met een laag inkomen een vrouw is ten opzichte van dat die een man is of omgekeerd) en voor hoog inkomen. Met de conditionele odds zeg je enkel iets over 1 conditionele verdeling. Een stap verder is de oddsratio, waarmee je iets zegt over verschillende conditionele verdelingen en daardoor over de samenhang tussen beide variabelen. De naam zegt het al, het is de ratio (breuk) van twee odds. vb: (zie tabel hierboven) 1) de kans dat een man een laag inkomen heeft tov een hoog inkomen is 3049/ ) de kans dat een vrouw een laag inkomen heeft tov een hoog inkomen is 118/606. 3) de ratio tussen beide: (3049/3688) / (118/606) = 4,25. 4) interpretatie: mannen hebben 4,25 keer meer kans dan vrouwen om een laag inkomen te hebben tov een hoog inkomen. Een oddsratio van 1 wijst erop dat er geen samenhang is tussen beide variabelen. Hoe meer de oddsratio van 1 afwijkt (naar 0 of naar +oneindig toe), hoe groter de samenhang. Een groot probleem echter is het ontbreken van een eindpunt. Wanneer kan je spreken van een grote odds? Is dat bij 2, bij 4,25, bij 60? Dat hangt per geval af van de verhoudingen en de schaal. Ook de aanwezigheid van 0 cellen vormt een probleem bij de berekening en de interpretatie van de oddsratio. LEES MEER: Moore & McCabe: pp

Nog meer weergeven