Statistische Intelligentie

Statistische Intelligentie De samenhang ontdekken Exploratie van bivariaat cijfermateriaal Deel 2. Kruistabellen a. Herman Callaert

Dankwoord Een bijzonder woord van dank gaat naar de leden van de stuurgroep Marc Aerts, Sofie Bogaerts, Liesbeth Bruckers, Saskia Litière en Veerle Vandersmissen. Hun opmerkingen, suggesties en kritische kanttekeningen hebben een positieve bijdrage geleverd bij het ontwerpen van deze tekst. 2004, L. U. C. Diepenbeek (België), Statistische Intelligentie Depotnummer: D/2004/2451/32 Niets in deze uitgave mag worden verveelvoudigd en/of openbaar gemaakt door middel van druk, fotokopie, microfilm of op welke andere wijze ook zonder voorafgaande schriftelijke toestemming van de uitgever. Het is toegestaan aan leerkrachten om deze tekst te reproduceren voor gebruik in de klas. Hierbij dient steeds het project Statistische Intelligentie en de naam van de auteur te worden vermeld.

Inhoud 1. Samenhang en soorten veranderlijken... 1 1.1. Bivariate categorische gegevens: de 2x2 kruistabel... 2 1.2. Bivariate categorische gegevens: de rxc kruistabel... 3 2. De 2x2 kruistabel... 4 2.1. Bivariate informatie... 4 2.2. Marginale informatie... 5 2.3. Conditionele informatie... 6 2.3.1. Verschil in proporties... 7 2.3.2. Relatief risico... 8 3. De 2xc en rx2 kruistabel... 9 3.1. Een psychologische test... 9 3.2. Monotoniciteit... 11 3.3. Technische nota: stochastische ordening... 13 4. De rxc kruistabel... 14 4.1. Op zoek naar samenhang... 14 4.2. De tabelstructuur bij onafhankelijkheid... 16 5. De paradox van Simpson... 19 5.1. Domme meisjes... 19 5.2. Een gekleurde rechtspraak... 21 5.3. De andere kant van het gelijk... 22

1. Samenhang en soorten veranderlijken. De eigenschappen van veranderlijken kan je op verschillende manieren onderzoeken. Je kan figuren tekenen, of je kan kengetallen berekenen, en meestal is het verstandig om beide te doen. Wat je juist moet doen, hangt af van de context en van de vraag die je wilt beantwoorden. Maar het hangt zeker ook af van het soort opmetingen waarover je beschikt. Om over de verschillende soorten veranderlijken iets te leren, kan je de tekst Gegevens en hun context eens bekijken. Begrippen en voorbeelden uit die tekst zal je ook hier tegenkomen. Soms ben je geïnteresseerd in één welbepaalde veranderlijke. Dat kan bijvoorbeeld het huidige geboortegewicht van meisjes in Vlaanderen zijn. Je zal daarvoor ofwel zelf gegevens moeten verzamelen, ofwel beschik je reeds over een goede dataset die door anderen is opgesteld. In een dergelijke dataset ga je op zoek naar de veranderlijke geboortegewicht, en je zal hiervoor een boxplot of een histogram tekenen, het gemiddelde en de standaardafwijking berekenen, enzovoort. Maar als je in de databank van de Californische gezinnen wilt weten hoe het zit met de bloedgroep van die kinderen, dan zal je zeker geen histogram tekenen, maar bijvoorbeeld met een aangepast staafdiagram werken. En een gemiddelde of een standaardafwijking heeft hier ook geen zin, maar proporties kunnen je wel een beeld geven. In andere gevallen wil je weten of er een samenhang bestaat tussen twee veranderlijken. Je zal die twee veranderlijken dan tegelijkertijd bestuderen. Zou er een samenhang zijn tussen de lengte en het gewicht van pasgeborenen? Is er een samenhang tussen het type van reiskaartje op de Titanic en het overleven van die ramp? En komen de bloedgroepen in dezelfde verhouding voor bij jongens als bij meisjes? Om op de bovenstaande vragen een antwoord te kunnen geven heb je voor elk element uit je databank de waarden nodig van de twee veranderlijken. Men zegt dan ook dat je bivariate gegevens bestudeert (waarbij bi verwijst naar twee en variaat naar het Engelse variate wat veranderlijke die aan het toeval onderhevig is betekent). Dergelijke gegevens kunnen in verschillende combinaties voorkomen wat hun soort betreft. Zij kunnen bijvoorbeeld allebei nominaal categorisch zijn, maar het is ook mogelijk dat zij beide continu zijn. En natuurlijk is er ook een mengeling mogelijk, waarbij de ene veranderlijke categorisch is en de andere continu. Voor elk van deze situaties is er een eigen manier om de gegevens grafisch voor te stellen, en zijn er eigen methoden voor de verdere statistische analyse. In deze module ga je je concentreren op de situatie waarbij beide veranderlijken categorisch zijn. Hierbij heb je dan weer verschillende mogelijkheden, naargelang je te maken hebt met nominale of met ordinale gegevens, met een speciale plaats voor de dichotomie. De statistische analyse van categorische gegevens is een zeer uitgebreid studiedomein op zichzelf. In deze tekst kom je in contact met enkele eenvoudige maar fundamentele begrippen uit dit domein. Centrum voor Statistiek 1

1.1. Bivariate categorische gegevens: de 2x2 kruistabel. De manager van een kruideniersbedrijf merkt dat meerdere van zijn werknemers huiduitslag krijgen. Het zijn blijkbaar vooral werknemers die in contact komen met selder. Om dit verder te onderzoeken worden gedurende enige tijd alle 126 werknemers van het bedrijf opgevolgd, en men noteert of zij gedurende die tijd huiduitslag krijgen en of zij in contact komen met selder. De elementen in deze studie zijn de werknemers, en de veranderlijken zijn huiduitslag en contact met selder. Deze veranderlijken zijn beide dichotoom en worden gecodeerd door Ja of Neen. De bijhorende gegevensverzameling ziet er als volgt uit (ID is een volgnummer om de werknemer te identificeren). ID Huiduitslag Contact met selder 1 Neen Ja 2 Ja Neen 3 Ja Ja 4 Neen Neen... Deze gegevensverzameling kan je samenvatten in een kruistabel (of contingentietabel). Hierbij zet je de categorieën van de ene veranderlijke in de rijen, en de categorieën van de andere veranderlijke in de kolommen. Aangezien elke veranderlijke hier dichotoom is (en dus slechts twee categorieën heeft) krijg je een tabel met twee rijen en twee kolommen, ook 2x2 (twee bij twee) tabel genaamd. Contact met selder Huiduitslag Ja Neen Ja 25 31 Neen 5 65 Tabel 1. Welke getallen staan in deze tabel? Wat betekent bijvoorbeeld het getal 31? En waar is de werknemer met ID = 2 terechtgekomen? Centrum voor Statistiek 2

1.2. Bivariate categorische gegevens: de rxc kruistabel. Wanneer je een huistaak maakt, of studeert voor een toets, dan heb je misschien graag dat het rondom jou volledig stil is. Andere leerlingen vinden het echter fijn dat zij dan juist kunnen luisteren naar hun favoriete muziek op CD. Nog anderen zetten de radio aan, waar muziek afgewisseld wordt met interviews en spelletjes. Op school krijg je allerlei vakken, zoals wiskunde, biologie, Nederlands, Frans, geschiedenis, enz. Sommige leerlingen vinden al die vakken eigenlijk wel fijn (of hebben in ieder geval geen uitgesproken voorkeur voor één of ander vak). Andere leerlingen hebben wel een uitgesproken voorkeur, en verkiezen alles wat met wiskunde en wetenschappen te maken heeft. Maar er zijn natuurlijk ook leerlingen waarbij de voorkeur helemaal in de andere richting gaat. Een navraag bij 72 leerlingen uit de derde graad van het secundair onderwijs leverde volgende gegevensverzameling op. ID Geluid Voorkeur 1 Stilte Geen wetensch. 2 CD Om het even 3 Radio Wetensch. 4 CD Geen wetensch.... Bemerk dat ID het identificatienummer van de leerling is, en dat Geluid en Voorkeur twee categorische veranderlijken zijn, die in dit voorbeeld elk drie categorieën hebben. Je kan al de opmetingen nu samenvatten in een tabel met drie rijen (voor de drie categorieën van Geluid ), en drie kolommen (voor de drie categorieën van Voorkeur ). Zo krijg je een 3x3 kruistabel. Wanneer, in het algemeen, je eerste categorische veranderlijke r categorieën heeft, en je tweede categorische veranderlijke heeft er c, dan bekom je een rxc kruistabel, met r rijen en c kolommen. Voorkeur Wetensch. Om het even Geen wetensch. Radio 8 6 10 Geluid CD 12 9 15 Stilte 4 3 5 Tabel 2. In welke cel van de kruistabel is de leerling met ID = 2 terechtgekomen? Hoeveel leerlingen met diezelfde voorkeuren waren er in die groep van 72? Bemerk dat de getallen in een kruistabel niet bekomen zijn als opmeting van één of andere grootheid. Het zijn aantallen die je gevonden hebt door te tellen hoeveel elementen van je dataset voldoen aan een bepaalde combinatie van eigenschappen. In feite is dit dus een tweedimensionale frequentietabel. Centrum voor Statistiek 3

2. De 2x2 kruistabel. Categorische gegevens kan je coderen, en je kan hiervoor zelfs getallen gebruiken. Meestal zijn deze getallen alleen een naamgeving en zijn wiskundige bewerkingen met deze getallen (zeker wanneer je te maken hebt met nominale veranderlijken) totaal zinloos. Er is echter een uitzondering. Dichotome veranderlijken hebben slechts twee categorieën, waarbij gekeken wordt of een element al dan niet een bepaalde eigenschap bezit. Bij een enquête worden soms antwoorden verwacht in de vorm van ja of neen, voor of tegen, enz. Als je nu dergelijke veranderlijken codeert met 0 = heeft die eigenschap niet en 1 = heeft die eigenschap wel, dan kan je nadien wel een wiskundige bewerking maken die zinvol is. Je kan al die codes gewoon samentellen. De nullen hebben geen bijdrage tot de som, en je krijgt als resultaat het aantal elementen in je dataset dat die eigenschap wel bezit, of dat ja heeft geantwoord. Wanneer je die som nu ook nog deelt door het totaal aantal elementen, dan krijg je de proportie. Op een analoge manier kan je een kruistabel bekijken. Elke cel van dergelijke tabel is een kruispunt van een welbepaalde rij met een welbepaalde kolom. Het getal in die cel geeft aan hoeveel elementen er gelijktijdig die twee specifieke eigenschappen bezitten. Je zou die elementen tijdelijk kunnen coderen met een 1 en alle andere met een 0 en de proportie voor die cel berekenen. Maar er is heel wat meer te beleven in twee dimensies. 2.1. Bivariate informatie. De oorspronkelijke aantallen die in een kruistabel staan opgetekend kunnen eenvoudig omgezet worden tot proporties door te delen door het totaal aantal elementen van de dataset. Bij het kruideniersbedrijf waren er in totaal 126 werknemers. De oorspronkelijke tabel 1 Contact met selder Huiduitslag Ja Neen Ja 25 31 Neen 5 65 Tabel 1. kan dus herschreven worden als Contact met selder Ja 25 126 Huiduitslag Ja Neen 100 % = 19.84 % 24.60 % Neen 3.97 % 51.59 % Tabel 3. Bemerk dat de som van alle proporties gelijk is aan 100 %, wat je natuurlijk ook verwacht had. Centrum voor Statistiek 4

Marginale informatie. Uit gezamenlijke informatie kan je ook afzonderlijke informatie halen. Je kan bijvoorbeeld gewoon willen weten hoeveel werknemers er huiduitslag hebben gekregen, zonder er verder rekening mee te houden of zij al dan niet in contact kwamen met selder. Of misschien wil je alleen maar weten hoeveel er in contact kwamen met selder. Al deze afzonderlijke informatie kan je rechtstreeks uit de oorspronkelijke tabel halen door rijen en kolommen op te tellen en de resultaten in de rand (in de marge ) te plaatsen. Contact met selder Huiduitslag Ja Neen Totaal Ja 25 31 Neen 5 65 56 70 Totaal 30 96 126 Tabel 4. Je kan deze marginale informatie ook afzonderlijk voorstellen, in de oorspronkelijke getallen of in proporties, en er eventueel een staafdiagram bij tekenen. Huiduitslag Contact met selder Ja Neen Totaal Ja Neen Totaal 30 96 126 56 70 126 23.81 % 76.19 % 100 % 44.44 % 55.56 % 100 % Tabel 5. Tabel 6. Centrum voor Statistiek 5

Conditionele informatie. Of er een samenhang is tussen huiduitslag en contact met selder leer je niet uit de marginale informatie, waar de twee veranderlijken elk afzonderlijk worden bestudeerd. Maar uit de kruistabel kan je informatie halen die je wel helpt in je zoektocht naar een mogelijk verband. Als je de 2x2 tabel bekijkt, dan zie je dat er arbeiders zijn die wel in contact zijn gekomen met selder en die toch geen huiduitslag hebben gekregen. En omgekeerd waren er ook 5 arbeiders die helemaal geen contact hadden met selder terwijl zij toch huiduitslag kregen. Maar wat er met wie gebeurde is toch nogal verschillend. Om daar een beter zicht op te krijgen kan je eens conditioneel (of voorwaardelijk) gaan kijken. Dat betekent dat je vooraf een conditie of voorwaarde oplegt, en dan enkel die deelgroep bestudeert die aan jouw conditie voldoet. Zo kan je bijvoorbeeld de conditie opleggen dat de arbeider wel in contact kwam met selder. Bij een kruistabel kan je als conditie opleggen dat de elementen moeten behoren tot een welbepaalde categorie van de veranderlijke die de rijen bepaalt (in ons voorbeeld is dat contact met selder ). Je conditioneert dan op één welbepaalde rij (bijvoorbeeld wel in contact komen met selder ). Je kan dan op die rij de conditionele proporties uitrekenen, en de som van die conditionele proporties moet gelijk zijn aan 100 %. Dat kan je doen voor elke rij, en misschien kan je zo een patroon ontdekken. Je kan natuurlijk op analoge manier te werk gaan voor de kolommen. Uit tabel 5 haal je dat er in totaal 30 van de 126 arbeiders (23.81 %) huiduitslag kregen. Als dit nu helemaal niets te maken zou hebben met hun contact met selder, dan zou je verwachten dat, bij de groep van 56 arbeiders die met selder in contact kwamen, er ook 23.81 % huiduitslag zouden krijgen. Dit komt overeen met ongeveer 13 van die 56 arbeiders. Op dezelfde manier verwacht je dat er 23.81 % huiduitslag krijgen bij de 70 arbeiders die niet met selder werkten. Dit komt overeen met ongeveer 17 van die 70 arbeiders. Als huiduitslag onafhankelijk is van contact met selder, dan ziet de ideale tabel er als volgt uit. Contact met selder Huiduitslag Ja Neen Totaal Ja 23.81% 13 76.19 % 43 100 % = 56 Neen 23.81% 17 76.19 % 53 100 % = 70 Tabel 7. Centrum voor Statistiek 6

2.1.1. Verschil in proporties. Wat gebeurde er in werkelijkheid bij de groep die in contact kwam met selder? In totaal waren dat 56 arbeiders, en daarvan kregen er 25 huiduitslag. Dat is 44.64 percent. En wat gebeurde er met de groep die niet in contact kwam met selder? Van de 70 arbeiders kregen er daar slechts 5 huiduitslag. Dat is 7.14 percent. Volgens tabel 7 had je voor beide situaties 23.81 percent verwacht. Dat is natuurlijk een ideaalbeeld en in plaats van twee identieke percentages te vinden zal er in de praktijk altijd wel wat variabiliteit op zitten. Maar een verschil van 44.64% 7.14% = 37.5% is toch wel enorm groot. Dat wijst duidelijk in de richting van een verband tussen huiduitslag en contact met selder. Het verschil in proporties kan je op die manier gebruiken als een maat voor de sterkte van de samenhang. Contact met selder Ja Neen Huiduitslag Ja Neen Totaal 25 31 56 44.64 % 55.36 % 100 % 5 65 70 7.14 % 92.86 % 100 % Tabel 8. Deze conditionele informatie kan je ook voorstellen met een staafdiagram. Het verschil in proporties is echter niet altijd de beste maatstaf om de samenhang te beschrijven, zoals volgend voorbeeld aangeeft. In een experimentele fase worden geneesmiddelen uitgetest op proefdieren, onder meer om de schadelijke neveneffecten te onderzoeken. Als de proportie proefdieren die neveneffecten vertoont 0.49 is voor het ene geneesmiddel en 0.48 voor het andere, dan lijkt dat goed in elkaars buurt te liggen. Maar wanneer deze geneesmiddelen uiteindelijk op de markt gebracht worden, en de neveneffecten bij mensen treden op met een proportie van 0.011 in het ene geval en 0.001 in het andere, dan lijkt dit wel belangrijk. Als je echter het verschil in proporties uitrekent, dan is dat hetzelfde, zowel bij de proefdieren als bij de mensen. Het kan dus goed zijn om ook andere maatstaven te hanteren om de sterkte van de samenhang te bestuderen. Centrum voor Statistiek 7

Relatief risico. Een andere maat voor de samenhang in een 2x2 tabel is het relatief risico. Hierbij vergelijk je het risico dat je loopt als je wel met selder in contact komt, met het risico dat je loopt als je er niet mee in contact komt. Bij een concrete dataset betekent dit dat je de verhouding uitrekent van twee conditionele proporties. relatief risico = proportie aandoeningen in blootgestelde groep proportie aandoeningen in niet blootgestelde groep Bij de werknemers van het kruideniersbedrijf is het relatief risico voor huiduitslag ten gevolge van 44.64% blootstelling aan selder gelijk aan = 6. 25. Dit betekent dat werknemers die in contact 7.14% kwamen met selder 6.25 keer meer kans hadden om huiduitslag te krijgen dan zij die niet met selder in contact kwamen. Bemerk dat je uit deze studie nog helemaal geen definitieve conclusies mag trekken over oorzaak en gevolg. Kwamen arbeiders die met selder werkten ook systematisch in contact met andere groenten of fruit? Is het wel een allergie voor selder, of is de huiduitslag afkomstig van een of ander product waarmee die selder is behandeld? En kent men in andere kruideniersbedrijven analoge problemen, of is het enkel in dit ene bedrijf? Er blijven dus nog heel wat vragen op te lossen. Als je naar de definitie kijkt dan zie je dat het relatief risico een getal is dat berekend wordt als een verhouding van twee proporties. De uitkomst kan dus gelijk welk positief getal zijn. Als het relatief risico groter is dan één, dan is het risico groter in de blootgestelde groep dan in de andere. Bij een relatief risico kleiner dan één is het juist andersom. En een relatief risico gelijk aan één wijst erop dat er geen samenhang is tussen de twee categorische veranderlijken. Bij steekproefresultaten moet je natuurlijk altijd rekening houden met variabiliteit, context, manier van opmeten, enz. Een relatief risico kan je goede aanwijzingen geven over de sterkte van de samenhang, maar definitieve conclusies kan je pas trekken met methoden van de verklarende statistiek. In het voorbeeld over de schadelijke neveneffecten van geneesmiddelen zie je dat het relatief risico gelijk is aan 1.02 bij proefdieren en 11 bij mensen. Hieronder zie je een extreem voorbeeld om te illustreren dat bij totale afwezigheid van 9.52% samenhang, het relatief risico gelijk is aan één, want = 1. 9.52% Huiduitslag Ja Neen Totaal 2 19 21 Ja 9.52 % 90.48 % 100 % Contact met selder 6 57 63 Neen 9.52 % 90.48 % 100 % Tabel 9. De conditionele proporties in de eerste rij (wel contact met selder) zijn identiek aan de conditionele proporties in de tweede rij (geen contact met selder). Al dan niet contact hebben met selder maakt in dit voorbeeld blijkbaar niets uit voor het krijgen van huiduitslag. Centrum voor Statistiek 8

3. De 2xc en rx2 kruistabel. Bij een 2x2 tabel kan je samenhang bestuderen, en je kan de sterkte van die samenhang (of het gebrek eraan) uitdrukken in een getal. Hiervoor gebruik je (onder meer) het verschil in proporties of het relatief risico. Naarmate kruistabellen uitgebreider worden is het moeilijker om een samenhang tussen de twee categorische veranderlijken te beschrijven en om die in een getal uit te drukken. Bij 2xc (of rx2) tabellen ken je (in één richting) de twee conditionele proporties zodra je er één kent (waarom?). Hiermee kan je dan over de categorieën van de andere veranderlijke lopen, en ontdekken of er gemis aan samenhang is. Een indicator hiervoor is het (zo goed als) constant zijn van die conditionele proportie. 3.1. Een psychologische test. Een school bestaat 50 jaar en wil dat vieren. Hierbij moeten zeker ook de oud-leerlingen betrokken worden, en om hun idee te kennen worden 570 oud-leerlingen aangeschreven. Men vraagt hen om uit een lijstje van 10 voorstellen hun top drie aan te kruisen, en om dan het formulier terug naar school te sturen. Om de kans op antwoord zo groot mogelijk te maken is er zelfs een geadresseerde en gefrankeerde omslag ingesloten. Formulier en bijhorende omslag zijn in dezelfde kleur, maar in totaal is er gebruik gemaakt van 4 verschillende kleuren. Sommige oud-leerlingen kregen een wit formulier met witte omslag, anderen kregen een geel formulier met gele omslag, bij nog anderen was alles blauw, en de laatste groep had rood. Wie welke kleur kreeg toegestuurd was louter toevallig. In feite werd deze enquête aangegrepen om tevens een psychologische test te doen. Er was al enige tijd het vermoeden dat het al dan niet antwoorden op een vraag per brief afhankelijk is van de kleur van het gebruikte formulier. Vooral postorderbedrijven en firma s die per brief adverteren zijn in dergelijk onderzoek geïnteresseerd. Bij de psychologische test gaat het niet over de vraag welke activiteit de oud-leerlingen verkiezen op de lustrumviering van hun school. Het gaat gewoon over de vraag of er een samenhang is tussen al dan niet antwoorden en kleur van het formulier. Beide veranderlijken zijn categorisch, de eerste is dichotoom en de andere is nominaal. Een samenvatting van de resultaten zie je in de volgende 2x4 tabel. Antwoorden Kleur Wit Geel Blauw Rood Ja 70 65 66 59 Neen 77 76 79 78 Tabel 10. Centrum voor Statistiek 9

Conditioneel op de kleur kan je de proportie uitrekenen van de oud-leerlingen die wel een antwoord hebben teruggestuurd. Je begint dan met de tabel te vervolledigen met de kolomtotalen. Antwoorden Kleur Wit Geel Blauw Rood Ja 70 65 66 59 Neen 77 76 79 78 Totaal 147 141 145 137 Tabel 11. Je kan nu voorwaardelijk redeneren. Gegeven dat je te maken hebt met de witte kleur, dan zie je dat er 70 van de 147 oud-leerlingen het formulier hebben teruggestuurd. Dat is 47.6 %. Op analoge manier kan je de hele tabel opvullen met kolompercentages. Antwoorden Kleur Wit Geel Blauw Rood Ja 70 47.6 % 65 46.1 % 66 45.5 % 59 43.1 % Neen 77 52.4 % 76 53.9 % 79 54.5 % 78 56.9 % Totaal 147 100 % 141 100 % 145 100 % 137 100 % Tabel 12. Als je conditioneel per kolom kijkt, dan bemerk je dat alles vastligt zodra je weet hoeveel percent er wel geantwoord heeft. En nu kan je je afvragen of het percentage van de oud-leerlingen die geantwoord hebben los staat van de kleur van hun formulier, en dus overal hetzelfde is. Hoewel je hier geen exacte wiskundige gelijkheid hebt, zie je toch dat de voorwaardelijke percentages niet drastisch van elkaar afwijken. Zij schommelen wat rond het totale percentage van de antwoorden, dat gelijk is aan 45.6 %, aangezien er in totaal 260 van de 570 oud-leerlingen een antwoord hebben teruggestuurd. Als je vooraf van mening was dat er tussen antwoorden en kleur geen samenhang bestaat, dan heb je op basis van bovenstaande psychologische test geen argument om die mening te verwerpen. Centrum voor Statistiek 10

3.2. Monotoniciteit. Wanneer je vermoedt dat er wel een samenhang aanwezig is, dan kan je die soms iets nauwkeuriger definiëren. Dit is bijvoorbeeld het geval bij ordinale veranderlijken waarbij je de categorieën geordend hebt van klein naar groot (of omgekeerd). Hierbij moet ook de onderzoeksvraag op monotoniciteit (monotoon stijgend of monotoon dalend) gericht zijn. Als voorbeeld kan je eens naar de dataset van de Titanic kijken, waarbij je enkel het lot van de 1316 passagiers in beschouwing neemt. Dit staat samengevat in volgende 3x2 tabel, waar ook reeds randtotalen berekend zijn. Klas Uitkomst Gered Verdronken Totaal Eerste klas 203 122 325 Tweede klas 118 167 285 Derde klas 178 528 706 Totaal 499 817 1316 Tabel 13.. De marginale informatie over het type ticket waarmee die passagiers reisden haal je uit de totalen per rij: Totaal Eerste klas 325 24.69 % Klas Tweede klas 285 21.66 % Derde klas 706 53.65 % Totaal 1316 100 % Tabel 14. Indien het al dan niet overleven van de ramp onafhankelijk is van het soort ticket, dan zou je van de 499 geredden verwachten dat zij verdeeld zijn over de ticketklassen met dezelfde proportie waarmee alle passagiers oorspronkelijk over de ticketklassen waren verdeeld. Als er dus 24.69 % van alle passagiers een eerste klasse ticket had, dan zouden er 499 x 24.69 % = 123 overlevenden moeten zijn met een eerste klasse ticket. Op dezelfde manier verwacht je 108 overlevenden met een tweede klasse ticket en 268 met een derde klasse ticket. Dat zou er dan zo hebben uitgezien. Klas Eerste klas Tweede klas Derde klas Totaal Verwacht aantal overlevenden (bij onafhankelijkheid) 24.69 % 123 21.66 % 108 53.65 % 268 100 % = 499 Tabel 15. Centrum voor Statistiek 11

De realiteit laat vermoeden dat gered worden en klasse van het reisticket helemaal niet los van elkaar stonden, en dat er zelfs een monotoon stijgende trend was: hoe duurder het ticket, hoe groter de kans op redding. Uit de echte dataset van de Titanic kan je de volgende conditionele percentages afleiden (geconditioneerd op Uitkomst, je moet dus per kolom kijken). Klas Uitkomst Gered Verdronken Eerste klas 203 40.68 % 122 14.93 % Tweede klas 178 35.67 % 167 20.44 % Derde klas 118 23.65 % 528 64.63 % Totaal 499 100 % 817 100 % Tabel 16. De bijhorende gestapelde staafdiagrammen vertellen hetzelfde verhaal (in aantallen of in percentage). Een taartdiagram is een alternatieve grafische voorstellingswijze om hetzelfde vermoeden te bevestigen. Centrum voor Statistiek 12

3.3. Technische nota: stochastische ordening. Om over heel de lijn een stijgende (of dalende) trend vast te stellen moet je een criterium opstellen waar je eenvoudig kan mee werken. Een dergelijk criterium kan zijn dat je cumulatief twee situaties vergelijkt, bijvoorbeeld de verwachte overlevenden en de feitelijke overlevenden. Je ordent dan de ordinale categorische veranderlijke (klasse van het ticket) en vergelijkt voor de twee situaties het cumulatief conditioneel percentage van één categorie (overleven) van de dichotome veranderlijke. Als je de reistickets ordent van eerste klas naar derde klas, dan zie je dat er een groter percent (40.68 %) in eerste klas overleefden dan wat je zou verwacht hebben (24.65 %). De vraag is echter of deze trend zich overal voordoet. Belangrijk nu is dat je niet per categorie kijkt. Op zoek gaan of er in elke categorie een groter percentage overlevenden is dan wat je had verwacht lukt zeker al niet voor de tickets van derde klasse. Neen, je moet cumulatief onderzoeken of je over een systematische trend kan spreken. Voor de Titanic kan je daarvoor volgend schema opstellen. Klas Percent van de overlevenden Verwacht Feitelijk Eerste klas 24.69 % 40.68 % Eerste+tweede klas 46.35 % 76.35 % Eerste+tweede+derde klas 100 % 100 % Tabel 17. Je bemerkt dat de cumulatieve percentages bij de feitelijke situatie systematisch groter zijn dan (of gelijk zijn aan) de cumulatieve percentages bij de verwachte situatie. Dit geeft een sterke aanwijzing dat er wel degelijk samenhang is tussen de klasse van het ticket en het feit dat de passagier gered werd. Je kan dit ook grafisch voorstellen in een vergelijkend staafdiagram. Centrum voor Statistiek 13

4. De rxc kruistabel. Een rxc kruistabel bevat informatie over het gezamenlijke gedrag van twee categorische veranderlijken, waarbij de ene r categorieën heeft en de andere c. Uit deze informatie kan je ook het gedrag van elke veranderlijke afzonderlijk halen. Daarvoor kan je de marginale proporties gebruiken. Indien er een samenhang tussen die twee veranderlijken is, dan zijn er verschillende mogelijkheden om die nader te bestuderen. Daarbij is het belangrijk te kijken naar het soort veranderlijke (is die nominaal of ordinaal) en naar de onderzoeksvraag. In deze module gaan we op die verdere precisering van de samenhang niet in. Een eenvoudiger vraag is als volgt: wijst de tabel in de richting van een samenhang of niet? Afwezigheid van samenhang, waarbij de ene veranderlijke geen enkele invloed heeft op het gedrag van de andere, resulteert in een tabel waarbij (als theoretisch model) het conditioneel gedrag van de ene veranderlijke constant is voor alle categorieën van de andere. In de praktijk zal je opmetingen hebben waar enige variabiliteit op zit. Het is dan ook belangrijk dat je aandacht in eerste instantie getrokken wordt door beduidende afwijkingen ten opzichte van wat je had verwacht. In een eerste exploratie kan je dat op zicht doen, en je kan proberen een motivatie te formuleren voor wat je ziet. Een meer formeel statistisch onderzoek hoort thuis in de verklarende statistiek. 4.1. Op zoek naar samenhang. De getallen in tabel 2 zijn niet het resultaat van een realistisch statistisch onderzoek. Zij zijn artificieel opgesteld om te illustreren wat er bedoeld wordt wanneer men zegt dat twee categorische veranderlijken onafhankelijk zijn van elkaar. Op die manier weet je waar je moet op letten wanneer je met een echte dataset te maken hebt. Als je rxc tabel dan ernstig afwijkt van de structuur die je gaat ontdekken in tabel 2, dan wijst dat op een of andere samenhang. Voorkeur Wetensch. Om het even Geen wetensch. Radio 8 6 10 Geluid CD 12 9 15 Stilte 4 3 5 Tabel 2. Je kan beginnen met de rxc tabel (die hier toevallig een 3x3 tabel is) uit te breiden met de rijen kolomtotalen, en daaruit de marginale informatie halen voor elke veranderlijke afzonderlijk. Dit is interessant op zichzelf, maar het helpt je niet bij je speurtocht naar een samenhang. Centrum voor Statistiek 14

Geluid Voorkeur Wetensch. Om het even Geen wetensch. Totaal Radio 8 6 10 24 CD 12 9 15 36 Stilte 4 3 5 12 Totaal 24 18 30 72 Tabel 18. Voor die 72 leerlingen kan je hun voorkeur voor wetenschappen en voor muziek als volgt samenvatten. Voorkeur Totaal Wetensch. Om het even Geen wetensch. 24 18 30 33.33 % 25.00 % 41.67 % Tabel 19. Radio 24 33.33 % 72 100 % Geluid CD 36 50.00 % Stilte 12 16.67 % Totaal 72 100 % Tabel 20. Je merkt dus dat een derde van de leerlingen een voorkeur heeft voor wetenschappelijke vakken. Je kan ook zien dat de helft graag eigen CD muziek speelt terwijl zij aan het studeren zijn. Is die voorkeur voor wetenschappelijke vakken op dezelfde manier aanwezig bij leerlingen die in stilte willen studeren als bij hen die met CD muziek of met de radio aan werken? En is de muziekvoorkeur dezelfde bij leerlingen die graag wetenschappen studeren als bij hen die dat niet zo graag doen, of bij hen voor wie het om het even is? Op deze vragen kan je antwoorden door naar de conditionele proporties te kijken. De conditionele proporties voor de studievoorkeur, opgebroken per muziekcategorie, zien er als volgt uit. Bemerk dat de proporties voor de studievoorkeur niet veranderen als je naar een andere muziekcategorie (naar een andere rij) overstapt. Die blijven telkens 33.33 %, 25.00 %, en 41.67 %. Wetensch. Voorkeur Om het even Geen wetensch. Totaal Radio 8 33.33% 6 25.00% 10 41.67% 24 100 % Geluid CD 12 33.33% 9 25.00% 15 41.67% 36 100 % Stilte 4 33.33% 3 25.00% 5 41.67% 12 100 % Tabel 21. Centrum voor Statistiek 15

De conditionele proporties voor de muziekvoorkeur, opgebroken per studiecategorie, zien er als volgt uit. Bemerk dat nu de studiecategorie geen enkel verschil uitmaakt. De groep leerlingen die graag wetenschappen studeert luistert even graag naar CD muziek (of naar radio of gewoon naar niets) als de twee andere groepen. Dat gebeurt binnen elke groep met juist dezelfde proporties. Geluid Wetensch. Voorkeur Om het even Geen wetensch. Radio 8 33.33% 6 33.33% 10 33.33% CD 12 50.00% 9 50.00% 15 50.00% Stilte 4 16.67% 3 16.67% 5 16.67% Totaal 24 100 % 18 100 % 30 100 % Tabel 22. 4.2. De tabelstructuur bij onafhankelijkheid. Als je in Brugge alle jongeren van 15, 16, 17, en 18 jaar samentelt kom je aan 5000. Je wilt weten of er bij die jongeren een verband is tussen hun sterrenbeeld en hun houding tegenover body-art. Aan elk van hen vraag je of zij zowel een piercing als een tatoeage hebben, ofwel of zij enkel één van beide hebben, ofwel geen van beide. Tegelijkertijd vraag je ook wat hun sterrenbeeld is. Al die informatie vat je daarna samen in een 12x3 kruistabel, waarvan je hier alleen de randtotalen ziet. sterrenbeeld Body-art Zowel piercing als tatoeage Ofwel piercing ofwel tatoeage Geen van beide Totaal Waterman 210 Vissen 300 Ram 560 Stier 490 Tweelingen 520 Kreeft 480 Leeuw 490 Maagd 450 Weegschaal 390 Schorpioen 400 Boogschutter 450 Steenbok 260 Totaal 500 1500 3000 5000 Tabel 23. Centrum voor Statistiek 16

Uit de marginale informatie in de randtotalen kan je body-art en sterrenbeeld afzonderlijk bestuderen voor die groep Brugse jongeren. Over de verschillende tekens van de dierenriem zijn zij als volgt verdeeld. sterrenbeeld Waterman 210 4.2 % Vissen 300 6.0 % Ram 560 11.2 % Stier 490 9.8 % Tweelingen 520 10.4 % Kreeft 480 9.6 % Leeuw 490 9.8 % Maagd 450 9.0 % Weegschaal 390 7.8 % Schorpioen 400 8.0 % Boogschutter 450 9.0 % Steenbok 260 5.2 % Totaal 5000 100 % Tabel 24. Bemerk dat er dubbel zov eel tweelingen zijn als steenbokken. De kleinste groep zijn de watermannen, en de rammen spannen de kroon. Op eenzelfd e manier kan je ook de verdeling van deze jongeren bekijken over de verschillende categorieën van body -art. Dat ziet er als volgt uit. Body-art Zowel piercing Ofwel piercing Geen van Totaal als tatoeage ofwel tatoeage beide 500 10 % 1500 30 % 3000 60 % 5000 100 % Tabel 25. Centrum voor Statistiek 17

Hoe zou de perfecte kruistabel er uitzien als er helemaal geen samenhang is tussen body-art en sterrenbeeld? Je kan hiervoor als volgt redeneren. In de totale groep jongeren zijn er 50 jongeren (of 10 %) die zowel een piercing als een tatoeage hebben, 30 % heeft ofwel een piercing ofwel een tatoeage, en 60 % heeft geen van beide. En aangezien dit helemaal niets te maken mag hebben met hun sterrenbeeld moet deze verhouding gelden voor alle tekens van de dierenriem. Als er dus 210 watermannen zijn, dan moeten er daar ook 10 % (= 21) tussen zitten met zowel een piercing als een tatoeage, 30 % (= 63) met een piercing of een tatoeage, en 60 % (= 126) met geen van beide. Op dezelfde manier splits je ook de 300 vissen over die drie body-art categorieën, waarbij er 30 in de eerste groep terechtkomen, 90 in de tweede en 180 in de derde. En zo ga je maar door. Als body-art en sterrenbeeld volledig onafhankelijk zijn van elkaar, dan ziet de ideale kruistabel er uiteindelijk als volgt uit. d sterrenbeel Body-art Zowel piercing Ofwel piercing Geen van Totaal als tatoeage ofwel tatoeage beide Waterman 21 63 126 210 Vissen 30 90 180 300 Ram 56 168 336 560 Stier 49 147 294 490 Tweelingen 52 156 312 520 Kreeft 48 144 288 480 Leeuw 49 147 294 490 Maagd 45 135 270 450 Weegschaal 39 117 234 390 Schorpioen 40 120 240 400 Boogschutter 45 135 270 450 Steenbok 26 78 156 260 Totaal 500 1500 3000 5000 Tabel 26. De tabel die je in Brugge hebt opgemeten zal wel niet exact overeenstemmen met de ideale tabel hierboven. Zelfs als de twee categorische veranderlijken echt onafhankelijk zijn van elkaar, dan zal je bij een reëel opgemeten dataset toch nog variabiliteit aantreffen, wat tot een verschillende tabel leidt. Je moet nu op zoek gaan naar een methode om tabellen met elkaar te vergelijken, en naar een maatstaf die zegt hoeveel verschil er is tussen tabellen. Want als het verschil te groot is, dan zal je besluiten dat er wel degelijk een samenhang is tussen body-art en sterrenbeeld. Hoe je dit kan te weten komen wordt behandeld in de verklarende statistiek. Je zal dan echter niet zomaar Brugse jongeren ondervragen, maar vooraf bepalen over welke populatie je een uitspraak wilt doen, en hoe je hieruit een gepaste lukrake steekproef moet trekken. Centrum voor Statistiek 18

5. De paradox van Simpson. Kruistabellen kunnen een aanduiding geven dat er een samenhang is in een bepaalde richting. Als je meerdere van dergelijke tabellen samenvoegt, dan kan het gebeuren dat die samenhang niet meer te bespeuren valt, of dat die zelfs van richting verandert. De reden hiervoor is meestal het bestaan van een onderliggende verdoken veranderlijke. Het is niet altijd eenvoudig om die op het spoor te komen. 5.1. Domme meisjes. Uit alle eerstejaarsstudenten aan de Vlaamse universiteiten werden lukraak 1000 jongens en 1000 meisjes geselecteerd, en men vroeg hen of zij in de eerste examenzittijd geslaagd waren. Het resultaat van dit onderzoek is samengevat in volgende tabel. Geslacht Geslaagd Totaal Ja Neen Meisje 460 540 1000 Jongen 510 490 1000 Totaal 970 1030 2000 Tabel 27. De marginale informatie leert je dat er in dat onderzoek evenveel meisjes als jongens waren en dat 970 er in totaal bij die stu denten = 0.485 = 48.5 % geslaagd was. Maar hoe zit het met de 2000 slaag kansen van meisjes en jongens afzonderlijk? Daarvoor moet je naar de conditionele percentages kijken, en dat ziet er als volgt uit. Geslacht Geslaagd Totaal Ja Neen Meisje 460 46 % 540 54 % 1000 100 % Jongen 510 51 % 490 49 % 1000 100 % Tabel 28. Van de 1000 meisjes is er 46 % geslaagd terwijl er 51 % geslaagden zijn bij die 1000 jongens. En aangezien het hier om grote steekproeven gaat, is er duidelijk een beduidend verschil in de slaagkansen. Meisjes zijn gewoon dommer. Maar is dat zo.? Centrum voor Statistiek 19

Aan een universiteit kan je heel veel verschillende dingen studeren, maar alle studiegebieden kunnen samengevat worden in drie grote groepen: De groep der exacte wetenschappen, zoals wiskunde, chemie, burgerlijk ingenieur, De groep der humane wetenschappen, zoals psychologie, economie, talen, rechten, De groep der medische wetenschappen, zoals geneeskunde, biomedische, farmacie, Ga nu eens op zoek in welke groep die domme meisjes zitten. Dit is niet zo moeilijk als je weet dat bij dit onderzoek niet alleen aan die studenten gevraagd werd of zij geslaagd waren, maar ook wat zij in dat eerste jaar studeerden. De resultaten per studiegroep zien er als volgt uit. De tabellen tonen niet alleen de aantallen, maar geven ook onmiddellijk de conditionele slaagpercentages per geslacht. Geslacht Groep der exacte wetenschappen Geslaagd Totaal Ja Neen Meisje 26 61.9 % 16 38.1 % 42 100 % Jongen 218 60.6 % 142 39.4 % 360 100 % Tabel 29. De domme meisjes zijn zeker niet te vinden in de groep der exacte wetenschappen. Integendeel, zij zijn daar slimmer dan de jongens, want 61.9 percent van de meisjes was daar geslaagd tegenover slechts 60.6 percent van de jongens. Geslacht Groep der humane wetenschappen Geslaagd Totaal Ja Neen Meisje 205 41 % 295 59 % 500 100 % Jongen 96 40 % 144 60 % 240 100 % Tabel 30. De domme meisjes zijn ook niet te vinden in de groep der humane wetenschappen. Zij zijn daar slimmer dan de jongens, want 41 % van de m eisjes was geslaagd en slechts 40 % van de jongens. Geslacht Groep der medische wetenschappen Geslaagd Ja Neen Totaal Meisje 229 50 % 229 50 % 458 100 % Jongen 196 49 % 204 51 % 400 100 % Tabel 31. In de groep der medische wetenschappen tenslotte zijn de meisjes ook slimmer dan de jongens, want 50 % van de meisjes was geslaagd en maar 49 % van de jongens. Hoe kan dit? En vooral, hoe verklaar je dit? Centrum voor Statistiek 20

5.2. Een gekleurde rechtspraak. In de ja ren 1976-77 stonden in Florida 326 beklaagden terecht wegens moord. Sommigen kregen de doodstraf, anderen niet. Politieke activisten klaagden het gerecht aan, omdat het de zwarten discrimineerde. Zij werden immers meer tot de doodstraf veroordeeld dan de blanken. Om hun actie te steunen gebruikten de activisten de officiële gegevens van de rechtbanken zelf. Die zagen er als volgt uit. Ras van de dader Blank Zwart Doodstraf Ras van het Conditioneel Ja Neen slachtoffer percentage Ja Blank 19 132 19 100 % 12.6 % 151 Zwart 0 9 0.0 % Blank 11 52 17.5 % Zwart 6 97 5.8 % Tabel 32. Van de blanken die een blanke hadden vermoord kregen er 12.6 % de doodstraf, maar van de zwarten die een blanke hadden vermoord werden er 17.5 % ter dood veroordeeld. Van de blanken die een zwarte hadden vermoord werd gewoon niemand ter dood veroordeeld, maar bij de zwarten die een zwarte hadden vermoord was dat 5.8 %. Dat kan toch allemaal geen toeval zijn. De zwarten konden in die tijd niet rekenen op een eerlijk proces in Florida. De cijfers waren toch overduidelijk! Maar is dat zo? Dezelfde officiële gegevens van de rechtbank kan je ook op de volgende manier samenvatten (je kan dat rechtstreeks uit tabel 32 afleiden). Doodstraf Ja Neen Totaal Blank 19 141 160 Ras van de dader Zwart 17 149 166 Totaal 36 290 326 Tabel 33. Als je nu conditioneel per rij de percentages uitrekent krijg j e volgend resultaat. Ras van de dader Doodstraf Ja Neen Totaal Blank 19 11.9 % 141 88.1 % 160 100 % Zwart 17 10.2 % 149 89.8 % 166 100 % Tabel 34. In totaal werd er dus in Florida bij een moord een grotere proportie blanke moordenaars (11.9 %) ter dood veroordeeld dan zwarte moordenaars (10.2 %). Of, hoe zit dat nu juist? Centrum voor Statistiek 21

5.3. De andere kant van het gelijk. Een bedrijf heeft 220 werknemers, 110 arbeiders en 110 bedienden. Op het einde van het jaar wordt er een extra premie toegekend, maar alleen aan die werknemers waarvan de manager vindt dat zij zich het voorbije jaar bijzonder goed hebben ingezet. Op een TV show verklaart de manager fier dat hij in zijn bedrijf een vrouwvriendelijke politiek voert. Hij beweert dat het percentage van de vrouw en die van hem zo n extra premie hebben gekregen groter is dan het percentage m annen. In diezelfde show echter verklaart een vrouwelijke vakbondsafgevaardigde dat de zogenaamde vrouwvriendelijke politiek van de manager een flagrante leug en is. Sterker nog, zij beweert over cijfers te beschikken die aantonen dat, zowel bij de arbeiders als bij de bedienden, het percentage van de mannen die een extra premie hebben gekregen groter is dan het percentage van de vrouwen. Als je denkt dat zowel de manager als de vakbondsafgevaardigde cijfermateriaal kunnen tonen om hun standpunt te staven, bedenk dan een concrete situatie die beide uitspraken ondersteunt. Stel hiervoor ook een kruistabel op, bespreek die, en verklaar de paradox. Centrum voor Statistiek 22