Statistische Intelligentie

Statistische Intelligentie De samenhang ontdekken Exploratie van bivariaat cijfermateriaal Deel 1. Correlatie a. Herman Callaert

Dankwoord Een bijzonder woord van dank gaat naar de leden van de stuurgroep Marc Aerts, Sofie Bogaerts, Liesbeth Bruckers, Saskia Litière en Veerle Vandersmissen. Hun opmerkingen, suggesties en kritische kanttekeningen hebben een positieve bijdrage geleverd bij het ontwerpen van deze tekst. 2004, L. U. C. Diepenbeek (België), Statistische Intelligentie Depotnummer: D/2004/2451/16 Niets in deze uitgave mag worden verveelvoudigd en/of openbaar gemaakt door middel van druk, fotokopie, microfilm of op welke andere wijze ook zonder voorafgaande schriftelijke toestemming van de uitgever. Het is toegestaan aan leerkrachten om deze tekst te reproduceren voor gebruik in de klas. Hierbij dient steeds het project Statistische Intelligentie en de naam van de auteur te worden vermeld.

Inhoud 1. Samenhang en soorten veranderlijken... 1 1.1. Bivariate categorische gegevens... 2 1.2. Bivariate continue gegevens... 3 2. Kijken naar puntenwolken... 4 2.1. De globale vorm van een puntenwolk... 4 2.2. Lineaire samenhang bij ellipsvormige puntenwolken... 7 3. De correlatiecoëfficiënt... 11 3.1. Marginale kengetallen... 11 3.2. Een maat voor lineaire samenhang... 14 3.2.1. Een typische rechte... 14 3.2.2. De lineaire samenhang meten... 15 4. Correlatiecoëfficiënten en puntenwolken... 23 4.1. Een experiment... 23 De lineaire samenhang visualiseren... 25 Een toepassing... 27 Technische nota... 29 5. Wat kan er zoal fout gaan?... 30 5.1. Uitschieters, krommen, en de voorbeelden van Anscombe... 30 5.2. Clusters... 32 5.3. Ecologische correlatie... 34 5.4. Oorzaak en samenhang... 37

1. Samenhang en soorten veranderlijken. De samenhang tussen twee veranderlijken kan je op verschillende manieren onderzoeken. Je kan figuren tekenen, of je kan kengetallen berekenen, en meestal is het verstandig om beide te doen. Wat je juist moet doen, hangt af van de context en van de vraag die je wilt beantwoorden. Maar het hangt zeker ook af van het soort opmetingen waarover je beschikt. Om over de verschillende soorten veranderlijken iets te leren, kan je de tekst Gegevens en hun context eens bekijken. Begrippen en voorbeelden uit die tekst zal je ook hier tegenkomen. Soms ben je geïnteresseerd in één welbepaalde veranderlijke. Dat kan bijvoorbeeld het huidige geboortegewicht van meisjes in Vlaanderen zijn. Je zal daarvoor ofwel zelf gegevens moeten verzamelen, ofwel beschik je reeds over een goede dataset die door anderen is opgesteld. In een dergelijke dataset ga je op zoek naar de veranderlijke geboortegewicht, en je zal hiervoor een boxplot of een histogram tekenen, het gemiddelde en de standaardafwijking berekenen, enzovoort. Maar als je in de databank van de Californische gezinnen wilt weten hoe het zit met de bloedgroep van die kinderen, dan zal je zeker geen histogram tekenen, maar bijvoorbeeld met een aangepast staafdiagram werken. En een gemiddelde of een standaardafwijking heeft hier ook geen zin, maar proporties kunnen je wel een beeld geven. In andere gevallen wil je weten of er een samenhang bestaat tussen twee veranderlijken. Je zal die twee veranderlijken dan tegelijkertijd bestuderen. Zou er een samenhang zijn tussen de lengte en het gewicht van pasgeborenen? Is er een samenhang tussen de lengte en de breedte van de bloemblaadjes van de Iris Setosa? En komen de bloedgroepen in dezelfde verhouding voor bij jongens als bij meisjes? Om op de bovenstaande vragen een antwoord te kunnen geven heb je voor elk element uit je databank de waarden nodig van de twee veranderlijken. Men zegt dan dat je bivariate gegevens bestudeert (waarbij bi verwijst naar twee en variaat naar het Engelse variate wat veranderlijke die aan het toeval onderhevig is betekent). Dergelijke gegevens kunnen in verschillende combinaties voorkomen wat hun soort betreft. Zij kunnen bijvoorbeeld allebei nominaal categorisch zijn, maar het is ook mogelijk dat zij beide continu zijn. En natuurlijk is er ook een mengeling mogelijk, waarbij de ene veranderlijke categorisch is en de andere continu. Voor elk van deze situaties is er een eigen manier om de gegevens grafisch voor te stellen, en zijn er eigen methoden voor de verdere statistische analyse. Op de volgende bladzijden maak je kennis met voorbeelden van de twee uiterste gevallen: bivariate categorische gegevens, en bivariate continue gegevens. Daarna concentreer je je voor de rest van deze module op de specifieke situatie waarbij beide veranderlijken continu zijn. Centrum voor Statistiek 1

1.1. Bivariate categorische gegevens. De ondergang van de Titanic werd voor onmogelijk gehouden, maar toch gebeurde het. Een gedeelte van de gegevens over deze ramp ziet er als volgt uit: Klas Uitkomst 4 1 2 1 1 0 2 1 3 0.. Hierbij zegt de veranderlijke Klas welk ticket de passagier gekocht had: 1 = eerste klas, 2 = tweede klas, 3 = derde klas, en de code 4 staat voor bemanning. De veranderlijke Uitkomst geeft aan of de persoon gered werd (code = 0) of verdronk (code = 1). Probeer de informatie in onderstaande kruistabel (ook contingentietabel genoemd) duidelijk te verwoorden. Wat betekent het getal 178 in deze tabel? En wat zegt het getal 1490 over de ramp? Hoeveel mensen waren er aan boord toen de Titanic tegen de ijsberg botste en zonk? Terwijl de Titanic aan het zinken was, werd bij de reddingsoperatie voorrang gegeven aan vrouwen en kinderen (wat de standaard procedure is), maar ook aan reizigers eerste klas. Dat wordt tenminste door sommigen beweerd. Kan je dat halen uit die kruistabel? Klas Uitkomst Totaal Gered Verdronken Eerste klas 203 122 325 Tweede klas 118 167 285 Derde klas 178 528 706 Bemanning 212 673 885 Totaal 711 1490 2201 Bemerk dat deze kruistabel tegelijkertijd informatie geeft over twee categorische veranderlijken. De veranderlijke Klas bestaat uit 4 categorieën, en die vormen de vier rijen van de kruistabel. De veranderlijke Uitkomst heeft twee categorieën, die de twee kolommen bepalen. Het kruispunt van juist één rij en één kolom vormt een cel in de tabel. In deze cel staat het overeenkomstig aantal elementen uit de dataset die gelijktijdig aan de rijeigenschap en aan de kolomeigenschap voldoen. Zo betekent het getal 178 dat er van het totaal aantal aanwezigen (2201) juist 178 waren die een derde klas ticket hadden en de ramp overleefden. Centrum voor Statistiek 2

1.2. Bivariate continue gegevens. Continue veranderlijken zoals lengte en gewicht heb je al in meerdere datasets ontmoet. Zo is er de Fisher s Iris data gegevensverzameling waar ondermeer de lengte en breedte van 50 bloemblaadjes van de Iris Setosa staan opgetekend. Je kan veronderstellen dat er enige samenhang is tussen de lengte en de breedte van bloemblaadjes van eenzelfde type bloem. Als je dat grafisch wilt voorstellen dan zie je dat er voor elk bloemblaadje gelijktijdig twee opmetingen zijn: de lengte van het blad en zijn breedte. Je kan dit noteren door het koppel (x,y) met x = lengte en y = breedte. Maar je hebt zo n koppel opmetingen voor elk van die 50 blaadjes, en dus moet je een index toevoegen om te zeggen over welk blad het gaat. Zo geeft (x 1,y 1 ) de lengte en breedte van het eerste blad, (x 2,y 2 ) de lengte en breedte van het tweede blad, enzovoort. Algemeen kan je zeggen dat (x i,y i ) de lengte en de breedte van het i-de blad aangeeft. Grafisch bepaalt zo n koppel een punt in het vlak, en als je nu voor elk van die 50 bloemblaadjes het bijhorend punt in het vlak tekent, dan krijg je een puntenwolk. Zo n puntenwolk is de klassieke manier om bivariate continue gegevens voor te stellen. Zorg ervoor dat je zo n puntenwolk goed kan lezen. Welk puntje in figuur 1 komt overeen met het smalste blad? Waar vind je het blad dat het langste is? Is dat ook het breedste? Figuur 1. Centrum voor Statistiek 3

2. Kijken naar puntenwolken. Er zijn twee soorten puntenwolken: de puntenwolken waarvan het globale uitzicht ruwweg ellipsvormig is, en de andere. De ellipsvormige puntenwolken spelen een zeer belangrijke rol in statistisch onderzoek. In deze module leer je hiermee werken. In de realiteit kom je ook heel veel puntenwolken tegen die niet ellipsvormig zijn. Daarom zal je in deze tekst ook van dergelijke puntenwolken voorbeelden tegenkomen. Op die manier leer je aandachtig kijken naar een puntenwolk, en weet je waarop je zoal speciaal moet letten. 2.1. De globale vorm van een puntenwolk. Een puntenwolk is een grafische voorstelling van bivariate continue gegevens. Meestal zie je in zo n puntenwolk heel wat variabiliteit. Daarom begin je naar een globale vorm te zoeken, zonder je al te veel vast te pinnen op enkele punten die hier en daar afwijken (als dat tenminste niet te drastisch is). Wanneer je besluit dat een puntenwolk globaal ellipsvormig is, dan betekent dit dat de grote meerderheid van de punten binnen een ellips vallen, zonder een verder uitgesproken patroon. Maar er zullen dan ook nog wel enkele punten buiten die ellips zijn terechtgekomen, en wanneer je maar met een klein aantal punten werkt trekken die nog dikwijls extra aandacht. Door in verschillende situaties naar puntenwolken te kijken krijg je de nodige ervaring die je bij deze studie zeker kan helpen. Figuur 2. Centrum voor Statistiek 4

De puntenwolk in figuur 2 heeft 1078 punten, en in figuur 3 staan er slechts 20. Toch kan je in beide gevallen zien dat het globale beeld ellipsvormig is. Figuur 3. Een totaal andere indruk krijg je bij het kijken naar figuur 4. Doorheen de variabiliteit kan je in die puntenwolk een uitgesproken patroon ontdekken. Als je naar de globale figuur kijkt, dan kan je zeker niet over een ellipsvorm spreken, zelfs niet bij benadering. Figuur 4. Centrum voor Statistiek 5

De figuren 5 en 6 zijn dan weer van een andere soort. Geen van beide leent zich voor een ellipsvorm. De eerste puntenwolk start links in het midden met een kleine variabiliteit in de y-richting. Naarmate je meer naar rechts gaat blijft de variabiliteit maar groeien, en liggen de punten in de verticale richting meer en meer uit elkaar. Daar is geen ellips van te maken. Figuur 6 telt slechts 11 punten, waarvan er tien in een smalle ellips te vangen zijn. Het elfde punt is werkelijk een uitschieter. Dat moet je eerste speciaal bestuderen vooraleer je die puntenwolk verder kan interpreteren. Figuur 5. Figuur 6. Centrum voor Statistiek 6

2.2. Lineaire samenhang bij ellipsvormige puntenwolken. Bij puntenwolken die er globaal uitzien als een ellips kan je op zoek gaan naar een rechte waarrond de punten verspreid zijn. Als je de punten van figuur 2 op zicht in zo n ellipsvorm zou proberen te vangen, dan zou je voor de bijhorende typische rechte waarschijnlijk iets vinden zoals in figuur 7. Figuur 7. Bij ellipsvormige puntenwolken heeft het zin om te spreken over een typische rechte waarrond de punten verspreid liggen. Deze verspreiding kan er van geval tot geval nogal verschillend uitzien. De studie van de verspreiding (of de verstrooiing) van punten rond een typische rechte krijgt de naam van: studie van de lineaire samenhang. Hierbij verwijst het woordje lineair naar het feit dat je niet op zoek gaat naar zomaar een samenhang tussen de punten. Neen, je kijkt heel speciaal naar samenhang ten opzichte van een rechte. De studie van de lineaire samenhang in een puntenwolk concentreert zich op twee karakteristieken: de sterkte van de samenhang, en de zin van de samenhang. Om een idee te hebben over de sterkte van de lineaire samenhang kan je kijken naar de manier waarop de punten, als groep, aansluiten aan een rechte. Als zij allemaal dicht tegen een rechte liggen, dan is de samenhang sterk. Wanneer er wat meer spreiding op zit, dan kan je zeggen dat er matige lineaire samenhang is. Wanneer de punten ver uit elkaar liggen, dan is de samenhang zwak. Typische ellipsvormen, en voorbeelden van puntenwolken, zie je op de volgende bladzijde. Centrum voor Statistiek 7

Figuur 8. In figuur 8 liggen de punten ver uit elkaar, maar een uitgesproken patroon (zoals parabool of sinuscurve) die een ellipsvorm tegenspreekt valt niet te bespeuren. Ook zijn er geen speciale uitschieters te bemerken. Je mag hier dus werken met eigenschappen van ellipsvormige puntenwolken. Je ziet hier dat de punten een grote spreiding rond een typische rechte vertonen, en je zal hier dus spreken van zwakke lineaire samenhang. Figuur 9. In figuur 9 liggen de punten al meer geconcentreerd rond een rechte, en de lineaire samenhang is hier zeker sterker dan in figuur 8. Figuur 10. Figuur 10 is een voorbeeld van een ellipsvormige puntenwolk waarbij de lineaire samenhang zeer sterk is. Centrum voor Statistiek 8

De vorige drie figuren hebben een gemeenschappelijk kenmerk: wanneer je de x-as van links naar rechts doorloopt en daarbij naar punten kijkt waarvan de x-coördinaat groter en groter wordt, dan wordt hun bijhorende y-coördinaat ook groter. Deze uitspraak moet je als een globaal kenmerk bekijken, en niet puntje per puntje. In figuur 9 bijvoorbeeld ligt de meerderheid van de punten waarvan de x-coördinaat rond 25 ligt hoger (heeft dus een grotere y-coördinaat) dan de meerderheid van de punten die een x-coördinaat rond 10 hebben. En hoewel het puntje (8,21) een grotere y-coördinaat heeft dan (23,18), verstoort dit niet de globale tendens. Men zegt dat de zin van de lineaire samenhang positief is wanneer de ellipsvormige puntenwolk in haar globaliteit van links onder naar rechts boven gaat. In het andere geval spreekt men over negatieve lineaire samenhang. Hieronder zie je twee figuren waarbij de lineaire samenhang duidelijk negatief is. Bij figuur 11 is deze negatieve lineaire samenhang matig, en bij figuur 12 is hij sterk. Figuur 11. Figuur 12. Centrum voor Statistiek 9

Je hebt nu zowat alle mogelijkheden bekeken voor de studie van ellipsvormige puntenwolken. Er blijven echter nog twee extreme gevallen over, die je beide als een limietsituatie kan opvatten. In figuur 8 zie je dat een zwakke lineaire samenhang gepaard gaat met een dikke ellips. Als deze lineaire samenhang nog zwakker wordt dan wordt die ellips nog dikker, en in het extreme geval wordt die ellips een cirkel, en is er geen lineaire samenhang meer aanwezig. Een voorbeeld van dergelijke puntenwolk zie je in figuur 13. Figuur 13. Figuur 10 toont een zeer smalle ellips, want de lineaire samenhang is daar zeer sterk. Wanneer die lineaire samenhang perfect wordt dan wordt die ellips een rechte lijn. In figuur 14 zie je een voorbeeld van een perfecte negatieve lineaire samenhang. In figuur 15 staat een voorbeeld van een perfecte positieve lineaire samenhang. Figuur 14. Figuur 15. Centrum voor Statistiek 10

3. De correlatiecoëfficiënt Bij het kijken naar puntenwolken heb je al een eerste indruk opgedaan over hun vorm, en over de sterkte en zin van een lineaire samenhang. Deze grafische manier om naar puntenwolken te kijken is zeer belangrijk en vormt de eerste stap bij een statistisch onderzoek. Op de tweede plaats komt dan de weergave in getallen van wat je in de figuur gezien hebt. 3.1. Marginale kengetallen. Een puntenwolk is een figuur die je tekent op basis van een aantal bivariate continue opmetingen (x i,y i ). Je kan hiervan meerdere kenmerken bestuderen en in statistische grootheden samenvatten. Figuur 7 is een puntenwolk die afkomstig is van opmetingen in gezinnen, waarbij de lengte van de vader en van zijn oudste volwassen zoon werden genoteerd. Het koppel (x i,y i ) komt dus overeen met (lengte vader, lengte zoon) van het i-de gezin. In totaal waren er 1078 dergelijke opmetingen. Een deel van deze dataset ziet er als volgt uit: Lengte van de vader (cm) x i Lengte van de zoon (cm) y i 180 178 172 172 169 160 179 170 167 169 180 193 177 182 173 183 176 186 157 174.. Een eerste typisch kenmerk van een (ellipsvormige) puntenwolk is haar centrum. Hiervoor bereken je het zwaartepunt ( x, y). Je start dus met alleen naar de x-coördinaten van alle punten te kijken. Die geven je de lengte van alle vaders. En daarvan bereken je het gemiddelde x, wat de gemiddelde lengte van de vaders is. Op dezelfde manier kan je ook kijken naar de y-coördinaten, wat je de lengte van alle zonen oplevert. Ook hiervoor kan je het gemiddelde uitrekenen. Voor deze dataset geeft dat: x = 172 cm en y = 174.5 cm. Op figuur 16 staat het zwaartepunt getekend. y x Figuur 16. Centrum voor Statistiek 11

Wanneer je terug alleen maar naar de lengte van de vaders kijkt, dan heb je 1078 getallen x i. Van elke verzameling getallen weet je dat een meerderheid ervan op minder dan een afstand 2s x verwijderd ligt van x. Hierbij is x het gemiddelde van de x i - getallen, en s x is de notatie voor hun standaardafwijking. Hoe groot die meerderheid is hangt af van de globale vorm van het histogram. Lijkt die goed op een normale curve, dan gaat het wel over 95% van die getallen. En bijna altijd zijn het er minstens 75%. Op eenzelfde manier kan je ook redeneren over de lengte van de zonen, en dan gaat het over de y i - getallen, met hun bijhorende notatie. Voor de dataset die we hier bestuderen geldt: Lengte van de vader (x i ) Lengte van de zoon (y i ) x = 172 cm s x = 6. 9 cm y = 174. 5 cm s y = 7. 0 cm De meerderheid van de lengtes van de vaders ligt dus in het interval [ x 2 s ; x + 2 ] = x s x [158.2;185.8], en je kan dat op figuur 17 goed zien. Het zijn alle punten van de puntenwolk die gevangen zitten in de verticale strook. x 2s x x x + 2s x Figuur 17. Voor de lengte van de zonen heb je dat [ y 2 s ; y + 2 ] = [160.5;188.5]. In figuur 18 zie je dat y s y deze horizontale strook de meerderheid van de punten uit de puntenwolk te pakken heeft. Voor al die punten ligt de lengte van de zoon in het interval [160.5;188.5]. y + 2s y y y 2s y Figuur 18. Centrum voor Statistiek 12

Uit bivariate gegevens (x i, y i ) kan je de afzonderlijke gegevens x i halen (zoals de lengte van de vaders) en de kenmerken daarvan bestuderen. Hetzelfde kan je doen voor de y i s (de lengte van de zonen). Maar bivariate gegevens bevatten meer informatie dan de eigenschappen van elke component afzonderlijk. Inderdaad, als je alle lengtes van de vaders en alle lengtes van de zonen kent, dan ben je nog niet in staat om de puntenwolk te tekenen. Je moet namelijk ook de samenhang nog kennen: welke zoon hoort bij welke vader. Een eenvoudig voorbeeld, met slechts enkele opmetingen, is als volgt. Bij Anouk en bij Lauren zijn de x-waarden identiek, en als je alleen naar de y-waarden kijkt, dan kom je bij beiden dezelfde getallen tegen. Dat betekent dus dat het gemiddelde en de standaardafwijking van de x i - getallen (en ook van de y i - getallen) hetzelfde zijn. Dat zie je in onderstaande tabellen. Hieruit volgt dat de bijhorende puntenwolken te vangen zijn in exact dezelfde verticale strook (wat de x-waarden betreft), en exact dezelfde horizontale strook (wat de y-waarden betreft). Dit is inderdaad waar, maar het vertelt helemaal niets over de samenhang in deze puntenwolken. Dat merk je in figuur 19 en 20, waar de puntenwolk van Anouk en die van Lauren getekend is. Anouk x i 1 2 3 4 5 x 3 en s =1. 6 = x y i 1 3 4 4 6 y 3.6 en s = 1. 8 = y Lauren x i 1 2 3 4 5 x = 3 en sx =1. 6 y i 4 1 4 6 3 y 3.6 en s = 1. 8 = y Figuur 19. (Anouk) Figuur 20. (Lauren) Centrum voor Statistiek 13

3.2. Een maat voor lineaire samenhang. Om de samenhang in puntenwolken te illustreren heb je blijkbaar meer nodig dan eigenschappen van x en y afzonderlijk. Er bestaan heel veel manieren om samenhang in puntenwolken te karakteriseren, maar hier ga je je beperken tot ellipsvormige puntenwolken waarbij je op zoek gaat naar de samenhang rond een typische rechte. Deze lineaire samenhang wil je dan ook met een getal kunnen karakteriseren. 3.2.1. Een typische rechte. In de figuren 7-12 zie je een typische rechte waarrond de punten van een ellipsvormige puntenwolk verspreid liggen. Welke rechte is dit? Het zal je niet verwonderen dat die rechte door het zwaartepunt ( y) x, van de puntenwolk moet lopen. Hiermee heb je al een eerste karakteristiek van de x i s en de y i s gebruikt, namelijk hun gemiddelde. Om nu nog de richting van die rechte te bepalen ga je gebruik maken van de standaardafwijkingen s x en s y. De richtingscoëfficiënt bepaal je dan als volgt: als je een afstand van één standaardafwijking s x naar rechts gaat in de x-richting (horizontaal), dan moet je ook een afstand van één standaardafwijking s y naar boven gaan in de y-richting (verticaal). Op die manier standaardiseer je de variabiliteit in beide richtingen. Je volgt deze procedure voor puntenwolken waarbij de zin van de lineaire samenhang positief is. Is deze zin negatief, dan verander je het teken van de richtingscoëfficiënt. De vergelijking van deze typische rechte is dus gegeven door (vergelijking van een rechte door een gekend punt en met een gekende richtingscoëfficiënt): y - voor een positieve lineaire samenhang: ( y y) = ( x x) s s x of y y s y = x x s x y - voor een negatieve lineaire samenhang: ( y y) = ( x x) s s x of y y s y = x x s x Centrum voor Statistiek 14

De typische rechte die hoort bij de puntenwolk van Anouk zie je in figuur 21. Haar vergelijking is 1.8 ( y 3.6) = ( x 3). 1.6 s y s x Figuur 21 Op dezelfde manier werden ook de typische rechten getekend voor de puntenwolken in de figuren 7, 8, 9, 10, 11, en 12. 3.2.2. De lineaire samenhang meten. Bij puntenwolken die globaal ellipsvormig zijn kan je kijken naar de manier waarop de punten rond een typische rechte geconcentreerd zijn. Je kan dit proberen uit te drukken in een getal. Het is enorm belangrijk dat je de betekenis van dit getal goed begrijpt. Vooreerst gaat het over de karakterisatie van lineaire samenhang van punten rond een typische rechte. Waar die rechte gelegen is in het vlak, en hoe zwak of hoe sterk die rechte stijgt of daalt, speelt hier geen enkele rol. Wat wel meespeelt is de zin van de samenhang: is die positief (stijgende rechte) of negatief (dalende rechte)? En vervolgens geeft dit getal alleen aan hoe sterk de concentratie van de punten rond die bepaalde rechte is. In de figuren 22 en 23 zie je twee voorbeelden van positieve lineaire samenhang. De opmetingen van Sarah en Michiel staan er ook expliciet bij aangegeven. Zo kan je de punten zelf tekenen, en je kan ook het zwaartepunt van de puntenwolk berekenen en de vergelijking van de typische rechte opstellen. Bij Michiel bijvoorbeeld zie je dat het zwaartepunt ( x, y) gelijk is aan (20.5,17.9). De typische rechte die je bij zijn puntenwolk tekent loopt door dit zwaartepunt en heeft een s y 11.85 richtingscoëfficiënt die gelijk is aan = 1. Op eenzelfde manier kan je ook de figuur sx 11.96 van Sarah volledig reconstrueren. Centrum voor Statistiek 15

Sarah Michiel x i y i x i y i 5 7 2 12 6 19 4 29 8 13 4 3 9 17 7 24 10 10 11 8 11 20 12 28 12 8 13 2 13 26 15 13 14 17 17 3 15 13 17 23 16 22 21 11 17 11 24 24 18 26 26 34 19 17 28 8 20 29 30 31 21 16 31 15 22 24 33 6 23 28 37 11 24 18 38 40 25 32 39 33 x = 15.4 = 6.08 y = 18.7 = 7.20 x = 20.5 = 11.96 y = 17.9 = 11.85 s x s y s x s y Figuur 22. (Sarah) Figuur 23. (Michiel) Centrum voor Statistiek 16

Op zicht zie je dat de punten van Sarah een sterkere samenhang vertonen dan die van Michiel. Daar liggen de punten nogal ver verspreid rond hun typische rechte. Maar hoe druk je dat nu in een getal uit? Daarvoor moet je eerst met nieuwe meetlatten leren meten. Bij de x-waarden meet je de afstand van een waarde x i tot het gemiddelde x niet in gewone eenheden, maar in standaardafwijkingen. Zo heb je voor het punt (x 15, y 15 ) = (30, 31) van Michiel dat x 15 - x = 30-20.5 = 9.5, maar je kan ook zeggen dat x 15 - x = 30-20.5 = 0.8 s x. Immers, de standaardafwijking van de x-coördinaten van alle punten van Michiel is gelijk aan 11.96, en 11.96 0.8 9.5. Op dezelfde manier meet je ook de afstanden in de y-richting, en zie je dat y y = 31 17.9 1. 1, want =11.85. 15 = s y s y 0.8 s x 1.1 s y Figuur 24. (Michiel) Je bemerkt dat je niet meer naar de waarde van het oorspronkelijke getal kijkt (zoals 30 ) maar dat je dit getal vervangt door een gestandaardiseerd getal. Dat bekom je door te meten hoeveel je oorspronkelijk getal boven (of onder, inclusief het teken) het gemiddelde ligt, waarbij je als meeteenheid de standaardafwijking gebruikt. En dat doe je afzonderlijk voor de x i s en voor de y i s. Elk punt (x i,y i ) wordt op die manier getransformeerd naar xi x yi y,. Deze sx s y transformatie kan je gebruiken om over te stappen op nieuwe coördinaten met een bijhorend nieuw assenstelsel, dat volledig bepaald wordt door de gegeven puntenwolk. Inderdaad, de nieuwe oorsprong is niets anders dan het zwaartepunt van de puntenwolk, en de eenheden op de nieuwe x- en y-as corresponderen met de standaardafwijkingen van de oorspronkelijke opmetingen. Zo stemt 0.8 eenheden op de nieuwe x-as bijvoorbeeld overeen met x + 0.8 sx = 30 oorspronkelijke eenheden. Centrum voor Statistiek 17

Als je overstapt op de gestandaardiseerde grootheden rechte in het nieuwe assenstelsel? xi x yi y,, waar ligt dan de typische sx s y Je weet dat deze rechte door het zwaartepunt van de puntenwolk gaat, en daarom moet zij nu door s y 1 s y de oorsprong van het nieuwe assenstelsel lopen. Haar richtingscoëfficiënt is gelijk aan =, sx 1 sx 1 wat in de nieuwe coördinaten vertaald wordt naar = 1. Een rechte door de oorsprong en met 1 richtingscoëfficiënt 1 is niets anders dan de eerste bissectrice. De typische rechte van alle puntenwolken (die een positieve lineaire samenhang vertonen) is in dit nieuw assenstelsel dus altijd gelijk aan de eerste bissectrice. Wanneer de zin van de lineaire samenhang negatief is, dan is de typische rechte altijd gelijk aan de tweede bissectrice (door de oorsprong en met richtingscoëfficiënt gelijk aan 1). Figuren 26 en 27 tonen terug de puntenwolken van Sarah en Michiel, maar nu getekend nadat eerst is overgestapt op de gestandaardiseerde veranderlijken. Je ziet dat er aan de vorm van de puntenwolken niets is veranderd. Maar het nieuwe assenstelsel is in beide gevallen gecentreerd in het zwaartepunt, en de typische rechte is voor beiden gelijk aan de eerste bissectrice. Het is in deze gestandaardiseerde vorm dat je nu op zoek gaat naar een getal dat de sterkte van de samenhang rond de eerste bissectrice weerspiegelt. Figuur 26. (Sarah) Figuur 27. (Michiel) Ellipsvormige puntenwolken waarbij de zin van de samenhang positief is, zien er in hun gestandaardiseerde vorm altijd uit zoals figuur 26 en 27. Het nieuwe assenstelsel verdeelt het vlak in 4 kwadranten. Als je nauwkeurig kijkt dan kan je bij Sarah twee dingen tegelijk ontdekken. Er liggen meer punten in het eerste (rechtsboven) en derde (linksonder) kwadrant dan in de twee andere kwadranten. En bovendien zijn er bij deze punten ook meer die verder verwijderd zijn van het centrum. De punten in het tweede en vierde kwadrant liggen in het algemeen dichter bij het centrum. Bij Michiel is de samenhang minder sterk, en daar is het overwicht van het eerste en derde kwadrant (zowel wat het aantal punten als wat hun afstand tot het centrum betreft) minder uitgesproken. Centrum voor Statistiek 18

Elk punt in een vlak is bepaald door zijn twee coördinaten. Een punt in het eerste kwadrant heeft twee positieve coördinaten, in het derde kwadrant zijn zij beide negatief, en in het tweede en vierde kwadrant is er één van de coördinaten positief en de andere is negatief. Als je nu het product maakt van de twee coördinaten van zo n punt, dan krijg je een positief getal als dat punt in het eerste of derde kwadrant ligt, en een negatief getal in de andere gevallen. En naarmate het punt verder verwijderd is van het centrum zal je grotere waarden hebben voor de coördinaten (positief of negatief), zodat ook het product groter zal zijn (met plus- of minteken). Als je voor alle punten van de puntenwolk dergelijk product maakt, dan kan het gebeuren dat de positieve uitkomsten globaal in de meerderheid zijn. Dit is zo bij Sarah en bij Michiel. Maar bij Sarah zijn er meer punten in het eerste en derde kwadrant, en meerdere daarvan liggen ook verder van het centrum. Zo krijgt zij veel grote positieve bijdragen, die gemakkelijk de negatieve bijdragen van de punten in het tweede en vierde kwadrant compenseren. De som zal uiteindelijk nog sterk positief zijn. Bij Michiel lukt het ook nog om de totale som positief te houden, maar de punten in het tweede en vierde kwadrant leveren heel wat negatieve producten op. De totale som bij Michiel zal kleiner zijn dan bij Sarah, en dat weerspiegelt het feit dat de samenhang daar minder sterk is. Eigenlijk mag je niet zomaar de som maken en dan Sarah met Michiel vergelijken. Hier lukt dat omdat beiden toevallig evenveel punten hebben in hun puntenwolk. Maar in het algemeen hoeft dat natuurlijk niet zo te zijn. Daarom zal je in het vervolg niet meer werken met de som van al die producten, maar met een soort gemiddelde. Je telt al die producten samen en je deelt door het aantal punten min één. Dit gestandaardiseerde getal noem je de correlatiecoëfficiënt, en je stelt die voor door de letter r. Soms kom je als naam ook Pearson correlatiecoëfficiënt tegen. In formulevorm wordt dit: r = 1 x i x y y ( ) n 1 sx s y i Als voorbeeld kan je expliciet de berekening maken voor Michiel. Je moet dan eerst overstappen op de gestandaardiseerde grootheden, daarna de producten maken, en tenslotte al deze producten samentellen en delen door (n 1). Centrum voor Statistiek 19

Ter illustratie zijn in figuur 28 enkele punten expliciet aangeduid. Let op het teken van hun coördinaten en op het kwadrant waarin deze punten liggen. Kan je die punten terugvinden in de bijhorende tabel waarin de gegevens van Michiel ook uitgedrukt staan in functie van de nieuwe coördinaten? 0.5 1.1 0.8 1.1 1.3 1.4 0.6 0.6 Figuur 28. Centrum voor Statistiek 20

Michiel Oorspronkelijke gegevens Gestandaardiseerde gegevens (afgerond) x i y i xi x yi y s s x y x i x yi y sx sy 2 12-1.5-0.5 0.77 4 29-1.4 0.9-1.29 4 3-1.4-1.3 1.73 7 24-1.1 0.5-0.58 11 8-0.8-0.8 0.66 12 28-0.7 0.9-0.60 13 2-0.6-1.3 0.84 15 13-0.5-0.4 0.19 17 3-0.3-1.3 0.36 17 23-0.3 0.4-0.12 21 11 0.0-0.6-0.03 24 24 0.3 0.5 0.15 26 34 0.5 1.4 0.63 28 8 0.6-0.8-0.53 30 31 0.8 1.1 0.88 31 15 0.9-0.2-0.22 33 6 1.0-1.0-1.05 37 11 1.4-0.6-0.81 38 40 1.5 1.9 2.74 39 33 1.6 1.3 1.98 x = 20.5 s x = 11.96 y = 17.9 s y = 11.85 1 x i x yi y 5.70 r = = = 0.30 ( 1) n sx s y 19 Bovenstaande tabel laat duidelijk zien hoe je de correlatiecoëfficiënt berekent. Voor Michiel vind je dat r = 0.30. Voor de correlatiecoëfficiënt gelden volgende eigenschappen: de correlatiecoëfficiënt is een eenheidsloos getal de correlatiecoëfficiënt ligt altijd tussen 1 en +1 de correlatiecoëfficiënt is positief wanneer de zin van de lineaire samenhang positief is, en negatief wanneer de zin van de lineaire samenhang negatief is bij perfecte positieve lineaire samenhang is de correlatiecoëfficiënt gelijk aan +1 bij perfecte negatieve lineaire samenhang is de correlatiecoëfficiënt gelijk aan 1 een correlatiecoëfficiënt die gelijk is aan nul wijst op het ontbreken van een lineaire samenhang de correlatiecoëfficiënt is symmetrisch: de lineaire samenhang tussen y en x is dezelfde als de lineaire samenhang tussen x en y. Centrum voor Statistiek 21

Op basis van de figuren 22 en 23 verwacht je dat de correlatiecoëfficiënt bij Sarah groter is dan bij Michiel. Als je in de onderstaande tabel de laatste rij aanvult dan heb je alles wat je nodig hebt om Sarah s correlatiecoëfficiënt te berekenen. Sarah Oorspronkelijke gegevens Gestandaardiseerde gegevens (afgerond) x i y i xi x yi y s s x y Kwadrant Product van de coördinaten x i x yi y sx sy 5 7-1.7-1.6 derde 2.77 6 19-1.5 0.0 tweede -0.08 8 13-1.2-0.8 derde 0.95 9 17-1.1-0.2 derde 0.24 10 10-0.9-1.2 derde 1.07 11 20-0.7 0.2 tweede -0.14 12 8-0.6-1.5 derde 0.83 13 26-0.4 1.0 tweede -0.40 14 17-0.2-0.2 derde 0.05 15 13-0.1-0.8 derde 0.05 16 22 0.1 0.5 eerste 0.05 17 11 0.3-1.1 vierde -0.28 18 26 0.4 1.0 eerste 0.44 19 17 0.6-0.2 vierde -0.14 20 29 0.8 1.4 eerste 1.09 21 16 0.9-0.4 vierde -0.34 22 24 1.1 0.7 eerste 0.81 23 28 1.2 1.3 eerste 1.62 24 18 1.4-0.1 vierde -0.13 25 32 1.6 1.9 eerste 2.93 x = 15.4 s x = 6.08 y = 18.7 s y = 7.20 1 x i x yi y 11.40 r = = = 0.60 ( 1) n sx s y 19 Voor Sarah is de correlatiecoëfficiënt gelijk aan 0.60, en aangezien zowel bij Sarah als bij Michiel de puntenwolken ellipsvormig zijn kan je uit een vergelijking van hun correlatiecoëfficiënt besluiten dat de puntenwolk van Sarah (met r = 0.60) een sterkere lineaire samenhang vertoont dan die van Michiel (met r = 0.30). Je kan dit ook formuleren in termen van de coördinaten, en dan spreek je over de samenhang tussen x en y. Bij een realistisch onderzoek hebben x en y natuurlijk een betekenis, zoals de lengte van de vaders en de lengte van de zonen. Als de puntenwolk daar ellipsvormig is en je vindt r = 0.30, dan zeg je dat er een matige, positieve lineaire samenhang te ontdekken is tussen de lengte van de vaders en die van de zonen, en deze uitspraak karakteriseer je met het bijhorende kengetal, namelijk de correlatiecoëfficiënt. Centrum voor Statistiek 22

4. Correlatiecoëfficiënten en puntenwolken Een correlatiecoëfficiënt bereken je bij continue bivariate gegevens, en daarbij hoort ook altijd een grafische voorstelling, namelijk een puntenwolk. Het is belangrijk om die twee dingen altijd gelijktijdig te bekijken. Met wat oefening krijg je een goed aanvoelen voor de verschillen die in puntenwolken te ontdekken zijn: is de globale vorm zoals een ellips, is de zin van de samenhang positief of negatief, en is die samenhang zwak of sterk? 4.1. Een experiment Is er een samenhang te ontdekken tussen de lengte en de breedte van bloemblaadjes, en verschilt deze samenhang naargelang het soort bloem? Om dit na te gaan deed men het volgende experiment. Van 4 verschillende bloemsoorten werden heel veel bloembladeren verzameld, en die werden bewaard in vier verschillende dozen. Aan vier leerlingen, Seppe, Kato, Robbe, en Lotte werd gevraagd om één welbepaalde doos uit te kiezen, en uit die doos lukraak 20 bloemblaadjes te nemen. Zij moesten dan met gestandaardiseerde meetapparatuur nauwkeurig de lengte en de breedte van elk blaadje bepalen en in een tabel opschrijven. Op die manier bekwamen zij elk 20 koppels van getallen (x i,y i ), waarbij x i = breedte van het i-de bloemblad, en y i = lengte van het i-de bloemblad. De opmetingen moesten ook grafisch voorgesteld worden als een puntenwolk, waarbij op de x-as de breedte moest worden uitgezet en op de y-as de lengte. Daarvoor kregen zij elk een identiek tekenblad, waarbij de schaalverdeling op de x-as en op de y-as voor iedereen dezelfde was. Op die manier zou het mogelijk zijn om nadien de vier figuren letterlijk op elkaar te leggen, zodat men op een gestandaardiseerde manier de 4 verschillende bloemsoorten met elkaar grafisch zou kunnen vergelijken. Bekijk nu zelf aandachtig de puntenwolken die door deze leerlingen werden getekend, en antwoord dan op de volgende vragen. Bij het invullen van je antwoord moet je kiezen uit de volgende getallen: 0.50, 0.80, 0.95, 0.99. de puntenwolk van Seppe heeft een correlatiecoëfficiënt r die gelijk is aan.. de puntenwolk van Kato heeft een correlatiecoëfficiënt r die gelijk is aan.. de puntenwolk van Robbe heeft een correlatiecoëfficiënt r die gelijk is aan.. de puntenwolk van Lotte heeft een correlatiecoëfficiënt r die gelijk is aan.. Centrum voor Statistiek 23

Figuur 29. (Seppe) Figuur 30. (Kato) Figuur 31. (Robbe) Figuur 32. (Lotte) Centrum voor Statistiek 24

4.2. De lineaire samenhang visualiseren. Als je naar een puntenwolk kijkt en gezien hebt dat haar globale vorm goed lijkt op een ellips, dan kan je proberen om op zicht een idee te krijgen van de sterkte van de lineaire samenhang. Dit geeft je dan ook een benaderend idee van de waarde van de correlatiecoëfficiënt. Er is eigenlijk maar één goede manier om de sterkte van lineaire samenhang te visualiseren: je tekent de puntenwolk in haar gestandaardiseerde coördinaten. Zo kan je die puntenwolk vergelijken met andere puntenwolken die ook op dezelfde manier getekend zijn, en waarvan de correlatiecoëfficiënt gekend is. Hieronder zie je zo een paar voorbeelden. Figuur 33. (r = 0) Figuur 34. (r = 0) Figuur 35. (r = 0.30) Figuur 36. (r = 0.30) Centrum voor Statistiek 25

Figuur 37. (r = 0.60) Figuur 38. (r = 0.60) Figuur 39. (r = 0.90) Figuur 40. (r = 0.90) Figuur 41. (r = 0.99) Figuur 42. (r = 0.99) Centrum voor Statistiek 26

4.3. Een toepassing Misschien denk je dat je wel rechtstreeks op een figuur kan schatten hoe sterk de lineaire samenhang is. En misschien denk je dat de raad om altijd over te stappen op gestandaardiseerde coördinaten en assenstelsels toch wel wat overdreven is. Het vraagt bovendien extra werk (hoewel je rekentoestel bijna al het werk voor jou doet). Om je te overtuigen dat gestandaardiseerde figuren de enige figuren zijn waar je een houvast aan hebt, staan hieronder de opmetingen van de bloemblaadjes, zoals die genoteerd werden door Seppe, Kato, Robbe, en Lotte. De bijhorende correlatiecoëfficiënt kan je zelf narekenen, en de vier overeenkomstige puntenwolken, maar nu in gestandaardiseerde eenheden getekend, vind je op de volgende bladzijde. Had je dat resultaat verwacht? Seppe Kato Robbe Lotte x i y i x i y i x i y i x i y i 5 7 8 9 11 13 14 15 16 17 19 20 21 22 23 25 27 28 29 32 8 7 27 16 28 7 16 18 15 26 20 24 33 16 25 19 14 15 39 37 20.125 20.175 20.200 20.225 20.275 20.325 20.350 20.375 20.400 20.425 20.475 20.500 20.525 20.550 20.575 20.625 20.675 20.700 20.725 20.800 8 7 27 16 28 7 16 18 15 26 20 24 33 16 25 19 14 15 39 37 9 11 12 13 15 17 18 19 20 21 23 24 25 26 27 29 31 32 33 36 21.000 20.875 23.375 22.000 23.500 20.875 22.000 22.250 21.875 23.250 22.500 23.000 24.125 22.000 23.125 22.375 21.750 21.875 24.875 24.625 16.25 16.75 17.00 17.25 17.75 18.25 18.50 18.75 19.00 19.25 19.75 20.00 20.25 20.50 20.75 21.25 21.75 22.00 22.25 23.00 4.6 3.4 27.4 14.2 28.6 3.4 14.2 16.6 13.0 26.2 19.0 23.8 34.6 14.2 25.0 17.8 11.8 13.0 41.8 39.4 r = 0.50 r = 0.50 r = 0.50 r = 0.50 Centrum voor Statistiek 27

Figuur 43. (Seppe) (r = 0.50) Figuur 44. (Kato) (r = 0.50) Figuur 45. (Robbe) (r = 0.50) Figuur 46. (Lotte) (r = 0.50) Centrum voor Statistiek 28

4.4. Technische nota. Bij een ellipsvormige puntenwolk meet de correlatiecoëfficiënt de sterkte van de lineaire samenhang van de punten rond een typische rechte. Deze sterkte wordt echter niet in absolute eenheden gemeten, maar in relatieve eenheden. In de formule van de correlatiecoëfficiënt zie je dat de afstand tot het gemiddelde gedeeld wordt door de standaardafwijking, zodat deze afstand niet in absolute termen maar in termen van s x en s y wordt uitgedrukt. Hierbij (en in heel deze module) wordt altijd ondersteld dat s 0 en s 0. Voor punten die allemaal op een horizontale (of x y allemaal op een verticale) rechte liggen wordt de correlatiecoëfficiënt niet gedefinieerd. Een lineaire transformatie van x of y verandert niets aan de absolute waarde van de xi x y gestandaardiseerde grootheden en i y. De absolute waarde van de correlatiecoëfficiënt sx s y verandert dus ook niet wanneer je van x overstapt op ax+b of wanneer je y vervangt door cy+d. Met de notatie r xy voor de correlatiecoëfficiënt van de oorspronkelijke veranderlijken, 1 ( ) x i x yi y r = xy n 1 sx s y heb je dat r = r voor a c > 0 r xy xy = r ( ax+ b)( cy+ d ) voor a c < ( ax+ b)( cy+ d ) 0 Anderzijds is het wel zo dat het uitzicht van een puntenwolk afhankelijk is van een wijziging in s x of in s y. En dit is het probleem met de puntenwolken van Seppe, Kato, Robbe en Lotte. De figuren worden samengeperst of uitgerokken, en je krijgt een totaal vertekend beeld van de sterkte van de lineaire samenhang. Daarom moet je altijd werken op de gestandaardiseerde schaal. De wiskundige verbanden (allemaal lineaire transformaties) staan in de volgende tabel, waarbij Seppe als referentiepunt is genomen. Seppe x i y i s x = 7.87 s y = 9.25 r = 0.50 Kato x i /40 + 20 y i s x = 0.20 s y = 9.25 r = 0.50 Robbe x i + 4 y i /10 + 20 s x = 7.87 s y = 1.16 r = 0.50 Lotte x i /4 + 15 y i *1.2 5 s x = 1.97 s y = 11.10 r = 0.50 Centrum voor Statistiek 29

5. Wat kan er zoal fout gaan Het ergste wat er kan fout gaan is dat je geen puntenwolk tekent. Een kengetal, zoals een correlatiecoëfficiënt, geeft slechts informatie in een samengevatte vorm. Deze informatie kan zeer verhelderend zijn, of zeer misleidend, en dat kan je uit zo n getal niet te weten komen. Daarom heb je een figuur nodig, en liefst een figuur waar je enige houvast aan hebt. Voor ellipsvormige puntenwolken betekent dit dat je gebruik maakt van een gestandaardiseerde schaal. 5.1. Uitschieters, krommen, en de voorbeelden van Anscombe. Inzicht in een gegevensverzamelingen krijg je meestal niet uit zomaar één kengetal, en dikwijls zijn meerdere kengetallen zelfs niet voldoende. Daarom is het maken van goede figuren een essentieel onderdeel van elke statistische exploratie van een dataset. Dat zie je bijvoorbeeld duidelijk in de 4 datasets die door F. J. Anscombe werden opgesteld, en die hieronder zijn weergegeven. Voor elk van deze datasets is de correlatiecoëfficiënt gelijk aan 0.82. Hieruit afleiden dat er in die vier gevallen een sterke lineaire samenhang is tussen x en y zou een grote vergissing zijn. Dat zie je in de bijhorende figuren. De figuren zijn getekend op basis van de ruwe gegevens, zoals opgesteld door Anscombe. Figuur 47a is globaal ellipsvormig, en daarom wordt die nadien ook nog eens in gestandaardiseerde coördinaten getekend (figuur 48), om een idee te krijgen over de sterkte van de lineaire samenhang. Figuur 47b laat zien dat er een duidelijke samenhang is tussen y en x, die echter niet lineair is, maar volgens een kromme verloopt. Figuren 47c en 47d illustreren dat de correlatiecoëfficiënt uitermate gevoelig is voor uitschieters. Anscombe_1 Anscombe_2 Anscombe_3 Anscombe_4 x i y i x i y i x i y i x i y i 10 8.04 10 9.14 10 7.46 8 6.58 8 6.95 8 8.14 8 6.77 8 5.76 13 7.58 13 8.74 13 12.74 8 7.71 9 8.81 9 8.77 9 7.11 8 8.84 11 8.33 11 9.26 11 7.81 8 8.47 14 9.96 14 8.10 14 8.84 8 7.04 6 7.24 6 6.13 6 6.08 8 5.25 4 4.26 4 3.10 4 5.39 19 12.50 12 10.84 12 9.13 12 8.15 8 5.56 7 4.82 7 7.26 7 6.42 8 7.91 5 5.68 5 4.74 5 5.73 8 6.89 Centrum voor Statistiek 30

Figuur 47a. (Anscombe_1) Figuur 47b. (Anscombe_2) Figuur 47c. (Anscombe_3) Figuur 47d. (Anscombe_4) Figuur 48. (Anscombe_1) (gestandaardiseerd) Centrum voor Statistiek 31

5.2. Clusters In de paleontologie wordt ondermeer de prehistorische mens bestudeerd op basis van skeletten die bij opgravingen worden ontdekt. In de onderstaande tabel zie je de lengte en de breedte van een bepaald beentje, opgemeten bij skeletten van kinderen. Tevens staat aangegeven of het om een meisje (M) of om een jongen (J) gaat. ID Sex Lengte (cm) x i Breedte (cm) y i 1 M 10.0 3.0 2 M 11.0 5.0 3 M 11.5 3.5 4 M 12.0 4.0 5 M 12.5 2.5 6 M 13.0 2.0 7 J 13.0 8.0 8 J 13.5 7.5 9 M 14.0 2.5 10 J 14.0 6.5 11 J 15.0 7.0 12 J 15.5 7.5 13 J 16.0 6.0 14 J 16.5 7.0 x = 13.4 s x = 1.92 y = 5.1 s y r = 0.56 = 2.17 De correlatiecoëfficiënt is gelijk aan 0.56 wat op een positieve lineaire samenhang tussen x en y zou kunnen wijzen. Dit betekent dat, globaal genomen, langere beenderen ook breder zijn. De typische rechte in figuur 49, die door het zwaartepunt (13.4, 5.1) gaat en een richtingscoëfficiënt heeft die gelijk is aan s y / s x = 2.17 / 1.92, wijst blijkbaar ook in die richting. Maar is dat wel waar? Figuur 49. Centrum voor Statistiek 32

Als je goed naar de figuur kijkt dan zie je dat de puntenwolk uit twee groepen (of twee clusters) bestaat: een groep punten links onder en een andere groep rechts boven. Dat je hier inderdaad met twee clusters te maken hebt kom je ook te weten uit de dataset. Alle punten links onder zijn afkomstig van skeletten van meisjes, en alle punten rechts boven zijn opmetingen van jongens. Deze observatie laat vermoeden dat skeletten van kinderen bestuderen, waarbij de gegevens van meisjes en jongens in één grote dataset samen staan, misschien niet zo verstandig is. Kijk dus eens naar de twee groepen afzonderlijk. Meisjes Lengte (cm) Jongens Lengte (cm) ID Sex x i Breedte (cm) y i ID Sex x i 1 M 10.0 3.0 7 J 13.0 8.0 2 M 11.0 5.0 8 J 13.5 7.5 3 M 11.5 3.5 10 J 14.0 6.5 4 M 12.0 4.0 11 J 15.0 7.0 5 M 12.5 2.5 12 J 15.5 7.5 6 M 13.0 2.0 13 J 16.0 6.0 9 M 14.0 2.5 14 J 16.5 7.0 x = 12.0 s x = 1.32 y = 3.2 s y = 1.04 x = 14.8 s x = 1.32 r = 0.55 r = 0.54 Breedte (cm) y i y = 7.1 s y = 0.67 De nieuwe studie vertelt nu plots een heel ander verhaal. Zowel bij meisjes als bij jongens is de correlatiecoëfficiënt negatief. Bovendien zijn de puntenwolken globaal ellipsvormig, zodat je kan besluiten dat er een matige lineaire samenhang is in de negatieve zin. Bij die beenderen gaat blijkbaar kort en breed en lang en smal hand in hand, zowel bij meisjes als bij jongens. Je ziet dat ook op de figuren 50 en 51, waar tevens de typische rechte getekend is. Figuur 50. (meisjes) Figuur 51. (jongens) Centrum voor Statistiek 33

Om grafisch een goed beeld te krijgen van de sterkte van de negatieve lineaire samenhang, zijn de figuren 52 en 53 getekend in gestandaardiseerde eenheden. De typische rechte is hier telkens de tweede bissectrice. Figuur 52. (meisjes) Figuur 53. (jongens) 5.3. Ecologische correlatie. In het Europa van de 19 de eeuw waren de zelfmoordcijfers hoger in de landen die overwegend protestants waren. Kan je daaruit besluiten dat de levenswijze opgelegd door het protestantisme de zelfmoordneiging aanwakkert? Je hebt hier te maken met twee problemen tegelijk. Het ene heet verstrengeling, wat betekent dat er nog heel wat andere factoren meespelen. Inderdaad, protestantse landen waren op veel punten verschillend van katholieke landen, en dat was niet alleen aan de religie te wijten. Op dit probleem gaan we momenteel niet dieper in. Het andere probleem heeft te maken met gegevens die reeds gedeeltelijk samengevat zijn in een gemiddelde of in een proportie. In dit voorbeeld gaat het over gegevens per land. Het zijn niet landen die zelfmoord plegen, maar mensen. Een typische fout bestaat er in om uit een sterke samenhang tussen gegevens per land, de conclusie te trekken dat dezelfde sterke samenhang er ook is voor de individuen in die landen. Die fout wordt de ecologische valkuil genoemd. Correlatie van gegevens die zelf reeds groepsgewijze gemiddelden zijn, heet ecologische correlatie. Algemeen spreekt men over ecologische gegevens wanneer je te maken hebt met gegevens die zelf reeds groepsgewijs zijn samengevat (in gemiddelden of in proporties). Centrum voor Statistiek 34

Ecologische gegevens kom je in veel domeinen tegen, en het is belangrijk om niet in de ecologische valkuil te trappen. In de epidemiologie zijn er heel wat studies die landen vergelijken. Zo is blijkbaar het aantal borstkankers beduidend hoger in landen waar de voeding meer vetstof bevat. Maar kan je uit deze gegevens rechtstreeks besluiten dat vrouwen die meer vet eten ook een grotere kans op borstkanker hebben? Dit kan waar zijn, maar die informatie haal je niet uit gegevens per land. Op het terrein van het milieu en de gezondheidszorg verzamelt men soms informatie per provincie. Maar een sterke samenhang per provincie tussen pollutie en opname in ziekenhuizen, is niet voldoende om te weten te komen hoe die samenhang er uitziet voor de mensen die daar wonen. Als je per gemeente het gemiddelde inkomen kent, samen met de overwegende voorkeur voor een politieke partij, dan kan je onderzoeken of daar een sterke samenhang te bespeuren is. Maar dan weet je dat nog helemaal niet op het niveau van de individuele kiezer. Onderstaande tabel bevat (fictieve) opmetingen waarbij ook is aangegeven uit welk land zij komen. In figuur 54 staat de puntenwolk en de bijhorende typische rechte getekend. Je kan hier spreken van een matig sterke positieve lineaire samenhang, waarbij de correlatiecoëfficiënt gelijk is aan 0.63. Land x i y i A 4 4 A 8 12 A 16 4 A 24 12 B 12 8 B 16 16 B 28 8 B 24 32 C 20 24 C 28 20 C 32 28 C 36 24 x = 20.7 y = 16.0 s x = 9.77 s y = 9.50 r = 0.63 Centrum voor Statistiek 35

Figuur 54. Als je nu die individuele opmetingen niet zou hebben, maar alleen de gemiddelde informatie per land, dan zou dat neerkomen op de volgende dataset. De bijhorende puntenwolk zie je in figuur 55, en je merkt dat de correlatiecoëfficiënt uitzonderlijk groot is, namelijk 0.997. Dit wijst hier op een enorm sterke positieve lineaire samenhang. Maar het gaat over ecologische gegevens. Zoals je hierboven hebt gemerkt is de samenhang op individuele basis helemaal niet zo sterk. Land x i y i A 13 8 B 20 16 C 29 24 x = 20.7 = 8.02 y = 16.0 = 8.00 s x s y r = 0.997 Figuur 55. Centrum voor Statistiek 36

5.4. Oorzaak en samenhang Bij kinderen van de lagere school is er een sterke samenhang tussen taalvaardigheid en schoenmaat. Nochtans is het feit dat zij vlotter leren lezen er niet de oorzaak van dat hun voeten gaan groeien. Er is hier een andere factor in het spel, namelijk leeftijd. Naar puntenwolken kijken en correlatiecoëfficiënten uitrekenen behoedt je niet tegen de klassieke fout dat je samenhangen verwart met veroorzaken. In het voorbeeld van de schoolkinderen was het niet moeilijk om een verstrengelende factor (namelijk leeftijd ) te ontdekken. Maar de meeste statistische studies zijn veel complexer, en daar kan het echt moeilijk zijn om te weten te komen of er een oorzakelijk verband is. Dikwijls kan je alleen maar zeggen dat je gemerkt hebt dat twee eigenschappen sterk lineair samenhangen (in positieve of in negatieve zin). Centrum voor Statistiek 37