Statistische Intelligentie

Maat: px
Weergave met pagina beginnen:

Download "Statistische Intelligentie"

Transcriptie

1 Statistische Intelligentie De samenhang ontdekken Exploratie van bivariaat cijfermateriaal Deel 1. Correlatie a. Herman Callaert

2 Dankwoord Een bijzonder woord van dank gaat naar de leden van de stuurgroep Marc Aerts, Sofie Bogaerts, Liesbeth Bruckers, Saskia Litière en Veerle Vandersmissen. Hun opmerkingen, suggesties en kritische kanttekeningen hebben een positieve bijdrage geleverd bij het ontwerpen van deze tekst. 2004, L. U. C. Diepenbeek (België), Statistische Intelligentie Depotnummer: D/2004/2451/16 Niets in deze uitgave mag worden verveelvoudigd en/of openbaar gemaakt door middel van druk, fotokopie, microfilm of op welke andere wijze ook zonder voorafgaande schriftelijke toestemming van de uitgever. Het is toegestaan aan leerkrachten om deze tekst te reproduceren voor gebruik in de klas. Hierbij dient steeds het project Statistische Intelligentie en de naam van de auteur te worden vermeld.

3 Inhoud 1. Samenhang en soorten veranderlijken Bivariate categorische gegevens Bivariate continue gegevens Kijken naar puntenwolken De globale vorm van een puntenwolk Lineaire samenhang bij ellipsvormige puntenwolken De correlatiecoëfficiënt Marginale kengetallen Een maat voor lineaire samenhang Een typische rechte De lineaire samenhang meten Correlatiecoëfficiënten en puntenwolken Een experiment De lineaire samenhang visualiseren Een toepassing Technische nota Wat kan er zoal fout gaan? Uitschieters, krommen, en de voorbeelden van Anscombe Clusters Ecologische correlatie Oorzaak en samenhang... 37

4 1. Samenhang en soorten veranderlijken. De samenhang tussen twee veranderlijken kan je op verschillende manieren onderzoeken. Je kan figuren tekenen, of je kan kengetallen berekenen, en meestal is het verstandig om beide te doen. Wat je juist moet doen, hangt af van de context en van de vraag die je wilt beantwoorden. Maar het hangt zeker ook af van het soort opmetingen waarover je beschikt. Om over de verschillende soorten veranderlijken iets te leren, kan je de tekst Gegevens en hun context eens bekijken. Begrippen en voorbeelden uit die tekst zal je ook hier tegenkomen. Soms ben je geïnteresseerd in één welbepaalde veranderlijke. Dat kan bijvoorbeeld het huidige geboortegewicht van meisjes in Vlaanderen zijn. Je zal daarvoor ofwel zelf gegevens moeten verzamelen, ofwel beschik je reeds over een goede dataset die door anderen is opgesteld. In een dergelijke dataset ga je op zoek naar de veranderlijke geboortegewicht, en je zal hiervoor een boxplot of een histogram tekenen, het gemiddelde en de standaardafwijking berekenen, enzovoort. Maar als je in de databank van de Californische gezinnen wilt weten hoe het zit met de bloedgroep van die kinderen, dan zal je zeker geen histogram tekenen, maar bijvoorbeeld met een aangepast staafdiagram werken. En een gemiddelde of een standaardafwijking heeft hier ook geen zin, maar proporties kunnen je wel een beeld geven. In andere gevallen wil je weten of er een samenhang bestaat tussen twee veranderlijken. Je zal die twee veranderlijken dan tegelijkertijd bestuderen. Zou er een samenhang zijn tussen de lengte en het gewicht van pasgeborenen? Is er een samenhang tussen de lengte en de breedte van de bloemblaadjes van de Iris Setosa? En komen de bloedgroepen in dezelfde verhouding voor bij jongens als bij meisjes? Om op de bovenstaande vragen een antwoord te kunnen geven heb je voor elk element uit je databank de waarden nodig van de twee veranderlijken. Men zegt dan dat je bivariate gegevens bestudeert (waarbij bi verwijst naar twee en variaat naar het Engelse variate wat veranderlijke die aan het toeval onderhevig is betekent). Dergelijke gegevens kunnen in verschillende combinaties voorkomen wat hun soort betreft. Zij kunnen bijvoorbeeld allebei nominaal categorisch zijn, maar het is ook mogelijk dat zij beide continu zijn. En natuurlijk is er ook een mengeling mogelijk, waarbij de ene veranderlijke categorisch is en de andere continu. Voor elk van deze situaties is er een eigen manier om de gegevens grafisch voor te stellen, en zijn er eigen methoden voor de verdere statistische analyse. Op de volgende bladzijden maak je kennis met voorbeelden van de twee uiterste gevallen: bivariate categorische gegevens, en bivariate continue gegevens. Daarna concentreer je je voor de rest van deze module op de specifieke situatie waarbij beide veranderlijken continu zijn. Centrum voor Statistiek 1

5 1.1. Bivariate categorische gegevens. De ondergang van de Titanic werd voor onmogelijk gehouden, maar toch gebeurde het. Een gedeelte van de gegevens over deze ramp ziet er als volgt uit: Klas Uitkomst Hierbij zegt de veranderlijke Klas welk ticket de passagier gekocht had: 1 = eerste klas, 2 = tweede klas, 3 = derde klas, en de code 4 staat voor bemanning. De veranderlijke Uitkomst geeft aan of de persoon gered werd (code = 0) of verdronk (code = 1). Probeer de informatie in onderstaande kruistabel (ook contingentietabel genoemd) duidelijk te verwoorden. Wat betekent het getal 178 in deze tabel? En wat zegt het getal 1490 over de ramp? Hoeveel mensen waren er aan boord toen de Titanic tegen de ijsberg botste en zonk? Terwijl de Titanic aan het zinken was, werd bij de reddingsoperatie voorrang gegeven aan vrouwen en kinderen (wat de standaard procedure is), maar ook aan reizigers eerste klas. Dat wordt tenminste door sommigen beweerd. Kan je dat halen uit die kruistabel? Klas Uitkomst Totaal Gered Verdronken Eerste klas Tweede klas Derde klas Bemanning Totaal Bemerk dat deze kruistabel tegelijkertijd informatie geeft over twee categorische veranderlijken. De veranderlijke Klas bestaat uit 4 categorieën, en die vormen de vier rijen van de kruistabel. De veranderlijke Uitkomst heeft twee categorieën, die de twee kolommen bepalen. Het kruispunt van juist één rij en één kolom vormt een cel in de tabel. In deze cel staat het overeenkomstig aantal elementen uit de dataset die gelijktijdig aan de rijeigenschap en aan de kolomeigenschap voldoen. Zo betekent het getal 178 dat er van het totaal aantal aanwezigen (2201) juist 178 waren die een derde klas ticket hadden en de ramp overleefden. Centrum voor Statistiek 2

6 1.2. Bivariate continue gegevens. Continue veranderlijken zoals lengte en gewicht heb je al in meerdere datasets ontmoet. Zo is er de Fisher s Iris data gegevensverzameling waar ondermeer de lengte en breedte van 50 bloemblaadjes van de Iris Setosa staan opgetekend. Je kan veronderstellen dat er enige samenhang is tussen de lengte en de breedte van bloemblaadjes van eenzelfde type bloem. Als je dat grafisch wilt voorstellen dan zie je dat er voor elk bloemblaadje gelijktijdig twee opmetingen zijn: de lengte van het blad en zijn breedte. Je kan dit noteren door het koppel (x,y) met x = lengte en y = breedte. Maar je hebt zo n koppel opmetingen voor elk van die 50 blaadjes, en dus moet je een index toevoegen om te zeggen over welk blad het gaat. Zo geeft (x 1,y 1 ) de lengte en breedte van het eerste blad, (x 2,y 2 ) de lengte en breedte van het tweede blad, enzovoort. Algemeen kan je zeggen dat (x i,y i ) de lengte en de breedte van het i-de blad aangeeft. Grafisch bepaalt zo n koppel een punt in het vlak, en als je nu voor elk van die 50 bloemblaadjes het bijhorend punt in het vlak tekent, dan krijg je een puntenwolk. Zo n puntenwolk is de klassieke manier om bivariate continue gegevens voor te stellen. Zorg ervoor dat je zo n puntenwolk goed kan lezen. Welk puntje in figuur 1 komt overeen met het smalste blad? Waar vind je het blad dat het langste is? Is dat ook het breedste? Figuur 1. Centrum voor Statistiek 3

7 2. Kijken naar puntenwolken. Er zijn twee soorten puntenwolken: de puntenwolken waarvan het globale uitzicht ruwweg ellipsvormig is, en de andere. De ellipsvormige puntenwolken spelen een zeer belangrijke rol in statistisch onderzoek. In deze module leer je hiermee werken. In de realiteit kom je ook heel veel puntenwolken tegen die niet ellipsvormig zijn. Daarom zal je in deze tekst ook van dergelijke puntenwolken voorbeelden tegenkomen. Op die manier leer je aandachtig kijken naar een puntenwolk, en weet je waarop je zoal speciaal moet letten De globale vorm van een puntenwolk. Een puntenwolk is een grafische voorstelling van bivariate continue gegevens. Meestal zie je in zo n puntenwolk heel wat variabiliteit. Daarom begin je naar een globale vorm te zoeken, zonder je al te veel vast te pinnen op enkele punten die hier en daar afwijken (als dat tenminste niet te drastisch is). Wanneer je besluit dat een puntenwolk globaal ellipsvormig is, dan betekent dit dat de grote meerderheid van de punten binnen een ellips vallen, zonder een verder uitgesproken patroon. Maar er zullen dan ook nog wel enkele punten buiten die ellips zijn terechtgekomen, en wanneer je maar met een klein aantal punten werkt trekken die nog dikwijls extra aandacht. Door in verschillende situaties naar puntenwolken te kijken krijg je de nodige ervaring die je bij deze studie zeker kan helpen. Figuur 2. Centrum voor Statistiek 4

8 De puntenwolk in figuur 2 heeft 1078 punten, en in figuur 3 staan er slechts 20. Toch kan je in beide gevallen zien dat het globale beeld ellipsvormig is. Figuur 3. Een totaal andere indruk krijg je bij het kijken naar figuur 4. Doorheen de variabiliteit kan je in die puntenwolk een uitgesproken patroon ontdekken. Als je naar de globale figuur kijkt, dan kan je zeker niet over een ellipsvorm spreken, zelfs niet bij benadering. Figuur 4. Centrum voor Statistiek 5

9 De figuren 5 en 6 zijn dan weer van een andere soort. Geen van beide leent zich voor een ellipsvorm. De eerste puntenwolk start links in het midden met een kleine variabiliteit in de y-richting. Naarmate je meer naar rechts gaat blijft de variabiliteit maar groeien, en liggen de punten in de verticale richting meer en meer uit elkaar. Daar is geen ellips van te maken. Figuur 6 telt slechts 11 punten, waarvan er tien in een smalle ellips te vangen zijn. Het elfde punt is werkelijk een uitschieter. Dat moet je eerste speciaal bestuderen vooraleer je die puntenwolk verder kan interpreteren. Figuur 5. Figuur 6. Centrum voor Statistiek 6

10 2.2. Lineaire samenhang bij ellipsvormige puntenwolken. Bij puntenwolken die er globaal uitzien als een ellips kan je op zoek gaan naar een rechte waarrond de punten verspreid zijn. Als je de punten van figuur 2 op zicht in zo n ellipsvorm zou proberen te vangen, dan zou je voor de bijhorende typische rechte waarschijnlijk iets vinden zoals in figuur 7. Figuur 7. Bij ellipsvormige puntenwolken heeft het zin om te spreken over een typische rechte waarrond de punten verspreid liggen. Deze verspreiding kan er van geval tot geval nogal verschillend uitzien. De studie van de verspreiding (of de verstrooiing) van punten rond een typische rechte krijgt de naam van: studie van de lineaire samenhang. Hierbij verwijst het woordje lineair naar het feit dat je niet op zoek gaat naar zomaar een samenhang tussen de punten. Neen, je kijkt heel speciaal naar samenhang ten opzichte van een rechte. De studie van de lineaire samenhang in een puntenwolk concentreert zich op twee karakteristieken: de sterkte van de samenhang, en de zin van de samenhang. Om een idee te hebben over de sterkte van de lineaire samenhang kan je kijken naar de manier waarop de punten, als groep, aansluiten aan een rechte. Als zij allemaal dicht tegen een rechte liggen, dan is de samenhang sterk. Wanneer er wat meer spreiding op zit, dan kan je zeggen dat er matige lineaire samenhang is. Wanneer de punten ver uit elkaar liggen, dan is de samenhang zwak. Typische ellipsvormen, en voorbeelden van puntenwolken, zie je op de volgende bladzijde. Centrum voor Statistiek 7

11 Figuur 8. In figuur 8 liggen de punten ver uit elkaar, maar een uitgesproken patroon (zoals parabool of sinuscurve) die een ellipsvorm tegenspreekt valt niet te bespeuren. Ook zijn er geen speciale uitschieters te bemerken. Je mag hier dus werken met eigenschappen van ellipsvormige puntenwolken. Je ziet hier dat de punten een grote spreiding rond een typische rechte vertonen, en je zal hier dus spreken van zwakke lineaire samenhang. Figuur 9. In figuur 9 liggen de punten al meer geconcentreerd rond een rechte, en de lineaire samenhang is hier zeker sterker dan in figuur 8. Figuur 10. Figuur 10 is een voorbeeld van een ellipsvormige puntenwolk waarbij de lineaire samenhang zeer sterk is. Centrum voor Statistiek 8

12 De vorige drie figuren hebben een gemeenschappelijk kenmerk: wanneer je de x-as van links naar rechts doorloopt en daarbij naar punten kijkt waarvan de x-coördinaat groter en groter wordt, dan wordt hun bijhorende y-coördinaat ook groter. Deze uitspraak moet je als een globaal kenmerk bekijken, en niet puntje per puntje. In figuur 9 bijvoorbeeld ligt de meerderheid van de punten waarvan de x-coördinaat rond 25 ligt hoger (heeft dus een grotere y-coördinaat) dan de meerderheid van de punten die een x-coördinaat rond 10 hebben. En hoewel het puntje (8,21) een grotere y-coördinaat heeft dan (23,18), verstoort dit niet de globale tendens. Men zegt dat de zin van de lineaire samenhang positief is wanneer de ellipsvormige puntenwolk in haar globaliteit van links onder naar rechts boven gaat. In het andere geval spreekt men over negatieve lineaire samenhang. Hieronder zie je twee figuren waarbij de lineaire samenhang duidelijk negatief is. Bij figuur 11 is deze negatieve lineaire samenhang matig, en bij figuur 12 is hij sterk. Figuur 11. Figuur 12. Centrum voor Statistiek 9

13 Je hebt nu zowat alle mogelijkheden bekeken voor de studie van ellipsvormige puntenwolken. Er blijven echter nog twee extreme gevallen over, die je beide als een limietsituatie kan opvatten. In figuur 8 zie je dat een zwakke lineaire samenhang gepaard gaat met een dikke ellips. Als deze lineaire samenhang nog zwakker wordt dan wordt die ellips nog dikker, en in het extreme geval wordt die ellips een cirkel, en is er geen lineaire samenhang meer aanwezig. Een voorbeeld van dergelijke puntenwolk zie je in figuur 13. Figuur 13. Figuur 10 toont een zeer smalle ellips, want de lineaire samenhang is daar zeer sterk. Wanneer die lineaire samenhang perfect wordt dan wordt die ellips een rechte lijn. In figuur 14 zie je een voorbeeld van een perfecte negatieve lineaire samenhang. In figuur 15 staat een voorbeeld van een perfecte positieve lineaire samenhang. Figuur 14. Figuur 15. Centrum voor Statistiek 10

14 3. De correlatiecoëfficiënt Bij het kijken naar puntenwolken heb je al een eerste indruk opgedaan over hun vorm, en over de sterkte en zin van een lineaire samenhang. Deze grafische manier om naar puntenwolken te kijken is zeer belangrijk en vormt de eerste stap bij een statistisch onderzoek. Op de tweede plaats komt dan de weergave in getallen van wat je in de figuur gezien hebt Marginale kengetallen. Een puntenwolk is een figuur die je tekent op basis van een aantal bivariate continue opmetingen (x i,y i ). Je kan hiervan meerdere kenmerken bestuderen en in statistische grootheden samenvatten. Figuur 7 is een puntenwolk die afkomstig is van opmetingen in gezinnen, waarbij de lengte van de vader en van zijn oudste volwassen zoon werden genoteerd. Het koppel (x i,y i ) komt dus overeen met (lengte vader, lengte zoon) van het i-de gezin. In totaal waren er 1078 dergelijke opmetingen. Een deel van deze dataset ziet er als volgt uit: Lengte van de vader (cm) x i Lengte van de zoon (cm) y i Een eerste typisch kenmerk van een (ellipsvormige) puntenwolk is haar centrum. Hiervoor bereken je het zwaartepunt ( x, y). Je start dus met alleen naar de x-coördinaten van alle punten te kijken. Die geven je de lengte van alle vaders. En daarvan bereken je het gemiddelde x, wat de gemiddelde lengte van de vaders is. Op dezelfde manier kan je ook kijken naar de y-coördinaten, wat je de lengte van alle zonen oplevert. Ook hiervoor kan je het gemiddelde uitrekenen. Voor deze dataset geeft dat: x = 172 cm en y = cm. Op figuur 16 staat het zwaartepunt getekend. y x Figuur 16. Centrum voor Statistiek 11

15 Wanneer je terug alleen maar naar de lengte van de vaders kijkt, dan heb je 1078 getallen x i. Van elke verzameling getallen weet je dat een meerderheid ervan op minder dan een afstand 2s x verwijderd ligt van x. Hierbij is x het gemiddelde van de x i - getallen, en s x is de notatie voor hun standaardafwijking. Hoe groot die meerderheid is hangt af van de globale vorm van het histogram. Lijkt die goed op een normale curve, dan gaat het wel over 95% van die getallen. En bijna altijd zijn het er minstens 75%. Op eenzelfde manier kan je ook redeneren over de lengte van de zonen, en dan gaat het over de y i - getallen, met hun bijhorende notatie. Voor de dataset die we hier bestuderen geldt: Lengte van de vader (x i ) Lengte van de zoon (y i ) x = 172 cm s x = 6. 9 cm y = cm s y = 7. 0 cm De meerderheid van de lengtes van de vaders ligt dus in het interval [ x 2 s ; x + 2 ] = x s x [158.2;185.8], en je kan dat op figuur 17 goed zien. Het zijn alle punten van de puntenwolk die gevangen zitten in de verticale strook. x 2s x x x + 2s x Figuur 17. Voor de lengte van de zonen heb je dat [ y 2 s ; y + 2 ] = [160.5;188.5]. In figuur 18 zie je dat y s y deze horizontale strook de meerderheid van de punten uit de puntenwolk te pakken heeft. Voor al die punten ligt de lengte van de zoon in het interval [160.5;188.5]. y + 2s y y y 2s y Figuur 18. Centrum voor Statistiek 12

16 Uit bivariate gegevens (x i, y i ) kan je de afzonderlijke gegevens x i halen (zoals de lengte van de vaders) en de kenmerken daarvan bestuderen. Hetzelfde kan je doen voor de y i s (de lengte van de zonen). Maar bivariate gegevens bevatten meer informatie dan de eigenschappen van elke component afzonderlijk. Inderdaad, als je alle lengtes van de vaders en alle lengtes van de zonen kent, dan ben je nog niet in staat om de puntenwolk te tekenen. Je moet namelijk ook de samenhang nog kennen: welke zoon hoort bij welke vader. Een eenvoudig voorbeeld, met slechts enkele opmetingen, is als volgt. Bij Anouk en bij Lauren zijn de x-waarden identiek, en als je alleen naar de y-waarden kijkt, dan kom je bij beiden dezelfde getallen tegen. Dat betekent dus dat het gemiddelde en de standaardafwijking van de x i - getallen (en ook van de y i - getallen) hetzelfde zijn. Dat zie je in onderstaande tabellen. Hieruit volgt dat de bijhorende puntenwolken te vangen zijn in exact dezelfde verticale strook (wat de x-waarden betreft), en exact dezelfde horizontale strook (wat de y-waarden betreft). Dit is inderdaad waar, maar het vertelt helemaal niets over de samenhang in deze puntenwolken. Dat merk je in figuur 19 en 20, waar de puntenwolk van Anouk en die van Lauren getekend is. Anouk x i x 3 en s =1. 6 = x y i y 3.6 en s = 1. 8 = y Lauren x i x = 3 en sx =1. 6 y i y 3.6 en s = 1. 8 = y Figuur 19. (Anouk) Figuur 20. (Lauren) Centrum voor Statistiek 13

17 3.2. Een maat voor lineaire samenhang. Om de samenhang in puntenwolken te illustreren heb je blijkbaar meer nodig dan eigenschappen van x en y afzonderlijk. Er bestaan heel veel manieren om samenhang in puntenwolken te karakteriseren, maar hier ga je je beperken tot ellipsvormige puntenwolken waarbij je op zoek gaat naar de samenhang rond een typische rechte. Deze lineaire samenhang wil je dan ook met een getal kunnen karakteriseren Een typische rechte. In de figuren 7-12 zie je een typische rechte waarrond de punten van een ellipsvormige puntenwolk verspreid liggen. Welke rechte is dit? Het zal je niet verwonderen dat die rechte door het zwaartepunt ( y) x, van de puntenwolk moet lopen. Hiermee heb je al een eerste karakteristiek van de x i s en de y i s gebruikt, namelijk hun gemiddelde. Om nu nog de richting van die rechte te bepalen ga je gebruik maken van de standaardafwijkingen s x en s y. De richtingscoëfficiënt bepaal je dan als volgt: als je een afstand van één standaardafwijking s x naar rechts gaat in de x-richting (horizontaal), dan moet je ook een afstand van één standaardafwijking s y naar boven gaan in de y-richting (verticaal). Op die manier standaardiseer je de variabiliteit in beide richtingen. Je volgt deze procedure voor puntenwolken waarbij de zin van de lineaire samenhang positief is. Is deze zin negatief, dan verander je het teken van de richtingscoëfficiënt. De vergelijking van deze typische rechte is dus gegeven door (vergelijking van een rechte door een gekend punt en met een gekende richtingscoëfficiënt): y - voor een positieve lineaire samenhang: ( y y) = ( x x) s s x of y y s y = x x s x y - voor een negatieve lineaire samenhang: ( y y) = ( x x) s s x of y y s y = x x s x Centrum voor Statistiek 14

18 De typische rechte die hoort bij de puntenwolk van Anouk zie je in figuur 21. Haar vergelijking is 1.8 ( y 3.6) = ( x 3). 1.6 s y s x Figuur 21 Op dezelfde manier werden ook de typische rechten getekend voor de puntenwolken in de figuren 7, 8, 9, 10, 11, en De lineaire samenhang meten. Bij puntenwolken die globaal ellipsvormig zijn kan je kijken naar de manier waarop de punten rond een typische rechte geconcentreerd zijn. Je kan dit proberen uit te drukken in een getal. Het is enorm belangrijk dat je de betekenis van dit getal goed begrijpt. Vooreerst gaat het over de karakterisatie van lineaire samenhang van punten rond een typische rechte. Waar die rechte gelegen is in het vlak, en hoe zwak of hoe sterk die rechte stijgt of daalt, speelt hier geen enkele rol. Wat wel meespeelt is de zin van de samenhang: is die positief (stijgende rechte) of negatief (dalende rechte)? En vervolgens geeft dit getal alleen aan hoe sterk de concentratie van de punten rond die bepaalde rechte is. In de figuren 22 en 23 zie je twee voorbeelden van positieve lineaire samenhang. De opmetingen van Sarah en Michiel staan er ook expliciet bij aangegeven. Zo kan je de punten zelf tekenen, en je kan ook het zwaartepunt van de puntenwolk berekenen en de vergelijking van de typische rechte opstellen. Bij Michiel bijvoorbeeld zie je dat het zwaartepunt ( x, y) gelijk is aan (20.5,17.9). De typische rechte die je bij zijn puntenwolk tekent loopt door dit zwaartepunt en heeft een s y richtingscoëfficiënt die gelijk is aan = 1. Op eenzelfde manier kan je ook de figuur sx van Sarah volledig reconstrueren. Centrum voor Statistiek 15

19 Sarah Michiel x i y i x i y i x = 15.4 = 6.08 y = 18.7 = 7.20 x = 20.5 = y = 17.9 = s x s y s x s y Figuur 22. (Sarah) Figuur 23. (Michiel) Centrum voor Statistiek 16

20 Op zicht zie je dat de punten van Sarah een sterkere samenhang vertonen dan die van Michiel. Daar liggen de punten nogal ver verspreid rond hun typische rechte. Maar hoe druk je dat nu in een getal uit? Daarvoor moet je eerst met nieuwe meetlatten leren meten. Bij de x-waarden meet je de afstand van een waarde x i tot het gemiddelde x niet in gewone eenheden, maar in standaardafwijkingen. Zo heb je voor het punt (x 15, y 15 ) = (30, 31) van Michiel dat x 15 - x = = 9.5, maar je kan ook zeggen dat x 15 - x = = 0.8 s x. Immers, de standaardafwijking van de x-coördinaten van alle punten van Michiel is gelijk aan 11.96, en Op dezelfde manier meet je ook de afstanden in de y-richting, en zie je dat y y = , want = = s y s y 0.8 s x 1.1 s y Figuur 24. (Michiel) Je bemerkt dat je niet meer naar de waarde van het oorspronkelijke getal kijkt (zoals 30 ) maar dat je dit getal vervangt door een gestandaardiseerd getal. Dat bekom je door te meten hoeveel je oorspronkelijk getal boven (of onder, inclusief het teken) het gemiddelde ligt, waarbij je als meeteenheid de standaardafwijking gebruikt. En dat doe je afzonderlijk voor de x i s en voor de y i s. Elk punt (x i,y i ) wordt op die manier getransformeerd naar xi x yi y,. Deze sx s y transformatie kan je gebruiken om over te stappen op nieuwe coördinaten met een bijhorend nieuw assenstelsel, dat volledig bepaald wordt door de gegeven puntenwolk. Inderdaad, de nieuwe oorsprong is niets anders dan het zwaartepunt van de puntenwolk, en de eenheden op de nieuwe x- en y-as corresponderen met de standaardafwijkingen van de oorspronkelijke opmetingen. Zo stemt 0.8 eenheden op de nieuwe x-as bijvoorbeeld overeen met x sx = 30 oorspronkelijke eenheden. Centrum voor Statistiek 17

21 Als je overstapt op de gestandaardiseerde grootheden rechte in het nieuwe assenstelsel? xi x yi y,, waar ligt dan de typische sx s y Je weet dat deze rechte door het zwaartepunt van de puntenwolk gaat, en daarom moet zij nu door s y 1 s y de oorsprong van het nieuwe assenstelsel lopen. Haar richtingscoëfficiënt is gelijk aan =, sx 1 sx 1 wat in de nieuwe coördinaten vertaald wordt naar = 1. Een rechte door de oorsprong en met 1 richtingscoëfficiënt 1 is niets anders dan de eerste bissectrice. De typische rechte van alle puntenwolken (die een positieve lineaire samenhang vertonen) is in dit nieuw assenstelsel dus altijd gelijk aan de eerste bissectrice. Wanneer de zin van de lineaire samenhang negatief is, dan is de typische rechte altijd gelijk aan de tweede bissectrice (door de oorsprong en met richtingscoëfficiënt gelijk aan 1). Figuren 26 en 27 tonen terug de puntenwolken van Sarah en Michiel, maar nu getekend nadat eerst is overgestapt op de gestandaardiseerde veranderlijken. Je ziet dat er aan de vorm van de puntenwolken niets is veranderd. Maar het nieuwe assenstelsel is in beide gevallen gecentreerd in het zwaartepunt, en de typische rechte is voor beiden gelijk aan de eerste bissectrice. Het is in deze gestandaardiseerde vorm dat je nu op zoek gaat naar een getal dat de sterkte van de samenhang rond de eerste bissectrice weerspiegelt. Figuur 26. (Sarah) Figuur 27. (Michiel) Ellipsvormige puntenwolken waarbij de zin van de samenhang positief is, zien er in hun gestandaardiseerde vorm altijd uit zoals figuur 26 en 27. Het nieuwe assenstelsel verdeelt het vlak in 4 kwadranten. Als je nauwkeurig kijkt dan kan je bij Sarah twee dingen tegelijk ontdekken. Er liggen meer punten in het eerste (rechtsboven) en derde (linksonder) kwadrant dan in de twee andere kwadranten. En bovendien zijn er bij deze punten ook meer die verder verwijderd zijn van het centrum. De punten in het tweede en vierde kwadrant liggen in het algemeen dichter bij het centrum. Bij Michiel is de samenhang minder sterk, en daar is het overwicht van het eerste en derde kwadrant (zowel wat het aantal punten als wat hun afstand tot het centrum betreft) minder uitgesproken. Centrum voor Statistiek 18

22 Elk punt in een vlak is bepaald door zijn twee coördinaten. Een punt in het eerste kwadrant heeft twee positieve coördinaten, in het derde kwadrant zijn zij beide negatief, en in het tweede en vierde kwadrant is er één van de coördinaten positief en de andere is negatief. Als je nu het product maakt van de twee coördinaten van zo n punt, dan krijg je een positief getal als dat punt in het eerste of derde kwadrant ligt, en een negatief getal in de andere gevallen. En naarmate het punt verder verwijderd is van het centrum zal je grotere waarden hebben voor de coördinaten (positief of negatief), zodat ook het product groter zal zijn (met plus- of minteken). Als je voor alle punten van de puntenwolk dergelijk product maakt, dan kan het gebeuren dat de positieve uitkomsten globaal in de meerderheid zijn. Dit is zo bij Sarah en bij Michiel. Maar bij Sarah zijn er meer punten in het eerste en derde kwadrant, en meerdere daarvan liggen ook verder van het centrum. Zo krijgt zij veel grote positieve bijdragen, die gemakkelijk de negatieve bijdragen van de punten in het tweede en vierde kwadrant compenseren. De som zal uiteindelijk nog sterk positief zijn. Bij Michiel lukt het ook nog om de totale som positief te houden, maar de punten in het tweede en vierde kwadrant leveren heel wat negatieve producten op. De totale som bij Michiel zal kleiner zijn dan bij Sarah, en dat weerspiegelt het feit dat de samenhang daar minder sterk is. Eigenlijk mag je niet zomaar de som maken en dan Sarah met Michiel vergelijken. Hier lukt dat omdat beiden toevallig evenveel punten hebben in hun puntenwolk. Maar in het algemeen hoeft dat natuurlijk niet zo te zijn. Daarom zal je in het vervolg niet meer werken met de som van al die producten, maar met een soort gemiddelde. Je telt al die producten samen en je deelt door het aantal punten min één. Dit gestandaardiseerde getal noem je de correlatiecoëfficiënt, en je stelt die voor door de letter r. Soms kom je als naam ook Pearson correlatiecoëfficiënt tegen. In formulevorm wordt dit: r = 1 x i x y y ( ) n 1 sx s y i Als voorbeeld kan je expliciet de berekening maken voor Michiel. Je moet dan eerst overstappen op de gestandaardiseerde grootheden, daarna de producten maken, en tenslotte al deze producten samentellen en delen door (n 1). Centrum voor Statistiek 19

23 Ter illustratie zijn in figuur 28 enkele punten expliciet aangeduid. Let op het teken van hun coördinaten en op het kwadrant waarin deze punten liggen. Kan je die punten terugvinden in de bijhorende tabel waarin de gegevens van Michiel ook uitgedrukt staan in functie van de nieuwe coördinaten? Figuur 28. Centrum voor Statistiek 20

24 Michiel Oorspronkelijke gegevens Gestandaardiseerde gegevens (afgerond) x i y i xi x yi y s s x y x i x yi y sx sy x = 20.5 s x = y = 17.9 s y = x i x yi y 5.70 r = = = 0.30 ( 1) n sx s y 19 Bovenstaande tabel laat duidelijk zien hoe je de correlatiecoëfficiënt berekent. Voor Michiel vind je dat r = Voor de correlatiecoëfficiënt gelden volgende eigenschappen: de correlatiecoëfficiënt is een eenheidsloos getal de correlatiecoëfficiënt ligt altijd tussen 1 en +1 de correlatiecoëfficiënt is positief wanneer de zin van de lineaire samenhang positief is, en negatief wanneer de zin van de lineaire samenhang negatief is bij perfecte positieve lineaire samenhang is de correlatiecoëfficiënt gelijk aan +1 bij perfecte negatieve lineaire samenhang is de correlatiecoëfficiënt gelijk aan 1 een correlatiecoëfficiënt die gelijk is aan nul wijst op het ontbreken van een lineaire samenhang de correlatiecoëfficiënt is symmetrisch: de lineaire samenhang tussen y en x is dezelfde als de lineaire samenhang tussen x en y. Centrum voor Statistiek 21

25 Op basis van de figuren 22 en 23 verwacht je dat de correlatiecoëfficiënt bij Sarah groter is dan bij Michiel. Als je in de onderstaande tabel de laatste rij aanvult dan heb je alles wat je nodig hebt om Sarah s correlatiecoëfficiënt te berekenen. Sarah Oorspronkelijke gegevens Gestandaardiseerde gegevens (afgerond) x i y i xi x yi y s s x y Kwadrant Product van de coördinaten x i x yi y sx sy derde tweede derde derde derde tweede derde tweede derde derde eerste vierde eerste vierde eerste vierde eerste eerste vierde eerste 2.93 x = 15.4 s x = 6.08 y = 18.7 s y = x i x yi y r = = = 0.60 ( 1) n sx s y 19 Voor Sarah is de correlatiecoëfficiënt gelijk aan 0.60, en aangezien zowel bij Sarah als bij Michiel de puntenwolken ellipsvormig zijn kan je uit een vergelijking van hun correlatiecoëfficiënt besluiten dat de puntenwolk van Sarah (met r = 0.60) een sterkere lineaire samenhang vertoont dan die van Michiel (met r = 0.30). Je kan dit ook formuleren in termen van de coördinaten, en dan spreek je over de samenhang tussen x en y. Bij een realistisch onderzoek hebben x en y natuurlijk een betekenis, zoals de lengte van de vaders en de lengte van de zonen. Als de puntenwolk daar ellipsvormig is en je vindt r = 0.30, dan zeg je dat er een matige, positieve lineaire samenhang te ontdekken is tussen de lengte van de vaders en die van de zonen, en deze uitspraak karakteriseer je met het bijhorende kengetal, namelijk de correlatiecoëfficiënt. Centrum voor Statistiek 22

26 4. Correlatiecoëfficiënten en puntenwolken Een correlatiecoëfficiënt bereken je bij continue bivariate gegevens, en daarbij hoort ook altijd een grafische voorstelling, namelijk een puntenwolk. Het is belangrijk om die twee dingen altijd gelijktijdig te bekijken. Met wat oefening krijg je een goed aanvoelen voor de verschillen die in puntenwolken te ontdekken zijn: is de globale vorm zoals een ellips, is de zin van de samenhang positief of negatief, en is die samenhang zwak of sterk? 4.1. Een experiment Is er een samenhang te ontdekken tussen de lengte en de breedte van bloemblaadjes, en verschilt deze samenhang naargelang het soort bloem? Om dit na te gaan deed men het volgende experiment. Van 4 verschillende bloemsoorten werden heel veel bloembladeren verzameld, en die werden bewaard in vier verschillende dozen. Aan vier leerlingen, Seppe, Kato, Robbe, en Lotte werd gevraagd om één welbepaalde doos uit te kiezen, en uit die doos lukraak 20 bloemblaadjes te nemen. Zij moesten dan met gestandaardiseerde meetapparatuur nauwkeurig de lengte en de breedte van elk blaadje bepalen en in een tabel opschrijven. Op die manier bekwamen zij elk 20 koppels van getallen (x i,y i ), waarbij x i = breedte van het i-de bloemblad, en y i = lengte van het i-de bloemblad. De opmetingen moesten ook grafisch voorgesteld worden als een puntenwolk, waarbij op de x-as de breedte moest worden uitgezet en op de y-as de lengte. Daarvoor kregen zij elk een identiek tekenblad, waarbij de schaalverdeling op de x-as en op de y-as voor iedereen dezelfde was. Op die manier zou het mogelijk zijn om nadien de vier figuren letterlijk op elkaar te leggen, zodat men op een gestandaardiseerde manier de 4 verschillende bloemsoorten met elkaar grafisch zou kunnen vergelijken. Bekijk nu zelf aandachtig de puntenwolken die door deze leerlingen werden getekend, en antwoord dan op de volgende vragen. Bij het invullen van je antwoord moet je kiezen uit de volgende getallen: 0.50, 0.80, 0.95, de puntenwolk van Seppe heeft een correlatiecoëfficiënt r die gelijk is aan.. de puntenwolk van Kato heeft een correlatiecoëfficiënt r die gelijk is aan.. de puntenwolk van Robbe heeft een correlatiecoëfficiënt r die gelijk is aan.. de puntenwolk van Lotte heeft een correlatiecoëfficiënt r die gelijk is aan.. Centrum voor Statistiek 23

27 Figuur 29. (Seppe) Figuur 30. (Kato) Figuur 31. (Robbe) Figuur 32. (Lotte) Centrum voor Statistiek 24

28 4.2. De lineaire samenhang visualiseren. Als je naar een puntenwolk kijkt en gezien hebt dat haar globale vorm goed lijkt op een ellips, dan kan je proberen om op zicht een idee te krijgen van de sterkte van de lineaire samenhang. Dit geeft je dan ook een benaderend idee van de waarde van de correlatiecoëfficiënt. Er is eigenlijk maar één goede manier om de sterkte van lineaire samenhang te visualiseren: je tekent de puntenwolk in haar gestandaardiseerde coördinaten. Zo kan je die puntenwolk vergelijken met andere puntenwolken die ook op dezelfde manier getekend zijn, en waarvan de correlatiecoëfficiënt gekend is. Hieronder zie je zo een paar voorbeelden. Figuur 33. (r = 0) Figuur 34. (r = 0) Figuur 35. (r = 0.30) Figuur 36. (r = 0.30) Centrum voor Statistiek 25

29 Figuur 37. (r = 0.60) Figuur 38. (r = 0.60) Figuur 39. (r = 0.90) Figuur 40. (r = 0.90) Figuur 41. (r = 0.99) Figuur 42. (r = 0.99) Centrum voor Statistiek 26

30 4.3. Een toepassing Misschien denk je dat je wel rechtstreeks op een figuur kan schatten hoe sterk de lineaire samenhang is. En misschien denk je dat de raad om altijd over te stappen op gestandaardiseerde coördinaten en assenstelsels toch wel wat overdreven is. Het vraagt bovendien extra werk (hoewel je rekentoestel bijna al het werk voor jou doet). Om je te overtuigen dat gestandaardiseerde figuren de enige figuren zijn waar je een houvast aan hebt, staan hieronder de opmetingen van de bloemblaadjes, zoals die genoteerd werden door Seppe, Kato, Robbe, en Lotte. De bijhorende correlatiecoëfficiënt kan je zelf narekenen, en de vier overeenkomstige puntenwolken, maar nu in gestandaardiseerde eenheden getekend, vind je op de volgende bladzijde. Had je dat resultaat verwacht? Seppe Kato Robbe Lotte x i y i x i y i x i y i x i y i r = 0.50 r = 0.50 r = 0.50 r = 0.50 Centrum voor Statistiek 27

31 Figuur 43. (Seppe) (r = 0.50) Figuur 44. (Kato) (r = 0.50) Figuur 45. (Robbe) (r = 0.50) Figuur 46. (Lotte) (r = 0.50) Centrum voor Statistiek 28

32 4.4. Technische nota. Bij een ellipsvormige puntenwolk meet de correlatiecoëfficiënt de sterkte van de lineaire samenhang van de punten rond een typische rechte. Deze sterkte wordt echter niet in absolute eenheden gemeten, maar in relatieve eenheden. In de formule van de correlatiecoëfficiënt zie je dat de afstand tot het gemiddelde gedeeld wordt door de standaardafwijking, zodat deze afstand niet in absolute termen maar in termen van s x en s y wordt uitgedrukt. Hierbij (en in heel deze module) wordt altijd ondersteld dat s 0 en s 0. Voor punten die allemaal op een horizontale (of x y allemaal op een verticale) rechte liggen wordt de correlatiecoëfficiënt niet gedefinieerd. Een lineaire transformatie van x of y verandert niets aan de absolute waarde van de xi x y gestandaardiseerde grootheden en i y. De absolute waarde van de correlatiecoëfficiënt sx s y verandert dus ook niet wanneer je van x overstapt op ax+b of wanneer je y vervangt door cy+d. Met de notatie r xy voor de correlatiecoëfficiënt van de oorspronkelijke veranderlijken, 1 ( ) x i x yi y r = xy n 1 sx s y heb je dat r = r voor a c > 0 r xy xy = r ( ax+ b)( cy+ d ) voor a c < ( ax+ b)( cy+ d ) 0 Anderzijds is het wel zo dat het uitzicht van een puntenwolk afhankelijk is van een wijziging in s x of in s y. En dit is het probleem met de puntenwolken van Seppe, Kato, Robbe en Lotte. De figuren worden samengeperst of uitgerokken, en je krijgt een totaal vertekend beeld van de sterkte van de lineaire samenhang. Daarom moet je altijd werken op de gestandaardiseerde schaal. De wiskundige verbanden (allemaal lineaire transformaties) staan in de volgende tabel, waarbij Seppe als referentiepunt is genomen. Seppe x i y i s x = 7.87 s y = 9.25 r = 0.50 Kato x i / y i s x = 0.20 s y = 9.25 r = 0.50 Robbe x i + 4 y i / s x = 7.87 s y = 1.16 r = 0.50 Lotte x i / y i *1.2 5 s x = 1.97 s y = r = 0.50 Centrum voor Statistiek 29

33 5. Wat kan er zoal fout gaan Het ergste wat er kan fout gaan is dat je geen puntenwolk tekent. Een kengetal, zoals een correlatiecoëfficiënt, geeft slechts informatie in een samengevatte vorm. Deze informatie kan zeer verhelderend zijn, of zeer misleidend, en dat kan je uit zo n getal niet te weten komen. Daarom heb je een figuur nodig, en liefst een figuur waar je enige houvast aan hebt. Voor ellipsvormige puntenwolken betekent dit dat je gebruik maakt van een gestandaardiseerde schaal Uitschieters, krommen, en de voorbeelden van Anscombe. Inzicht in een gegevensverzamelingen krijg je meestal niet uit zomaar één kengetal, en dikwijls zijn meerdere kengetallen zelfs niet voldoende. Daarom is het maken van goede figuren een essentieel onderdeel van elke statistische exploratie van een dataset. Dat zie je bijvoorbeeld duidelijk in de 4 datasets die door F. J. Anscombe werden opgesteld, en die hieronder zijn weergegeven. Voor elk van deze datasets is de correlatiecoëfficiënt gelijk aan Hieruit afleiden dat er in die vier gevallen een sterke lineaire samenhang is tussen x en y zou een grote vergissing zijn. Dat zie je in de bijhorende figuren. De figuren zijn getekend op basis van de ruwe gegevens, zoals opgesteld door Anscombe. Figuur 47a is globaal ellipsvormig, en daarom wordt die nadien ook nog eens in gestandaardiseerde coördinaten getekend (figuur 48), om een idee te krijgen over de sterkte van de lineaire samenhang. Figuur 47b laat zien dat er een duidelijke samenhang is tussen y en x, die echter niet lineair is, maar volgens een kromme verloopt. Figuren 47c en 47d illustreren dat de correlatiecoëfficiënt uitermate gevoelig is voor uitschieters. Anscombe_1 Anscombe_2 Anscombe_3 Anscombe_4 x i y i x i y i x i y i x i y i Centrum voor Statistiek 30

34 Figuur 47a. (Anscombe_1) Figuur 47b. (Anscombe_2) Figuur 47c. (Anscombe_3) Figuur 47d. (Anscombe_4) Figuur 48. (Anscombe_1) (gestandaardiseerd) Centrum voor Statistiek 31

35 5.2. Clusters In de paleontologie wordt ondermeer de prehistorische mens bestudeerd op basis van skeletten die bij opgravingen worden ontdekt. In de onderstaande tabel zie je de lengte en de breedte van een bepaald beentje, opgemeten bij skeletten van kinderen. Tevens staat aangegeven of het om een meisje (M) of om een jongen (J) gaat. ID Sex Lengte (cm) x i Breedte (cm) y i 1 M M M M M M J J M J J J J J x = 13.4 s x = 1.92 y = 5.1 s y r = 0.56 = 2.17 De correlatiecoëfficiënt is gelijk aan 0.56 wat op een positieve lineaire samenhang tussen x en y zou kunnen wijzen. Dit betekent dat, globaal genomen, langere beenderen ook breder zijn. De typische rechte in figuur 49, die door het zwaartepunt (13.4, 5.1) gaat en een richtingscoëfficiënt heeft die gelijk is aan s y / s x = 2.17 / 1.92, wijst blijkbaar ook in die richting. Maar is dat wel waar? Figuur 49. Centrum voor Statistiek 32

36 Als je goed naar de figuur kijkt dan zie je dat de puntenwolk uit twee groepen (of twee clusters) bestaat: een groep punten links onder en een andere groep rechts boven. Dat je hier inderdaad met twee clusters te maken hebt kom je ook te weten uit de dataset. Alle punten links onder zijn afkomstig van skeletten van meisjes, en alle punten rechts boven zijn opmetingen van jongens. Deze observatie laat vermoeden dat skeletten van kinderen bestuderen, waarbij de gegevens van meisjes en jongens in één grote dataset samen staan, misschien niet zo verstandig is. Kijk dus eens naar de twee groepen afzonderlijk. Meisjes Lengte (cm) Jongens Lengte (cm) ID Sex x i Breedte (cm) y i ID Sex x i 1 M J M J M J M J M J M J M J x = 12.0 s x = 1.32 y = 3.2 s y = 1.04 x = 14.8 s x = 1.32 r = 0.55 r = 0.54 Breedte (cm) y i y = 7.1 s y = 0.67 De nieuwe studie vertelt nu plots een heel ander verhaal. Zowel bij meisjes als bij jongens is de correlatiecoëfficiënt negatief. Bovendien zijn de puntenwolken globaal ellipsvormig, zodat je kan besluiten dat er een matige lineaire samenhang is in de negatieve zin. Bij die beenderen gaat blijkbaar kort en breed en lang en smal hand in hand, zowel bij meisjes als bij jongens. Je ziet dat ook op de figuren 50 en 51, waar tevens de typische rechte getekend is. Figuur 50. (meisjes) Figuur 51. (jongens) Centrum voor Statistiek 33

37 Om grafisch een goed beeld te krijgen van de sterkte van de negatieve lineaire samenhang, zijn de figuren 52 en 53 getekend in gestandaardiseerde eenheden. De typische rechte is hier telkens de tweede bissectrice. Figuur 52. (meisjes) Figuur 53. (jongens) 5.3. Ecologische correlatie. In het Europa van de 19 de eeuw waren de zelfmoordcijfers hoger in de landen die overwegend protestants waren. Kan je daaruit besluiten dat de levenswijze opgelegd door het protestantisme de zelfmoordneiging aanwakkert? Je hebt hier te maken met twee problemen tegelijk. Het ene heet verstrengeling, wat betekent dat er nog heel wat andere factoren meespelen. Inderdaad, protestantse landen waren op veel punten verschillend van katholieke landen, en dat was niet alleen aan de religie te wijten. Op dit probleem gaan we momenteel niet dieper in. Het andere probleem heeft te maken met gegevens die reeds gedeeltelijk samengevat zijn in een gemiddelde of in een proportie. In dit voorbeeld gaat het over gegevens per land. Het zijn niet landen die zelfmoord plegen, maar mensen. Een typische fout bestaat er in om uit een sterke samenhang tussen gegevens per land, de conclusie te trekken dat dezelfde sterke samenhang er ook is voor de individuen in die landen. Die fout wordt de ecologische valkuil genoemd. Correlatie van gegevens die zelf reeds groepsgewijze gemiddelden zijn, heet ecologische correlatie. Algemeen spreekt men over ecologische gegevens wanneer je te maken hebt met gegevens die zelf reeds groepsgewijs zijn samengevat (in gemiddelden of in proporties). Centrum voor Statistiek 34

38 Ecologische gegevens kom je in veel domeinen tegen, en het is belangrijk om niet in de ecologische valkuil te trappen. In de epidemiologie zijn er heel wat studies die landen vergelijken. Zo is blijkbaar het aantal borstkankers beduidend hoger in landen waar de voeding meer vetstof bevat. Maar kan je uit deze gegevens rechtstreeks besluiten dat vrouwen die meer vet eten ook een grotere kans op borstkanker hebben? Dit kan waar zijn, maar die informatie haal je niet uit gegevens per land. Op het terrein van het milieu en de gezondheidszorg verzamelt men soms informatie per provincie. Maar een sterke samenhang per provincie tussen pollutie en opname in ziekenhuizen, is niet voldoende om te weten te komen hoe die samenhang er uitziet voor de mensen die daar wonen. Als je per gemeente het gemiddelde inkomen kent, samen met de overwegende voorkeur voor een politieke partij, dan kan je onderzoeken of daar een sterke samenhang te bespeuren is. Maar dan weet je dat nog helemaal niet op het niveau van de individuele kiezer. Onderstaande tabel bevat (fictieve) opmetingen waarbij ook is aangegeven uit welk land zij komen. In figuur 54 staat de puntenwolk en de bijhorende typische rechte getekend. Je kan hier spreken van een matig sterke positieve lineaire samenhang, waarbij de correlatiecoëfficiënt gelijk is aan Land x i y i A 4 4 A 8 12 A 16 4 A B 12 8 B B 28 8 B C C C C x = 20.7 y = 16.0 s x = 9.77 s y = 9.50 r = 0.63 Centrum voor Statistiek 35

39 Figuur 54. Als je nu die individuele opmetingen niet zou hebben, maar alleen de gemiddelde informatie per land, dan zou dat neerkomen op de volgende dataset. De bijhorende puntenwolk zie je in figuur 55, en je merkt dat de correlatiecoëfficiënt uitzonderlijk groot is, namelijk Dit wijst hier op een enorm sterke positieve lineaire samenhang. Maar het gaat over ecologische gegevens. Zoals je hierboven hebt gemerkt is de samenhang op individuele basis helemaal niet zo sterk. Land x i y i A 13 8 B C x = 20.7 = 8.02 y = 16.0 = 8.00 s x s y r = Figuur 55. Centrum voor Statistiek 36

40 5.4. Oorzaak en samenhang Bij kinderen van de lagere school is er een sterke samenhang tussen taalvaardigheid en schoenmaat. Nochtans is het feit dat zij vlotter leren lezen er niet de oorzaak van dat hun voeten gaan groeien. Er is hier een andere factor in het spel, namelijk leeftijd. Naar puntenwolken kijken en correlatiecoëfficiënten uitrekenen behoedt je niet tegen de klassieke fout dat je samenhangen verwart met veroorzaken. In het voorbeeld van de schoolkinderen was het niet moeilijk om een verstrengelende factor (namelijk leeftijd ) te ontdekken. Maar de meeste statistische studies zijn veel complexer, en daar kan het echt moeilijk zijn om te weten te komen of er een oorzakelijk verband is. Dikwijls kan je alleen maar zeggen dat je gemerkt hebt dat twee eigenschappen sterk lineair samenhangen (in positieve of in negatieve zin). Centrum voor Statistiek 37

Statistische Intelligentie

Statistische Intelligentie Statistische Intelligentie De samenhang ontdekken Exploratie van bivariaat cijfermateriaal Deel 1. Correlatie b. Sofie Bogaerts Herman Callaert Dankwoord Een bijzonder woord van dank gaat naar de leden

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

Standaardisatie en z-scores

Standaardisatie en z-scores Prof. dr. Herman Callaert Inhoudstafel 1 Standaardisatie bij concreet cijfermateriaal... 1 1.1 Een eerste voorbeeld: de punten van Pol... 1 1.1.1 De ruwe score... 1 1.1.2 Vergelijken met het klasgemiddelde...

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Populatie: een intuïtieve definitie.... Een

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel

Nadere informatie

Statistische Intelligentie

Statistische Intelligentie Statistische Intelligentie De samenhang ontdekken Exploratie van bivariaat cijfermateriaal Deel 2. Kruistabellen b. Sofie Bogaerts Herman Callaert 2004, L. U. C. Diepenbeek (België), Statistische Intelligentie

Nadere informatie

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen Lesbrief: Correlatie en Regressie Leerlingmateriaal Je leert nu: -een correlatiecoëfficient gebruiken als maat voor het statistische verband tussen beide variabelen -een regressielijn te tekenen die een

Nadere informatie

Grafieken, functies en verzamelingen. Eerst enkele begrippen. Grafiek. Assenstelsel. Oorsprong. Coördinaten. Stapgrootte.

Grafieken, functies en verzamelingen. Eerst enkele begrippen. Grafiek. Assenstelsel. Oorsprong. Coördinaten. Stapgrootte. Grafieken, functies en verzamelingen Eerst enkele begrippen Grafiek In een assenstelsel teken je een grafiek. Assenstelsel Een assenstelsel bestaat uit twee assen die elkaar snijden: een horizontale en

Nadere informatie

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke Niet de hoogte, wel de oppervlakte Prof. dr. Herman Callaert Aandachtspunten bij - statistische technieken voor een continue veranderlijke - de interpretatie van een histogram - de normale dichtheidsfunctie

Nadere informatie

Hoofdstuk 2: Grafieken en formules

Hoofdstuk 2: Grafieken en formules Hoofdstuk 2: Grafieken en formules Wiskunde VMBO 2011/2012 www.lyceo.nl Hoofdstuk 2: Grafieken en formules Wiskunde 1. Basisvaardigheden 2. Grafieken en formules 3. Algebraïsche verbanden 4. Meetkunde

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Exploratieve statistiek. Infoboekje. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Exploratieve statistiek. Infoboekje. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Exploratieve statistiek Infoboekje Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg www.uhasselt.be/lesmateriaal-statistiek . Van deze

Nadere informatie

3.1 Negatieve getallen vermenigvuldigen [1]

3.1 Negatieve getallen vermenigvuldigen [1] 3.1 Negatieve getallen vermenigvuldigen [1] Voorbeeld 1: 5 3 = 15 (3 + 3 + 3 + 3 + 3 = 15) Voorbeeld 2: 5-3 = -15 (-3 +-3 +-3 +-3 +-3 = -3-3 -3-3 -3 = -15) Voorbeeld 3: -5 3 = -15 Voorbeeld 4: -5 3 9 2

Nadere informatie

Vlakke meetkunde. Module 6. 6.1 Geijkte rechte. 6.1.1 Afstand tussen twee punten. 6.1.2 Midden van een lijnstuk

Vlakke meetkunde. Module 6. 6.1 Geijkte rechte. 6.1.1 Afstand tussen twee punten. 6.1.2 Midden van een lijnstuk Module 6 Vlakke meetkunde 6. Geijkte rechte Beschouw een rechte L en kies op deze rechte een punt o als oorsprong en een punt e als eenheidspunt. Indien men aan o en e respectievelijk de getallen 0 en

Nadere informatie

8. Analyseren van samenhang tussen categorische variabelen

8. Analyseren van samenhang tussen categorische variabelen 8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde

Nadere informatie

een typische component van statistiek

een typische component van statistiek Variabiliteit: een typische component van statistiek Prof. dr. Herman Callaert Statistiek = de wetenschap van het leren uit cijfermateriaal in aanwezigheid van variabiliteit en toeval en waarbij de context

Nadere informatie

Statistische Intelligentie

Statistische Intelligentie Statistische Intelligentie De samenhang ontdekken Exploratie van bivariaat cijfermateriaal Deel 2. Kruistabellen a. Herman Callaert Dankwoord Een bijzonder woord van dank gaat naar de leden van de stuurgroep

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Regressie: exploratieve methoden. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Regressie: exploratieve methoden. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS : exploratieve methoden Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg Inhoudstafel DEEL 1. De ideeën achter

Nadere informatie

klas 3 havo Checklist HAVO klas 3.pdf

klas 3 havo Checklist HAVO klas 3.pdf Checklist 3 HAVO wiskunde klas 3 havo Checklist HAVO klas 3.pdf 1. Hoofdstuk 1 - lineaire problemen Ik weet dat de formule y = a x + b hoort bij de grafiek hiernaast. Ik kan bij een lineaire formule de

Nadere informatie

Onderneming en omgeving - Economisch gereedschap

Onderneming en omgeving - Economisch gereedschap Onderneming en omgeving - Economisch gereedschap 1 Rekenen met procenten, basispunten en procentpunten... 1 2 Werken met indexcijfers... 3 3 Grafieken maken en lezen... 5 4a Tweedegraads functie: de parabool...

Nadere informatie

Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren

Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren Hoofdstuk 18 Verbanden tussen variabelen vaststellen en interpreteren Analyse van verbanden Analyse van verbanden: bij de analyse van verbanden stel je vast of er een stabiel verband bestaat tussen twee

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Populatiemodellen en normaal verdeelde populaties 3. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg 1. Een

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO Leerlingmateriaal 1. Doel van de praktische opdracht Het doel van deze praktische opdracht is om de theorie uit je boek te verbinden met de data

Nadere informatie

Bij alle verbanden geldt dat je, als je een negatief getal in een formule invult, je altijd haakjes om dat getal moet zetten.

Bij alle verbanden geldt dat je, als je een negatief getal in een formule invult, je altijd haakjes om dat getal moet zetten. Theorie lineair verband Bij alle verbanden geldt dat je, als je een negatief getal in een formule invult, je altijd haakjes om dat getal moet zetten. In het dagelijks leven wordt vaak gebruik gemaakt van

Nadere informatie

Beschrijvende statistiek

Beschrijvende statistiek Duur 45 minuten Overzicht Tijdens deze lesactiviteit leer je op welke manier centrum- en spreidingsmaten je helpen bij de interpretatie van statistische gegevens. Je leert ook dat grafische voorstellingen

Nadere informatie

Statistiek: Herhaling en aanvulling

Statistiek: Herhaling en aanvulling Statistiek: Herhaling en aanvulling 11 mei 2009 1 Algemeen Statistiek is de wetenschap die beschrijft hoe we gegevens kunnen verzamelen, verwerken en analyseren om een beter inzicht te krijgen in de aard,

Nadere informatie

Betrouwbaarheid van een steekproefresultaat m.b.t. de hele populatie

Betrouwbaarheid van een steekproefresultaat m.b.t. de hele populatie Betrouwbaarheid van een steekproefresultaat m.b.t. de hele populatie Verschillende steekproeven uit eenzelfde populatie leveren verschillende (steekproef) resultaten op. Dit onvermijdelijke verschijnsel

Nadere informatie

Exponentiële Functie: Toepassingen

Exponentiële Functie: Toepassingen Exponentiële Functie: Toepassingen 1 Overgang tussen exponentiële functies en lineaire functies Wanneer we werken met de exponentiële functie is deze niet altijd gemakkelijk te herkennen. Daarom proberen

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 5. Normaal verdeelde kansmodellen. Werktekst voor de leerling. Prof. dr.

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 5. Normaal verdeelde kansmodellen. Werktekst voor de leerling. Prof. dr. VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg 1. Een voorbeeld...2 2. De normale familie...5

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

De grafiek van een lineair verband is altijd een rechte lijn.

De grafiek van een lineair verband is altijd een rechte lijn. 2. Verbanden Verbanden Als er tussen twee variabelen x en y een verband bestaat kunnen we dat op meerdere manieren vastleggen: door een vergelijking, door een grafiek of door een tabel. Stel dat het verband

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Exploratieve statistiek. Infoboekje. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Exploratieve statistiek. Infoboekje. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Exploratieve statistiek Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Inleiding Dit infoboekje bevat achtergrondinformatie bij de

Nadere informatie

Statistiek voor A.I. College 2. Donderdag 13 September 2012

Statistiek voor A.I. College 2. Donderdag 13 September 2012 Statistiek voor A.I. College 2 Donderdag 13 September 2012 1 / 42 1 Beschrijvende statistiek 2 / 42 Extrapolatie 3 / 42 Verkiezingen 2012 4 / 42 Verkiezingen 2012 5 / 42 1 Beschrijvende statistiek Vandaag:

Nadere informatie

Referentieniveaus uitgelegd. 1S - rekenen Vaardigheden referentieniveau 1S rekenen. 1F - rekenen Vaardigheden referentieniveau 1F rekenen

Referentieniveaus uitgelegd. 1S - rekenen Vaardigheden referentieniveau 1S rekenen. 1F - rekenen Vaardigheden referentieniveau 1F rekenen Referentieniveaus uitgelegd De beschrijvingen zijn gebaseerd op het Referentiekader taal en rekenen'. In 'Referentieniveaus uitgelegd' zijn de niveaus voor de verschillende sectoren goed zichtbaar. Door

Nadere informatie

F3 Formules: Formule rechte lijn opstellen 1/3

F3 Formules: Formule rechte lijn opstellen 1/3 F3 Formules: Formule rechte lijn opstellen 1/3 Inleiding Bij Module F1 heb je geleerd dat Formule, Verhaal, Tabel, Grafiek en Vergelijking altijd bij elkaar horen. Bij Module F2 heb je geleerd wat een

Nadere informatie

Kerstvakantiecursus. wiskunde A. Rekenregels voor vereenvoudigen. Voorbereidende opgaven HAVO kan niet korter

Kerstvakantiecursus. wiskunde A. Rekenregels voor vereenvoudigen. Voorbereidende opgaven HAVO kan niet korter Voorbereidende opgaven HAVO Kerstvakantiecursus wiskunde A Tips: Maak de voorbereidende opgaven voorin in een van de A4-schriften die je gaat gebruiken tijdens de cursus. Als een opdracht niet lukt, werk

Nadere informatie

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een

Nadere informatie

Hoofdstuk 2: Verbanden

Hoofdstuk 2: Verbanden Hoofdstuk 2: Verbanden Inleiding In het gebruik van statistiek komen we vaak relaties tussen variabelen tegen. De focus van dit hoofdstuk ligt op het leren hoe deze relaties op grafische en numerieke wijze

Nadere informatie

Werkwijzers. 1 Wetenschappelijke methode 2 Practicumverslag 3 Formules 4 Tabellen en grafieken 5 Rechtevenredigheid 6 Op zijn kop optellen

Werkwijzers. 1 Wetenschappelijke methode 2 Practicumverslag 3 Formules 4 Tabellen en grafieken 5 Rechtevenredigheid 6 Op zijn kop optellen Werkwijzers 1 Wetenschappelijke methode 2 Practicumverslag 3 ormules 4 Tabellen en grafieken 5 Rechtevenredigheid 6 Op zijn kop optellen Werkwijzer 1 Wetenschappelijke methode Als je de natuur onderzoekt

Nadere informatie

Practicum algemeen. 1 Diagrammen maken 2 Lineair verband en evenredig verband 3 Het schrijven van een verslag

Practicum algemeen. 1 Diagrammen maken 2 Lineair verband en evenredig verband 3 Het schrijven van een verslag Practicum algemeen 1 Diagrammen maken 2 Lineair verband en evenredig verband 3 Het schrijven van een verslag 1 Diagrammen maken Onafhankelijke grootheid en afhankelijke grootheid In veel experimenten wordt

Nadere informatie

Elementaire rekenvaardigheden

Elementaire rekenvaardigheden Hoofdstuk 1 Elementaire rekenvaardigheden De dingen die je niet durft te vragen, maar toch echt moet weten Je moet kunnen optellen en aftrekken om de gegevens van de patiënt nauwkeurig bij te kunnen houden.

Nadere informatie

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken de rekenregel breuk Ik kan

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken

Nadere informatie

VAARDIGHEDEN EXCEL. MEETWAARDEN INVULLEN In de figuur hieronder zie je twee keer de ingevoerde meetwaarden, eerst ruw en daarna netjes opgemaakt.

VAARDIGHEDEN EXCEL. MEETWAARDEN INVULLEN In de figuur hieronder zie je twee keer de ingevoerde meetwaarden, eerst ruw en daarna netjes opgemaakt. VAARDIGHEDEN EXCEL Excel is een programma met veel mogelijkheden om meetresultaten te verwerken, maar het was oorspronkelijk een programma voor boekhouders. Dat betekent dat we ons soms in bochten moeten

Nadere informatie

Trillingen en geluid wiskundig. 1 De sinus van een hoek 2 Uitwijking van een trilling berekenen 3 Macht en logaritme 4 Geluidsniveau en amplitude

Trillingen en geluid wiskundig. 1 De sinus van een hoek 2 Uitwijking van een trilling berekenen 3 Macht en logaritme 4 Geluidsniveau en amplitude Trillingen en geluid wiskundig 1 De sinus van een hoek 2 Uitwijking van een trilling berekenen 3 Macht en logaritme 4 Geluidsniveau en amplitude 1 De sinus van een hoek Eenheidscirkel In de figuur hiernaast

Nadere informatie

Wiskunde 2 september 2008 versie 1-1 - Dit is een greep (combinatie) van 3 uit 32. De volgorde is niet van belang omdat de drie

Wiskunde 2 september 2008 versie 1-1 - Dit is een greep (combinatie) van 3 uit 32. De volgorde is niet van belang omdat de drie Wiskunde 2 september 2008 versie 1-1 - Op hoeveel verschillende manieren kun je drie zwarte pionnen verdelen over de 32 zwarte velden van een schaakbord? (Neem aan dat op elk veld hooguit één pion staat.)

Nadere informatie

Trillingen en geluid wiskundig

Trillingen en geluid wiskundig Trillingen en geluid wiskundig 1 De sinus van een hoek 2 Radialen 3 Uitwijking van een harmonische trilling 4 Macht en logaritme 5 Geluidsniveau en amplitude 1 De sinus van een hoek Sinus van een hoek

Nadere informatie

vwo: Het maken van een natuurkunde-verslag vs 21062011

vwo: Het maken van een natuurkunde-verslag vs 21062011 Het maken van een verslag voor natuurkunde, vwo versie Deze tekst vind je op www.agtijmensen.nl: Een voorbeeld van een verslag Daar vind je ook een po of pws verslag dat wat uitgebreider is. Gebruik volledige

Nadere informatie

1 Middelpunten. Verkennen. Uitleg

1 Middelpunten. Verkennen. Uitleg 1 Middelpunten Verkennen Middelpunten Inleiding Verkennen Probeer vanuit drie gegeven punten (niet op één lijn) die op een cirkel moeten liggen het middelpunt van die cirkel te construeren. Je kunt hem

Nadere informatie

1.0 Voorkennis. Voorbeeld 1: Los op: 6x + 28 = 30 10x.

1.0 Voorkennis. Voorbeeld 1: Los op: 6x + 28 = 30 10x. 1.0 Voorkennis Voorbeeld 1: Los op: 6x + 28 = 30 10x. 6x + 28 = 30 10x +10x +10x 16x + 28 = 30-28 -28 16x = 2 :16 :16 x = 2 1 16 8 Stappenplan: 1) Zorg dat alles met x links van het = teken komt te staan;

Nadere informatie

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn Statistiek: Spreiding en dispersie 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Met spreiding willen we in één getal uitdrukken hoe verspreid de gegevens zijn: in hoeveel

Nadere informatie

Bespreking Examen Analyse 1 (Augustus 2007)

Bespreking Examen Analyse 1 (Augustus 2007) Bespreking Examen Analyse 1 (Augustus 2007) Vooraf: Zoals het stilletjes aan een traditie is geworden, geef ik hier bedenkingen bij het examen van deze septemberzittijd. Ik zorg ervoor dat deze tekst op

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie

Nadere informatie

OEFENINGEN PYTHON REEKS 5

OEFENINGEN PYTHON REEKS 5 Vraag 1: Interpoleren (vervolg) OEFENINGEN PYTHON REEKS 5 Bouw verder op je code van Reeks 3, vraag 4. Voeg vier constanten toe aan je code: X0 = 280, Y0 = 0, Z0 = 50 en SIZE = 8. a) Teken een kubus met

Nadere informatie

TIP 10: ANALYSE VAN DE CIJFERS

TIP 10: ANALYSE VAN DE CIJFERS TOETSTIP 10 oktober 2011 Bepaling wat en waarom je wilt meten Toetsopzet Materiaal Betrouw- baarheid Beoordeling Interpretatie resultaten TIP 10: ANALYSE VAN DE CIJFERS Wie les geeft, botst automatisch

Nadere informatie

Het belang van context: voorbeelden uit de peilingen wiskunde

Het belang van context: voorbeelden uit de peilingen wiskunde Het belang van context: voorbeelden uit de peilingen wiskunde Prof. dr. Herman Callaert Statistiek = de wetenschap van het leren uit cijfermateriaal in aanwezigheid van variabiliteit en toeval en waarbij

Nadere informatie

Hoofdstuk 3 - Transformaties

Hoofdstuk 3 - Transformaties Hoofdstuk - Transformaties Voorkennis: Standaardfuncties bladzijde 70 V-a f () = g () = sin h () = k () = log m () = n () = p () = b D f = [0, en B f = [0, ; D g = en B g =[, ] ; D h = en B h = 0, ; D

Nadere informatie

Factor = het getal waarmee je de oude hoeveelheid moet vermenigvuldigen om een nieuwe hoeveelheid te krijgen.

Factor = het getal waarmee je de oude hoeveelheid moet vermenigvuldigen om een nieuwe hoeveelheid te krijgen. Samenvatting door een scholier 1569 woorden 23 juni 2017 5,8 6 keer beoordeeld Vak Methode Wiskunde Moderne wiskunde Wiskunde H1 t/m H5 Hoofdstuk 1 Factor = het getal waarmee je de oude hoeveelheid moet

Nadere informatie

1.1 Lineaire vergelijkingen [1]

1.1 Lineaire vergelijkingen [1] 1.1 Lineaire vergelijkingen [1] Voorbeeld: Los de vergelijking 4x + 3 = 2x + 11 op. Om deze vergelijking op te lossen moet nu een x gevonden worden zodat 4x + 3 gelijk wordt aan 2x + 11. = x kg = 1 kg

Nadere informatie

Projectieve Vlakken en Codes

Projectieve Vlakken en Codes Projectieve Vlakken en Codes 1. De Fanocode Foutdetecterende en foutverbeterende codes. Anna en Bart doen mee aan een spelprogramma voor koppels. De ene helft van de deelnemers krijgt elk een kaart waarop

Nadere informatie

Standaardisatie en z-scores

Standaardisatie en z-scores Prof. dr. Herman Callaert Inhoudtafel 1 Standaardiatie bij concreet cijfermateriaal... 1 1.1 Een eerte voorbeeld: de punten van Pol... 1 1.1.1 De ruwe core... 1 1.1.2 Vergelijken met het klagemiddelde...

Nadere informatie

3.1 Kwadratische functies[1]

3.1 Kwadratische functies[1] 3.1 Kwadratische functies[1] Voorbeeld 1: y = x 2-6 Invullen van x = 2 geeft y = 2 2-6 = -2 In dit voorbeeld is: 2 het origineel; -2 het beeld (of de functiewaarde) y = x 2-6 de formule. Een functie voegt

Nadere informatie

Feedback proefexamen Statistiek I 2009 2010

Feedback proefexamen Statistiek I 2009 2010 Feedback proefexamen Statistiek I 2009 2010 Het correcte antwoord wordt aangeduid door een sterretje. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Een derde van de mannen is

Nadere informatie

Hoofdstuk 11: Eerstegraadsfuncties in R

Hoofdstuk 11: Eerstegraadsfuncties in R - 229 - Hoofdstuk 11: Eerstegraadsfuncties in R Definitie: Een eerstegraadsfunctie in R is een functie met een voorschrift van de gedaante y = ax + b (met a R 0 en b R ) Voorbeeld 1: y = 2x Functiewaardetabel

Nadere informatie

Annelies Droessaert en Etienne Goemaere

Annelies Droessaert en Etienne Goemaere De meerwaarde van TI-Nspire in de 2 de graad Annelies Droessaert en Etienne Goemaere 1. INLEIDING De meeste scholen kiezen er momenteel voor om een grafisch rekentoestel in te voeren vanaf de 2 de graad.

Nadere informatie

lengte aantal sportende broers/zussen

lengte aantal sportende broers/zussen Oefening 1 Alvorens opgenomen te worden in een speciaal begeleidingsprogramma s voor jonge talentvolle lopers, worden jonge atleten eerst onderworpen aan een aantal vragenlijsten en onderzoeken. Uit het

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Poolcoördinaten (kort)

Poolcoördinaten (kort) Poolcoördinaten (kort) WISNET-HBO update juli 2013 Carthesiaanse coördinaten In het algemeen gebruiken we voor de plaatsbepaling in het platte vlak de gewone (Carthesiaanse) coördinaten voor, in een rechthoekig

Nadere informatie

Werkbladen vergelijking van een rechte

Werkbladen vergelijking van een rechte In deze werktekst proberen wij de vergelijkingen op te stellen van rechten die aan bepaalde voorwaarden voldoen. Wij onderscheiden volgende gevallen: 1. Vergelijking van een rechte gaande door de oorsprong

Nadere informatie

2 Data en datasets verwerken

2 Data en datasets verwerken Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken 3 Frequentieverdelingen typeren 3.6 Geïntegreerd oefenen In opdracht van: Commissie Toekomst Wiskunde Onderwijs 3 Frequentieverdelingen

Nadere informatie

Niveauproef wiskunde voor AAV

Niveauproef wiskunde voor AAV Niveauproef wiskunde voor AAV Waarom? Voor wiskunde zijn er in AAV 3 modules: je legt een niveauproef af, zodat je op het juiste niveau kan starten. Er is de basismodule voor wie de rekenvaardigheden moet

Nadere informatie

Bijlage 11 - Toetsenmateriaal

Bijlage 11 - Toetsenmateriaal Bijlage - Toetsenmateriaal Toets Module In de eerste module worden de getallen behandeld: - Natuurlijke getallen en talstelsels - Gemiddelde - mediaan - Getallenas en assenstelsel - Gehele getallen met

Nadere informatie

INLEIDING FUNCTIES 1. COÖRDINATEN

INLEIDING FUNCTIES 1. COÖRDINATEN INLEIDING FUNCTIES 1. COÖRDINATEN...1 2. FUNCTIES...2 3. ARGUMENT EN BEELD...3 4. HET FUNCTIEVOORSCHRIFT...4 5. DE FUNCTIEWAARDETABEL...5 6. DE GRAFIEK...6 7. FUNCTIES HERKENNEN...7 8. OPLOSSINGEN...9

Nadere informatie

VISUALISATIE VAN KROMMEN EN OPPERVLAKKEN. 1. Inleiding

VISUALISATIE VAN KROMMEN EN OPPERVLAKKEN. 1. Inleiding VISUALISATIE VAN KROMMEN EN OPPERVLAKKEN IGNACE VAN DE WOESTNE. Inleiding In diverse wetenschappelijke disciplines maakt men gebruik van functies om fenomenen of processen te beschrijven. Hiervoor biedt

Nadere informatie

4. Resultaten. 4.1 Levensverwachting naar geslacht en opleidingsniveau

4. Resultaten. 4.1 Levensverwachting naar geslacht en opleidingsniveau 4. Het doel van deze studie is de verschillen in gezondheidsverwachting naar een socio-economisch gradiënt, met name naar het hoogst bereikte diploma, te beschrijven. Specifieke gegevens in enkel mortaliteit

Nadere informatie

1. Orthogonale Hyperbolen

1. Orthogonale Hyperbolen . Orthogonale Hyperbolen a + b In dit hoofdstuk wordt de grafiek van functies van de vorm y besproken. Functies c + d van deze vorm noemen we gebroken lineaire functies. De grafieken van dit soort functies

Nadere informatie

Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8

Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8 Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8 Samenvatting door N. 1410 woorden 6 januari 2013 5,4 13 keer beoordeeld Vak Methode Wiskunde Getal en Ruimte 7.1 toenamediagrammen Interval

Nadere informatie

Wiskunde - MBO Niveau 4. Eerste- en tweedegraads verbanden

Wiskunde - MBO Niveau 4. Eerste- en tweedegraads verbanden Wiskunde - MBO Niveau 4 Eerste- en tweedegraads verbanden OPLEIDING: Noorderpoort MBO Niveau 4 DOCENT: H.J. Riksen LEERJAAR: Leerjaar 1 - Periode 2 UITGAVE: 2018/2019 Wiskunde - MBO Niveau 4 Eerste- en

Nadere informatie

Grafieken. 10-13 jaar. Rekenles over het maken van grafieken. Rekenen. 60 minuten. Weerstation, data, grafieken

Grafieken. 10-13 jaar. Rekenles over het maken van grafieken. Rekenen. 60 minuten. Weerstation, data, grafieken Grafieken Rekenles over het maken van grafieken 10-13 jaar Rekenen Weerstation, data, grafieken 60 minuten Op het digitale schoolbord bekijkt de leerkracht met de klas verschillende grafieken over het

Nadere informatie

Functieonderzoek. f(x) = x2 4 x 4 + 2. Igor Voulis. 9 december 2009. 1 De functie en haar definitiegebied 2. 2 Het tekenverloop van de functie 2

Functieonderzoek. f(x) = x2 4 x 4 + 2. Igor Voulis. 9 december 2009. 1 De functie en haar definitiegebied 2. 2 Het tekenverloop van de functie 2 Functieonderzoek f(x) = x2 4 x 4 + 2 Igor Voulis 9 december 2009 Inhoudsopgave 1 De functie en haar definitiegebied 2 2 Het tekenverloop van de functie 2 3 De asymptoten 3 4 De eerste afgeleide 3 5 De

Nadere informatie

(g 0 en n een heel getal) Voor het rekenen met machten geldt ook - (p q) a = p a q a

(g 0 en n een heel getal) Voor het rekenen met machten geldt ook - (p q) a = p a q a Samenvatting wiskunde h4 hoofdstuk 3 en 6, h5 hoofdstuk 4 en 6 Hoofdstuk 3 Voorkennis Bij het rekenen met machten gelden de volgende rekenregels: - Bij een vermenigvuldiging van twee machten met hetzelfde

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

H. 8 Kwadratische vergelijking / kwadratische functie

H. 8 Kwadratische vergelijking / kwadratische functie H. 8 Kwadratische vergelijking / kwadratische functie 8. Kwadratische vergelijking Een kwadratische vergelijking (of e graadsvergelijking) is een vergelijking van de vorm: a b c + + = Ook wordt een kwadratische

Nadere informatie

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008 Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer

Nadere informatie

Netwerkdiagram voor een project. AOA: Activities On Arrows - activiteiten op de pijlen.

Netwerkdiagram voor een project. AOA: Activities On Arrows - activiteiten op de pijlen. Netwerkdiagram voor een project. AOA: Activities On Arrows - activiteiten op de pijlen. Opmerking vooraf. Een netwerk is een structuur die is opgebouwd met pijlen en knooppunten. Bij het opstellen van

Nadere informatie

3.0 Voorkennis. Voorbeeld 1: Los op: 6x + 28 = 30 10x.

3.0 Voorkennis. Voorbeeld 1: Los op: 6x + 28 = 30 10x. 3.0 Voorkennis Voorbeeld 1: Los op: 6x + 28 = 30 10x. 6x + 28 = 30 10x +10x +10x 16x + 28 = 30-28 -28 16x = 2 :16 :16 x = 2 1 16 8 Stappenplan: 1) Zorg dat alles met x links van het = teken komt te staan;

Nadere informatie

wiskunde C pilot vwo 2017-I

wiskunde C pilot vwo 2017-I De formule van Riegel en kilometertijden De marathonloper Pete Riegel ontwikkelde een eenvoudige formule om te voorspellen welke tijd een hardloper nodig zou hebben om een bepaalde afstand af te leggen,

Nadere informatie

Vendorrating: statistische presentatiemiddelen

Vendorrating: statistische presentatiemiddelen pag.: 1 van 6 Vendorrating: statistische presentatiemiddelen Hieronder bespreken we in het kort een aantal verschillende presentatievormen waarmee we vendorratingresultaten op een duidelijke manier kunnen

Nadere informatie

2.3 Frequentieverdelingen typeren

2.3 Frequentieverdelingen typeren 2.3 Frequentieverdelingen typeren 2.3.1 Introductie Kijkend naar een datarepresentatie valt meestal al snel op hoe de verdeling van de tellingen/frequenties over de verschillende waarden eruitziet. Zitten

Nadere informatie

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor 4 juni 2012 Het voorkomen van ziekte kan op drie manieren worden weergegeven: - Prevalentie - Cumulatieve incidentie - Incidentiedichtheid In de

Nadere informatie

1.0 Voorkennis. Voorbeeld 1: Los op: 6x + 28 = 30 10x.

1.0 Voorkennis. Voorbeeld 1: Los op: 6x + 28 = 30 10x. 1.0 Voorkennis Voorbeeld 1: Los op: 6x + 28 = 30 10x. 6x + 28 = 30 10x +10x +10x 16x + 28 = 30-28 -28 16x = 2 :16 :16 x = 2 1 16 8 Stappenplan: 1) Zorg dat alles met x links van het = teken komt te staan;

Nadere informatie

Noordhoff Uitgevers bv

Noordhoff Uitgevers bv V-a Hoofdstuk - Transformaties Voorkennis: Standaardfuncties bladzijde 70 f () = g () = sin h() = k () = log p () = m () = n () = b D f = [0, en B f = [0, ; D g = en B g =[, ] ; D h = en B h = 0, ; D k

Nadere informatie

1. De wereld van de kansmodellen.

1. De wereld van de kansmodellen. STATISTIEK 3 DE GRAAD.. De wereld van de kansmodellen... Kansmodellen X kansmodel Discreet model Continu model Kansverdeling Vaas Staafdiagram Dichtheidsfunctie f(x) GraJiek van f Definitie: Een kansmodel

Nadere informatie

Dag van GeoGebra Probleemoplossende vaardigheden en onderzoekscompetentie wiskunde 28 mei 2011 Gent

Dag van GeoGebra Probleemoplossende vaardigheden en onderzoekscompetentie wiskunde 28 mei 2011 Gent 1 VERBORGEN FIGUREN 1.1 OPGAVE In heel wat klassieke opdrachten uit de meetkunde is het de bedoeling om een bepaalde figuur te tekenen indien een aantal punten gegeven zijn. De eigenschappen van deze figuur

Nadere informatie

Significante cijfers en meetonzekerheid

Significante cijfers en meetonzekerheid Inhoud Significante cijfers en meetonzekerheid... 2 Significante cijfers... 2 Wetenschappelijke notatie... 3 Meetonzekerheid... 3 Significante cijfers en meetonzekerheid... 4 Opgaven... 5 Opgave 1... 5

Nadere informatie

2010-I. A heeft de coördinaten (4 a, 4a a 2 ). Vraag 1. Toon dit aan. Gelijkstellen: y= 4x x 2 A. y= ax

2010-I. A heeft de coördinaten (4 a, 4a a 2 ). Vraag 1. Toon dit aan. Gelijkstellen: y= 4x x 2 A. y= ax 00-I De parabool met vergelijking y = 4x x en de x-as sluiten een vlakdeel V in. De lijn y = ax (met 0 a < 4) snijdt de parabool in de oorsprong en in punt. Zie de figuur. y= 4x x y= ax heeft de coördinaten

Nadere informatie

Toegepaste data-analyse: oefensessie 2

Toegepaste data-analyse: oefensessie 2 Toegepaste data-analyse: oefensessie 2 Depressie 1. Beschrijf de clustering van de dataset en geef aan op welk niveau de verschillende variabelen behoren Je moet weten hoe de data geclusterd zijn om uit

Nadere informatie

2.1 Bewerkingen [1] Video Geschiedenis van het rekenen (http://www.youtube.com/watch?v=cceqwwj6vrs) 15 x 3 = 45

2.1 Bewerkingen [1] Video Geschiedenis van het rekenen (http://www.youtube.com/watch?v=cceqwwj6vrs) 15 x 3 = 45 15 x 3 = 45 2.1 Bewerkingen [1] Video Geschiedenis van het rekenen (http://www.youtube.com/watch?v=cceqwwj6vrs) 15 x 3 is een product. 15 en 3 zijn de factoren van het product. 15 : 3 = 5 15 : 3 is een

Nadere informatie