College 6 Samenhang tussen variabelen Inleiding M&T 2012 2013 Hemmo Smit
Overzicht van deze cursus 1. Grondprincipes van de wetenschap 2. Observeren en meten 3. Interne consistentie; Beschrijvend onderzoek 4. Inspecteren van data; Verdelingen 5. Normaalverdeling en z-scores 6. Samenhang tussen variabelen 7. Regressie-analyse en Variantie verklaren
Overzicht van dit college Wat is samenhang? Scatterplot: grafische weergave Covariantie: maat voor samenhang (1) Pearson Correlatie: maat voor samenhang (2) Stof: Leary: Hoofdstuk 7 Moore, McCabe & Craig: Hoofdstuk 2 ( 2.1 2.2) Werkboek: Aanvullende tekst 6
Verband tussen twee variabelen 1. Samenhang (associatie, interdependence). Beide variabelen hebben dezelfde rol en hangen wellicht van een (onbekende) derde af. 2. Afhankelijkheid (dependence) - Voorspelling - Causaliteit - Onafhankelijke (explanatory) variabele X bepaalt afhankelijke (response) variabele Y.
Wat is nodig voor vaststellen samenhang? Twee variabelen geobserveerd bij dezelfde n cases. Meetniveau variabelen: - kwantitatief + kwantitatief (bijv. lengte + gewicht) - categorisch + kwantitatief (bijv. sekse + depressiviteit) - categorisch + categorisch (bijv. oogkleur + haarkleur) Twee variabelen V1 en V2 zijn geassocieerd als bepaalde waarden van V1 vaker optreden met sommige waarden van V2 dan met andere waarden.
Overzicht van dit college Wat is samenhang? Scatterplot: grafische weergave Covariantie: maat voor samenhang (1) Pearson Correlatie: maat voor samenhang (2)
Scatterplot (puntenwolk)
Beoordelen scatterplot Algemeen patroon 1) Richting 2) Sterkte 3) Vorm - homogeen / heterogeen - lineair / niet-lineair Opvallende afwijkingen - uitbijters (outliers)
Scatterplot: Richting (1) Positief: hoge scores op variabele X gaan meestal samen met hoge scores op variabele Y. En lage met lage. (NB. Hoge scores: positieve afwijking van gemiddelde). Negatief: hoge scores op variabele X gaan meestal samen met lage scores op variabele Y. En lage met hoge.
Scatterplot: Richting (2) 160 140 120 (-)(+) (+)(+) 100 80 IQ, gem = 100 60 40 20 30 (-)(-) 40 50 60 (+)(-) 70 80 90 Verbaal Vermogen, gem = 50
Scatterplot: Richting (3)
Scatterplot: Sterkte Hoe meer de punten op één (rechte) lijn liggen, hoe sterker het verband.
Scatterplot: Vorm Lineair verband: De punten volgen ongeveer een rechte lijn. 100 Niet-linear verband: De punten volgen totaal geen rechte lijn. 90 80 70 60 50 40 30 20 Math 10 0 0 20 40 60 80 100 Anxiety
Scatterplot: Uitbijters (1) Uitbijters (outliers) zijn punten die duidelijk afwijken van het algemene patroon. - Uitbijters kunnen sterkte verband beïnvloeden. - Plot data ook zonder de uitbijter(s). - Probeer uitbijter(s) te verklaren. LET OP! Uitbijters niet zomaar uit de dataset verwijderen.
Scatterplot: Uitbijters (2) correlation coeff 0.890841 correlation coeff 0.348046 correlation coeff 0.348046 Data + uitbijter Data uitbijter (1) Data uitbijter (2)
Samenhang met categorische variabele (1)
Samenhang met categorische variabele (2)
Overzicht van dit college Wat is samenhang? Scatterplot: grafische weergave Covariantie: maat voor samenhang (1) Pearson Correlatie: maat voor samenhang (2)
Covariantie: maat voor sterkte samenhang Variëren de twee variabelen op een systematische manier samen? Bijv. laag/laag en hoog/hoog OF laag/hoog en hoog/laag
Variantie (week 1) 11 10 9 8 7 s 2 y ( = n y i 1 y) 2 mental age 6 5 0.0 1.0 2.0 3.0 4.0 KLAS
( y y) ) Van Variantie naar Covariantie Variantie niet geschikt voor bivariate data (2 variabelen). Covariantie voegt de variantie van beide variabelen: s 2 x 2 ( x ) i x 2 = en sy = n 1 ( y i n 1 Samen in één formule voor de covariantie: s xy ( )( = xi x y n 1 i y) y) 2 Kruisproduct
Covariantie in beeld
Rekenvoorbeeld covariantie (1) Onderzoeksvraag: Gewichtstoename Groeimiddel Leidt het gebruik van een groeimiddel tot gewichtstoename bij te vroeg geboren baby s? Verwachting: Meer groeimiddel meer gewichtstoename
Rekenvoorbeeld covariantie (3) xi y ( x i x) ( y i y) ( xi x)( yi y) i 0 1.0-3 -1.857 5.571 1 1.2-2 -1.657 3.314 2 2.0-1 -0.857 0.857 3 2.4 0-0.457 0.0 4 3.4 1 0.543 0.543 5 4.9 2 2.043 4.086 6 5.1 3 2.243 6.729 21.1 x y = = 3 2.857 s s x y = 2.16 = 1.67
( y y) ) Rekenvoorbeeld covariantie (4) s xy ( = x i x)( y n 1 i y) s xy = 21.1 (7 1) = 3.517 Tip :Vergelijk s xy met het product van s x en s y, want - (s x s y ) < s xy < s x s y
Overzicht van dit college Wat is samenhang? Scatterplot: grafische weergave Covariantie: maat voor samenhang (1) Pearson Correlatie: maat voor samenhang (2)
Pearon Product-Moment Correlatie (r): Maat voor lineaire samenhang Samenhang tussen twee variabelen Intervalniveau Correlatie ligt tussen -1.00 en +1.00 Geen onderscheid in afhankelijke en onafhankelijke variabele Gestandaardiseerd (verandert niet als meeteenheid verandert) Alleen voor lineaire verbanden Gevoelig voor uitbijters (niet robuust)
( y y) ) 2 Formules voor de Pearson r 1) r xy = 1 xi x yi y n s 1 x s y n 1 42431 4243 z x z y z x z 1 y 2) r xy = s s x xy s y
( y y) Pearson r schatten (1) r = 0.0 r = +1.0
( y y) Pearson r schatten (2) r = -0.3 r = +0.7 r = -0.9 r = +0.5 r = +0.7
Let op! Niet-lineair verband correlation coeff 0.482028 Aantal fouten Temperatuur
Let op! Uitbijters en heterogene groepen correlation coeff 0.425135 Gewicht hersenen Zoogdieren Dinosaurussen Lichaamsgewicht
Criteria voor Causaliteit 1) Variabelen moeten covariëren / correleren 2) Directionality: oorzaak gaat gevolg vooraf (in de tijd) 3) Alternatieve verklaringen zijn uitgesloten
Knoop in je oren Correlatie Causatie
Overzicht van dit college Scatterplots verduidelijken relatie tussen twee variabelen kijk naar: vorm, richting, sterkte, en uitbijters Correlatie meet/geeft richting en sterkte van een lineair verband Beschrijving is geen verklaring: Correlatie Causatie
Volgende week Regressieanalyse en Variantie Verklaren Stof: Moore, McCabe & Craig H.2 ( 3 4)