//9 De Collegereeks Statstek Informatekunde Unverstet Utrecht Dr. H. Prüst Statstek Hoorcollege 7 Correlate en Predcte (7): Descrpteve statstek (H,,) (HP) (8): Score & Kans verdelngen (H, ) (HP) (9): Statstsche toetsng a.h.v. t toets (H 6) (HP) (): t toets, Homogentet & Betrouwbaarhed (H 7, ) (HP) 6(): Ch toets (H 9) (HP) 7(): Varante analyse (H 8) (HP) 8(): Correlate & Predcte (H ) (HP) 9(): Responsecollege (HP) Deze week oktober : hoorcollege statstek (correlate en predcte) oktober : uur werkcolleges: presentates + voorbereden peer feedback donderdag oktober 9 uur hoorcollege methoden: Kwaltatef onderzoek / Case study Dr. Slnger Jansen donderdag oktober practcum + werkcollege (Remko Helms) Volgende week woensdag 8 oktober : responsecollege: stuur vragen van te voren va mal aan huub@cs.uu.nl woensdag 8 oktober : uur werkcolleges: feedback op draft paper donderdag 9 oktober 9 uur hoorcollege methoden: Desgn research Prof. Sjaak Brnkkemper donderdag oktober practcum + werkcollege (Remko Helms) Vandaag Recaptulate Correlate Predcte Keuze van de statstsche toets Onderzoeksvraag Frequentes In welke mate zjn ederlanders gelukkg? Verschl Zjn mannen gelukkger dan vrouwen? Samenhang/relate Is er een samenhang tussen geld en geluk? Onderzoeksontwerp bnnen proefpersonen (related desgns) tussen proefpersonen (unrelated desgns) Meetnveau varabelen omnaal: ondersched Ordnaal: ondersched, ordenng Interval: ondersched, ordenng, geljke verschllen Rato: ondersched, ordenng, geljke verschllen, natuurljk nulpunt Steekproef grootte Verdelng normaal verdeeld zjn n de populate geljke varantes
//9 Keuze van de statstsche toets Correlate en Predcte Behandelde toetsen Ch toets: samenhang tussen twee categorsche varabelen T toets: één categorsche varabele (verschl tussen twee gemddelden) Varante analyse: één categorsche varabele erschl tussen dre of meer gemddelden) Correlate en predcte (regresse): Samenhang tussen twee netcategorsche varabelen Voorwaarden correlate en predcte Meetnveau van bede varabelen s nterval of rato (of ordnaal als je een schaal hebt gecontrueerd) Verband s lnear (YbX + a) Opgave I Utwerkng In de tabel s X het percentage organsates n een land dat een aanslutng heeft op Internet. Y s het percentage hushoudens waarn de kostwnnaar werkloos s. Maak een spredngsdagram Bestaat er correlate tussen X en Y? Is deze correlate postef of negatef? Teken op het oog de regresseljn In een land heeft 6% van de hushoudens een Internet aanslutng. Schat het percentage werklozen. Land X Y Australe 87 Bdesh 9 Bolv Chna 6 Chl 86 9 Congo 9 Ghana 6 66 Hong 67 Indon 8 Fra 7 6 Getallen zjn fctef! Percentage we erklozen 8 6 Relate Internet - werklooshed 6 8 Percentage Internet aanslutngen Er s negateve correlate tussen het aantal nternet aanslutngen en het percentage werklozen n een land: Hoe meer nternet aanslutngen er zjn n een land, hoe lager de werklooshed. Wanneer 6% van de bedrjven een nternetaanslutng heeft, bedraagt de werklooshed ongeveer % Andere voorbeelden aantal nterruptes en aantal seconden voor taak wordt volbracht nkomen en snelhed van nternetverbndng aantal werknemers n een organsate en bestedng aan ICT nkomen en utgaven van studenten enz. Een rekenvoorbeeld Resp VAR X VAR Y 6 7 8 9 Respondent 6 De scatterplot laat de puntenwolk zen De correlatecoëffcënt geeft aan n hoeverre de relate tussen twee varabelen ljkt op een rechte ljn en hoe je a.h.v. de scores op een varabele Y, de scores op een varabele X kunt schatten
//9 Berekenng van Pearsons r Covarante ( X X )( Y Y ) In Excel Correlatecoëffcënt Product moment Correlatecoëffcënt Pearsons r r r xy r s x * s y Standaardafwjkng ( X X) sx ( Y Y ) sy ( X X) sx ( X X )( Y Y ) r s x * s y en n SPSS Spredngsdagrammen (scatter dagrams) Correlatons VAR_X VAR_Y Pearson Correlaton Sg. (-taled) Pearson Correlaton Sg. (-taled) VAR_X VAR_Y,8,79,8,79 Bron: Multvarate Statstcal Analyss Kachgan 99 Opgave II Utwerkng Bereken Pearsons r op bass van de gegevens ut de tabel. Is er sprake van samenhang? Plot een spredngsdagram Bestaat er op grond van het spredngsdagram een samenhang tussen X en Y? Lcht je antwoord toe. Welk msledend effect gaat er her van de correlate coëffcënt ut? Waardoor wordt dt effect veroorzaakt? X 6 7 8 Y 6 7 6
//9 Opgave II Utwerkng 7 6 Bereken Pearsons r op bass van de gegevens ut de tabel. Is er sprake van samenhang? Plot een spredngsdagram Bestaat er op grond van het spredngsdagram een samenhang tussen X en Y? Lcht je antwoord toe. Welk msledend effect gaat er her van de correlate coëffcënt ut? Waardoor wordt dt effect veroorzaakt? X 6 7 8 Y 6 7 6 6 7 8 r Ers wel samenhang, hele sterke zelfs, maar het s geen lneare samenhang Hoe kun je dt verband precseren? Y7 X Toetsng van een lneare samenhang twee nterval of rato varabelen H : H : ρ ρ toetsngsgroothed vrjhedsgraden df t r r Voorspellende waarde: verklaarde varante Stel: bj een bepaalde groep personen s de correlate tussen lengte en gewcht r.8 r.6 (determnate coeffcent) x (.8) 6 % (verklaarde varante) van de onderlnge verschllen n gewcht, s toe te schrjven aan het fet dat de mensen n lengte verschllen (en omgekeerd) Correlate Vb SPSS: leeftjd en crtcal Correlate Vb SPSS: leeftjd en cff flcker frequency
//9 Correlate Vb SPSS: leeftjd en cff Correlate Vb SPSS: leeftjd en cff Correlatons leeftjd Pearson Correlaton Sg. (-taled) crtcal flcker frequency Pearson Correlaton Sg. (-taled) **. Correlaton s sgnfcant at the. level (-taled). crtcal flcker leeftjd frequency -,78**, -,78**, Correlate Vb nkomen en utgaven Correlate Vb nkomen en utgaven utgaven vaste lasten + reserverngskosten + hushouden studenten WO8 studenten WO8 Predcte Het schatten van de scores van de ene varabele (Y, de crterumvarabele) op bass van een andere varabele (X, de predctorvarabele) Herbj wordt het concept van correlate gebrukt Regresse (Predcte) Best passende ljn: Y b X+a b a Regresse van Y op X: schatten van de scores op van Y op bass van de scores op X
//9 Klenste kwadraten controverse Adren Mare Legendre (7 8) In opdracht van apoleon held hj zch bezg met de bepalng van een meter Publceert n 8 de klenste kwadraten methode n ouvelles méthodes pour la determnaton des orbtes des comètes. Carl Fredrch Gauss (777 8) Publceerde n 89 over de klenste kwadraten methode maar beweerde er al vanaf 79 mee te werken. Van alle prncpes s de van de klenste kwadraten het eenvoudgst: alle andere leden tot de meest ngewkkelde berekenngen. Klenste kwadraten crterum Mnmalseren van de som van de gekwadrateerde schattngsfouten Bj het voorspellen van Y Totale lengte blauwe ljnen alle afwjkngen op Y Trek de ljn de de korste som van de blauwe ljnen oplevert 6 8 In formules Y ' b X + a Schattngsfout, resdu observate schattng Y Y ' Y Y ' + resdu b X + a X Y b s x X + resdu X ( X ) Y ( rchtngscoeffcent) Terug naar het rekenvoorbeeld Resp VAR X VAR Y 6 7 8 9 Respondent 6 De scatterplot laat de puntenwolk zen a Y b X Y b X ( snjpunt met dey as) De correlatecoëffcënt geeft aan n hoeverre de relate tussen twee varabelen ljkt op een rechte ljn en hoe je a.h.v. de scores op een varabele X, de scores op een varabele Y kunt schatten In Excel Y,88X+,8 Opgave III Voor deze dataset s de regresseljn Y,88X+,8 Welke Y waarde voorspel je bj een X van? Welke respondent heeft het grootste resdu? Wat gebeurt er met Pearsons r, a en de b als deze respondent er net zou zjn? Respon X Y dent 6 7 8 a 9 b X X ( X ) b Y Y sx X a Y b X Y b X Y ' b X + a 6
6 8 6 8 6 8 6 8 6 8 6 8 //9 Utwerkng De voorspelde Y (oftewel Y ) bj een X van s,88*+,8,88 resdu observate schattng Y Y ' Respondent # heeft de grootste afwjkng Als Respondent # er net t was, werd de correlate sterker en werd de a klener en de b groter de regresseljn wordt stjler en de punten lggen er dchter omheen. In SPSS Regresson Varables Entered/Removed b Varables Varables Model Entered Removed Method VAR_X a. Enter a. All requested varables entered. b. Dependent Varable: VAR_Y Model Summary Adjusted Std. Error of Model R R Square R Square the Estmate,8 a,,7,8 a. Predctors: (Constant), VAR_X AOVA b Sum of Model Squares df Mean Square F Sg. Regresson,86,86,8,79 a Resdual, 8,6 Total 6, 9 a. Predctors: (Constant), VAR_X b. Dependent Varable: VAR_Y Coeffcents a Unstandardzed Coeffcents Standardzed Coeffcents Model (Constant) VAR_X B Std. Error Beta t Sg.,8,68,6,,88,8,8,6,79 a. Dependent Varable: VAR_Y Regresse Vbd nkomen en utgaven Regresse: Vbd nkomen en utgaven studenten WO8 nkomen.*utgaven +. Correlate en Regresse (Predcte) Valkulen Correlate: r,8 (r,6) Regresse: b Correlate: r,9 (r,8) Regresse: b, Correlate: r,8 (r,6) Regresse: b Correlate: r,9 (r,8) Predcte: b,8 Correlate: r (r ) Regresse: b Correlate: r (r ) Predcte: b Statstsch Homoscedastctet Utbjters Verband s net lnear Transformate Inhoudeljk 6 8 6 8 Rchtng van het verband Spurous relaton 6 8 6 8 7
//9 Multple Regresse Meerdere varabelen de Y voorspellen Bjvoorbeeld Leeftjd en Opledng bepalen Inkomen Mogeljkheden Ingewkkelder modellen bouwen Ze Advanced Research Methods Valkulen Karl Pearson (87 96) Whenever a correlaton s observed, or a correlaton coeffcent s computed, let t be remembered frst, last and all the tme, that t measures nothng, except statstcal assocaton between varables, no matter how glamorous or seductve the suggeston of causal relatonshp may seem. De Collegereeks Statstek (7): Descrpteve statstek (H,,) (HP) (8): Score & Kans verdelngen (H, ) (HP) (9): Statstsche toetsng a.h.v. t toets (H 6) (HP) (): t toets, Homogentet & Betrouwbaarhed (H 7, ) (HP) 6(): Ch toets (H 9) (HP) 7(): Varante analyse (H 8) (HP) 8(): Correlate & Predcte (H ) (HP) 9(): Responsecollege (HP) 8