College 3 Meervoudige Lineaire Regressie - Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2) Jolien Pas ECO 2012-2013
'Computerprogramma voorspelt Top 40-hits Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html AMSTERDAM - Wetenschappers aan de Universiteit van Bristol in Groot-Brittannië beweren een computerprogramma te hebben ontwikkeld dat kan voorspellen of een nummer hitpotentie heeft. 23 predictoren, bijvoorbeeld: duur, dansbaarheid, luidheid, harmonische eenvoud. Waarschijnlijk nog betere voorspelling wanneer er ook gekeken wordt naar het budget waarmee gepromoot wordt, de video clip, songteksten, de populairiteit van de artiest, etc. Voor meer informatie zie http://scoreahit.com/thehitequation 2
Vorige week: Enkelvoudige Lineaire Regressie 1 response variabele (Y) voorspellen uit 1 predictor variabele (X) Regressievergelijking steekproef: Regressievergelijking populatie: yˆ = b 0 + b 1x µ y = β 0 + β1x Regressiegewicht kan getoetst worden met een t-toets, maar een (ANOVA) F-toets kan het model ook toetsen. 3
Voorbeeld: Enkelvoudige lineaire regressie (ANOVA) F-toets: H 0 : β 1 = 0 en H a : β 1 0 T-toets: H 0 : β 1 = 0 en H a : β 1 > 0 Vanwege eenzijdige H a p-waarde halveren yˆ 2.948 + 0. 412x = 4 t 2 = F 3.145 2 = 9.89
Deze week uitbreiding: Meervoudige Lineaire Regressie 1 response variabele (Y) voorspellen uit meerdere predictoren (X-en) Regressievergelijking steekproef: ˆ 0 1 1 2 2 y = b + b x + b x +... + b x p p Regressievergelijking populatie: µ = β + β x + β x +... + y 0 1 1 2 2 β x p p Deze week concentreren we ons op het opstellen van de regressievergelijking adhv SPSS-output (dus minder rekenwerk!) Een (ANOVA) F-toets kan het gehele model toetsen, maar het is ook nog mogelijk om per regressiegewicht een t-toets te bekijken. 5
Statistisch model µ = β + β x + β x +... + y 0 1 1 2 2 β x p p p = aantal predictoren Subpopulaties worden nu onderscheiden door een bepaalde set van waarden op alle predictoren In elke subpopulatie is y normaal verdeeld met standaarddeviatie σ (enσis in elke subpopulatie gelijk) 6
Populatieparameters DATA = FIT + RESIDUAL y i [ β ] 0 + β1xi 1 + β 2xi2 + + β pxip + i =... p = aantal predictoren i = 1, 2,, n ε De populatieparameters β 0, β 1,β 2,,β p worden geschat met b 0, b 1, b 2,, b p waarbij geprobeerd wordt de error zo klein mogelijk te maken uit SPSS σ wordt geschat met s: 2 ei s = = n p 1 MSE SSE DFE En zoals we vorige week al zagen (ook in werkgroep): 2 2 2 SSE = SST (1 R ) = sy ( n 1) (1 R ) = 7
Waarom meerdere predictoren? Twee grondredenen: 1. Betere voorspelling meer verklaarde variantie en minder residuele variantie 2. Als we een causale theorie willen onderzoeken en daarbij mogelijke spurieuze relaties willen elimineren 8
Meervoudige regressie voor een betere voorspelling (1) Enkelvoudige regressie: - Response variabele (Y): Geluk - Predictor (X): Extraversie Meervoudige regressie: - Response variabele (Y): Geluk - Predictor 1 (X 1 ): Extraversie - Predictor 2 (X 2 ): Neuroticisme 9
Correlaties mbt geluk R 2 extraversie = 0.323 2 = 0.104 R 2 neuroticisme = 0.262 2 = 0.069 Verklaren ze dan samen (10.4 + 6.9 =) 17.3% van de variantie? 10
Voorbeeld SPSS SPSS Analyze Regression Linear 11
Assumpties Regressie Analyse Onafhankelijke en afhankelijke variabelen zijn kwantitatief Gemiddelde respons is lineaire functie van de X-variabelen Residuen zijn onafhankelijk en normaal verdeeld Spreiding van de residuen is hetzelfde in elke subpopulatie (homoscedasticiteit) 12
Assumptie: De relatie tussen de predictoren en Y is lineair Check: bekijk plot van voorspelde waardes vs. residuals (in SPSS te maken: linear regression plots) 13
Assumptie: Homoscedasticiteit Check: bekijk plot van voorspelde waardes vs. residuals (in SPSS te maken: linear regression plots) 14
Assumptie: De residuen zijn normaalverdeeld Check: bekijk Normal Probability pp-plot of histogram (in SPSS aanvinken: linear regression plots) 15
Output: de ANOVA-tabel 1 F-waarde, maar 2 predictoren. Wat toetsen we dan? H 0 : β 1 = β 2 = β 3 = = β p = 0 H A : tenminste één β j 0 16
De ANOVA-tabel 17
Output: Regressiecoëfficiënten geluk = 2.494 +.352* extraversie +.174* neuroticisme NB: t 2 F zodra er meerdere predictoren zijn 18
Hoe kunnen we dit weergeven? geluk = 2.494 +.352 * extraversie +.174 * neuroticis me 19
Regressiecoëfficiënten toetsen bj Toetsen van de coëfficiënten met een t-toets: t = SE Betrouwbaarheidsinterval van een coëfficiënt: Beide met df = n p 1 b j * b j ± t SE b j SE dit keer niet zelf berekenen, maar uit SPSS tabel halen 20
Hoe goed is de voorspelling? R² = VAF = SSM / SST R is de multipele correlatie (correlatie tussen voorspelde y- waardes en geobserveerde y-waardes) R² adjusted: aangepaste R² voor generalisatie naar populatie 2 R adj = 1 (1 R 2 ) n n 1 p 1 21
Adjusted R 2 2 R adj = 1 (1 R 2 ) n n 1 p 1 Bij R 2 = 0.3: Stel n = 30 en p = 2, dan R 2 adj = 0.25 Stel n = 30 en p = 6, dan R 2 adj = 0.12 Stel n = 30 en p = 8, dan R 2 adj = -0.07 Veel verschil tussen R 2 en R 2 adj, en negatieve R 2 adj duiden op slechte combinatie van aantal predictoren en aantal personen 22
Output: Verklaarde variantie R 2 extraversie = 0.323 2 = 0.104 R 2 neuroticisme = 0.262 2 = 0.069 Verklaren ze dan samen (10.4 + 6.9 =) 17.3% van de variantie? Nee, ze verklaren samen 14% van de variantie! Hoe komt dit? Denk aan significante correlatie tussen extraversie en neuroticisme (r =.238 met p =.026) 23
Unieke verklaarde variantie Extraversie Neuroticisme Extraversie verklaart 10.4% van de variantie van geluk, maar deel daarvan wordt ook verklaart door Neuroticisme Unieke verklaarde variantie Extraversie: R 2 totaal R 2 neuroticisme Oftewel: 14% - 6.9% = 7.1% 24
Nog een voorbeeld: Voorspellen van Vetpercentage Vetpercentage (Y) voorspellen uit BMI (X 1 ), Leeftijd (X 2 ) en Geslacht (X 3 met 0 = vrouw en 1 = man) 25
Assumpties: Voorspellen van Vetpercentage 26
Voorspellen van Vetpercentage Relatief hoge R en R 2 : : goede voorspelling F zeer significant: tenminste één β j 0 27
Voorspellen van Vetpercentage Alle regressiegewichten zijn significant (p <.001) V ETP = -3.46 + 1.11 BMI +.24 LFT 9.17 SEXE 28
Meervoudige regressie om spurieuze relaties te elimineren (2) D-score Data (koopmans, 1987): 12 kinderen, 6 meisjes en 6 jongens, variërend in leeftijd van 3 tot 10 jaar, zijn getest met een test voor cognitieve ontwikkeling. Enkelvoudige regressie: - Response variabele (Y): Cognitieve ontwikkeling - Predictor (X): Geslacht Meervoudige regressie: - Response variabele (Y): Cognitieve ontwikkeling - Predictor 1 (X 1 ): Geslacht - Predictor 2 (X 2 ): Leeftijd 29 -
Cognitieve Ontwikkeling voorspellen uit geslacht Let op: Geslacht is gecodeerd met 0 = meisje en 1 = jongen Dscore = 10.305 + 2.288*Sexe Er is een significant (positief) effect van SEXE op DSCORE (p =.039): jongens scoren significant hoger dan meisjes 30
Correlaties mbt Cognitieve Ontwikkeling Let op: Geslacht is gecodeerd met 0 = meisje en 1 = jongen SEXE r =.600 r² =.360 LFT r =.957 r² =.916 31
Cognitieve Ontwikkeling voorspellen uit geslacht, gecorrigeerd voor leeftijd Effect van LFT is significant (p < 0.001), maar SEXE is niet meer significant (p =.799) Verklaring? 32
Cognitieve Ontwikkeling Het significante verband tussen SEXE en DSCORE is spurieus Verband gevonden door (toevallige) samenhang tussen LFT en SEXE Controleren voor LFT elimineert het spurieuze effect van SEXE 33
Soorten meervoudige regressie Standard: Alle variabelen worden op hetzelfde moment toegevoegd Stepwise: Variabelen worden op basis van sterkte van voorspelling toegevoegd Hierarchical: Variabelen worden toegevoegd op manier die door onderzoeker wordt bepaald 34
Soorten regressie in SPSS 35
Soorten regressie in SPSS 36
Volgende week Experimenteel onderzoek en experimentele controle (dit hoort bij deel 2 van ECO) - MM&C Hoofdstuk 2.4 (p. 129 t/m 130), 2.6 en 3.1 - Leary Hoofdstuk 9 en 10 - Aanvullende tekst 4 37