College 3 Meervoudige Lineaire Regressie

Vergelijkbare documenten

College 2 Enkelvoudige Lineaire Regressie

College 6 Eenweg Variantie-Analyse

College 7 Tweeweg Variantie-Analyse

Hoofdstuk 10: Regressie

College 2 Enkelvoudige Lineaire Regressie

11. Multipele Regressie en Correlatie

Classification - Prediction

9. Lineaire Regressie en Correlatie

Hoofdstuk 8: Multipele regressie Vragen

Meervoudige lineaire regressie

Voorbeeld regressie-analyse

1. Reductie van error variantie en dus verhogen van power op F-test

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Data analyse Inleiding statistiek

Hoofdstuk 12: Eenweg ANOVA

Oplossingen hoofdstuk XI

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

Regressie-analyse doel menu hulp globale werkwijze aandachtspunten Doel: Voor de uitvoering in SPSS: Missing Values Globale werkwijze

Deze opdracht lossen we eenvoudig op door in de vergelijking X1 en X2 te vervangen door de geobserveerde waarden van deze variabelen:

Enkelvoudige lineaire regressie

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Statistiek 2 deel A 30 minuten over statistisch toetsen

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

mlw stroom 2.1: Statistisch modelleren

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

(slope in het Engels) en het snijpunt met de y-as, b 0

2.9 Het adolescentieonderzoek Opgaven 72

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Verband tussen twee variabelen

Hoofdstuk 5 Een populatie: parametrische toetsen

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

Feedback examen Statistiek II Juni 2011

Analyse van confounders en mediatoren. Cursus Bachelor Project 2 B&O College 3 Harry B.G. Ganzeboom

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Experimenteel en Correlationeel Onderzoek (ECO)

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

8. Analyseren van samenhang tussen categorische variabelen

Statistiek II. Sessie 4. Feedback Deel 4

11. Meerdere gemiddelden vergelijken, ANOVA

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

Experimenteel en Correlationeel Onderzoek

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

HOOFDSTUK VII REGRESSIE ANALYSE

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

Statistiek ( ) eindtentamen

1 vorig = omzet voorgaande jaar. Forward (Criterion: Probability-of-F-to-enter <=,050) 2 bezoek = aantal bezoeken vertegenwoordiger

Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, uur

Statistiek II. Sessie 5. Feedback Deel 5

Werkboek Experimenteel en Correlationeel Onderzoek

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Hoofdstuk 2: Verbanden

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

Regressie-analyse. Cursus Bachelor Project 2 B&O College 2 Harry B.G. Ganzeboom. Regressie-model en mediatie-analyse 1

4 Domein STATISTIEK - versie 1.2

Voorbeeldtentamen Statistiek voor Psychologie

Uitwerkingen tentamen Statistiek 2 voor TeMa Maandag

Bestaat er een betekenisvol verband tussen het geslacht en het voorkomen van dyslexie? Gebruik de Chi-kwadraattoets voor kruistabellen.

TECHNISCHE UNIVERSITEIT EINDHOVEN

Opgave 1: (zowel 2DM40 als 2S390)

Gegevensverwerving en verwerking

laboratory for industrial mathematics eindhoven Endinet Regressie-analyse Energiekamer

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

Wiskunde B - Tentamen 1

Hoeveel condities zijn er (ga er vanuit dat het design fully crossed is)?

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari uur

introductie toetsen power pauze hypothesen schatten ten slotte introductie toetsen power pauze hypothesen schatten ten slotte

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)

Introductie tot de statistiek

Inhoudsopgave. Werkgroep. Werkgroep. Werkgroep. Werkgroep. Werkgroep. Werkgroep. Werkgroep

Strategie en resultaat

Faculteit der Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Het ANCOVA model is een vorm van het general linear model (GLM), en kan als volgt geschreven worden qua populatie parameters:

SPSS. Statistiek : SPSS

E Y = ln(β 1 x) ln β 1 + β 2

Waar waren we? Onderzoekspracticum BCO ANALYSEPLAN. Soorten gegevens. Documentatie. Kwalitatieve gegevens. Coderen kwalitatieve gegevens

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

Toegepaste data-analyse: oefensessie 2

Herkansing eindtoets statistiek voor HBO

Causale modellen: Confounding en mediatie. Harry Ganzeboom Kwantitatieve Methoden voor PMC-BCO College 2: 25 april 2016

Toegepaste data-analyse: sessie 3

Les 5: ANOVA. Elke Debrie 1 Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 28 november 2018

Statistiek II. Sessie 6. Feedback Deel 6

Transcriptie:

College 3 Meervoudige Lineaire Regressie - Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2) Jolien Pas ECO 2012-2013

'Computerprogramma voorspelt Top 40-hits Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html AMSTERDAM - Wetenschappers aan de Universiteit van Bristol in Groot-Brittannië beweren een computerprogramma te hebben ontwikkeld dat kan voorspellen of een nummer hitpotentie heeft. 23 predictoren, bijvoorbeeld: duur, dansbaarheid, luidheid, harmonische eenvoud. Waarschijnlijk nog betere voorspelling wanneer er ook gekeken wordt naar het budget waarmee gepromoot wordt, de video clip, songteksten, de populairiteit van de artiest, etc. Voor meer informatie zie http://scoreahit.com/thehitequation 2

Vorige week: Enkelvoudige Lineaire Regressie 1 response variabele (Y) voorspellen uit 1 predictor variabele (X) Regressievergelijking steekproef: Regressievergelijking populatie: yˆ = b 0 + b 1x µ y = β 0 + β1x Regressiegewicht kan getoetst worden met een t-toets, maar een (ANOVA) F-toets kan het model ook toetsen. 3

Voorbeeld: Enkelvoudige lineaire regressie (ANOVA) F-toets: H 0 : β 1 = 0 en H a : β 1 0 T-toets: H 0 : β 1 = 0 en H a : β 1 > 0 Vanwege eenzijdige H a p-waarde halveren yˆ 2.948 + 0. 412x = 4 t 2 = F 3.145 2 = 9.89

Deze week uitbreiding: Meervoudige Lineaire Regressie 1 response variabele (Y) voorspellen uit meerdere predictoren (X-en) Regressievergelijking steekproef: ˆ 0 1 1 2 2 y = b + b x + b x +... + b x p p Regressievergelijking populatie: µ = β + β x + β x +... + y 0 1 1 2 2 β x p p Deze week concentreren we ons op het opstellen van de regressievergelijking adhv SPSS-output (dus minder rekenwerk!) Een (ANOVA) F-toets kan het gehele model toetsen, maar het is ook nog mogelijk om per regressiegewicht een t-toets te bekijken. 5

Statistisch model µ = β + β x + β x +... + y 0 1 1 2 2 β x p p p = aantal predictoren Subpopulaties worden nu onderscheiden door een bepaalde set van waarden op alle predictoren In elke subpopulatie is y normaal verdeeld met standaarddeviatie σ (enσis in elke subpopulatie gelijk) 6

Populatieparameters DATA = FIT + RESIDUAL y i [ β ] 0 + β1xi 1 + β 2xi2 + + β pxip + i =... p = aantal predictoren i = 1, 2,, n ε De populatieparameters β 0, β 1,β 2,,β p worden geschat met b 0, b 1, b 2,, b p waarbij geprobeerd wordt de error zo klein mogelijk te maken uit SPSS σ wordt geschat met s: 2 ei s = = n p 1 MSE SSE DFE En zoals we vorige week al zagen (ook in werkgroep): 2 2 2 SSE = SST (1 R ) = sy ( n 1) (1 R ) = 7

Waarom meerdere predictoren? Twee grondredenen: 1. Betere voorspelling meer verklaarde variantie en minder residuele variantie 2. Als we een causale theorie willen onderzoeken en daarbij mogelijke spurieuze relaties willen elimineren 8

Meervoudige regressie voor een betere voorspelling (1) Enkelvoudige regressie: - Response variabele (Y): Geluk - Predictor (X): Extraversie Meervoudige regressie: - Response variabele (Y): Geluk - Predictor 1 (X 1 ): Extraversie - Predictor 2 (X 2 ): Neuroticisme 9

Correlaties mbt geluk R 2 extraversie = 0.323 2 = 0.104 R 2 neuroticisme = 0.262 2 = 0.069 Verklaren ze dan samen (10.4 + 6.9 =) 17.3% van de variantie? 10

Voorbeeld SPSS SPSS Analyze Regression Linear 11

Assumpties Regressie Analyse Onafhankelijke en afhankelijke variabelen zijn kwantitatief Gemiddelde respons is lineaire functie van de X-variabelen Residuen zijn onafhankelijk en normaal verdeeld Spreiding van de residuen is hetzelfde in elke subpopulatie (homoscedasticiteit) 12

Assumptie: De relatie tussen de predictoren en Y is lineair Check: bekijk plot van voorspelde waardes vs. residuals (in SPSS te maken: linear regression plots) 13

Assumptie: Homoscedasticiteit Check: bekijk plot van voorspelde waardes vs. residuals (in SPSS te maken: linear regression plots) 14

Assumptie: De residuen zijn normaalverdeeld Check: bekijk Normal Probability pp-plot of histogram (in SPSS aanvinken: linear regression plots) 15

Output: de ANOVA-tabel 1 F-waarde, maar 2 predictoren. Wat toetsen we dan? H 0 : β 1 = β 2 = β 3 = = β p = 0 H A : tenminste één β j 0 16

De ANOVA-tabel 17

Output: Regressiecoëfficiënten geluk = 2.494 +.352* extraversie +.174* neuroticisme NB: t 2 F zodra er meerdere predictoren zijn 18

Hoe kunnen we dit weergeven? geluk = 2.494 +.352 * extraversie +.174 * neuroticis me 19

Regressiecoëfficiënten toetsen bj Toetsen van de coëfficiënten met een t-toets: t = SE Betrouwbaarheidsinterval van een coëfficiënt: Beide met df = n p 1 b j * b j ± t SE b j SE dit keer niet zelf berekenen, maar uit SPSS tabel halen 20

Hoe goed is de voorspelling? R² = VAF = SSM / SST R is de multipele correlatie (correlatie tussen voorspelde y- waardes en geobserveerde y-waardes) R² adjusted: aangepaste R² voor generalisatie naar populatie 2 R adj = 1 (1 R 2 ) n n 1 p 1 21

Adjusted R 2 2 R adj = 1 (1 R 2 ) n n 1 p 1 Bij R 2 = 0.3: Stel n = 30 en p = 2, dan R 2 adj = 0.25 Stel n = 30 en p = 6, dan R 2 adj = 0.12 Stel n = 30 en p = 8, dan R 2 adj = -0.07 Veel verschil tussen R 2 en R 2 adj, en negatieve R 2 adj duiden op slechte combinatie van aantal predictoren en aantal personen 22

Output: Verklaarde variantie R 2 extraversie = 0.323 2 = 0.104 R 2 neuroticisme = 0.262 2 = 0.069 Verklaren ze dan samen (10.4 + 6.9 =) 17.3% van de variantie? Nee, ze verklaren samen 14% van de variantie! Hoe komt dit? Denk aan significante correlatie tussen extraversie en neuroticisme (r =.238 met p =.026) 23

Unieke verklaarde variantie Extraversie Neuroticisme Extraversie verklaart 10.4% van de variantie van geluk, maar deel daarvan wordt ook verklaart door Neuroticisme Unieke verklaarde variantie Extraversie: R 2 totaal R 2 neuroticisme Oftewel: 14% - 6.9% = 7.1% 24

Nog een voorbeeld: Voorspellen van Vetpercentage Vetpercentage (Y) voorspellen uit BMI (X 1 ), Leeftijd (X 2 ) en Geslacht (X 3 met 0 = vrouw en 1 = man) 25

Assumpties: Voorspellen van Vetpercentage 26

Voorspellen van Vetpercentage Relatief hoge R en R 2 : : goede voorspelling F zeer significant: tenminste één β j 0 27

Voorspellen van Vetpercentage Alle regressiegewichten zijn significant (p <.001) V ETP = -3.46 + 1.11 BMI +.24 LFT 9.17 SEXE 28

Meervoudige regressie om spurieuze relaties te elimineren (2) D-score Data (koopmans, 1987): 12 kinderen, 6 meisjes en 6 jongens, variërend in leeftijd van 3 tot 10 jaar, zijn getest met een test voor cognitieve ontwikkeling. Enkelvoudige regressie: - Response variabele (Y): Cognitieve ontwikkeling - Predictor (X): Geslacht Meervoudige regressie: - Response variabele (Y): Cognitieve ontwikkeling - Predictor 1 (X 1 ): Geslacht - Predictor 2 (X 2 ): Leeftijd 29 -

Cognitieve Ontwikkeling voorspellen uit geslacht Let op: Geslacht is gecodeerd met 0 = meisje en 1 = jongen Dscore = 10.305 + 2.288*Sexe Er is een significant (positief) effect van SEXE op DSCORE (p =.039): jongens scoren significant hoger dan meisjes 30

Correlaties mbt Cognitieve Ontwikkeling Let op: Geslacht is gecodeerd met 0 = meisje en 1 = jongen SEXE r =.600 r² =.360 LFT r =.957 r² =.916 31

Cognitieve Ontwikkeling voorspellen uit geslacht, gecorrigeerd voor leeftijd Effect van LFT is significant (p < 0.001), maar SEXE is niet meer significant (p =.799) Verklaring? 32

Cognitieve Ontwikkeling Het significante verband tussen SEXE en DSCORE is spurieus Verband gevonden door (toevallige) samenhang tussen LFT en SEXE Controleren voor LFT elimineert het spurieuze effect van SEXE 33

Soorten meervoudige regressie Standard: Alle variabelen worden op hetzelfde moment toegevoegd Stepwise: Variabelen worden op basis van sterkte van voorspelling toegevoegd Hierarchical: Variabelen worden toegevoegd op manier die door onderzoeker wordt bepaald 34

Soorten regressie in SPSS 35

Soorten regressie in SPSS 36

Volgende week Experimenteel onderzoek en experimentele controle (dit hoort bij deel 2 van ECO) - MM&C Hoofdstuk 2.4 (p. 129 t/m 130), 2.6 en 3.1 - Leary Hoofdstuk 9 en 10 - Aanvullende tekst 4 37