Voorbeeld regressie-analyse



Vergelijkbare documenten
1 vorig = omzet voorgaande jaar. Forward (Criterion: Probability-of-F-to-enter <=,050) 2 bezoek = aantal bezoeken vertegenwoordiger

Regressie-analyse doel menu hulp globale werkwijze aandachtspunten Doel: Voor de uitvoering in SPSS: Missing Values Globale werkwijze

Oplossingen hoofdstuk XI

Enkelvoudige lineaire regressie

Meervoudige lineaire regressie

* de percentages goed per klas en volgorde van afnemen. sort cases by klas volgorde. split file by klas volgorde. des var=goedboekperc.

Bijlage 3: Multiple regressie analyse

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

Verband tussen twee variabelen

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

College 2 Enkelvoudige Lineaire Regressie

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

11. Multipele Regressie en Correlatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

mlw stroom 2.1: Statistisch modelleren

Deze opdracht lossen we eenvoudig op door in de vergelijking X1 en X2 te vervangen door de geobserveerde waarden van deze variabelen:

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie?

Hoofdstuk 8: Multipele regressie Vragen

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

College 3 Meervoudige Lineaire Regressie

Hoofdstuk 10: Regressie

Hoofdstuk 5 Een populatie: parametrische toetsen

** VOORBEELD VAN CAUSALE ANALYSE MET CONFOUNDER EN MEDIATOR **.. GET FILE='u:\)Research\ISSP-NL\ISSP \Data\issp_2013_2014_NL_def.sav'.

(slope in het Engels) en het snijpunt met de y-as, b 0

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

10. Moderatie, mediatie en nog meer regressie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

Hoofdstuk 12: Eenweg ANOVA

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 3 februari 2012

9. Lineaire Regressie en Correlatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Fasen in het onderzoeksproces

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

20. Multilevel lineaire modellen

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

11. Meerdere gemiddelden vergelijken, ANOVA

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag ,

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, uur

TECHNISCHE UNIVERSITEIT EINDHOVEN

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

Interim Toegepaste Biostatistiek deel 1 14 december 2009 Versie A ANTWOORDEN

1. Reductie van error variantie en dus verhogen van power op F-test

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari uur

Gezinsinkomen en kansenongelijkheid Cijfers bij beschouwend artikel Didactief mei 2018

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

Classification - Prediction

Opgave 1: (zowel 2DM40 als 2S390)

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek II voor TeMa (2S195) op maandag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op donderdag ,

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

Hoofdstuk 6 Twee populaties: parametrische toetsen

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

Eindtoets Toegepaste Biostatistiek

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Antwoordvel Versie A

Wat gaan we doen? Help! Statistiek! Wat is een lineaire relatie? De rechte-lijn-vergelijking: Y = a + b X. Relatie tussen gewicht en lengte

Regressie-analyse. Cursus Bachelor Project 2 B&O College 2 Harry B.G. Ganzeboom. Regressie-model en mediatie-analyse 1

Faculteit der Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op maandag ,

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 27 oktober 2010, uur

Strategie en resultaat

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Toegepaste data-analyse: oefensessie 2

College 2 Enkelvoudige Lineaire Regressie

Feedback examen Statistiek II Juni 2011

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

Het gebruik van SPSS voor statistische analyses. Een beknopte handleiding.

Statistiek II. Sessie 4. Feedback Deel 4

Disclosure Belangen Spreker

4 Meervoudige lineaire regressie

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

a. Wanneer kan men in plaats van de Pearson correlatie coefficient beter de Spearman rangcorrelatie coefficient berekenen?

Kruis per vraag slechts één vakje aan op het antwoordformulier.

SPSS. Statistiek : SPSS

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

STATISTIEK 2 VERSIE A MAT Tentamen Statistiek 2 (MAT-15403) Maandag 5 augustus 2013, uur

M M M M M M M M M M M M M M La La La La La La La Mid Mid Mid Mid Mid Mid Mid

College 6 Eenweg Variantie-Analyse

Werkboek Experimenteel en Correlationeel Onderzoek

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Nominaal Ordinaal Interval (ratio) Nominaal - Kwalitatief - Laagste niveau - Categorieën niet ordenen - Geslacht

gemiddelde politieke interesse van hoger opgeleide mensen)

College 7 Tweeweg Variantie-Analyse

Mediatie-analyse College 4+ Cursus PMC Statistiek Plus. Harry Ganzeboom 1 maart 2019

Wiskunde B - Tentamen 2

d. Formuleer voor het hoofdeffect Afmeting H_0 en H_a. Is dit hoofdeffect significant?

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

Voer de gegevens in in een tabel. Definieer de drie kolommen van de tabel en kies als kolomnamen groep, vooraf en achteraf.

Transcriptie:

Voorbeeld regressie-analyse In dit voorbeeld wordt gebruik gemaakt van het SPSS data-bestand vb_regr.sav (dit bestand kan gedownload worden via de on-line helpdesk). We schatten een model waarin de afhankelijke variabele Arbeidssatisfactie (Y) wordt voorspeld op basis van Inkomen (X ), Inspraak (X ) en Werksfeer (X 3 ). De regressievergelijking die we derhalve schatten is: Y' = a + b X + b X + b 3 X 3 In de output kunnen we het volgende zien: Variables Entered/Remove d b Variables Variables Entered Removed Method,, a. Enter a. All requested variables entered. b. Dependent Variable: SATISFAC Deze tabel geeft een overzicht van de onafhankelijke variabelen die zijn opgenomen in het regressiemodel en welke procedure we gekozen hebben. In dit geval is dat Method=Enter, waarbij alle variabelen in keer in het model worden opgenomen. Summary Std. Error Adjusted of the R R Square R Square Estimate.303 a.09.079.4999 a. Predictors:,,, In deze tabel wordt zowel de multipele correlatie van de afhankelijke variabele met de set predictoren weergegeven (R). Het kwadraat van deze correlatie ( R Square ) geeft aan hoeveel van de variantie in Y door de set predictoren wordt verklaard. Uit de uitvoer blijkt dat in de steekproef 9.% van de variantie in arbeidssatisfactie wordt verklaard door de predictoren inkomen, sfeer en inspraak. De Adjusted R Square geeft een zuiverder schatter van de populatiewaarde van R.

Regression Residual Total ANOVA b Sum of Mean Squares df Square F Sig. 36.35 3 45.438 7.7.000 a 343.667 5 6.50 479.98 8 a. Predictors:,,, b. Dependent Variable: SATISFAC De tabel ANOVA geeft de resultaten van de modeltoe weer; de toe waarmee wordt nagegaan of het regressiemodel een significante proportie variantie verklaard. NB: Deze toe is eenzijdig. Bij deze data blijkt dat het geschatte regressiemodel een significante proportie variantie verklaard. De gevonden toeingsgrootheid F=7.7. Het aantal vrijheidsgraden is 3,5. De kolom Sig. Geeft de overschrijdingskans weer van de gevonden F-waarde. Hier p< 0.00. Bij een significantieniveau van % is het gevonden toeresultaat dus significant. Unstandardi a.37.506 4.597.000.03.069.07.970.003.4.06.59.80.04 3.679E-05.000.00.33.755 In de tabel zijn zowel de ruwe regressiecoëfficienten opgenomen, als de gestandaardiseerde coëfficienten ( Beta ). M.b.v. de gestandaardiseerde regressiecoëfficiënten kan worden bepaald welke predictoren het belangrijkst zijn in de voorspelling van de arbeidssatisfactie. In de steekproef blijkt sfeer de groote gestandaardiseerde regressiecoëfficiënt te hebben (0.07) en dus de belangrijkste voorspeller te zijn. De tabel bevat tevens voor iedere predictor de resultaten van de t- toe voor afzonderlijke regressiecoëfficiënten. Deze toet twee-zijdig of de gevonden regressiecoëfficiënt in de populatie significant afwijkt van 0. Veronderstel dat de vooropleiding van werknemers mogelijk invloed heeft op de arbeidssatisfactie van werknemers. Een eerste indicatie m.b.t. de invloed van vooropleiding kan worden verkregen door de regressieanalyses apart uit te voeren voor de drie vooropleidingen m.b.v. <Split File>. De verkregen output bevat onder meer onderstaande tabel met regressiecoëfficiënten:

a VOOROPL lager onderw ijs middelbaar onderw ijs hoger onderw ijs Unstandardi.093.586 3.570.00.36.079.34 3.990.000.60.074.86.76.03 -.39E-05.000 -.05 -.8.857 4.7.498.755.009 -.39.77 -.36 -.783.438.73.55.85.8.70-6.09E-05.000 -.09 -.8.857.06.3.674.0.6.94.45.89.4.33.63.4.87.48.4E-04.000.05.35.77 Uit de output blijkt dat de regressieconstante (a) voor de drie vooropleidingen verschilt (.093 voor mensen met die waarvan lager onderwijs de hoogst behaalde opleiding is; 4.7 voor mensen waarbij middelbaar onderwijs de hoogst behaalde opleiding is en.06 voor mensen die hoger onderwijs hebben genoten). Het lijkt er dus op dat vooropleiding inderdaad van invloed is op de afhankelijke variabele arbeidssatisfactie. Omdat vooropleiding een nominale variabele is, kan deze niet zonder meer in de regressie-vergelijking worden opgenomen. Eerst dienen we voor vooropleiding twee dummy-variabele aan te maken, zoals beschreven in de theoretische uitleg (een dummy-variabele is een dichtome variabele waarop 0 of gescoord kan worden). We maken twee nieuwe variabelen: de variabele MO (middelbare opleiding) en de variabele HO (hogere opleiding). MO heeft de waarde 0 als VOOROPL= of 3 (d.w.z niet middelbaar) en de waarde als VOOROPL= (d.w.z. middelbaar). HO heeft de waarde 0 als VOOROPL= of (d.w.z. niet hoger) en de waarde als VOOROPL=3 (d.w.z. hoger). Toevoeging van de dummyvariabelen MO (D ) en HO (D ) aan het regressiemodel geeft de volgende te schatten regressievergelijking: Y' = a + b X + b X + b 3 X 3 +d D +d D MO HO Unstandardi a.337.54 4.30.000.98.069.0.865.005.46.063.6.36.0 3.493E-05.000.09.94.769.0.437.033.48.630 -.95.43 -.03 -.45.65 3

Opname van de dummy-variabelen in het regressiemodel laat zien dat beide dummyvariabelen voor vooropleiding geen significante regressiecoëfficiënt hebben (MO: t=0.48, p=0.630; HO: t=-0.45, p=0.65). Aangezien we twee dummy-variabelen aan het regressiemodel hebben toegevoegd die de variabele vooropleiding representeren, dienen we met behulp van de F-toe voor modelvergelijking of het toevoegen van de twee predictoren (MO en HO) een significante verbetering te zien geeft in de proportie verklaarde variantie. Eerst specificeren we het kleine model: <Dependent = satisfac>, <Independent = inkomen, sfeer, inspraak>. Nu klikken we op Block of <Next> en specificeren we het grote model: <Dependent = satisfac>, Independent = inkomen, sfeer, inspraak, MO, HO>. Vervolgens kiezen we <Statistics, R Change> om de F-toe voor model vergelijking uit te voeren. SPSS geeft nu de output voor de twee regressie-analyses (de kleine analyse en de grote analyse) in één keer. In de tabel ANOVA staan de resultaten van de F-toe voor modelvergelijking. 4

Summary Std. Error Change Statistics Adjusted of the R Square Sig. F R R Square R Square Estimate Change F Change df df Change.303 a.09.079.4999.09 7.7 3 5.000.308 b.095.073.508.003.300 3.74 a. Predictors:,,, b. Predictors:,,,, HO, MO De tabel geeft voor model (kleine model) en model (grote model) de verklaarde varianties weer (resp. 9.% en 9.5%). Voor de F-toe voor modelvergelijking is het stukje Change Statistics van belang. De rij is hierbij minder interessant. Deze rij bevat informatie over de F-toe voor model vergelijking waarbij het kleine model wordt vergeleken met een leeg model (een model zonder predictoren met verklaarde variantie 0%). De rij geeft het verschil in verklaarde variantie tussen kleine en grote model (0.3%) en de F-waarde voor de F-toe voor modelvergelijking (0.300) met bijbehorende vrijheidsgraden (df=,3) en overschrijdingskans (p=0.74). Hieruit kan geconcludeerd worden bij een significantieniveau van 5% dat het toevoegen van dummyvariabelen voor Vooropleiding niet leidt tot een significante verbetering van het regressiemodel. Tot slot kunnen we nagaan of het effect van Sfeer op Arbeidssatisfactie verschilt voor de onderscheiden opleidingsgroepen. Uit de aparte regressie-analyses voor de drie vooropleidingsgroepen blijkt namelijk dat de regressiecoëfficiënt voor het effect van sfeer op arbeidssatisfactie verschilt tussen de drie vooropleidingsgroepen. Hiertoe maken we m.b.v. <Compute> een produktvariabelen aan, waarbij we zowel MO als HO vermenigvuldigen met Sfeer. Deze worden resp. MOX (P ) en HOX (P ) genoemd. Toevoegen van deze produkttermen aan de regressievergelijking geeft het volgende te schatten regressiemodel: Y' = a + b X + b X + b 3 X 3 +d D + d D + p P + p P 5

Summary Std. Error Change Statistics Adjusted of the R Square Sig. F R R Square R Square Estimate Change F Change df df Change.308 a.095.073.508.095 4.454 5 3.00.35 b.4.095.4787.09 3.54.03 a. Predictors:, HO,,, MO, b. Predictors:, HO,,, MO,, HOX, MOX Met behulp van de F-toe voor modelvergelijking is getoet of het zinvol is om regressiemodellen met verschillende regressiecoëfficienten voor het effect van sfeer te schatten, afhankelijk van de vooropleiding van mensen. Het kleine model bevat hierbij de predictoren inkomen, inspraak, sfeer, MO en HO. Het grote model bevat dezelfde predictoren en tevens MOX en HOX. Het verschil in verklaarde variantie (.9%) blijkt significant te zijn (F gevonden =3.54, df=, p=0.03). Het effect van sfeer op arbeidssatisfactie is dus niet even groot voor de drie opleidingsgroepen. 6

MO HO MO HO MOX HOX a Unstandardi.337.54 4.30.000.98.069.0.865.005.46.063.6.36.0 3.493E-05.000.09.94.769.0.437.033.48.630 -.95.43 -.03 -.45.65.030.564 3.599.000.37.085.3 3.70.000.56.063.74.488.04 -.67E-06.000 -.00 -.03.98.898.773.97.456.05.35.699.055.50.67 -.439.66 -.34 -.640.009 -.64.63 -.6 -.007.35 Uit de regressiecoëfficiënten valt af te leiden dat het effect van sfeer op arbeidssatisfactie significant verschilt tussen de lager en middelbaar opgeleiden. Coëfficiënt p =-0.439 en significant (t=-.640, p=0.009). De waarde van deze coëfficiënt is negatief, dit betekent dat voor middelbaar opgeleiden het effect van sfeer op arbeidssatisfactie lager/kleiner is dan voor lager opgeleiden. Coëfficiënt p is niet significant bij een significantieniveau van 5%. In de populatie verschilt de regressiecoëfficiënt van de variabele sfeer niet tussen hoger en lager opgeleiden (p =-0.64, t=-.007, p=0.35). 7