1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld Verkeerskundige test effect alcohol op rijvaardigheid, 5 groepen proefpersonen, elke groep respectievelijk 0, 1, 2, 3, 4 borrels, vervolgens worden aantal fouten op rijvaardigheidstest gemeten Hangen deze twee variabelen samen? En zo ja, hoe kan rijvaardigheid voorspeld worden uit aantal gedronken borrels X = onafhankelijke variabele ofwel verklarende variabele = aantal borrels Y = afhankelijke variabele ofwel te verklaren variabele = uitslag test X Y
Regressie analyse opbrengst per hoofd (Euro s) Y Y = βx + c aantal verkoopppunten per 100.0000 inwoners X Bekijk bovenstaand voorbeeld: Aantal distributiepunten per 100.000 inwoners en de opbrengst per hoofd vd bevolking, gemeten in vijf districten Dit leidt tot 5 waarnemingen Nu willen we de regressie lijn schatten. De wiskundige vergelijking is dan: Y = βx + c, waarbij β = regressiecoefficient deze methode wordt de methode van de kleinste kwadraten genoemd: een lijn waarbij de afstand van de waarnemingen tot die lijn zo klein mogelijk zijn. (Dat wordt bereikt door de som van de kwadratische afwijkingen te minimaliseren). 2
Regressie analyse Uitrekenen van regressievergelijking van dit voorbeeld (formule+berekening even achterwege gelaten) leidt tot: Y = βx + c, in dit geval: Y = 0,21X + 0,65 Er van uitgaande dat dit een goede gekwantificeerde weergave is dan: Indien de distributie met 1 verkooppunt per 100.000 inwoners wordt verhoogd, dan zal de opbrengst per hoofd van de bevolking met 21 eurocent toenemen. Let op: Deze analyse veronderstelt een rechtlijnig verband Voorzichtig met voorspellingen die te ver in de toekomst liggen 3
Regressie analyse meervoudig Er kunnen ook meerdere verklarende variabelen opgenomen worden: Y = β 1 X 1 + β 2 X 2 + β n X n + c, in dit geval: Y = opbrengst per hoofd X 1 = prijs X 2 = aantal distributiepunten X 3 = reclame inspanningen Uitkomst zou kunnen zijn: Y = -0,3*X 1 + 0,2*X 2 + 0,4*X 3 + 4,5 Let op: Waarde van de regressiecoefficienten wordt bepaald door de meeteenheden (vb: als reclame in tonnen ipv in euro s gemeten wordt dan zal de plaats van de komma verschuiven) 4
Regressie analyse meervoudig Hoe weet je wat de verklarende kracht is van het regressie model? Meervoudige correlatie coefficient:r 2 Deze meet de hoeveelheid variantie van de te verklaren variabele die door de verklarende variabelen verklaard wordt R 2 ligt altijd tussen 0 en 1 Bij R 2 = 1 : 100% van de variantie wordt door het model verklaard Meest voorkomend probleem: multicollineariteit er is een redelijk tot hoge mate van onderling verband tussen de verklarende variabelen (tussen X 1, X 2 etc) Oplossing: als - 0,5 <= r <= 0,5 dus de correlatie tussen de variabelen groter is dan 0,5 (of kleiner dan -0,5) dan een van de variabelen buiten het model laten 5
Regressie analyse meervoudig Wat is een goed model? 1. Het moet logisch interpreteerbaar zijn 2. Geen (of beperkte) multicollineariteit 3. Geen wezenlijke verklarende factoren zijn buiten het model gelaten 4. Gebaseerd op een voldoende aantal waarnemingen Wat is een voldoende aantal waarnemingen? Vuistregel: n = 100 Werkt soms ook bij kleiner aantal waarnemingen: let op de waarde van R 2 Andere vuistregel: minstens vijfmaal zoveel waarnemingen als variabelen 6
Regressie analyse meervoudig Overige voorwaarden voor een goed model: 5. Variabelen zijn ten minste interval geschaald Stellingen in onderzoek worden verondersteld interval geschaald te zijn 6. Geen uitschieters Deze hebben een te grote invloed op de berekeningen 7. Geen homoscedasticiteit Duidt op het verschijnsel dat er als het ware twee puntenwolken zijn die beter ieder afzonderlijk door een regressie geschat kunnen worden Praktisch: In onderzoek werkt regressie het best wanneer de onafhankelijke variabelen op dezelfde schaal gemeten zijn, bijv. op een eens/oneens vijfpuntschaal Waarom regressie, waarom niet alleen correlatie analyse? een goede regressie analyse kijkt ook naar de invloed van verklarende variabelen onderling 7
Regressie in spss, stap 1 Voorbeeld: studenttevredenheid Meervoudige regressie: Te verklaren variabele: cijfer voor opleiding (rapportcijfer) Verklarende variabelen (5 punt schaal): Interactie docenten/studenten Begeleiding door docenten Docenten stimuleren studenten Docenten motiveren verdieping Vakkennis docenten Omgaan met kritiek Bereikbaarheid docenten Beantwoorden email Stap 1: staan missing values goed? Geen rare waarnemingen (outliers)? 8
Frequentie uitdraai 1 De interactie tussen docenten en studenten is goed. Valid Missing Total Cumulative Frequency Percent Valid Percent Percent Helemaal mee oneens 19 8,3 8,3 8,3 Enigszins mee oneens 43 18,8 18,9 27,2 Noch mee oneens/ noch mee eens 22 9,6 9,6 36,8 Enigszins mee eens Helemaal mee eens Weet niet/ niet van toepassing Total 9999 93 40,6 40,8 77,6 47 20,5 20,6 98,2 4 1,7 1,8 100,0 228 99,6 100,0 1,4 229 100,0 Missings staan niet goed: waarde 6 = weet niet wordt wel meegenomen in berekeningen (=fout) Oplossing: in variable view weet niet op missing zetten 9
Missing values goed zetten Missings staan niet goed: waarde 6 = weet niet wordt wel meegenomen in berekeningen (=fout) Oplossing: in variable view weet niet op missing zetten 10
Frequentie uitdraai 2 De interactie tussen docenten en studenten is goed. Valid Missing Total Cumulative Frequency Percent Valid Percent Percent Helemaal mee oneens 19 8,3 8,5 8,5 Enigszins mee oneens 43 18,8 19,2 27,7 Noch mee oneens/ noch mee eens 22 9,6 9,8 37,5 Enigszins mee eens Helemaal mee eens Total Weet niet/ niet van toepassing 9999 Total 93 40,6 41,5 79,0 47 20,5 21,0 100,0 224 97,8 100,0 4 1,7 1,4 5 2,2 229 100,0 Missings staan nu wel goed: waarde 6 = weet niet wordt niet meegenomen in berekeningen (=goed). Check ook het aantal waarnemingen: U heeft er minimaal 100 nodig. Soms werkt de techniek ook met minder waarnemingen (30 is absoluut minimum). In dit geval zijn er 224 valide waarnemingen. 11
Stap 2: check normale verdeling Doe dit door onder frequencies, charts het histogram met normale verdeling te kiezen 12
Uitkomst check normale verdeling Frequency 100 80 60 40 20 0 120 100 80 60 40 Geef een rapportcijfer voor je opleiding (tussen 1 en 10). 10,0 20,0 30,0 40,0 50,0 60,0 70,0 80,0 90,0 100,0 Std. Dev = 13,08 Mean = 66,2 N = 226,00 Geef een rapportcijfer voor je opleiding (tussen 1 en 10). De begeleiding door docenten is goed. Frequency 100 80 60 40 20 0 De interactie tussen docenten en studenten is goed. 1,0 2,0 3,0 De interactie tussen docenten en studenten is goed. 100 80 60 40 4,0 5,0 Std. Dev = 1,25 Mean = 3,5 N = 224,00 Docenten stimuleren studenten op de juiste manier. Conclusie: alles redelijk normaal verdeeld behalve deze variabele (interactie). Doen we nu nog even niets mee. Frequency 20 0 Std. Dev = 1,10 Mean = 3,4 N = 224,00 Frequency 20 0 1,0 2,0 3,0 4,0 5,0 Std. Dev =,99 Mean = 3,2 N = 224,00 1,0 2,0 3,0 4,0 5,0 Docenten stimuleren studenten op de juiste manier. De begeleiding door docenten is goed. Frequency De vakkennis van docenten is voldoende. De docenten motiveren mij om mij verder in het vak te verdiepen. 120 80 60 40 20 Std. Dev = 1,05 Mean = 3,1 0 N = 223,00 1,0 2,0 3,0 4,0 5,0 Frequency 100 80 60 40 20 Std. Dev = 1,05 Mean = 3,7 0 N = 221,00 1,0 2,0 3,0 4,0 5,0 Normale verdeling: klok vorm De docenten motiveren mij om mij verder in het vak te verdiepen. De vakkennis van docenten is voldoende. 70 60 50 40 30 Docenten kunnen goed omgaan met kritiek. 70 60 50 40 30 20 Docenten zijn goed bereikbaar. Frequency 20 10 0 Std. Dev = 1,13 Mean = 3,1 N = 215,00 Frequency 10 0 1,0 2,0 3,0 4,0 5,0 Std. Dev = 1,25 Mean = 3,2 N = 220,00 1,0 2,0 3,0 4,0 5,0 Docenten kunnen goed omgaan met kritiek. Docenten zijn goed bereikbaar. 13
Stap 3: check correlaties Hoge correlatie tussen verklarende variabelen leidt tot multicollineariteit! Correlations De interactie tussen docenten en studenten is goed. De begeleiding door docenten is goed. Docenten stimuleren studenten op de juiste manier. Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N De interactie tussen docenten en studenten is goed. De Docenten begeleiding stimuleren door studenten docenten is op de juiste goed. manier. 1,602**,458**,,000,000 224 224 224,602** 1,564**,000,,000 224 224 224,458**,564** 1,000,000, 224 224 224 De docenten motiveren mi om mij verde in het vak te verdiepen. De docenten motiveren mij om mij verder in het vak te verdiepen. De vakkennis van docenten is voldoende. Docenten kunnen goed omgaan met kritiek. Docenten zijn goed bereikbaar. Docenten beantwoorden hun ontvangen email snel. 14 Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N **. Correlation is significant at the 0.01 level (2-tailed). *. Correlation is significant at the 0.05 level (2-tailed).,510**,408**,510**,000,000,000 223 223 223,317**,322**,260**,000,000,000 221 221 221,356**,310**,371**,000,000,000 215 215 215,421**,422**,263**,000,000,000 219 219 219,379**,450**,281**,000,000,000 219 219 219
Correlatie analyse Uit correlatie analyse blijken hoge correlaties tussen: interactie/begeleiding (0,60) begeleiding/stimulering (0,56) stimuleren/motiveren (0,51) Conclusies: interactie was niet goed normaal verdeeld: nemen we niet mee, wel nemen we begeleiding mee waarschijnlijk is zijn de meningen sterk gepolariseerd t.a.v. interactie stimuleren/motiveren meten vrijwel hetzelfde voor regressie: keuzes maken: interactie wordt niet opgenomen, wordt gemeten door begeleiding stimuleren wordt niet opgenomen, wordt gemeten door motiveren 15
Regressie in spss Kies regressie, lineair Om vervolgens alle verklarende variabelen in het model op te nemen: kies method enter Bij dependent: de te verklaren variabele Bij independent: de verklarende variabelen 16
Stap 4: output interpreteren Model 1 a. Model Summary Adjusted Std. Error of R R Square R Square the Estimate,563 a,317,297 10,878 Predictors: (Constant), Docenten beantwoorden hun ontvangen email snel., De vakkennis van docenten is voldoende., Docenten kunnen goed omgaan met kritiek., De docenten motiveren mij om mij verder in het vak te verdiepen., De begeleiding door docenten is goed., Docenten zijn goed bereikbaar. R2 van 0,32 dwz dat 32% van de variantie in het algemeen oordeel door dit model verklaard word 17
SPSS output interpreteren Model 1 (Constant) De begeleiding door docenten is goed. De docenten motiveren mij om mij verder in het vak te verdiepen. De vakkennis van docenten is voldoende. Docenten kunnen goed omgaan met kritiek. Docenten zijn goed bereikbaar. Docenten beantwoorden hun ontvangen email snel. Coefficients a Unstandardized Coefficients Standardi zed Coefficien ts B Std. Error Beta t Sig. 41,099 3,459 11,883,000 4,895,832,419 5,885,000 3,152,875,252 3,602,000 -,912,820 -,074-1,112,267 1,005,766,088 1,311,191 -,191,775 -,019 -,246,806 -,160,812 -,015 -,197,844 a. Dependent Variable: Geef een rapportcijfer voor je opleiding (tussen 1 en 10). 18 Kijk naar gestandaardiseerde beta s en significantie niveau. Als Sig. < 0,05 dan is de beta signifikant Er staan nog een aantal niet signifikante beta s in dit model
Stap 5:meerdere regressie modellen opstellen Kies regressie, lineair Om vervolgens alleen signifikante verklarende variabelen in het model op te nemen: kies method backward Bij dependent: de te verklaren variabele Bij independent: de verklarende variabelen 19
Backwards regression Model Summary Model 1 2 3 4 5 Adjusted Std. Error of R R Square R Square the Estimate,563 a,317,297 10,878,563 b,317,300 10,851,563 c,316,303 10,828,559 d,312,302 10,834,555 e,308,302 10,839 Er komen nu 5 verschillende modellen uit met ieder een andere R 2. Bij alle 5 de modellen is R 2 plusminus 31% Welk model te kiezen? Kies het model waarin alle variabelen significant zijn 20
Model 41 5 Analyse output omgaan met kritiek. (Constant) De begeleiding door docenten is goed. De docenten motiveren mij om mij verder in het vak te verdiepen. Docenten kunnen goed omgaan met kritiek. (Constant) De begeleiding door docenten is goed. De docenten motiveren mij om mij verder in het vak te verdiepen. Coefficients a Unstandardized Coefficients Standardi zed Coefficien ts B Std. Error Beta t Sig. 39,067 40,562 2,973 3,749 13,140 10,820,000 4,616,751,396 6,143,000 2,859,831,228 3,442,001,794,728,070 1,090,277 40,209 2,784 14,442,000 4,757,741,408 6,422,000 3,125,795,250 3,932,000 a. Dependent Variable: Geef een rapportcijfer voor je opleiding (tussen 1 en 10). Model 4: 1 variabele niet signifikant, model 5 alle variabelen signifikant Conclusie: wat is het belangrijkste aan een docent, als we kijken uit de student: goede begeleiding (β=0,41) studenten motiveren (β=0,25) begeleiding belangrijkst (β grootst) Uit de correlatie analyse weten we verder dat goede begeleiding vooral betekent: studenten stimuleren 21