HOOFDSTUK VII REGRESSIE ANALYSE 1
DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens werden verzameld bestaande uit observaties van 2 kwantitatieve variabelen (x en y) op n objekten Deze gegevens kunnen voorgesteld worden in een scatter diagram Indien de punten zich in de nabijheid van een rechte bevinden noemt men de relatie tussen x en y een: LINEAIRE RELATIE 2
1.1 De regressierechte van y gegeven x Indien men veronderstelt dat y afhangt van x bepaalt men de regressierechte van y gegeven x Beschouw een gepaarde steekproef: (x 1, y 1 ), (x 2, y 2 ),, (x n, y n ) met elke x i is een y i geassocieerd Men beschouwt een theoretisch model in hetwelk de veranderlijke y kan beschouwd worden als een lineaire functie van x: y = a + b x x is de onafhankelijke variabele y is de afhankelijke of outcome variabele 3
Voor elke waarneming x i heeft men twee overeenkomende waarden van y: de waarneming y i de waarde gegeven door het lineair verband: y i L = a + bx i (de geschatte of voorspelde waarde) Deze rechte is een goed model van het verband tussen de twee veranderlijken indien de verschillen tussen de twee waarden klein zijn Men noemt a het intercept (waarde van y voor x=0) Men noemt b de richtingscoefficient (de toename van y overeenkomend met een stijging van x met één éénheid) Men noemt a en b ook de regressiecoefficienten 4
1.2 De kleinste kwadraten methode Om een zo goed mogelijk model te bekomen bepaalt men de parameters a en b zodanig dat de verschillen: d i = y i - y i L zo klein mogelijk zijn Men noemt d i het residu t.o.v. het model De meest gebruikte methode om dit te bereiken is de kleinste kwadraten methode waarmee de som van de kwadraten van de d i wordt geminimaliseerd: n min d i 2 1 Dit kan ook geschreven worden als: n min F(a,b) = (y -a-bx ) 2 i = 1 i i Men vindt het minimum door F(a,b) af te leiden naar a en naar b, deze afgeleiden aan nul gelijk te stellen en het zo gekregen stelsel van twee vergelijkingen en twee onbekenden (a en b) op te lossen: F(a,b) n = 2(y a bx ) = 0 a 1 i i F(a,b) n = 2x (y a bx ) = 0 b 1 i i i 5
b = 1 n n x y yx 1 i i 1 n n x2 x 2 1 i a = y bx Door gebruik te maken van de formule voor de correlatiecoefficient: r = 1 n x y n yx 1 i i 1 n x2 n i x 2 1 n y2 i 1 n i y 2 = 1 kan men b schrijven als b = r 1 n y2 n i y 2 1 1 n x2 n i x 2 1 rs y = s x 6
De vergelijking van de rechte wordt dan: y = a + bx = y bx + bx = y + b(x x) rs y = x + (x x) s x of y- y = rs y (x x) s x Men noemt deze rechte de regressierechte voor y gegeven x of RR Y X Deze rechte laat toe voor een meting van de variabele x een schatting te bekomen van de variabele y indien deze onbekend is 7
1.3 Kwaliteitsmaten voor de regressierechte De kleinste kwadraten methode bepaalt de rechte waarvoor de gemiddelde kwadratische afwijking minimaal wordt. Bijgevolg is de gemiddelde kwadratische afwijking van de punten t.o.v. de regressierechte een kwaliteitsmaat voor de gevonden rechte. Men noemt deze de residuele variantie s2 1 n y.x = d2 n 1 i Men kan aantonen dat de residuele variantie gelijk is aan: s2 y(1 r 2 ) waar r de correlatiecoefficient is. Als kwaliteitsmaat wordt ook veel gebruik gemaakt van r 2, het kwadraat van de correlatiecoefficient (waarvoor ook de notatie R 2 wordt gebruikt) r 2 kan geinterpreteerd worden als het gedeelte van de variabiliteit van y dat wordt verklaard door x 8
1.4 De regressierechte van x gegeven y De regressierechte voor y gegeven x heeft als vergelijking: y-y = rs y (x x) s x Wanneer men de variabele y als onafhankelijk beschouwt en men wenst een schatting te bekomen van x, gebruikt men de regressierechte voor x gegeven y. Dit veronderstelt de volgende relatie tussen de 2 variabelen: x = a + b y De vergelijking van deze regressierechte is: x x= rs x (y-y) s y 9
1.5 Opmerkingen over de 2 regressierechten a. De twee regressierechten snijden elkaar in (x,y) Men noemt dit punt het zwaartepunt van de twee-dimensionale verdeling b. Wanneer r=0 zijn de twee regressierechten loodrecht op elkaar: RR Y X : y-y = 0 of y= y RR X Y : x-x = 0 of x= x 10
c. Het teken van r bepaalt de richting van de twee regressierechten: Als r > 0 zijn ze beide stijgend Als r < 0 zijn ze beide dalend Als r = 0 zijn ze loodrecht op elkaar De hoek tussen de twee rechten daalt wanneer r stijgt d. Indien r = 1 of aan -1 vallen alle punten op de rechte en is de residuele variantie gelijk aan 0, en omgekeerd Als r=1 is de rechte stijgend Als r=-1 is de rechte dalend 11
1.6 Hypothesetoets voor de richtingscoefficient b Veronderstel dat de residuen d i normaal verdeeld zijn met dezelfde variantie σ 2 Noem β de richtingscoefficient van de regressierechte in de populatie (b is de richtingscoefficient voor de steekproef) Men kan aantonen dat : b ~ N (β, σ2 ns x 2 ) Hieruit leidt men af dat: (b- β)s x n 2 s y 1 r 2 ~ t n-2 12
Om na te gaan of er een significante regressie bestaat, m.a.w. of y afhangt van x: H 0 : β = 0 H 1 : β 0 Bereken bs x n 2 s y 1 r 2 en vergelijk de gevonden waarde met de waarde uit een tabel voor de Student verdeling met n-2 vrijheidsgraden Opmerking Deze methode veronderstelt dat x geen kansveranderlijke is maar een konstante. Indien x ook een kansveranderlijke is moet men veronderstellen dat y niet afhangt van de variabele x maar van de gemeten waarde x i 13
1.7 Wiskundige Modellen voor Linaire Regressie Het doel is de verklaring van een waarneming. In de simpele lineaire regressie hangt de waarneming af van één veranderlijke en is het verband lineair Dit geeft aanleiding tot volgend model: y i = a + b x i + r i waar a = intercept b = slope r i = residu In de multipele lineaire regressie hangt de variabele y af van meerdere variabelen: y i = b 0 + b 1 x (1) + b 2 x (2) +...+b m x (m) + r i De coefficienten b i kunnen worden geschat op basis van de observaties en er zijn toetsen (analoog met de toets op b voor simpele lineaire regressie) om de variabele te selecteren die bijdragen tot de verklaring van variabele y. 14
In geval van veel mogelijke verklarende variabelen die onderling gecorreleerd zijn gebruikt men meestal een stapsgewijze (stepwize) selectiemethode. De meest gebruikte van deze methoden is de voorwaarts (forward) stepwize methode. Deze methode begint met de keuze van één enkele variabele, namelijk deze waarvoor R 2 maximaal is. Nadien worden variabelen één per één bijgevoegd aan het model. Telkens wordt de variabele gekozen waarvoor R 2 het meeste toeneemt. De methode stopt wanneer er geen variabelen zijn die toelaten R 2 te verhogen. 15
2. POLYNOMIALE REGRESSIE Op basis van een grafische voorstelling kan men nagaan of een rechte aangewezen is als beschrijving van de relatie tussen x en y. In sommige gevallen is een polynomiale relatie (kwadratisch, cubisch) beter aangepast. Een polynomiaal model wordt bekomen op basis van multiepele lineaire regressie door het bijvoegen van een aantal hoge orde termen. Bij voorbeeld beschrijft het volgend model een cubieke relatie tussen x en y: y i = b + b x + b x 2 + b x3 + r i 0 1 2 3 De analyse van dergelijk model gebeurt op dezelfde wijze als voor multiepele lineare regressie. Het is alsof de machten van x overeenkomen met verschillende variabelen in het model. 16
3. LOGISTISCHE REGRESSIE Logistische regressie wordt gebruikt om de kans op een gebeurtenis te voorspellen. In dit geval heeft men een binaire afhankelijke variabele. Voorbeelden: Al dan niet bereiken van een eindpunt in een studie Aan of afwezigheid van een symptoom Het doel van logistische regressie is de selectie van de verklarende (onafhankelijke) variabelen die de kans op de gebeurtenis (de afhankelijke variabele) beïnvloeden. Op dezelfde wijze als bij lineaire regressie wordt een vergelijking gebruikt om de afhankelijke variabele te voorspellen op basis van de waarden van de geselecteerde verklarende variabelen. 17
In logistische regressie wordt gebruik gemaakt van de volgende vergelijking (die een logistische kromme voorstelt): y i = 1+ 1 exp(-z ) i + r i waarin: z i = b 0 + b 1 x (1) + b 2 x (2) +...+b m x (m) + r i In deze vergelijking stelt y i de kans voor dat de gebeurtenis zich zou voordoen en de x (i) zijn de verklarende variabelen. Odds van een gebeurtenis De odds van een gebeurtenis is de kans van de gebeurtenis gedeeld door de kans dat deze zich niet zou voordoen: P(A) 1- P(A) De odds ratio (OR) is de verhouding van de odds van een gebeurtenis in twee populaties (b.v. patiënten met en zonder een bepaald risicofactor). Het exponentieel van b i (e bi ) is een schatting van de odds ratio. Het kan worden geïnterpreteerd als de toename in de odds (van een eindpunt of gebeurtenis) indien x i toeneemt met één eenheid. 18
Voorbeeld Toename in de odds van een gebeurtenis indien de leeftijd toeneemt met één jaar Interpretatie Een odds ratio groter dan 1 duidt op een toename van het risico Een odds ratio kleiner dan 1 duidt op een afname van het risico Rond de odds ratio kan een 95% betrouwbaarheidsinterval (BI) worden geconstrueerd: Indien het 95% BI de waarde 1 niet bevat duidt dit op een significant effect van de variabele Voorbeeld OR (leeftijd) = 2.206 95% CI: [1.03 4.72] 19