HOOFDSTUK VII REGRESSIE ANALYSE

Vergelijkbare documenten

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent.

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK

9. Lineaire Regressie en Correlatie

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

Hoofdstuk 10: Regressie

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Data analyse Inleiding statistiek

mlw stroom 2.1: Statistisch modelleren

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

College 2 Enkelvoudige Lineaire Regressie

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

11. Multipele Regressie en Correlatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

statviewtoetsen 18/12/ Statview toets, 2K WE, 30 mei Fitness-campagne Dominantie bij muizen... 4

Toegepaste data-analyse: oefensessie 2

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, uur.

Toegepaste Statistiek, Dag 7 1

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

DH19 Bedrijfsstatistiek MC, 2e Bach Hir, Juni 2009

Vlakke meetkunde. Module Geijkte rechte Afstand tussen twee punten Midden van een lijnstuk

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)

Classification - Prediction

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

Opgaven hoofdstuk 12 Enkelvoudige lineaire regressie

SPSS. Statistiek : SPSS

Examen Statistiek I Feedback

Oefenvragen bij Statistics for Business and Economics van Newbold

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Kansrekening en Statistiek

Exponentiële Functie: Toepassingen

( ) Hoofdstuk 4 Verloop van functies. 4.1 De grafiek van ( ) Spiegelen t.o.v. de x-as, y-as en de oorsprong

Voorbeeldtentamen Statistiek voor Psychologie

3de bach TEW KBM. Theorie. uickprinter Koningstraat Antwerpen ,00

De Afgeleide. ) = 2y. 2 = 4y = 4.(2x+1)

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Feedback examen Statistiek II Juni 2011

Factor = het getal waarmee je de oude hoeveelheid moet vermenigvuldigen om een nieuwe hoeveelheid te krijgen.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

VERGELIJKENDE STUDIE VAN ALTERNATIEVE ONTWERPWAARDE SCHATTINGEN VAN SIGNIFICANTE GOLFHOOGTE

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 5 Een populatie: parametrische toetsen

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

13.1 De tweede afgeleide [1]

(g 0 en n een heel getal) Voor het rekenen met machten geldt ook - (p q) a = p a q a

Les 7-8: Parameter- en Vergelijkingstoetsen

Gaap, ja, nog een keer. In één variabele hebben we deze formule nu al een paar keer gezien:

Monitor werkdruk in de kraamzorg 2018

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari uur

Hoofdstuk 2: Verbanden

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

HOOFDSTUK I - INLEIDENDE BEGRIPPEN

Wiskunde klas 3. Vaardigheden. Inhoudsopgave. 1. Breuken Gelijksoortige termen samennemen Rekenen met machten Rekenen met wortels 4

Meten en experimenteren

College 3 Meervoudige Lineaire Regressie

Les 1: Waarschijnlijkheidrekening

Statistiek voor A.I. College 2. Donderdag 13 September 2012

Opgave 1: (zowel 2DM40 als 2S390)

Populaties beschrijven met kansmodellen

1. Reductie van error variantie en dus verhogen van power op F-test

8. Analyseren van samenhang tussen categorische variabelen

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 12: Eenweg ANOVA

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Hoofdstuk 8: Multipele regressie Vragen

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

Statistiek en Data Analyse Opgavenserie 3: Lineaire regressie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Hoofdstuk 5: Steekproevendistributies

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Reconstructie Bedrijfsstatistiek 2016

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

1 Complexe getallen in de vorm a + bi

4 Domein STATISTIEK - versie 1.2

Reflecties bij de invoering van TI-Nspire CAS op de Europese Scholen L.A.A. Blomme

Experimenteel onderzoek

DEEL 1 Probleemstelling 1

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

3.0 Voorkennis. Voorbeeld 1: Los op: 6x + 28 = 30 10x.

3.0 Voorkennis. y = -4x + 8 is de vergelijking van een lijn. Hier wordt y uitgedrukt in x.

Voorbehouden voor de correctoren Vraag 1 Vraag 2 Vraag 3 Vraag 4 Vraag 5 Totaal. Toets Kansrekenen I. 28 maart 2014

(slope in het Engels) en het snijpunt met de y-as, b 0

Statistiek. Met het rekentoestel CASIO Collège fx-92b 2D+ kunnen statistische berekeningen in één of in twee variabelen uitgevoerd worden.

Les 1: Waarschijnlijkheidrekening

Wiskunde Vraag 1. Vraag 2. Vraag 3. Vraag 4 21/12/2008

Zomercursus Wiskunde. Rechten en vlakken (versie 14 augustus 2008)

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

De conjunctuurgevoeligheid van de registratierechten in Vlaanderen: een econometrische analyse

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 27 oktober 2010, uur

Feedback proefexamen Statistiek I

Hertentamen Biostatistiek 3 / Biomedische wiskunde

Transcriptie:

HOOFDSTUK VII REGRESSIE ANALYSE 1

DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens werden verzameld bestaande uit observaties van 2 kwantitatieve variabelen (x en y) op n objekten Deze gegevens kunnen voorgesteld worden in een scatter diagram Indien de punten zich in de nabijheid van een rechte bevinden noemt men de relatie tussen x en y een: LINEAIRE RELATIE 2

1.1 De regressierechte van y gegeven x Indien men veronderstelt dat y afhangt van x bepaalt men de regressierechte van y gegeven x Beschouw een gepaarde steekproef: (x 1, y 1 ), (x 2, y 2 ),, (x n, y n ) met elke x i is een y i geassocieerd Men beschouwt een theoretisch model in hetwelk de veranderlijke y kan beschouwd worden als een lineaire functie van x: y = a + b x x is de onafhankelijke variabele y is de afhankelijke of outcome variabele 3

Voor elke waarneming x i heeft men twee overeenkomende waarden van y: de waarneming y i de waarde gegeven door het lineair verband: y i L = a + bx i (de geschatte of voorspelde waarde) Deze rechte is een goed model van het verband tussen de twee veranderlijken indien de verschillen tussen de twee waarden klein zijn Men noemt a het intercept (waarde van y voor x=0) Men noemt b de richtingscoefficient (de toename van y overeenkomend met een stijging van x met één éénheid) Men noemt a en b ook de regressiecoefficienten 4

1.2 De kleinste kwadraten methode Om een zo goed mogelijk model te bekomen bepaalt men de parameters a en b zodanig dat de verschillen: d i = y i - y i L zo klein mogelijk zijn Men noemt d i het residu t.o.v. het model De meest gebruikte methode om dit te bereiken is de kleinste kwadraten methode waarmee de som van de kwadraten van de d i wordt geminimaliseerd: n min d i 2 1 Dit kan ook geschreven worden als: n min F(a,b) = (y -a-bx ) 2 i = 1 i i Men vindt het minimum door F(a,b) af te leiden naar a en naar b, deze afgeleiden aan nul gelijk te stellen en het zo gekregen stelsel van twee vergelijkingen en twee onbekenden (a en b) op te lossen: F(a,b) n = 2(y a bx ) = 0 a 1 i i F(a,b) n = 2x (y a bx ) = 0 b 1 i i i 5

b = 1 n n x y yx 1 i i 1 n n x2 x 2 1 i a = y bx Door gebruik te maken van de formule voor de correlatiecoefficient: r = 1 n x y n yx 1 i i 1 n x2 n i x 2 1 n y2 i 1 n i y 2 = 1 kan men b schrijven als b = r 1 n y2 n i y 2 1 1 n x2 n i x 2 1 rs y = s x 6

De vergelijking van de rechte wordt dan: y = a + bx = y bx + bx = y + b(x x) rs y = x + (x x) s x of y- y = rs y (x x) s x Men noemt deze rechte de regressierechte voor y gegeven x of RR Y X Deze rechte laat toe voor een meting van de variabele x een schatting te bekomen van de variabele y indien deze onbekend is 7

1.3 Kwaliteitsmaten voor de regressierechte De kleinste kwadraten methode bepaalt de rechte waarvoor de gemiddelde kwadratische afwijking minimaal wordt. Bijgevolg is de gemiddelde kwadratische afwijking van de punten t.o.v. de regressierechte een kwaliteitsmaat voor de gevonden rechte. Men noemt deze de residuele variantie s2 1 n y.x = d2 n 1 i Men kan aantonen dat de residuele variantie gelijk is aan: s2 y(1 r 2 ) waar r de correlatiecoefficient is. Als kwaliteitsmaat wordt ook veel gebruik gemaakt van r 2, het kwadraat van de correlatiecoefficient (waarvoor ook de notatie R 2 wordt gebruikt) r 2 kan geinterpreteerd worden als het gedeelte van de variabiliteit van y dat wordt verklaard door x 8

1.4 De regressierechte van x gegeven y De regressierechte voor y gegeven x heeft als vergelijking: y-y = rs y (x x) s x Wanneer men de variabele y als onafhankelijk beschouwt en men wenst een schatting te bekomen van x, gebruikt men de regressierechte voor x gegeven y. Dit veronderstelt de volgende relatie tussen de 2 variabelen: x = a + b y De vergelijking van deze regressierechte is: x x= rs x (y-y) s y 9

1.5 Opmerkingen over de 2 regressierechten a. De twee regressierechten snijden elkaar in (x,y) Men noemt dit punt het zwaartepunt van de twee-dimensionale verdeling b. Wanneer r=0 zijn de twee regressierechten loodrecht op elkaar: RR Y X : y-y = 0 of y= y RR X Y : x-x = 0 of x= x 10

c. Het teken van r bepaalt de richting van de twee regressierechten: Als r > 0 zijn ze beide stijgend Als r < 0 zijn ze beide dalend Als r = 0 zijn ze loodrecht op elkaar De hoek tussen de twee rechten daalt wanneer r stijgt d. Indien r = 1 of aan -1 vallen alle punten op de rechte en is de residuele variantie gelijk aan 0, en omgekeerd Als r=1 is de rechte stijgend Als r=-1 is de rechte dalend 11

1.6 Hypothesetoets voor de richtingscoefficient b Veronderstel dat de residuen d i normaal verdeeld zijn met dezelfde variantie σ 2 Noem β de richtingscoefficient van de regressierechte in de populatie (b is de richtingscoefficient voor de steekproef) Men kan aantonen dat : b ~ N (β, σ2 ns x 2 ) Hieruit leidt men af dat: (b- β)s x n 2 s y 1 r 2 ~ t n-2 12

Om na te gaan of er een significante regressie bestaat, m.a.w. of y afhangt van x: H 0 : β = 0 H 1 : β 0 Bereken bs x n 2 s y 1 r 2 en vergelijk de gevonden waarde met de waarde uit een tabel voor de Student verdeling met n-2 vrijheidsgraden Opmerking Deze methode veronderstelt dat x geen kansveranderlijke is maar een konstante. Indien x ook een kansveranderlijke is moet men veronderstellen dat y niet afhangt van de variabele x maar van de gemeten waarde x i 13

1.7 Wiskundige Modellen voor Linaire Regressie Het doel is de verklaring van een waarneming. In de simpele lineaire regressie hangt de waarneming af van één veranderlijke en is het verband lineair Dit geeft aanleiding tot volgend model: y i = a + b x i + r i waar a = intercept b = slope r i = residu In de multipele lineaire regressie hangt de variabele y af van meerdere variabelen: y i = b 0 + b 1 x (1) + b 2 x (2) +...+b m x (m) + r i De coefficienten b i kunnen worden geschat op basis van de observaties en er zijn toetsen (analoog met de toets op b voor simpele lineaire regressie) om de variabele te selecteren die bijdragen tot de verklaring van variabele y. 14

In geval van veel mogelijke verklarende variabelen die onderling gecorreleerd zijn gebruikt men meestal een stapsgewijze (stepwize) selectiemethode. De meest gebruikte van deze methoden is de voorwaarts (forward) stepwize methode. Deze methode begint met de keuze van één enkele variabele, namelijk deze waarvoor R 2 maximaal is. Nadien worden variabelen één per één bijgevoegd aan het model. Telkens wordt de variabele gekozen waarvoor R 2 het meeste toeneemt. De methode stopt wanneer er geen variabelen zijn die toelaten R 2 te verhogen. 15

2. POLYNOMIALE REGRESSIE Op basis van een grafische voorstelling kan men nagaan of een rechte aangewezen is als beschrijving van de relatie tussen x en y. In sommige gevallen is een polynomiale relatie (kwadratisch, cubisch) beter aangepast. Een polynomiaal model wordt bekomen op basis van multiepele lineaire regressie door het bijvoegen van een aantal hoge orde termen. Bij voorbeeld beschrijft het volgend model een cubieke relatie tussen x en y: y i = b + b x + b x 2 + b x3 + r i 0 1 2 3 De analyse van dergelijk model gebeurt op dezelfde wijze als voor multiepele lineare regressie. Het is alsof de machten van x overeenkomen met verschillende variabelen in het model. 16

3. LOGISTISCHE REGRESSIE Logistische regressie wordt gebruikt om de kans op een gebeurtenis te voorspellen. In dit geval heeft men een binaire afhankelijke variabele. Voorbeelden: Al dan niet bereiken van een eindpunt in een studie Aan of afwezigheid van een symptoom Het doel van logistische regressie is de selectie van de verklarende (onafhankelijke) variabelen die de kans op de gebeurtenis (de afhankelijke variabele) beïnvloeden. Op dezelfde wijze als bij lineaire regressie wordt een vergelijking gebruikt om de afhankelijke variabele te voorspellen op basis van de waarden van de geselecteerde verklarende variabelen. 17

In logistische regressie wordt gebruik gemaakt van de volgende vergelijking (die een logistische kromme voorstelt): y i = 1+ 1 exp(-z ) i + r i waarin: z i = b 0 + b 1 x (1) + b 2 x (2) +...+b m x (m) + r i In deze vergelijking stelt y i de kans voor dat de gebeurtenis zich zou voordoen en de x (i) zijn de verklarende variabelen. Odds van een gebeurtenis De odds van een gebeurtenis is de kans van de gebeurtenis gedeeld door de kans dat deze zich niet zou voordoen: P(A) 1- P(A) De odds ratio (OR) is de verhouding van de odds van een gebeurtenis in twee populaties (b.v. patiënten met en zonder een bepaald risicofactor). Het exponentieel van b i (e bi ) is een schatting van de odds ratio. Het kan worden geïnterpreteerd als de toename in de odds (van een eindpunt of gebeurtenis) indien x i toeneemt met één eenheid. 18

Voorbeeld Toename in de odds van een gebeurtenis indien de leeftijd toeneemt met één jaar Interpretatie Een odds ratio groter dan 1 duidt op een toename van het risico Een odds ratio kleiner dan 1 duidt op een afname van het risico Rond de odds ratio kan een 95% betrouwbaarheidsinterval (BI) worden geconstrueerd: Indien het 95% BI de waarde 1 niet bevat duidt dit op een significant effect van de variabele Voorbeeld OR (leeftijd) = 2.206 95% CI: [1.03 4.72] 19