Hoofdstuk 10: Regressie

Vergelijkbare documenten
College 2 Enkelvoudige Lineaire Regressie

Hoofdstuk 12: Eenweg ANOVA

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

11. Multipele Regressie en Correlatie

9. Lineaire Regressie en Correlatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

College 2 Enkelvoudige Lineaire Regressie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

Data analyse Inleiding statistiek

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

Hoofdstuk 5 Een populatie: parametrische toetsen

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

College 3 Meervoudige Lineaire Regressie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 5: Steekproevendistributies

Statistiek II. Sessie 5. Feedback Deel 5

Hoofdstuk 6 Twee populaties: parametrische toetsen

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3

Hoofdstuk 2: Verbanden

mlw stroom 2.1: Statistisch modelleren

Feedback examen Statistiek II Juni 2011

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

College 7 Tweeweg Variantie-Analyse

Toegepaste Statistiek, Dag 7 1

1. Reductie van error variantie en dus verhogen van power op F-test

HOOFDSTUK VII REGRESSIE ANALYSE

College 6 Eenweg Variantie-Analyse

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent.

Statistiek ( ) eindtentamen

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Les 5: Analysis of variance

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

8. Analyseren van samenhang tussen categorische variabelen

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

DH19 Bedrijfsstatistiek MC, 2e Bach Hir, Juni 2009

Oefenvragen bij Statistics for Business and Economics van Newbold

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

Kansrekening en Statistiek

Statistiek II. Sessie 4. Feedback Deel 4

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

HOOFDSTUK 2: VERBANDEN

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Voorbeeld regressie-analyse

Eindtoets Toegepaste Biostatistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, uur.

Voorbeeldtentamen Statistiek voor Psychologie

Les 2: Toetsen van één gemiddelde

Inhoudsopgave. Werkgroep. Werkgroep. Werkgroep. Werkgroep. Werkgroep. Werkgroep. Werkgroep

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

Gegevensverwerving en verwerking

Hoofdstuk 4 Kansen. 4.1 Randomheid

(slope in het Engels) en het snijpunt met de y-as, b 0

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

Kansrekening en Statistiek

Statistiek voor A.I. College 14. Dinsdag 30 Oktober

Data analyse Inleiding statistiek

Statistiek voor A.I.

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

werkcollege 6 - D&P9: Estimation Using a Single Sample

Toegepaste Statistiek, Week 6 1

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Opgaven hoofdstuk 12 Enkelvoudige lineaire regressie

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

Wiskunde B - Tentamen 1

E Y = ln(β 1 x) ln β 1 + β 2

Hoofdstuk 2. Aanduiding 1: Aanduiding 2: Formule 1: Formule 2: s2 x = Formule 3: s x = Formule 4: X nieuw = X oud ± a betekent ook

Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 13-14

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Oplossingen hoofdstuk XI

Examen Statistiek I Feedback

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag ,

Wiskunde B - Tentamen 2

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing

Tentamen Biostatistiek 3 / Biomedische wiskunde

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Toegepaste data-analyse: oefensessie 2

(c) Bepaal de kans dat de linker bedelaar van 10 voorbijgangers in totaal exact 420 ct ontvangt.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

ANTWOORDEN Statistiek

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 3 februari 2012

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen.

Inhoudsopgave. Deel I Schatters en toetsen 1

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28

Enkelvoudige lineaire regressie

Transcriptie:

Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele. We gaan hierbij uit van de regressielijn ŷ= b 0 + b 1 x, zoals in hoofdstuk 2 besproken is. In dit hoofdstuk proberen we echter uit te zoeken in hoeverre een berekende regressielijn een schatting is van de ware regressielijn die bij de populatie hoort. De regressielijn die bij de populatie hoort noteren we als β 0 + β 1 x. In deze formule staat β 0 voor het intercept en β 1 voor de regressiecoëfficiënt. Deze waarden worden geschat aan de hand van b 0 en b 1. 10.1 Simpele lineaire regressie Populaties Simpele lineaire regressie wordt gebruikt om de relatie tussen een responsvariabele (y) en een verklarende variabele (x) te onderzoeken. We verwachten dat verschillende waarden van x samen zullen gaan met verschillende waarden van y. Stel: we willen de verandering in bloeddruk vastleggen voor twee experimentele groepen. De ene groep krijgt een echt medicijn en de andere groep krijgt een placebo. De behandeling (placebo of echt medicijn) kunnen we dan zien als een verklarende variabele en bloeddruk is dan de responsvariabele. De gemiddelde verandering in bloeddruk kan verschillend zijn in de twee populaties. Deze gemiddelden noemen we µ 1 en µ 2. Individuele veranderingen in bloeddruk variëren binnen elke populatie volgens de normaalverdeling. Dit betekent dat de meeste mensen binnen een groep ongeveer dezelfde bloeddruk hebben, terwijl een beperkt aantal mensen extreem afwijkt van de rest. Er wordt vanuit gegaan dat de standaarddeviaties van de populaties gelijk zijn. Subpopulaties Bij lineaire regressie kan de verklarende variabele (x) veel verschillende waarden aannemen. Je kunt bijvoorbeeld verschillende hoeveelheden van calcium geven aan verschillende groepen deelnemers. Deze waarden van x kunnen we zien als subpopulaties: Elke waarde van x gaat samen met één subpopulatie. Elke subpopulatie bestaat uit alle individuen in de populatie die dezelfde waarde van x hebben. Als we dus een experiment uitvoeren waarbij we de effecten van vijf verschillende hoeveelheden calcium op bloeddruk willen onderzoeken, dan bestuderen we vijf subpopulaties. Het statistische model voor simpele lineaire regressie gaat er vanuit dat voor elke waarde van x de geobserveerde waarden van y normaal verdeeld zijn met een gemiddelde dat van x afhangt. We gebruiken het symbool µ y om deze gemiddelden aan te geven. De gemiddelden µ y kunnen veranderen als x volgens een vast patroon verandert. Bij simpele lineaire regressie gaan we er vanuit dat alle gemiddelden op een lijn liggen die gebaseerd is op x-waarden. Kort samengevat is er bij simpele lineaire regressie sprake van: Verandering van de gemiddelden van y wanneer x verandert. Alle gemiddelden liggen op een lijn. Daarom geldt: µ y = β 0 + β 1 x. Dit is de regressielijn van de populatie. Individuele waarden van y (op basis van dezelfde x) variëren volgens de normaalverdeling. Deze normaalverdelingen hebben allemaal dezelfde standaarddeviatie. www.joho.org 1

Residuen De regressielijn die we vinden is nooit perfect als het gaat om het voorspellen van y-waarden op basis van x-waarden. Daarom geldt: Data = fit+residu. Het fit-gedeelte bestaat uit de subpopulatie-gemiddelden die gevonden worden door middel van µ y = β 0 + β 1 x. Het residu-gedeelte staat voor de afwijkingen van de data vanaf de lijn die staat voor de populatiegemiddelden. We gaan ervan uit dat deze afwijkingen normaalverdeeld zijn en standaarddeviatie σ hebben. We gebruiken de Griekse letter ε als we het over het residu-gedeelte hebben. De ε-waarden kunnen gezien worden als ruis : het deel van de data dat niet verklaard kan worden met de regressielijn. Hierdoor zullen punten in een puntenwolk nooit helemaal op een rechte lijn liggen. Het model voor simpele lineaire regressie Het model voor simpele lineaire regressie gaat gepaard met de volgende feiten: Gegeven n aantal observaties van x en y, geldt: (x 1,y 1 ), (x 2,y 2 ),, (x n,y n ). De geobserveerde respons (y i ) gaat samen met verklaarde en onverklaarde elementen: y i = β 0 + β 1 x i + ε i. In deze formule is β 0 + β 1 x i de gemiddelde respons wanneer x=x i. De afwijkingen (ε i ) zijn onafhankelijk en normaalverdeeld. Ze hebben een gemiddelde van 0 en standaarddeviatie σ. De parameters van het model zijn dus: β 0, β 1 en σ. Regressieparameters schatten Zoals eerder gezegd willen we de regressielijn die we op basis van een steekproef gevonden hebben, gebruiken om een regressielijn te maken voor de populatie. De regressielijn voor een steekproef is: ŷ = b 0 + b 1 x. In deel B was al uitgelegd hoe b 0 en b 1 gevonden kunnen worden: b 1 = r(s y / s x ). In deze formule staat r voor de correlatie tussen y en x. De rest van de formule maakt gebruik van de standaarddeviaties van y en x. b 0 = : y-streepje - b 1. Het residu is: e i =(geobserveerde y-waarde) (voorspelde y-waarde). Dit is hetzelfde als: y i - ŷ i. Dit is weer hetzelfde als: y i -b 0 - b 1 x i. De residuen (e i ) corresponderen met de residuen ε i. De e i tellen op tot 0 en de ε i komen uit een populatie met een gemiddelde van 0. Dan moet nog de laatste parameter (σ) berekend worden. Deze parameter meet in hoeverre y- waarden van de populatie-regressielijn afwijken. Om deze parameter te berekenen, maken we daarom gebruik van residuen. Eerst berekenen we de variantie van de regressielijn die bij de populatie hoort (σ²). Dit doen we door de variantie van de steekproef te gebruiken: s²= (Σe² i )/ n-2. Dit is hetzelfde als: Σ(y i - ŷ i )²/n-2. Vervolgens trekken we de wortel uit de variantie (s²) om σ te vinden. Betrouwbaarheidsintervallen Betrouwbaarheidsintervallen kunnen in het algemeen gevonden worden middels de formule: schatting± t*se schatting. Voor β 0 en β 1 kunnen afzonderlijk betrouwbaarheidsintervallen berekend worden: www.joho.org 2

Het betrouwbaarheidsinterval voor het intercept β 0 is: b 0 ± t*seb 0. Het betrouwbaarheidsinterval voor de regressiecoëfficiënt β 1 is: b 1 ± t*seb 1. In deze formules is t* de waarde voor t(n-2) met gebied C tussen t* en t*. Significantietoetsen De nulhypothese stelt dat de regressiecoëfficiënt in de populatie 0 is (β 1 =0). Om deze hypothese te toetsen maken we gebruik van een toetsstatistiek: t= b 1 /SEb 1. De vrijheidsgraden zijn n-2. De nulhypothese kan zowel eenzijdig als tweezijdig getoetst worden. Als er tweezijdig getoetst wordt, moet de p-waarde uit de t-tabel eerst vermenigvuldigd worden om een conclusie te trekken over de nulhypothese. Als blijkt dat de alternatieve hypothese aangenomen moet worden, dan betekent dit dat er een relatie bestaat tussen x en y in de populatie. Let op: een hele kleine p-waarde zegt bij deze significantietoets niet dat we een sterke relatie hebben gevonden tussen x en y. Er mag dan alleen geconcludeerd worden dat er sprake is van een relatie, maar de grootte van de relatie is niet duidelijk. Betrouwbaarheidsintervallen voor de gemiddelde respons Voor elke waarde van x (ook wel x* genoemd) is de gemiddelde y-waarde in de subpopulatie: µ y = b 0 + b 1 x*. Het bijbehorende betrouwbaarheidsinterval voor de gemiddelde respons is: µ y ± t*se u. In deze formule is t* de waarde voor t(n-2) met gebied C tussen t* en t*. Voorspellingsintervallen Soms willen we een waarde van een y voorspellen die ver buiten de y-waarden in de data ligt. In dat geval maken we gebruik van een voorspellingsinterval. Eerst moet een steekproef van n aantal observaties getrokken worden. Vervolgens moet het 95% betrouwbaarheidsinterval berekend worden voor een specifieke x-waarde (x*). Het voorspellingsinterval voor een toekomstige observatie van y uit de subpopulatie van x* is: ŷ ± t*se y-dakje. In deze formule staat t* voor de waarde van t(n-2) met gebied C tussen t* en t*. 10.2 Meer over simpele lineaire regressie Analyse van variantie (ANOVA) voor regressie Door middel van analyse van variantie (ANOVA) kunnen we uitzoeken in hoeverre data verklaard kan worden door het deel dat past bij de regressielijn (fit) en het deel dat daarvan afwijkt (residuen). De totale variatie in y wordt uitgedrukt door de afwijkingen y i y-streepje. Als deze afwijkingen allemaal 0 zouden zijn, dan zouden alle observaties gelijk zijn en zou er geen variatie in y zijn. Er zijn twee redenen waarom y i niet gelijk is aan het gemiddelde van y: De waarden van y i gaan samen met verschillende waarden van x en zijn daarom verschillend. Individuele observaties zullen van het gemiddelde verschillen, omdat er variatie is binnen de subpopulatie die bij een specifieke x-waarde hoort. www.joho.org 3

Het model Zoals eerder gezegd maken we bij lineaire regressie gebruik van het model data= fit + residuen. Als we hier in termen van variantie naar gaan kijken, dan wordt dit: SST = SSM + SSE. Hierbij staat SST voor de totale variantie, SSM voor de variantie die door het model wordt verklaard en SSE voor de variantie die niet door het model wordt verklaard (error). SS staat voor sum of squares. SST wordt berekend met de formule: Σ(y i -y-streepje)². SSM wordt berekend met de formule: Σ(ŷ i -y-streepje)². SSE wordt berekend met de formule: Σ(y i - ŷ i )². Vrijheidsgraden en MS (mean square) Daarnaast is het ook mogelijk om voor elke bron van variantie de bijbehorende vrijheidsgraden uit te rekenen. Er wordt uitgegaan van een soortgelijke formule: DFT = DFM + DFE. In deze formule staat DF voor vrijheidsgraden (degrees of freedom). De vrijheidsgraden die bij het totaal, het model en de error horen, worden als volgt berekend: DFT = n-1. DFM = 1 DFE = n-2. We vinden de MS voor elke bron van variantie door de SS te delen door de bijbehorende vrijheidsgraden (DF). Als de MS voor het totaal gevonden moet worden, dan wordt dat dus gedaan door SST/ DFT te berekenen. De proportie verklaarde variantie (r²) kan als volgt gevonden worden: SSM/SST. Het resultaat laat ons zien hoeveel van de variantie in y wordt verklaard door het model. De ANOVA-toets De nulhypothese dat de regressiecoëfficiënt (β 1 ) van de populatie 0 is, kunnen we aan de hand van de F-toets toetsen. De nulhypothese zegt dus eigenlijk dat x en y in de populatie geen lineaire samenhang vertonen. De F-toets vinden we als volgt: F= MSM/MSE. Als de nulhypothese waar is, dan heeft deze F-toets een distributie van 1 vrijheidsgraad in de noemer en n-2 vrijheidsgraden in de teller: F(1,n-2). Deze vrijheidsgraden horen bij MSM en MSE. Net zoals er veel t-toetsen bestaan, zijn er ook veel F-toetsen. Als de regressiecoëfficiënt niet 0 is (β 1 0 ), dan is MSM relatief groot ten opzichte van MSE. Dit betekent dat grote waarden van F bewijs tegen de nulhypothese geven. We toetsen in dit verband altijd tweezijdig. Schema De informatie die tot nu toe gegeven is, wordt kort in de onderstaande ANOVA-tabel samengevat: www.joho.org 4

BRON (source) Vrijheidsgraden (DF) SS (sum of squares) MS (mean square) Model 1 Σ(ŷ i -y-streepje)² SSM/DFM MSM/MSE Error n-2 Σ(y i - ŷ i )² SSE/DFE Totaal n-1 Σ(y i -y-streepje)² SST/DFT F Correlatie binnen de populatie toetsen We kunnen ook toetsen of er een correlatie tussen twee variabelen in de populatie bestaat. We gebruiken de Griekse letter ρ om de populatiecorrelatie weer te geven. Als x en y beide normaalverdeeld zijn, dan is ρ=0 hetzelfde als zeggen dat x en y in de populatie onafhankelijk zijn. Dit betekent dat er geen enkele relatie tussen x en y in de populatie bestaat. De alternatieve hypothese kan zowel eenzijdig als tweezijdig geformuleerd worden. Om de hypothese ρ=0 te toetsen, maken we gebruik van de volgende stappen om de t-toets te berekenen: Eerst vermenigvuldigen we de correlatie (r) met de wortel uit n-2. In deze formule staat n voor de grootte van de steekproef. Vervolgens delen we dit getal door de wortel uit 1- r². De gevonden t-toets is hetzelfde als de t-toets die we zouden vinden als we de hypothese β 1 =0 hadden getoetst. Dit betekent dat als er geen correlatie in de populatie bestaat, dat de regressiecoëfficiënt 0 is. www.joho.org 5