9. Lineaire Regressie en Correlatie
|
|
|
- Gijs de Kooker
- 7 jaren geleden
- Aantal bezoeken:
Transcriptie
1 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk) kunt analyseren. Dit gebeurt aan de hand van regressie analyse. Regressie analyse omvat drie analyses: 1) onderzoeken of er een verband bestaat tussen de variabelen, 2) de sterkte van dit verband bepalen, en 3) het maken van een regressieformule om zo de waarde van de response variabele te kunnen voorspellen aan de hand van de verklarende variabele. Bij een lineair verband wordt de respons variabele weergegeven met y en de verklarende variabele met x. Met een lineaire functie kunnen we een rechte lijn trekken door de datapunten in een grafiek. Deze functie heeft deze vorm: y = a + b (x). Hierbij is α de intercept, en β de hellingscoëfficiënt. Interpreteren van y-intercept en hellingscoëfficiënt De y-intercept is de waarde van y wanneer x = 0. Want als x = 0, dan vervalt b(x), en hou je alleen y = β over. Daarbij geeft de y-intercept aan waar de lijn op de y-as begint. De hellingscoëfficiënt geeft de verandering aan in y, bij een toename van 1 punt bij x. Wanneer x er 1 punt bij krijgt, verandert y met b. Over het algemeen is het zo dat hoe groter β, hoe steiler de regressielijn. Als β positief is, betekent dat dat wanneer x hoger wordt, y ook hoger wordt. Dit kenmerkt een positief verband. Wanneer β negatief is, betekent het dat wanneer x hoger wordt, y lager wordt. Dit is een negatief verband. Wanneer β = 0, betekent het dat de waarde van y constant is en niet verandert wanneer x verandert. Dit kan betekenen dat de twee variabelen onafhankelijk van elkaar zijn. De best passende regressielijn Bij regressieanalyse beschouwen we a en b als onbekende parameters, die we gaan schatten aan de hand van de data. De eerste stap hierbij is het plotten van de data in een scatterplot. Zo kun je zien of het wel logisch om een lineaire formule te gaan maken. Wanneer de data immers een U vorm heeft, heeft het geen zin om daar een lineaire lijn door te trekken. Omdat we y gaan benaderen met de regressie-analyse en het een schatting is, geven we dit aan met een dakje boven de y: ŷ. De regressie formule ziet er zo uit: ŷ = a + b(x). Deze lijn zal de beste lijn weergeven, in de zin dat deze het dichtste ligt bij alle datapunten. Dit wordt later toegelicht. Effecten van outliers Een regressie outlier (uitschieter) is een datapunt dat ver buiten de trend van de andere datapunten valt. Zo n datapunt wordt invloedrijk genoemd wanneer het verwijderen ervan een grote verandering teweeg brengt in de regressieformule. Dit effect is kleiner bij een grote dataset. Het is soms beter om deze outliers te verwijderen. Residuen De regressieformule geeft een schatting van de y-waarden. Deze zullen niet helemaal overeenkomen met de daadwerkelijke (geobserveerde) y-waarden. Door het verschil tussen de geschatte waarden en de geobserveerde waarden te bekijken, kun je zien hoe goed de regressielijn is. Het verschil tussen deze twee heet een residu. Het is het verschil tussen een geobserveerde waarde (y) en de voorspelde waarde (ŷ). Wanneer de geobserveerde waarde groter is dan de voorspelde waarde heb je een positief residu. Wanneer de geobserveerde waarde
2 kleiner is dan de voorspelde waarde heb je een negatief residu. Hoe kleiner de absolute waarde van het residu, hoe beter de voorspelling, en dus de regressielijn. Sum of Squared Errors/Residual Sum of Squares De beste regressielijn is die met de kleinste residuen. Om die te vinden, worden de residuen van de datapunten gekwadrateerd en opgeteld. Dit noemen we de SSE. De SSE staat voor 'sum of squared errors'. De formule is SSE = (y ŷ ) 2. De beste regressielijn heeft de kleinste SSE van alle andere mogelijke lijnen. De SSE van de beste regressielijn heeft zowel negatieve als positieve residuen (die door het kwadrateren allemaal positief worden), waarvan samen de som en het gemiddelde 0 zijn. Daarbij loopt de regressielijn altijd door het punt van het gemiddelde van x en het gemiddelde van y, dus door het punt ( x, y ). Het lineaire regressie model Bij een regressieformule y = a + b(x) hoort bij elke x-waarde eenzelfde y-waarde. Dit heet een deterministisch model. Zo werkt het in de werkelijkheid niet. Stel bijvoorbeeld dat we inkomen (y) willen voorspellen aan de hand van opleidingsniveau (x), dan zien we dat niet iedereen met dezelfde opleiding ook hetzelfde inkomen heeft. In plaats van een deterministisch model kun je dan beter gebruik maken van een probabilistisch model. Deze conditionele distributie refereert naar de variabiliteit in de y-waarden op een vaste waarde voor x. Daarom veranderen we de formule nu naar E(y) = a + b(x). Hierbij geeft E(y) aan dat we kijken naar de conditionele distributie van y, en we proberen het gemiddelde van y te voorspellen. Variatie op de regressielijn Het lineaire regressiemodel kent nog een parameter, namelijk σ. Deze beschrijft de standaard afwijking van elke conditionele distributie. Het meet de variabiliteit van de y-waarden voor alle personen met die bepaalde x-waarde. We noemen σ de conditionele standaarddeviatie. Omdat we deze echte standaardafwijking niet weten, gebruiken we wat we weten uit de steekproef, namelijk s. De formule van s is s = SSE n 2, waarbij SSE = (y ŷ) 2. Als je deze s kwadrateert heb je de zogenaamde Mean Square Error of MSE. Gestandaardiseerde regressie coefficient / Pearson correlatie Nu gaan we kijken hoe sterk het eventuele verband is tussen x en y. We gebruiken daarvoor een gestandaardiseerde versie van correlatie en geven deze met 'r' aan. Deze r wordt ook wel de gestandaardiseerde regressie coëfficiënt, of Pearson correlatie genoemd. Deze wordt berekend als volgt: r = ( s x s y ) b Hierbij is de steekproef deviatie van x en S y de steekproef deviatie van y. De formules van S x en S y, zijn als volgt: S x = (x x ) 2 n 1 en S y = (y y ) 2 n 1 Deze correlatie heeft een aantal kenmerken: Je kunt de correlatie alleen gebruiken wanneer een lineair verband zinvol is. r valt tussen 1 en -1.
3 r is positief/negatief gelijk aan b. Als b positief is (en er een positief verband is) is r ook positief en als b negatief is (en er een negatief verband is) is r ook negatief. Hoe groter r, hoe sterker het lineaire verband. r-kwadraat De 'coëfficiënt ofdetermination' of r 2 is gerelateerd aan r en geeft aan hoe goed y voorspeld kan worden door x. r-kwadraat heeft een aantal kenmerken die sterk overeenkomen met r: Omdat r tussen 1 en -1 valt, moet r 2 wel tussen 0 en 1 liggen. Als SSE = 0, dan r 2 = 1. Alle punten moeten op de lijn vallen. Als b = 0, r = 0, r 2 = 0. Hoe groter r 2, hoe sterker het lineaire verband. Significantie toetsen bij regressie t-toets voor onafhankelijkheid Het principe bij deze test is hetzelfde als die bij de Chi-kwadraattoets, namelijk kijken of de variabelen onafhankelijk zijn. Je gaat ervan uit dat het zo is, dus je H0: β = 0 en Ha: β 0. Bij het doen van deze test wordt er van uitgegaan dat er aan een aantal assumpties is voldaan: Randomisatie Het gemiddelde van y wordt benaderd door de formule E(y) = a + b (x) De conditionele standaard deviatie is gelijk voor elke x-waarde De conditionele distributie van y voor elke x-waarde is normaal verdeeld Manier 1: De t-score wordt berekend door b te delen door de standaardfout van b. De formule voor t is t = b se. De opbouw van deze formule is niet belangrijk. De vorm van de formule is gelijk aan die van elke t- score. Namelijk de schatting minus de nulhypothese (die hier 0 is, en dus gewoon verdwijnt), gedeeld door de standaardfout van de schatting. Voor het opzoeken van de p-waarde gebruik je df = n 2. Manier 2: Je kunt de t-score ook berekenen met deze formule: t = r (1 r 2 )/(n 2). Er zal hetzelfde getal uitkomen als bij manier 1. Hiermee test je of de correlatie die is gevonden significant is, en daarmee test je dus ook of de variabelen onafhankelijk van elkaar zijn. Betrouwbaarheidsinterval Je kunt ook een betrouwbaarheidsinterval voor de hellingscoëfficiënt maken. Je doet dan de hellingscoëfficiënt plus en min de waarde van t, vermenigvuldigd met se. B.I. voor β = b±t (se)
4 Wat je invult voor t is afhankelijk van de precisie en zekerheid die je wilt gebruiken. Je moet dan wel opletten dat je voor df = n 2 gebruikt. Assumpties Het gemiddelde van y kan worden benaderd met een lineair model Het is belangrijk dat je altijd eerst een scatterplot maakt om te kijken of het wel zinvol is om een lineair model te maken voor jouw onderzoek. Als je dit niet doet, kun je het gevaar lopen een lineair verband te ontdekken in data die helemaal niet lineair is. Als je data bijvoorbeeld een U vorm heeft, kan SPSS alsnog een lineair verband ontdekken: de y verandert immers als de x verandert. Niet extrapoleren Het is niet verstandig om je regressieformule te gebruiken voor zelfbedachte datapunten buiten je dataset. Dit omdat het verband wellicht bij die datapunten helemaal niet meer lineair is, of omdat de schattingen van y dan niet realistisch zijn. Outliers Sommige outliers kunnen grote effecten hebben op de regressielijnen en de correlaties. Het is soms nodig dat je bepaalde outliers eruit haalt om nog een keer je analyses te lopen. Één punt kan al veel invloed hebben, in het bijzonder bij een kleine steekproef. Steekproefgrootte Bij een kleine steekproef heb je minder variatie in je x-waarden dan bij een grote steekproef. Je loopt dan het risico dat je niet een realistische dataset hebt verkregen, en dat je analyses niet veel waard zijn. Je kunt correlaties het beste gebruiken bij datasets die willekeurig verkregen zijn, en representatief zijn wat betreft de variatie in de x- en y-waarden.
5 Tabel: Onafhankelijkheidstesten en associatiematen Meetniveau Nominaal Ordinaal Interval Nulhypothese H0: onafhankelijkheid H0: onafhankelijkheid H0: onafhankelijkheid (b = 0) Test statistiek X 2 = (f o f e ) 2 f e z = ŷ se t= b, df =n 2 se Meting samenhang π 2 π 1 Odds ratio γ = C D C+D r = b( s x s y ) r 2 = TSS SSE TSS
11. Multipele Regressie en Correlatie
11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in
Hoofdstuk 10: Regressie
Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.
8. Analyseren van samenhang tussen categorische variabelen
8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde
College 2 Enkelvoudige Lineaire Regressie
College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:
Data analyse Inleiding statistiek
Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen
Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i
Formuleblad Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Plaats van de median berekenen: Oneven aantal observaties: (n+1)/2 Even aantal observaties: gemiddelde van de
Hoofdstuk 8: Multipele regressie Vragen
Hoofdstuk 8: Multipele regressie Vragen 1. Wat is het verschil tussen de pearson correlatie en de multipele correlatie R? 2. Voor twee modellen berekenen we de adjusted R2 : Model 1 heeft een adjusted
Oplossingen hoofdstuk XI
Oplossingen hoofdstuk XI. Hierbij vind je de resultaten van het onderzoek naar de relatie tussen een leestest en een schoolrapport voor lezen. Deze gegevens hebben betrekking op een regressieanalyse bij
College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit
College 7 Regressie-analyse en Variantie verklaren Inleiding M&T 2012 2013 Hemmo Smit Neem mee naar tentamen Geslepen potlood + gum Collegekaart (alternatief: rijbewijs, ID-kaart, paspoort) (Grafische)
Hoofdstuk 5 Een populatie: parametrische toetsen
Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie
1. Reductie van error variantie en dus verhogen van power op F-test
Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De
Hoofdstuk 12: Eenweg ANOVA
Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake
mlw stroom 2.1: Statistisch modelleren
mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht
Hoofdstuk 2: Verbanden
Hoofdstuk 2: Verbanden Inleiding In het gebruik van statistiek komen we vaak relaties tussen variabelen tegen. De focus van dit hoofdstuk ligt op het leren hoe deze relaties op grafische en numerieke wijze
Hoofdstuk 8 Het toetsen van nonparametrische variabelen
Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn
Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3
Statistiek II Sessie 3 Verzamelde vragen en feedback Deel 3 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 3 1 Statismex en bloeddruk 1. Afhankelijke variabele: Bloeddruk (van ratio-niveau) Onafhankelijke
Statistiek II. Sessie 5. Feedback Deel 5
Statistiek II Sessie 5 Feedback Deel 5 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 5 1 Statismex, gewicht en slaperigheid2 1. Lineair model: slaperigheid2 = β 0 + β 1 dosis + β 2 bd + ε H 0 :
Voorbeeldtentamen Statistiek voor Psychologie
Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij
HOOFDSTUK VII REGRESSIE ANALYSE
HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens
b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte
Classroom Exercises GEO2-4208 Opgave 7.1 a) Regressie-analyse dicteert hier geen stricte regels voor. Wanneer we echter naar causaliteit kijken (wat wordt door wat bepaald), dan is het duidelijk dat hoogte
Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015
Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd
Oefenvragen bij Statistics for Business and Economics van Newbold
Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd
(slope in het Engels) en het snijpunt met de y-as, b 0
8. Regressie Een introductie Al vaak is genoemd dat statistische modellen allemaal neerkomen op uitkomst = model + error. Dit model kun je ook gebruiken om de uitkomst te voorspellen, met een correlatie
werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek
cursus 23 mei 2012 werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen onderzoek streeft naar inzicht in relatie tussen variabelen bv. tussen onafhankelijke
Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008
Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer
Hoofdstuk 19. Voorspellende analyse bij marktonderzoek
Hoofdstuk 19 Voorspellende analyse bij marktonderzoek Voorspellen begrijpen Voorspelling: een uitspraak over wat er naar verwachting in de toekomst zal gebeuren op basis van ervaringen uit het verleden
Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt
A. Effect & het onderscheidingsvermogen Effectgrootte (ES) De effectgrootte (effect size) vertelt ons iets over hoe relevant de relatie tussen twee variabelen is in de praktijk. Er zijn twee soorten effectgrootten:
College 3 Meervoudige Lineaire Regressie
College 3 Meervoudige Lineaire Regressie - Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2) Jolien Pas ECO 2012-2013 'Computerprogramma voorspelt Top 40-hits Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en
Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling
Kwantitatieve Data Analyse (KDA) Onderzoekspracticum Sessie 2 11 Aanpassingen takenboek! Check studienet om eventuele verbeteringen te downloaden! Huidige versie takenboek: 09 Gjalt-Jorn Peters [email protected]
SPSS. Statistiek : SPSS
SPSS - hoofdstuk 1 : 1.4. fase 4 : verrichten van metingen en / of verzamelen van gegevens Gegevens gevonden bij een onderzoek worden systematisch weergegeven in een datamatrix bij SPSS De datamatrix Gebruik
HOOFDSTUK 2: VERBANDEN
HOOFDSTUK 2: VERBANDEN Inleiding In het gebruik van statistiek komen we vaak relaties tussen variabelen tegen. De focus van dit hoodfstuk ligt op het leren hoe deze relaties op grafische en numerieke wijze
Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies
Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan
Statistiek ( ) eindtentamen
Statistiek (200300427) eindtentamen studiejaar 2010-11, blok 4; Taalwetenschap, Universiteit Utrecht. woensdag 29 juni 2011, 17:15-19:00u, Educatorium, zaal Gamma. Schrijf je naam en student-nummer op
Classification - Prediction
Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training
Toegepaste Statistiek, Dag 7 1
Toegepaste Statistiek, Dag 7 1 Statistiek: Afkomstig uit het Duits: De studie van politieke feiten en cijfers. Afgeleid uit het latijn: status, staat, toestand Belangrijkste associatie: beschrijvende statistiek
G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing
G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag
Hoofdstuk 3 Statistiek: het toetsen
Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.
Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur
Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, 9.00-12.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven
HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES
HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan
Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent.
Hoofdstuk 12 : Regressie en correlatie Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Regressie en correlatie p 1/26 Regressielijn Vraag : vind het
Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:
Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan
College 6 Eenweg Variantie-Analyse
College 6 Eenweg Variantie-Analyse - Leary: Hoofdstuk 11, 1 (t/m p. 55) - MM&C: Hoofdstuk 1 (t/m p. 617), p. 63 t/m p. 66 - Aanvullende tekst 6, 7 en 8 Jolien Pas ECO 01-013 Het Experiment: een voorbeeld
Kansrekening en Statistiek
Kansrekening en Statistiek College 9 Dinsdag 18 Oktober 1 / 1 2 Statistiek Vandaag: Centrale Limietstelling Correlatie Regressie 2 / 1 Centrale Limietstelling 3 / 1 Centrale Limietstelling St. (Centrale
Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid
Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De
Examen Statistiek I Feedback
Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).
Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y
1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld
Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur
Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop
Hoofdstuk 6 Twee populaties: parametrische toetsen
Hoofdstuk 6 Twee populaties: parametrische toetsen 6.1 De t-toets voor het verschil tussen twee gemiddelden: In veel onderzoekssituaties zijn we vooral in de verschillen tussen twee populaties geïnteresseerd.
Statistiek voor A.I. College 2. Donderdag 13 September 2012
Statistiek voor A.I. College 2 Donderdag 13 September 2012 1 / 42 1 Beschrijvende statistiek 2 / 42 Extrapolatie 3 / 42 Verkiezingen 2012 4 / 42 Verkiezingen 2012 5 / 42 1 Beschrijvende statistiek Vandaag:
20. Multilevel lineaire modellen
20. Multilevel lineaire modellen Hiërarchische gegevens Veel fenomenen zijn ingebed in een bredere context. Variabelen kunnen dus ook hiërarchisch zijn, ingebed zijn in variabelen op hogere niveaus. Deze
College 6. Samenhang tussen variabelen. Inleiding M&T Hemmo Smit
College 6 Samenhang tussen variabelen Inleiding M&T 2012 2013 Hemmo Smit Overzicht van deze cursus 1. Grondprincipes van de wetenschap 2. Observeren en meten 3. Interne consistentie; Beschrijvend onderzoek
Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse
Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse 10.1 Eenwegs-variantieanalyse: Als we gegevens hebben verzameld van verschillende groepen en we willen nagaan of de populatiegemiddelden van elkaar verscihllen,
4 Domein STATISTIEK - versie 1.2
USolv-IT - Boomstructuur DOMEIN STATISTIEK - versie 1.2 - c Copyrighted 42 4 Domein STATISTIEK - versie 1.2 (Op initiatief van USolv-IT werd deze boomstructuur mede in overleg met het Universitair Centrum
Hoofdstuk 2. Aanduiding 1: Aanduiding 2: Formule 1: Formule 2: s2 x = Formule 3: s x = Formule 4: X nieuw = X oud ± a betekent ook
Hoofdstuk 2 Aanduiding 1: X ij Aanduiding 2: Formule 1: Formule 2: s2 x = Formule 3: s x = Formule 4: X nieuw = X oud ± a betekent ook ± a Formule 5: X nieuw = bx oud betekent t X nieuw = X oud/b betekent
Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses
Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling
b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.
Opdracht 12a ------------ enkelvoudige lineaire regressie Kan de leeftijd waarop een kind begint te spreken voorspellen hoe zijn score zal zijn bij een latere test op verstandelijke vermogens? Een studie
Data analyse Inleiding statistiek
Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»
EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010
EIND TOETS TOEGEPASTE BIOSTATISTIEK I 5 februari - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 9 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.
Feedback examen Statistiek II Juni 2011
Feedback examen Statistiek II Juni 2011 Bij elke vraag is alternatief A correct. 1 De variabele X is Student verdeeld in een bepaalde populatie, met verwachting µ X en variantie σ 2 X. Je trekt steekproeven
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op dinsdag 5-03-2005, 9.00-22.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine
Hoofdstuk 5: Steekproevendistributies
Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op vrijdag 29-04-2004, 9-2 uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine
Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:
13. Factor ANOVA De theorie achter factor ANOVA (tussengroep) Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 1. Onafhankelijke
Enkelvoudige lineaire regressie
Enkelvoudige lineaire regressie Inleiding Dit hoofdstuk sluit aan op hoofdstuk I-9 van het statistiekboek. Er wordt hier steeds gesproken over het verband tussen één afhankelijke variabele Y en één onafhankelijke
Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 13-14
Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 1314 Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 1314 Figuren en formules
Examen G0N34 Statistiek
Naam: Richting: Examen G0N34 Statistiek 8 september 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium
EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 3 februari 2012
EIND TOETS TOEGEPASTE BIOSTATISTIEK I 3 februari 2012 - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 27 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.
Eindtoets Toegepaste Biostatistiek
Eindtoets Toegepaste Biostatistiek 2013-2014 29 januari 2014 Dit tentamen bestaat uit vier opgaven, onderverdeeld in 24 subvragen. Begin bij het maken van een nieuwe opgave steeds op een nieuw antwoordvel.
Voorbeeld regressie-analyse
Voorbeeld regressie-analyse In dit voorbeeld wordt gebruik gemaakt van het SPSS data-bestand vb_regr.sav (dit bestand kan gedownload worden via de on-line helpdesk). We schatten een model waarin de afhankelijke
EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009
EIND TOETS TOEGEPASTE BIOSTATISTIEK I 30 januari 2009 - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 2 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.
Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28
Inhoud Woord vooraf 13 Hoofdstuk 1. Inductieve statistiek in onderzoek 17 1.1 Wat is de bedoeling van statistiek? 18 1.2 De empirische cyclus 19 1.3 Het probleem van de inductieve statistiek 20 1.4 Statistische
Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen
Lesbrief: Correlatie en Regressie Leerlingmateriaal Je leert nu: -een correlatiecoëfficient gebruiken als maat voor het statistische verband tussen beide variabelen -een regressielijn te tekenen die een
Toegepaste biostatistiek
Toegepaste biostatistiek 1 e master biomedische wetenschappen 1 Hoofdstuk 11: regressie en correlatie methoden Lineaire regressie: hier ga je willen onderzoeken hoe normaal verdeelde uitkomsten gerelateerd
SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen
SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen
Opgaven hoofdstuk 12 Enkelvoudige lineaire regressie
Opgaven hoofdstuk 12 Enkelvoudige lineaire regressie 12.1 Teken voor elk van de volgende gevallen de lijn die door de gegeven punten gaat. a. (1,1) en (5,5). b. (0,3) en (3,0) c. ( 1,1) en (4,2) d. ( 6,
Kansrekening en Statistiek
Kansrekening en Statistiek College 16 Donderdag 4 November 1 / 25 2 Statistiek Indeling: Schatten Correlatie 2 / 25 Schatten 3 / 25 Schatters: maximum likelihood schatters Def. Zij Ω de verzameling van
3 Enkelvoudige lineaire regressie
3 Enkelvoudige lineaire regressie In dit hoofdstuk zullen we een begin maken met de introductie van statistische technieken die het mogelijk maken uit meetgegevens zinvolle verbanden tussen fysische en
HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN
HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.
VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT
Toegepaste data-analyse: oefensessie 2
Toegepaste data-analyse: oefensessie 2 Depressie 1. Beschrijf de clustering van de dataset en geef aan op welk niveau de verschillende variabelen behoren Je moet weten hoe de data geclusterd zijn om uit
1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.
Oefentoets 1 1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Conditie = experimenteel Conditie = controle Sekse = Vrouw 23 33 Sekse = Man 20 36 Van
Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren
Hoofdstuk 18 Verbanden tussen variabelen vaststellen en interpreteren Analyse van verbanden Analyse van verbanden: bij de analyse van verbanden stel je vast of er een stabiel verband bestaat tussen twee
INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5
INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 1. De onderzoekers van een preventiedienst vermoeden dat werknemers in een bedrijf zonder liften fitter zijn dan werknemers
Statistiek II. Sessie 4. Feedback Deel 4
Statistiek II Sessie 4 Feedback Deel 4 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 4 We hebben besloten de bekomen grafieken in R niet in het document in te voegen, dit omdat het document met
3de bach TEW KBM. Theorie. uickprinter Koningstraat Antwerpen ,00
3de bach TEW KBM Theorie Q www.quickprinter.be uickprinter Koningstraat 13 2000 Antwerpen 168 6,00 Online samenvattingen kopen via www.quickprintershop.be BOEK 1: ENKELVOUDIGE EN MEERVOUDIGE REGRESSIE
Introductie tot de statistiek
Introductie tot de statistiek Hogeschool Gent 04/05/2010 Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek 8 1.1 Onderzoek............................ 8 1.1.1 Data........................... 8
Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R
14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten
Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA
Masterclass: advanced statistics Bianca de Greef Sander van Kuijk Afdeling KEMTA Inhoud Masterclass Deel 1 (theorie): Achtergrond regressie Deel 2 (voorbeeld): Keuzes Output Model Model Dependent variable
Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef
Statistiek II Onderdeel toetsen binnen de cursus: 1. Eenvoudig toetsen Toetsen en schatten ivm één statistiek of steekproef Via de z-verdeling, als µ onderzocht wordt en gekend is: Via de t-verdeling,
Statistiek en Data Analyse Opgavenserie 3: Lineaire regressie
Statistiek en Data Analyse Opgavenserie 3: Lineaire regressie Inleveren: uiterlijk maandag 6 februari 16.00 bij Marianne Jonker (Kamer: R3.46) Afspraken De opdrachten maak je in tweetallen. Schrijf duidelijk
