Disclosure Belangen Spreker

Vergelijkbare documenten
Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

Disclosure Belangen Spreker

11. Multipele Regressie en Correlatie

Bijlage 3: Multiple regressie analyse

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

1 vorig = omzet voorgaande jaar. Forward (Criterion: Probability-of-F-to-enter <=,050) 2 bezoek = aantal bezoeken vertegenwoordiger

Faculteit der Wiskunde en Informatica

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 27 oktober 2010, uur

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, uur

Classification - Prediction

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari uur

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

Oplossingen hoofdstuk XI

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

Opgave 1: (zowel 2DM40 als 2S390)

TECHNISCHE UNIVERSITEIT EINDHOVEN

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

9. Lineaire Regressie en Correlatie

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Voorbeeld regressie-analyse

College 2 Enkelvoudige Lineaire Regressie

Hoofdstuk 8: Multipele regressie Vragen

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag ,

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie?

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Tentamen Biostatistiek 1 voor BMT (2DM40), op woensdag 12 november uur

Enkelvoudige lineaire regressie

Deze opdracht lossen we eenvoudig op door in de vergelijking X1 en X2 te vervangen door de geobserveerde waarden van deze variabelen:

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Verband tussen twee variabelen

Hoofdstuk 2: Verbanden

Data analyse Inleiding statistiek

College 3 Meervoudige Lineaire Regressie

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

mlw stroom 2.1: Statistisch modelleren

(slope in het Engels) en het snijpunt met de y-as, b 0

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

TECHNISCHE UNIVERSITEIT EINDHOVEN

laboratory for industrial mathematics eindhoven Endinet Regressie-analyse Energiekamer

MISSING DATA van gatenkaas naar valide uitkomsten

1. Reductie van error variantie en dus verhogen van power op F-test

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

Statistiek II. Sessie 4. Feedback Deel 4

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen.

Bijlage bij Meesterlijk gedrag. Leren van compareren., Rechtstreeks 2009/3

Meervoudige lineaire regressie

4 Domein STATISTIEK - versie 1.2

Oefenvragen bij Statistics for Business and Economics van Newbold

Regressie-analyse doel menu hulp globale werkwijze aandachtspunten Doel: Voor de uitvoering in SPSS: Missing Values Globale werkwijze

Pilot vragenlijst communicatieve redzaamheid

SPSS. Statistiek : SPSS

Workshop Modelleren en communiceren 29 januari 2013

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek II voor TeMa (2S195) op maandag ,

M M M M M M M M M M M M M M La La La La La La La Mid Mid Mid Mid Mid Mid Mid

Beschrijvende statistiek

* de percentages goed per klas en volgorde van afnemen. sort cases by klas volgorde. split file by klas volgorde. des var=goedboekperc.

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

werkcollege 6 - D&P10: Hypothesis testing using a single sample

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Statistiek II. Sessie 6. Feedback Deel 6

Wat gaan we doen? Help! Statistiek! Wat is een lineaire relatie? De rechte-lijn-vergelijking: Y = a + b X. Relatie tussen gewicht en lengte

** VOORBEELD VAN CAUSALE ANALYSE MET CONFOUNDER EN MEDIATOR **.. GET FILE='u:\)Research\ISSP-NL\ISSP \Data\issp_2013_2014_NL_def.sav'.

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

HOOFDSTUK VII REGRESSIE ANALYSE

Toegepaste biostatistiek

Antwoordvel Versie A

Spreidingsdiagram, kleinste-kwadraten regressielijn, correlatiecoefficient

Inhoud. Data. Analyse van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox

toetskeuze schema verschillen in gemiddelden

werkcollege 7 - D&P10: Hypothesis testing using a single sample

a. Wanneer kan men in plaats van de Pearson correlatie coefficient beter de Spearman rangcorrelatie coefficient berekenen?

Technische appendix bij DNBulletin Voor lagere werkloosheid is meer economische groei nodig. Variable Coefficient Std. Error t-statistic Prob.

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op donderdag ,

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Het ANCOVA model is een vorm van het general linear model (GLM), en kan als volgt geschreven worden qua populatie parameters:

Workshop Gegevens als goudmijn voor de praktijk. Big data voor kwaliteit en beleid. Praktijkvariatie als motor voor interne kwaliteitsverbetering

Eindtoets Toegepaste Biostatistiek

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Survival Analyse. Help! Statistiek! Survival Analyse: Overzicht. Voorbeeld: Whiplash onderzoek. Voorbeeld: Intensive Care Unit data

Evaluation of Measurement Uncertainty using Adaptive Monte Carlo Methods

Examen G0N34 Statistiek

Les 5: Analysis of variance

Residual Plot for Strength. predicted Strength


2DM71: Eindtoets Biostatistiek, op dinsdag 20 Januari 2015,

College 6 Eenweg Variantie-Analyse

TYPE EXAMENVRAGEN VOOR TOEGEPASTE STATISTIEK

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

Menu aansturing van SPSS voorbeeld in hoofdstuk 7 over Kaplan-Meier en Cox regressie survival analyses van recidive bij meisjes

11. Meerdere gemiddelden vergelijken, ANOVA

Transcriptie:

1

Geen (potentiële) belangenverstengeling Disclosure Belangen Spreker Voor bijeenkomst mogelijk relevante relaties: Sponsoring of onderzoeksgeld - Honorarium of andere (financiële ) vergoedingen Aandeelhouder - Andere relatie, namelijk: - Bedrijfsnamen: -

Statistiek II Jan Binnekade AMC

Wat gaan we doen - Simple Linear regression - Regression diagnostics - Multiple linear regression - Predictieve en associatieve modellen

Welke toets bij welke vergelijking https://wikistatistiek.amc.nl/index.php/keuze_toets 5

Welke analyse bij welke associatie 6

Basis regressie modellen Linear regressie Logistische regressie Cox regressie continue uitkomst maat dichotome uitkomst maat survival model Associatie modellen verband tussen de uitkomst en 1 determinant etiologie, causaliteit Predictieve modellen verband tussen uitkomst en een set predictoren doel is de beste voorspelling met het eenvoudigste model, dus het minst aantal predictoren 7

Case reports anekdotal Case series series of anekdotes Yes No Yes No Cross sectional studies a snapshot in time Case control studies thinking backwards Cohort studies looking forward in time Randomised controlled trials golden standard Non-randomised controlled trials not so gold Predictive regression Logistic regression Explanatory regression 8

H0: geen verschil. H1: wel verschil P waarde is de kans op een onderzoeksresultaat onder de aanname dat de H0 waar is. Dus als je een kleine kans vindt, kleiner dan 0.05, dan is het onwaarschijnlijk dat de H0 waar is. Maar, je kan er nog steeds naast zitten: H0 = TRUE H0 = FALSE Test verwerpt HO niet 1 - α β Test verwerpt H0 wel α 1-β α = fout positief, β = fout negatief 9

Statistical power and sample size Set alpha error = limits for type I error (false positive) associated with Set beta error = limits for type II error (false negative) 1 beta = power = probability of correctly rejecting the H0 Power depends on: effect size alpha sample size Sample size: effect size, alpha and power Ratio of observations to variables is 1:5 (minimum) better is 15:1 or 20:1 10

Linear regression - relatie tussen twee variabelen, dependent continu, verschillende type predictoren mogelijk regressielijn method of least squares assumptions

linear regression: regression line b (slope) gemiddelde toename van y als x met 1 toeneemt Y = α + bx x = independent, predictor, explanatory variable Y = dependent, outcome, response variable α = intercept, value of y when x = 0 α en b zijn de regressie coefficienten Petrie & Sabin: the theory of linear regression

Linear regression: least squares method of least squares to fit the line residual = observed y fitted Y best line fit when the sum of the squared residuals is at the minimum

linear regression: assumptions Linear relation x and y Independent observations (one x - y pair individual) Normal distribution in y for each x Variability the same in y for each x (homoscedastic) The error term is a random variable and uncorrelated

Levene test to check for homoscedasticy https://stats.stackexchange.com

Analyse uitkomsten van (multiple) lineair regressie Goodness of fit: R 2 Verklaarde variantie F test: test de H0 dat alle regressie coëfficiënten zijn nul. Een significante F test (p) betekent dat er minimaal 1 Beta coëfficiënt is met een lineaire relatie met Y t.test: voor iedere Beta (beta / se = t)

Waarom moet je altijd je data visualiseren Anscombe's quartet 4 bijna identieke datasets met identieke descriptives

Anscombe's quartet By Anscombe.svg: https://commons.wikimedia.org/w/index.php?curid=9838454

voorbeeld Lengte als predictor voor gewicht Y = α + bx + e Y = -39 + 61 * x 70,8 = -39 + 61 * 1,8 (persoon met lengte 1,8 m weegt 70,8 kg)

Regression diagnostics Residuals non-normal pattern? Normal is straight line Residuals normal distributed Normal is straight line Influential points Cooks distance Equally spread residuals by each x. Random pattern is OK

Voorwaarden lineaire regressie Is de relatie tussen X en Y een rechte lijn? Zijn de residuals normaal verdeeld? Is de variantie overal gelijk? Zijn de X waarden precies en correct? Is de data onafhankelijk? (herhaalde metingen) X is geen onderdeel van Y, X score als predictor van de totaal scores Y

t.test Welch two samples t.test p value = 2.2 e -16 mean in F = 54.86 mean in M = 58.15 Verschil = 3.29 (95% CI -3.45 to -3.11) 95% CI = +/- (1.96 * se) se = sd/sqrt(n) linear regression Y = α + bx + e gewicht(58.15) = 54.86 + 3.29 * 1 (1 = man, 0 = vrouw) R-squared: 0.78, Adjusted R-squared: 0.78

ANOVA, vergelijk 4 groepen gewicht F = between sample variance within sample variance F = 1574, p = <0.0001 post hoc analyse = vergelijk groepen

Linear regression Estimate Std. Error t value Pr(> t ) (Intercept) 54.14418 0.05210 1039.23 <2e-16 *** groep2 1.44198 0.07368 19.57 <2e-16 *** groep3 3.30342 0.07368 44.83 <2e-16 *** groep4 4.70885 0.07368 63.91 <2e-16 *** Y = α + bx groep 1 = 54,14 groep 2 = 54,14 + 1,44 groep 3 = 54,14 + 3,30 groep 4 = 54,14 4,71

Multivariable linear regression Multi-variable = one dependent outcome, more independents Multi-variate = more than one dependent outcome Multiple linear regression zelfde regels als simple linear regression Multivariable models - Predictive model - Associative (etiologisch) model

Simple linear regression model (1 predictor) Multivariable linear regression model (multiple predictors) pas op voor collinearity Predictive model Associative model

Multiple regression model multiple onafhankelijke variabelen hebben invloed op de afhankelijke variabele. Bij de berekening van de parameters wordt het effect van één variabele nagegaan terwijl dat van de andere variabelen constant wordt gehouden. Effecten kunnen sterk veranderen door toevoeging van een relevante onafhankelijke variabele Afhankelijke variabele graanopbrengst Twee onafhankelijke variabelen: gem. neerslag/maand en gem.temperatuur 1 e model: graanopbrengst = 76.67 + -1.67 * X (neerslag) 2 e model: graanopbrengst = -144.76 + 5.71 * neerslag + 2.95 * temperatuur Negatieve effect van neerslag slaat om in een positief effect http://www.let.leidenuniv.nl/history/res/vstat/html/les6.html

Multicollineariteit bij multiple regression Een predictor heeft een sterke relatie met een of meerdere andere predictor(en) beide onafhankelijke variabelen 'verklaren' vrijwel dezelfde variatie in Y. Er is geen absolute regel wanneer multicollineariteit 'ernstig' wordt De oplossing is om één van de twee onderling correlerende onafhankelijke variabelen uit de analyse te verwijderen. Check Variation Inflation Factor VIF en andere collinearity diagnostics

Predictive model Beste verklaring met het eenvoudigste model Wat zijn de predictoren? Theoretisch/conceptueel model Preselectie van variabelen, iedere predictor heeft afzonderlijk een relatie met de uitkomst, p <0,10. Met deze selectie forward of backward selectie.

Predictive model Tabel univariate analyse Relevante predictors Nee Verwijder niet significante predictor Optimaal model Ja Rapporteer Beoordeel model AIC/BIC criteria R 2 verklaarde variantie Predictor significantie Klinisch relevant? Predictive model: confounding speelt geen rol effectmodificatie speelt geen rol

onafhankelijke variabele in model stapsgewijs of tegelijk Methoden in SPSS ENTER: de standaardmethode - alle onafhankelijke variabelen tegelijk FORWARD selectie: Steeds wordt de variabele met de grootste F-waarde opgenomen, voor zover die statistisch significant is; BACKWARD eliminatie: Alle variabelen worden in het model opgenomen waarna de variabelen met de kleinste (niet-significante) F-waarde geëlimineerd worden; STEPWISE selectie: een combinatie van de reeds genoemde technieken waarbij variabelen stapsgewijs worden ingevoerd maar ook weer verwijderd als de F-waarde te klein wordt. Als criterium bij opname of eliminatie van variabelen geldt de F-waarde bij een bepaald significantieniveau (kun je zelf bepalen)

Associatief model Wat is het verband tussen cholesterol en BMI, gecorrigeerd voor leeftijd, geslacht, activiteitsniveau, alcoholgebruik. Onderzoek naar Effectmodificatie en confounding C X Y Stelt eisen aan de sample size

Associative model Primaire determinant (PD) Check volgende variabele Lijst met EM of Confounders Effectmodificatie (EM) PD * EM Voeg toe aan model Ja Significant Model splitsten zinvol? Nee Confounder Nee Variabele uit model Longkanker = roken + leeftijd + geslacht + alcohol + omgeving Geslacht is effectmodificator Longkanker[mannen] = roken + leeftijd + alcohol + omgeving Longkanker[vrouwen] = roken + leeftijd + alcohol + omgeving

Predicitive model Beste en eenvoudigste verklarende model Associatief model Netto effect gecorrigeerd voor beta 2 etc etc

Bronnen om te leren Google, Coursera, Edx, EMGO VUMC, Khan academy WIKI statistiek van de CRU (Clinical Research Unit) AMC https://wikistatistiek.amc.nl/index.php/keuze_toets BMJ Education and Debate: Statistics Notes http://www.bmj.com/specialties/statistics-notes Khan academy https://nl.khanacademy.org/ Boeken Andy Field. Statistics SPSS, R en SAS 35