1
Geen (potentiële) belangenverstengeling Disclosure Belangen Spreker Voor bijeenkomst mogelijk relevante relaties: Sponsoring of onderzoeksgeld - Honorarium of andere (financiële ) vergoedingen Aandeelhouder - Andere relatie, namelijk: - Bedrijfsnamen: -
Statistiek II Jan Binnekade AMC
Wat gaan we doen - Simple Linear regression - Regression diagnostics - Multiple linear regression - Predictieve en associatieve modellen
Welke toets bij welke vergelijking https://wikistatistiek.amc.nl/index.php/keuze_toets 5
Welke analyse bij welke associatie 6
Basis regressie modellen Linear regressie Logistische regressie Cox regressie continue uitkomst maat dichotome uitkomst maat survival model Associatie modellen verband tussen de uitkomst en 1 determinant etiologie, causaliteit Predictieve modellen verband tussen uitkomst en een set predictoren doel is de beste voorspelling met het eenvoudigste model, dus het minst aantal predictoren 7
Case reports anekdotal Case series series of anekdotes Yes No Yes No Cross sectional studies a snapshot in time Case control studies thinking backwards Cohort studies looking forward in time Randomised controlled trials golden standard Non-randomised controlled trials not so gold Predictive regression Logistic regression Explanatory regression 8
H0: geen verschil. H1: wel verschil P waarde is de kans op een onderzoeksresultaat onder de aanname dat de H0 waar is. Dus als je een kleine kans vindt, kleiner dan 0.05, dan is het onwaarschijnlijk dat de H0 waar is. Maar, je kan er nog steeds naast zitten: H0 = TRUE H0 = FALSE Test verwerpt HO niet 1 - α β Test verwerpt H0 wel α 1-β α = fout positief, β = fout negatief 9
Statistical power and sample size Set alpha error = limits for type I error (false positive) associated with Set beta error = limits for type II error (false negative) 1 beta = power = probability of correctly rejecting the H0 Power depends on: effect size alpha sample size Sample size: effect size, alpha and power Ratio of observations to variables is 1:5 (minimum) better is 15:1 or 20:1 10
Linear regression - relatie tussen twee variabelen, dependent continu, verschillende type predictoren mogelijk regressielijn method of least squares assumptions
linear regression: regression line b (slope) gemiddelde toename van y als x met 1 toeneemt Y = α + bx x = independent, predictor, explanatory variable Y = dependent, outcome, response variable α = intercept, value of y when x = 0 α en b zijn de regressie coefficienten Petrie & Sabin: the theory of linear regression
Linear regression: least squares method of least squares to fit the line residual = observed y fitted Y best line fit when the sum of the squared residuals is at the minimum
linear regression: assumptions Linear relation x and y Independent observations (one x - y pair individual) Normal distribution in y for each x Variability the same in y for each x (homoscedastic) The error term is a random variable and uncorrelated
Levene test to check for homoscedasticy https://stats.stackexchange.com
Analyse uitkomsten van (multiple) lineair regressie Goodness of fit: R 2 Verklaarde variantie F test: test de H0 dat alle regressie coëfficiënten zijn nul. Een significante F test (p) betekent dat er minimaal 1 Beta coëfficiënt is met een lineaire relatie met Y t.test: voor iedere Beta (beta / se = t)
Waarom moet je altijd je data visualiseren Anscombe's quartet 4 bijna identieke datasets met identieke descriptives
Anscombe's quartet By Anscombe.svg: https://commons.wikimedia.org/w/index.php?curid=9838454
voorbeeld Lengte als predictor voor gewicht Y = α + bx + e Y = -39 + 61 * x 70,8 = -39 + 61 * 1,8 (persoon met lengte 1,8 m weegt 70,8 kg)
Regression diagnostics Residuals non-normal pattern? Normal is straight line Residuals normal distributed Normal is straight line Influential points Cooks distance Equally spread residuals by each x. Random pattern is OK
Voorwaarden lineaire regressie Is de relatie tussen X en Y een rechte lijn? Zijn de residuals normaal verdeeld? Is de variantie overal gelijk? Zijn de X waarden precies en correct? Is de data onafhankelijk? (herhaalde metingen) X is geen onderdeel van Y, X score als predictor van de totaal scores Y
t.test Welch two samples t.test p value = 2.2 e -16 mean in F = 54.86 mean in M = 58.15 Verschil = 3.29 (95% CI -3.45 to -3.11) 95% CI = +/- (1.96 * se) se = sd/sqrt(n) linear regression Y = α + bx + e gewicht(58.15) = 54.86 + 3.29 * 1 (1 = man, 0 = vrouw) R-squared: 0.78, Adjusted R-squared: 0.78
ANOVA, vergelijk 4 groepen gewicht F = between sample variance within sample variance F = 1574, p = <0.0001 post hoc analyse = vergelijk groepen
Linear regression Estimate Std. Error t value Pr(> t ) (Intercept) 54.14418 0.05210 1039.23 <2e-16 *** groep2 1.44198 0.07368 19.57 <2e-16 *** groep3 3.30342 0.07368 44.83 <2e-16 *** groep4 4.70885 0.07368 63.91 <2e-16 *** Y = α + bx groep 1 = 54,14 groep 2 = 54,14 + 1,44 groep 3 = 54,14 + 3,30 groep 4 = 54,14 4,71
Multivariable linear regression Multi-variable = one dependent outcome, more independents Multi-variate = more than one dependent outcome Multiple linear regression zelfde regels als simple linear regression Multivariable models - Predictive model - Associative (etiologisch) model
Simple linear regression model (1 predictor) Multivariable linear regression model (multiple predictors) pas op voor collinearity Predictive model Associative model
Multiple regression model multiple onafhankelijke variabelen hebben invloed op de afhankelijke variabele. Bij de berekening van de parameters wordt het effect van één variabele nagegaan terwijl dat van de andere variabelen constant wordt gehouden. Effecten kunnen sterk veranderen door toevoeging van een relevante onafhankelijke variabele Afhankelijke variabele graanopbrengst Twee onafhankelijke variabelen: gem. neerslag/maand en gem.temperatuur 1 e model: graanopbrengst = 76.67 + -1.67 * X (neerslag) 2 e model: graanopbrengst = -144.76 + 5.71 * neerslag + 2.95 * temperatuur Negatieve effect van neerslag slaat om in een positief effect http://www.let.leidenuniv.nl/history/res/vstat/html/les6.html
Multicollineariteit bij multiple regression Een predictor heeft een sterke relatie met een of meerdere andere predictor(en) beide onafhankelijke variabelen 'verklaren' vrijwel dezelfde variatie in Y. Er is geen absolute regel wanneer multicollineariteit 'ernstig' wordt De oplossing is om één van de twee onderling correlerende onafhankelijke variabelen uit de analyse te verwijderen. Check Variation Inflation Factor VIF en andere collinearity diagnostics
Predictive model Beste verklaring met het eenvoudigste model Wat zijn de predictoren? Theoretisch/conceptueel model Preselectie van variabelen, iedere predictor heeft afzonderlijk een relatie met de uitkomst, p <0,10. Met deze selectie forward of backward selectie.
Predictive model Tabel univariate analyse Relevante predictors Nee Verwijder niet significante predictor Optimaal model Ja Rapporteer Beoordeel model AIC/BIC criteria R 2 verklaarde variantie Predictor significantie Klinisch relevant? Predictive model: confounding speelt geen rol effectmodificatie speelt geen rol
onafhankelijke variabele in model stapsgewijs of tegelijk Methoden in SPSS ENTER: de standaardmethode - alle onafhankelijke variabelen tegelijk FORWARD selectie: Steeds wordt de variabele met de grootste F-waarde opgenomen, voor zover die statistisch significant is; BACKWARD eliminatie: Alle variabelen worden in het model opgenomen waarna de variabelen met de kleinste (niet-significante) F-waarde geëlimineerd worden; STEPWISE selectie: een combinatie van de reeds genoemde technieken waarbij variabelen stapsgewijs worden ingevoerd maar ook weer verwijderd als de F-waarde te klein wordt. Als criterium bij opname of eliminatie van variabelen geldt de F-waarde bij een bepaald significantieniveau (kun je zelf bepalen)
Associatief model Wat is het verband tussen cholesterol en BMI, gecorrigeerd voor leeftijd, geslacht, activiteitsniveau, alcoholgebruik. Onderzoek naar Effectmodificatie en confounding C X Y Stelt eisen aan de sample size
Associative model Primaire determinant (PD) Check volgende variabele Lijst met EM of Confounders Effectmodificatie (EM) PD * EM Voeg toe aan model Ja Significant Model splitsten zinvol? Nee Confounder Nee Variabele uit model Longkanker = roken + leeftijd + geslacht + alcohol + omgeving Geslacht is effectmodificator Longkanker[mannen] = roken + leeftijd + alcohol + omgeving Longkanker[vrouwen] = roken + leeftijd + alcohol + omgeving
Predicitive model Beste en eenvoudigste verklarende model Associatief model Netto effect gecorrigeerd voor beta 2 etc etc
Bronnen om te leren Google, Coursera, Edx, EMGO VUMC, Khan academy WIKI statistiek van de CRU (Clinical Research Unit) AMC https://wikistatistiek.amc.nl/index.php/keuze_toets BMJ Education and Debate: Statistics Notes http://www.bmj.com/specialties/statistics-notes Khan academy https://nl.khanacademy.org/ Boeken Andy Field. Statistics SPSS, R en SAS 35