Wat gaan we doen? Help! Statistiek! Wat is een lineaire relatie? De rechte-lijn-vergelijking: Y = a + b X. Relatie tussen gewicht en lengte



Vergelijkbare documenten
1 vorig = omzet voorgaande jaar. Forward (Criterion: Probability-of-F-to-enter <=,050) 2 bezoek = aantal bezoeken vertegenwoordiger

Help! Statistiek! Groeicurven. Doel van de analyse van de groeicurven. Vergelijken van groeicurven in groepen A en B. Voorbeeld

Bijlage 3: Multiple regressie analyse

Enkelvoudige lineaire regressie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

* de percentages goed per klas en volgorde van afnemen. sort cases by klas volgorde. split file by klas volgorde. des var=goedboekperc.

Survival Analyse. Help! Statistiek! Survival Analyse: Overzicht. Voorbeeld: Whiplash onderzoek. Voorbeeld: Intensive Care Unit data

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Verband tussen twee variabelen

Hoofdstuk 8: Multipele regressie Vragen

Meervoudige lineaire regressie

Voorbeeld regressie-analyse

Overzicht. Help! Statistiek! Stelling van Bayes. Hoe goed is leverscan ( test T ) voor het diagnostiseren van leverpathologie ( ziekte Z )?

Oplossingen hoofdstuk XI

** VOORBEELD VAN CAUSALE ANALYSE MET CONFOUNDER EN MEDIATOR **.. GET FILE='u:\)Research\ISSP-NL\ISSP \Data\issp_2013_2014_NL_def.sav'.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

mlw stroom 2.1: Statistisch modelleren

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

!!! Help! Statistiek! Overzicht. Data, computers, statistiek. Statistische programma s. Excel: hoe is het mogelijk? Excel: hoeveel is 1+1?

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Gezinsinkomen en kansenongelijkheid Cijfers bij beschouwend artikel Didactief mei 2018

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

20. Multilevel lineaire modellen

Deze opdracht lossen we eenvoudig op door in de vergelijking X1 en X2 te vervangen door de geobserveerde waarden van deze variabelen:

Spreidingsdiagram, kleinste-kwadraten regressielijn, correlatiecoefficient

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

maplev 2010/7/12 14:02 page 277 #279

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

Classification - Prediction

Strategie en resultaat

Regressie-analyse doel menu hulp globale werkwijze aandachtspunten Doel: Voor de uitvoering in SPSS: Missing Values Globale werkwijze

SPSS. Statistiek : SPSS

Hoofdstuk 2: Verbanden

11. Multipele Regressie en Correlatie

Uitvoer van analyses (SPSS 16) voor het Faalfeedback en Oriëntatie voorbeeld in hoofdstuk 7 (Herhaalde metingen) >

Regressie-analyse. Cursus Bachelor Project 2 B&O College 2 Harry B.G. Ganzeboom. Regressie-model en mediatie-analyse 1

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari uur

HOOFDSTUK VII REGRESSIE ANALYSE

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 3 februari 2012

9. Lineaire Regressie en Correlatie

STATISTIEK 2 VERSIE A MAT Tentamen Statistiek 2 (MAT-15403) Donderdag 13 maart 2014, uur

d. Maak een spreidingsdiagram van de gegevens. Plaats de x-waarden op de x-as en de z-waarden op de y-as.

10. Moderatie, mediatie en nog meer regressie

Fasen in het onderzoeksproces

Vragen: 1 Is de relatie tussen X en Y significant (bij alpha = 0,05)?

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op donderdag ,

College 2 Enkelvoudige Lineaire Regressie

HOOFDSTUK 2: VERBANDEN

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Hoofdstuk A9 Hellinggrafieken - alternatief

TECHNISCHE UNIVERSITEIT EINDHOVEN

Toegepaste data-analyse: oefensessie 2

Statistiek II. Sessie 4. Feedback Deel 4

H6: Enkelvoudige lineaire regressie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 27 oktober 2010, uur

STATISTIEK 2 VERSIE A MAT Tentamen Statistiek 2 (MAT-15403) Maandag 5 augustus 2013, uur

(slope in het Engels) en het snijpunt met de y-as, b 0

Disclosure Belangen Spreker

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

2DM71: Eindtoets Biostatistiek, op dinsdag 20 Januari 2015,

Toets deel 2 Data-analyse en retrieval Vrijdag 30 Juni 2017:

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie?

Exitscore Ready for discharge? Chulja Pek Verpleegkundig Specialist Obstructie Icterus 18 november 2014

MLW -- Toets stroomblok 2.2: Epidemiologie en Biostatistiek

12 Curvefitting Inleiding

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag ,

Logistische regressie analyse: een handleiding Inge Sieben 1 Liesbeth Linssen

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Breuksplitsen WISNET-HBO NHL. update juli 20014

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek II voor TeMa (2S195) op maandag ,

Beknopte handleiding SPSS versie van 28

De eerste stappen met de TI-Nspire 2.1 voor de derde graad

1. Statistiek gebruiken 1

Bij deze toets wordt een formuleblad geleverd. Dit formuleblad dient u na afloop weer in te leveren.

Wiskunde B - Tentamen 2

College 3 Meervoudige Lineaire Regressie

Docentenversie. Hoofdstuk A9 Hellinggrafieken - alternatief. snelheid (m/s)

Menu aansturing van SPSS voorbeeld in paragraaf 6.5 van hoofdstuk 6 over multipele regressie analyses van recidive bij jongens

4 Meervoudige lineaire regressie

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Bij het maken van deze opgave worden de volgende vragen beantwoord:

Oriëntatie Econometrie Tijdreeksmodellen en Voorspellen. Marius Ooms. 23 April 2002, Amsterdam

Opgave 1: (zowel 2DM40 als 2S390)

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

8. Differentiaal- en integraalrekening

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

klas 3 havo Checklist HAVO klas 3.pdf

Gebruik van Correlatiecoëfficiënt in onderzoek

Examenvragen KBM/EMS 09-15

Algemeen lineair model

Buiging van een belaste balk

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

Transcriptie:

Help! Statistiek! Wat gaan we doen? Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Derde woensdag in de maand, -3 uur 9 december: Hoe bepaal ik of een verband lineair is? 6 januari: Overeenstemming februari: Herhaalde metingen - beoordeling van lineariteit met behulp van grafieken in SPSS - aanpassen van lineaire en polynomiale modellen in SPSS - aanpassen van modellen met splines Sprekers: Václav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie De rechte-lijn-vergelijking: Y = a + b X Wat is een lineaire relatie? Y - Y = a + b X Y is lineair in X en ook in de parameters a en b a b a = intercept b = helling (slope) X 3 - Y = a + b X +c X Y is niet-lineair in X, wel lineair in a, b en c - Y = a e -b X Y is niet-lineair in X en ook niet in b, maar ln(y) = ln(a) - b X is wel lineair in X en in ln(a) en b - Y = a X b / ( + X c ) Y is niet lineair in X en ook niet in b en c 4 Wat is een lineaire relatie? - Multipele lineaire regressie model: De verwachte waarde van Y, EY, is lineair in parameters - Gegeneraliseerde multipele lineaire regressie model: Na een geschikte transformatie f is f(ey) lineair in parameters. Voorbeelden: logistische-, Poisson, Cox-regressie We laten SPSS grafieken van verschillende functies maken Ik ga het hebben over (niet-)lineariteit van Y als functie van X in context van multipele gegeneraliseerde lineaire regressie. 5 6

7 8 Loess = locally weighted scatterplot smoothing 9

Andere mogelijkheden? We willen de fit van de verschillende functies wat formeler evalueren. We gaan de parameters met behulp van lineaire regressie analyse schatten zodat we de regressievergelijking kunnen opschrijven. We beginnen met een eenvoudige methode die geen veronderstellingen maakt over de aard van de relatie tussen Y en X. Categoriseren van lengte in quintielen We gaan de data in een klein aantal, bijvoorbeeld vijf, ongeveer even grote groepen naar lengte groeperen. Per groep bepalen we gemiddelden van gewicht en lengte en zetten deze tegen elkaar uit. Door het middelen raken we een deel van het ruis kwijt en dit helpt bij het beoordelen van de onderzochte relatie. LEN5 : quintiel-groep van LENGTE (,,,5) GLEN5: gemiddelde lengte per quintiel-groep 3 4 Categoriseren van lengte in quintielen () Categoriseren van lengte in quintielen (3) In SPSS 5 : met behulp van Visual Binning, In SPSS 4 : Visual Binder of, alle versies: via Transform / Compute etc. 5 6 Categoriseren van lengte in quintielen (4) Categoriseren van lengte in quintielen (5) 4 cutpoints = 5 groepen 7 8 3

-quintielen -quintielen De afstanden tussen de gemiddelden van de lengte zijn niet helemaal gelijk. Daarom gebruiken we Glen5 en niet Len5. Let op: de x-schaal is categorisch! 9 quintielen Model met quintiel-groepen (Q,,Q5 zijn dummy var.) gewicht = β + β Q + β Q3 + β 3 Q4 + β 4 Q5 Lineair, kwadratisch, kubisch? Vergelijk de fit van verschillende modellen. Model Summary. gewicht = β + β lengte + β lengte + β 3 lengte 3 R Adjusted R Square Std. Error of the Estimate Unstandardized. gewicht = β + β lengte + β lengte a..56 a.56.98 Predictors: (Constant), q5, q4, q3, q (Constant) B Std. Error t Sig. 8.774.883 4.886. 3. gewicht = β + β lengte q.65.684.65.54 q3 5.797.83.68.4 q4.666.893 3.686. q5 8.86.893 6.56. Lineair, kwadratisch, kubisch? Lineair, kwadratisch, kubisch?. gewicht = β + β lengte + β lengte + β 3 lengte 3 Unstandardized Model a. b. Variables Entered/Removed b Variables Entered Variables Removed Method lengte3, lengte a. Enter Tolerance =. limits reached. Dependent Variable: gewicht Wat is er aan de hand? Probleem: collineariteit tussen de drie variablelen Mogelijke oplossing: centreren : vervang LENGTE door LENGTE-75 B Std. Error t Sig. (Constant) 85.688.96 78.8. len.895.99 4.496. len....39 len3-6.3e-5. -.7.944 (Constant) 85.696.85 78.95. len.884.3 6.773. Model Summary Adjusted Std. Error of R R Square the Estimate.5.55.988 len...9.35.5.6.949 a Unstandardized Standardized (Constant) len 86.87.9 93.638..94.7 7.86..55.6.95 Model B Std. Error Beta t Sig. (Constant) lengte lengte3 73.369 4.679.77.474 -.9.55 -.67 -.58.563.5E-5..89.7.36 gewicht = 86,3 +,9 (lengte-75) = -73,7 +,9 lengte a. Dependent Variable: gewicht 3 4 4

Residuele plot van kubische model PP-plot kubische model 5 Standaard bij regressie in SPSS. Ik gebruik bij voorkeur de QQ-plot 6 QQ-plot kubische model QQ-plot kubische model voor ln(gewicht) De gebogen vorm is karakteristiek voor log-normale verdeling. Laten we de loggewichten proberen 7 Dit is duidelijk beter. 8 Meer flexibele modellen Meer flexibele modellen Gebruik van polynomiale regressie met termen (X, X, X 3, ) is handig, maar het is niet de enige mogelijkheid. Ook termen als X /, X /4, kunnen gebruikt worden ( fractionele polynomen ). Of log(x), sin(x) Een andere mogelijkheid is het toestaan dat de coefficienten van het gebruikte polynoom in verschillende intervallen van X-waarden verschillend zijn. Dit leidt tot b.v. een stuksgewijze ( piecewise ) lineaire of polynomiale regressie modellen. 9 Aansluiting in knooppunten ( knots, ) is niet vloeiend. 3 5

Splines Splines zijn opgebouwd uit polynomen die wel vloeiend op elkaar aansluiten. Meest populair zijn de kubische splines. De oorspronkelijke betekenis van spline is een lang dun, en dus flexibel, reepje hout. Het werd gebruikt onder andere in scheepsbouw, b.v. om spanten te ontwerpen. vloer van de scheepwef Splines Kubische splines zien er mooi uit omdat de op elkaar aansluitende stukjes in de knooppunt a) een gelijke functiewaarde hebben b) een gelijke eerste afgeleide (raaklijn) hebben c) een gelijke tweede afgeleide hebben. Een kubische spline met k knopen wordt bepaald door k+4 parameters. (Een kubische polynoom heeft 4 parameters; per knoop zijn 3 voorwaarden - zie boven. Er zijn dus 4(k+)-3k = k+4 parameters.) 3 3 Lineaire spline met twee knopen a en b y = β + β x + β ( x a) ( X > a) + β ( x b) ( X > b) 3 Kubische spline met drie knopen a, b en c f ( X ) = β + β X + β X + β X 3 3 3 3 3 4 ( X a) + 5 ( X b) + 6 ( X c) + + β + β + β β ( x a) ( X > a) β β + x ( X a) = ( X a) ( X > a) + a b β ( x b) ( X > b) 3 Dit kan je in SPSS gebruiken door de zes X-termen via COMPUTE te laten berekenen. Daarna voer je de gewone regressie-analyse uit. Andere pakketten zijn handiger. Met name R of S-plus. 33 34 Er is nog meer te vertellen Voorbeeld: Kyfose en logistische regressie De zo net beschreven splines gedragen zich soms niet helemaal netjes in de staarten. Daarom kiest men ervoor om de eindstukken niet kubisch maar lineair te modeleren. Het resultaat heet restricted spline, of natuurlijke spline. Deze spline heeft k parameters. De keuze van het aantal en de positie van de knopen is een verhaal apart. Data van 8 geopereerde kinderen. Vraag: Is er een relatie tussen enerzijds - het aanwezig zijn van de postoperatieve kyfose en anderzijds - de leeftijd (in maanden) en - het volgorde-nummer ( start ) van de geopereerde wervel Naast de geschetste regressie-splines bestaan er ook (niet-parametrische) smoothing splines. 35 36 6

Data kyfose Logistische regressie Age 5 5 Start 5 5 e P( kyfose) = + e b + f ( age) + f ( start) b + f ( age) + f ( start) Zoeken naar passende functies f en f : gebruik splines absent Kyphosis present absent Kyphosis present 37 38 Age in quintiel groepen Logistische regressie met kubische splines.6 f f.5 propotion with kyphosis.4.3. s(age) - -4-6 s(start) -5 -. 5 5 5 5. Age Start 5 5 age 39 Kies op basis hiervan een eenvoudige parametrische vorm 4 Vereenvoudiging Het uiteindelijke model poly(age, ) - -4-6 5 5 Age I((Start - ) * (Start > )) 4 - -4-6 -8 5 5 Start Std. Value Error t value (Intercept).695.496.4 I((Age - )/) -.7.97 -.8 I(((Age - )/)^) -3.843.846 -.8 I((Start - ) * (Start > )) -.35.53 -.63 age age logit( p) =.695.7 3.843.35 ( Start ) ( Start > ) age + age ( start )*( start > ) 4 4 7

Conclusie Volgende Help! Statistiek! lezing: Eerst tekenen dan rekenen Begin met niet-parametrische modellen (deze leveren geen model-formule op): - verdelen in b.v. quintielgroepen - loess- of smoothing splines fit daarna parametrische modellen: - regressie-splines - (fractionele-) polynomen software: - SPSS (beperkte mogelijkheden) - S-plus (campus licentie) of R (vrij: GNU) - woensdag 6 januari 8, -3 uur Overeenstemming Handouts van deze presentatie komen te staan in Download Area op http://www.rug.nl/umcg/faculteit/disciplinegroepen/epidemiologie 43 44 8