Help! Statistiek! Wat gaan we doen? Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Derde woensdag in de maand, -3 uur 9 december: Hoe bepaal ik of een verband lineair is? 6 januari: Overeenstemming februari: Herhaalde metingen - beoordeling van lineariteit met behulp van grafieken in SPSS - aanpassen van lineaire en polynomiale modellen in SPSS - aanpassen van modellen met splines Sprekers: Václav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie De rechte-lijn-vergelijking: Y = a + b X Wat is een lineaire relatie? Y - Y = a + b X Y is lineair in X en ook in de parameters a en b a b a = intercept b = helling (slope) X 3 - Y = a + b X +c X Y is niet-lineair in X, wel lineair in a, b en c - Y = a e -b X Y is niet-lineair in X en ook niet in b, maar ln(y) = ln(a) - b X is wel lineair in X en in ln(a) en b - Y = a X b / ( + X c ) Y is niet lineair in X en ook niet in b en c 4 Wat is een lineaire relatie? - Multipele lineaire regressie model: De verwachte waarde van Y, EY, is lineair in parameters - Gegeneraliseerde multipele lineaire regressie model: Na een geschikte transformatie f is f(ey) lineair in parameters. Voorbeelden: logistische-, Poisson, Cox-regressie We laten SPSS grafieken van verschillende functies maken Ik ga het hebben over (niet-)lineariteit van Y als functie van X in context van multipele gegeneraliseerde lineaire regressie. 5 6
7 8 Loess = locally weighted scatterplot smoothing 9
Andere mogelijkheden? We willen de fit van de verschillende functies wat formeler evalueren. We gaan de parameters met behulp van lineaire regressie analyse schatten zodat we de regressievergelijking kunnen opschrijven. We beginnen met een eenvoudige methode die geen veronderstellingen maakt over de aard van de relatie tussen Y en X. Categoriseren van lengte in quintielen We gaan de data in een klein aantal, bijvoorbeeld vijf, ongeveer even grote groepen naar lengte groeperen. Per groep bepalen we gemiddelden van gewicht en lengte en zetten deze tegen elkaar uit. Door het middelen raken we een deel van het ruis kwijt en dit helpt bij het beoordelen van de onderzochte relatie. LEN5 : quintiel-groep van LENGTE (,,,5) GLEN5: gemiddelde lengte per quintiel-groep 3 4 Categoriseren van lengte in quintielen () Categoriseren van lengte in quintielen (3) In SPSS 5 : met behulp van Visual Binning, In SPSS 4 : Visual Binder of, alle versies: via Transform / Compute etc. 5 6 Categoriseren van lengte in quintielen (4) Categoriseren van lengte in quintielen (5) 4 cutpoints = 5 groepen 7 8 3
-quintielen -quintielen De afstanden tussen de gemiddelden van de lengte zijn niet helemaal gelijk. Daarom gebruiken we Glen5 en niet Len5. Let op: de x-schaal is categorisch! 9 quintielen Model met quintiel-groepen (Q,,Q5 zijn dummy var.) gewicht = β + β Q + β Q3 + β 3 Q4 + β 4 Q5 Lineair, kwadratisch, kubisch? Vergelijk de fit van verschillende modellen. Model Summary. gewicht = β + β lengte + β lengte + β 3 lengte 3 R Adjusted R Square Std. Error of the Estimate Unstandardized. gewicht = β + β lengte + β lengte a..56 a.56.98 Predictors: (Constant), q5, q4, q3, q (Constant) B Std. Error t Sig. 8.774.883 4.886. 3. gewicht = β + β lengte q.65.684.65.54 q3 5.797.83.68.4 q4.666.893 3.686. q5 8.86.893 6.56. Lineair, kwadratisch, kubisch? Lineair, kwadratisch, kubisch?. gewicht = β + β lengte + β lengte + β 3 lengte 3 Unstandardized Model a. b. Variables Entered/Removed b Variables Entered Variables Removed Method lengte3, lengte a. Enter Tolerance =. limits reached. Dependent Variable: gewicht Wat is er aan de hand? Probleem: collineariteit tussen de drie variablelen Mogelijke oplossing: centreren : vervang LENGTE door LENGTE-75 B Std. Error t Sig. (Constant) 85.688.96 78.8. len.895.99 4.496. len....39 len3-6.3e-5. -.7.944 (Constant) 85.696.85 78.95. len.884.3 6.773. Model Summary Adjusted Std. Error of R R Square the Estimate.5.55.988 len...9.35.5.6.949 a Unstandardized Standardized (Constant) len 86.87.9 93.638..94.7 7.86..55.6.95 Model B Std. Error Beta t Sig. (Constant) lengte lengte3 73.369 4.679.77.474 -.9.55 -.67 -.58.563.5E-5..89.7.36 gewicht = 86,3 +,9 (lengte-75) = -73,7 +,9 lengte a. Dependent Variable: gewicht 3 4 4
Residuele plot van kubische model PP-plot kubische model 5 Standaard bij regressie in SPSS. Ik gebruik bij voorkeur de QQ-plot 6 QQ-plot kubische model QQ-plot kubische model voor ln(gewicht) De gebogen vorm is karakteristiek voor log-normale verdeling. Laten we de loggewichten proberen 7 Dit is duidelijk beter. 8 Meer flexibele modellen Meer flexibele modellen Gebruik van polynomiale regressie met termen (X, X, X 3, ) is handig, maar het is niet de enige mogelijkheid. Ook termen als X /, X /4, kunnen gebruikt worden ( fractionele polynomen ). Of log(x), sin(x) Een andere mogelijkheid is het toestaan dat de coefficienten van het gebruikte polynoom in verschillende intervallen van X-waarden verschillend zijn. Dit leidt tot b.v. een stuksgewijze ( piecewise ) lineaire of polynomiale regressie modellen. 9 Aansluiting in knooppunten ( knots, ) is niet vloeiend. 3 5
Splines Splines zijn opgebouwd uit polynomen die wel vloeiend op elkaar aansluiten. Meest populair zijn de kubische splines. De oorspronkelijke betekenis van spline is een lang dun, en dus flexibel, reepje hout. Het werd gebruikt onder andere in scheepsbouw, b.v. om spanten te ontwerpen. vloer van de scheepwef Splines Kubische splines zien er mooi uit omdat de op elkaar aansluitende stukjes in de knooppunt a) een gelijke functiewaarde hebben b) een gelijke eerste afgeleide (raaklijn) hebben c) een gelijke tweede afgeleide hebben. Een kubische spline met k knopen wordt bepaald door k+4 parameters. (Een kubische polynoom heeft 4 parameters; per knoop zijn 3 voorwaarden - zie boven. Er zijn dus 4(k+)-3k = k+4 parameters.) 3 3 Lineaire spline met twee knopen a en b y = β + β x + β ( x a) ( X > a) + β ( x b) ( X > b) 3 Kubische spline met drie knopen a, b en c f ( X ) = β + β X + β X + β X 3 3 3 3 3 4 ( X a) + 5 ( X b) + 6 ( X c) + + β + β + β β ( x a) ( X > a) β β + x ( X a) = ( X a) ( X > a) + a b β ( x b) ( X > b) 3 Dit kan je in SPSS gebruiken door de zes X-termen via COMPUTE te laten berekenen. Daarna voer je de gewone regressie-analyse uit. Andere pakketten zijn handiger. Met name R of S-plus. 33 34 Er is nog meer te vertellen Voorbeeld: Kyfose en logistische regressie De zo net beschreven splines gedragen zich soms niet helemaal netjes in de staarten. Daarom kiest men ervoor om de eindstukken niet kubisch maar lineair te modeleren. Het resultaat heet restricted spline, of natuurlijke spline. Deze spline heeft k parameters. De keuze van het aantal en de positie van de knopen is een verhaal apart. Data van 8 geopereerde kinderen. Vraag: Is er een relatie tussen enerzijds - het aanwezig zijn van de postoperatieve kyfose en anderzijds - de leeftijd (in maanden) en - het volgorde-nummer ( start ) van de geopereerde wervel Naast de geschetste regressie-splines bestaan er ook (niet-parametrische) smoothing splines. 35 36 6
Data kyfose Logistische regressie Age 5 5 Start 5 5 e P( kyfose) = + e b + f ( age) + f ( start) b + f ( age) + f ( start) Zoeken naar passende functies f en f : gebruik splines absent Kyphosis present absent Kyphosis present 37 38 Age in quintiel groepen Logistische regressie met kubische splines.6 f f.5 propotion with kyphosis.4.3. s(age) - -4-6 s(start) -5 -. 5 5 5 5. Age Start 5 5 age 39 Kies op basis hiervan een eenvoudige parametrische vorm 4 Vereenvoudiging Het uiteindelijke model poly(age, ) - -4-6 5 5 Age I((Start - ) * (Start > )) 4 - -4-6 -8 5 5 Start Std. Value Error t value (Intercept).695.496.4 I((Age - )/) -.7.97 -.8 I(((Age - )/)^) -3.843.846 -.8 I((Start - ) * (Start > )) -.35.53 -.63 age age logit( p) =.695.7 3.843.35 ( Start ) ( Start > ) age + age ( start )*( start > ) 4 4 7
Conclusie Volgende Help! Statistiek! lezing: Eerst tekenen dan rekenen Begin met niet-parametrische modellen (deze leveren geen model-formule op): - verdelen in b.v. quintielgroepen - loess- of smoothing splines fit daarna parametrische modellen: - regressie-splines - (fractionele-) polynomen software: - SPSS (beperkte mogelijkheden) - S-plus (campus licentie) of R (vrij: GNU) - woensdag 6 januari 8, -3 uur Overeenstemming Handouts van deze presentatie komen te staan in Download Area op http://www.rug.nl/umcg/faculteit/disciplinegroepen/epidemiologie 43 44 8