Missing Data in Clinical Trials. Kristien Wouters Statisticus - Onderzoekscel

Transcriptie

1 Missing Data in Clinical Trials Kristien Wouters Statisticus - Onderzoekscel

2 Overzicht Inleidend voorbeeld Missing data proces Missing data mechanisme Missing data patroon Methoden voor behandeling van missing data Vroeger Nu... Samenvatting en Conclusie

4 Inleiding: Voorbeeld Vergelijking behandeling A met B Power berekening: 50 patiënten per groep nodig 20% lost to follow-up

5 Inleiding: Voorbeeld Vergelijking behandeling A met B Power berekening: 50 patiënten per groep nodig 20% lost to follow-up Reductie van de power

6 Inleiding: Voorbeeld Vergelijking behandeling A met B Power berekening: 50 patiënten per groep nodig 20% lost to follow-up Reductie van de power Reductie van de variabiliteit Vertekend resultaat (bias)!

7 Redenen voor missing data Vraag niet ingevuld door patiënt Patiënt is verhuisd, niet meer bereikbaar Patiënt stopt met de studie Patientgerelateerd Overlijden patiënt Fout in labo waarden Machine stuk Niet patientgerelateerd

8 Redenen voor missing data Vraag niet ingevuld door patiënt Patiënt is verhuisd, niet meer bereikbaar Patiënt stopt met de studie Patientgerelateerd Overlijden patiënt Fout in labo waarden Machine stuk Niet patientgerelateerd Missing data mechanisme

9 Missing Data Mechanismen X variabelen zonder missings? M missing data proces Y variabelen met missings?

10 Missing Completely at Random (MCAR) Kans op ontbrekende waarde is onafhankelijk van alle andere geobserveerde en ongeobserveerde variabelen Patienten met/zonder missing data zijn een random steekproef van de populatie X MCAR M P (M Y, X) = P (M) Y

11 Voorbeeld: Bloeddruk studie Verloop van bloeddruk over de tijd 30 patiënten, maandelijkse meting Januari: Metingen voor alle 30 patiënten Februari: Deel van patiënten komen niet opdagen vanwege het slechte weer MCAR

12 Missing at Random (MAR) Kans op ontbrekende waarden hangt af van geobserveerde en niet van ongeobserveerde variabelen Gegeven de geobserveerde variabelen, ontbreken de gegevens random. X MAR M P (M Y, X) = P (M X) Y

13 Voorbeeld: Bloeddruk studie Verloop van bloeddruk over de tijd 30 patiënten, maandelijkse meting Januari: Metingen voor alle 30 patiënten Februari: Patienten die in januari geen hoge bloeddruk hadden komen niet opdagen MAR

14 Missing Not at Random (MNAR) Kans op missing data hangt af van de nietgeobserveerde variabelen. MNAR kan benaderd worden door MAR mechanisme door het verzamelen van extra informatie geassocieerd met de ontbrekende gegevens X MNAR M P (M Y, X) = P (M Y, X) Y

15 Voorbeeld: Bloeddruk studie Verloop van bloeddruk over de tijd 30 patiënten, maandelijkse meting Januari: Metingen voor alle 30 patiënten Februari: Enkel van patiënten met hoge bloeddruk worden de waarden genoteerd. MNAR

16 Voorbeeld: Bloeddruk studie Verloop van bloeddruk over de tijd 30 patiënten, maandelijkse meting Simulatie data van 30 patienten Gemiddelde BD: μ X = μ Y = 125 Standaard Deviatie: σ X = σ Y = 25 Correlatie ρ X,Y = 0.6

17 Voorbeeld: Bloeddruk studie Gemiddelde Januari Gemiddelde Februari SD Januari 23.0 SD Februari 24.7 Correlatie 0.57

18 Voorbeeld: Bloeddruk studie

21 Missing data in longitudinale studies Herhaalde metingen: Z 1, Z 2, Z p MCAR: Ontbreken van gegevens hangt niet af van scores in het verleden, heden en toekomst MAR: Ontbreken van gegevens hangt enkel af van het verleden (niet van heden en toekomst) MNAR: Ontbreken van gegevens hangt af van heden en/of toekomst

22 Missing data patroon Unit non response ID X1 X2 X3 X4 X5 X6 X7 X8 X Item non response ID X1 X2 X3 X4 X5 X6 X7 X8 X

23 Missing data patroon Univariaat Monotoon Willekeurig ID X1 X2 X3 X4 X5 X6 X7 X8 X ID X1 X2 X3 X4 X5 X6 X7 X8 X ID X1 X2 X3 X4 X5 X6 X7 X8 X

24 Identificatie missing data mechanisme en patroon Redenen van missingness bepaalt het missing data proces Verzamelen van gegevens over ontbrekende waarden is essentieel Niet alle statistische methoden geven unbiased resultaten onder alle missingness processen!

26 Statistische Methoden voor Missing Data Vroeger: Complete/Available case analysis Single imputation Mean/Median imputation Hot/Cold deck imputation Regression imputation Worst case analyse Last observation carried forward

27 Complete Case Analysis Enkel de patiënten zonder ontbrekende gegevens worden geïncludeerd in de analyse ( listwise deletion ) Default in veel statistische software pakketten (SPSS) Voordelen Eenvoudig Alle standaard technieken zijn toepasbaar Nadelen Verlies van power Biased testresultaten (tenzij MCAR)

28 Voorbeeld: Bloeddruk studie Complete Case

29 Voorbeeld: Bloeddruk studie Complete Case Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) SD Februari (σ Y = 25) Correlatie (ρ X,Y = 0.6)

30 Simulatie-studie Schafer & Graham (2002) Genereer 1000 datasets met telkens 50 patienten volgens zelfde verdeling als bloeddruk studie Gemiddelde: μ X = μ Y = 125 Standaard Deviatie: σ X = σ Y = 25 Correlatie ρ X,Y = 0.6 Missingness: 70 % MCAR: willekeurig MAR: enkel hoge waarden voor X MNAR: enkel hoge waarden voor Y

31 Resultaat simulatie studie Complete case analyse Parameter schattingen: over 1000 simulaties Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Schafer & Graham (2002)

32 Resultaat simulatie studie Complete case analyse Parameter schattingen: over 1000 simulaties Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Betrouwbaarheid? 95% confidentieintervallen Coverage: Percentage van de 95%CI s die echte waarde bevatten Als data volledig: Coverage = 95%

33 Resultaat simulatie studie Complete case analyse Parameter schattingen Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Coverage (Percentage van de 95%CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Schafer & Graham (2002)

34 Single Imputation De ontbrekende waarden worden vervangen door een goede schatting Resultaat: dataset zonder missing data Voorbeelden: Mean/Median imputation Hot/Cold deck imputation Last observation carried forward Worst case analyse Regression imputation

35 Single Imputation: Mean/Median imputation Ontbrekende gegevens worden vervangen door het gemiddelde of de mediaan van de geobserveerde data voor deze variabele Voordelen Alle patiënten worden geïncludeerd in de analyse Standaard technieken zijn toepasbaar op geïmputeerde data Nadelen Biased estimates (tenzij MCAR) Onderschatting van de variantie (ook bij MCAR!)

36 Voorbeeld: Bloeddruk studie Mean Imputation Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) SD Februari (σ Y = 25) Correlatie (ρ X,Y = 0.6)

37 Resultaat simulatie studie Mean imputation Parameter schattingen Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Coverage (Percentage van de 95%CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Schafer & Graham (2002)

38 Single Imputation: Hot deck imputation Vervang ontbrekende gegevens door waarde van andere (gelijkaardige) patiënt in de studie Voordelen Geen veronderstellingen over verdeling of model vereist Nadelen Bias als niet MCAR (geimputeerde data is enkel afkomstig van volledige patiënten) Vereist grote sample size, met weinig missing data Onderschatting van de variantie

39 Voorbeeld: Bloeddruk studie Hot Deck imputation Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) SD Februari (σ Y = 25) Correlatie (ρ X,Y = 0.6)

40 Resultaat simulatie studie Hot deck imputation Parameter schattingen Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Coverage (Percentage van de 95%CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Schafer & Graham (2002)

41 Single Imputation: Regression imputation (Lineair) regressiemodel wordt gefit voor geobserveerde data en gebruikt om een voorspelling te doen voor ontbrekende gegevens Voordelen Goede predictie van de ontbrekende waarden als regressiemodel sterk is. Nadelen Onderschatting van de variantie Overschatting van relatie tussen de variabelen

42 Voorbeeld: Bloeddruk studie Regression Imputation Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) SD Februari (σ Y = 25) Correlatie (ρ X,Y = 0.6)

43 Resultaat simulatie studie Regression Imputation Parameter schattingen Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Coverage (Percentage van de 95%CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Schafer & Graham (2002)

44 Single Imputation: Stochastic regression imputation De ontbrekende gegevens worden vervangen door voorspelde waarden uit het regressiemodel + error term Voordelen Onzekerheid op de voorspelde waarden wordt voor een deel in rekening gebracht Betere schatting van de variantie Nadelen Sterke afhankelijkheid van het gekozen model

45 Voorbeeld: Bloeddruk studie Stochastic Regression Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) SD Februari (σ Y = 25) Correlatie (ρ X,Y = 0.6)

46 Resultaat simulatie studie Stochastic regression Parameter schattingen Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Coverage (Percentage van de 95% CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Schafer & Graham (2002)

47 Single Imputation: Worst case analysis In geval van ontbrekende outcome Vervang ontbrekende waarde door slechtste scenario (bv overlijden voor binaire survival outcome) Doel: aantonen dat censoring geen invloed heeft op de studieresultaten

48 Single Imputation: Last Observation Carried Forward In longitudinale studies Laatste geobserveerde waarde wordt geïmputeerd voor alle daaropvolgende ontbrekende waarden van deze patiënt

49 Single Imputation: Last Observation Carried Forward In longitudinale studies Laatste geobserveerde waarde wordt geïmputeerd voor alle daaropvolgende ontbrekende waarden van deze patiënt

50 Single Imputation Summary Voordelen Eenvoudig Analyse met standaard statistische technieken Nadelen Imputatie kan bias veroorzaken onder alle missing data mechanismen Onderschatting van de variantie

51 Statistische Methoden voor Missing Data Vroeger: Complete/Available case analysis Single imputation Mean/Median imputation Hot/Cold deck imputation Last observation carried forward Worst case analyse Regression imputation MCAR

52 Statistische Methoden voor Missing Data Vroeger: Nu: Complete/Available case analysis Single imputation Mean/Median imputation Hot/Cold deck imputation Last observation carried forward Worst case analyse Regression imputation Multiple imputation Likelihood based methode Selectie modellen Pattern mixture modellen MCAR MAR MNAR

53 Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden

54 Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Originele data Imputed Data 2 Imputed Data 3

55 Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Imputed Data 2 Analyse 2 Imputed Data 3 Analyse 3

56 Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Imputed Data 2 Analyse 2 Totaal Resultaat Imputed Data 3 Analyse 3

57 Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Stap 1 Imputed Data 2 Analyse 2 Totaal Resultaat Imputed Data 3 Analyse 3

58 MI Stap 1: Imputation Eenvoudige missingness patronen/ Monotone missingness Parametrisch: Regressie model Cfr. Stochastic regression imputation Niet-parametrisch: Propensity scores Propensity score berekend met logistisch regressiemodel voor kans op missing Verdeel data in groepen op basis van propensity scores Trek random sample uit groep voor ontbrekende waarden

59 MI Stap 1: Imputation Eenvoudige missingness patronen/ Monotone missingness Parametrisch: Regressie model Cfr. Stochastic regression imputation Niet-parametrisch: Propensity scores Propensity score berekend met logistisch regressiemodel voor kans op missing Verdeel data in groepen op basis van propensity scores Trek random sample uit groep voor ontbrekende waarden Selectie van predictoren Relevante parameters voor onderzoeksvraag Parameters die gerelateerd zijn aan het optreden van missing

60 MI Stap 1: Imputation Willekeurige missingness: MCMC methode Step 0: Schat gemiddelde en covariantiematrix (bv met complete case analysis) Imputation step: simuleer data op basis van geschat gemiddelde en covariantiematrix Posterior step: Schat gemiddelde en covariantiematrix op basis van (geimputeerde) data Herhaal tot convergentie

61 MI Stap 1: Imputation Hoeveel imputaties (m) nodig? 3 à 10 is voldoende Efficientie = (1+λ/m) -1 Rubin (1987) Waarbij λ = percentage missingness Bv 25% missing, m = 5 efficientie = 95%

62 Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Stap 1 Imputed Stap 2 Data 2 Analyse 2 Totaal Resultaat Imputed Data 3 Analyse 3

63 MI Stap 2: Analyse Voer standaard statistische analyse uit op elke geïmputeerde dataset Lineaire Regressie Logistische Regressie Cox Proportional Hazards Model Mixed Effects Model Parameter schattingen: Q (1), Q (2),, Q (m) Varianties: U (1), U (2),, U (m)

64 Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Stap 1 Imputed Stap 2 Analyse Stap 3 Data 2 2 Totaal Resultaat Imputed Data 3 Analyse 3

65 MI Stap 3: Pool resultaten Combineer parameter schattingen tot globale parameter schatting: Variabiliteit: Gemiddelde within-imputation variabiliteit Between-imputation variabiliteit Totale variabiliteit

66 Multiple Imputation Voordelen: Intuitief Unbiased parameter schattingen onder MAR en MCAR Rekening houdend met natuurlijke variabiliteit + variabiliteit door onzekerheid van schattingen Gebruiksvriendelijke software R: library mice SAS: PROC MI en PROC MIANALYZE SPSS: Add-on Missing Values STATA: mi impute, ICE

67 Bloeddruk studie: Multiple Imputation ID Bloeddruk_visit1 Bloeddruk_visit library(mice)

68 Bloeddruk studie: Multiple Imputation ID Bloeddruk_visit1 Bloeddruk_visit library(mice) imp <- mice(data, method="norm", m=10) fitmean <- with(imp, mean(bdfeb)) fitreg <- with(imp, lm(bdfeb~bdjan)) est <- pool(fitreg)

69 Bloeddruk studie: Multiple Imputation ID Bloeddruk_visit1 Bloeddruk_visit PROC MI DATA=BDdata OUT = impdata NIMPUTE = 10; VAR BDjan BDfeb; MONOTONE; RUN; PROC MEANS DATA=impdata; VAR BDjan BDFeb; BY _imputation_; RUN; PROC REG DATA=impdata OUTEST=outreg COVOUT; MODEL BDFeb = BDJan; BY _imputation_; RUN; PROC MIANALYZE DATA=outreg; MODELEFFECTS Intercept BDJan; RUN;

70 Bloeddruk studie: Multiple Imputation ID Bloeddruk_visit1 Bloeddruk_visit m = 10

71 Bloeddruk studie: Multiple Imputation Imp Gem Var Gemiddelde? M = Variantie? Within Imputatie U = Between Imputatie B = 32.3 Totale Variantie T = U + B*(1+1/10) = Standaard Deviatie? SD = 25.9

72 Bloeddruk studie: Multiple Imputation Lineaire regressie Imp Beta SE Regressie Coefficiënt? β = 0.29 Standard error? 0.23

73 Resultaat simulatie studie Multiple Imputation Parameter schattingen Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Coverage (Percentage van de 95% CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Schafer & Graham (2002)

74 Likelihood based methoden Voor grote datasets kan MI zeer traag en computerintensief worden Alternatief: Likelihood based methoden Specifieer model voor outcome en missing proces MAR/MCAR: Parameters in outcome model zijn niet betrokken in missingness proces en missingness model hoeft dus niet gespecifieerd te worden EM algoritme: E-step: Schatting log-likelihood op basis van gemiddelde en covariantie matrix M-step: Maximaliseer log-likelihood Herhaal stap E en M tot convergentie

75 Likelihood based methoden Software SAS: PROC MIXED, PROC NLMIXED, PROC MI R: library lme4 SPSS: vanaf versie 12 mixed models Stata: xtmixed

76 Resultaat simulatie studie Maximum Likelihood Parameter schattingen Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Coverage (Percentage van de 95% CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = σ Y = ρ X,Y = Schafer & Graham (2002)

77 Wat bij MNAR? Modelleren van gezamenlijke verdeling Selectie modellen (Diggle & Kenward, 1994) f(y,x,m) = f(y,x) f(m Y,X) Pattern-mixture modellen (Little, 1993; Hedeker & Gibbons,1997) f(y,x,m) = f(y,x M) f(m)

78 Samenvatting en Conclusie Identificatie missing data proces MCAR MAR MNAR Verzamel gegevens over missingness Modelleer het proces Bij niet MCAR Gebruik Multiple imputation of likelihood based methode! Sensitiviteitsanalyse Voorkomen is beter dan genezen!

79 Referenties Haukoos, J.S., Newgard, C.D. (2007). Advanced statistics: missing data in clinical research part 1: an introduction and conceptual framework. Academic Emergency Medicine, 14, Newgard, C.D., Haukoos, J.S. (2007). Advanced statistics: Missing data in clinical research part 2: Multiple imputation. Academic Emergency Medecine, 14, Schafer, J.L., Graham, J.W. (2002) Missing data: Our view of the state of the art. Psychological methods, 7 (2), Rubin, D.B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley Rubin, D.B. (1996). Multiple imputation after 18+ years. Journal of the American Statistical Association, 91, Little, R.J.A. (1993). Pattern mixture models for multivariate incomplete data. Journal of the American Statistical Association. 88: Diggle, P.J., Kenward, M.G. (1994). Informative dropout in longitudinal data analysis (with discussion). Applied Statistics. 43: 49-93