Missing Data in Clinical Trials Kristien Wouters Statisticus - Onderzoekscel
Overzicht Inleidend voorbeeld Missing data proces Missing data mechanisme Missing data patroon Methoden voor behandeling van missing data Vroeger Nu... Samenvatting en Conclusie
Overzicht Inleidend voorbeeld Missing data proces Missing data mechanisme Missing data patroon Methoden voor behandeling van missing data Vroeger Nu... Samenvatting en Conclusie
Inleiding: Voorbeeld Vergelijking behandeling A met B Power berekening: 50 patiënten per groep nodig 20% lost to follow-up
Inleiding: Voorbeeld Vergelijking behandeling A met B Power berekening: 50 patiënten per groep nodig 20% lost to follow-up Reductie van de power
Inleiding: Voorbeeld Vergelijking behandeling A met B Power berekening: 50 patiënten per groep nodig 20% lost to follow-up Reductie van de power Reductie van de variabiliteit Vertekend resultaat (bias)!
Redenen voor missing data Vraag niet ingevuld door patiënt Patiënt is verhuisd, niet meer bereikbaar Patiënt stopt met de studie Patientgerelateerd Overlijden patiënt Fout in labo waarden Machine stuk Niet patientgerelateerd
Redenen voor missing data Vraag niet ingevuld door patiënt Patiënt is verhuisd, niet meer bereikbaar Patiënt stopt met de studie Patientgerelateerd Overlijden patiënt Fout in labo waarden Machine stuk Niet patientgerelateerd Missing data mechanisme
Missing Data Mechanismen X variabelen zonder missings? M missing data proces Y variabelen met missings?
Missing Completely at Random (MCAR) Kans op ontbrekende waarde is onafhankelijk van alle andere geobserveerde en ongeobserveerde variabelen Patienten met/zonder missing data zijn een random steekproef van de populatie X MCAR M P (M Y, X) = P (M) Y
Voorbeeld: Bloeddruk studie Verloop van bloeddruk over de tijd 30 patiënten, maandelijkse meting Januari: Metingen voor alle 30 patiënten Februari: Deel van patiënten komen niet opdagen vanwege het slechte weer MCAR
Missing at Random (MAR) Kans op ontbrekende waarden hangt af van geobserveerde en niet van ongeobserveerde variabelen Gegeven de geobserveerde variabelen, ontbreken de gegevens random. X MAR M P (M Y, X) = P (M X) Y
Voorbeeld: Bloeddruk studie Verloop van bloeddruk over de tijd 30 patiënten, maandelijkse meting Januari: Metingen voor alle 30 patiënten Februari: Patienten die in januari geen hoge bloeddruk hadden komen niet opdagen MAR
Missing Not at Random (MNAR) Kans op missing data hangt af van de nietgeobserveerde variabelen. MNAR kan benaderd worden door MAR mechanisme door het verzamelen van extra informatie geassocieerd met de ontbrekende gegevens X MNAR M P (M Y, X) = P (M Y, X) Y
Voorbeeld: Bloeddruk studie Verloop van bloeddruk over de tijd 30 patiënten, maandelijkse meting Januari: Metingen voor alle 30 patiënten Februari: Enkel van patiënten met hoge bloeddruk worden de waarden genoteerd. MNAR
Voorbeeld: Bloeddruk studie Verloop van bloeddruk over de tijd 30 patiënten, maandelijkse meting Simulatie data van 30 patienten Gemiddelde BD: μ X = μ Y = 125 Standaard Deviatie: σ X = σ Y = 25 Correlatie ρ X,Y = 0.6
Voorbeeld: Bloeddruk studie Gemiddelde Januari 125.7 Gemiddelde Februari 121.9 SD Januari 23.0 SD Februari 24.7 Correlatie 0.57
Voorbeeld: Bloeddruk studie
Voorbeeld: Bloeddruk studie
Voorbeeld: Bloeddruk studie
Missing data in longitudinale studies Herhaalde metingen: Z 1, Z 2, Z p MCAR: Ontbreken van gegevens hangt niet af van scores in het verleden, heden en toekomst MAR: Ontbreken van gegevens hangt enkel af van het verleden (niet van heden en toekomst) MNAR: Ontbreken van gegevens hangt af van heden en/of toekomst
Missing data patroon Unit non response ID X1 X2 X3 X4 X5 X6 X7 X8 X9 1 2 3 4 5 6 Item non response ID X1 X2 X3 X4 X5 X6 X7 X8 X9 1 2 3 4 5 6
Missing data patroon Univariaat Monotoon Willekeurig ID X1 X2 X3 X4 X5 X6 X7 X8 X9 1 2 3 4 5 6 ID X1 X2 X3 X4 X5 X6 X7 X8 X9 1 2 3 4 5 6 ID X1 X2 X3 X4 X5 X6 X7 X8 X9 1 2 3 4 5 6
Identificatie missing data mechanisme en patroon Redenen van missingness bepaalt het missing data proces Verzamelen van gegevens over ontbrekende waarden is essentieel Niet alle statistische methoden geven unbiased resultaten onder alle missingness processen!
Overzicht Inleidend voorbeeld Missing data proces Missing data mechanisme Missing data patroon Methoden voor behandeling van missing data Vroeger Nu... Samenvatting en Conclusie
Statistische Methoden voor Missing Data Vroeger: Complete/Available case analysis Single imputation Mean/Median imputation Hot/Cold deck imputation Regression imputation Worst case analyse Last observation carried forward
Complete Case Analysis Enkel de patiënten zonder ontbrekende gegevens worden geïncludeerd in de analyse ( listwise deletion ) Default in veel statistische software pakketten (SPSS) Voordelen Eenvoudig Alle standaard technieken zijn toepasbaar Nadelen Verlies van power Biased testresultaten (tenzij MCAR)
Voorbeeld: Bloeddruk studie Complete Case
Voorbeeld: Bloeddruk studie Complete Case Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) 121.9 108.6 138.3 153.4 SD Februari (σ Y = 25) 24.7 25.1 21.1 7.5 Correlatie (ρ X,Y = 0.6) 0.57 0.95 0.19 0.41
Simulatie-studie Schafer & Graham (2002) Genereer 1000 datasets met telkens 50 patienten volgens zelfde verdeling als bloeddruk studie Gemiddelde: μ X = μ Y = 125 Standaard Deviatie: σ X = σ Y = 25 Correlatie ρ X,Y = 0.6 Missingness: 70 % MCAR: willekeurig MAR: enkel hoge waarden voor X MNAR: enkel hoge waarden voor Y
Resultaat simulatie studie Complete case analyse Parameter schattingen: over 1000 simulaties Parameter MCAR MAR MNAR μ Y = 125 125.0 143.3 155.5 σ Y = 25 24.6 20.9 12.2 ρ X,Y = 0.6 0.59 0.33 0.34 Schafer & Graham (2002)
Resultaat simulatie studie Complete case analyse Parameter schattingen: over 1000 simulaties Parameter MCAR MAR MNAR μ Y = 125 125.0 143.3 155.5 σ Y = 25 24.6 20.9 12.2 ρ X,Y = 0.6 0.59 0.33 0.34 Betrouwbaarheid? 95% confidentieintervallen Coverage: Percentage van de 95%CI s die echte waarde bevatten Als data volledig: Coverage = 95%
Resultaat simulatie studie Complete case analyse Parameter schattingen Parameter MCAR MAR MNAR μ Y = 125 125.0 143.3 155.5 σ Y = 25 24.6 20.9 12.2 ρ X,Y = 0.6 0.59 0.33 0.34 Coverage (Percentage van de 95%CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = 125 94.3 18.8 0.0 σ Y = 25 94.3 90.7 17.4 ρ X,Y = 0.6 95.4 82.5 82.7 Schafer & Graham (2002)
Single Imputation De ontbrekende waarden worden vervangen door een goede schatting Resultaat: dataset zonder missing data Voorbeelden: Mean/Median imputation Hot/Cold deck imputation Last observation carried forward Worst case analyse Regression imputation
Single Imputation: Mean/Median imputation Ontbrekende gegevens worden vervangen door het gemiddelde of de mediaan van de geobserveerde data voor deze variabele Voordelen Alle patiënten worden geïncludeerd in de analyse Standaard technieken zijn toepasbaar op geïmputeerde data Nadelen Biased estimates (tenzij MCAR) Onderschatting van de variantie (ook bij MCAR!)
Voorbeeld: Bloeddruk studie Mean Imputation Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) 121.9 108.6 138.3 153.4 SD Februari (σ Y = 25) 24.7 11.4 9.6 3.4 Correlatie (ρ X,Y = 0.6) 0.57 0.57 0.04 0.17
Resultaat simulatie studie Mean imputation Parameter schattingen Parameter MCAR MAR MNAR μ Y = 125 125.1 143.5 155.5 σ Y = 25 12.3 10.6 6.2 ρ X,Y = 0.6 0.30 0.08 0.15 Coverage (Percentage van de 95%CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = 125 39.2 0.2 0.0 σ Y = 25 0.7 0.1 0.0 ρ X,Y = 0.6 25.5 0.0 2.2 Schafer & Graham (2002)
Single Imputation: Hot deck imputation Vervang ontbrekende gegevens door waarde van andere (gelijkaardige) patiënt in de studie Voordelen Geen veronderstellingen over verdeling of model vereist Nadelen Bias als niet MCAR (geimputeerde data is enkel afkomstig van volledige patiënten) Vereist grote sample size, met weinig missing data Onderschatting van de variantie
Voorbeeld: Bloeddruk studie Hot Deck imputation Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) 121.9 106.6 136.7 153.1 SD Februari (σ Y = 25) 24.7 24.0 19.5 6.9 Correlatie (ρ X,Y = 0.6) 0.57 0.37 0.16 0.07
Resultaat simulatie studie Hot deck imputation Parameter schattingen Parameter MCAR MAR MNAR μ Y = 125 125.2 143.5 155.5 σ Y = 25 23.4 20.0 11.7 ρ X,Y = 0.6 0.16 0.04 0.08 Coverage (Percentage van de 95%CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = 125 60.0 2.4 0.0 σ Y = 25 63.7 45.3 1.7 ρ X,Y = 0.6 5.5 0.0 0.5 Schafer & Graham (2002)
Single Imputation: Regression imputation (Lineair) regressiemodel wordt gefit voor geobserveerde data en gebruikt om een voorspelling te doen voor ontbrekende gegevens Voordelen Goede predictie van de ontbrekende waarden als regressiemodel sterk is. Nadelen Onderschatting van de variantie Overschatting van relatie tussen de variabelen
Voorbeeld: Bloeddruk studie Regression Imputation Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) 121.9 112.1 127.4 151.5 SD Februari (σ Y = 25) 24.7 18.3 12.3 4.6 Correlatie (ρ X,Y = 0.6) 0.57 0.98 0.65 0.73
Resultaat simulatie studie Regression Imputation Parameter schattingen Parameter MCAR MAR MNAR μ Y = 125 125.2 124.9 151.6 σ Y = 25 18.2 20.4 8.42 ρ X,Y = 0.6 0.79 0.64 0.55 Coverage (Percentage van de 95%CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = 125 58.5 25.7 0.0 σ Y = 25 31.3 30.0 0.7 ρ X,Y = 0.6 21.7 19.6 37.6 Schafer & Graham (2002)
Single Imputation: Stochastic regression imputation De ontbrekende gegevens worden vervangen door voorspelde waarden uit het regressiemodel + error term Voordelen Onzekerheid op de voorspelde waarden wordt voor een deel in rekening gebracht Betere schatting van de variantie Nadelen Sterke afhankelijkheid van het gekozen model
Voorbeeld: Bloeddruk studie Stochastic Regression Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) 121.9 110.8 124.0 150.4 SD Februari (σ Y = 25) 24.7 18.8 20.7 6.9 Correlatie (ρ X,Y = 0.6) 0.57 0.93 0.58 0.55
Resultaat simulatie studie Stochastic regression Parameter schattingen Parameter MCAR MAR MNAR μ Y = 125 125.1 124.8 151.6 σ Y = 25 24.7 27.0 12.9 ρ X,Y = 0.6 0.59 0.50 0.38 Coverage (Percentage van de 95% CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = 125 71.0 32.3 0.0 σ Y = 25 65.4 49.4 4.4 ρ X,Y = 0.6 65.0 40.7 50.0 Schafer & Graham (2002)
Single Imputation: Worst case analysis In geval van ontbrekende outcome Vervang ontbrekende waarde door slechtste scenario (bv overlijden voor binaire survival outcome) Doel: aantonen dat censoring geen invloed heeft op de studieresultaten
Single Imputation: Last Observation Carried Forward In longitudinale studies Laatste geobserveerde waarde wordt geïmputeerd voor alle daaropvolgende ontbrekende waarden van deze patiënt
Single Imputation: Last Observation Carried Forward In longitudinale studies Laatste geobserveerde waarde wordt geïmputeerd voor alle daaropvolgende ontbrekende waarden van deze patiënt
Single Imputation Summary Voordelen Eenvoudig Analyse met standaard statistische technieken Nadelen Imputatie kan bias veroorzaken onder alle missing data mechanismen Onderschatting van de variantie
Statistische Methoden voor Missing Data Vroeger: Complete/Available case analysis Single imputation Mean/Median imputation Hot/Cold deck imputation Last observation carried forward Worst case analyse Regression imputation MCAR
Statistische Methoden voor Missing Data Vroeger: Nu: Complete/Available case analysis Single imputation Mean/Median imputation Hot/Cold deck imputation Last observation carried forward Worst case analyse Regression imputation Multiple imputation Likelihood based methode Selectie modellen Pattern mixture modellen MCAR MAR MNAR
Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden
Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Originele data Imputed Data 2 Imputed Data 3
Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Imputed Data 2 Analyse 2 Imputed Data 3 Analyse 3
Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Imputed Data 2 Analyse 2 Totaal Resultaat Imputed Data 3 Analyse 3
Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Stap 1 Imputed Data 2 Analyse 2 Totaal Resultaat Imputed Data 3 Analyse 3
MI Stap 1: Imputation Eenvoudige missingness patronen/ Monotone missingness Parametrisch: Regressie model Cfr. Stochastic regression imputation Niet-parametrisch: Propensity scores Propensity score berekend met logistisch regressiemodel voor kans op missing Verdeel data in groepen op basis van propensity scores Trek random sample uit groep voor ontbrekende waarden
MI Stap 1: Imputation Eenvoudige missingness patronen/ Monotone missingness Parametrisch: Regressie model Cfr. Stochastic regression imputation Niet-parametrisch: Propensity scores Propensity score berekend met logistisch regressiemodel voor kans op missing Verdeel data in groepen op basis van propensity scores Trek random sample uit groep voor ontbrekende waarden Selectie van predictoren Relevante parameters voor onderzoeksvraag Parameters die gerelateerd zijn aan het optreden van missing
MI Stap 1: Imputation Willekeurige missingness: MCMC methode Step 0: Schat gemiddelde en covariantiematrix (bv met complete case analysis) Imputation step: simuleer data op basis van geschat gemiddelde en covariantiematrix Posterior step: Schat gemiddelde en covariantiematrix op basis van (geimputeerde) data Herhaal tot convergentie
MI Stap 1: Imputation Hoeveel imputaties (m) nodig? 3 à 10 is voldoende Efficientie = (1+λ/m) -1 Rubin (1987) Waarbij λ = percentage missingness Bv 25% missing, m = 5 efficientie = 95%
Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Stap 1 Imputed Stap 2 Data 2 Analyse 2 Totaal Resultaat Imputed Data 3 Analyse 3
MI Stap 2: Analyse Voer standaard statistische analyse uit op elke geïmputeerde dataset Lineaire Regressie Logistische Regressie Cox Proportional Hazards Model Mixed Effects Model Parameter schattingen: Q (1), Q (2),, Q (m) Varianties: U (1), U (2),, U (m)
Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Stap 1 Imputed Stap 2 Analyse Stap 3 Data 2 2 Totaal Resultaat Imputed Data 3 Analyse 3
MI Stap 3: Pool resultaten Combineer parameter schattingen tot globale parameter schatting: Variabiliteit: Gemiddelde within-imputation variabiliteit Between-imputation variabiliteit Totale variabiliteit
Multiple Imputation Voordelen: Intuitief Unbiased parameter schattingen onder MAR en MCAR Rekening houdend met natuurlijke variabiliteit + variabiliteit door onzekerheid van schattingen Gebruiksvriendelijke software R: library mice SAS: PROC MI en PROC MIANALYZE SPSS: Add-on Missing Values STATA: mi impute, ICE
Bloeddruk studie: Multiple Imputation ID Bloeddruk_visit1 Bloeddruk_visit2 1 169 148 2 426 3 132 4 160 169 5 105 6 116 7 125 8 112 9 133 10 94 11 109 12 109 13 106 14 176 137 15 128 16 131 17 130 18 145 155 19 136 20 146 134 21 111 22 97 23 134 24 153 112 25 118 26 137 27 101 28 103 29 78 30 151 113 library(mice)
Bloeddruk studie: Multiple Imputation ID Bloeddruk_visit1 Bloeddruk_visit2 1 169 148 2 426 3 132 4 160 169 5 105 6 116 7 125 8 112 9 133 10 94 11 109 12 109 13 106 14 176 137 15 128 16 131 17 130 18 145 155 19 136 20 146 134 21 111 22 97 23 134 24 153 112 25 118 26 137 27 101 28 103 29 78 30 151 113 library(mice) imp <- mice(data, method="norm", m=10) fitmean <- with(imp, mean(bdfeb)) fitreg <- with(imp, lm(bdfeb~bdjan)) est <- pool(fitreg)
Bloeddruk studie: Multiple Imputation ID Bloeddruk_visit1 Bloeddruk_visit2 1 169 148 2 426 3 132 4 160 169 5 105 6 116 7 125 8 112 9 133 10 94 11 109 12 109 13 106 14 176 137 15 128 16 131 17 130 18 145 155 19 136 20 146 134 21 111 22 97 23 134 24 153 112 25 118 26 137 27 101 28 103 29 78 30 151 113 PROC MI DATA=BDdata OUT = impdata NIMPUTE = 10; VAR BDjan BDfeb; MONOTONE; RUN; PROC MEANS DATA=impdata; VAR BDjan BDFeb; BY _imputation_; RUN; PROC REG DATA=impdata OUTEST=outreg COVOUT; MODEL BDFeb = BDJan; BY _imputation_; RUN; PROC MIANALYZE DATA=outreg; MODELEFFECTS Intercept BDJan; RUN;
Bloeddruk studie: Multiple Imputation ID Bloeddruk_visit1 Bloeddruk_visit2 1 169 148 2 426 3 132 4 160 169 5 105 6 116 7 125 8 112 9 133 10 94 11 109 12 109 13 106 14 176 137 15 128 16 131 17 130 18 145 155 19 136 20 146 134 21 111 22 97 23 134 24 153 112 25 118 26 137 27 101 28 103 29 78 30 151 113 m = 10
Bloeddruk studie: Multiple Imputation Imp Gem Var 1 134.74 519.71 2 121.86 886.01 3 130.95 446.05 4 123.10 464.44 5 123.42 687.62 6 118.42 597.11 7 133.76 744.04 8 127.86 791.68 9 132.05 544.43 10 123.15 651.40 Gemiddelde? M = 126.9 Variantie? Within Imputatie U = 635.2 Between Imputatie B = 32.3 Totale Variantie T = U + B*(1+1/10) = 670.7 Standaard Deviatie? SD = 25.9
Bloeddruk studie: Multiple Imputation Lineaire regressie Imp Beta SE 1 0.26 0.18 2 0.38 0.23 3 0.07 0.18 4 0.42 0.16 5 0.36 0.20 6 0.35 0.19 7 0.30 0.22 8 0.26 0.23 9 0.09 0.19 10 0.41 0.19 Regressie Coefficiënt? β = 0.29 Standard error? 0.23
Resultaat simulatie studie Multiple Imputation Parameter schattingen Parameter MCAR MAR MNAR μ Y = 125 124.9 125.3 151.6 σ Y = 25 25.9 28.7 13.6 ρ X,Y = 0.6 0.57 0.45 0.35 Coverage (Percentage van de 95% CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = 125 93.5 94.5 1.8 σ Y = 25 93.2 96.1 18.0 ρ X,Y = 0.6 90.8 86.9 90.4 Schafer & Graham (2002)
Likelihood based methoden Voor grote datasets kan MI zeer traag en computerintensief worden Alternatief: Likelihood based methoden Specifieer model voor outcome en missing proces MAR/MCAR: Parameters in outcome model zijn niet betrokken in missingness proces en missingness model hoeft dus niet gespecifieerd te worden EM algoritme: E-step: Schatting log-likelihood op basis van gemiddelde en covariantie matrix M-step: Maximaliseer log-likelihood Herhaal stap E en M tot convergentie
Likelihood based methoden Software SAS: PROC MIXED, PROC NLMIXED, PROC MI R: library lme4 SPSS: vanaf versie 12 mixed models Stata: xtmixed
Resultaat simulatie studie Maximum Likelihood Parameter schattingen Parameter MCAR MAR MNAR μ Y = 125 124.8 125.2 151.6 σ Y = 25 24.2 25.5 12.3 ρ X,Y = 0.6 0.61 0.52 0.39 Coverage (Percentage van de 95% CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = 125 91.2 91.6 0.9 σ Y = 25 86.1 90.2 7.4 ρ X,Y = 0.6 84.2 76.7 89.2 Schafer & Graham (2002)
Wat bij MNAR? Modelleren van gezamenlijke verdeling Selectie modellen (Diggle & Kenward, 1994) f(y,x,m) = f(y,x) f(m Y,X) Pattern-mixture modellen (Little, 1993; Hedeker & Gibbons,1997) f(y,x,m) = f(y,x M) f(m)
Samenvatting en Conclusie Identificatie missing data proces MCAR MAR MNAR Verzamel gegevens over missingness Modelleer het proces Bij niet MCAR Gebruik Multiple imputation of likelihood based methode! Sensitiviteitsanalyse Voorkomen is beter dan genezen!
Referenties Haukoos, J.S., Newgard, C.D. (2007). Advanced statistics: missing data in clinical research part 1: an introduction and conceptual framework. Academic Emergency Medicine, 14, 662 668 Newgard, C.D., Haukoos, J.S. (2007). Advanced statistics: Missing data in clinical research part 2: Multiple imputation. Academic Emergency Medecine, 14, 669 678 Schafer, J.L., Graham, J.W. (2002) Missing data: Our view of the state of the art. Psychological methods, 7 (2), 147 177 Rubin, D.B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley Rubin, D.B. (1996). Multiple imputation after 18+ years. Journal of the American Statistical Association, 91, 473 489. Little, R.J.A. (1993). Pattern mixture models for multivariate incomplete data. Journal of the American Statistical Association. 88: 125 134 Diggle, P.J., Kenward, M.G. (1994). Informative dropout in longitudinal data analysis (with discussion). Applied Statistics. 43: 49-93