Missing Data in Clinical Trials. Kristien Wouters Statisticus - Onderzoekscel



Vergelijkbare documenten
MISSING DATA van gatenkaas naar valide uitkomsten

Missing Data: Multipele Imputatie

Samenvatting Nederlands

Adviseren over onderzoeksmethoden: Ontbrekende waarnemingen, uitbijters en nonrespons

Het analyseren van onvolledige longitudinale gegevens : wat is de invloed van gegevens die we niet hebben?

Bij medisch-wetenschappelijk onderzoek ontbreken

MULTIPELE IMPUTATIE IN VOGELVLUCHT

HOOFDSTUK VII REGRESSIE ANALYSE

9. Multipele imputatie van ontbrekende scores

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

College 2 Enkelvoudige Lineaire Regressie

9. Lineaire Regressie en Correlatie

Inhoud. Data. Analyse van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox

Survival Analyse. Help! Statistiek! Survival Analyse: Overzicht. Voorbeeld: Whiplash onderzoek. Voorbeeld: Intensive Care Unit data

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Classification - Prediction

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

EEN COMBINATIE VAN MULTIPLE IMPUTATION (MI) EN LATENTEKLASSENANALYSE (LC) OM TE CORRIGEREN VOOR MEETFOUT

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

Oplossingen hoofdstuk XI

variantie: achtergronden en berekening

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

11. Multipele Regressie en Correlatie

SPSS. Statistiek : SPSS

College 3 Interne consistentie; Beschrijvend onderzoek

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

Hoofdstuk 8: Multipele regressie Vragen

mlw stroom 2.1: Statistisch modelleren

Principe Maken van een Monte Carlo data-set populatie-parameters en standaarddeviaties standaarddeviatie van de bepaling statistische verdeling

Disclosure Belangen Spreker

Een gegeneraliseerde aanpak voor automatische foutlocalisatie. Sander Scholtus

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Toegepaste data-analyse: oefensessie 2

Help! Statistiek! Groeicurven. Doel van de analyse van de groeicurven. Vergelijken van groeicurven in groepen A en B. Voorbeeld

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

Cursus Statistiek Parametrische en non-parametrische testen. Fellowonderwijs Intensive Care UMC St Radboud

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

1. Reductie van error variantie en dus verhogen van power op F-test

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari uur

Adviseren over onderzoeksmethoden: Het meten en analyseren van verandering

Summary in Dutch 179

Samenvatting (Summary in Dutch)

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Verband tussen twee variabelen

Over het gebruik van continue normering Timo Bechger Bas Hemker Gunter Maris

Gegevensverwerving en verwerking

TYPE EXAMENVRAGEN VOOR TOEGEPASTE STATISTIEK

Item-responstheorie (IRT)

Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data

REACH. Meetgegevens zijn nuttig onder REACH

Inhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen

Hoofdstuk 10: Regressie

INLEIDING EEN OVERZICHT VAN CORRECTIEMETHODEN

Examen G0N34 Statistiek

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Kwantitatieve modellen. Harry B.G. Ganzeboom 18 april 2016 College 1: Meetkwaliteit

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

Beschrijvende statistiek

20. Multilevel lineaire modellen

Simulaties een revolutie in de didactiek van de statistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

Les 1: de normale distributie

Hartpatiënten Stoppen met Roken De invloed van eigen effectiviteit, actieplannen en coping plannen op het stoppen met roken

Wat gaan we doen? Help! Statistiek! Wat is een lineaire relatie? De rechte-lijn-vergelijking: Y = a + b X. Relatie tussen gewicht en lengte

Data analyse Inleiding statistiek

werkcollege 6 - D&P9: Estimation Using a Single Sample

Citation for published version (APA): Agelink van Rentergem Zandvliet, J. A. (2018). Statistical advances in clinical neuropsychology.

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 27 oktober 2010, uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Geautomatiseerde medicatiereviews bij polyfarmacie patiënten in de eerstelijn: een retrospectieve studie Eerstelijnsgeneeskunde (ELG) Radboudumc

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

(slope in het Engels) en het snijpunt met de y-as, b 0

Regression Analysis for Interval-Valued Data

DANKBAARHEID, PSYCHOLOGISCHE BASISBEHOEFTEN EN LEVENSDOELEN 1

Kansrekening en Statistiek

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Single and Multi-Population Mortality Models for Dutch Data

Samenvatting. Inleiding

Biostatistiek en epidemiologie (4sp)

Technische appendix bij DNBulletin Voor lagere werkloosheid is meer economische groei nodig. Variable Coefficient Std. Error t-statistic Prob.

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten

Samenvatting. geweest als de gemaakte keuzes, namelijk opereren. Het model had daarom voor deze patiënten weinig toegevoegde waarde.

De Samenhang tussen Dagelijkse Stress, Emotionele Intimiteit en Affect bij Partners met een. Vaste Relatie

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)

Examen Statistiek I Feedback

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, uur

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

College 6. Samenhang tussen variabelen. Inleiding M&T Hemmo Smit

Methoden van het Wetenschappelijk. Onderzoek. Zin en onzin van statistiek

Voorbeeld regressie-analyse

Gezinsinkomen en kansenongelijkheid Cijfers bij beschouwend artikel Didactief mei 2018

Transcriptie:

Missing Data in Clinical Trials Kristien Wouters Statisticus - Onderzoekscel

Overzicht Inleidend voorbeeld Missing data proces Missing data mechanisme Missing data patroon Methoden voor behandeling van missing data Vroeger Nu... Samenvatting en Conclusie

Overzicht Inleidend voorbeeld Missing data proces Missing data mechanisme Missing data patroon Methoden voor behandeling van missing data Vroeger Nu... Samenvatting en Conclusie

Inleiding: Voorbeeld Vergelijking behandeling A met B Power berekening: 50 patiënten per groep nodig 20% lost to follow-up

Inleiding: Voorbeeld Vergelijking behandeling A met B Power berekening: 50 patiënten per groep nodig 20% lost to follow-up Reductie van de power

Inleiding: Voorbeeld Vergelijking behandeling A met B Power berekening: 50 patiënten per groep nodig 20% lost to follow-up Reductie van de power Reductie van de variabiliteit Vertekend resultaat (bias)!

Redenen voor missing data Vraag niet ingevuld door patiënt Patiënt is verhuisd, niet meer bereikbaar Patiënt stopt met de studie Patientgerelateerd Overlijden patiënt Fout in labo waarden Machine stuk Niet patientgerelateerd

Redenen voor missing data Vraag niet ingevuld door patiënt Patiënt is verhuisd, niet meer bereikbaar Patiënt stopt met de studie Patientgerelateerd Overlijden patiënt Fout in labo waarden Machine stuk Niet patientgerelateerd Missing data mechanisme

Missing Data Mechanismen X variabelen zonder missings? M missing data proces Y variabelen met missings?

Missing Completely at Random (MCAR) Kans op ontbrekende waarde is onafhankelijk van alle andere geobserveerde en ongeobserveerde variabelen Patienten met/zonder missing data zijn een random steekproef van de populatie X MCAR M P (M Y, X) = P (M) Y

Voorbeeld: Bloeddruk studie Verloop van bloeddruk over de tijd 30 patiënten, maandelijkse meting Januari: Metingen voor alle 30 patiënten Februari: Deel van patiënten komen niet opdagen vanwege het slechte weer MCAR

Missing at Random (MAR) Kans op ontbrekende waarden hangt af van geobserveerde en niet van ongeobserveerde variabelen Gegeven de geobserveerde variabelen, ontbreken de gegevens random. X MAR M P (M Y, X) = P (M X) Y

Voorbeeld: Bloeddruk studie Verloop van bloeddruk over de tijd 30 patiënten, maandelijkse meting Januari: Metingen voor alle 30 patiënten Februari: Patienten die in januari geen hoge bloeddruk hadden komen niet opdagen MAR

Missing Not at Random (MNAR) Kans op missing data hangt af van de nietgeobserveerde variabelen. MNAR kan benaderd worden door MAR mechanisme door het verzamelen van extra informatie geassocieerd met de ontbrekende gegevens X MNAR M P (M Y, X) = P (M Y, X) Y

Voorbeeld: Bloeddruk studie Verloop van bloeddruk over de tijd 30 patiënten, maandelijkse meting Januari: Metingen voor alle 30 patiënten Februari: Enkel van patiënten met hoge bloeddruk worden de waarden genoteerd. MNAR

Voorbeeld: Bloeddruk studie Verloop van bloeddruk over de tijd 30 patiënten, maandelijkse meting Simulatie data van 30 patienten Gemiddelde BD: μ X = μ Y = 125 Standaard Deviatie: σ X = σ Y = 25 Correlatie ρ X,Y = 0.6

Voorbeeld: Bloeddruk studie Gemiddelde Januari 125.7 Gemiddelde Februari 121.9 SD Januari 23.0 SD Februari 24.7 Correlatie 0.57

Voorbeeld: Bloeddruk studie

Voorbeeld: Bloeddruk studie

Voorbeeld: Bloeddruk studie

Missing data in longitudinale studies Herhaalde metingen: Z 1, Z 2, Z p MCAR: Ontbreken van gegevens hangt niet af van scores in het verleden, heden en toekomst MAR: Ontbreken van gegevens hangt enkel af van het verleden (niet van heden en toekomst) MNAR: Ontbreken van gegevens hangt af van heden en/of toekomst

Missing data patroon Unit non response ID X1 X2 X3 X4 X5 X6 X7 X8 X9 1 2 3 4 5 6 Item non response ID X1 X2 X3 X4 X5 X6 X7 X8 X9 1 2 3 4 5 6

Missing data patroon Univariaat Monotoon Willekeurig ID X1 X2 X3 X4 X5 X6 X7 X8 X9 1 2 3 4 5 6 ID X1 X2 X3 X4 X5 X6 X7 X8 X9 1 2 3 4 5 6 ID X1 X2 X3 X4 X5 X6 X7 X8 X9 1 2 3 4 5 6

Identificatie missing data mechanisme en patroon Redenen van missingness bepaalt het missing data proces Verzamelen van gegevens over ontbrekende waarden is essentieel Niet alle statistische methoden geven unbiased resultaten onder alle missingness processen!

Overzicht Inleidend voorbeeld Missing data proces Missing data mechanisme Missing data patroon Methoden voor behandeling van missing data Vroeger Nu... Samenvatting en Conclusie

Statistische Methoden voor Missing Data Vroeger: Complete/Available case analysis Single imputation Mean/Median imputation Hot/Cold deck imputation Regression imputation Worst case analyse Last observation carried forward

Complete Case Analysis Enkel de patiënten zonder ontbrekende gegevens worden geïncludeerd in de analyse ( listwise deletion ) Default in veel statistische software pakketten (SPSS) Voordelen Eenvoudig Alle standaard technieken zijn toepasbaar Nadelen Verlies van power Biased testresultaten (tenzij MCAR)

Voorbeeld: Bloeddruk studie Complete Case

Voorbeeld: Bloeddruk studie Complete Case Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) 121.9 108.6 138.3 153.4 SD Februari (σ Y = 25) 24.7 25.1 21.1 7.5 Correlatie (ρ X,Y = 0.6) 0.57 0.95 0.19 0.41

Simulatie-studie Schafer & Graham (2002) Genereer 1000 datasets met telkens 50 patienten volgens zelfde verdeling als bloeddruk studie Gemiddelde: μ X = μ Y = 125 Standaard Deviatie: σ X = σ Y = 25 Correlatie ρ X,Y = 0.6 Missingness: 70 % MCAR: willekeurig MAR: enkel hoge waarden voor X MNAR: enkel hoge waarden voor Y

Resultaat simulatie studie Complete case analyse Parameter schattingen: over 1000 simulaties Parameter MCAR MAR MNAR μ Y = 125 125.0 143.3 155.5 σ Y = 25 24.6 20.9 12.2 ρ X,Y = 0.6 0.59 0.33 0.34 Schafer & Graham (2002)

Resultaat simulatie studie Complete case analyse Parameter schattingen: over 1000 simulaties Parameter MCAR MAR MNAR μ Y = 125 125.0 143.3 155.5 σ Y = 25 24.6 20.9 12.2 ρ X,Y = 0.6 0.59 0.33 0.34 Betrouwbaarheid? 95% confidentieintervallen Coverage: Percentage van de 95%CI s die echte waarde bevatten Als data volledig: Coverage = 95%

Resultaat simulatie studie Complete case analyse Parameter schattingen Parameter MCAR MAR MNAR μ Y = 125 125.0 143.3 155.5 σ Y = 25 24.6 20.9 12.2 ρ X,Y = 0.6 0.59 0.33 0.34 Coverage (Percentage van de 95%CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = 125 94.3 18.8 0.0 σ Y = 25 94.3 90.7 17.4 ρ X,Y = 0.6 95.4 82.5 82.7 Schafer & Graham (2002)

Single Imputation De ontbrekende waarden worden vervangen door een goede schatting Resultaat: dataset zonder missing data Voorbeelden: Mean/Median imputation Hot/Cold deck imputation Last observation carried forward Worst case analyse Regression imputation

Single Imputation: Mean/Median imputation Ontbrekende gegevens worden vervangen door het gemiddelde of de mediaan van de geobserveerde data voor deze variabele Voordelen Alle patiënten worden geïncludeerd in de analyse Standaard technieken zijn toepasbaar op geïmputeerde data Nadelen Biased estimates (tenzij MCAR) Onderschatting van de variantie (ook bij MCAR!)

Voorbeeld: Bloeddruk studie Mean Imputation Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) 121.9 108.6 138.3 153.4 SD Februari (σ Y = 25) 24.7 11.4 9.6 3.4 Correlatie (ρ X,Y = 0.6) 0.57 0.57 0.04 0.17

Resultaat simulatie studie Mean imputation Parameter schattingen Parameter MCAR MAR MNAR μ Y = 125 125.1 143.5 155.5 σ Y = 25 12.3 10.6 6.2 ρ X,Y = 0.6 0.30 0.08 0.15 Coverage (Percentage van de 95%CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = 125 39.2 0.2 0.0 σ Y = 25 0.7 0.1 0.0 ρ X,Y = 0.6 25.5 0.0 2.2 Schafer & Graham (2002)

Single Imputation: Hot deck imputation Vervang ontbrekende gegevens door waarde van andere (gelijkaardige) patiënt in de studie Voordelen Geen veronderstellingen over verdeling of model vereist Nadelen Bias als niet MCAR (geimputeerde data is enkel afkomstig van volledige patiënten) Vereist grote sample size, met weinig missing data Onderschatting van de variantie

Voorbeeld: Bloeddruk studie Hot Deck imputation Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) 121.9 106.6 136.7 153.1 SD Februari (σ Y = 25) 24.7 24.0 19.5 6.9 Correlatie (ρ X,Y = 0.6) 0.57 0.37 0.16 0.07

Resultaat simulatie studie Hot deck imputation Parameter schattingen Parameter MCAR MAR MNAR μ Y = 125 125.2 143.5 155.5 σ Y = 25 23.4 20.0 11.7 ρ X,Y = 0.6 0.16 0.04 0.08 Coverage (Percentage van de 95%CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = 125 60.0 2.4 0.0 σ Y = 25 63.7 45.3 1.7 ρ X,Y = 0.6 5.5 0.0 0.5 Schafer & Graham (2002)

Single Imputation: Regression imputation (Lineair) regressiemodel wordt gefit voor geobserveerde data en gebruikt om een voorspelling te doen voor ontbrekende gegevens Voordelen Goede predictie van de ontbrekende waarden als regressiemodel sterk is. Nadelen Onderschatting van de variantie Overschatting van relatie tussen de variabelen

Voorbeeld: Bloeddruk studie Regression Imputation Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) 121.9 112.1 127.4 151.5 SD Februari (σ Y = 25) 24.7 18.3 12.3 4.6 Correlatie (ρ X,Y = 0.6) 0.57 0.98 0.65 0.73

Resultaat simulatie studie Regression Imputation Parameter schattingen Parameter MCAR MAR MNAR μ Y = 125 125.2 124.9 151.6 σ Y = 25 18.2 20.4 8.42 ρ X,Y = 0.6 0.79 0.64 0.55 Coverage (Percentage van de 95%CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = 125 58.5 25.7 0.0 σ Y = 25 31.3 30.0 0.7 ρ X,Y = 0.6 21.7 19.6 37.6 Schafer & Graham (2002)

Single Imputation: Stochastic regression imputation De ontbrekende gegevens worden vervangen door voorspelde waarden uit het regressiemodel + error term Voordelen Onzekerheid op de voorspelde waarden wordt voor een deel in rekening gebracht Betere schatting van de variantie Nadelen Sterke afhankelijkheid van het gekozen model

Voorbeeld: Bloeddruk studie Stochastic Regression Volledig MCAR MAR MNAR Gem Februari (μ Y = 125) 121.9 110.8 124.0 150.4 SD Februari (σ Y = 25) 24.7 18.8 20.7 6.9 Correlatie (ρ X,Y = 0.6) 0.57 0.93 0.58 0.55

Resultaat simulatie studie Stochastic regression Parameter schattingen Parameter MCAR MAR MNAR μ Y = 125 125.1 124.8 151.6 σ Y = 25 24.7 27.0 12.9 ρ X,Y = 0.6 0.59 0.50 0.38 Coverage (Percentage van de 95% CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = 125 71.0 32.3 0.0 σ Y = 25 65.4 49.4 4.4 ρ X,Y = 0.6 65.0 40.7 50.0 Schafer & Graham (2002)

Single Imputation: Worst case analysis In geval van ontbrekende outcome Vervang ontbrekende waarde door slechtste scenario (bv overlijden voor binaire survival outcome) Doel: aantonen dat censoring geen invloed heeft op de studieresultaten

Single Imputation: Last Observation Carried Forward In longitudinale studies Laatste geobserveerde waarde wordt geïmputeerd voor alle daaropvolgende ontbrekende waarden van deze patiënt

Single Imputation: Last Observation Carried Forward In longitudinale studies Laatste geobserveerde waarde wordt geïmputeerd voor alle daaropvolgende ontbrekende waarden van deze patiënt

Single Imputation Summary Voordelen Eenvoudig Analyse met standaard statistische technieken Nadelen Imputatie kan bias veroorzaken onder alle missing data mechanismen Onderschatting van de variantie

Statistische Methoden voor Missing Data Vroeger: Complete/Available case analysis Single imputation Mean/Median imputation Hot/Cold deck imputation Last observation carried forward Worst case analyse Regression imputation MCAR

Statistische Methoden voor Missing Data Vroeger: Nu: Complete/Available case analysis Single imputation Mean/Median imputation Hot/Cold deck imputation Last observation carried forward Worst case analyse Regression imputation Multiple imputation Likelihood based methode Selectie modellen Pattern mixture modellen MCAR MAR MNAR

Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden

Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Originele data Imputed Data 2 Imputed Data 3

Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Imputed Data 2 Analyse 2 Imputed Data 3 Analyse 3

Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Imputed Data 2 Analyse 2 Totaal Resultaat Imputed Data 3 Analyse 3

Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Stap 1 Imputed Data 2 Analyse 2 Totaal Resultaat Imputed Data 3 Analyse 3

MI Stap 1: Imputation Eenvoudige missingness patronen/ Monotone missingness Parametrisch: Regressie model Cfr. Stochastic regression imputation Niet-parametrisch: Propensity scores Propensity score berekend met logistisch regressiemodel voor kans op missing Verdeel data in groepen op basis van propensity scores Trek random sample uit groep voor ontbrekende waarden

MI Stap 1: Imputation Eenvoudige missingness patronen/ Monotone missingness Parametrisch: Regressie model Cfr. Stochastic regression imputation Niet-parametrisch: Propensity scores Propensity score berekend met logistisch regressiemodel voor kans op missing Verdeel data in groepen op basis van propensity scores Trek random sample uit groep voor ontbrekende waarden Selectie van predictoren Relevante parameters voor onderzoeksvraag Parameters die gerelateerd zijn aan het optreden van missing

MI Stap 1: Imputation Willekeurige missingness: MCMC methode Step 0: Schat gemiddelde en covariantiematrix (bv met complete case analysis) Imputation step: simuleer data op basis van geschat gemiddelde en covariantiematrix Posterior step: Schat gemiddelde en covariantiematrix op basis van (geimputeerde) data Herhaal tot convergentie

MI Stap 1: Imputation Hoeveel imputaties (m) nodig? 3 à 10 is voldoende Efficientie = (1+λ/m) -1 Rubin (1987) Waarbij λ = percentage missingness Bv 25% missing, m = 5 efficientie = 95%

Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Stap 1 Imputed Stap 2 Data 2 Analyse 2 Totaal Resultaat Imputed Data 3 Analyse 3

MI Stap 2: Analyse Voer standaard statistische analyse uit op elke geïmputeerde dataset Lineaire Regressie Logistische Regressie Cox Proportional Hazards Model Mixed Effects Model Parameter schattingen: Q (1), Q (2),, Q (m) Varianties: U (1), U (2),, U (m)

Multiple Imputation (Rubin, 1987) Genereer m nieuwe datasets met imputatie van de ontbrekende waarden Oorspronkelijke variabiliteit blijft behouden + Onzekerheid schatting ontbrekende waarden Imputed Data 1 Analyse 1 Originele data Stap 1 Imputed Stap 2 Analyse Stap 3 Data 2 2 Totaal Resultaat Imputed Data 3 Analyse 3

MI Stap 3: Pool resultaten Combineer parameter schattingen tot globale parameter schatting: Variabiliteit: Gemiddelde within-imputation variabiliteit Between-imputation variabiliteit Totale variabiliteit

Multiple Imputation Voordelen: Intuitief Unbiased parameter schattingen onder MAR en MCAR Rekening houdend met natuurlijke variabiliteit + variabiliteit door onzekerheid van schattingen Gebruiksvriendelijke software R: library mice SAS: PROC MI en PROC MIANALYZE SPSS: Add-on Missing Values STATA: mi impute, ICE

Bloeddruk studie: Multiple Imputation ID Bloeddruk_visit1 Bloeddruk_visit2 1 169 148 2 426 3 132 4 160 169 5 105 6 116 7 125 8 112 9 133 10 94 11 109 12 109 13 106 14 176 137 15 128 16 131 17 130 18 145 155 19 136 20 146 134 21 111 22 97 23 134 24 153 112 25 118 26 137 27 101 28 103 29 78 30 151 113 library(mice)

Bloeddruk studie: Multiple Imputation ID Bloeddruk_visit1 Bloeddruk_visit2 1 169 148 2 426 3 132 4 160 169 5 105 6 116 7 125 8 112 9 133 10 94 11 109 12 109 13 106 14 176 137 15 128 16 131 17 130 18 145 155 19 136 20 146 134 21 111 22 97 23 134 24 153 112 25 118 26 137 27 101 28 103 29 78 30 151 113 library(mice) imp <- mice(data, method="norm", m=10) fitmean <- with(imp, mean(bdfeb)) fitreg <- with(imp, lm(bdfeb~bdjan)) est <- pool(fitreg)

Bloeddruk studie: Multiple Imputation ID Bloeddruk_visit1 Bloeddruk_visit2 1 169 148 2 426 3 132 4 160 169 5 105 6 116 7 125 8 112 9 133 10 94 11 109 12 109 13 106 14 176 137 15 128 16 131 17 130 18 145 155 19 136 20 146 134 21 111 22 97 23 134 24 153 112 25 118 26 137 27 101 28 103 29 78 30 151 113 PROC MI DATA=BDdata OUT = impdata NIMPUTE = 10; VAR BDjan BDfeb; MONOTONE; RUN; PROC MEANS DATA=impdata; VAR BDjan BDFeb; BY _imputation_; RUN; PROC REG DATA=impdata OUTEST=outreg COVOUT; MODEL BDFeb = BDJan; BY _imputation_; RUN; PROC MIANALYZE DATA=outreg; MODELEFFECTS Intercept BDJan; RUN;

Bloeddruk studie: Multiple Imputation ID Bloeddruk_visit1 Bloeddruk_visit2 1 169 148 2 426 3 132 4 160 169 5 105 6 116 7 125 8 112 9 133 10 94 11 109 12 109 13 106 14 176 137 15 128 16 131 17 130 18 145 155 19 136 20 146 134 21 111 22 97 23 134 24 153 112 25 118 26 137 27 101 28 103 29 78 30 151 113 m = 10

Bloeddruk studie: Multiple Imputation Imp Gem Var 1 134.74 519.71 2 121.86 886.01 3 130.95 446.05 4 123.10 464.44 5 123.42 687.62 6 118.42 597.11 7 133.76 744.04 8 127.86 791.68 9 132.05 544.43 10 123.15 651.40 Gemiddelde? M = 126.9 Variantie? Within Imputatie U = 635.2 Between Imputatie B = 32.3 Totale Variantie T = U + B*(1+1/10) = 670.7 Standaard Deviatie? SD = 25.9

Bloeddruk studie: Multiple Imputation Lineaire regressie Imp Beta SE 1 0.26 0.18 2 0.38 0.23 3 0.07 0.18 4 0.42 0.16 5 0.36 0.20 6 0.35 0.19 7 0.30 0.22 8 0.26 0.23 9 0.09 0.19 10 0.41 0.19 Regressie Coefficiënt? β = 0.29 Standard error? 0.23

Resultaat simulatie studie Multiple Imputation Parameter schattingen Parameter MCAR MAR MNAR μ Y = 125 124.9 125.3 151.6 σ Y = 25 25.9 28.7 13.6 ρ X,Y = 0.6 0.57 0.45 0.35 Coverage (Percentage van de 95% CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = 125 93.5 94.5 1.8 σ Y = 25 93.2 96.1 18.0 ρ X,Y = 0.6 90.8 86.9 90.4 Schafer & Graham (2002)

Likelihood based methoden Voor grote datasets kan MI zeer traag en computerintensief worden Alternatief: Likelihood based methoden Specifieer model voor outcome en missing proces MAR/MCAR: Parameters in outcome model zijn niet betrokken in missingness proces en missingness model hoeft dus niet gespecifieerd te worden EM algoritme: E-step: Schatting log-likelihood op basis van gemiddelde en covariantie matrix M-step: Maximaliseer log-likelihood Herhaal stap E en M tot convergentie

Likelihood based methoden Software SAS: PROC MIXED, PROC NLMIXED, PROC MI R: library lme4 SPSS: vanaf versie 12 mixed models Stata: xtmixed

Resultaat simulatie studie Maximum Likelihood Parameter schattingen Parameter MCAR MAR MNAR μ Y = 125 124.8 125.2 151.6 σ Y = 25 24.2 25.5 12.3 ρ X,Y = 0.6 0.61 0.52 0.39 Coverage (Percentage van de 95% CIs die de echte waarde bevatten) Parameter MCAR MAR MNAR μ Y = 125 91.2 91.6 0.9 σ Y = 25 86.1 90.2 7.4 ρ X,Y = 0.6 84.2 76.7 89.2 Schafer & Graham (2002)

Wat bij MNAR? Modelleren van gezamenlijke verdeling Selectie modellen (Diggle & Kenward, 1994) f(y,x,m) = f(y,x) f(m Y,X) Pattern-mixture modellen (Little, 1993; Hedeker & Gibbons,1997) f(y,x,m) = f(y,x M) f(m)

Samenvatting en Conclusie Identificatie missing data proces MCAR MAR MNAR Verzamel gegevens over missingness Modelleer het proces Bij niet MCAR Gebruik Multiple imputation of likelihood based methode! Sensitiviteitsanalyse Voorkomen is beter dan genezen!

Referenties Haukoos, J.S., Newgard, C.D. (2007). Advanced statistics: missing data in clinical research part 1: an introduction and conceptual framework. Academic Emergency Medicine, 14, 662 668 Newgard, C.D., Haukoos, J.S. (2007). Advanced statistics: Missing data in clinical research part 2: Multiple imputation. Academic Emergency Medecine, 14, 669 678 Schafer, J.L., Graham, J.W. (2002) Missing data: Our view of the state of the art. Psychological methods, 7 (2), 147 177 Rubin, D.B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley Rubin, D.B. (1996). Multiple imputation after 18+ years. Journal of the American Statistical Association, 91, 473 489. Little, R.J.A. (1993). Pattern mixture models for multivariate incomplete data. Journal of the American Statistical Association. 88: 125 134 Diggle, P.J., Kenward, M.G. (1994). Informative dropout in longitudinal data analysis (with discussion). Applied Statistics. 43: 49-93