PRN Koppelingsprocedure 2006 (LVR1, LVR2 en LNR-registratie)



Vergelijkbare documenten
PRN Koppelingsprocedure 2005 (LVR1, LVR2 en LNR-registratie)

Koppelingsprocedure PRN 2002 Beschrijving en Toelichting

PRN Koppelingsprocedure 2009 (LVR1, LVRh, LVR2 en LNR-deelregistraties)

PRN Koppelingsprocedure 2013 (LVR1, LVRh, LVR2 en LNR-deelregistraties)

KOPPELINGSPROCEDURE PRN (LVR1, LVR2 & LNR) 2004: Beschrijving en Toelichting

PRN Koppelingsprocedure 2007 (LVR1, LVR2 en LNR-registratie)

PRN Koppelingsprocedure 2008 (LVR1, LVR2 en LNR-registratie)

Koppelingsprocedure PRN 2003 en 2004 met ABCD bestand

Koppeling PRN registratie 2003 met ABCD onderzoeksbestand 2003

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 8 februari 2010

LNR-registratie Compleetheid, Datakwaliteit en Validatie LNR koppeling

Classification of triangles

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

Four-card problem. Input

Global TV Canada s Pulse 2011

MyDHL+ Van Non-Corporate naar Corporate

Chapter 4 Understanding Families. In this chapter, you will learn

z x 1 x 2 x 3 x 4 s 1 s 2 s 3 rij rij rij rij

Verschil in Perceptie over Opvoeding tussen Ouders en Adolescenten en Alcoholgebruik van Adolescenten

SAMPLE 11 = + 11 = + + Exploring Combinations of Ten + + = = + + = + = = + = = 11. Step Up. Step Ahead

Handleiding Installatie ADS

UvA-DARE (Digital Academic Repository) Record linkage to enhance data from perinatal registries Tromp, M. Link to publication

LONDEN MET 21 GEVARIEERDE STADSWANDELINGEN 480 PAGINAS WAARDEVOLE INFORMATIE RUIM 300 FOTOS KAARTEN EN PLATTEGRONDEN

De Relatie tussen Voorschoolse Vorming en de Ontwikkeling van. Kinderen

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 7 februari 2011

Denken is Doen? De cognitieve representatie van ziekte als determinant van. zelfmanagementgedrag bij Nederlandse, Turkse en Marokkaanse patiënten

Pesten onder Leerlingen met Autisme Spectrum Stoornissen op de Middelbare School: de Participantrollen en het Verband met de Theory of Mind.

DALISOFT. 33. Configuring DALI ballasts with the TDS20620V2 DALI Tool. Connect the TDS20620V2. Start DALISOFT

De Rol van Zelfregulatie, Motivatie en Eigen Effectiviteitsverwachting op het Volhouden

Cambridge Assessment International Education Cambridge International General Certificate of Secondary Education. Published

Introductie in flowcharts

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

General info on using shopping carts with Ingenico epayments

Add the standing fingers to get the tens and multiply the closed fingers to get the units.

Invloed van het aantal kinderen op de seksdrive en relatievoorkeur

L.Net s88sd16-n aansluitingen en programmering.

Preschool Kindergarten

LDA Topic Modeling. Informa5ekunde als hulpwetenschap. 9 maart 2015

ALGORITMIEK: answers exercise class 7

This appendix lists all the messages that the DRS may send to a registrant's administrative contact.

Knelpunten in Zelfstandig Leren: Zelfregulerend leren, Stress en Uitstelgedrag bij HRM- Studenten van Avans Hogeschool s-hertogenbosch

Ervaringen in de regio Moederraad VSV Nijmegen. Carola Groenen Voorzitter VSV/ Directeur CVN Onderzoeker Radboudumc

Geslacht, Emotionele Ontrouw en Seksdrive. Gender, Emotional Infidelity and Sex Drive

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 22 februari 2013

INVLOED VAN CHRONISCHE PIJN OP ERVAREN SOCIALE STEUN. De Invloed van Chronische Pijn en de Modererende Invloed van Geslacht op de Ervaren

Group work to study a new subject.

VOORSTEL TOT STATUTENWIJZIGING UNIQURE NV. Voorgesteld wordt om de artikelen 7.7.1, 8.6.1, en te wijzigen als volgt: Toelichting:

Differences in stress and stress reactivity between highly educated stay-at-home and working. mothers with spouse and young children

Effecten van een op MBSR gebaseerde training van. hospicemedewerkers op burnout, compassionele vermoeidheid en

RECEPTEERKUNDE: PRODUCTZORG EN BEREIDING VAN GENEESMIDDELEN (DUTCH EDITION) FROM BOHN STAFLEU VAN LOGHUM

Ontpopping. ORGACOM Thuis in het Museum

Genetic code. Assignment

0515 DUTCH (FOREIGN LANGUAGE)

Nieuwsbrief NRGD. Editie 11 Newsletter NRGD. Edition 11. pagina 1 van 5.

Opgave 2 Geef een korte uitleg van elk van de volgende concepten: De Yield-to-Maturity of a coupon bond.

COGNITIEVE DISSONANTIE EN ROKERS COGNITIVE DISSONANCE AND SMOKERS

SLACHTOFFER CYBERPESTEN, COPING, GEZONDHEIDSKLACHTEN, DEPRESSIE. Cyberpesten: de implicaties voor gezondheid en welbevinden van slachtoffers en het

AE1103 Statics. 25 January h h. Answer sheets. Last name and initials:


AdVISHE: Assessment of the Validation Status of Health- Economic Decision Models

(1) De hoofdfunctie van ons gezelschap is het aanbieden van onderwijs. (2) Ons gezelschap is er om kunsteducatie te verbeteren

Quality requirements concerning the packaging of oak lumber of Houthandel Wijers vof ( )


De Relatie tussen Werkdruk, Pesten op het Werk, Gezondheidsklachten en Verzuim

NMOZTMKUDLVDKECVLKBVESBKHWIDKPDF-WWUS Page File Size 9,952 KB 29 May, 2016

Het Effect van Verschil in Sociale Invloed van Ouders en Vrienden op het Alcoholgebruik van Adolescenten.

8+ 60 MIN Alleen te spelen in combinatie met het RIFUGIO basisspel. Only to be played in combination with the RIFUGIO basicgame.

Ae Table 1: Aircraft data. In horizontal steady flight, the equations of motion are L = W and T = D.

de Rol van Persoonlijkheid Eating: the Role of Personality

0515 FOREIGN LANGUAGE DUTCH

Citation for published version (APA): Crane, L. M. A. (2011). Intraoperative fluorescence imaging in cancer Groningen: s.n.

B1 Woordkennis: Spelling

Lichamelijke factoren als voorspeller voor psychisch. en lichamelijk herstel bij anorexia nervosa. Physical factors as predictors of psychological and

Sekseverschillen in Huilfrequentie en Psychosociale Problemen. bij Schoolgaande Kinderen van 6 tot 10 jaar

Data Handling Ron van Lammeren - Wageningen UR

De causale Relatie tussen Intimiteit en Seksueel verlangen en de. modererende invloed van Sekse en Relatietevredenheid op deze relatie

How to install and use dictionaries on the ICARUS Illumina HD (E652BK)

Impact en disseminatie. Saskia Verhagen Franka vd Wijdeven

Emotionele Arbeid, de Dutch Questionnaire on Emotional Labor en. Bevlogenheid

Koppelingsprocedure PRN 2001: Deel I Hoofdlijnen

Bent u gemotiveerd? L.E.J. Gerretsen Studentnummer: Eerste begeleider: prof. dr. L. Lechner Tweede begeleider: Dr. A.

L.Net s88sd16-n aansluitingen en programmering.

Psychometrische Eigenschappen van de Youth Anxiety Measure for DSM-5 (YAM-5) Psychometric Properties of the Youth Anxiety Measure for DSM-5 (YAM-5)

CHROMA STANDAARDREEKS

GOVERNMENT NOTICE. STAATSKOERANT, 18 AUGUSTUS 2017 No NATIONAL TREASURY. National Treasury/ Nasionale Tesourie NO AUGUST

UvA-DARE (Digital Academic Repository) Record linkage to enhance data from perinatal registries Tromp, M. Link to publication

Interaction Design for the Semantic Web

Socio-economic situation of long-term flexworkers

Laboratory report. Independent testing of material surfaces. Analysis of leaching substances in treated wood samples conform guide line EU 10/2011

Meetkunde en Lineaire Algebra

De Samenhang tussen Dagelijkse Stress, Emotionele Intimiteit en Affect bij Partners met een. Vaste Relatie

Functioneren van een Kind met Autisme. M.I. Willems. Open Universiteit

Persoonlijkheidskenmerken en cyberpesten onder jongeren van 11 tot 16 jaar:

Het meten van de kwaliteit van leven bij kinderen met JIA

3e Mirror meeting pren April :00 Session T, NVvA Symposium

Value based healthcare door een quality improvement bril

Engels op Niveau A2 Workshops Woordkennis 1

Ouderlijke Controle en Angst bij Kinderen, de Invloed van Psychologische Flexibiliteit

Appendix A: List of variables with corresponding questionnaire items (in English) used in chapter 2

Transcriptie:

PRN Koppelingsprocedure 2006 (LVR1, LVR2 en LNR-registratie) Stichting Perinatale Registratie Nederland Klinische Informatiekunde 1 Postbus 8588 Klinische Epidemiologie & Biostatistiek 2 3503 RN Utrecht Afdeling Verloskunde & Gynaecologie 3 Tel. 030-28 23 165 Academisch Medisch Centrum www.perinatreg.nl 1100 DE Amsterdam info@perinatreg.nl Tel. 020-566 4624 Fax: 020-691 9840 http://kik.amc.uva.nl/kik PRN/KIK-rapport Klinische Informatiekunde Technisch rapport 2007-05 In opdracht van Uitvoering door Stichting Perinatale Registratie Nederland Afdeling Klinische Informatiekunde, AMC, Amsterdam Datum November 2007 Auteurs Marc Tromp 1 (marc.tromp@amc.uva.nl) Miranda Tromp 1 (m.tromp@amc.uva.nl) Anita CJ Ravelli 1 ( a.c.ravelli@amc.uva.nl ) Hans JB Reitsma 2 (j.reitsma@amc.uva.nl) Joris AM van der Post 3 (j.a.vanderpost@amc.uva.nl) Aantal pagina s 61 Aantal bijlagen 1

Inhoudsopgave Inhoudsopgave...2 Summary in English...3 Inleiding...7 Samenvatting resultaten en leeswijzer... 10 Hoofdstuk 1 Schoningskoppelingen... 11 1.1 Koppeling LVR1 ^ LVR1...11 1.2 Koppeling LVR2 ^ LVR2...13 1.3 Koppeling LNR ^ LNR...14 Hoofdstuk 2 Koppeling LNR ^ LNR voor vinden van heropnames... 15 2.1 Koppeling LNR ^ LNR voor vinden van heropnames bij eenlingen...15 2.2 Koppeling LNR ^ LNR voor vinden van heropnames bij meerlingen...17 2.3 Koppeling niet-gekoppelde LNR eenlingen ^ meerlingen...18 2.4 Creatie LNR^LNR eindbestanden...19 Hoofdstuk 3 Koppeling LVR1 ^ LVR2... 21 3.1 Koppeling LVR1 ^ LVR2 eenlingen...21 3.2 Koppeling LVR1 ^ LVR2 meerlingen...24 3.3 Koppeling niet-gekoppelde LVR1 eenlingen met LVR2 meerlingen...26 3.4 Koppeling niet-gekoppelde LVR1 meerlingen met LVR2 eenlingen...26 3.5 Creatie LVR1^LVR2 eindbestand...26 Hoofdstuk 4 Koppeling (LVR1 ^ LVR2) ^ LNR... 27 4.1 Koppeling (LVR1 ^ LVR2) ^ LNR eenlingen...27 4.2 Koppeling LVR12 ^ LNR meerlingen...30 4.3 Koppeling niet-gekoppelde LVR12 eenlingen met LNR meerlingen...30 4.4 Koppeling niet-gekoppelde LVR12 meerlingen met LNR eenlingen...30 4.5 Creatie eindbestand (LVR1 ^ LVR2) ^ LNR...32 Hoofdstuk 5 PRN jaar 2006 bestanden... 33 5.1 Beschrijving eindbestanden...33 5.2 Toegevoegd variabelen...34 5.3 Mogelijke dubbeltelling...37 5.4 Controles op het gekoppelde PRN bestand...37 5.5 Versie beheer en bestandnaam...37 5.6 Validatie koppeling LNR-registratie...37 Samenvatting... 38 Epiloog... 42 Referenties... 45 Begrippen... 47 Appendix: Contents gekoppelde bestand LVR1^LVR2^LNR 2006... 49 Pagina 2 van 61

Summary in English Linking three Dutch LVR1, LVR2 and LNR registries to combine medical information on pregnancy, childbirth and postnatal period for the year 2006 Introduction In the Netherlands most pregnant women are seen by an independent midwife. Referral of women to the obstetrician during gestation or labour takes place frequently. Approximately one third of the births are attended by a midwife and two thirds by an obstetrician, and less than 5% by a general practitioner [www.knov.nl]. Following birth, around 15% of the children are admitted to a paediatric unit and are seen by a paediatrician. As a result, both mother and child may be seen by more than one caregiver. Depending on the profession of the caregivers involved in perinatal care, details of the pregnancy (including demographic data on the mother), birth and possible hospital admissions are recorded in one or more of three registries: the LVR1 (National Obstetric Registry (primary care)), the LVR2 (National Obstetric Registry (secondary care)) and the LNR (National Neonatal Registry). No data was available from the general practitioners for 2006. In table 1 the number of records in the separate and in the combined linked registry is described. Table 1: Number of records in the separate LVR1, LVR2, LNR and linked PRN registries in 2006 Year Unit 2006 LVR1 registry pregnancy women/ 168,010 delivery child LVR2 registry pregnancy women/ 119,593 delivery child LNR registry admission of a child 34,882 Combined linked PRN registry pregnancy/children 193,888 Linked LNR^LNR registry admissions of children 34,810 Linked LNR^LNR registry children 31,706 Under Dutch privacy law, information within these registries must be rendered anonymous to any parties outside of the treating institution. A unique key, which identifies individuals, simply does not exist. Therefore, in order to collate information on the same woman, pregnancy and child, anonymous linking of the three prenatal registries is required. The linkage procedure and linkage methods Below, we briefly describe the linkage procedure used by the LinKID group of the Academic Medical Center Amsterdam to achieve a valid, combined PRN registry through a series of transparent, repeatable steps. The first step in a linkage was to clean each of the three datasets i.e. remove duplicate records. No other data cleaning (such as the removal of impossible date values) was carried out. Next, the LVR1 registry was first linked to the LVR2. Separate linkages were done for singleton and multiple births, after which data were recombined. Then the linked file (LVR12) was linked to the LNR. Linkage methods can be classified as either deterministic or as probabilistic. Under both methods, variables which partially identify a patient and which are present in more than one registry and are of sufficient quality (in terms of coding and degree of missingness) are chosen as linkage variables. Pagina 3 van 61

In deterministic linkage, a pair of records (one from each dataset) is considered a match if all linkage variables agree. A variation on this rule is to consider a pair as a match if they differ on only a (pre-specified) small number of variables, usually one ('n-1' linking, where n is the number of linking variables used). In probabilistic linkage, weights are calculated for each linking variable separately in case of agreement or disagreement. The weight calculation is based on the probability of agreement on each variable in both true matches and non-matches (accidental agreement) [2]. These variable-specific weights assign rewards to each record pair for all variables that agree by assigning the pair a positive score (specific to each variable) and to punish the record pair (by assigning negative weights) for all variables that differ. The total weight for each record pair is calculated by summing all the weights of the individual linkage variables. Pairs with a high total weight are likely to be matches, while pairs with a low score are unlikely to be a match. Deterministic linkage was only used to clean the data of the separate registries. All other linkages were made using probabilistic linkage [2,3,17,18]. A number of variables may not be recorded identically in the two registries. For example, birth weight may be recorded as 3010 gm in one registry, but may be rounded down to 3000 gm in another. Probabilistic linkage can be extended to include so-called close matches. Record pairs with a close match on a given variable are given a smaller reward than a full match, but this procedure will still identify many true matches. A computer algorithm computes the variable-specific weights. Because of this it is possible to estimate the threshold value above which total scores are assumed to represent a match. The threshold reflects an estimate of the prevalence of matches among all possible record pairs. Usually, the great majority of record pairs falls well below the threshold (no match) and a small number fall well above the threshold. The quality of the linkage procedure can be crudely judged when looking to the number of record pairs on both sides of the threshold. The smaller this grey area, the better the discriminatory performance of the linkage procedure. The choice of the correct threshold and the best decision rule on record pairs in the grey area usually requires a judgement based on contextual knowledge in addition to information drawn from the computer output. Given the large number of records (particularly in the LVR1 and LVR2 registries), it is computationally impossible to compare all possible pairs of records from two datasets. To overcome this problem, the data are blocked on certain variables. For example, in creating the link between the LVR1 and LVR2, the data were first blocked on the mother's date of birth: only pairs in which the mother's date of birth was identical in both datasets were considered. This reduced the number of record pairs to be considered from approximately 2 x 10 10 to just over 3 million. Subsequently, non-linked records were blocked on the postal code of the mother to identify any links missed by the first blocking. Similarly, records in the LVR12^LNR linkage were blocked first on the child s date of birth and, subsequently, on the mother s postal code (see Figure 2). From validation and comparative studies, it is now known that the LinKID probabilistic linkage procedure performs very well in absolute terms, and considerably better than the best deterministic alternative. Additionally, it provides quantitative information on the success of the linkage and the main sources of error. Results Here we present a selection of information from the 2006 linkage study, which, in total, involves 14 separate steps. First we present the variables used in the LVR1-LVR2 singleton linkage (after blocking on the mother s date of birth) with their estimated weights (see Table 2). Pagina 4 van 61

From Table 2 one can read that agreement of postcode provides the highest positive award (10.50) being, apparently, the most informative variable if correct! Date of birth is less informative (8.45). However, the weights assigned to disagreement are -4.75 and -7.34, respectively, indicating that the error rate in recording the postcode is much higher than in recording birth date. Table 2: linkage weights for the LVR1^LVR2 linkage singletons 2006 Weights Variable Agree Disagree Postcode (mother) 10.50-4.75 Date of birth (child, full match) 8.45-7.34 Date of birth (close, ±1 day) 1.64 n.a. Expected Date of Birth (DOB) (full match) 8.43-7.00 Expected DOB (close, ±7 days) 0.94 n.a. Birth weight (full match) 8.10-4.52 Birth weight (close, ±10gm) 1.07 n.a. Place of birth (hospital) 6.86-3.34 Minute of birth 5.74-3.98 Hour of birth 4.52-5.33 Gravidity 1.61-3.69 Gender (child) 0.99-6.38 In Table 3, we present the final linking results after all steps have been taken. The combined dataset consists of 193,888 different records (children), of which 101,751 represent record pairs or triplets that comprise data from two or three registries. Table 3: number of links between the LVR1 LVR2 and LNR registries 2006 Records with information from Number of links Percentage of links LVR1 71,463 36.9% LVR2 19,484 10.0% LNR 1,190 0.6% LVR1^LVR2 71,235 36.7% LVR1^LNR 1,721 0.9% LVR2^LNR 6,270 3.2% LVR1^LVR2^LNR 22,525 11.6% PRN (LVR1^LVR2^LNR) registration 193,888 100.0% Conclusion We successfully linked the three LVR1, LVR2, LNR Dutch perinatal registries in the PRN registry 2006. As a result, all information concerning the same pregnancy and child have been combined into one medical record, making it possible to obtain information across the entire prenatal care period (table 4). Table 4: The linked LVR1 LVR2 and LNR perinatal registries 2006 File Version Date Records LVR1_LVR2_LNR_2006 Versie 1.0 16-aug-2007 193,888 LNR_LNR_2006 Versie 1.0 16-aug-2007 34,810 LNR_LNR_kind_2006 Versie 1.0 30-aug-2007 31,706 It is important to stress that any linkage needs to be validated after it has been carried out. Also, the linkage itself cannot solve the problem as to the 'true' value of a variable in a linked Pagina 5 van 61

record, if this variable - despite the match - has a different value in the two data sources. Apparently, the positive weights associated with the remaining linking variables were sufficient to overcome such disagreement, but the procedure itself provides no information on which, if either, of the two values is 'true. Pagina 6 van 61

Inleiding Voor u ligt de rapportage van de PRN koppeling van de perinatale registraties (LVR1, LVR2 en LNR) voor het jaar 2006. Dit koppelingsproject is een vervolg op het LinKID koppelingsproject van de perinatale registraties voor de jaren 2000 tot en met 2005 [3-9]. Deze rapportage is de verantwoording van de koppeling van 2006 en de documentatie bouwt daarbij primair voort op de uitgebreide documentatie van de koppeling van 2001 [3] en volgende jaren (Koppelingsprocedure PRN 2001: Deel I Hoofdlijnen en Deel II Beschrijving en Toelichting en Koppelingsprocedure PRN 2002: Beschrijving en Toelichting) [3-4]. De PRN koppelingsmethodiek is in 2003 in opdracht van Stichting PRN ontwikkeld op de afdeling klinische informatiekunde van het AMC door dr N Méray, dr ACJ Ravelli, dr JB Reitsma en prof dr GJ Bonsel [18-19]. Deze PRN koppelingsmethodiek is door dr Nora Meray, drs Miranda Tromp, drs Joseph McDonnel en Marc Tromp BSc. toegepast op vervolg jaren 2000-2005 van de PRN registratie. Deze PRN koppelingsmethodiek bouwt voort op het koppelingswerk van dr JB Reitsma en Prof dr GJ Bonsel voor de Hartstichting in het kader van het proefschrift van Hans Reitsma [2]. De PRN koppelingen van 2001 en 2002 zijn op validiteit getest [10-12], en functioneren daarom in het vervolg als referentie. De documentatie van de koppeling van 2001 tot en met 2005 is beschikbaar op de website van de Stichting Perinatale Registratie Nederland (www.perinatreg.nl) en de website van de afdeling Klinische Informatiekunde van het AMC (kik.amc.uva.nl/kik/) onder Technical Reports. De uitgangspunten voor de PRN koppeling van 2006 zijn niet veranderd ten opzichte van de eerdere jaren. De Stichting PRN heeft begin februari 2007 de afdeling Klinische Informatiekunde van het AMC opdracht gegeven om, op basis van de ontwikkelde PRN koppelingsmethodiek, de koppeling uit te voeren van de LVR1, LVR2 en LNR registratie bestanden van 2005 t/m 2008. Het vervolgkoppelingsproject 2006 is uitgevoerd op de afdeling Klinische Informatiekunde, AMC Amsterdam, door medische informatiekundige Marc Tromp, onder begeleiding van medische informatiekundige Miranda Tromp en epidemioloog Anita Ravelli. Het projectteam bestaat verder uit epidemioloog dr Hans Reitsma en gynaecoloog prof dr JAM van de Post. De begeleidingsgroep bestaat uit een verloskundige, een gynaecoloog en een neonatoloog. De projectuitvoering van de LVR1^LVR2^LNR 2006 koppeling liep vanaf 16 juli 2007 t/m 31 augustus 2007. De verslaglegging vond plaats in augustus en september 2007. Er is voor de koppeling van 2006 een aantal kleine veranderingen doorgevoerd in de koppelmethodiek ten opzichte van de PRN koppeling van het jaar 2005 [9]. Ten eerste is de syntax op een aantal punten efficiënter gemaakt. Bijvoorbeeld door het aanmaken van paren (met blocking op geboortedatum moeder en postcode moeder) direct na elkaar te laten plaatsvinden. De gevonden links worden eerst samengevoegd, alvorens er clusters worden aangemaakt. Hierdoor worden er per koppelingsstap slechts éénmaal clusters aangemaakt. Dit is nog niet bij alle koppelingsstappen doorgevoerd. Ten tweede is de naamgeving in de syntax op een aantal punten logischer dan wel consistenter geworden, en is er meer commentaar (tekst ter uitleg) toegevoegd. Het LVR1 bronbestand 2006 bestond uit 168.010 records, het LVR2 bronbestand uit 119.593 records en het LNR bronbestand uit 34.882 records (tabel 1). Tabel 1 Aantal records per LVR1, LVR2 en LNR bestand Jaar 2006 Aantal Records Datum Bronbestand Prismant Datum ontvangst AMC voor koppeling Aantal Deelnemende Praktijken LVR1 registratie 168.010 13-apr-2007 12-jul-2007 448 LVR2 registratie 119.593 09-mrt-2007 12-jul-2007 98 LNR registratie 34.882 08-jun-2007 12-jul-2007 67 De 2006 koppeling is gestart op maandag 16 juli 2007, na het ontvangst van de losse LVR1, LVR2 en LNR bestanden. Het aantal deelnemende LVR1 praktijken in 2006 is hoger in Pagina 7 van 61

vergelijking met voorafgaande jaren. Het aantal deelnemende LVR2 praktijken is constant rond de 99 ziekenhuizen. Het aantal deelnemende LNR praktijken neemt toe. Pagina 8 van 61

Het gekoppelde PRN eindbestand 2006 bestaat uit 193.888 records. 55,8 % van de LVR1 records (93.760 records) kon gekoppeld worden aan een LVR2 record, dit was 78,4% van de LVR2 records. Tabel 2 Trend in LVR1, LVR2, LNR en gekoppelde PRN registratie 2000-2006 [3-9,13-17] PRN gekoppeld bestand 2000 2001 2002 2003 2004 2005 2006 LVR1 registratie 154.742 155.832 162.649 169.326 160.967 163.764 168.010 LVR2 registratie 124.716 125.061 122.859 125.150 121.716 118.553 119.593 LNR registratie 32.189 30.130 31.996 35.462 33.545 36.805 34.882 PRN gekoppelde registratie 204.584 202.904 202.778 206.778 199.859 193.724 193.888 Ten opzichte van het jaar 2000 is in 2006 het aantal records in de LVR1 registratie toegenomen (168,010 records versus 153.754) Het aantal records in de LVR2 registratie is licht afgenomen (119.593 versus 124.716) en het aantal records in de LNR registratie neemt toe (34.882 versus 32,189). Het aantal records in het gekoppelde bestand is afgenomen (193.888 versus 204.584) (tabel 2 en figuur 1). Deze trend komt overeen met het aantal geboren kinderen in Nederland (dit wordt verder beschreven in de epiloog). Figuur 1 Trend in LVR1, LVR2, LNR en gekoppelde PRN registratie 2000-2006 [3-9,13-17] 250.000 Aantal records 200.000 150.000 100.000 204.584 154.742 124.716 202.904 155.832 125.061 202.778 162.649 122.859 206.778 169.326 125.150 199.859 160.967 121.716 193.724 163.764 118.553 193.888 168.010 119.593 50.000 32.189 30.130 31.996 35.462 33.545 36.805 34.882 0 2000 2001 2002 2003 2004 2005 2006 Registratiejaar PRN gekoppelde registratie LVR1 registratie LVR2 registratie LNR registratie Pagina 9 van 61

Samenvatting resultaten en leeswijzer Alles bijeen zijn voor de PRN 2006 koppeling 14 koppelingen uitgevoerd. Hoofdstuk 1: de schoningskoppelingen - LVR1 ^ LVR1 - voor het herkennen van administratieve dubbeltellingen ( 1.1). - LVR2 ^ LVR2 - voor het herkennen van administratieve dubbeltellingen ( 1.2). - LNR ^ LNR - voor het herkennen van administratieve dubbeltellingen ( 1.3). Hoofdstuk 2: beschrijving koppelingen tussen de LNR ^ LNR registratie: - Herkennen van heropnames van hetzelfde kind binnen de groep eenlingen. ( 2.1). - Herkennen van heropnames van hetzelfde kind binnen de groep meerlingen. ( 2.2). - Koppelen van niet-gekoppelde LNR eenlingen met niet-gekoppelde LNR tweelingen voor het vinden van heropnames ( 2.3). Hoofdstuk 3: beschrijving koppelingen tussen de LVR1 en LVR2 registratie - Koppelen van eenlingen LVR1 ^ LVR2 ( 3.1). - Koppelen van meerlingen LVR1 ^ LVR2 ( 3.2). - Koppelen van niet-gekoppelde LVR1 eenlingen met niet-gekoppelde LVR2 meerlingen ( 3.3). - Koppelen van niet-gekoppelde LVR1 meerlingen met niet-gekoppelde LVR2 eenlingen ( 3.4). Hoofdstuk 4: beschrijving koppelingen tussen de gekoppelde LVR1^LVR2 registratie met de LNR registratie - Koppelen van eenlingen LVR1 ^ LVR2 met LNR ( 4.1). - Koppelen van meerlingen LVR1 ^ LVR2 met LNR ( 4.2). - Koppelen van niet-gekoppelde LVR1 ^ LVR2 eenlingen met niet-gekoppelde LNR meerlingen ( 4.3). - Koppelen van niet-gekoppelde LVR1 ^ LVR2 meerlingen met niet-gekoppelde LNR eenlingen ( 4.4). Hoofdstuk 5: beschrijving van het gekoppelde PRN jaarbestand Epiloog: een vergelijking gemaakt met voorgaande jaren. Pagina 10 van 61

Hoofdstuk 1 Schoningskoppelingen In 1.1 t/m 1.3 worden de interne koppelingen LVR1^LVR1, LVR2^LVR2, en LNR^LNR besproken. Dit zijn voorbereidende of schoningskoppelingen, voordat de verschillende registratie met elkaar kunnen worden gekoppeld. 1.1 Koppeling LVR1 ^ LVR1 Hier wordt de interne koppeling van de LVR1 registratie beschreven. Het doel van de toegepaste interne LVR1 ^ LVR1 koppeling is het verwijderen van administratieve dubbeltellingen uit het LVR1 bestand. De methodiek van deze koppeling is een deterministische koppeling. De koppeling vond plaats op basis van 10 koppelvariabelen. Als blocking-variabele is eerst de geboortedatum van de moeder gebruikt en daarna de postcode van de moeder. Het LVR1 2006 ASCII bestand (Z:\Jaarbestand\ASCII\LVR1\lvr1jaar2006.dat) wordt ingelezen en omgezet in een SAS jaarbestand (Z:\Jaarbestand\SAS jaar\lvr1\lvr1jr06.sas7bdat), het LVR1 2006 bestand bestaat uit 168.010 records. Daarnaast wordt ook het LVR1 2005 (Z:\Jaarbestand\SAS jaar\lvr1\lvr1jr05) bestand ingelezen (163.764 records). Uit dit bestand worden de records geselecteerd waarbij de à terme datum in 2006 is, records waarbij de geboorte datum van het kind en de à terme datum missend is en records waarbij de à terme datum na 1 december 2005 is (7.720 records). In totaal zijn er nu 175.730 LVR1 records uit 2006 (bestand V ). Zie figuur 1A (volgende bladzijde) voor een flowchart van de LVR1 ^ LVR1 koppeling. Het LVR1 bestand wordt deterministisch met zichzelf gekoppeld voor het vinden van administratieve dubbeltellingen. De koppeling wordt eerst uitgevoerd met blocking op geboortedatum moeder en vervolgens met blocking op postcode moeder. Alle paren waarbij de geboortedatum van de moeder overeenkomt, worden aangemaakt (2.431.764 paren). Voor de interne LVR1-LVR1 koppeling worden de volgende 10 variabelen vergeleken: postcode moeder (geboortedatum moeder bij blocking op postcode), praktijknummer, graviditeit, geboortedatum kind, à terme datum, gewicht, geslacht, geboorte uur en geboorte minuut. Daarnaast worden nog meerlingcode en omvang meerling meegenomen. Records worden als een administratieve dubbeltelling beschouwd als 9 van de 10 variabelen overeenkomen of als 8 van de 10 variabelen overeenkomen en daarnaast ook sprake is van een eenling. Er is vanaf 2005 nog een extra situatie voor een administratieve dubbeltelling, namelijk als 7 van de 10 variabelen overeenkomen en daarnaast niet alleen sprake is van een eenling, maar ook de praktijkcodes overeenkomen en de aterme datum missing is. Op deze manier worden 593 administratieve dubbeltellingen gevonden. De niet-gekoppelde records worden vervolgens nog gekoppeld met blocking op postcode moeder. Alle paren waarbij de postcode overeenkomt worden aangemaakt (9.849.197). Administratieve dubbeltellingen worden op dezelfde wijze geselecteerd, maar nu met geboortedatum moeder als koppelvariabele in plaats van postcode moeder. Er worden geen extra administratieve dubbeltellingen gevonden. De 593 gevonden administratieve dubbeltellingen worden samengevoegd en er worden clusters aangemaakt om te controleren of er administratieve tripels bijzitten. Er worden 5 administratieve tripels gevonden. Van iedere administratieve dubbel wordt het tweede record verwijderd en van iedere administratieve trippel wordt daarnaast ook het derde record verwijderd. Van de 175.730 LVR1 records zijn nu 588 administratieve dubbeltellingen verwijderd, waardoor er nog 175.142 records over zijn. De recordidentificaties van de verwijderde administratieve dubbeltellingen records, staan beschreven in het sleutelbestand op positie 2 (v_admin1) na positie 1 waar de recordidentificatie (v_recid) staat van het record waar het een administratieve dubbeltelling van is. Het opgeschoonde LVR1 2006 bestand wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\lvr1_opgeschoond.sasb7dat Pagina 11 van 61

Figuur 1A Flowchart LVR1 ^ LVR1 koppeling Pagina 12 van 61

1.2 Koppeling LVR2 ^ LVR2 Het doel van de toegepaste interne LVR2 ^ LVR2 koppeling is het verwijderen van administratieve dubbeltellingen uit het LVR2 bestand. De methodiek van deze LVR2^LVR2 koppeling is een deterministische koppeling. De LVR2^LVR2 koppeling vond plaats op basis van 11 koppelvariabelen. Als blocking-variabele is eerst de geboortedatum van de moeder gebruikt en daarna de postcode van de moeder. Het LVR2 2006 ASCII (Z:\Jaarbestand\ASCII\LVR2\lvr2jaar2006.dat) bestand wordt ingelezen en omgezet in een SAS jaarbestand (Z:\Jaarbestand\SAS jaar\lvr2\lvr2jr06.sasb7dat). Het LVR2 2006 bestand bestaat uit 119.593 records. Het LVR2 bestand wordt deterministisch met zichzelf gekoppeld voor het vinden van administratieve dubbeltellingen. De koppeling en selectie van administratieve dubbeltellingen vindt op dezelfde wijze plaats als bij de LVR1 koppeling. Met blocking op geboortedatum moeder worden 76 administratieve dubbeltellingen gevonden. De niet-gekoppelde records worden vervolgens nog gekoppeld met blocking op postcode moeder. Er worden nog 3 extra administratieve dubbeltellingen gevonden. De 79 gevonden administratieve dubbeltellingen worden samengevoegd en er worden clusters aangemaakt om te controleren of er administratieve tripels bijzitten. Er worden geen administratieve tripels gevonden. Van de administratieve dubbeltellingen wordt ieder tweede record verwijderd. Van de 119.593 LVR2 records zijn nu 79 administratieve dubbeltellingen verwijderd waardoor er nog 119.514 records over zijn. De recordidentificaties van de verwijderde administratieve dubbeltellingen records, staan beschreven in het sleutelbestand op positie 2 (g_admin1) na positie 1 waar de recordidentificatie (g_recid) staat van het record waar het een administratieve dubbeltelling van is. Het opgeschoonde LVR2 2006 bestand wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\lvr2_opgeschoond.sasb7dat Pagina 13 van 61

1.3 Koppeling LNR ^ LNR Het doel van de toegepaste interne LNR ^ LNR koppeling is het verwijderen van administratieve dubbeltellingen uit het LNR bestand. De methodiek van deze koppeling is een deterministische koppeling. De koppeling vond plaats op basis van 11 koppelvariabelen. Als blocking-variabele is eerst de geboortedatum van het kind gebruikt en daarna de postcode van de moeder. Deze koppeling is iets veeleisender omdat heropnames kunnen voorkomen. Het LNR 2006 ASCII (Z:\Jaarbestand\ASCII\LNR\lnrjaar2006.dat) bestand wordt ingelezen en omgezet in een SAS jaarbestand (Z:\Jaarbestand\SAS jaar\lnr\lnrjaar2006.sas7bdat). Het LNR 2006 bestand bestaat uit 34.882 records. Het LNR bestand wordt deterministisch met zichzelf gekoppeld voor het vinden van administratieve dubbeltellingen. De koppeling wordt eerst uitgevoerd met blocking op geboortedatum kind en vervolgens met blocking op postcode moeder. Alle paren waarbij de geboortedatum van het kind overeenkomt, worden aangemaakt (1.698.213 paren). Voor de koppeling worden de volgende 11 variabelen vergeleken: postcode moeder (geboortedatum kind bij blocking op postcode), geboortedatum moeder, amenorroeduur, gewicht, geslacht, datum opname, datum ontslag, LNR praktijkcode, meerlingcode en omvang meerling. Records worden als een administratieve dubbeltelling beschouwd als alle variabelen overeenkomen of als 1 variabele niet overeenkomt, het een eenling betreft en in ieder geval opname datum, ontslagdatum en LNR praktijkcode overeenkomen. Op deze manier worden 72 administratieve dubbeltellingen gevonden. De niet-gekoppelde records worden vervolgens nog gekoppeld met blocking op postcode moeder. Hierbij worden geen extra administratieve dubbeltellingen gevonden. De 72 gevonden administratieve dubbeltellingen worden samengevoegd en er worden clusters aangemaakt om te controleren of er administratieve tripels bijzitten. Er worden geen administratieve tripels gevonden. Van de administratieve dubbeltellingen wordt ieder tweede record verwijderd. Van de 34.882 LNR records zijn nu 72 administratieve dubbeltellingen verwijderd, waardoor er nog 34.810 LNR records over zijn. De recordidentificaties van de verwijderde administratieve dubbeltellingen records, staan beschreven in het sleutelbestand op positie 2 (n_admin1) na positie 1 waar de recordidentificatie (n_recid) staat van het record waar het een administratieve dubbeltelling van is. Het opgeschoonde LNR 2006 bestand wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\lnr_opgeschoond.sasb7dat Pagina 14 van 61

Hoofdstuk 2 Koppeling LNR ^ LNR voor vinden van heropnames Het doel van de toegepaste interne LNR ^ LNR koppeling is het vinden van heropnames behorend bij hetzelfde kind in het LNR bestand. De methodiek van deze koppeling is een probabilistische koppeling op basis van 8 koppelvariabelen, apart voor eenlingen en meerlingen. Als blocking-variabele is eerst de geboortedatum van het kind gebruikt en daarna de postcode van de moeder. 2.1 Koppeling LNR ^ LNR voor vinden van heropnames bij eenlingen Het opgeschoonde LNR bestand met 34.810 records ($1.3) wordt ingelezen vanaf Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\lnr_opgeschoond.sasb7dat. Uit dit bestand worden de eenlingrecords (31.607) en meerlingrecords (3.203) gescheiden. Zie figuur 2A voor de flowchart van de LNR ^ LNR eenlingkoppeling. Het LNR bestand wordt probabilistisch met zichzelf gekoppeld voor het vinden van heropnames. De koppeling wordt eerst uitgevoerd met blocking op geboortedatum kind en vervolgens met blocking op postcode moeder. Alle paren waarbij de geboortedatum van het kind overeenkomt, worden aangemaakt (1.390.644 paren). Voor de koppeling worden de volgende 8 variabelen vergeleken (zie Tabel 2.1): geboortedatum moeder, amenorroeduur in weken, postcode (geboortedatum kind bij blocking op postcode), gewicht, geslacht, Apgarscore na 5 minuten en patiëntidentificatie. Voor de variabele geboortegewicht wordt naast een full match ook een close gedefinieerd. Er is sprake van een close als het verschil in gewicht kleiner of gelijk is aan 50 gram. Tabel 2.1 Frequentietabel koppelvariabelen LNR^LNR heropnames eenlingen 2006 Variabele label Variabele naam Aantal missend % Missend Geboortedatum moeder n_ddgebmoe 4.221 13,3% Apgar score na 5 minuten n_kop_apg5 1.806 5,7% Postcode (4 cijfers) n_kop_pc 567 1,8% Gewicht kind n_kop_gew 296 <1% Geslacht kind n_kop_gesl 3 <0,01% Patiëntidentificatie n_patid 2 <0,01% Amenorroeduur in weken n_kop_amw 1 <0,01% Geboortedatum kind n_ddgebkind 0 0% Tabel 2.2 geeft de gewichten bij overeenstemming en geen overeenstemming weer, die berekend zijn op basis van de u i en m i waarden waarden met blocking op geboortedatum kind. De u i waarden zijn berekend op basis van de randtotalen en de m i waarden op basis van fitting met een non-lineaire procedure. Tabel 2.2 Gewichten koppelvariabelen LNR ^ LNR heropnames eenlingen 2006 Variabele m i waarden u i waarden Gewicht bij agree Gewicht bij Disagree Geboortedatum moeder 0,9178 0,0001 12,87-3,60 Patiëntidentificatie 0,6242 0,0001 12,58-1,41 Postcode (4 cijfers) 0,9800 0,0011 9,84-5,64 Gewicht kind (full) 0,8391 0,0022 8,58-3,92 Gewicht kind (+/- 50 gr) 0,0975 0,0374 1,38 nvt Geboortedatum kind* 0,9732 0,0030 8,36-5,22 Amenorroeduur in weken 0,9699 0,1262 2,94-4,86 Apgar-score na 5 minuten 0,9165 0,3884 1,24-2,87 Geslacht kind 0,9545 0,5055 0,92-3,44 * deze waarden zijn berekend met blocking op postcode moeder Op basis van de geschatte prevalentie van het aantal matches berekend met de fitting procedure verwacht men 0,00239 * 1.390.644 = 3.326 links te vinden. Op basis van de geschatte prevalentie en het bekijken van de paren wordt een afkappunt van 6,6 gekozen en worden 3.178 paren geselecteerd als link. Pagina 15 van 61

Figuur 2A Flowchart LNR ^ LNR eenlingkoppeling Pagina 16 van 61

Vervolgens worden alle paren aangemaakt waarbij de postcode van de moeder hetzelfde is (568.728 paren). Paren boven het afkappunt van 17,5 en waarbij de geboortedatum van het kind niet overeenkomt worden geselecteerd (15 paren). In totaal zijn er 3.193 paren geselecteerd als links. Er worden clusters aangemaakt van deze paren om alle heropnames van een kind bij elkaar te vinden. In totaal zijn er 2.149 kinderen die meer dan één keer zijn opgenomen (1.743 kinderen die twee keer zijn opgenomen, 355 kinderen drie keer, 41 kinderen vier keer, 5 kinderen vijf keer, 4 kinderen zes keer en 1 kind negen keer.). Het overgebleven LNR eenlingbestand (26.834 records) bestaat uit kinderen die één keer zijn opgenomen (tabel 2.3). Tabel 2.3 Aantal opnames bij LNR eenlingen 2006 Opname Aantal Records Aantal kinderen % Aantal records 1 26.834 26.834 84,8% 2 3.486 1.743 11,0% 3 1.065 355 3,4% 4 164 41 0,5% 5 25 5 <0,1% 6 24 4 <0,1% 9 9 1 <0,1% Totaal 31.607 28.983 100,0 % Het uiteindelijke LNR 2006 eenlingbestand bestaat uit de samenvoeging van het bestand van kinderen die één keer zijn opgenomen (26.834 records) en het bestand van de kinderen met heropnames (4.773 records van 2.149 kinderen). Dit bestand bestaat in totaal uit 31.607 records en wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\lnr_2006_singleton.sasb7dat. Dit bestand zal gebruikt worden voor de eenlingkoppeling met het gekoppelde LVR1^LVR2 bestand. 2.2 Koppeling LNR ^ LNR voor vinden van heropnames bij meerlingen Het vinden van heropnames bij meerlingen gebeurt op dezelfde wijze als bij eenlingen. Nu worden alleen de meerlingrecords geselecteerd uit het Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\lnr_opgeschoond.sasb7dat bestand (3.203 records). Zie figuur 2B voor een flowchart van de LNR^LNR meerlingkoppeling. Alle paren waarbij de geboortedatum van het kind overeenkomt, worden aangemaakt (17.490 paren). Er worden net als bij de eenlingkoppeling 8 variabelen vergeleken. Alle paren boven het afkappunt 9,0 worden geselecteerd als link (2.222 paren). Blocking op postcode moeder levert nog 2 extra paren op. In totaal zijn er 2.224 paren geselecteerd als link. De meerlingcode en omvang meerlingcode worden nu niet meegenomen, omdat uit de LNR validatiestudie bleek dat deze waarden niet betrouwbaar zijn [9,10]. Er is voor de PRN koppeling 2005 een nieuwe systematiek bedacht om heropnames van meerlingen in de clusters in de LNR registratie op te lossen (oftewel de juiste heropname aan het juiste meerlingkind te koppelen). Uit de validatiestudie bleek namelijk ook dat het algoritme er goed in slaagde om alle opnames van kinderen van één meerling bij elkaar te vinden maar binnen een meerlingpaar heropnames verwisselde indien er een fout zat in de meerlingcode. Deze nieuwe systematiek is in 2006 wederom toegepast. Er worden clusters aangemaakt van de 2.224 paren boven het afkappunt, om de juiste opnames bij elkaar te vinden. In totaal zijn er 1.125 clusters gevonden van verschillende grootte (zie tabel 2.4) Een tweede totaalgewicht wordt gebruikt om de clusters op te lossen (opnames van 1 meerlingkind bij elkaar te zoeken). Dit tweede totaalgewicht is alleen gebaseerd op variabelen die kunnen verschillen tussen kinderen van een meerling (gewicht kind, geslacht, apgarscore 5 min en meerlingcode) daarnaast wordt voor de meerlingcode een gewicht van +1 toegekend als de code overeenkomt en een gewicht van -1 als de code verschilt. Pagina 17 van 61

Na visuele inspectie van de verschillende clusters blijkt het afkappunt 5.0 goed te voldoen. Op basis van het afkappunt voor het tweede totaalgewicht worden er 584 paren gevonden. Dit is een selectie van de 2.224 paren met het eerste totaalgewicht boven het afkappunt. Tabel 2.4 Clusters LNR ^ LNR heropnames meerlingen 2006 Aantal paren Aantal clusters Aantal paren per cluster 1 898 898 2 23 46 3 63 189 4 11 44 5 9 45 6 87 522 7 2 14 8 2 16 9 1 9 10 9 90 12 2 24 15 12 180 21 4 84 27 1 27 36 1 36 Totaal 1.125 2.224 Er worden opnieuw clusters aangemaakt om de heropnames van hetzelfde kind te vinden. Er zijn 389 meerlingkinderen die meer dan één keer zijn opgenomen (316 kinderen zijn 2 keer opgenomen, 61 kinderen 3 keer, 8 kinderen 4 keer, 2 kinderen 5 keer, en 2 kinderen 6 keer). Het overgebleven LNR meerlingbestand (2.334 records) bestaat uit kinderen die één keer zijn opgenomen. Het uiteindelijke LNR 2006 meerlingbestand bestaat uit de samenvoeging van het bestand van kinderen die één keer zijn opgenomen (2.334 records) en het bestand van de kinderen met heropnames (869 records van 389 kinderen). Dit bestand bevat in totaal 3.203 records van 2.723 kinderen en wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\lnr_2006_meerling.sasb7dat. Dit bestand zal gebruikt worden voor de meerlingkoppeling met het gekoppelde LVR1^LVR2 bestand. Tabel 2.3 Aantal (her)opnames bij LNR meerlingen 2006 Opname Aantal records Aantal kinderen % Aantal records 1 2.334 2.334 72,8% 2 632 316 9,9% 3 183 61 5,7% 4 32 8 1,0% 5 10 2 0,3% 6 12 2 0,4% Totaal 3.203 2.723 100,0 % 2.3 Koppeling niet-gekoppelde LNR eenlingen ^ meerlingen Het niet-gekoppelde LNR eenlingbestand (26.834 records) wordt gekoppeld met het nietgekoppelde LNR meerlingbestand (2.334 records). Met blocking op geboortedatum kind en met blocking op postcode moeder worden in dit jaar geen extra paren gevonden. Er zijn in 2006 geen records gekoppeld bij de koppeling van niet-gekoppelde LNR eenlingen met nietgekoppelde meerlingen. Pagina 18 van 61

2.4 Creatie LNR^LNR eindbestanden Als vast onderdeel van de koppeling worden vanaf 2006 twee gekoppelde LNR eindbestanden aan de stichting PRN geleverd, een opname LNR bestand en een kind LNR bestand. Het LNR opnamebestand wordt gevormd door het LNR eenling eindbestand (31.607 opnamerecords van 28.983 kinderen) en het LNR meerling eindbestand (3.203 opnamerecords van 2.723 kinderen) samen te voegen, en bestaat uit 34.810 opname records (van 31.706 kinderen). Het LNR kindbestand wordt gevormd door alle opnames van een kind te voorzien van een opname nummer en deze op kind niveau naast elkaar te zetten (31.706 kinderen). Het gekoppelde LNR^LNR eindbestand wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lnr_lnr_totaal2006_final.sas7bdat. Het LNR administratieve dubbel eindbestand wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lnr_admindubbel _2006_final.sas7bdat. Pagina 19 van 61

Figuur 2B Flowchart LNR ^ LNR meerlingkoppeling Pagina 20 van 61

Hoofdstuk 3 Koppeling LVR1 ^ LVR2 Het doel van de LVR1 ^ LVR2 koppeling is het koppelen van LVR1 records en LVR2 records die bij dezelfde zwangerschap horen. De LVR1 ^ LVR2 koppeling wordt voor eenlingen en meerlingen afzonderlijk uitgevoerd. De methodiek van de koppelingen is een probabilistische koppeling op basis van 10 variabelen, met blocking op geboortedatum moeder en vervolgens op postcode moeder. 3.1 Koppeling LVR1 ^ LVR2 eenlingen Het opgeschoonde LVR1 bestand wordt ingelezen (175.142 records). Uit dit bestand worden de eenlingrecords geselecteerd (170.422 records). Het opgeschoonde LVR2 bestand wordt ingelezen (119.514 records). Uit dit bestand worden de eenlingrecords geselecteerd (112.879 records). Zie figuur 3A voor een flowchart van de LVR1^LVR2 eenlingkoppeling. Het LVR1 en LVR2 bestand worden probabilistisch gekoppeld met blocking op geboortedatum moeder en vervolgens met blocking op postcode moeder. Alle paren waarbij de geboortedatum van de moeder overeenkomt, worden aangemaakt (3.082.580 paren). Voor de koppeling worden de volgende 11 variabelen vergeleken (zie Tabel 3.1): postcode (geboortedatum moeder bij blocking op postcode), graviditeit, geboortedatum kind, à terme datum, gewicht, geslacht, geboorte uur, plaats bevalling en geboorte minuut. Voor de variabelen geboortedatum kind, à terme datum en geboortegewicht worden naast een full match ook een close gedefinieerd. Bij geboortedatum kind is er sprake van een close als de geboortedatum niet meer dan 1 dag verschilt. Bij à terme datum is er sprake van een close als de à terme datum niet meer dan 1 week verschilt. Bij gewicht is sprake van een close als het verschil in gewicht kleiner of gelijk is aan 5 gram. De à terme datum wordt alleen vergeleken als de geboortedatum van het kind ontbreekt. De plaats bevalling wordt alleen vergeleken als de postcode van de moeder ontbreekt of niet overeenkomt. Tabel 3.1 Frequentietabel koppelvariabelen LVR1 ^ LVR2 eenlingen 2006 Variabele label Variabele naam Aantal missend % Missend LVR1 (n=175.142) Ziekenhuisnummer bevalling* v_klin 63.866 37,5% Geslacht kind* v_kop_gesl 24.967 14,7% Gewicht kind* v_kop_gew 24.914 14,6% Geboorte uur kind* v_kop_uur 24.702 14,5% Geboorte minuut* v_kop_min 24.702 14,5% Geboortedatum kind* v_ddgebkind 24.691 14,5% Plaats bevalling* v_pltsbev 21.454 12,6% À terme datum v_ddaterm 19.829 11,6% Postcode moeder (4 cijfers) v_kop_pc 412 0,24% Graviditeit v_kop_grav 118 <0,1% Geboortedatum moeder v_ddgebmoe 2 <0,01% LVR2 (n=112.879) Postcode moeder (4 cijfers) g_kop_pc 1467 1,3% Geslacht kind g_kop_gesl 189 0,17% Gewicht kind g_kop_gew 161 0,14% Graviditeit g_kop_grav 11 0,01% À terme datum g_ddaterm 5 <0,01% Geboorte minuut g_kop_min 3 <0,01% Geboorte uur kind g_kop_uur 0 Geboortedatum moeder g_ddgebmoe 0 Geboortedatum kind g_ddgebkind 0 Lvr-nummer praktijk g_lvr 0 Plaats bevalling g_pltsbev 0 *Missend is hier soms het gevolg van het terecht (logisch) ontbreken van informatie, een hoog missing percentage betekent in deze gevallen dus niet een op voorhand lage data kwaliteit. Pagina 21 van 61

Figuur 3A Flowchart LVR1 ^ LVR2 eenlingkoppeling Pagina 22 van 61

Tabel 3.2 geeft de gewichten bij overeenstemming en geen overeenstemming weer, die berekend zijn op basis van de u i en m i waarden met blocking op geboortedatum moeder. De u i waarden zijn berekend op basis van de randtotalen en de m i waarden op basis van fitting met een non-lineaire procedure. De u i en m i waarden met blocking op postcode zijn vergelijkbaar. Tabel 3.2 Gewichten koppelvariabelen LVR1 ^ LVR2 eenlingen 2006 Variabele m i waarden u i waarden Gewicht bij agreement Gewicht bij disagreement Geboortedatum moeder* 0,9939 0,0007 10,48-7,36 Postcode (4 cijfers) 0,9629 0,0007 10,50-4,75 Geboortedatum kind (full) 0,9766 0,0028 8,45-7,34 Geboortedatum kind (± 1dg) 0,0173 0,0055 1,64 Nvt À terme datum (full) 0,9219 0,0027 8,43-7,00 À terme datum (± 7 dgn) 0,0706 0,0368 0,94 Nvt Gewicht kind (full) 0,9495 0,0035 8,10-4,52 Gewicht kind (± 5 gr) 0,0074 0,0035 1,07 Nvt Plaats bevalling 0,9022 0,0078 6,86-3,34 Geboorte minuut 0,9378 0,0175 5,74-3,98 Geboorte uur kind 0,9762 0,0426 4,52-5,33 Graviditeit 0,9466 0,3093 1,61-3,69 Geslacht kind 0,9940 0,5005 0,99-6,38 * deze waarden zijn berekend met blocking op postcode moeder Op basis van de geschatte prevalentie van het aantal matches berekend met de fitting procedure verwacht men 0,0302 * 3.082.580 = 93.093 links te vinden. Op basis van de geschatte prevalentie wordt een afkappunt van 7,7 gekozen en worden 90.536 paren geselecteerd als link. Het LVR1 en LVR2 bestand worden nu gekoppeld met blocking op postcode moeder. Alle paren waarbij de postcode van de moeder overeenkomt, worden aangemaakt. Paren boven het afkappunt van 7.0 en waarbij de geboortedatum van de moeder niet overeenkomt worden geselecteerd (480 paren). Het totale gegelinkte bestand bestaat uit 91.016 recordparen (90.536+480). Er worden clusters aangemaakt van de records die met twee of meer records uit het andere bestand koppelen. In totaal zijn er 88.321 paren die uniek gekoppeld zijn en 2.695 paren die in de clusters terecht komen. Er worden 980 LVR1 records zonder kind informatie (zogenaamde losse zwangerschaps records) verwijderd uit de clusters omdat een ander LVR1 record met meer informatie aan hetzelfde LVR2 record koppelde. Deze records worden als administratieve dubbeltellingen weggeschreven. Vervolgens wordt van iedere cluster het recordpaar met het hoogste gewicht meegenomen. Na het oplossen van de clusters zijn er 1.341 paren geselecteerd als link en bestaat het totale gekoppelde bestand uit 89.662 recordparen (88.321 + 1.341). De gekoppelde LVR1 records worden verwijderd uit het LVR1 eenlingbestand dat daarna nog bestaat uit 80.760 records (170.422 89.662). Vervolgens worden ook nog de LVR1 losse zwangerschapsrecords (980) verwijderd en bestaat het LVR1 eenling restbestand uit 79.780 records. Tot slot worden uit dit bestand de extra toegevoegde 7.129 LVR1 records uit 2005 verwijderd die niet gekoppeld zijn aan een LVR2 record van 2006, waardoor het nietgekoppelde LVR1 bestand bestaat uit 72.651 records. De gekoppelde LVR2 records worden verwijderd uit het LVR2 eenlingrestbestand, dat daarna nog bestaat uit 23.217 records (112.879 89.662). Het totale gekoppelde LVR1^LVR2 eenlingbestand bestaat uit de niet-gekoppelde LVR1 records (72.651), de gekoppelde LVR1^LVR2 records (89.662) en de niet-gekoppelde LVR2 records (23.217). Het gekoppelde eenlingbestand bestaat uit 185.530 records en wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie1.0\ lvr1_lvr2_2006_singleton.sasb7dat. Pagina 23 van 61

3.2 Koppeling LVR1 ^ LVR2 meerlingen De meerlingrecords worden geselecteerd uit het opgeschoonde LVR1 bestand (4.720 records) en uit het opgeschoonde LVR2 bestand (6.635 records). Zie figuur 3B voor een flowchart van de LVR1 ^ LVR2 meerlingkoppeling. De meerlingkoppeling wordt op dezelfde manier uitgevoerd als de eenlingkoppeling, alleen wordt er nu ook gekeken naar de LVR1 en LVR2 variabelen meerlingcode en omvang meerling. De u i en m i waarden die op basis van het eenlingbestand LVR1^LVR2 zijn berekend worden ook hier bij de meerlingkoppeling gebruikt. Alle paren waarbij de geboortedatum van de moeder hetzelfde is, worden aangemaakt (13.846 paren). Alle paren boven het afkappunt van 13.0 waarbij de meerlingcode en omvang meerling overeenkomen of de meerlingcode en omvang meerling beide 1 zijn, worden geselecteerd als match (4.089 paren). Er worden clusters aangemaakt van de records die met twee of meer records uit het andere bestand koppelen. In totaal zijn er 3.710 paren die uniek gekoppeld zijn en 379 paren die in de clusters terecht komen. De clusters worden bekeken en administratieve dubbeltellingen worden alsnog verwijderd. (41 LVR1 records). Hier geldt dat records worden beschouwd als administratieve dubbeltelling, als het een los zwangerschaprecord betreft of als iedere waarde in de vector overeenkomt. Vervolgens wordt van iedere cluster het recordpaar met het hoogste gewicht meegenomen. Na het oplossen van de clusters zijn er 260 paren geselecteerd als link en bestaat het totale gelinkte bestand uit 3.970 recordparen. Er komen 67 dubbele LVR1 records voor in het bestand (3.903 unieke LVR1 records). LVR1 records met omvang meerling 1 zijn meegenomen als meerling als de reden verwijzing naar de 2 e lijn een meerlingzwangerschap was. Dit LVR1 record is aan beide LVR2 records van deze meerling gekoppeld en komt daardoor dubbel voor in het gekoppelde bestand. De gekoppelde LVR1 records worden verwijderd uit het LVR1 meerlingbestand dat nu nog bestaat uit 776 records (4.720 3.903 41). De gekoppelde LVR2 records worden verwijderd uit het LVR2 meerlingbestand dat nu nog bestaat uit 2.665 records (6.635 3.970). Deze bestanden worden vervolgens gekoppeld met blocking op postcode moeder. Alle paren waarbij de postcode moeder overeenkomt worden aangemaakt (2.194 paren). Paren boven het afkappunt van 13.0 en waarbij de geboortedatum van de moeder niet overeenkomt en bovendien de meerlingcodes gelijk zijn of beide 1, worden geselecteerd (25 paren). Er zijn geen clusters. Het totale aantal links is 3.970 + 25 = 3.995 paren. De records die gekoppeld zijn met blocking op postcode moeder worden verwijderd uit het LVR1 meerlingbestand, dat nu nog uit 751 records bestaat (776-25). Uit dit bestand worden de 115 records uit 2005 verwijderd, waardoor het niet-gekoppelde LVR1 meerlingbestand bestaat uit 636 records. De records die gekoppeld zijn met blocking op postcode moeder worden verwijderd uit het LVR2 meerlingbestand, dat nu nog uit 2.640 records bestaat (2.665-25). Het totale gekoppelde LVR1^LVR2 meerlingbestand bestaat uit de niet-gekoppelde LVR1 records (636), de gekoppelde LVR1^LVR2 records (3.995) en de niet-gekoppelde LVR2 records (2.640). Het gekoppelde bestand bestaat uit 7.271 records en wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lvr1_lvr2_2006_meerling.sas7bdat. Pagina 24 van 61

Figuur 3B Flowchart LVR1 ^ LVR2 meerlingkoppeling Pagina 25 van 61

3.3 Koppeling niet-gekoppelde LVR1 eenlingen met LVR2 meerlingen Het niet-gekoppelde LVR1 eenlingbestand (72.651 records) wordt gekoppeld met het nietgekoppelde LVR2 meerlingbestand (2.640 records). Bij blocking op geboortedatum moeder worden 46 paren gevonden boven het afkappunt van 30,0. Er zijn geen clusters, dus worden er 46 paren geselecteerd als link. Blocking op postcode moeder levert geen extra paren. 3.4 Koppeling niet-gekoppelde LVR1 meerlingen met LVR2 eenlingen Het niet-gekoppelde LVR1 meerlingbestand (636 records) wordt gekoppeld met het nietgekoppelde LVR2 eenlingbestand (23.217 records). Bij blocking op geboortedatum moeder worden 63 paren gevonden boven het afkappunt van 22,5. Na het oplossen van de clusters worden er 57 paren geselecteerd als link. Blocking op postcode moeder levert geen extra paren. 3.5 Creatie LVR1^LVR2 eindbestand Uit het LVR1^LVR2 eenling eindbestand (185.530 records) worden de records verwijderd die nog gekoppeld zijn bij de koppeling van niet-gekoppelde eenlingen met meerlingen (103 paren). Het LVR1^LVR2 eenling eindbestand bestaat uit 185.427 records. De gevonden links bij de koppeling van niet-gekoppelde eenlingen met meerlingen worden toegevoegd aan het meerling eindbestand (103 paren). Tevens worden de records die nog gekoppeld zijn, verwijderd uit het meerling eindbestand (103 records). Het LVR1^LVR2 meerling eindbestand bestaat uit 7.271 records (zie tabel 3.3). De gekoppelde LVR1^LVR2 eenling en meerling eindbestanden worden weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lvr1_lvr2_singleton_2006_final.sas7bdat. Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lvr1_lvr2_meerling_2006_final.sas7bdat. De LVR1 en LVR2 administratieve dubbel eindbestanden worden weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lvr1_admindubbel_final _2006.sas7bdat. Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lvr2_admindubbel_final_2006.sas7bdat. Tabel 3.3 Overzicht van de LVR1 ^ LVR2 koppeling 2006 Geschoond bestand Voor koppeling Na koppeling Na eenling/meerling koppeling LVR1 eenling 170.422 LVR2 eenling 112.879 LVR^LVR2 eenling 185.530 185.427 LVR1 meerling 4.720 LVR2 meerling 6.635 LVR1^LVR2 meerling 7.271 7.271 Pagina 26 van 61