Het toepassingen van data science & data-analyse in een beleidscontext

Vergelijkbare documenten
Centrum voor Beleidsstatistiek en Microdata Services. Documentatierapport Hoogst behaalde diploma op basis van onderwijsregistraties (HDIPLOMAREGTAB)

EEN COMBINATIE VAN MULTIPLE IMPUTATION (MI) EN LATENTEKLASSENANALYSE (LC) OM TE CORRIGEREN VOOR MEETFOUT

(GBASTANDBEVOLKINGTAB)

Microdata Services. Documentatie Aanbod van arbeid (Arbeidsaanbodpanel)

Microdata Services. Documentatie Personen met een besteed PGB ten laste van Wlz, Wmo 2015 en Jeugdwet (PGBWLZWMOJWTAB)

Administratie (GBA) ingeschreven personen, niet gecoördineerd.

Microdataservices. Documentatie Leeftijd bij overlijden (Leeftijdbov)

Microdata Services. Bronvermelding

Documentatierapport Persoonskenmerken van alle in de Gemeentelijke Basis Administratie (GBA) ingeschreven personen (GBAPERSOONTAB)

(GBASTANDBEVOLKINGTAB)

Documentatierapport Persoonskenmerken van alle in de Gemeentelijke Basis Administratie (GBA) ingeschreven personen, gecoördineerd (GBAPERSOONTAB)

(GBA) (VRLGBAOVERLIJDENTAB)

Gevoeligheid van de vangst-hervangst methode voor geschonde aannames

Basisadministratie Persoonsgegevens (GBA) ingeschreven personen, nietgecoördineerd.

(GBASCHEIDINGENMASSATAB)

Microdataservices. NIVEL_CBS: procedure voor koppeling NIVEL data met CBS microdata

startkwalificatie en personen die in het onderwijs blijven (definitieve cijfers).

Microdata Services. Documentatie Examenuitslagen per vak van leerlingen in het voortgezet onderwijs (EXAMVOVAKTAB)

Centrum voor Beleidsstatistiek en Microdata Services

Microdata Services. Documentatie Hoogst behaalde diploma op basis van onderwijsregistraties (HDIPLOMAREGTAB)

Documentatierapport Koppeltabel RINPERSOON met BEID voor zelfstandigen (KOPPELTABELZELFSTANDIGEN)

Microdataservices. Documentatie Pensioenaanspraken

Centrum voor Beleidsstatistiek en Microdata Services. Documentatierapport Wanbetalers Zorgverzekeringswet (WANBZVWTAB)

Microdata Services. Documentatie Maandbedragen personen met een AOW-uitkering (AOWPERSOONMNDBEDRAGBUS)

Documentatierapport Datum van overlijden van personen die ingeschreven staan in de Gemeentelijke Basisadministratie (GBA) (GBAOVERLIJDENTAB)

Documentatie Personen met een re-integratietraject dat wordt verzorgd door het Uitvoeringsinstituut Werknemersverzekeringen (UWVTRAAGGTABULT)

het Uitvoeringsinstituut Werknemersverzekeringen, niet gecoördineerd.

BIJLAGE. bij Uitvoeringsverordening (EU).../... van de Commissie

Uitvoeringsinstituut Werknemersverzekeringen, niet gecoördineerd.

Documentatierapport Kenmerken van deelcertificaten die in het voortgezet algemeen volwassenenonderwijs zijn behaald (DEELCERTIFICATENVAVOTAB)

Documentatierapport Kenmerken van deelcertificaten die in het voortgezet algemeen volwassenenonderwijs zijn behaald (DEELCERTIFICATENVAVOTAB)

Documentatierapport Kenmerken van door studenten behaalde diploma's in het middelbaar beroepsonderwijs (DIPLOMAMBOTAB)

MULTIPELE IMPUTATIE IN VOGELVLUCHT

Haalbaarheidsstudie Gewoonlijk Verblijvende Bevolking

(GBAVERWEDUWDENMASSABUS)

Documentatie Nationaliteit van personen die niet zijn ingeschreven in de Gemeentelijke Basisadministratie Persoonsgegevens (NIETGBANATIONALITEITBUS)

Microdataservices. Bronvermelding

Documentatierapport Personen met een re-integratietraject dat wordt verzorgd door het Uitvoeringsinstituut Werknemersverzekeringen (UWVTRAAGGTABULT)

Documentatie Persoonskenmerken van personen die niet zijn ingeschreven in de Gemeentelijke Basisadministratie Persoonsgegevens (NIETGBAPERSOONTAB)

ingeschreven in de Gemeentelijke Basisadministratie Persoonsgegevens.

Microdataservices. Documentatierapport Diagnosen behorend bij ziekenhuisopnamen Landelijke Basisregistratie Ziekenhuiszorg (LBZDIAGNOSENTAB)

Microdataservices. Bronvermelding

Documentatierapport Adreskenmerken van personen die in de gemeentelijke bevolkingsregisters ingeschreven (hebben ge)staan (GBAADRESOBJECTBUS)

(GBAVERBINTENISSENMASSATAB)

Microdataservices. Documentatierapport Baanbeëindigingen wegens faillissement (FAILONTSLAGTAB)

Big Data en de officiële statistiek Enkele voorbeelden

Microdata Services. Documentatie Maandbedragen van personen met een Ziektewetuitkering (ZWPERSOONMNDBEDRAGBUS)

Centrum voor Beleidsstatistiek en Microdata Services. Documentatierapport Wanbetalers

Microdata Services. Documentatie Volgtijdelijk vergelijkbare Persoon_id's van personen (VTVPERSOONTAB)

Centrum voor Beleidsstatistiek en Microdata Services. Documentatierapport Baanbeëindigingen wegens faillissement (FAILONTSLAGTAB)

Microdataservices. Documentatierapport Personen met een Algemene Nabestaandenwet (ANW)-uitkering (MICANWPERSOONBUS)

Effectieve beleidsontwikkeling met data science

Innovatie Woononderzoek

startkwalificatie en personen die in het onderwijs blijven (definitieve cijfers).

Microdataservices. Documentatierapport Eerst behaalde einddiploma in het hoger onderwijs (EERSTEDIPLOMAHOTAB)

(NIETGBANATIONALITEITBUS)

Microdata Services. Documentatie Maandbedragen personen met een bijstandsuitkering (BIJSTANDPERSOONMNDBEDRAGBUS)

Documentatie Nationaliteit van personen die niet zijn ingeschreven in de Gemeentelijke Basisadministratie Persoonsgegevens (NIETGBANATIONALITEITBUS)

Microdata Services. Documentatie Maandelijkse loonbedragen van werknemers (BAANPRSMNDBEDRAGBUS)

Microdataservices. Documentatierapport Jaarlijkse loonbedragen van werknemers (BAANPRSJAARBEDRAGTAB)

Microdata Services. Documentatie Maandbedragen van personen met een werkloosheidsuitkering (WW) (WWPERSOONMNDBEDRAGBUS)

Documentatierapport In de Gemeentelijke Basisadministratie Persoonsgegevens (GBA) ingeschreven personen en hun juridische ouders (KINDOUDERTAB)

Documentatierapport Jaarbedragen van personen met een Algemene Ouderdomswet (AOW)-uitkering (AOWJAARBEDRAGTAB)

partnerschap van in de Gemeentelijke Basisadministratie Persoonsgegevens (GBA) ingeschreven personen.

Microdataservices. Documentatierapport Jaarbedragen van personen met een bijstandsuitkering (BIJSTANDJAARBEDRAGTAB)

Microdataservices. Documentatierapport Personen met een pensioenuitkering anders dan AOW of ANW (PENSOVPERSOONBUS)

Basisadministratie Persoonsgegevens (GBA) ingeschreven overleden personen.

Data (mis-)management

Microdataservices. Documentatierapport Kenmerken van door studenten behaalde diploma's in het middelbaar beroepsonderwijs (DIPLOMAMBOTAB)

Centrum voor Beleidsstatistiek en Microdata Services. Documentatierapport Jaar(loon)bedragen van werknemers (BAANPRSJAARBEDRAGTAB)

Centrum voor Beleidsstatistiek en Microdata Services. Documentatierapport Personen met een pensioenuitkering anders dan AOW of ANW (PENSOVPERSOONBUS)

Documentatie Eigen bijdrage Wet maatschappelijke ondersteuning (Wmo) zorg met verblijf van personen 18 jaar en ouder (EBWMOVBLBUS)

Documentatierapport Kenmerken van pensioenuitkeringen aan personen anders dan AOW of ANW (PENSOVPERSOONBUS)

Centrum voor Beleidsstatistiek en Microdata Services

Documentatierapport Maandbedragen inkomsten uit een uitkering uit het buitenland van personen (UITKBUITLANDMNDBEDRAGBUS)

Centrum voor Beleidsstatistiek en Microdata Services. Documentatierapport Hoofddiploma in het Hoger Beroepsonderwijs (HDIPLOMAHBOTAB)

Microdataservices. Documentatie Jaarbedragen van personen met een Algemene Ouderdomswet (AOW)-uitkering (AOWJAARBEDRAGTAB)

Documentatierapport Personen met een Algemene Nabestaandenwet (ANW)-uitkering (MICANWPERSOONBUS)

Documentatierapport Gegevens over overige pensioenen inclusief nabetalingen van personen (PENSOVJAARBEDRAGTAB)

VRLGBABURGERLIJKESTAATBUS

Centrum voor Beleidsstatistiek en Microdata Services

Vergelijking verwerkingsregister AVG

Microdataservices. Documentatierapport Maandelijkse loonbedragen van werknemers (BAANPRSMNDBEDRAGBUS)

Documentatierapport Deelnemers in het voortgezet, middelbaar en hoger onderwijs (ONDERWIJSDEELNEMERSTAB)

Microdataservices. Documentatierapport Maandbedragen inkomsten arbeid buitenland van personen (ARBBUITLANDMNDBEDRAGBUS)

Microdataservices. Documentatierapport Maandbedragen inkomsten uit een uitkering uit het buitenland van personen (UITKBUITLANDMNDBEDRAGBUS)

Microdataservices. Documentatie Jaarbedragen van personen met een Werkloosheidswet (WW)-uitkering (WWJAARBEDRAGTAB)

Microdataservices. Documentatierapport Ontslagaanvragen bij het Uitvoeringsinstituut Werknemersverzekeringen (UWV) (UWVONTAANVTAB)

Documentatierapport Personen in Nederland met gegevens over hun arbeidsverleden in de afgelopen 4 jaar (RAVTAB)

Microdataservices. Documentatierapport Kenmerken van IOW-uitkeringen (IOWUITKERING1ATAB)

(GBANATGEWIJZIGDENMASSABUS)

Microdataservices. Documentatierapport Numerieke postcode van een verblijfsobject (VSLPOSTCODEBUS)

Documentatierapport Maandbedragen inkomsten arbeid buitenland van personen (ARBBUITLANDMNDBEDRAGBUS)

Microdataservices. Documentatierapport Koppeltabel RINPERSOON met BEID voor zelfstandigen (KOPPELTABELZELFSTANDIGEN)

Recente ontwikkelingen rond het Sociaal Statistisch Bestand (SSB)

Microdataservices. Documentatierapport Personen met een Algemene Ouderdomswet (AOW)-uitkering (MICAOWPERSOONBUS)

Microdataservices. Documentatierapport Kenmerken van IOW-uitkeringen (IOWUITKERING1ATAB)

Big Data en het CBS. Enkele voorbeelden. Piet Daas, May Offermans, Martijn Tennekes, Alex Priem, Paul van den Hurk

Documentatierapport Maandbedragen van personen met een pensioenuitkering anders dan AOW of ANW (PENSOVMNDBEDRAGBUS)

Transcriptie:

Het toepassingen van data science & data-analyse in een beleidscontext Peter G.M. van der Heijden Universiteit Utrecht en University of Southampton Trekker focusgebied 31 mei 2018 Outline Rol CBS Over administratieve data Ethische aspecten Conclusie 31 mei 2018 2 1

Outline Rol CBS Over administratieve data Ethische aspecten Conclusie 31 mei 2018 3 Wat heeft het CBS te bieden? 1. System of social statistical datasets (SSD) 2. Data service center (met dank aan Marleen Verbruggen, CBS, voor slides die hier en daar zijn aangepast) 31 mei 2018 4 2

Hoe werkt SSD? Ruggegraat: random linkage key gebaseerd op BSN Datasets gesplitst in onderdelen Privacy protection Documentatie (meta) Eindeloos veel combinaties te maken Surveys en administratieve data bronnen Voor gebruik CBS en wetenschap (remote access) Flexibel Big data.. Sterke punten van SSD 3

Privacy In ontwikkeling: Data Service Centre Centraal archief van datasets Alle data voorzien van metadata Bibliotheek met beschrijving van alle variabelen Datasets op verzoek leverbaar Privacy protection by design Robuuste software 8 4

Ontwikkeling bij lagere overheden Overdracht bevoegdheden naar lagere overheden (Lagere) overheden willen meer data-driven werken. Hoe? Data scientists Eigen databronnen: veilige opslag en gebruik Risico: datalekken Consistentie 9 Rol van het CBS in data service centers Assisteren in: Het onder woorden brengen van behoefte aan informatie Beschrijven opslaan en gebruiken van data gebruiker Privacy bescherming, ook in output Gebruik van geharmoniseerde concepten Nieuwe data combinaties mogelijk maken Efficient gebruik en hergebruik van data Data consultant is nieuwe rol voor CBS 10 5

Stedelijke en departementale Data Centers 11 Outline Rol CBS Over administratieve data Ethische aspecten Conclusie 31 mei 2018 12 6

Survey data versus administratieve data Survey data: interviews Administratieve data: data verzameld in verband met een of ander productieproces. Denk aan fiscale gegevens, werknemersbestand, politiegegevens, BRP (opvolger GBA) 31 mei 2018 13 Nadelen survey data Kostbaar, zeker als periodiek Lager wordende response 31 mei 2018 14 7

Voordelen administratieve data t.o.v. survey data - Data zijn al verzameld, dus lage kosten - We hebben alle data in plaats van slechts steekproef - Data hebben hoge kwaliteit want organisatie die verzamelt, is er afhankelijk van - timely en up-to-date - Observaties in plaats van gerapporteerd gedrag, dus dichter bij werkelijkheid - Duidelijke definities van de variabelen Maar klopt dit wel? 31 mei 2018 15 Data zijn al verzameld, dus lage kosten - Kosten verbonden aan extractie van data, data cleaning en koppelen aan andere data sets - Andere organisaties moeten er soms voor betalen 31 mei 2018 16 8

We hebben alle data in plaats van slechts steekproef - Data komen in een of andere operationele data base terecht, maar deze data hoeven niet een beeld te geven van de populatie waarin je geïnteresseerd bent. Bv criminaliteit versus meldingen bij politie versus meldingen bij OM - Operationale database is niet in direct analyseerbare vorm (bv tekst; niet op persoonsniveau terwijl je wel over personen uitspraken wilt doen) 31 mei 2018 17 Data hebben hoge kwaliteit want organisatie die verzamelt, is er afhankelijk van - Personen die data invoeren maken keuzes, en verschillende personen leiden tot verschillende keuzes - Data zijn vaak niet verzameld met oogmerk statistische analyses te doen! - Data zijn vaak niet geschikt om specifieke vragen over meerdere personen te beantwoorden - Definities kunnen veranderen door de tijd, om operationele redenen; discontinuïteiten in reeksen - Alleen variabelen die essentieel zijn voor operationele proces, zijn van goede kwaliteit; rest bevat meetfouten. 31 mei 2018 18 9

timely en up-to-date - Misschien zijn de administratieve data er wel, maar niet beschikbaar voor andere organisaties (denk aan registraties politie die pas na jaar worden geleverd en gecleand beschikbaar zijn) 31 mei 2018 19 Observaties in plaats van gerapporteerd gedrag, dus dichter bij werkelijkheid Hoeft niet altijd te kloppen, denk aan fiscale gegevens die niet altijd goed werkelijke financiële situatie hoeven te representeren 31 mei 2018 20 10

Duidelijke definities van de variabelen - Maar deze hoeven niet overeen te komen met waar je geïnteresseerd in bent, denk aan slachtofferschap bij politiegegevens - Variabelen in registratie kunnen afwijken van doelvariabelen 31 mei 2018 21 De ideale wereld Is er één waarin beleidsmakers en data scientists die gebruik willen maken van registraties voor analyses, bij de opzet van de registraties worden betrokken 31 mei 2018 22 11

Twee speciale problemen uitvergroot - Selectiviteit - Koppelfouten 31 mei 2018 23 1. Selectiviteit: onderdekking 31 mei 2018 24 12

2. Selectiviteit t.g.v. verkeerde dataselectie T.g.v. verkeerd design. Voorbeeld: interesse in vraag of leerlingen na klas 1 VO zijn opgestroomd of neergestroomd, bijvoorbeeld jaar 1,2,3 Brug1-HAVO2-HAVO3, of rug1-havo2-vmbo-t3. Doel: welke scholen doen het beter/slechter Data getrokken met peildatum 2017, terugkijken naar niveau 2015. Data geleverd door scholen. Wat is hier verkeerd aan? 31 mei 2018 25 2. Selectiviteit Design is retrospectief. Bepaalde personen zijn al uitgevallen, ben je kwijt. Data getrokken 2017, terugkijken naar niveau 2015. Leerlingen die van schoolniveau zijn verlaagd, zijn verdwenen uit bestand. Oplossing: prospectief design, dus trek uit bestanden van 2015 en volg naar 2017. 31 mei 2018 26 13

individuals 31-5-2018 3. Selectiviteit (3). Missing data i.h.a. Wat gebeurt/is gebeurd met records die ontbrekende gegevens bevatten? Al te vaak worden dergelijke records weggegooid. Kan voor selectiviteit zorgen: bij specifieke groepen kunnen bepaalde gegevens ontbreken. Analyses doen dan geen uitspraak over populaie maar over deel van populatie! Zorg data ontbrekende gegevens worden geimputeerd! 31 mei 2018 27 variables mi cov 4. Selectiviteit (3): missing data t.g.v. koppelen. a ab b Ga niet alleen personen analyseren die volledig blauw zijn missing covariates Individuals missed by both lists 31 mei 2018 28 14

4. Selectie: onder- en overdekking - Onderdekking - Je mist personen die in data horen te zitten - Denk aan Polen die niet in GBA zitten maar wel in Nederland werken - Is met vangst-hervangstmethodologie bij te schatten - Overdekking - Er zitten personen in data die er niet in horen te zitten - Buitenlandse vakantiegangers 31 mei 2018 29 Koppelfouten - In bestanden die aan SSD gekoppeld kunnen worden relatief gering - Maar niet alle personen hebben SSD nummer (bv Polen die zich niet inschrijven; illegalen ) - Deterministisch koppelen op basis van versleuteld BSN is leeuwendeel - Probabilistisch koppelen van rest - Kennis op CBS aanwezig 31 mei 2018 30 15

Outline Rol CBS Over administratieve data Ethische aspecten Conclusie 31 mei 2018 31 1. Ethische problematiek Uit NRC 12/13 mei 2018: In Dordrecht bepaalt een algoritme welke spijbelaar slechts een waarschuwende brief krijgt, en bij wie leerplichtambtenaren binnen een week op de stoep staan iedere spijbelaar bezoeken is te duur. De computer gebruikt dertien variabelen, zoals onderwijsniveau, postcode van de school en hoe vaak iemand van school wisselde. Algoritme is niet persé transparent, d.w.z. het is ambtenaren niet duidelijk op basis van welke variabele(n) mensen worden aangewezen. Probleem? Deze aanpak objectiever dan onderbuikgevoel? 31 mei 2018 32 16

Weer uit NRC 12/13 mei 2018: zolang je de privacy van burgers garandeert, en transparent bent over hoe je data gebruikt, hoeven burgers zich geen zorgen te maken, zeggen gemeenteambtenaren. Privacy betekent in de praktijk vooral: zorgen dat je de individuele gegevens die je gebruikt anonimiseert, en dat je verbanden die de computer legt alleen op groepsniveau toepast. Je wijst dus niet met de computer de man aan die ene verhoogde kans heeft op schulden, maar de straat waar een grotere kans is op geldproblemen, zoals blijk uit geanonimiseerde individuele gegevens van burgers. 31 mei 2018 33 2. Ethische problematiek Stel je een regressiemodel voor, opgesteld om risico bij vervroegde in vrijheidstelling in te schatten. Grote impact van ethniciteit. Probleem: het is niet ethisch om tegen twee (verder identieke) personen die verschillen in ethniciteit te zeggen: jij mag vervroegd vrij want je hebt goede ethniciteit, en jij mag niet vervroegd vrij want je hebt verkeerde ethniciteit. Wat te doen? 31 mei 2018 34 17

Als je ethniciteit niet meeneemt, dan heb je onzuivere schattingen. Als je ethniciteit meeneemt maar fixeert, dan lijkt dit oplossing te bieden. (Fixeren door, als Geboren in NL = 1, Niet geboren in NL = 0; stel 75 % geboren in NL, dan vul je voor iedereen de waarde.75 in) Dit is een deelgebied in ontwikkeling. En speelt zelfde niet bij variabele geslacht en leeftijd? 31 mei 2018 35 3. Opslag publicatiepakket Zorg voor reproduceerbaarheid: - Bij elke (vorm van) publicatie: - Documenteer welke versie van data je gebruikt hebt - Werk alleen met syntax - Start van ruwe data; - Eventueel: na data cleaning, sla data op en begin dan pas met analyses 31 mei 2018 36 18

Ethische toetsingscommissies gewenst? Aanwezig bij universiteiten en bij CBS 31 mei 2018 37 Outline Rol CBS Over administratieve data Ethische aspecten Conclusie 31 mei 2018 38 19

Zaken waar beleidsmakers naar moeten vragen, en data analytici moeten rapporteren 31 mei 2018 39 Discussiepunten n.a.v. administratieve data t.o.v. survey data - Data zijn al verzameld, dus lage kosten - We hebben alle data in plaats van slechts steekproef - Data hebben hoge kwaliteit want organisatie die verzamelt, is er afhankelijk van - timely en up-to-date - Observaties in plaats van gerapporteerd gedrag, dus dichter bij werkelijkheid - Duidelijke definities van de variabelen 31 mei 2018 40 20

Selectiviteit, dekt de administratie de populatie die je beoogt te beschrijven af Missing data, wat is er mee gedaan? Koppeling, rapportage problemen en missing data Grondige check ethische aspecten 31 mei 2018 41 Referenties Bart Bakker (2018). Quality evaluation of registered-based statistics. Paper presented at Quality in Official Statistics Conference, Krakow, June 2018. David Hand (2018). Statistical challenges of administrative and transaction data. JRSS, Series A, 1-51 (including discussion). Daniel Oberski (2018). Data science is people science. Presentatie op Applied data science day, 20 april 2018, Universiteit Utrecht. Marleen Verbruggen (2018). Combining data for data driven policy making. CBS advisory board, February 2018. 31 mei 2018 42 21

Bedankt voor je aandacht! Vragen? p.g.m.vanderheijden@uu.nl 31 mei 2018 43 22