Het toepassingen van data science & data-analyse in een beleidscontext Peter G.M. van der Heijden Universiteit Utrecht en University of Southampton Trekker focusgebied 31 mei 2018 Outline Rol CBS Over administratieve data Ethische aspecten Conclusie 31 mei 2018 2 1
Outline Rol CBS Over administratieve data Ethische aspecten Conclusie 31 mei 2018 3 Wat heeft het CBS te bieden? 1. System of social statistical datasets (SSD) 2. Data service center (met dank aan Marleen Verbruggen, CBS, voor slides die hier en daar zijn aangepast) 31 mei 2018 4 2
Hoe werkt SSD? Ruggegraat: random linkage key gebaseerd op BSN Datasets gesplitst in onderdelen Privacy protection Documentatie (meta) Eindeloos veel combinaties te maken Surveys en administratieve data bronnen Voor gebruik CBS en wetenschap (remote access) Flexibel Big data.. Sterke punten van SSD 3
Privacy In ontwikkeling: Data Service Centre Centraal archief van datasets Alle data voorzien van metadata Bibliotheek met beschrijving van alle variabelen Datasets op verzoek leverbaar Privacy protection by design Robuuste software 8 4
Ontwikkeling bij lagere overheden Overdracht bevoegdheden naar lagere overheden (Lagere) overheden willen meer data-driven werken. Hoe? Data scientists Eigen databronnen: veilige opslag en gebruik Risico: datalekken Consistentie 9 Rol van het CBS in data service centers Assisteren in: Het onder woorden brengen van behoefte aan informatie Beschrijven opslaan en gebruiken van data gebruiker Privacy bescherming, ook in output Gebruik van geharmoniseerde concepten Nieuwe data combinaties mogelijk maken Efficient gebruik en hergebruik van data Data consultant is nieuwe rol voor CBS 10 5
Stedelijke en departementale Data Centers 11 Outline Rol CBS Over administratieve data Ethische aspecten Conclusie 31 mei 2018 12 6
Survey data versus administratieve data Survey data: interviews Administratieve data: data verzameld in verband met een of ander productieproces. Denk aan fiscale gegevens, werknemersbestand, politiegegevens, BRP (opvolger GBA) 31 mei 2018 13 Nadelen survey data Kostbaar, zeker als periodiek Lager wordende response 31 mei 2018 14 7
Voordelen administratieve data t.o.v. survey data - Data zijn al verzameld, dus lage kosten - We hebben alle data in plaats van slechts steekproef - Data hebben hoge kwaliteit want organisatie die verzamelt, is er afhankelijk van - timely en up-to-date - Observaties in plaats van gerapporteerd gedrag, dus dichter bij werkelijkheid - Duidelijke definities van de variabelen Maar klopt dit wel? 31 mei 2018 15 Data zijn al verzameld, dus lage kosten - Kosten verbonden aan extractie van data, data cleaning en koppelen aan andere data sets - Andere organisaties moeten er soms voor betalen 31 mei 2018 16 8
We hebben alle data in plaats van slechts steekproef - Data komen in een of andere operationele data base terecht, maar deze data hoeven niet een beeld te geven van de populatie waarin je geïnteresseerd bent. Bv criminaliteit versus meldingen bij politie versus meldingen bij OM - Operationale database is niet in direct analyseerbare vorm (bv tekst; niet op persoonsniveau terwijl je wel over personen uitspraken wilt doen) 31 mei 2018 17 Data hebben hoge kwaliteit want organisatie die verzamelt, is er afhankelijk van - Personen die data invoeren maken keuzes, en verschillende personen leiden tot verschillende keuzes - Data zijn vaak niet verzameld met oogmerk statistische analyses te doen! - Data zijn vaak niet geschikt om specifieke vragen over meerdere personen te beantwoorden - Definities kunnen veranderen door de tijd, om operationele redenen; discontinuïteiten in reeksen - Alleen variabelen die essentieel zijn voor operationele proces, zijn van goede kwaliteit; rest bevat meetfouten. 31 mei 2018 18 9
timely en up-to-date - Misschien zijn de administratieve data er wel, maar niet beschikbaar voor andere organisaties (denk aan registraties politie die pas na jaar worden geleverd en gecleand beschikbaar zijn) 31 mei 2018 19 Observaties in plaats van gerapporteerd gedrag, dus dichter bij werkelijkheid Hoeft niet altijd te kloppen, denk aan fiscale gegevens die niet altijd goed werkelijke financiële situatie hoeven te representeren 31 mei 2018 20 10
Duidelijke definities van de variabelen - Maar deze hoeven niet overeen te komen met waar je geïnteresseerd in bent, denk aan slachtofferschap bij politiegegevens - Variabelen in registratie kunnen afwijken van doelvariabelen 31 mei 2018 21 De ideale wereld Is er één waarin beleidsmakers en data scientists die gebruik willen maken van registraties voor analyses, bij de opzet van de registraties worden betrokken 31 mei 2018 22 11
Twee speciale problemen uitvergroot - Selectiviteit - Koppelfouten 31 mei 2018 23 1. Selectiviteit: onderdekking 31 mei 2018 24 12
2. Selectiviteit t.g.v. verkeerde dataselectie T.g.v. verkeerd design. Voorbeeld: interesse in vraag of leerlingen na klas 1 VO zijn opgestroomd of neergestroomd, bijvoorbeeld jaar 1,2,3 Brug1-HAVO2-HAVO3, of rug1-havo2-vmbo-t3. Doel: welke scholen doen het beter/slechter Data getrokken met peildatum 2017, terugkijken naar niveau 2015. Data geleverd door scholen. Wat is hier verkeerd aan? 31 mei 2018 25 2. Selectiviteit Design is retrospectief. Bepaalde personen zijn al uitgevallen, ben je kwijt. Data getrokken 2017, terugkijken naar niveau 2015. Leerlingen die van schoolniveau zijn verlaagd, zijn verdwenen uit bestand. Oplossing: prospectief design, dus trek uit bestanden van 2015 en volg naar 2017. 31 mei 2018 26 13
individuals 31-5-2018 3. Selectiviteit (3). Missing data i.h.a. Wat gebeurt/is gebeurd met records die ontbrekende gegevens bevatten? Al te vaak worden dergelijke records weggegooid. Kan voor selectiviteit zorgen: bij specifieke groepen kunnen bepaalde gegevens ontbreken. Analyses doen dan geen uitspraak over populaie maar over deel van populatie! Zorg data ontbrekende gegevens worden geimputeerd! 31 mei 2018 27 variables mi cov 4. Selectiviteit (3): missing data t.g.v. koppelen. a ab b Ga niet alleen personen analyseren die volledig blauw zijn missing covariates Individuals missed by both lists 31 mei 2018 28 14
4. Selectie: onder- en overdekking - Onderdekking - Je mist personen die in data horen te zitten - Denk aan Polen die niet in GBA zitten maar wel in Nederland werken - Is met vangst-hervangstmethodologie bij te schatten - Overdekking - Er zitten personen in data die er niet in horen te zitten - Buitenlandse vakantiegangers 31 mei 2018 29 Koppelfouten - In bestanden die aan SSD gekoppeld kunnen worden relatief gering - Maar niet alle personen hebben SSD nummer (bv Polen die zich niet inschrijven; illegalen ) - Deterministisch koppelen op basis van versleuteld BSN is leeuwendeel - Probabilistisch koppelen van rest - Kennis op CBS aanwezig 31 mei 2018 30 15
Outline Rol CBS Over administratieve data Ethische aspecten Conclusie 31 mei 2018 31 1. Ethische problematiek Uit NRC 12/13 mei 2018: In Dordrecht bepaalt een algoritme welke spijbelaar slechts een waarschuwende brief krijgt, en bij wie leerplichtambtenaren binnen een week op de stoep staan iedere spijbelaar bezoeken is te duur. De computer gebruikt dertien variabelen, zoals onderwijsniveau, postcode van de school en hoe vaak iemand van school wisselde. Algoritme is niet persé transparent, d.w.z. het is ambtenaren niet duidelijk op basis van welke variabele(n) mensen worden aangewezen. Probleem? Deze aanpak objectiever dan onderbuikgevoel? 31 mei 2018 32 16
Weer uit NRC 12/13 mei 2018: zolang je de privacy van burgers garandeert, en transparent bent over hoe je data gebruikt, hoeven burgers zich geen zorgen te maken, zeggen gemeenteambtenaren. Privacy betekent in de praktijk vooral: zorgen dat je de individuele gegevens die je gebruikt anonimiseert, en dat je verbanden die de computer legt alleen op groepsniveau toepast. Je wijst dus niet met de computer de man aan die ene verhoogde kans heeft op schulden, maar de straat waar een grotere kans is op geldproblemen, zoals blijk uit geanonimiseerde individuele gegevens van burgers. 31 mei 2018 33 2. Ethische problematiek Stel je een regressiemodel voor, opgesteld om risico bij vervroegde in vrijheidstelling in te schatten. Grote impact van ethniciteit. Probleem: het is niet ethisch om tegen twee (verder identieke) personen die verschillen in ethniciteit te zeggen: jij mag vervroegd vrij want je hebt goede ethniciteit, en jij mag niet vervroegd vrij want je hebt verkeerde ethniciteit. Wat te doen? 31 mei 2018 34 17
Als je ethniciteit niet meeneemt, dan heb je onzuivere schattingen. Als je ethniciteit meeneemt maar fixeert, dan lijkt dit oplossing te bieden. (Fixeren door, als Geboren in NL = 1, Niet geboren in NL = 0; stel 75 % geboren in NL, dan vul je voor iedereen de waarde.75 in) Dit is een deelgebied in ontwikkeling. En speelt zelfde niet bij variabele geslacht en leeftijd? 31 mei 2018 35 3. Opslag publicatiepakket Zorg voor reproduceerbaarheid: - Bij elke (vorm van) publicatie: - Documenteer welke versie van data je gebruikt hebt - Werk alleen met syntax - Start van ruwe data; - Eventueel: na data cleaning, sla data op en begin dan pas met analyses 31 mei 2018 36 18
Ethische toetsingscommissies gewenst? Aanwezig bij universiteiten en bij CBS 31 mei 2018 37 Outline Rol CBS Over administratieve data Ethische aspecten Conclusie 31 mei 2018 38 19
Zaken waar beleidsmakers naar moeten vragen, en data analytici moeten rapporteren 31 mei 2018 39 Discussiepunten n.a.v. administratieve data t.o.v. survey data - Data zijn al verzameld, dus lage kosten - We hebben alle data in plaats van slechts steekproef - Data hebben hoge kwaliteit want organisatie die verzamelt, is er afhankelijk van - timely en up-to-date - Observaties in plaats van gerapporteerd gedrag, dus dichter bij werkelijkheid - Duidelijke definities van de variabelen 31 mei 2018 40 20
Selectiviteit, dekt de administratie de populatie die je beoogt te beschrijven af Missing data, wat is er mee gedaan? Koppeling, rapportage problemen en missing data Grondige check ethische aspecten 31 mei 2018 41 Referenties Bart Bakker (2018). Quality evaluation of registered-based statistics. Paper presented at Quality in Official Statistics Conference, Krakow, June 2018. David Hand (2018). Statistical challenges of administrative and transaction data. JRSS, Series A, 1-51 (including discussion). Daniel Oberski (2018). Data science is people science. Presentatie op Applied data science day, 20 april 2018, Universiteit Utrecht. Marleen Verbruggen (2018). Combining data for data driven policy making. CBS advisory board, February 2018. 31 mei 2018 42 21
Bedankt voor je aandacht! Vragen? p.g.m.vanderheijden@uu.nl 31 mei 2018 43 22