Digitale overheid van de Toekomst, 28 september 2016 Anomaliedetectie en patroonherkenning binnen de loonaangifteketen Dr. Ralph Foorthuis
Voorstelrondje Werkervaring Sr. enterprise architect bij UWV Werkzaam bij CIOO en Gegevensdiensten: Gegevensregisters, portalen, informatiebeveiliging, integratie, IV-beleid Informatieanalist en architect bij het CBS Statistische systemen en processen, waaronder de CPI, Demografie en Energie Diverse opdrachten bij overige organisaties Academisch Promotieonderzoek Project Compliance with Enterprise Architecture en diverse andere publicaties Studies Informatiekunde + Communicatiewetenschap Data analytics 2
Over UWV Algemeen UWV draagt zorg voor de uitvoering van de werknemersverzekeringen, zoals de WW, WIA, WAO, WAZ, Wazo en Ziektewet. Daarnaast biedt UWV arbeidsmarkt- en gegevensdiensten en medische keuringen. Gegevens en systemen zijn cruciaal voor de primaire processen De meeste processen vereisen veel gegevens over burgers en bedrijven. UWV heeft diverse systemen met gegevensverzamelingen, waaronder: De Polisadministratie Materies- en betalingssystemen van divisie Uitkeren Systemen voor medische keuringen en werkbemiddeling Systemen voor BI en data analyse Verder: webportalen, workflowsystemen, HR-systemen, etc. UWV 3
Loonaangifteketen Ongeveer 20 miljoen inkomstenverhoudingen (o.a. salarisstrookje ) Ongeveer 150 miljard euro per jaar aan premieheffingen Grootste inkomstenbron voor staatskas Doelen: Gegevens, Gemak, Geld 4
Loonaangifteketen en proces datakwaliteit XML Poort XSD -controles CML -controles Inhoudings - plichtige LA -Software HLP Software Ontwikkelaar Belastingdienst UWV Jaarwerk Splitsing (N-C) KUB Polis Jaarwerk Tijd Politiek Signalering module Polis Wet en regelgeving Aanpassingen akkoord Afstemming tussen Belastingdienst, UWV, OSWO en SWO s Wijzigingsvoorstellen TOO OOO Belastingdienst jaarovergang UWV AOL LMO Kernteam akkoord 5
Gegevenskwaliteit Productioneel Loonaangifteproces AGL-team Queries, kwaliteitskenmerken, rapportages Rule-based checks Veel domeinkennis vereist Anomaly detection experiment Experiment met state-of-the-art technieken om autonoom vreemde en afwijkende cases in de data te identificeren Unsupervised learning Statistische checks Weinig domeinkennis vereist Data analytics 6
Typen analysetechnieken Classificatie Associatie analyse Regressie / PLS / path analysis Clustering Beschrijven/samenvatten Anomaliedetectie Identificatie en afleiden Sequentiedetectie Netwerkanalyse Tekst en audiovisuele mining Complexe ad hoc selectie en transformatie Correctie en imputatie Simulatie Datavisualisatie Data analytics 7
Anomaly detection Zoeken naar afwijkende gevallen m.b.v. slimme technieken. De afwijking kan het resultaat zijn van uiteenlopende oorzaken en kan o.a. wijzen op incorrecte data. Ook bekend als outlier detection of novelty detection. Toepassingsgebieden: Datakwaliteit Fraudedetectie Foutdetectie Security Procesmonitoring Bouw van statistische modellen Change point detection Data analytics 8
Aanpak Uitproberen diverse analytics technieken, zowel uit klassieke statistiek als machine learning Steekproef uit de Polisadministratie met PLM (Parametriseerbare Lever Module) Geanonimiseerde data Tools: voornamelijk R & RStudio Data analytics 9
Resultaten eerste experimenten A. Polis Snapshot Anomaly detection met diverse technieken Visualisatie Complexe ad hoc selectie en transformatie Data analytics 10
Resultaten eerste experimenten B. Polis time series Anomaly detection met diverse technieken Visualisatie Complexe ad hoc selectie en transformatie Data analytics 11
(Vervolg van de presentatie bestaat uit een sequentie van 3D animaties)
Hiding in multidimensionality Anomalieën (outliers) die niet gevonden kunnen worden met een enkele variabele. Er zijn meerdere variabelen nodig om de afwijking van het patroon te detecteren.
Loonaangifte view
Loonaangifte 4D
Loonaangifte anomalieën
Loonaangifte anomalieën
Belangrijkste conclusies Er bestaan diverse bruikbare technieken voor geavanceerde anomaly detection. Zowel numerieke als categoriale variabelen. Vooral handig voor exploratieve analyses en in situaties waarin men nog weinig diepe domeinkennis heeft. Er bleek een grote overlap te zijn tussen de regels die je met anomaly detection zou afleiden, en de bestaande controles in de Loonaangifte. Datavisualisatie is essentieel. Aandachtspunten zijn omvang van de dataset, aard van de data, high-dimensionality. Belangrijk om functionele kennis te hebben van achterliggende algoritmen. Data analytics 18