WAT DOEN WE MET DE OVERVLOED VAN DATA?



Vergelijkbare documenten
België in de Europese informatiemaatschappij. Een benchmark van het bezit en het gebruik van ICT in België t.o.v. 24 Europese landen in 2006

Tarieven Europa: staffel 1

Antwoorden Aardrijkskunde Antwoorden Discovery par. 1

Volume: 0-49 zendingen per jaar Europa 0 2 kg 2-10 kg kg kg

Tarieven Europa: staffel 1

Bijlage B4. Eerste treden op de arbeidsmarkt. Freek Bucx

Europese feestdagen 2019

Europese feestdagen 2018

Bijlage B4. Werken aan de start. Freek Bucx

Autodiefstal Diefstal uit auto Diefstal van motor Fietsendiefstal Inbraak

Europese feestdagen 2017

Aantal ondervonden misdrijven per land en naar type delict (per 100 respondenten); onveiligheidsgevoelens

Tabellen bij hoofdstuk 10. Tabel 10.1 Aantal ondervonden misdrijven per land en naar type delict (per 100 respondenten); onveiligheidsgevoelens

Oplossingsrichtingen voor een betaalbaar sociaal zekerheidsstelsel

Betalingsachterstand bij handelstransacties

Europese vergelijking systemen van volwasseneneducatie en aanpak laaggeletterdheid

Handelsstromen Rozenstruiken 2009 / 14. Zoetermeer, Maart 2009 Peter van der Salm Productschap Tuinbouw, Afdeling Markt en Innovatie

Zuivelproductie per land 2015 Dairy production by country

Tabel 11.1 Aantal ondervonden misdrijven naar land en delictgroep (per 100 respondenten) en onveiligheidsgevoelens per land, 2004

Resultaten VVNH monitoring 2008

Tabel 1: Economische indicatoren (1)

ANNEX BIJLAGE. bij VERSLAG VAN DE COMMISSIE AAN HET EUROPEES PARLEMENT EN DE RAAD

Raad van de Europese Unie Brussel, 18 mei 2017 (OR. en)

De invloed van IT op de taken van de publieke controller

CIJFERS BELGIË OVERNIGHT STAYS

Minor Data Science (NIOC april)

Aankomsten en overnachtingen Oost-Vlaanderen Bron: Cijfers FOD Economie-ADSEI 2015: definitieve cijfers 2016: voorlopige (!

HC WELTA vzw. Gegevens deelnemer : Naam : Telefoonnummer : Mail-adres : 10-jun-16 21u Groep A Frankrijk vs Roemenië 1 X 2.. /..

Digitalisering en de Europese Belastingdiensten

De arbeidsmarktintegratie van personen met een handicap in Europa. Barbara Vandeweghe IDEA Consult 12 december 2011

EUROPA, OOST EUROPA, ISRAEL, TURKIJE, NOORWEGEN & VERENIGD KONINKRIJK GELDIG VAN 1 SEPTEMBER TOT 1 OKTOBER 2016

Tariefplan: Kruidvat Mobiel voor 1 juli Nationaal

Tariefplan: Kruidvat Mobiel voor 1 juli Nationaal

EDITIE De infranationale overheid in de EU : sleutelcijfers

Data-analyse voor Doelmatig Overheidsbeleid

Aankomsten en overnachtingen Oost-Vlaanderen Januari-september

Handels- en investeringscijfers Verenigd Koninkrijk-Nederland 1

Rijverboden in Europa Mei 2018

Geachte meneer, mevrouw,

DE HERSCHIKTE EOR RICHTLIJN

Tweede Kamer der Staten-Generaal

kennis en economie 2013 statistische bijlage

IMMIGRATIE IN DE EU 85% 51% 49% Immigratie van niet-eu-burgers. Emigratie van niet-eu-burgers

Instituut voor de nationale rekeningen. Statistiek buitenlandse handel. Kwartaalbericht 2013-I

Voor wie verstandig handelt! Gematigde groei

Instituut voor de nationale rekeningen. Statistiek buitenlandse handel. Kwartaalbericht 2014-II

BIJLAGE I LIJST MET NAMEN, FARMACEUTISCHE VORM, STERKTE VAN HET GENEESMIDDEL, TOEDIENINGSWEG, AANVRAGERS IN DE LIDSTATEN

VOETBAL TORNOOI VAN DE LAGERE SCHOLEN VAN SINT-LAMBRECHTS-WOLUWE

Toerisme in Cijfers Tourism in Figures. Aantal aankomsten per maand, 2016 Number of arrivals by month, 2016

Tijd Veld Poule Scheidsrechter Tijd Veld Poule Scheidsrechter Tijd Veld Poule Scheidsrechter Tijd Veld Poule Scheidsrechter

De invloed van de btw op uw werkkapitaal

Docentenvel opdracht 18 (De grote klimaat- en Europa- quiz)

Vodafone Zakelijke tarieven

Aankomsten en overnachtingen Oost-Vlaanderen Januari-april

Aankomsten en overnachtingen Oost-Vlaanderen Januari-juli

Aankomsten en overnachtingen Oost-Vlaanderen Januari-september

Doelstellingen (2002/2007) van de Staten-Generaal van de Verkeersveiligheid

toerisme in cijfers tourism in figures 2011

THEMA - BERLIJN Ondernemerschap en innovatie in de zorg Trends en ontwikkelingen in lokaal perspectief. 16 april 2015

Aankomsten en overnachtingen Oost-Vlaanderen Januari-augustus

Aankomsten en overnachtingen Oost-Vlaanderen Januari-juni

Handels- en investeringscijfers Zwitserland-Nederland 1

Handels- en investeringscijfers Spanje-Nederland 1

Handels- en investeringscijfers Ierland-Nederland 1

Cloud adoptie in Europa:

Tariefplan: Kruidvat Helder * Nationaal

Tabel 11.1 Geïndexeerd aantal slachtoffers naar delictgroep en onveiligheidsgevoelens per land

Arbeidsmarkt allochtonen

Toerisme in cijfers Tourism in figures XL

Handels- en investeringscijfers Polen-Nederland 1

Big Data en Testen samen in een veranderend speelveld. Testnet 10 april 2014 Paul Rakké

Postacademische opleiding (PGO) Business Analytics & Data Science

Thema 2 Om ons heen. Samenvatting. Meander Samenvatting groep 7. Landschappen. Klimaten. Samenwerking. de regering. Onder de loep.

Handels- en investeringscijfers Canada-Nederland 1

Basis gegevens tender

(Big) Data in het sociaal domein

Enquête over e-facturering bij overheidsopdrachten

Creatief onderzoekend leren

2.2. EUROPESE UNIE Droogte remt groei melkaanvoer af. Melkaanvoer per lidstaat (kalenderjaren) (1.000 ton) % 18/17

De risico s van het vak Enkele ervaringen over risicomanagement uit de pensioensector

JAAROVERZICHT 2010 gedetailleerd per Categorie, Regio en Land Bron: CBS

HOE BETAALT U? HOE ZOU U WILLEN BETALEN?

Q 1101: EAEC Raad: De Statuten van het Voorzieningsagentschap van Euratom (PB 27 van , blz. 534), gewijzigd bij:

TRACTATENBLAD VAN HET

GEZONDE LEVENSVERWACHTING NAAR OPLEIDING EN STIJGENDE PENSIOENLEEFTIJD

Toerisme in cijfers Tourism in figures 2013

Sessie 8: Helpt (meer) scholing mensen aan het werk?

Handels- en investeringscijfers Australië-Nederland 1

Handels- en investeringscijfers Slowakije-Nederland 1

FRAUDE LOONT 24 april 2015

The Next Step. What's next for the (e)overheid. Dr. Willem

Internet weekbundel EU 50 MB 4,13 7 dagen geldig. 50 minuten 6,20 7 dagen geldig. Internet weekbundel EU 50 MB 4 7 dagen geldig

GETTING THE BEST OUT OF YOUR SOURCE CODE MODERNISEREN MET UNIFACE

SIM KAART USA UNLIMITED

Handels- en investeringscijfers Zuid-Korea-Nederland 1

Handels- en investeringscijfers Bulgarije-Nederland 1

Statistiek internationale kinderontvoering 2008

Stages via IFMSA. Algemene introductie IFMSA Ontwikkelingsstages Klinische stages Onderzoeksstages Vragen

Handels- en investeringscijfers Zweden-Nederland 1

Statistiek internationale kinderontvoering 2008

Transcriptie:

WAT DOEN WE MET DE OVERVLOED VAN DATA? seminar: Fraude en criminaliteit bestrijden met basisregistraties 22 januari 2013, 12:30 uur Media Plaza Utrecht Prof. dr. ir. Theo de Vries Universiteit Twente Dutch Fraud Initiative (DFI)/Fac. Gedragswetenschappen Onderzoeksmethodologie, Meetmethoden en Data-analyse

1.Inleiding 2.Het data universum 3.Big Data 4.Van data naar interpretatie 5.Privacy 6.Afsluitende opmerkingen

1.Inleiding Valt er iets van de geschiedenis te leren?

Carl Sagan on Cosmos

500.000 rollen

Eerste druk 1514 (of 1516), eerste alfabetische en systematische ordening van common law

Diderot D Alembert

revolutie Andere zoekstrategiën

2. Het data universum Wat is het? Hoe groot is het? Hoe groeit het?

IN UIT We weten wel wat we er in stoppen, maar we weten meestal niet wat we er uit kunnen halen. In feite zoeken we dingen op zoals in een encyclopedie.

Over het algemeen geldt dat met een toename van de datahoeveelheid de mogelijke hoeveelheid informatie meer dan proportioneel toeneemt.

Kilo 10 3 Mega 10 6 Giga 10 9 Tera 10 12 Peta 10 15 Exa 10 18 Zetta 10 21

Bron: Roy Williams, data powers of ten Web page Caltech

TIEN JAAR EXPONENTIËLE GROEI VAN DATA UNIVERSUM Exabites 130 Eb 9000 8000 7000 6000 5000 4000 3000 REVOLUTIE 2: BIG DATA 2000 1000 0 2005 2007 2009 2011 2013 2015 Groei 50% per jaar HMI 2009, R. Miller 2011, Chris Yiu The Big Data Opportunity 2012, T. de Vries 2013

NEE Ca. 90% van het data-universum is ongestructureerd, Dwz. : niet of moeilijk systematisch toegankelijk 10% is dat dus wel: ca. 400 EB (2013) EMC 2007 T. de Vries 2013

3. Big Data Een buzzwoord?

Er is wat aan de hand Big data: The next frontier for innovation, competition, and productivity McKinsey Global Institute 2011

De explosieve groei van de data creëert zijn eigen dynamiek De mogelijkheden tot analyse van zeer grote databestanden nemen toe (software ontwikkeling) Slechts een derde van bedrijven/overheid maakt effectief gebruik van hun data Data analytics groeien ook explosief, te weinig deskundig personeel Adaptie bedrijven op nieuwe situatie problematisch EMC Data Science Revealed: A Data-Driven Glimpse into the Burgeoning New Field (2012)

De explosieve groei van de data kan niet worden bijgehouden Te weinig opleiding analytisch personeel (32%) Te weinig budget (32%) Onvoldoende organisatorische inbedding (14%) Te weinig tools of technologie (10%) EMC Data Science Revealed: A Data-Driven Glimpse into the Burgeoning New Field (2012)

BIG DATA: het gaat om twee zaken: Big data: Datasets waarbij het moeilijk of ondoenlijk te werken met traditionele data management tools Big data analytics: het bevragen van big data verzamelingen met geavanceerde technologieën The Big Data Opportunity: Making government faster, smarter and more personal Tuesday, 03 July 2012

http://www.researchtrends.com/issue-30-september-2012/the-evolution-of-big-data-as-a-research-and-scientific-topic-overview-of-the-literature/

Bijvoorbeeld foto s van individuen: Worden mede gebruikt voor bepalen van kredietscores (Economist 140309) Kunnen mede worden gebruikt bij bepalen van kans op echtscheiding (NRC Wetenschapsbijlage 020509)

1. Met behulp van geavanceerde analyses (zoals neurale netwerken), kunnen inzichten worden verkregen die anders moeilijk te realiseren zijn (handhaving, preventie). 2. Big data analyses kunnen succesvol worden ingezet voor predictieve analyses (bijvoorbeeld toekomstige ontwikkeling zorgvraag), scenarioplanning etc. die in complexe situaties voorkomen. 3. Evidence-based policy making kan hierdoor realistischer worden. LET OP Hiervoor zijn heel vaak niet-lineaire rekenmethodes noodzakelijk.

De markt voor big data analytics is dynamisch en groeit snel. Economische groei zal mede hier door worden bepaald. (Chris Yiu, The Big Data Opportunity: Making government faster, smarter and more personal, Policy Exchange 2012)

2018: in de VS personeelstekorten: 140.000 tot 190.000 mensen met diep analytisch inzicht 1.5 mln managers en analysepersoneel (met kennis de analyses te gebruiken, effectieve beslissingen te nemen en te implementeren) McKinsey 2011 McKinsey Global Institute Report 2011

VS Rusland Polen VK Frankrijk Roemenië Italië Duitsland Nederland Spanje Tsjechië Bulgarije Zwitserland Portugal België Griekenland Denemarken Slowakije Noorwegen Oostenrijk Zweden Hongarije AANTALLEN PERSONEN MET RELEVANTE BÈTA OPLEIDINGEN 25 per 100 personen 20 15 10 5 0 Bron: Eurostat, McKinsey (2011)

84 PROJECTEN BIJ 6 MINISTERIES Office of Science and Technology Policy March 2012

IMF/OECD(EUR)/McKINSEY: POTENTIEEL BIG DATA PUBLIEKE SECTOR IN EUROPA IS AANZIENLIJK (mrd ) Efficiency in uitvoering beleid: 120-200 Reductie fraude en vergissingen overdrachten: 7-30 Verbeterde opbrengst belastingen: 25-110 TOTAAL 150-300+ International Monetary Fund; OECD; McKinsey Global Institute analysis 2011

4. Van data naar interpretatie Waarvoor en hoe Let op de implementatie!

Gebruik grote databestanden 1/2 Micro niveau: Service naar de burger (formulieren), transparantie Macroniveau: Detectie en handhaving Preventie Predictie

Gebruik grote databestanden 2/2 Voorbeelden *) Detectie en handhaving: Fraude bij faillissementen, fraude in de zorg, fraude bij uitkeringen Preventie: Identificatie van risicovolle groepen/individuen bij diverse fraudes en met betrekking tot gezondheidszorg Predictie: Bepalen van toekomstige consumptie gezondheidszorg, uitkeringsbehoefte, etc. *) Op basis van uitgevoerde projecten en (gepresenteerde) plannen

3 methoden 1. Information retrieval: Het systematisch zoeken en vinden van in computers opgeslagen data; 2. Data fusion: Integratie van data en kennis uit verschillende bronnen, door verschillende methoden in een consistent en nuttig geheel; koppelen etc. 3. Analyse: Het gebruikmaken van databases en data structuren. Toepassing van ex ante- en ex post statistische methoden leveren informatie

INFORMATION RETRIEVAL DATA FUSION TOENAME COMPLEXITEIT METHODEN COMPLEXE ANALYSES (bv neurale netwerken) Grote databestanden

IMPLEMENTATIE DATA ANALYSE INTERPRETATIE

DATA

ANALYSE 1/3 Belangrijk

VOORBEELD Detectie valse facturen bij belastingaangiften Toegepaste Datatechnieken Landen: USA, Can, Aus, UK, Bulgarije Brazilië, Peru, Chili Characterization and detection of taxpayers with false invoices using data mining techniquespamela Castellón González a, Juan D. Velásquez, Expert Systems with ApplicationsVolume 40, Issue 5, April 2013, Pages 1427 1436 TOEGEPASTE TECHNIEKEN Neural Netwerken 6 Decision Tree (CART) 5 Logistische Regressie 4 SOM (self organizing maps) 2 K-means 2 Support Vector Machines 2 Visualisation Techniques 2 Baysian Networks 1 K-Nearest Neighbour 1 Association Rules 1 Fuzzy Roles 1 Markov Rules 1 Time Series 1 Regression 1 Simulation 1 AANTAL LANDEN (max 8) http://www.journals.elsevier.com/expert-systems-with-applications/

ANALYSE 2/3 Neural Networks Classification And Regression Tree (CART) Support Vector Machines K-Nearest Neighbour Association Rules Genetic Algorithms?

ANALYSE 3/3 Scarborugh D et al, Neural networks in organizational research Am. Psych Ass (2006), p90-92

VOORBEELD faillissementfraude INTERPRETATIE 1/2

VOORBEELD faillissementfraude INTERPRETATIE 2/2 Confidence rate van rechercheteam Pr{F+ V+} = 65% Alles met de hand PERFORMANCE (NN): Pr{V- F+}= 69% (8.0%) Pr{V+ F- }= 4% (1.9%) Pr{F+ V+}= 61% (12.4%) PERFORMANCE: (CART) Pr{V- F+}= 74% Pr{V+ F- }= 7% Pr{F+ V+}= 49% NB: training sets op 70, 80 and 90% niveau 43 NN: derde run, 7 keer herhaald; CART: gem run 1, 2, en 3

The sexy job in the next 10 years will be statisticians. He and others, such as IT and management professor Erik Brynjolfsson at the Massachusetts Institute of Technology (MIT), contend this demand will happen because the amount of data to be analyzed is out of control PricewaterhouseCoopers Technology Forecast 2010

5.Privacy BEDREIGINGEN PRIVACY NEMEN SNEL TOE 46

INFORMATION RETRIEVAL DATA FUSION TOENAME BEDREIGING PRIVACY COMPLEXE ANALYSES (bv neurale netwerken)

Privacywetgeving Nederland dateert uit 2001 Wetgeving berust op technologische inzichten uit jaren 80 en 90 Pakkans bij overtreding vrijwel nihil Maximum boete Euro 4500,-

Het data universum in 5 jaar met een factor 10 toeneemt; De geheugencapaciteit in 5 jaar met een factor 4-5 toeneemt; De processorsnelheden in 5 jaar met een factor 8-9 toenemen (Moore); De software mogelijkheden zich aan de nieuwe technologie aanpassen.

Analyse geeft toegang tot veel nieuwe kennis Analyse is tegelijkertijd een grote bedreiging voor de privacy van individuen Begrip openbaarheid is (derhalve) aan een nieuwe formulering toe.

6. Afsluitende opmerkingen Er is nog zoveel meer

Afsluitende opmerkingen 1. Er is sprake van een tweede data-revolutie. De omvang ervan wordt nauwelijks begrepen; 2. Er zal veel moeten worden geïnvesteerd om de mogelijkheden van Big Data ten nutte te maken; 3. De potentiële opbrengsten van gebruik Big Data zullen een veelvoud van de investeringen bedragen; 4. Investeringen zullen pas dan worden terugverdiend als de organisatie op de veranderingen wordt aangepast; 5. Mogelijkheden en beperkingen van analyse-instrumenten zijn onvoldoende bekend.

Dank u