WAT DOEN WE MET DE OVERVLOED VAN DATA? seminar: Fraude en criminaliteit bestrijden met basisregistraties 22 januari 2013, 12:30 uur Media Plaza Utrecht Prof. dr. ir. Theo de Vries Universiteit Twente Dutch Fraud Initiative (DFI)/Fac. Gedragswetenschappen Onderzoeksmethodologie, Meetmethoden en Data-analyse
1.Inleiding 2.Het data universum 3.Big Data 4.Van data naar interpretatie 5.Privacy 6.Afsluitende opmerkingen
1.Inleiding Valt er iets van de geschiedenis te leren?
Carl Sagan on Cosmos
500.000 rollen
Eerste druk 1514 (of 1516), eerste alfabetische en systematische ordening van common law
Diderot D Alembert
revolutie Andere zoekstrategiën
2. Het data universum Wat is het? Hoe groot is het? Hoe groeit het?
IN UIT We weten wel wat we er in stoppen, maar we weten meestal niet wat we er uit kunnen halen. In feite zoeken we dingen op zoals in een encyclopedie.
Over het algemeen geldt dat met een toename van de datahoeveelheid de mogelijke hoeveelheid informatie meer dan proportioneel toeneemt.
Kilo 10 3 Mega 10 6 Giga 10 9 Tera 10 12 Peta 10 15 Exa 10 18 Zetta 10 21
Bron: Roy Williams, data powers of ten Web page Caltech
TIEN JAAR EXPONENTIËLE GROEI VAN DATA UNIVERSUM Exabites 130 Eb 9000 8000 7000 6000 5000 4000 3000 REVOLUTIE 2: BIG DATA 2000 1000 0 2005 2007 2009 2011 2013 2015 Groei 50% per jaar HMI 2009, R. Miller 2011, Chris Yiu The Big Data Opportunity 2012, T. de Vries 2013
NEE Ca. 90% van het data-universum is ongestructureerd, Dwz. : niet of moeilijk systematisch toegankelijk 10% is dat dus wel: ca. 400 EB (2013) EMC 2007 T. de Vries 2013
3. Big Data Een buzzwoord?
Er is wat aan de hand Big data: The next frontier for innovation, competition, and productivity McKinsey Global Institute 2011
De explosieve groei van de data creëert zijn eigen dynamiek De mogelijkheden tot analyse van zeer grote databestanden nemen toe (software ontwikkeling) Slechts een derde van bedrijven/overheid maakt effectief gebruik van hun data Data analytics groeien ook explosief, te weinig deskundig personeel Adaptie bedrijven op nieuwe situatie problematisch EMC Data Science Revealed: A Data-Driven Glimpse into the Burgeoning New Field (2012)
De explosieve groei van de data kan niet worden bijgehouden Te weinig opleiding analytisch personeel (32%) Te weinig budget (32%) Onvoldoende organisatorische inbedding (14%) Te weinig tools of technologie (10%) EMC Data Science Revealed: A Data-Driven Glimpse into the Burgeoning New Field (2012)
BIG DATA: het gaat om twee zaken: Big data: Datasets waarbij het moeilijk of ondoenlijk te werken met traditionele data management tools Big data analytics: het bevragen van big data verzamelingen met geavanceerde technologieën The Big Data Opportunity: Making government faster, smarter and more personal Tuesday, 03 July 2012
http://www.researchtrends.com/issue-30-september-2012/the-evolution-of-big-data-as-a-research-and-scientific-topic-overview-of-the-literature/
Bijvoorbeeld foto s van individuen: Worden mede gebruikt voor bepalen van kredietscores (Economist 140309) Kunnen mede worden gebruikt bij bepalen van kans op echtscheiding (NRC Wetenschapsbijlage 020509)
1. Met behulp van geavanceerde analyses (zoals neurale netwerken), kunnen inzichten worden verkregen die anders moeilijk te realiseren zijn (handhaving, preventie). 2. Big data analyses kunnen succesvol worden ingezet voor predictieve analyses (bijvoorbeeld toekomstige ontwikkeling zorgvraag), scenarioplanning etc. die in complexe situaties voorkomen. 3. Evidence-based policy making kan hierdoor realistischer worden. LET OP Hiervoor zijn heel vaak niet-lineaire rekenmethodes noodzakelijk.
De markt voor big data analytics is dynamisch en groeit snel. Economische groei zal mede hier door worden bepaald. (Chris Yiu, The Big Data Opportunity: Making government faster, smarter and more personal, Policy Exchange 2012)
2018: in de VS personeelstekorten: 140.000 tot 190.000 mensen met diep analytisch inzicht 1.5 mln managers en analysepersoneel (met kennis de analyses te gebruiken, effectieve beslissingen te nemen en te implementeren) McKinsey 2011 McKinsey Global Institute Report 2011
VS Rusland Polen VK Frankrijk Roemenië Italië Duitsland Nederland Spanje Tsjechië Bulgarije Zwitserland Portugal België Griekenland Denemarken Slowakije Noorwegen Oostenrijk Zweden Hongarije AANTALLEN PERSONEN MET RELEVANTE BÈTA OPLEIDINGEN 25 per 100 personen 20 15 10 5 0 Bron: Eurostat, McKinsey (2011)
84 PROJECTEN BIJ 6 MINISTERIES Office of Science and Technology Policy March 2012
IMF/OECD(EUR)/McKINSEY: POTENTIEEL BIG DATA PUBLIEKE SECTOR IN EUROPA IS AANZIENLIJK (mrd ) Efficiency in uitvoering beleid: 120-200 Reductie fraude en vergissingen overdrachten: 7-30 Verbeterde opbrengst belastingen: 25-110 TOTAAL 150-300+ International Monetary Fund; OECD; McKinsey Global Institute analysis 2011
4. Van data naar interpretatie Waarvoor en hoe Let op de implementatie!
Gebruik grote databestanden 1/2 Micro niveau: Service naar de burger (formulieren), transparantie Macroniveau: Detectie en handhaving Preventie Predictie
Gebruik grote databestanden 2/2 Voorbeelden *) Detectie en handhaving: Fraude bij faillissementen, fraude in de zorg, fraude bij uitkeringen Preventie: Identificatie van risicovolle groepen/individuen bij diverse fraudes en met betrekking tot gezondheidszorg Predictie: Bepalen van toekomstige consumptie gezondheidszorg, uitkeringsbehoefte, etc. *) Op basis van uitgevoerde projecten en (gepresenteerde) plannen
3 methoden 1. Information retrieval: Het systematisch zoeken en vinden van in computers opgeslagen data; 2. Data fusion: Integratie van data en kennis uit verschillende bronnen, door verschillende methoden in een consistent en nuttig geheel; koppelen etc. 3. Analyse: Het gebruikmaken van databases en data structuren. Toepassing van ex ante- en ex post statistische methoden leveren informatie
INFORMATION RETRIEVAL DATA FUSION TOENAME COMPLEXITEIT METHODEN COMPLEXE ANALYSES (bv neurale netwerken) Grote databestanden
IMPLEMENTATIE DATA ANALYSE INTERPRETATIE
DATA
ANALYSE 1/3 Belangrijk
VOORBEELD Detectie valse facturen bij belastingaangiften Toegepaste Datatechnieken Landen: USA, Can, Aus, UK, Bulgarije Brazilië, Peru, Chili Characterization and detection of taxpayers with false invoices using data mining techniquespamela Castellón González a, Juan D. Velásquez, Expert Systems with ApplicationsVolume 40, Issue 5, April 2013, Pages 1427 1436 TOEGEPASTE TECHNIEKEN Neural Netwerken 6 Decision Tree (CART) 5 Logistische Regressie 4 SOM (self organizing maps) 2 K-means 2 Support Vector Machines 2 Visualisation Techniques 2 Baysian Networks 1 K-Nearest Neighbour 1 Association Rules 1 Fuzzy Roles 1 Markov Rules 1 Time Series 1 Regression 1 Simulation 1 AANTAL LANDEN (max 8) http://www.journals.elsevier.com/expert-systems-with-applications/
ANALYSE 2/3 Neural Networks Classification And Regression Tree (CART) Support Vector Machines K-Nearest Neighbour Association Rules Genetic Algorithms?
ANALYSE 3/3 Scarborugh D et al, Neural networks in organizational research Am. Psych Ass (2006), p90-92
VOORBEELD faillissementfraude INTERPRETATIE 1/2
VOORBEELD faillissementfraude INTERPRETATIE 2/2 Confidence rate van rechercheteam Pr{F+ V+} = 65% Alles met de hand PERFORMANCE (NN): Pr{V- F+}= 69% (8.0%) Pr{V+ F- }= 4% (1.9%) Pr{F+ V+}= 61% (12.4%) PERFORMANCE: (CART) Pr{V- F+}= 74% Pr{V+ F- }= 7% Pr{F+ V+}= 49% NB: training sets op 70, 80 and 90% niveau 43 NN: derde run, 7 keer herhaald; CART: gem run 1, 2, en 3
The sexy job in the next 10 years will be statisticians. He and others, such as IT and management professor Erik Brynjolfsson at the Massachusetts Institute of Technology (MIT), contend this demand will happen because the amount of data to be analyzed is out of control PricewaterhouseCoopers Technology Forecast 2010
5.Privacy BEDREIGINGEN PRIVACY NEMEN SNEL TOE 46
INFORMATION RETRIEVAL DATA FUSION TOENAME BEDREIGING PRIVACY COMPLEXE ANALYSES (bv neurale netwerken)
Privacywetgeving Nederland dateert uit 2001 Wetgeving berust op technologische inzichten uit jaren 80 en 90 Pakkans bij overtreding vrijwel nihil Maximum boete Euro 4500,-
Het data universum in 5 jaar met een factor 10 toeneemt; De geheugencapaciteit in 5 jaar met een factor 4-5 toeneemt; De processorsnelheden in 5 jaar met een factor 8-9 toenemen (Moore); De software mogelijkheden zich aan de nieuwe technologie aanpassen.
Analyse geeft toegang tot veel nieuwe kennis Analyse is tegelijkertijd een grote bedreiging voor de privacy van individuen Begrip openbaarheid is (derhalve) aan een nieuwe formulering toe.
6. Afsluitende opmerkingen Er is nog zoveel meer
Afsluitende opmerkingen 1. Er is sprake van een tweede data-revolutie. De omvang ervan wordt nauwelijks begrepen; 2. Er zal veel moeten worden geïnvesteerd om de mogelijkheden van Big Data ten nutte te maken; 3. De potentiële opbrengsten van gebruik Big Data zullen een veelvoud van de investeringen bedragen; 4. Investeringen zullen pas dan worden terugverdiend als de organisatie op de veranderingen wordt aangepast; 5. Mogelijkheden en beperkingen van analyse-instrumenten zijn onvoldoende bekend.
Dank u