Datamining voor iedereen Rob van der Veer 1
Overzicht 1. Sentient 2. Datamining 3. BI evolutie en datamining 4. Kritieke succesfactoren datamining 5. De Sentient aanpak 6. Voorbeelden 7. Conclusies 2
Sentient Dataminingspecialisten sinds 1991 Eigen software: DataDetective Toepassingen: Fraude-analyse (Belastingdiensten) Marketing (Delta Lloyd) Marktonderzoek (De Telegraaf) Risico-analyse (Cordares, KPN) Productadvies (Bibliotheken) Misdaadanalyse (Politieregio s) Brede samenwerking UvA, MapInfo, Hot ITem, Vicar Vision, ParaBots, Politie-academie, Experian, VU 3
Wat is datamining? Snel en geautomatiseerd ontdekken van patronen in data Verbanden,trends Clusters (veel) data datamining Voorspellingen Gegevens -> informatie -> kennis, inzicht -> voorspellingen 4
Voorbeeld 1: patroon van geweld 5
Voorbeeld 2: Klantsegmentatie 6
Verschil datamining en standaard analyse MET automatische technieken (Variabelen hoeven niet eerst gekozen) Niets over het hoofd zien Tijdsbesparing analyse Veel extra data kan betrokken worden Complexe patronen worden gevonden Zoveel patronen dat een zelflerende model kan worden gebouwd 7
BI evolutie en datamining BI nu Strategisch Over groepen Weinig data Eenvoudige verbanden Handmatig zoeken naar verbanden Beslissers en powerusers Allerlei tools en toolboxes (semi) statisch BI langzamerhand Strategisch,tactisch,operationeel Over groepen en individuën Veel data Ook complexe verbanden Dataminingtechnieken zoeken ook verbanden Voor iedereen Geïntegreerde oplossingen Dynamisch: interactief/exploratief 8
Kritieke succesfactoren datamining (DAVO) Data Datakwaliteit Dataverzamel/voorbewerkingskosten Analisten (HRM) Hoeveelheid gewenste dataminers Vereiste domeinkennis Arbeidsvoorwaarden Verbanden in veel data EN/OF complex EN/OF dynamisch Opbrengsten (business case) Verbanden om te zetten in betere beslissingen 9
HRM het grote probleem bij datamining Wij mensen zijn een beetje dom Machines zijn heel dom Met datamining proberen we die twee samen iets heel slims te laten doen. 10
Kennis-eisen voor de analist Analist Domeinkennis Toolkennis Databasekennis Dataminingkennis Datawarehouse Dataminingworkbench Meer en betere Verbanden,trends Clusters Voorspellingen Data Tools Intelligence 11
De Sentient aanpak Beperk eisen aan statistische kennis: Werk alleen met associatief geheugen Goed automatisch in te stellen Weinig eisen aan data Met uitlegmogelijkheden voor niet-statistici Met actieve assistentie Beperk eisen aan technische kennis: Zet de data kant en klaar (bespaart ook tijd) Consolideer tools naar één centrale tool met integratie Faciliteer domein-kennis optimaal: Biedt interactieve analyse, integratie en visualisatie Maak betrekken van de vrager mogelijk 12
De Sentient aanpak: het gevolg Nadelen Gebruikers kunnen niet snel even wat data toevoegen Minder vrijheid in modelkeuze Voordeel: het werkt. Blijvend. De eigen organisatie werkt er mee: borging Vragen worden duidelijker 13
DataDetective SPSS Analyts s Notebook Google earth 14
Voorbeeld: Delta Lloyd datakluis Intermediair 1 Intermediair 2 Intermediair 3 Rapportage: Voorspelde potenties Voor klant en product + klantsegmentatie Datakluis Verborgen marktkennis Externe bedrijfsgegevens Automatische Data-analyse Martkinzicht: Trends, kansen, risico s 15
Voorbeeld: Delta Lloyd beslisboom Binnen dit bedrijfstype kopen BV s met een mannelijke bestuurder 2 keer zo vaak ja product X. BV 5.453 954 17,49% 14.286 1.574 11,02% Rechtsvorm Overig Hypotheekbank, bouwfonds, financierings- en part.maatsch. etc. 845 179 21,18% Geslacht bestuurder 8.833 620 7,02% nee 4.608 775 16,82% Groot- en tussenhandel man 689 163 23,66% vrouw 156 16 10,26% ja 653 133 20,37% nee 3.955 642 16,23% aantal werknemers aantal werknemers 11-20 overig 81 26 32,10% 572 107 18,71% 21-50 overig 453 95 20,97% 3.502 547 15,62% 16
Cel Potentie productgroep Provisie (bij afname) Potentie productgroep Provisie (bij afname). Voorbeeld scoring Delta Lloyd Bedrijf Adres Huidige provisie Potentie provisie Potentie Brand Potentie Aansprakelijkheid Relatie nummer Naam Woonplaats Actieve productgroepen Totaal bedrag Hoogte indeling Totaal bedrag Hoogte indeling A 2747602 Bralland BV ROTTERDAMLeven 194 Laag 3.389 Hoog 29,0% 672 23,5% 183.. A 2751415 Zwanenberg Food Group B.V. ALMELO Leven 84 Laag 2.929 Hoog 11,8% 129 30,5% 8.286.. A 54815 Bertstra MidPres B.V. ALMERE Leven 110 Laag 2.447 Hoog 4,2% 109 39,3% 339.. A 2710215 Midster Rechtsbijstand RIJSWIJK ZHLeven 104 Laag 2.370 Hoog 65,3% 426 33,9% 368.. B 2743687 Onder Holding B.V. ALMELO Motorrijtuigen 205 Midden 5.667 Hoog 10,7% 139 13,5% 18.276.. B 2710547 Super Fitness BARENDRECHT Leven 605 Midden 5.511 Hoog 24,3% 368 14,9% 214.. B 2759374 Loonbedrijf Topsters 'S-GRAVENHAGE Motorrijtuigen 201 Midden 4.098 Hoog 24,1% 911 7,7% 197.. B 2712933 Better BV KantoorinrichtingLEIDSCHENDAM Motorrijtuigen 407 Midden 3.950 Hoog 31,3% 356 34,6% 165.. B 60896 Van Karpen B.V. NISTELRODEMedische varia 974 Midden 3.574 Hoog 27,5% 885 10,9% 186.. B 2717430 Wester Holding B.V. AMSTERDAMLeven 545 Midden 3.574 Hoog 35,8% 251 3,5% 1.187.. B 2723281 Brandweertraining BV PIJNACKER Transport 1.036 Midden 3.435 Hoog 24,5% 1.224 57,3% 1.932.................................................................................................................................................................................................................................. 17
Voorbeeld: KPN HR Identificeren en vasthouden van talent, en outplacement van onderpresteerders KPN heeft in Nederland ca. 16.000 medewerkers. Talenten die niet werden voorgedragen, kwamen niet in beeld. Hot ITem heeft met KPN HR DataDetective toegepast om verborgen talenten zichtbaar te maken en verbeteringen voor de talentidentificatie aangedragen. Ook is een groep geïdentificeerd die al langere tijd benedengemiddeld presteerde en waar wel veel in werd geïnvesteerd qua opleiding en ontwikkeling. 18
Voorbeeld: Criminaliteitsbeeld-analyse Deelproblemen op Koninginnedag 19
Voorbeeld: seriedetectie 20
Voorbeeld: Geografische criminaliteitsvoorspelling 21
Voorbeeld: bibliotheek.nl 22
Conclusies Datamining kan een grote bijdrage leveren Niet alle leuke dataminingideeën zijn levensvatbaar: DAVO De HRM factor is het grootste probleem De Sentient aanpak: Lage gebruiksdrempel, dus geen dure specialist nodig en veel mensen krijgen toegang tot informatie Exploratief/interactief Data staat al klaar Kan omgaan met dataproblemen en complexe types Integreert met veel andere tools (o.a. GIS) 23
Contact Rob van der Veer rvdveer@sentient.nl Sentient Singel 160 1015 AH Amsterdam 020 530 0330 www.sentient.nl 24