Datamining: Graven in gegevens Business Intelligence in de praktijk Jasper Lansink CMG Noord Nederland - Advanced Technology
Agenda Business Intelligence Datamining theorie Datamining in de praktijk
management rapportage fraude-detectie HOLAP datamining decision support multidimensionale databases MOLAP datamarts operational datastore MIS ROLAP balanced scorecards KDD datawarehouse kennismanagement transformatie metadata OLAP EIS MDBMS 1-to-1 marketing
Wat is Business Intelligence? MOLAP KDD datamining Analyse ROLAP HOLAP OLAP transformatie datawarehouse Gegevens datamarts operational verzamelen datastores MDBMS fraude-detectie 1-to-1 marketing een voortdurend kennismanagement zoekproces Beheer naar kennis en planmatig uitgevoerd en inzicht over metadata het bedrijf Bedrijfsvoering management rapp. balanced scorecards decision EIS support MIS
Waarom Business Intelligence? Steeds meer gegevens, steeds minder informatie Uitbuiten verborgen informatie en kennis Juiste informatie, juiste plek, juiste tijd Snellere besluitvorming 24-uurs economie Time-to-market Concurrentiedruk Optimalisering bedrijfsvoering When I receive the financial reports, I am either happy or upset, but hardly am I smarter
Perspectieven Kennis Informatie Data
Incrementele aanpak Pilot Evaluatie Definitie Analyse Eerste Increment Ontwerp Invoering Test Bouw Tweede Increment
Agenda Business Intelligence Datamining theorie Wat is datamining? De technieken Randvoorwaarden Toepassingen Datamining in de praktijk
Datamining: definitie Datamining is de non-triviale extractie van impliciete, voorheen onbekende en nuttige kennis uit data
Datamining: definitie Datamining is de non-triviale extractie van impliciete, voorheen onbekende en nuttige kennis uit data
Datamining: definitie Datamining is de non-triviale extractie van impliciete, voorheen onbekende en nuttige kennis uit data
Datamining: definitie Datamining is de non-triviale extractie van impliciete, voorheen onbekende en nuttige kennis uit data
Datamining: definitie Datamining is de non-triviale extractie van impliciete, voorheen onbekende en nuttige kennis uit data
Datamining: definitie Datamining is de non-triviale extractie van impliciete, voorheen onbekende en nuttige kennis uit data
Technieken Methode Visualisatie Statistiek Beslissingsbomen Neurale netwerken Genetische algoritmen
Methode B.v. SEMMA van SAS Institute Sample Explore Modify Model Assess dataset bepalen, steekproef gegevens verkennen gegevens aanpassen analyseren en modelleren evalueren resultaten
Beslissingsbomen 1000 groep F G 48% 52% 48% 52% 350:150 130:370 500 Varkens F G 70% 30% 35% 15% 500 Geen Varkens F G 26% 74% 13% 37% 60:40 290:110 2:48 128:322 100 Buiten Conc. gebied F G 60% 40% 6% 4% 400 Conc. gebied F G 72% 28% 29% 11% 50 Kippen F G 4% 96% 0% 5% 450 Geen Kippen F G 28% 72% 13% 32% 5:0 5 0-10 Runderen F G 100% 0% 0% 0% 195:105 300 11-20 Runderen F G 65% 35% 20% 10% 90:5 95 > 20 Runderen F G 95% 5% 9% 0%
Neuraal netwerken
Randvoorwaarden Interactie met primaire proces Kwaliteit en beschikbaarheid gegevens = Datawarehouse Expertise Materie-deskundigheid Gegevensdeskundigheid Datamining-deskundigheid
Gebruik datawarehouse Datamining eisen wijken af van toepassingen zoals management informatie en database marketing Nog groter belang schone gegevens Platte gegevens i.p.v. berekende gegevens Eventueel relevante gegevens afleiden Vooral numerieke gegevens bruikbaar Numerieke gegevens classificeren
Toepassingen Direct marketing door Customer profiling Winkel-layout Aandelen-koers analyse Risico-analyse Performance-optimalisatie Frequent flyer acties Fraude detectie
Agenda Business Intelligence Datamining theorie Datamining in de praktijk
De probleemstelling Hoe/waaraan herken je een agrariër die de wet overtreedt? Waarom is dat belangrijk? 100.000+ agrariërs en agrarische bedrijven Steeds complexere regelgeving Beperkte controle capaciteit Non-conformisten controleren en pakken Conformisten impliciet controleren
De context Ministerie van LNV Bureau Heffingen => Uitvoering Algemene Inspectie Dienst (AID) => Handhaving Mestwetgeving Beperken mestproductie en milieuvervuiling Registratie mestproductierechten Aangifte mestproductie Overproductie? Betalen! Systematiek vergelijkbaar met belastingdienst
De handhaving Controles op 4 niveaus: Accountantscontrole (in doelgroep zelf) Administratieve verwerking Bureau Heffingen Datamining: Selecteren verdachte relaties Controle (desk, fysiek) door AID Doel: Niveau handhaving moet vergelijkbaar zijn met belastingdienst (gemiddelde controle 1x per 6 jaar) Geen extra controleurs nodig
Het concept: Dataminingwiel Datawarehouse Extraheren van dataset uit DW Dataset Verwerken controleresultaten in DW MINEN Kennis Gegevens Controleresultaten Analysemodel Uitvoeren van controles Vertalen van analysemodel in controlespecificaties Selecties van bedrijven
De incrementele aanpak Incrementen van 8 weken 8 incrementen gedefinieerd t/m juni 2000 3 paralleltrajecten Datawarehouse realisatie Aansturing / analyse / modellering Datamining (2 dataminers) Per increment: Vaste stappen / producten / interactie tussen trajecten Beschikbare gegevens opgedeeld Additionele onderwerpen bepaald
Visualisatie (1) Histogram: Aantal hectare vs. Aantal varkens => geen verband
Visualisatie (2) Histogram: Kilogram mest vs. Aantal varkens => Verband
Statistiek (1) Regressie: Aantal hectare vs. Aantal varkens => Geen verband
Statistiek (2) Regressie: Kilogram mest vs. Aantal varkens => Verband
De uitdagingen (organisatorisch) Inrichten van het gehele proces Hoe blijft het wiel draaien? Voorbereiden van de organisatie Datamining is geen bedreiging Kennis vergaring en vertaling naar datamining Business Intelligence, Kennis management Vinden van goede dataminers
De uitdagingen (m.b.t. gegevens) Integratie van twee bronnen (relatiebeheer!) Vervuiling gegevens Voldoen aan regels der statistiek Bepaling fraude begrip Verkrijgen minebare gegevens Veranderende brongegevens Is er wel wat te vinden?
Vragen