AI en Data mining. Van AI tot Data mining. dr. Walter Kosters, Universiteit Leiden. Gouda woensdag 17 oktober

Vergelijkbare documenten
Data mining Van boodschappenmandjes tot bio-informatica

Van AI tot Data mining Van robots via boodschappenmandjes tot bio-informatica

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

Oplossingen Datamining 2II15 Juni 2008

Tentamen in2205 Kennissystemen

Tentamen Data Mining

Ontsluiten van gesproken documenten. Arjan van Hessen

Computerspellen in soorten en maten

Gebruik Data Science om je bedrag per kassabezoek te verbeteren

Koptekst 08/06/2016. Overheid moet gevaren big-data analyses beperken.

Cover Page. The handle holds various files of this Leiden University dissertation.

Knowledge

Kunstmatige Intelligentie (AI) Hoofdstuk van Russell/Norvig = [RN] Genetische algoritmen. voorjaar 2016 College 11, 3 mei 2016

Informatica aan de Universiteit Antwerpen

Intelligente Spelen. Pieter Spronck. TouW Informatica Symposium, Open Universiteit, Universiteit van Tilburg

INZET VAN MACHINE LEARNING

Je gebruikt maar 12% van je data. Dit is hoe je die 88% ook benut. Exact Insights

AI & Big Data bij Defensie

Bioinformatica en Systeembiologie (BIS)

The best of both worlds D O O R J E R O E N L I J Z E N G A EN E M I E L H E I N S B R O E K

Kunstmatige Intelligentie

A Data Driven Journey Pieter de Kok RA AANJAGER CONEY. 31 oktober 2018

Begrippenlijst Inzicht in de wereld van big data, marketing en analyse

Ti L te eal va n S n i o x Sp i l geiding ma & Business Analytics we ib bs isuit v e a.nl

Chapter 7 Samenvatting

Data Mining. Arno Siebes

Data en technologie. Ontwikkelen van Creatieve, duurzame oplossingen voor urgente vraagstukken

AI en Software Testing op de lange termijn

Master Wiskundige Ingenieurstechnieken

Minder Big data Meer AI.

Uitwerking Tentamen Datamining (2II15) 26/06/09

De biobestedingen groeien tegen de algemene voedingstrend in

BIG DATA. 4 vragen over Big Data

Educational dataforensics

De indeling van de sector Natuur

Datamining: Graven in gegevens

Spreekopdrachten thema 2 Boodschappen

Inleiding CUSTOMER TOUCH MODEL. Is het mogelijk klanten zo goed te kennen dat je kunt voorspellen wat ze gaan kopen voordat ze dat zelf weten?

Gestructureerd registreren

Het gebruik van data binnen Tax PwC Eric Dankaart November 2016

Onderwijs- en examenregeling van de masteropleiding

Toekomstbestending maken van selectie tool Rekening houdend met strikte privacy wetgeving

Wat is consumentengedrag? Het gedrag dat consumenten vertonen bij het zoeken, evalueren, kopen, gebruiken, en afdanken van producten of diensten.

Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6

Data Mining: Inleiding

Hoe AI kan ingezet worden voor de analyse van asbesthoudende daken

Niet de mens verandert, maar zijn omgeving en de mogelijkheden

Infosessie Bachelorproef. 18 mei 2016 Luc De Raedt en Dirk Nuyens

Uw digitale werkplek met de beste bedrijfssoftware

MACHINE LEARNING. Een egocentrische presentatie door een data scientist van Axians. Michel van Gelder Data Scientist bij Axians

Stap voor stap: Op weg naar een unieke customer journey. Vertrouwd digitaal ondernemen

Modeluitwerking Tentamen Computationele Intelligentie Universiteit Leiden Informatica Vrijdag 11 Januari 2013

Medical Interactive Anamnestics. Triage, Geinnoveerd

Afstanden in Sociale Netwerken. Frank Takes Open Dag Informatica 30 november 2012

Adaptief Toetsen. een oude oplossing voor nieuwe problemen. Theo Eggen

Opleidingsonderdelen Telecommunicatie Bachelor Informatica. C. Blondia

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Bachelor Project. Neuraal Winkelen

DATA MINING (TI2730-C)

Neurale Netwerken en Deep Learning. Tijmen Blankevoort

Master Wiskundige Ingenieurstechnieken

PROFILING EN RECLAME Laura Visser 28 NOVEMBER 2017

Case 4 - Consultancy

ZELF DENKENDE WEBSHOP

Oefententamen in2205 Kennissystemen

Begrippenlijst Inzicht in de wereld van big data, marketing en analyse

Anomaliedetectie en patroonherkenning


Continuous Learning in Computer Vision S.L. Pintea

10 december 2014 Data-analyse en fraudedetectie. Wendy Schierboom

Data Mining: Classificatie

Innovatie dag Ver(s)kenners en Young Ver(s)kenners. (23) 24 september 2015

Bestrijd illegale houtkap en red het regenwoud met HANA

Seasondeals. p: +31 (0) e: w: Seasondeals, Postbus AS, Assen, Nederland

Robotic accounting & machine learning

Informatie & Databases

WE WILLEN DE BESTE ZIJN. SAMEN MET ONZE PARTNERS EN KLANTEN NAAR EEN NEXT LEVEL GROEIEN. Paul Ramakers, Exact

De biobestedingen groeien stevig door in 2015

TestNet voorjaarsevent 15 mei Testen met AI. Op weg naar een zelflerende testrobot. TestNet werkgroep Testen met AI. Sander Mol Marco Verhoeven

Verantwoorde AI, verantwoorde zorg. Frauke Wouda 20 juni 2019

Bio-informatica. Bachelor of Science - Voltijd

Business Analytics bij. Zilveren Kruis. Rob Konijn Data Scientist Kenniscentrum. 12 mei 2016

PROFILEREN & GEAUTOMATISEERDE BESLUITVORMING

Het classificeren van hoortoestel modaliteiten m.b.v. een Big Data benadering: Latent Class Trees analyse

PROGRAMMA Vak: informatica..

Fundamentals of Data Science

Web mining. In het bijzonder web usage mining

Cursus Analyse voor Web Applicaties 1. Webdesign / Web Programmeren Analyse voor web applicaties SDM methode + Basis UML

Analyse van een Customer Journey bij een Interimkantoor

Bij BCC Corporate zetten we ons in om, wanneer u onze website ( en alle onderliggende pagina s bezoekt en/of met

BASIS FUNCTIONALITEIT. Creëer kwalitatieve leads uit bezoekers van je website

Agenda / organisaties

Wat eten we vanavond?

DECANAAT OUDERAVOND 5 VWO. 10 september 2019

InforValue. Laat de waarde van Informatie uw bedrijfsdoelstellingen versterken. Informatie Management

2de bach HIB. Systeemanalyse. Volledige samenvatting. uickprinter Koningstraat Antwerpen ,70

Michael Christianen. Vakdag Dialogue & Digital Marketing Rotterdam, 7 oktober Een roadmap voor personalisatie van de klant-interactie

Python. Informatica. Renske Smetsers

Machine Learning IBM Watson. Eindhoven, High Tech Campus, 13 juni 2017

Onderwijs- en examenregeling van de bacheloropleiding

Transcriptie:

AI en Data mining Van AI tot Data mining dr. Walter Kosters, Universiteit Leiden Gouda woensdag 17 oktober 2007 www.liacs.nl/home/kosters/ 1

Wat is Data mining? Data mining probeert interessante en (on)verwachte patronen te vinden in grote hoeveelheden (on)geordende data. Bijvoorbeeld: Boodschappenmandjes: wat en hoe kopen we? Bio-informatica: DNA? Problemen (selectie): resultaten: zowel verwacht als onverwacht bewegende doelen: steeds andere eisen data vergaren: wat/hoeveel kan/mag/is er? afstandsbegrip: wie lijkt op wat? 2

KDD Het Data mining proces of beter het KDD proces, voor Knowledge Discovery in Databases wordt vaak als volgt opgedeeld: 1. data selectie 2. opschonen: de-duplicatie en domein-consistentie 3. verrijking: data-fusie 4. coderen 5. Data mining het echte gebeuren 6. rapporteren 3

Technieken Er zijn veel Data mining technieken, of beter gezegd: algoritmen, die we kunnen gebruiken om data te minen : (niet vergeten:) statistische methoden allerlei machine learning technieken uit de AI: evolutionaire algoritmen, neurale netwerken, Bayesiaanse netwerken,... allerlei technieken voor clustering en classificatie: beslissingsbomen,... associatieregels ad-hoc methoden 4

Associatieregels 5

Klanten en producten We zijn geinteresseerd in verbanden tussen verzamelingen items : producten, of moleculen, of woorden, of bezoeken aan websites. Regels zijn: als je boter koopt, koop je meestal ook brood. Stel we hebben een database met records = transacties = klanten, waarbij ieder record uit een aantal items = producten bestaat. De support van een stel artikelen is het aantal klanten dat al die artikelen koopt, meestal als percentage van het totaal. Een stel artikelen met hoge support (boven een zekere drempel) heet frequent. Bijvoorbeeld: 20% van de klanten in een supermarkt kopen brood, boter en kaas en wellicht meer producten. 6

Voorbeeld product = item 1 2 3 4 5 6 7 8 9 klant = transactie 1 1 1 0 0 1 1 1 1 0 2 1 0 1 0 0 0 0 1 1 3 0 1 1 0 1 0 1 0 0 4 1 0 1 0 1 1 0 1 1 5 0 0 0 0 1 0 0 0 0 6 0 1 0 0 1 0 1 0 0 Zelfs voor deze kleine database is het moeilijk om te zien dat {2,5,7} het enige drietal is dat gekocht wordt door minstens 50% (een vaste drempelwaarde) van de klanten. Frequente itemsets leveren associatieregels: {2,7} {5}. 7

Boodschappenmandjes 8

Boodschappenmandjes Winkels analyseren klantgedrag: boodschappenmandjes. Toepassingen zijn bijvoorbeeld: direct marketing Welke klant doen we een speciale aanbieding? Wat verkopen we? Welke producten zetten we in een kleine winkel, zeg op een station? clustering en classificatie Kunnen we klanten groeperen of herkennen aan hun koopgedrag? (Ja!) Een wat algemener doel is het begrijpen van klanten. 9

Methode Om te clusteren heb je een afstandsbegrip nodig. Stel dat twee winkels de afgelopen week dit verkocht hebben: wijn brood kaas tomaat banaan 7 120 34 0 40 10 100 21 0 0 Hun afstand kan dan zijn: 3 + 20 + 13 + 0 + 40 = 76, of 3 + 20 + 13 = 36, of 3/10 + 20/120 + 13/34, of... Het lijkt redelijk te normaliseren voor de totale verkoop bij een winkel. En 100 120 verschilt van 1 21. Hoe dan ook, er zijn veel mogelijkheden! 10

Supermarkt In een supermarkt zijn er veel klanten die een grote keuze hebben. Associatieregels kunnen eenvoudig worden toegepast. Onderzoek onthulde dat vloei en tabak vaak samen worden verkocht (wat een verrassing!), maar ook dat speciale shag speciale vloei vereist. Er is veel interesse in hierarchieën: merken algemene categorieën. Het luiers bier verhaal is een sprookje. 11

Bio-informatica 12

Bio-informatica Veel vragen uit de Bio-informatica kunnen als Data mining problemen worden beschouwd. Een enkel voorbeeld. DNA kan gezien worden als een rijtje letters uit het alfabet {A, C, G, T }: AGGTCAAT... TT. Menselijk DNA bevat ongeveer 3.000.000.000 letters het menselijk genoom, verdeeld over zo n 20 + chromosomen. Stel dat we voor zo n 2.000 + speciale stukjes DNA (clones geheten), netjes verspreid over het menselijk genoom, weten hoeveel er aanwezig is in 150 patiënten. Hier is hoeveel een getal tussen 5 ( verlies ) en +5 ( versterking ). Hoe mine je deze berg aan data? 13

Data mining Plots Links: versterkingen (985 frequente duos ); rechts: verliezen (629 frequente duos ). Verticale lijnen zijn de chromosoomgrenzen. Drempelwaarde: 100. 700 1 1000 2 3 4 5 6 7 8 9 10 11 1 12 13 14 15 16 17 1819 2021 2223 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 20 21 2223 600 500 frequent sets frequent sets 800 600 400 300 400 200 200 100 0 0 0 500 1000 clones 1500 2000 0 500 1000 1500 2000 clones 14

Slotopmerkingen We zien succesvolle inzet van Data mining. Aandachtspunten zijn onder meer: privacy presentatie van resultaten toepasbaarheid van mooie algoritmen grootschaligheid 15

AI en Data mining Afstudeerders Enkele recente afstudeeronderwerpen (bachelor, master): Poker; Rummy; Nurikabe; Sudoku; Netflix; Sokoban A Model of Evolution Focussing on Neural Networks Particle Swarm Optimization: Finding Optimal Poker Strategies A Way to Improve the Accuracy of Mining Fused Data Making the Right Offer to the Right Customer Crime Data Mining Unique Factors in the Human Genome Automated Generation and Analysis of Logical Puzzles, The Flats Puzzle Unravelling the Genetic Structure of NP-completeness Computer game development for speech therapy support Liquid State Machines; Stambomen; Eten; Diagnoses 16