Data Mining: Inleiding



Vergelijkbare documenten
Data Mining: Classificatie

Data Mining: Data kwaliteit, Preprocessing

Data mining Van boodschappenmandjes tot bio-informatica

AI en Data mining. Van AI tot Data mining. dr. Walter Kosters, Universiteit Leiden. Gouda woensdag 17 oktober

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

Data Mining: Classificatie

Uitwerking Tentamen Datamining (2II15) 26/06/09

Oplossingen Datamining 2II15 Juni 2008

Datamining: Graven in gegevens

Tentamen Data Mining

Data Mining: Clustering

Business Analytics bij. Zilveren Kruis. Rob Konijn Data Scientist Kenniscentrum. 12 mei 2016

Data Mining. Arno Siebes

Continuous Learning in Computer Vision S.L. Pintea

Data driven. Het plan naar data driven business door advanced analytics Business.

TestNet voorjaarsevent 15 mei Testen met AI. Op weg naar een zelflerende testrobot. TestNet werkgroep Testen met AI. Sander Mol Marco Verhoeven

Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6

OLAP.

Cover Page. The handle holds various files of this Leiden University dissertation

Living Labs : NFI & RvdK Samen onderweg naar meer grip op data. JenV I-tour presentatie 24 april 2018

Transformatie en Innovatie bij KPN Finance

Online marketing. De weg naar online succes. Presentatie door: Eelke Kuipers

Online marketing. De weg naar online succes. Presentatie door: Eelke Kuipers

Anomaliedetectie en patroonherkenning

Whitepaper. Personal Targeting Platform. De juiste content Op het juiste moment Aan de juiste persoon

Classification - Prediction

10 december 2014 Data-analyse en fraudedetectie. Wendy Schierboom

BIG DATA. 4 vragen over Big Data

Proces to model en model to execute

DATA MINING (TI2730-C)

November December Jan Meskens / Onderzoek

Van innovatie naar productie

URBAN SCIENCE. Professor Nanda Piersma Michael Hogenboom

Big Data in de praktijk. Kjeld v.d. Schaaf

Het classificeren van hoortoestel modaliteiten m.b.v. een Big Data benadering: Latent Class Trees analyse

Workshop Wearables en Datamining: de grenzen en mogelijkheden voor personalisatie van de zorg

Posthogeschoolvorming rond Enterprise Content Management Business Process Management Service Oriented Architectures

waarin de op dit moment relevante bron data als ook de analyse technieken worden geintegreerd.

De kracht van data. Onderwerpen. Even voorstellen Data verzamelen Data bewerken Data gebruiken Een casus: IFFR Aan de slag.. Vragen en antwoorden

Data gedreven innoveren, hoe doe je dat?

Security Intelligence for TLD Operators. Moritz Müller SIDN Relatiedag, 1 december 2016, Utrecht

Master Software Engineering. Inhoud, begeleiding, tentamen dr. Anda Counotte Docent en mentor

Stijn Hoppenbrouwers en Tom Heskes. Onderzoeksmethoden (vervolg)

Smart Maintenance. Het realiseren van een intelligente Maintenance inrichting door het slim gebruik van Data analytics

Opinion Mining. Johan Stortelder s Onderzoeksplan masterscriptie. Mei 2006

Posthogeschoolvorming rond Enterprise Content Management Business Process Management Service Oriented Architectures

Koptekst 08/06/2016. Overheid moet gevaren big-data analyses beperken.

ZELF DENKENDE WEBSHOP

Inhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen

MACHINE LEARNING. Een egocentrische presentatie door een data scientist van Axians. Michel van Gelder Data Scientist bij Axians

AdVISHE: Assessment of the Validation Status of Health- Economic Decision Models

MISSING DATA van gatenkaas naar valide uitkomsten

Educational dataforensics

Radboudumc online: Hoe stel je de patiënt centraal in een omnichannel oplossing? Mobile Healthcare Event 24 november 2017 Yno Papen

Big Data bij de Rabobank

Informatiebeheer: een nieuw tijdperk

Self Service BI. de business

Begrippenlijst Inzicht in de wereld van big data, marketing en analyse

Ontwerp van Informatiesystemen

From business transactions to process insights. BPM Round Table, TU/e 26 mei 2014

Posthogeschoolvorming rond Enterprise Content Management Business Process Management Service Oriented Architectures

Voorbereiden van de Data. Ngi Ronny Mans

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie

MEER AMBACHT DAN FABRIEK Data-Analyse en Process Mining Support

Informatiebeheer: een nieuw tijdperk

Begrippenlijst Inzicht in de wereld van big data, marketing en analyse

smartops people analytics

Creatie, toepassing en evaluatie: door marketeers en klantcontactmedewerkers. We focussen hier op Vraag, Analyse en Data terugkoppelen.

Het ALICE Project: Beeldbellen voor ouderen

Mobiele marketing. Hoe mobiele apparaten de rol van marketing veranderen. E. de Haan M.Sc. Rapport RUGCIC ISBN

Samenvatting (in Dutch)

Het gebruik van data binnen Tax PwC Eric Dankaart November 2016

Hoe weet ik op voorhand wie mij als eerste (en laatste!) betaalt?

Tlnt S.F.F. (Bas) van Odenhoven BSc. Jr. Engineer F-16 Avionica

Opleiding Data Science

Cover Page. The handle holds various files of this Leiden University dissertation.

Bijlage 1: het wetenschappelijk denk- en handelingsproces in het basisonderwijs 1

Safety analytics, een nieuwe toekomst voor preventie? 15 maart 2011 Limburghal Genk

Computer Vision: Hoe Leer ik een Computer Zien?

Creative Marketing College 1, Zomer 2010 Jaar 2 CUSTOMER INSIGHTS. Saskia Best

Van big data naar smart data. Stappenplan voor B2B leadgeneratie.

Inleiding Wat zijn paradata en welke data voor welk gebruik. verzamelen?

Bestrijd illegale houtkap en red het regenwoud met HANA

DATAMODELLERING BEGRIPPENBOOM

InforValue. Laat de waarde van Informatie uw bedrijfsdoelstellingen versterken. Informatie Management

Chapter 7 Samenvatting

A Data Driven Journey Pieter de Kok RA AANJAGER CONEY. 31 oktober 2018

HOE STIMULEER JE HET GEBRUIK VAN INTRANET?

Breng uw socialmedia-prestaties naar een hoger niveau met krachtige socialmedia-analyses

Business Process Management

Time series analysis. De business controller wilt graag de prognoses weten voor de volgende vier key metrics :

In 5 stappen naar het perfecte dashboard. 21 november 2017

Hoofdvraag. Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ?

NEDERLANDSE SAMENVATTING

Hoe kijken we naar het DNA van een patiënt?

Data fusion & Geo-psychographical database

Aanpak van criminele markten en geld

Little RFI D. Wim de Rooij. Nedap N.V.

twee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben.

Samenvatting. J. Nachtegaal, S.E. Kramer, J.M. Festen (Amsterdam)

Transcriptie:

Data Mining: Inleiding docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining 2II15: Data mining en kennissystemen Lessen: maandag 7de en 8ste uur in Auditorium 16 Docent: Toon Calders ( t.calders@tue.nl HG 7.82a ) Studeerwijzer: http://www.win.tue.nl/~tcalders/teaching/datamining/ Boek: Tan, Steinbach, Kumar: Introduction to datamining

2II15: Data mining en kennissystemen Evaluatie: 20% Uitdieping: kort verslag en presentatie 40% Groepsopdracht 40% Tentamen 2II15: Data mining en kennissystemen Uitdieping: Lezen en begrijpen van een onderzoeksartikel Kort rapport (ongeveer 2 A4 tjes) Korte presentatie

2II15: Data mining en kennissystemen Groepsopdracht: Groepjes van 3 a 4 personen Zelfstandig analyseren van een dataset Gebruik makend van bestaande algoritmes In praktijk brengen van de theorie Uitgebreide beschrijving binnenkort in studiewijzer

Overzicht: Inleiding tot data mining Waarom data mining? Wat is data mining? Het volledige knowledge discovery proces. De data mining taken. Samenvatting Overzicht: Inleiding tot data mining Waarom data mining? Wat is data mining? Het volledige knowledge discovery proces. De data mining taken. Samenvatting

Waarom data mining? Explosieve groei aan beschikbare data: petabytes nieuwe technologie (streepjescode, RFID, ) grotere opslagcapaciteit Waarom data mining? Ook veel wetenschappelijke data Beschikbaar satellietbeelden astronomische gegevens micro-arrays

Waarom data mining? We are drowning in data, but starving for knowledge! Doel van data mining = automatisch analyseren Jiawei Han 4,000,000 3,500,000 3,000,000 The Data Gap 2,500,000 2,000,000 1,500,000 1,000,000 500,000 0 Total new disk (TB) since 1995 1995 1996 1997 1998 1999 Number of analysts Overzicht: Inleiding tot data mining Waarom data mining? Wat is data mining? Het volledige knowledge discovery proces. De data mining taken. Samenvatting

Wat is data mining? Data mining (knowledge discovery from data) Extractie van interessante (niet-triviale, impliciete, vooraf ongekende en mogelijk bruikbare) patronen of kennis uit grote hoeveelheden data Alternatieve benamingen Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc. Data Dredging Torturing the data until they confess If you keep trying, eventually you will succeed.

Huidige toepassingen Data analyse en decision support Markt-analyse en management Risico-analyse en management Fraude detectie en de detectie van vreemde patronen (outliers) Andere toepassingen Tekst en Web mining (nieuwsgroepen, email, elektronische documenten) Stream data mining Bioinformatica and bio-data analyse Vb. 1: Markt analyse & management Data: transacties van betaalkaarten, klantenkaarten, kortingbonnen, klachten, plus (publieke) lifestyle studies Target marketing Zoek groepen van klanten met gelijkaardige karakteristieken Bepaal het koopgedrag over de tijd van klanten Vind associaties tussen produkten, voorspel op basis van associatie

Vb. 2: Fraude detectie & vreemde patronen Autoverzekering: ring of collisions Witwassen van geld: Verdachte geldtransacties Zorgverzekering Professionele patienten, cirkels van doorverwijzingen Onnodige medische testen Vb. 2: Fraude detectie & vreemde patronen Telecommunicaties: telefoon-kaart fraude Maak model van belgedrag: bestemming van het gesprek, duur, tijdstip, weekdag. Analyseer patronen die afwijken van het standaardgedrag. Belastingsfraude Belgische FOD Financien maakt gebruik van data mining om verdachte belastingsaangiftes te identificeren.

Overzicht: Inleiding tot data mining Waarom data mining? Wat is data mining? Het volledige knowledge discovery proces. De data mining taken. Samenvatting Knowledge discovery (KDD) Proces Data mining het hart van het knowledge discovery proces Relevant Data voor de taak Data Mining Evaluatie Data Warehouse Selectie Opschonen Data integratie Databanken

Overzicht: Inleiding tot data mining Waarom data mining? Wat is data mining? Het volledige knowledge discovery proces. De data mining taken. Samenvatting De data mining taken Klassificatie [Voorspellend] Regressie [Voorspellend] Deviatie Detectie [Voorspellend] Clustering [Descriptief] Associatie regels ontdekken [Descriptief] Sequentiele patronen ontdekken [Descriptief]

Voorspellende methods (predictive tasks) Voorspellende methodes Gebruik een aantal variabelen om de waarde van een doel-attribuut te voorspellen. Classificatie Regressie Deviatie Detectie Descriptieve Methodes Descriptieve Methodes Vind begrijpbare patronen die de data beschrijven. Clusters Association Regels Sequentiele Patronen

10 10 De data mining taken Classificatie [Voorspellend] Regressie [Voorspellend] Deviatie Detectie [Voorspellend] Clustering [Descriptief] Associatie regels ontdekken [Descriptief] Sequentiele patronen ontdekken [Descriptief] Classificatie categorisch Tid Refund Marital Status categorisch Taxable Income continu Cheat klasse Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes No Single 75K? Yes Married 50K? No Married 150K? Yes Divorced 90K? No Single 40K? No Married 80K? Training Set Leer Classifier Test Set Model

Classificatie Soorten modellen: beslissingsboom regel-gebaseerd nearest neighbor neuraal netwerk Beslissingsboom refund yes no Cheat = no married yes no Cheat = no Cheat = yes

Classificatie: toepassing Sky Survey Catalog Doel: Voorspel de klasse (ster of melkweg) van objecten, vooral onduidelijke, gebaseerd op telescoop beelden (Palomar observ.). 3000 beelden met een resolutie van 23,040 x 23,040 pixels Aanpak: Segmenteer de beelden. Meet eigenschappen van het beeld (features) - 40 per segment. Modeleer de klassen gebaseerd op deze features. From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 Classificeren van melkwegen Courtesy: http://aps.umn.edu Early Klasses: Fases in het ontstaan Intermediate Attributen: beeld features, lichtgolven Late Grootte van de dataset: 72 miljoen sterren, 20 miljoen melkwegen Object catalog: 9 GB Beelden Databank: 150 GB

Classificeren van melkwegen Succesverhaal: 16 nieuwe high red-shift quasars werden ontdekt; dit zijn objecten ver verwijderd en moeilijk zichtbaar! Met het blote oog zou de analyse jaren geduurd hebben De data mining taken Klassificatie [Voorspellend] Regressie [Voorspellend] Deviatie Detectie [Voorspellend] Clustering [Descriptief] Associatie regels ontdekken [Descriptief] Sequentiele patronen ontdekken [Descriptief]

Regressie Voorspel de waarde van een gegeven continue variabele gebaseerd op de waarden van andere variabelen. Veel bestudeerd in statistiek (lineaire regressie, niet-lineaire regressie) Regressie Voorbeelden: Voorspel de verkoopscijfers van een neiuw produkt gebaseerd op de hoeveelheid geld besteed aan reclamecampagnes. Voorspel windsnelheden op basis van windrichting, luchtdruk, weersomstandigheden, etc. Voorspel de koers van een aandeel op basis van voorgaande koersgegevens.

De data mining taken Klassificatie [Voorspellend] Regressie [Voorspellend] Deviatie Detectie [Voorspellend] Clustering [Descriptief] Associatie regels ontdekken [Descriptief] Sequentiele patronen ontdekken [Descriptief] 3. Deviatie detectie/anomalieen Ontdek significante afwijkingen van het normale gedrag Toepassingen: Fraude met kredietkaarten Network Intrusies ontdekken

De data mining taken Classificatie [Voorspellend] Regressie [Voorspellend] Deviatie Detectie [Voorspellend] Clustering [Descriptief] Associatie regels ontdekken [Descriptief] Sequentiele patronen ontdekken [Descriptief] Clustering Gebaseerd op Euclidische afstand in 3D. Intracluster afstanden minimaliseren Intercluster afstanden maximaliseren

Clustering: Toepassing 1 Clusteren van documenten: Doel: Vind groepen van documenten Clustering: Toepassing 1 Clusteren van documenten: Doel: Vind groepen van documenten gebaseerd op de woorden die voorkomen in de verschillende documenten. Aanpak: Identificeer frequente termen in de documenten. Maak een similarity measure gebaseerd op de frequenties van de verschillende termen. Gebruik: Information Retrieval kan hiervan gebruik maken om zoekresultaten per cluster weer te geven.

De data mining taken Klassificatie [Voorspellend] Regressie [Voorspellend] Deviatie Detectie [Voorspellend] Clustering [Descriptief] Associatie regels ontdekken [Descriptief] Sequentiele patronen ontdekken [Descriptief] Associatie regels Gegeven een verzameling records die elk een aantal items bevatten, vind regels die associaties tussen verzamelingen produkten beschrijven TID Items 1 Brood, Cola, Melk 2 Bier, Brood 3 Bier, Cola, Luier, Melk 4 Bier, Brood, Luier, Melk 5 Cola, Luier, Melk Regels: {Melk} --> -->{Cola} {Luier, Melk} Melk} --> -->{Bier}

Association regels: toepassingen Marketing en promoties: Stel dat volgende regel ontdekt werd: {Tortilla chips, } --> {dipsaus} Association regels: toepassingen Marketing en promoties: Stel dat volgende regel ontdekt werd: {Tortilla chips, } --> {dipsaus} dipsaus als consequent => Kan gebruikt worden om te bepalen welke produkten de verkoop van dipsaus stimuleren. Chips als antecedent => Welke produkten zullen invloed ondervinden van het verwijderen van Chips uit het assortiment? Chips als antecedent en dipsaus als consequent => Kan gebruikt worden om te zien welke produkten er samen met chips moeten verkocht worden om dipsaus te promoten

De data mining taken Klassificatie [Voorspellend] Regressie [Voorspellend] Deviatie Detectie [Voorspellend] Clustering [Descriptief] Associatie regels ontdekken [Descriptief] Sequentiele patronen ontdekken [Descriptief] 6. Sequentiele Patronen Gegeven een verzameling sequenties, zoek temporele afhankelijkheden tussen verschillende events. (A B) (C) (D E) In telecommunicatie (alarm logs), (Inverter_Problem Excessive_Line_Current) (Rectifier_Alarm) --> (Fire_Alarm) In sequenties van verkoopsdata, (Schoenen) (Racket, bal) --> (kleding)

Sequentiele Patronen: Toepassingen Veel gebruikt in bio-informatica! identificeer genen in DNA-sequenties Ontdekken van inbraken in netwerken Leer patronen te identificeren die vaak geassocieerd zijn met inbraken in het netwerk Uitbreidingen naar het spatio-temporele domein sequentie van locaties van GSMs voorspel volgende positie om hand-over efficienter te maken Monitoren van het verkeer Overzicht: Inleiding tot data mining Waarom data mining? Wat is data mining? Het volledige knowledge discovery proces. De data mining taken. Samenvatting

Samenvatting Data mining is nuttig: Wanneer de hoeveelheid data te groot is om manueel geanalyseerd te worden Als er vele mogelijke hypotheses zijn Data mining biedt aan: Verzameling tools om modellen en patronen te herkennen Intelligente zoek-technieken Resultaten van data mining: Samenvatting van de data Onverwachte patronen Model