Data Mining: Inleiding docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining 2II15: Data mining en kennissystemen Lessen: maandag 7de en 8ste uur in Auditorium 16 Docent: Toon Calders ( t.calders@tue.nl HG 7.82a ) Studeerwijzer: http://www.win.tue.nl/~tcalders/teaching/datamining/ Boek: Tan, Steinbach, Kumar: Introduction to datamining
2II15: Data mining en kennissystemen Evaluatie: 20% Uitdieping: kort verslag en presentatie 40% Groepsopdracht 40% Tentamen 2II15: Data mining en kennissystemen Uitdieping: Lezen en begrijpen van een onderzoeksartikel Kort rapport (ongeveer 2 A4 tjes) Korte presentatie
2II15: Data mining en kennissystemen Groepsopdracht: Groepjes van 3 a 4 personen Zelfstandig analyseren van een dataset Gebruik makend van bestaande algoritmes In praktijk brengen van de theorie Uitgebreide beschrijving binnenkort in studiewijzer
Overzicht: Inleiding tot data mining Waarom data mining? Wat is data mining? Het volledige knowledge discovery proces. De data mining taken. Samenvatting Overzicht: Inleiding tot data mining Waarom data mining? Wat is data mining? Het volledige knowledge discovery proces. De data mining taken. Samenvatting
Waarom data mining? Explosieve groei aan beschikbare data: petabytes nieuwe technologie (streepjescode, RFID, ) grotere opslagcapaciteit Waarom data mining? Ook veel wetenschappelijke data Beschikbaar satellietbeelden astronomische gegevens micro-arrays
Waarom data mining? We are drowning in data, but starving for knowledge! Doel van data mining = automatisch analyseren Jiawei Han 4,000,000 3,500,000 3,000,000 The Data Gap 2,500,000 2,000,000 1,500,000 1,000,000 500,000 0 Total new disk (TB) since 1995 1995 1996 1997 1998 1999 Number of analysts Overzicht: Inleiding tot data mining Waarom data mining? Wat is data mining? Het volledige knowledge discovery proces. De data mining taken. Samenvatting
Wat is data mining? Data mining (knowledge discovery from data) Extractie van interessante (niet-triviale, impliciete, vooraf ongekende en mogelijk bruikbare) patronen of kennis uit grote hoeveelheden data Alternatieve benamingen Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc. Data Dredging Torturing the data until they confess If you keep trying, eventually you will succeed.
Huidige toepassingen Data analyse en decision support Markt-analyse en management Risico-analyse en management Fraude detectie en de detectie van vreemde patronen (outliers) Andere toepassingen Tekst en Web mining (nieuwsgroepen, email, elektronische documenten) Stream data mining Bioinformatica and bio-data analyse Vb. 1: Markt analyse & management Data: transacties van betaalkaarten, klantenkaarten, kortingbonnen, klachten, plus (publieke) lifestyle studies Target marketing Zoek groepen van klanten met gelijkaardige karakteristieken Bepaal het koopgedrag over de tijd van klanten Vind associaties tussen produkten, voorspel op basis van associatie
Vb. 2: Fraude detectie & vreemde patronen Autoverzekering: ring of collisions Witwassen van geld: Verdachte geldtransacties Zorgverzekering Professionele patienten, cirkels van doorverwijzingen Onnodige medische testen Vb. 2: Fraude detectie & vreemde patronen Telecommunicaties: telefoon-kaart fraude Maak model van belgedrag: bestemming van het gesprek, duur, tijdstip, weekdag. Analyseer patronen die afwijken van het standaardgedrag. Belastingsfraude Belgische FOD Financien maakt gebruik van data mining om verdachte belastingsaangiftes te identificeren.
Overzicht: Inleiding tot data mining Waarom data mining? Wat is data mining? Het volledige knowledge discovery proces. De data mining taken. Samenvatting Knowledge discovery (KDD) Proces Data mining het hart van het knowledge discovery proces Relevant Data voor de taak Data Mining Evaluatie Data Warehouse Selectie Opschonen Data integratie Databanken
Overzicht: Inleiding tot data mining Waarom data mining? Wat is data mining? Het volledige knowledge discovery proces. De data mining taken. Samenvatting De data mining taken Klassificatie [Voorspellend] Regressie [Voorspellend] Deviatie Detectie [Voorspellend] Clustering [Descriptief] Associatie regels ontdekken [Descriptief] Sequentiele patronen ontdekken [Descriptief]
Voorspellende methods (predictive tasks) Voorspellende methodes Gebruik een aantal variabelen om de waarde van een doel-attribuut te voorspellen. Classificatie Regressie Deviatie Detectie Descriptieve Methodes Descriptieve Methodes Vind begrijpbare patronen die de data beschrijven. Clusters Association Regels Sequentiele Patronen
10 10 De data mining taken Classificatie [Voorspellend] Regressie [Voorspellend] Deviatie Detectie [Voorspellend] Clustering [Descriptief] Associatie regels ontdekken [Descriptief] Sequentiele patronen ontdekken [Descriptief] Classificatie categorisch Tid Refund Marital Status categorisch Taxable Income continu Cheat klasse Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes No Single 75K? Yes Married 50K? No Married 150K? Yes Divorced 90K? No Single 40K? No Married 80K? Training Set Leer Classifier Test Set Model
Classificatie Soorten modellen: beslissingsboom regel-gebaseerd nearest neighbor neuraal netwerk Beslissingsboom refund yes no Cheat = no married yes no Cheat = no Cheat = yes
Classificatie: toepassing Sky Survey Catalog Doel: Voorspel de klasse (ster of melkweg) van objecten, vooral onduidelijke, gebaseerd op telescoop beelden (Palomar observ.). 3000 beelden met een resolutie van 23,040 x 23,040 pixels Aanpak: Segmenteer de beelden. Meet eigenschappen van het beeld (features) - 40 per segment. Modeleer de klassen gebaseerd op deze features. From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 Classificeren van melkwegen Courtesy: http://aps.umn.edu Early Klasses: Fases in het ontstaan Intermediate Attributen: beeld features, lichtgolven Late Grootte van de dataset: 72 miljoen sterren, 20 miljoen melkwegen Object catalog: 9 GB Beelden Databank: 150 GB
Classificeren van melkwegen Succesverhaal: 16 nieuwe high red-shift quasars werden ontdekt; dit zijn objecten ver verwijderd en moeilijk zichtbaar! Met het blote oog zou de analyse jaren geduurd hebben De data mining taken Klassificatie [Voorspellend] Regressie [Voorspellend] Deviatie Detectie [Voorspellend] Clustering [Descriptief] Associatie regels ontdekken [Descriptief] Sequentiele patronen ontdekken [Descriptief]
Regressie Voorspel de waarde van een gegeven continue variabele gebaseerd op de waarden van andere variabelen. Veel bestudeerd in statistiek (lineaire regressie, niet-lineaire regressie) Regressie Voorbeelden: Voorspel de verkoopscijfers van een neiuw produkt gebaseerd op de hoeveelheid geld besteed aan reclamecampagnes. Voorspel windsnelheden op basis van windrichting, luchtdruk, weersomstandigheden, etc. Voorspel de koers van een aandeel op basis van voorgaande koersgegevens.
De data mining taken Klassificatie [Voorspellend] Regressie [Voorspellend] Deviatie Detectie [Voorspellend] Clustering [Descriptief] Associatie regels ontdekken [Descriptief] Sequentiele patronen ontdekken [Descriptief] 3. Deviatie detectie/anomalieen Ontdek significante afwijkingen van het normale gedrag Toepassingen: Fraude met kredietkaarten Network Intrusies ontdekken
De data mining taken Classificatie [Voorspellend] Regressie [Voorspellend] Deviatie Detectie [Voorspellend] Clustering [Descriptief] Associatie regels ontdekken [Descriptief] Sequentiele patronen ontdekken [Descriptief] Clustering Gebaseerd op Euclidische afstand in 3D. Intracluster afstanden minimaliseren Intercluster afstanden maximaliseren
Clustering: Toepassing 1 Clusteren van documenten: Doel: Vind groepen van documenten Clustering: Toepassing 1 Clusteren van documenten: Doel: Vind groepen van documenten gebaseerd op de woorden die voorkomen in de verschillende documenten. Aanpak: Identificeer frequente termen in de documenten. Maak een similarity measure gebaseerd op de frequenties van de verschillende termen. Gebruik: Information Retrieval kan hiervan gebruik maken om zoekresultaten per cluster weer te geven.
De data mining taken Klassificatie [Voorspellend] Regressie [Voorspellend] Deviatie Detectie [Voorspellend] Clustering [Descriptief] Associatie regels ontdekken [Descriptief] Sequentiele patronen ontdekken [Descriptief] Associatie regels Gegeven een verzameling records die elk een aantal items bevatten, vind regels die associaties tussen verzamelingen produkten beschrijven TID Items 1 Brood, Cola, Melk 2 Bier, Brood 3 Bier, Cola, Luier, Melk 4 Bier, Brood, Luier, Melk 5 Cola, Luier, Melk Regels: {Melk} --> -->{Cola} {Luier, Melk} Melk} --> -->{Bier}
Association regels: toepassingen Marketing en promoties: Stel dat volgende regel ontdekt werd: {Tortilla chips, } --> {dipsaus} Association regels: toepassingen Marketing en promoties: Stel dat volgende regel ontdekt werd: {Tortilla chips, } --> {dipsaus} dipsaus als consequent => Kan gebruikt worden om te bepalen welke produkten de verkoop van dipsaus stimuleren. Chips als antecedent => Welke produkten zullen invloed ondervinden van het verwijderen van Chips uit het assortiment? Chips als antecedent en dipsaus als consequent => Kan gebruikt worden om te zien welke produkten er samen met chips moeten verkocht worden om dipsaus te promoten
De data mining taken Klassificatie [Voorspellend] Regressie [Voorspellend] Deviatie Detectie [Voorspellend] Clustering [Descriptief] Associatie regels ontdekken [Descriptief] Sequentiele patronen ontdekken [Descriptief] 6. Sequentiele Patronen Gegeven een verzameling sequenties, zoek temporele afhankelijkheden tussen verschillende events. (A B) (C) (D E) In telecommunicatie (alarm logs), (Inverter_Problem Excessive_Line_Current) (Rectifier_Alarm) --> (Fire_Alarm) In sequenties van verkoopsdata, (Schoenen) (Racket, bal) --> (kleding)
Sequentiele Patronen: Toepassingen Veel gebruikt in bio-informatica! identificeer genen in DNA-sequenties Ontdekken van inbraken in netwerken Leer patronen te identificeren die vaak geassocieerd zijn met inbraken in het netwerk Uitbreidingen naar het spatio-temporele domein sequentie van locaties van GSMs voorspel volgende positie om hand-over efficienter te maken Monitoren van het verkeer Overzicht: Inleiding tot data mining Waarom data mining? Wat is data mining? Het volledige knowledge discovery proces. De data mining taken. Samenvatting
Samenvatting Data mining is nuttig: Wanneer de hoeveelheid data te groot is om manueel geanalyseerd te worden Als er vele mogelijke hypotheses zijn Data mining biedt aan: Verzameling tools om modellen en patronen te herkennen Intelligente zoek-technieken Resultaten van data mining: Samenvatting van de data Onverwachte patronen Model