Data Mining: Clustering



Vergelijkbare documenten
Data Mining: Classificatie

Data Mining: Data kwaliteit, Preprocessing

Uitwerking Tentamen Datamining (2II15) 26/06/09

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

Classification - Prediction

Inleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren

Oplossingen Datamining 2II15 Juni 2008

d(w j, x i ) d(w l, x i ) Voorbeeld

Mogelijkheden en keuzes bij het clusteren van onderwijsdata

Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6

Cover Page. The handle holds various files of this Leiden University dissertation.

Tentamen Data Mining

Inleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren

twee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben.

Data Mining: Classificatie


Data Mining: Inleiding

2WO12: Optimalisering in Netwerken

Benaderingsalgoritmen

Figuur 7.21: Het Voronoi diagram van zes supermarkten, genummerd 1 t/m 6.

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie

Divide & Conquer: Verdeel en Heers vervolg. Algoritmiek

Tentamen combinatorische optimalisatie Tijd:

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

SQL Aantekeningen 3. Maarten de Rijke 22 mei 2003

Omtrent het begrip cluster is er geen eenduidige consistente definitie beschikbaar.

Data Mining: similariteit en visuele data exploratie

Recommender Systems voor het realtime aanbieden van nieuwssecties. Thomas Janssen

Functies deel 1. Vijfde college

Import via NatSync. Presentatie René Merx School voor de Toekomst

WETENSCHAPPEN Oefeningen. LES 2 - Gebogen vlak op basis van een wiskundig bepaalde curve in Grasshopper. Tobias Labarque Rinus Roelofs Matthias Dziwak

Kettingbreuken. 20 april K + 1 E + 1 T + 1 T + 1 I + 1 N + 1 G + 1 B + 1 R + 1 E + 1 U + 1 K + E + 1 N A + 1 P + 1 R + 1 I + 1

Software Processen. Ian Sommerville 2004 Software Engineering, 7th edition. Chapter 4 Slide 1. Het software proces

Rekenen: Meten groep 4 en hoger. Het leren van simpele weegopdrachten.

4orange Connect. 4orange, Hogehilweg CD Amsterdam Zuidoost

Extra opgaven hoofdstuk 11

REVEALING SPATIAL AND TEMPORAL PATTERNS FROM FLICKR SANDER VAN DER DRIFT

Werkblad Cabri Jr. Rotaties

Gegevens invullen in HOOFDLETTERS en LEESBAAR, aub. Belgische Olympiades in de Informatica (duur : maximum 1u15)

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Zelftest Inleiding Programmeren

VOLG Buitengewoon Input Output

2.9 Het adolescentieonderzoek Opgaven 72

Hoofdstuk 13: Sorteren & Filteren* 2010

9. Lineaire Regressie en Correlatie

IQ4E Roadshow. Presentatie. Resilient. Conformity to Guidelines. & Standards

Oefening 4.3. Zoek een positief natuurlijk getal zodanig dat de helft een kwadraat is, een derde is een derdemacht en een vijfde is een vijfdemacht.

Opfrisdocument elektronische aangifte

Programmeren A. Genetisch Programma voor het Partitie Probleem. begeleiding:

Stochastic Approximation: Sturen in een veranderende wereld

Les 1: de normale distributie

b. Maak een histogram van de verdeling van het groeiseizoen. Kies eerst klassen en maak een geschikte frequentietabel.

Data-analyse in de praktijk D E T O E PA S S I N G B I J V I S S E R & V I S S E R A C C O U N TA N T S - B E L A S T I N G A D V I S E U R S

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Genetische algoritmen in Java met JGAP

ALGEMENE STATISTIEK VOOR BWI COMPUTEROPGAVEN 2009/2010. A.W. van der Vaart en F. Bijma

Anomaliedetectie en patroonherkenning

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

DEC SDR DSP project 2017 (2)

Getallensystemen, verzamelingen en relaties

NBB.Stat Jaarrekeningen. Gebruikershandleiding Statistieken uit de jaarrekeningen (Balanscentrale)

SPSS VOOR DUMMIES+ Werken met de NSE: enkele handige basisbeginselen. Gebaseerd op SPSS21.0 & Benchmarkbestand NSE 2014

Recognition and Detection of Objects Using Visual and Textual Cues S. Karaoğlu

Data mining Van boodschappenmandjes tot bio-informatica

Helden van de wiskunde: L.E.J. Brouwer Brouwers visie vanuit een logica-informatica perspectief

Uitleg van de Hough transformatie

Elliptische krommen en digitale handtekeningen in Bitcoin

Gemiddelde, mediaan, kwartielen, interkwartielafstand, minimum, maximum, variantie, standaardafwijking, boxdiagrammen

Pythoncursus. week 2. cs.ru.nl/pythoncursus

Gegevens invullen in HOOFDLETTERS en LEESBAAR, aub. Belgische Olympiades in de Informatica (duur : maximum 1u15 )

Sampling Raster Data using Points or Polygons

waarin u gegevens in verschillende het wel goed doen Internet Opleidingscentrum

Customer Insights Center & VODW onderzoeksrapport CIC 2. Wat is Customer Intelligence (CI) en wat is het belang daarvan?

RISICOANALYSE IN RELATIE MET PL EN SIL

Nascholing Algoritmisch Denken. Martin Bruggink Renske Smetsers

3. Structuren in de taal

bovenaanzicht zijaanzicht vooraanzicht origineel

Nut en Noodzaak van impact meting 21 september 2010

Operationaliseren van variabelen (abstracte begrippen)

Transcriptie:

Data Mining: Clustering docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Wat is clustering? Het onderverdelen van de objecten in een database in homogene groepen. Input: Relatie R(A,, A n ) Output: { C,, C n } met C,, C n R Criterium: Gelijkenis binnen groep is groter dan gelijkenis tussen objecten van verschillende groepen.

Wat is clustering? Intra-cluster afstanden minimaliseren Inter-cluster afstanden maimaliseren Toepassingen van cluster analse Begrijpen Groepeer gerelateerde documenten, genen, stocks, Samenvatten 4 Reduceer de grootte van de dataset; individuele punten worden samengevat door hun cluster Discovered Clusters Applied-Matl-DOWN,Ba-Network-Down,-COM-DOWN, Cabletron-Ss-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Teas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-Cit-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanle-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Industr Group Technolog-DOWN Technolog-DOWN Financial-DOWN Oil-UP Clusters van neerslag in Australia

Notie Cluster is vaak ambigu Hoeveel clusters? 6? Of? Misschien 4? Tpes van clusterings Een clustering is een verzameling clusters Hiërarchische en partitionele clusterings. { C,, C n } is een Partitional Clustering: C i C j = {} voor alle i < j n Hiërarchische clustering: C i C j = {} of C i C j = C i of C i C j = C j voor alle i < j n

Partitionele Clustering Originele punten Partitionele clustering Hiërarchische Clustering p p p p4 p p p p4 Traditionele Hiërarchische Clustering Traditioneel Dendrogram p p p p4 p p p p4 Niet-traditionele Hiërarchische Clustering Niet-traditioneel Dendrogram

Clustering Algoritmes K-means en varianten Densit-based clusterings Hierarchische clusterings K-means Clustering Partitionele clustering benadering Elke cluster wordt geassocieerd met een centroid (centraal punt) Elk punt gaat naar de cluster met de dichtstbijzijnde centroid Aantal clusters K moet vooraf gespecifieerd worden

K-Means Clustering Veronderstelling: We hebben een afstandsmaat op D en we kunnen van een verzameling punten S het centrum bepalen centroid(s). Input: constante K, database D, afstandsmaat d Output: Partitie {C,, C K } van D zodanig dat: i {,, K}: C i : j {,, K}: i j d(,centroid(c i )) d(, centroid(c j )) (Elk punt is dichter bij z n eigen centroid dan bij elke andere centroid) K-Means Clustering

K-means: Voorbeeld Iteration 4 56.5.5 - -.5 - -.5 K-means: Voorbeeld Iteration Iteration Iteration.5.5.5.5.5.5 - -.5 - -.5 - -.5 - -.5 - -.5 - -.5 Iteration 4 Iteration 5 Iteration 6.5.5.5.5.5.5 - -.5 - -.5 - -.5 - -.5 - -.5 - -.5

- -.5 - -.5 Belang van een goede keuze van de initiële centroids.5 Originele Punten.5.5.5.5.5 - -.5 - -.5.5.5 Optimale Clustering - -.5 - -.5 Sub-optimale Clustering Belang van een goede keuze van de initiële centroids Iteration 4 5.5.5 - -.5 - -.5

- -.5 - -.5 Belang van een goede keuze van de initiële centroids Iteration Iteration.5.5.5.5 - -.5 - -.5 Iteration Iteration 4 Iteration 5.5.5.5.5.5.5 - -.5 - -.5 - -.5 - -.5 - -.5 - -.5 Problemen bij de selectie van initiële pntn Als er K echte clusters zijn, is de kans relatief klein dat we in elke echte cluster een punt hebben: Als alle echte clusters grootte n hebben: Bijvoorbeeld, als K =, dan is de kans slechts =!/ =.6 (!!) Soms komt dit nog goed tijdens het algoritme, soms ook niet.

Oplossingen voor dit probleem Meerdere runs Helpt, maar de kansen zijn erg laag Gebruik ander algoritme om clusters te vinden en gebruik deze als input voor K-means Selecteer meer dan K initiele centroids Selecteer achteraf de verst van elkaar gelegen clusters Postprocessing Beperkingen van K-means K-means heeft problemen als de clusters te erg verschillen qua grootte de clusters te erg verschillen qua densiteit De clusters geen bolvorm hebben De data outliers bevat De dimensionaliteit van de data hoog is

Beperkingen: verschillende groottes Originele punten K-means ( Clusters) Beperkingen: verschillende densiteit Originele punten K-means ( Clusters)

Beperkingen: geen bolvorm Originele punten K-means ( Clusters) Oplossingen voor de beperkingen Originele punten K-means Clustering Een oplossing is K veel groter nemen dan het veronderstelde aantal clusters Achteraf worden dicht bij elkaar gelegen clusters samengevoegd

Oplossingen voor de beperkingen Originele punten K-means Clustering Oplossingen voor de beperkingen Originele punten K-means Clustering

Clustering Algoritmes K-means en varianten Densit-based clusterings Hiërarchische clusterings Densit-based clustering

Densit-based clustering DBSCAN DBSCAN is hierop gebaseerd Input: een afstandsmaat d een dataset D Getallen µ en ε Output: Een partitionering { C,, C n } van D zodat: Voor alle punten, die voldoen aan volgende voorwaarde geldt dat ze in dezelfde cluster zitten: { z d(,z) ε } µ en { z d(,z) ε } µ en d(,) ε

Densit-based clustering: DBSCAN ε -densiteit van een punt = aantal punten binnen straal ε Een punt is een (ε, µ) -core punt indien er meer dan µ punten zijn binnen een straal ε Een (ε, µ) -border punt heeft minder dan µ punten binnen straal ε, maar ligt binnen een straal ε van ten minste een core punt Alle andere punten worden ruis punten genoemd. Densit-based clustering: DBSCAN Een punt is (ε, µ)-densit-reachable vanuit punt indien er een sequentie c,, c k van (ε,µ)-core punten bestaat zodanig dat: d(,c ) ε i {,, n-} : d(c i,c i+ ) ε d(c n,) ε Opmerking: berekening van alle paren (,) zodat (ε, µ)-densit-reachable vanuit een core punt = berekenen van transitieve afsluiting.

DBSCAN: Core, Border, en Ruis Punten DBSCAN Algorithm. Elimineer de ruis punten. i=. Zolang er core punten zijn die nog niet aan een cluster zijn toegekend: Neem een willekeurig nog niet toegekend core point c C i = { is (ε,µ)- densit reachable vanuit c, is nog niet toegekend} i := i+ 4. Return { C,, C i- }

Voorbeeld: DBSCAN Eerste punt wordt geselecteerd Alle punten die densitreachable zijn worden aan de cluster toegevoegd Tweede selectie Tweede cluster wordt gevormd Derde selectie en constructie van de cluster DBSCAN: Core, Border and Noise Points Originele punten Punt tpes: core, border en noise ε =, µ = 4

Waneer werkt DBSCAN goed? Originele punten Clustering Resistent voor ruis Kan clusters met verschillende vormen en groottes aan Wanneer werkt DBSCAN niet goed? Originele punten (µ =4, ε = 9.75) Variërende densiteit Hoog dimensionele data (µ =4, ε = 9.9)

DBSCAN: Bepalen van ε en µ Voor punten binnen een cluster is de afstand tot hun k-de buur ongeveer gelijk Ruis punten hebben hun k-de buur op veel grotere afstand Dus, plot de cumulatieve distributie van de afstand tussen alle punten en hun k-de buur. DBSCAN: Bepalen van ε en µ

Conclusies Clustering is het onderverdelen van de objecten in een database in homogene groepen Notie van een cluster is ambigu Twee partitieve algoritmes K-Means DBSCAN Conclusies K-Means Aantal clusters K gegeven Elk punt ligt dichter bij z n eigen cluster center dan bij de centra van de andere clusters DBSCAN Gebaseerd op dichtheid Twee punten op korte afstand in dichtbevolkt gebied moeten tot dezelfde cluster behoren Aantal clusters niet op voorhand bepaald Clustering-algoritmes scoren slecht in hoogdimensionele data