Data mining (en twee woorden over data warehousing)

Vergelijkbare documenten

DATA MINING (TI2730-C)

General info on using shopping carts with Ingenico epayments

Interaction Design for the Semantic Web

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

LDA Topic Modeling. Informa5ekunde als hulpwetenschap. 9 maart 2015

ETS 4.1 Beveiliging & ETS app concept

Het beheren van mijn Tungsten Network Portal account NL 1 Manage my Tungsten Network Portal account EN 14

Activant Prophet 21. Prophet 21 Version 12.0 Upgrade Information

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 8 februari 2010

Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016

Self Service BI. de business

SharePoint intranet bij Barco Beter (samen)werken en communiceren

FOD VOLKSGEZONDHEID, VEILIGHEID VAN DE VOEDSELKETEN EN LEEFMILIEU 25/2/2016. Biocide CLOSED CIRCUIT

MyDHL+ Van Non-Corporate naar Corporate

2019 SUNEXCHANGE USER GUIDE LAST UPDATED

Ranking database queries. Ranking in IR. Classic ranking in IR. Ranking in IR. Ranking in IR: score. Advanced Databases

DNA Profile. DNA profielen. DNA profielen. DNA profielen. DNA profielen

Settings for the C100BRS4 MAC Address Spoofing with cable Internet.

Relationele Databases 2002/2003

Relationele Databases 2002/2003

Begrijp je doelgroep en connect Search en Social voor de opbmale klant beleving

Identity & Access Management & Cloud Computing

Process Mining and audit support within financial services. KPMG IT Advisory 18 June 2014

MyDHL+ Uw accountnummer(s) delen

ContentSearch. Deep dive

Hoe publiek is uw privacy?

SAMPLE 11 = + 11 = + + Exploring Combinations of Ten + + = = + + = + = = + = = 11. Step Up. Step Ahead

Travel Survey Questionnaires

Comics FILE 4 COMICS BK 2

Firewall van de Speedtouch 789wl volledig uitschakelen?

Wie? Advanced Databases blok DB vs IR. Wat? Canonical application (DB) Canonical application (DB)

Luister alsjeblieft naar een opname als je de vragen beantwoordt of speel de stukken zelf!

Uitwerking Tentamen Datamining (2II15) 26/06/09

Tilburg University. Domein-specifieke marktsegmentatie van Raaij, Fred; Verhallen, T.M.M. Published in: Handboek marketing, 3e ed.

Handleiding Zuludesk Parent

Online Resource 1. Title: Implementing the flipped classroom: An exploration of study behaviour and student performance

SHICO: SHIFTING CONCEPTS OVER TIME

Welke factoren beïnvloeden het gezamenlijk leren door leraren? Een systematische literatuurreview Thurlings, M.C.G.; den Brok, P.J.

Verantwoord rapporteren. Karin Schut

Aim of this presentation. Give inside information about our commercial comparison website and our role in the Dutch and Spanish energy market

Telenet Hotspot: login flow. Baalse Hei

Preschool Kindergarten

Wilco te Winkel, Liesbeth Mantel Erasmus University Rotterdam,NL

Het gebruik van data binnen Tax PwC Eric Dankaart November 2016

Data mining Van boodschappenmandjes tot bio-informatica

Relationele Databases 2002/2003

(Big) Data in het sociaal domein

Uitnodiging Security Intelligence 2014 Dertiende editie: Corporate IAM

2013 Introduction HOI 2.0 George Bohlander

Classification of triangles

04/11/2013. Sluitersnelheid: 1/50 sec = 0.02 sec. Frameduur= 2 x sluitersnelheid= 2/50 = 1/25 = 0.04 sec. Framerate= 1/0.

Tilburg University. Huishoudelijk gedrag en stookgasverbruik van Raaij, Fred; Verhallen, T.M.M. Published in: Economisch Statistische Berichten

English is everywhere. hi morning mouse cool help desk hello computers mail school game. Lees de tekst. Omcirkel de Engelse woorden.

Tilburg University. Technieken van kwalitatief onderzoek 1 Verhallen, T.M.M.; Vogel, H. Published in: Tijdschrift voor Marketing

Data Handling Ron van Lammeren - Wageningen UR

Published in: Onderwijs Research Dagen 2013 (ORD2013), mei 2013, Brussel, Belgie

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 7 februari 2011

Beïnvloedt Gentle Teaching Vaardigheden van Begeleiders en Companionship en Angst bij Verstandelijk Beperkte Cliënten?

De grondbeginselen der Nederlandsche spelling / Regeling der spelling voor het woordenboek der Nederlandsche taal (Dutch Edition)

Welkom! Michael Sourbron.

Enterprise Portfolio Management

Opleiding PECB IT Governance.

LDAP Server on Yeastar MyPBX & tiptel 31xx/32xx series

Taco Schallenberg Acorel

Classification - Prediction

Clinical Microsystem Thinking The Gouda story in perspective

Davide's Crown Caps Forum

Transformatie en Innovatie bij KPN Finance

Een model voor personeelsbesturing van Donk, Dirk

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

Ontpopping. ORGACOM Thuis in het Museum

Open Onderwijs API. De open standaard voor het delen van onderwijs data. 23 juni 2016 Frans Ward - SURFnet Architectuurraad - Utrecht

CBSOData Documentation

Intermax backup exclusion files

DBMS. DataBase Management System. Op dit moment gebruiken bijna alle DBMS'en het relationele model. Deze worden RDBMS'en genoemd.

NCTS - INFORMATIE INZAKE NIEUWIGHEDEN VOOR 2010

Databases - Inleiding

Global TV Canada s Pulse 2011

Compaq Desktop Wallpaper

Wat kunnen Large Corporates leren van StartUps?

Voorbereiden van de Data. Ngi Ronny Mans

Alcohol policy in Belgium: recent developments

Creatief onderzoekend leren

CBSOData Documentation

GOVERNMENT NOTICE. STAATSKOERANT, 18 AUGUSTUS 2017 No NATIONAL TREASURY. National Treasury/ Nasionale Tesourie NO AUGUST

Transcriptie:

Gegevensbanken 2010 Data mining (en twee woorden over data warehousing) Bettina Berendt www.cs.kuleuven.be/~berendt

Data mining (en twee woorden over data warehousing): Motivatie & Samenvatting 2

Waar zijn we? Les Nr. wie wat 1 ED intro, ER 2 ED EER 3 ED relational model 4 ED mapping EER2relational 5 KV relational algebra, relational calculus 6 KV SQL 7 KV vervolg SQL 8 KV demo Access, QBE, JDBC 9 KV functional dependencies and normalisation 10 KV functional dependencies and normalisation 11 BB file structures and hashing 12 BB indexing I 13 BB indexing II and higher-dimensional structures 14 BB query processing 15 BB transaction 16 BB query security 17 BB Data mining (and a bit on d. warehousing) 18 ED XML, oodb, multimedia db Nieuwe thema s / vooruitblik 3

Aan wie zou een bank geld lenen? Gegevensbanken queries: Wie heeft ooit een krediet niet terugbetaald? SELECT DISTINCT Fname, Lname FROM Clients, Loans WHERE clientid = loantakerid AND paid = NO Data Warehousing / Online Analytical Processing OLAP: In welke wijken hebben meer dan 20% van de clienten vorig jaar een krediet niet terugbetaald? Data Mining: Bij welke mensen is te verwachten dat ze een krediet niet terugbetalen? (= wijk, baan, leeftijd, geslacht,...) 4

één toepassing: bedrijfsinformatiesystemen probleemstelling het management heeft behoefte aan informatie en kennis van eigen organisatie hoe informatie en kennis uit gegevens (van o.a. gegevensbanken) distilleren? d.m.v. business intelligence system gebaseerd op: data warehouses (gegevenspakhuizen) op niveau van bedrijf data marts (gegevensmarkten) op niveau van afdelingen gebruik van decision support tools (beslissingsondersteunende hulpmiddelen): OLAP: on-line analytical processing (analytische hulpmiddelen) data mining ( schatgraven ) 5

nog een toepassingsgebied Het Web Je gebruikt Web data mining elke dag 6

Indexering en ranking 7

Gedragsanalyse voor recommender systems 8

Tekstmining voor recommender systems 9

Agenda Hoe worden gegevens machtig? Mining & combinatie Voorbeelden van vragen voor data mining Methoden (1): Itemset mining en association rules Methoden (2): Classificatie en voorspelling Methoden (3): doorsnedeaanval voor record linkage Achtergrond: verschillende gegevensmodellen 10

Agenda Hoe worden gegevens machtig? Mining & combinatie Voorbeelden van vragen voor data mining Methoden (1): Itemset mining en association rules Methoden (2): Classificatie en voorspelling Methoden (3): doorsnedeaanval voor record linkage Achtergrond: verschillende gegevensmodellen 11

Verschillende modi van inferenties Welke documenten zijn belangrijk voor een query? Zoekmachine-indexering =^= SELECT deductief Wat kochten andere klanten ook? beschrijvende statistiek Wat zal daarom ook voor de actuele klant interessant zijn om te kopen? exploratieve/inductieve statistiek Is document 1 meer belangrijk dan doc. 2? (Zoekmachine-ranking) Is deze link interessant voor iemand die deze mail heeft geschreven/gekregen? inductief 12

Data en Web Mining: definities Knowledge discovery (aka Data mining): het niet-triviale proces voor het identificeren van geldige, nieuwe, mogelijk te gebruiken, en uiteindelijk verstaanbare patronen in data. Web Mining: Het toepassen van data mining technieken op de inhoud, (hyperlink)structuur, en het gebruik van Webbronnen Navigation, queries, content access & creation Web mining areas: Web content mining Web structure mining Web usage mining 13

Data mining technieken Verkennende data-analyse met interactieve, vaak visuele methoden Beschrijvende modellering (schatting van de dichtheid, clusteranalyse en segmentatie, afhankelijkheidsmodellering) Voorspellende modelleringen (classificatie en regressie) Het doel is een model te bouwen waarmee de waarde van één variable te voorspellen is, op basis van de gekende waarden voor de andere variabelen. In classificatie is de voorspelde waarde een categorie; bij regressie is deze waarde quantitatief Het ontdekken van (lokale) patronen en regels Typische voorbeelden zijn frequente patronen zoals verzamelingen, sequenties, subgrafen en regels die hieruit afgeleid kunnen worden (bv. associatieregels) 14

Bijzonder interessant op basis van gecombineerde gegevens...... en...... en... 15

Agenda Hoe worden gegevens machtig? Mining & combinatie Voorbeelden van vragen voor data mining Methoden (1): Itemset mining en association rules Methoden (2): Classificatie en voorspelling Methoden (3): doorsnedeaanval voor record linkage Achtergrond: verschillende gegevensmodellen 16

Hoe mijn winkel organiseren? (Wal-Mart, Amazon) Waar: spaghetti, boter? 17

Wat maakt mensen blij? 18

Is dit een man of en vrouw? clicked on 19

Is dit dezelfde persoon? 20

Wie is dit? (steekproef uit een zoek-query log) 21

Wie is dit? 22

Waar wonen mensen die spoedig de Koran zullen kopen? 23

Waar zal een aardbeving plaatsvinden? 24

Agenda Hoe worden gegevens machtig? Mining & combinatie Voorbeelden van vragen voor data mining Methoden (1): Itemset mining en association rules Methoden (2): Classificatie en voorspelling Methoden (3): doorsnedeaanval voor record linkage Achtergrond: verschillende gegevensmodellen 25

Gegevens Market basket (winkelmandje) data : attributen met booleaanse domeinen In een tabel elke rij is een basket (ook: transactie) Transactie ID Attributen (basket items) 1 Spaghetti, tomatensaus 2 Spaghetti, brood 3 Spaghetti, tomatensaus, brood 4 Brood, boter 5 Brood, tomatensaus 26

Genereren van grote k-itemsets met Apriori Transactie Attributen (basket items) ID 1 Spaghetti, tomatensaus 2 Spaghetti, brood 3 Spaghetti, tomatensaus, brood 4 Brood, boter 5 Brood, tomatensaus Min. support = 40% Stap 1: kandidaat-1-itemsets Spaghetti: support = 3 (60%) Tomatensaus: support = 3 (60%) Brood: support = 4 (80%) Boter: support = 1 (20%) 27

Transactie ID Attributen (basket items) 1 Spaghetti, tomatensaus 2 Spaghetti, brood 3 Spaghetti, tomatensaus, brood 4 Brood, boter 5 Brood, tomatensaus Stap 2: grote 1-itemsets Spaghetti Tomatensaus Brood kandidaat-2-itemsets {Spaghetti, tomatensaus}: support = 2 (40%) {Spaghetti, brood}: support = 2 (40%) {tomatensaus, brood}: support = 2 (40%) 28

Transactie ID Attributen (basket items) 1 Spaghetti, tomatensaus 2 Spaghetti, brood 3 Spaghetti, tomatensaus, brood 4 Brood, boter 5 Brood, tomatensaus Stap 3: grote 2-itemsets {Spaghetti, tomatensaus} {Spaghetti, brood} {tomatensaus, brood} kandidaat-3-itemsets {Spaghetti, tomatensaus, brood}: support = 1 (20%) Stap 4: grote 3-itemsets { } 29

Van itemsets naar associatieregels Schema: Als subset dan grote k-itemset met support s en confidence c s = (support van grote k-itemset) / # tupels c = (support van grote k-itemset) / (support van subset) Voorbeeld: Als {spaghetti} dan {spaghetti, tomatensaus} Support: s = 2 / 5 (40%) Confidence: c = 2 / 3 (66%) 30

Agenda Hoe worden gegevens machtig? Mining & combinatie Voorbeelden van vragen voor data mining Methoden (1): Itemset mining en association rules Methoden (2): Classificatie en voorspelling Methoden (3): doorsnedeaanval voor record linkage Achtergrond: verschillende gegevensmodellen 31

Blij in blogs 32

Well kids, I had an awesome birthday thanks to you. =D Just wanted to so thank you for coming and thanks for the gifts and junk. =) I have many pictures and I will post them later. hearts Wat zijn de karakteristieke woorden voor deze twee stemmingen? Home alone for too many hours, all week long... screaming child, headache, tears that just won t let themselves loose... and now I ve lost my wedding band. I hate this. current mood: current mood: 33

Data, het voorbereiden van data en leren LiveJournal.com optionele stemmingsannotatie 10,000 blogs: 5,000 blije entries / 5,000 trieste entries gemiddelde grootte: 175 woorden / entry post-processing verwijder SGML tags, tokenizatie, part-ofspeech tagging kwaliteit van automatische stemmingsonderscheiding naïve bayes text classifier five-fold cross validation Nauwkeurigheid: 79.13% (>> 50% baseline) 34

Resultaat: happiness factoren afgeleid uit een corpus yay 86.67 shopping 79.56 awesome 79.71 birthday 78.37 lovely 77.39 concert 74.85 cool 73.72 cute 73.20 lunch 73.02 books 73.02 goodbye 18.81 hurt 17.39 tears 14.35 cried 11.39 upset 11.12 sad 11.11 cry 10.56 died 10.07 lonely 9.50 crying 5.50 35

Bayes formula and its use for classification 1. Joint probabilities and conditional probabilities: basics P(A & B) = P(A B) * P(B) = P(B A) * P(A) P(A B) = ( P(B A) * P(A) ) / P(B) (Bayes formula) P(A) : prior probability of A (a hypothesis, e.g. that an object belongs to a certain class) P(A B) : posterior probability of A (given the evidence B) 2. Estimation: Estimate P(A) by the frequency of A in the training set (i.e., the number of A instances divided by the total number of instances) Estimate P(B A) by the frequency of B within the class-a instances (i.e., the number of A instances that have B divided by the total number of class-a instances) 3. Decision rule for classifying an instance: If there are two possible hypotheses/classes (A and ~A), choose the one that is more probable given the evidence (~A is not A ) If P(A B) > P(~A B), choose A The denominators are equal If ( P(B A) * P(A) ) > ( P(B ~A) * P(~A) ), choose A 36

Simplifications and Naive Bayes 4. Simplify by setting the priors equal (i.e., by using as many instances of class A as of class ~A) If P(B A) > P(B ~A), choose A 5. More than one kind of evidence General formula: P(A B 1 & B 2 ) = P(A & B 1 & B 2 ) / P(B 1 & B 2 ) = P(B 1 & B 2 A) * P(A) / P(B 1 & B 2 ) = P(B 1 B 2 & A) * P(B 2 A) * P(A) / P(B 1 & B 2 ) Enter the naive assumption: B 1 and B 2 are independent given A P(A B 1 & B 2 )= P(B 1 A) * P(B 2 A) * P(A) / P(B 1 & B 2 ) By reasoning as in 3. and 4. above, the last two terms can be omitted If (P(B 1 A) * P(B 2 A) ) > (P(B 1 ~A) * P(B 2 ~A) ), choose A The generalization to n kinds of evidence is straightforward. These kinds of evidence are often called features in machine learning. 37

Voorbeeld: teksten als bags of words Gebruikelijke voorstellingen van teksten Verzameling: kan elk element (woord) maximaal één keer bevatten Bag (aka multiset): kan elk woord meerdere keren bevatten (meest gebruikelijke voorstelling in tekst mining) Hypotheses en bewijs A = De blog is een blije blog, the email is spam, etc. ~A = De blog is een trieste blogde email is geen spam, etc. B i refereert naar het i de woord dat voorkomt in de gehele tekstcorpus Schatting voor de bag-of-words representatie: Voorbeeldschatting voor P(B 1 A) : het aantal voorkomens van het eerste woord in alle blije blogs, gedeeld door het totaal aantal woorden in de blije blogs (etc.) 38

Agenda Hoe worden gegevens machtig? Mining & combinatie Voorbeelden van vragen voor data mining Methoden (1): Itemset mining en association rules Methoden (2): Classificatie en voorspelling Methoden (3): doorsnedeaanval voor record linkage Achtergrond: verschillende gegevensmodellen 40

Het onderscheiden van identiteiten de achtergrond Paper gepubliceerd door het MovieLens team (collaborativefiltering van filmwaarderingen) die het overwogen om een dataset met waarderingen te publiceren, zie http://movielens.umn.edu/ Publieke dataset: gebruikers vermelden films in forumberichten Private dataset (kan vrijgegeven worden voor e.g. onderzoeksdoeleinden): de waarderingen van de gebruikers Film IDs kunnen gemakkelijk uit de berichten gehaald worden Observatie: Elke gebruiker praat over items uit een schaarse relatieruimte (de over het algemeen weinige films die hij/zij gezien heeft) 41

Het onderscheiden van identiteiten het computationele probleem Zoek gelijkaardige gebruikers, gegeven een target user t uit de forumgebruikers (in termen waarvan ze gerelateerd zijn) in de dataset met filmwaarderingen Rangschik deze gebruikers volgens hun waarschijnlijkheid om t te zijn Evalutie: Als t in de top k van deze lijst staat, dan is t k-geïdentificeerd Tel het percentage gebruikers dat k-geïdentificeerd is E.g. meet de waarschijnlijkheid d.m.v. TF.IDF (m: item) 42

Resultaten 43

Wat denk je dat helpt? 44

Wat denk je wat helpt? 45

Data en data-analyse 3,828 filmreferenties door 133 forumgebruikers over 1,685 verschillende films 12,565,530 waarderingen van 140,132 gebruikers, over 8,957 items Extractie van filmreferenties uit de berichten Verschillende algoritmes om gelijkaardige gebruikers te vinden 46

Privacy en het Social Web (I) vb.: april 2010: Facebook Open Graph http://news.cnet.com/8301-13577_3-20003053-36.html http://developers.facebook.com/docs/opengraph http://techcrunch.com/2010/04/21/microsoft-facebook-docscom/ social network mining 47

Privacy en het Social Web (II) Bescherming door toegangscontrole?! Basistechniek in beveiliging van gegevensbanken (hoofdstuk 23 handboek) Geschikt voor het Social Web? Andere aanpak I: Privacy-preserving data mining / data publishing Andere aanpak II: Awareness tools, onderhandelingssteun Aanbeveling: doctoraat Seda Gürses: presentatie 28 mei (details zullen op mijn Web pagina te vinden zijn) 48

Agenda Hoe worden gegevens machtig? Mining & combinatie Voorbeelden van vragen voor data mining Methoden (1): Itemset mining en association rules Methoden (2): Classificatie en voorspelling Methoden (3): doorsnedeaanval voor record linkage Achtergrond: verschillende gegevensmodellen 49

Gegevensmodellen (met voorbeelden) Relationeel Medische gegevens, kiezersregister Transacties in vorm van items (booleaans) Teksten in vorm van woorden (booleaans): bag of words Multidimensionaal, gebaseerd op relationeel klassiek gegevensmodel in data warehousing: data cube Grafen / netwerken Google PageRank Tijdsreeks, tijdelijke + ruimtelijke gegevens aardbevingsvoorspelling 50

Agenda Hoe worden gegevens machtig? Mining & combinatie Voorbeelden van vragen voor data mining Methoden (1): Itemset mining en association rules Methoden (2): Classificatie en voorspelling Methoden (3): doorsnedeaanval voor record linkage Achtergrond: verschillende gegevensmodellen XML, object-georienteerde GBn, multimedia GBn 51

Bronnen P. 17, Methoden (1) Agrawal R, Imielinski T, Swami AN. "Mining Association Rules between Sets of Items in Large Databases." SIGMOD. June 1993, 22(2):207-16, http://rakesh.agrawal-family.com/papers/sigmod93assoc.pdf Agrawal R, Srikant R. "Fast Algorithms for Mining Association Rules", VLDB. Sep 12-15 1994, Chile, 487-99. http://rakesh.agrawalfamily.com/papers/vldb94apriori.pdf P. 18, Methoden (2) Mihalcea, R. & Liu, H. (2006). A corpus-based approach to finding happiness, In Proceedings of the AAAI Spring Symposium on Computational Approaches to Analyzing Weblogs. en Rada Mihalcea s presentatie op CAAW 2006 P. 20, Methoden (3) Frankowski, D., Cosley, D., Sen, S., Terveen, L., & Riedl, J. (2006). You are what you say: Privacy risks of public mentions. In Proc. SIGIR 06. http://wwwusers.cs.umn.edu/~dfrankow/files/privacy-sigir2006.pdf 52

Bronnen (2): P. 19: Jian Hu, Hua-Jun Zeng, Hua Li, Cheng Niu, Zheng Chen (2007). Demographic Prediction Based on User s Browsing Behavior. In Proc. WWW 2007, May 8 12, 2007, Banff, Alberta, Canada. http://www.cs.belllabs.com/cm/cs/who/pfps/temp/web/www2007.org/papers/paper686.pdf P. 21: New York Times (2006). A Face Is Exposed for AOL Searcher No. 4417749. http://www.nytimes.com/2006/08/09/technology/09aol.html P. 22: Sweeney L (2002) k-anonymity: A model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5):557 570. http://epic.org/privacy/reidentification/sweeney_article.pdf P. 23: Owad, T. (2006). Data Mining 101: Finding Subversives with Amazon Wishlists. http://www.applefritter.com/bannedbooks Frankowski, D., Cosley, D., Sen, S., Terveen, L.G., Riedl, J. (2006). You are what you say: privacy risks of public mentions. In SIGIR 2006: Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Seattle, Washington, USA, August 6-11, 2006 (pp. 565 572). ACM. http://www-users.cs.umn.edu/~dfrankow/files/privacy-sigir2006.pdf P. 24: Elizabeth Cochran, http://www.earthscience.ucr.edu/cochran.html, e.g., http://www.wired.com/science/planetearth/news/2008/03/quake_network Verdere figuren: bronnen zie Powerpoint comments field Bedankt iedereen! 53

PS Meer info s ook in hoofdstukken 28 (Data Mining) en 29 (Data Warehousing and OLAP) van Elmasri & Navathe 54