Oplossingen Datamining 2II15 Juni 2008



Vergelijkbare documenten
2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

Uitwerking Tentamen Datamining (2II15) 26/06/09

Data Mining: Classificatie

Tentamen Data Mining

Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6

Data mining Van boodschappenmandjes tot bio-informatica

Deel 2. Basiskennis wiskunde

2 Data en datasets verwerken

DATA MINING (TI2730-C)

Definitie: Een enkelvoudige weddenschap is het eenvoudigste type weddenschap. Je doet als het ware een

2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht?

Tentamen Informatica 6, 2IJ60,

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

twee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben.

Zomercursus Wiskunde. Katholieke Universiteit Leuven Groep Wetenschap & Technologie. September 2008

Opgaven Kunstmatige intelligentie 4 mei 2012

Voorspellen van webwinkel aankopen met een Random Forest

5. Geavanceerde formules

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Antwoordmodel - Vlakke figuren

Data Mining: Data kwaliteit, Preprocessing

5.1 Herleiden [1] Herhaling haakjes wegwerken: a(b + c) = ab + ac (a + b)(c + d) = ac + ad + bc + bd (ab) 2 = a 2 b 2

Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms

opgaven formele structuren deterministische eindige automaten

Een combinatorische oplossing voor vraag 10 van de LIMO 2010

Data Mining: Classificatie

Inhoudsopgave Voorwoord 5 Nieuwsbrief 5 Introductie Visual Steps 6 Wat heeft u nodig? 6 Voorkennis 7 Hoe werkt u met dit boek?

Data Mining. Eindverslag 7 juni 2009

Zomercursus Wiskunde. Module 1 Algebraïsch rekenen (versie 22 augustus 2011)

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

8. Analyseren van samenhang tussen categorische variabelen

Uitvoeren en Vastleggen van Wetenschappelijk Onderzoek. Studievaardigheden 1 nov 2011 Nies Huijsmans

Foutenberekeningen. Inhoudsopgave

WISKUNDE-ESTAFETTE 2011 Uitwerkingen

Tentamen Informatica 6, 2IJ60,

1 Coördinaten in het vlak

Inleiding tot de meettheorie

college 4: Kansrekening

De kandidaten: jullie taak is het maken van de opdrachten, opzoeken van theorie en het zoeken naar de mol.

3.1 Haakjes wegwerken [1]

1 Vlaamse Wiskunde Olympiade : Tweede ronde.

6.1 Kwadraten [1] HERHALING: Volgorde bij berekeningen:

Vakgroep CW KAHO Sint-Lieven

Automaten. Informatica, UvA. Yde Venema

lengte aantal sportende broers/zussen

opdracht 1 opdracht 2. opdracht 3 1 Parabolen herkennen Algebra Anders Parabolen uitwerkingen 1 Versie DD 2014 x y toename

INSTRUCTIE ABC-ANALYSE. April 2016 v2. paul durlinger INSTRUCTIE ABC-ANALYSE April 2016 v2

Getallensystemen, verzamelingen en relaties

Examen Datastructuren en Algoritmen II

1 Vlaamse Wiskunde Olympiade : Tweede Ronde.

Proeftentamen Digitale technieken

Data Mining: Clustering

2WO12: Optimalisering in Netwerken

Hoofdstuk 16: Zoek- en verwijzingsfuncties

Examen Datastructuren en Algoritmen II

In deze les. Het experiment. Hoe bereid je het voor? Een beetje wetenschapsfilosofie. Literatuuronderzoek (1) Het onderwerp.

3.2 Vectoren and matrices

Tips en trucs voor een snelle controle op de METIS-invoer (RD 5/3/2012)

1.1 Rekenen met letters [1]

extra oefening algoritmiek - antwoorden

inhoudsopgave januari 2005 handleiding algebra 2

Willem van Ravenstein

8.1 Herleiden [1] Herleiden bij vermenigvuldigen: -5 3a 6b 8c = -720abc 1) Vermenigvuldigen cijfers (let op teken) 2) Letters op alfabetische volgorde

1 Cartesische coördinaten

samenstelling Philip Bogaert

6.1 Kwadraten [1] HERHALING: Volgorde bij berekeningen:

Faculteit Elektrotechniek - Leerstoel ES Tentamen Schakeltechniek. Vakcode 5A050, 17 november 2004, 9:00u-12:00u

DATABASEBEHEER IN EXCEL

In de 4som-puzzel kun je de gegeven sommen variëren. Nog zo eentje.

Universiteit Utrecht Departement Informatica

Ijkingstoets industrieel ingenieur aangeboden door UGent en VUB op 15 september 2014: algemene feedback

Zelftest Informatica-terminologie

Examenvragen Hogere Wiskunde I

Tentamen TI1300 en IN1305-A (Redeneren en) Logica

Eerste ronde Nederlandse Wiskunde Olympiade

ˆ het voorkomen van bepaalde woorden in de body van de mail,

TIP 10: ANALYSE VAN DE CIJFERS

Uitwerkingen Mei Eindexamen VWO Wiskunde B. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

1 Delers 1. 3 Grootste gemene deler en kleinste gemene veelvoud 12

Normering en schaallengte

d = 8 cm 2 6 A: = 26 m 2 B: = 20 m 2 C: = 18 m 2 D: 20 m 2 E: 26 m 2

Combinatoriek groep 1 & 2: Recursie

6 A: = 26 m 2 B: = 20 m 2 C:

H20 COÖRDINATEN de Wageningse Methode 1

Het graveerbaar oppervlak van de vuursteen bedraagt ca. hoogte x gemiddelde omtrek = h x x d = 65 mm x x 30 mm = mm2. Afgerond 6000 mm 2

Neurale Netwerken en Deep Learning. Tijmen Blankevoort

EXAMENVRAGEN RUIMTEMEETKUNDE I (niet-analytische meetkunde)

Transcriptie:

Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen: i. In elke database is de confidence van de associatieregel {a, b} {c} groter dan de confidence van {a} {c}. ii. Elke maximale frequente itemset is een closed itemset. (b) Geef alle associatieregels met een support van minimaal 40% en een confidence van minimaal 70% in de volgende transactiedatabase. TID Items 1 a, b, c b, c, d, e 3 c, d 4 a, b, d a, b, c Geef aan welk algoritme je hiervoor gebruikt en beschrijf de verschillende tussenstappen in jouw berekeningen. Oplossing: (a) i. Deze uitspraak is onwaar. Neem de database uit (b); conf (bc d) = 1 3 < conf (b d) = 1 ii. Deze uitspraak is waar. Als I een maximaal frequente itemset is, dan wil dit zeggen dat I frequent is en dat een enkele van zijn echte supersets frequent is. Dus is het onmogelijk dat een van zijn echte supersets dezelfde frequentie als I heeft, en dus is I closed. (b) We zoeken eerst alle frequente itemsets met een minimale support van 40%. Hiervoor maken we gebruik van het Apriori-algoritme. We tellen eerst de frequentie van de singleton sets C 1 = {a, b, c, d, e}. Dit levert volgende absolute frequenties op: a b c d e 3 4 4 3 1 Alle singleton sets behalve e zijn frequent. We hebben dus F 1 = {a, b, c, d}. Dit levert volgende kandidaten van lengte op: C = {ab, ac, ad, bc, bd, cd}. We tellen de absolute frequenties van de paren: ab ac ad bc bd cd 3 1 3 1

De frequente sets van lengte zijn dus: F = {ab, ac, bc, bd, cd}. Voor lengte 3 hebben we slechts kandidaten: C 3 = {abc, bcd}. Alle andere sets van lengte 3 hebben minstens 1 infrequente subset; abd bijvoorbeeld heeft ad als infrequente subset. De absolute frequenties: abc bcd 1 De frequente sets van lengte 3 zijn dus: F 3 = {abc}. Er kunnen geen kandidaten van lengte 4 gegenereerd worden. De verzameling frequente itemsets is dus: F = {a, b, c, d, ab, ac, bc, bd, cd, abc} De associatieregels kunnen nu gevormd worden door de frequente itemsets op te splitsen in linker- en rechterkant van een associatieregel. We testen volgende combinaties: a b 3/3 b a 3/4 a c /3 c a /4 b c 3/4 c b 3/4 b d /4 d b /3 c d /4 d c /3 ab c /3 ac b / bc a /3 Merk op dat we a bc, b ac en c ab niet hoeven te testen aangezien ab c en bc a onvoldoende confidence hebben. De regels met voldoende support en confidence zijn dus: a b, b a, b c, c b, ac b

. (Hubs en Authorities) Rangschik de nodes volgens hun hub-score. Doe dit ook voor autoriteit. Beschrijf hoe je deze rangschikking bepaalt. 1 3 4 6 Oplossing: De hub- en autoriteit-scores bepalen we met behulp van het HITS algoritme. Laat voor i = 1...6, a i de autoriteit-score van node i zijn, en h i de hub-score van deze node. a en h zijn de kolomvectoren met a i (resp. h i ), i = 1...6 als componenten. Met behulp van de volgende matrix A drukken we het verband tussen hub- en autoriteit-scores van de nodes uit: 0 0 0 1 1 0 1 0 0 1 1 1 A = 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 We beginnen met a = [ 1 1 1 1 1 1 ] T en h = [ 1 1 1 1 1 1 ] T. De hub- en autoriteit-rangschikking kunnen we bereken door iteratief de scores als volgt te updaten tot we de trend zien: h := Aa a := A T h In elke stap normaliseren we de scores zodat zowel de hub-waarden als de autoriteitwaarden maximaal 1 zijn. Een andere, eveneens correcte mogelijkheid is het gebruik van volgende formules: h := (AA T )h a := (A T A)a eveneens met normalisatie in elke stap. Voordeel van deze formule is dat ze sneller convergeert, nadeel is dat je twee matrix vermenigvuldigingen moet uitvoeren voor de berekening van AA T en A T A. Daarom hebben we hier in deze oplossing voor de eerste optie gekozen. 3

Dit geeft de opeenvolgende hub- en autoriteit-scores: a 1 1 1/3 4/7 1/... a 1 0 0 0... a 3 1 0 0 0... a 4 1 /3 6/7 13/16... a 1 1 1 1... a 6 1 /3 /7 /8... h 1 1 1/ /8 13/... h 1 1 1 1... h 3 1 1/4 1/4 /... h 4 1 1/4 3/8 7/... h 1 0 0 0... h 6 1 0 0 0... We zien nu een duidelijke trend; qua autoriteit-scores krijgen we de volgorde: en voor de hub-scores: a > a 4 > a 6 > a 1 > a = a 3 = 0 h > h 1 > h 4 > h 3 > h = h 6 = 0 Voor de geïnteresseerden: de hub- en autoriteit-scores convergeren naar: h = 0.6180339887 1.0 906963 0.338611718 a = 0.1117097433 0.87090918 1.0 0.6180339887 4

3. Classificatie Beschouw de volgende dataset. outlook temperature humidity windy play overcast 83 86 FALSE yes overcast 64 6 TRUE yes overcast 7 90 TRUE yes overcast 81 7 FALSE yes rainy 6 70 TRUE no sunny 69 70 FALSE yes sunny 7 70 TRUE yes rainy 68 80 FALSE yes rainy 7 80 FALSE yes sunny 8 8 FALSE no sunny 80 90 TRUE no rainy 71 91 TRUE no sunny 7 9 FALSE no rainy 70 96 FALSE yes (a) Kan outlook als een ordinaal attribuut beschouwd worden? Leg kort uit. (b) Veronderstel dat je Gini als maat gebruikt om de beste split te kiezen bij de constructie van een beslissingsboom voor het attribuut play. Welke van de volgende splits is dan de beste? Toon de berekening. i. 3-way split outlook=overcast/outlook=sunny/outlook=rainy ii. binaire split temperature 7/temperature>7 (c) Kan de evaluatiemethode 10-fold cross-validation gebruikt worden om de kwaliteit van een beslissingsboom te meten? Leg uit. Oplossing: (a) Dit hangt ervan af of je de waarden die outlook kan aannemen op een logische manier kan ordenen. Als je aanneemt dat dat kan, zoals met de drie waarden die in het voorbeeld voorkomen het geval is, dan kan het, bijvoorbeeld door te stellen dat: rainy < overcast < sunny Indien je aanneemt dat er nog andere weer-types die niet te vergelijken zijn, bijvoorbeeld snowy, hail (is snowy beter dan hail?), dan kan je het niet als een nominaal attribuut beschouwen. Beide antwoorden werden goed gerekend zolang ze maar voldoende gemotiveerd waren. (b) Voor de berekening van de kwaliteit van de splits moeten we de dataset onderverdelen volgens de split en de Gini index berekenen in elk van deze delen afzonderlijk met betrekking tot het doel-attribuut play. De score voor de split is dan het gewogen gemiddelde van de GINI-index in de afzonderlijke takken van de split. Dit levert de volgende waarden op:

1. 3-way split outlook=overcast/outlook=sunny/outlook=rainy: outlook overcast sunny rainy yes 4 yes yes 3 no 0 no 3 no Gini o = 0 Gini s = 1 ( ( ) + 3 = 1 ) Gini r = 1 ( ( 3 ) + = 1 ) Gini SPLIT = 0 + 1 + 14 14 1 = 1 3. binaire split temperature 7/temperature>7 temperature 7 7 yes 7 yes no 3 no Gini = 1 ( ) ( ) 7 10 + 3 10 = 1 0 Gini > = 1 ( ( 4) + 4 = 1 ) Gini SPLIT = 10 1 + 4 1 = 31 14 0 14 70 Aangezien de Gini-score van de split (a) kleiner is dan de Gini-score van split (b), levert split (a) de grootste winst (gain). Daarom kiezen we dus (a). (c) 10-fold cross-validation is een evaluatie-methode voor algoritmes, niet voor bomen of andere modellen. 10-fold cross-validation splitst de data op in 10 delen, en voor elk deel wordt nagegaan wat de performantie is van het model dat het algoritme leert op de andere 9 delen. Door de performantie-score uit te middelen over de 10 tests krijg je een goed beeld van de kwaliteit van de modellen die het algoritme aflevert. Om de kwaliteit van 1 model te evalueren echter is 10-fold cross-validation niet geschikt. (Behalve dan misschien door de kwaliteit van de te evalueren boom te vergelijken met de kwaliteit van de 10 modellen gegenereerd door de cross-validation.) 6

4. (Toepassing) Veronderstel dat je beschikt over een database die informatie over wetenschappelijke publicaties bevat. Voor elke publicatie bevat deze database de titel, de naam van het tijdschrift, het volumenummer, de auteurs, een korte abstract, een kort lijstje keywords en de lijst met referenties. De tijdschriften zijn ingedeeld in categorieën. Je kan er van uitgaan dat de gegevens in de database correct en ruisvrij zijn. Geef aan welke technieken uit de cursus je op deze database kan toepassen om volgende problemen op te lossen. Beschrijf duidelijk welke data je gebruikt en op welke manier. (a) Automatisch beslissen, gebaseerd op de titel, de lijst van auteurs, de lijst van keywords en de abstract van een paper, in welke van de tien categorieën tijdschriften dit paper het best past. (b) Welke groepjes auteurs hebben veel gemeenschappelijke publicaties? (c) Vind goede overzichtspapers (surveys) in een bepaald domein. Dit domein wordt omschreven door een aantal keywords ingegeven door de gebruiker. Oplossing: (a) Dit is duidelijk een classificatie-probleem. Als features nemen we de woorden uit de abstracts en titel, de namen van alle auteurs en de lijst van keywords. Dit worden binaire attributen in onze dataset; als een woord w voorkomt in de titel van een paper, is het overeenkomstige attribuut 1, anders is het 0. Op deze dataset kunnen we vervolgens een classifier trainen. Merk op dat er een extra complicatie is omdat er meer dan twee klassen zijn. Een andere optie: definiëer een afstandsmaat tussen papers gebaseerd op het aantal gemeenschappelijke woorden in de abstract, het aantal auteurs, etc. en pas dan het nearest neighbor algoritme toe om nieuwe papers te classificeren. (b) Hiervoor is frequent itemset mining geschikt. De transactie-database bestaat uit 1 transactie per paper, namelijk de verzameling auteurs van dat paper. De frequente itemsets zijn dan setjes van auteurs die vaak samen publiceren. Een minder geschikte methode is clustering van de auteurs. Omdat het aantal samenwerkende auteurs typisch veel kleiner is dan het totale aantal auteurs en omdat een auteur tijdens zijn of haar loopbaan vaak met verschillende groepen samenwerkt, krijgen we hier typisch erg veel kleine clustertjes die daarbij nog vaak overlappen. (c) HITS kan hier worden toegepast. De overzichtspapers zijn de hubs van de citatiegraaf. Een extra complicatie hier is de beperking van het domein door middel van opgegeven keywords. Hier kan op twee manieren mee omgegaan worden: ofwel zoeken we eerst de hubs en gebruiken we daarna de keywords om ons te beperken tot het opgegeven domein, of we gebruiken de keywords om eerst relevante papers te identificeren als core, breiden die core uit met alles op afstand 1 en passen HITS toe. Om papers te vinden die overeenstemmen qua keywords kunnen we een afstandsmaat tussen sets van keywords gebruiken, bijvoorbeeld de cosine-measure na omzetting tot binaire vectoren. 7