Tentamen Data Mining



Vergelijkbare documenten
Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

Oplossingen Datamining 2II15 Juni 2008

Uitwerking Tentamen Datamining (2II15) 26/06/09

DATA MINING (TI2730-C)

Data mining Van boodschappenmandjes tot bio-informatica

twee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben.

Cover Page. The handle holds various files of this Leiden University dissertation.

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Data Mining: Classificatie

Opgaven Kunstmatige intelligentie 4 mei 2012

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Examen Discrete Wiskunde donderdag 12 april, 2018

Examen G0N34 Statistiek

Classification - Prediction

Universiteit Utrecht Faculteit Wiskunde en Informatica. Examen Optimalisering op maandag 18 april 2005, uur.

2.2 Verbanden tussen datarepresentaties

Business Analytics bij. Zilveren Kruis. Rob Konijn Data Scientist Kenniscentrum. 12 mei 2016

Data Mining. Eindverslag 7 juni 2009

TENTAMEN INLEIDING ASTROFYSICA WOENSDAG 14 DECEMBER,

Data Mining: Opdracht 2

2 Data en datasets verwerken

Voorspellen van webwinkel aankopen met een Random Forest

TECHNISCHE UNIVERSITEIT EINDHOVEN

Data Mining: Clustering

1.1 Tweedegraadsvergelijkingen [1]

R Verklaar alle antwoorden zo goed mogelijk

Data Mining. Arno Siebes

Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms

Herkansing eindtoets statistiek voor HBO

6.0 Voorkennis AD BC. Kruislings vermenigvuldigen: Voorbeeld: 50 10x ( x 1) Willem-Jan van der Zanden

2 Data en datasets verwerken

Over binaire beslissingsdiagrammen naar Donald E. Knuth s The Art of Computer Programming, Volume 4

Hoofdstuk 2: Verbanden

SQL Aantekeningen 3. Maarten de Rijke 22 mei 2003

Benaderingsalgoritmen

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

d(w j, x i ) d(w l, x i ) Voorbeeld

2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht?

Uitwerking tentamen Analyse van Algoritmen, 29 januari

5. Geavanceerde formules

Combinatoriek groep 1

Hoofdstuk 1 : De Tabel

Operationaliseren van variabelen (abstracte begrippen)

Flying Sensor Rapport

Hertentamen Lineaire Schakelingen (EE1300)

opgaven formele structuren deterministische eindige automaten

Data Mining: Classificatie

S0A17D: Examen Sociale Statistiek (deel 2)

Toepassingen op discrete dynamische systemen

Security. Eerste tentamen

XML Datafeeds. Volledig geautomatiseerd advertenties plaatsen V

HOOFDSTUK VII REGRESSIE ANALYSE

PYTHON REEKS 1: BASICS. Mathias Polfliet

Tussentoets Analyse 1

5.1 Lineaire formules [1]

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Toegepaste data-analyse: sessie 3

2. Het benaderen van nulpunten

Kunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016

Praktische Numerieke Wiskunde

Examen G0N34 Statistiek

De huwelijksstelling van Hall

Statistiek ( ) eindtentamen

Syllabus Leren Modelleren

lengte aantal sportende broers/zussen

1.0 Voorkennis. Voorbeeld 1: Los op: 6x + 28 = 30 10x.

Tentamen Beeldverwerking TI2716-B Woensdag 28 januari

Data Mining: Inleiding

natuurkunde Compex natuurkunde 1,2 Compex

TU/e 2DD50: Wiskunde 2 (1)

Tentamen combinatorische optimalisatie Tijd:

Informatica: C# WPO 13

Transcriptie:

Tentamen Data Mining Algemene Opmerkingen Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. Laat bij het uitvoeren van berekeningen zien hoe je aan een antwoord gekomen bent. Als je alleen een antwoord opschrijft en dat is fout, rest ons niets dan het geheel fout te rekenen. Een rekenmachine is toegestaan. De cijfers van de nagekeken tentamens zullen binnen 4 weken op de deur van de kamer 110 gepubliceerd worden. Opgave 1. Korte vragen (16 punten) Geef korte, ter zake doende antwoorden op de volgende vragen: (a) Is het XOR probleem oplosbaar met één enkele lineaire classifier? (b) Is het Nearest-Neighbour algoritme alleen toepasbaar op continue data? (c) Is de volgende stelling waar? Alleen in het geval van ongebalanceerde data is het nuttig om cross-validation te verrichten. (d) Een onderneming heeft met behulp van een clustering-algoritme zijn klanten in een aantal groepen ingedeeld. De variabelen waarop geclusterd is zijn o.a. leeftijd, inkomen, en huwelijkse staat. Direct na de conversie van de guldens naar euros werd het algoritme opnieuw gedraaid en vond men andere groepen dan voorheen. Wat kan hiervan de oorzaak zijn? Hoe had men dit kunnen voorkomen? (e) Wat is het A-priori principe dat gebruikt word bij het berekenen van frequent itemsets? (f) Van de Hollandse Brug worden met behulp van sensoren over een bepaalde tijdspanne eigenschappen gemeten. Dit levert 100 signalen op met elk 10 12 (genormaliseerde) meetpunten: s i = {x 1, x 2,..., x 10 12}, i [1, 100]. Noem een nadeel op van het gebruik van een euclidische afstandsmaat tussen signalen (en dus sensoren) in deze context zoals gebruikelijk bij methoden zoals nearest neighbour. Noem daarnaast een aanpak die gekozen kan worden indien men deze signalen in groepen wil indelen, zodanig dat de signalen die het meest op elkaar lijken in dezelfde groep zitten. 1

(g) Om de juiste waarde van k te bepalen, het juiste aantal clusters zogezegd, doet een onderzoeker voor verschillende waarde van k een herhaling van het cluster algoritme. Om deze te vergelijken gebruikt hij een error maat: E = n d 2 (x i, c(x i )), i=1 waarbij c(x) de dichtsbijzijnde centroid voor datapunt x is, en d een afstandsmaat. Wat vindt u van deze werkwijze? (h) Data Mining algoritmen kunnen in twee groepen opgedeeld worden, afhankelijk van hoe de modellen gebruikt gaan worden. De eerste groep bestaat uit black-box methoden. Hoe noemen we de andere groep? Opgave 2. Data Representatie (10 punten) Bij het reviewen van wetenschappelijke artikelen wordt vaak de volgende indeling gebruikt om de kwaliteit aan te geven: strong accept, weak accept, weak reject en strong reject. Stel we hebben een dataset opgesteld naar aanleiding van reviews van alle papers voor een te houden conferentie, waarbij kwaliteit één van de attributen is. (a) Hoe noem je het type van een attribuut die deze kwaliteit aanduidt? (b) Geef een voorbeeld van een alternatieve representatie voor de kwaliteit. Noem ook twee voorbeelden van een algoritme dat baat zou hebben bij de alternatieve representatie (waarbij kwaliteit niet de target is). (c) Stel we willen de kwaliteit wel als target gebruiken, en willen binaire classificatie gebruiken om de kwaliteit te voorspellen. Op welke drie manieren kunnen we de representatie van kwaliteit aanpassen zodat dit mogelijk wordt? Wat is het nadeel van deze manieren van representatie? Opgave 3. Clustering (15 punten) Gegeven is dataset D met n = 8 datapunten, die elk 2-dimensionaal zijn ( x y) : ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 0 1 0 1 4 5 4 5 D = {,,,,,,, }. 1 0 2 3 1 2 4 3 We willen deze data clusteren, wat we kunnen doen door middel van de k-means methode. Kies k = 2, en als initiële cluster centroids: ( ) ( ) 3 3 c 0 =, c 1 =. 1 4 Pas de k-means methode toe op D, en laat duidelijk zien welke cluster centroids resulteren na convergentie. 2

Opgave 4. Naïve Bayes (10 punten) Omdat het maken van een tentamen data mining een waar feest is, hebben we onze kamer versierd met veel mooie ballonnen. Tijdens al dat ballonnen blazen hielden we voor de volgende attributen iedere waargenomen waarde bij: kleur, grootte, vorm, functie, vol. KLEUR GROOTTE VORM OPDRUK VOL geel klein bol ja waar blauw groot plat ja onwaar geel klein bol ja waar geel klein bol nee onwaar geel klein bol ja waar geel klein plat ja waar blauw groot bol ja onwaar blauw groot plat ja waar geel klein bol ja onwaar geel klein plat ja waar We willen kijken wat de eigenschappen zijn van een volle ballon t.o.v. een niet volle ballon. (a) Voor deze classicatie taak gebruiken we Naïve Bayes. Bij deze database wordt echter een aanname geschaad. Wat is deze aanname en leg uit hoe deze geschaadt wordt. (b) Laat zien hoe deze database zich vertaalt met de Naïve Bayes methode tot een probabilistisch model dat gebruikt kan worden voor toekomstige classificaties. (c) Later vindt iemand nog een ballon, de gemeten waarden zijn: KLEUR GROOTTE VORM OPDRUK VOL geel klein plat nee? Als we willen voorspellen of dit een opgeblazen ballon op gaat leveren lopen we tegen een probleem op. Wat is dit probleem, en leg uit wat de standaard manier is om dit probleem op te lossen. Gebruik deze methode om deze nieuwe instantie te classificeren. 3

Opgave 5. Frequent Pattern Mining (16 punten) Gegeven is een transactionele database D waar elke transactie een itemset heeft: tid Items 1 {a, b, c} 2 {a, d, e} 3 {a, c} 4 {d, e} 5 {b, c} 6 {a, c, d, e} 7 {c, d, e} 8 {b, c} 9 {a, c, d, e} 10 {b} (a) Onze database D heeft 5 unieke items. Uit D kunnen we itemset patronen en associatie regels verkrijgen. Geef in dit geval voor zowel patronen als associatie regels het theoretisch maximale aantal. (b) Wat is de maximum grootte (aantal items in X, of X ) van de frequente itemsets. Beantwoord deze vraag voor zowel voor minsup = 0 als minsup = 0.1. (c) Vind een paar itemsets (A, B) waarvoor geldt: conf(a B) = conf(b A), en A > 1, B > 1 (d) Teken de itemset lattice en label elke knoop met minstens een van de volgende letters die van toepassing is: I= infrequent itemset, F=frequent itemset, M=maximal itemset, C=closed itemset. Hierbij geldt: minsup = 0.3. (e) Stel voor de volgende regels de contingency tabel op, en rank de regels a.d.h.v. evaluatie maten. De regels zijn: De evaluatie maten zijn: Support Confidence {b} {c}, {a, d} {e}, en {c} {d, e}. 4

Opgave 6. Subgroup Discovery (15 punten) Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. Dit attribuut heeft twee waarden, T en F. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een support heeft van 80%. Ook blijkt dat S positief geassocieerd is met de target. (a) Teken de ROC ruimte voor dit binaire attribuut, en teken daarin de locatie van een subgroep die S zou kunnen voorstellen. (b) Stel nu dat we S uitbreiden met een conditie c, zodat S = S c. Geef in het schema duidelijk aan in welk gebied de subgroep S moet liggen. Geef ook schematische aan hoe dit gebied bepaald kan worden. Als je een voorkeur hebt voor een tekstuele beschrijving, kan dit ook. (c) Stel dat de we alleen geïntereseerd zijn in patronen met een minimum support van 10%, en C1 en C2 voldoen aan deze eis. Kan C1 C2 een te lage support hebben? Leg uit. (d) Is er een C1 en C2 denkbaar, volgens de genoemde eisen, zodat C1 C2 een hogere Weighted Relative Accuracy heeft dan zowel C1 als C2 afzonderlijk? Verklaar. (e) Leg uit wat een isometric is, met betrekking tot kwaliteitsmaten in de ROC ruimte. Opgave 7. Decision Trees (18 punten) Ga uit van een dataset met twee numerieke attributen (x en y) en een binair target. De dataset bevat 8 voorbeelden, en ziet er als volgt uit. Alleen integer waarden komen voor: 5

y 10 9 8 7 6 5 4 3 2 1 0 0 2 4 6 8 10 x positive negative (a) Geef een voorbeeld van een beslisboom van diepte 2 (dus maximaal twee splitsingen per pad van de wortel naar een blad) zoals die waarschijnlijk door een algoritme op basis van information gain geproduceerd wordt. (b) Geef een suggestie hoe deze data met behulp van een beslisboom makkelijker en preciezer gemodeleerd kan worden. (c) Geef voor attribuut x aan welke drempelwaarden relevant zijn voor het bepalen van de maximale information gain voor een splitsing op x. (d) Bereken de information gain van de split x < 4.5. Een lage precisie van je berekening volstaat. Gebruik eventueel de onderstaande tabel met benaderde waarden voor de entropie H(p). p H(p) 0 0 1/8 0.54 2/8 0.81 3/8 0.95 4/8 1 5/8 0.95 6/8 0.81 7/8 0.54 1 0 6