DATA MINING (TI2730-C)



Vergelijkbare documenten
2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

Tentamen Data Mining

SAMPLE 11 = + 11 = + + Exploring Combinations of Ten + + = = + + = + = = + = = 11. Step Up. Step Ahead

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 8 februari 2010

Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6

In te vullen door Gemeente/ To be filled out by Municipality

In te vullen door Gemeente/ To be filled out by Municipality

Uitwerking Tentamen Datamining (2II15) 26/06/09

Oplossingen Datamining 2II15 Juni 2008

Persoonsgegevens personal details

Tentamen T1 Chemische Analysemethoden 6 maart 2014

Data Handling Ron van Lammeren - Wageningen UR

Data Mining: Classificatie

Hertentamen 8D040 - Basis beeldverwerking

i(i + 1) = xy + y = x + 1, y(1) = 2.

General info on using shopping carts with Ingenico epayments

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Examination 2DL04 Friday 16 november 2007, hours.

MyDHL+ Van Non-Corporate naar Corporate

Academisch schrijven Inleiding

RECEPTEERKUNDE: PRODUCTZORG EN BEREIDING VAN GENEESMIDDELEN (DUTCH EDITION) FROM BOHN STAFLEU VAN LOGHUM

Luister alsjeblieft naar een opname als je de vragen beantwoordt of speel de stukken zelf!

256 kb Memory in NMS 8250, 8255 and 8280

The first line of the input contains an integer $t \in \mathbb{n}$. This is followed by $t$ lines of text. This text consists of:

Add the standing fingers to get the tens and multiply the closed fingers to get the units.

Online Resource 1. Title: Implementing the flipped classroom: An exploration of study behaviour and student performance

Ontpopping. ORGACOM Thuis in het Museum

Free Electives (15 ects)

Opgave 2 Geef een korte uitleg van elk van de volgende concepten: De Yield-to-Maturity of a coupon bond.

Travel Survey Questionnaires

CBSOData Documentation

Intermax backup exclusion files

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 22 februari 2013

AE1103 Statics. 25 January h h. Answer sheets. Last name and initials:

LDA Topic Modeling. Informa5ekunde als hulpwetenschap. 9 maart 2015

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

Het Verband Tussen Negatieve Levensgebeurtenissen, 5-HTTLPR en Reactieve. Agressie. Pien S. Martens. Open Universiteit Heerlen

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Calculus B (2WBB1) op maandag 28 januari 2013, 14:00 17:00 uur

Classification of triangles

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

Ae Table 1: Aircraft data. In horizontal steady flight, the equations of motion are L = W and T = D.

Data mining Van boodschappenmandjes tot bio-informatica

Introductie in flowcharts

L.Net s88sd16-n aansluitingen en programmering.

L.Net s88sd16-n aansluitingen en programmering.

S e v e n P h o t o s f o r O A S E. K r i j n d e K o n i n g

Settings for the C100BRS4 MAC Address Spoofing with cable Internet.

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Understanding and being understood begins with speaking Dutch

Vergaderen in het Engels

Find Neighbor Polygons in a Layer

0515 DUTCH (FOREIGN LANGUAGE)

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 7 februari 2011

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Academisch schrijven Inleiding

Alle opgaven tellen even zwaar, 10 punten per opgave.

Plotten. technisch tekenwerk AUTOCAD 2000

Onbetwist-Toetsen Calculus

CBSOData Documentation

ALGORITMIEK: answers exercise class 7

0515 FOREIGN LANGUAGE DUTCH

Four-card problem. Input

Beïnvloedt Gentle Teaching Vaardigheden van Begeleiders en Companionship en Angst bij Verstandelijk Beperkte Cliënten?

Chapter 4 Understanding Families. In this chapter, you will learn

EM7680 Firmware Update by OTA

een kopie van je paspoort, een kopie van je diploma voortgezet onderwijs (hoogst genoten opleiding), twee pasfoto s, naam op de achterkant

Concept of Feedback. P.S. Gandhi Mechanical Engineering IIT Bombay

Engels op Niveau A2 Workshops Woordkennis 1

Question-Driven Sentence Fusion is a Well-Defined Task. But the Real Issue is: Does it matter?

Example. Dutch language lesson. Dutch & German Language Education Pieter Wielick

EM7580 Firmware Update by Micro SD card

DBMS. DataBase Management System. Op dit moment gebruiken bijna alle DBMS'en het relationele model. Deze worden RDBMS'en genoemd.

(1) De hoofdfunctie van ons gezelschap is het aanbieden van onderwijs. (2) Ons gezelschap is er om kunsteducatie te verbeteren

Falende Interpretatie? De Samenhang van Faalangst met Interpretatiebias

Relationele Databases 2002/2003

Relationele Databases 2002/2003

Houdt u er alstublieft rekening mee dat het 5 werkdagen kan duren voordat uw taalniveau beoordeeld is.

Welkom. Digitale programma: #cmdag18. Dagvoorzitter Prof. dr. Arjan van Weele NEVI hoogleraar inkoopmanagement.

Ervaringen in het gebruik van FME

Quality of life in persons with profound intellectual and multiple disabilities. Marga Nieuwenhuijse maart 2016

Orbis Software. Exact. Integration Tools. Dit document bevat de Release Notes voor: - Exact Globe Integration Tool v x

Calculator spelling. Assignment

Geslacht, Emotionele Ontrouw en Seksdrive. Gender, Emotional Infidelity and Sex Drive

NORMEN VOOR EDEPOTS DUURZAME BEWARING IS VOOR EDEPOTS GROEIMODEL NAAR EEN OAIS BLUE BOOK. Archiverings- en raadplegingsformaten

Leeftijdcheck (NL) Age Check (EN)

Controller waar gaat gij heen?

Preschool Kindergarten

C - de totale constante kosten. N - de normale bezetting in stuks

Registratie- en activeringsproces voor de Factuurstatus Service NL 1 Registration and activation process for the Invoice Status Service EN 10

Wij beloven je te motiveren en verbinden met andere studenten op de fiets, om zo leuk en veilig te fietsen. Benoit Dubois

Screen Design. Deliverable 3 - Visual Design. Pepijn Gieles Docent: Jasper Schelling

EM7680 Firmware Auto-Update for Kodi 17.2

Samen met Hogeschool Rotterdam?

KPMG PROVADA University 5 juni 2018

Technologie: TI-Nspire CX CAS Niveau: beginner

Transcriptie:

Technische Universiteit Delft Elektrotechniek, Wiskunde en Informatica Secties: Pattern Recognition & Bioinformatics & Multimedia Signal Processing DATA MINING (TI2730-C) Schriftelijk (her)tentomen. Dinsdag 10 april, 2012, 14:00-17:00 - Geef de antwoorden voor iedere vraag op een afzonderliil< blad, want de opgaven worden voor het nakijken gesplitst! - Vergeet nietje naam en studienummer te zetten op ieder blad! - Geef, indien mogelijk, niet alleen de uitkomsten, maar ook de tussenliggende berekeningen. Beantwoording van de vragen mag in het Nederlands of Engels, maar hou het wel kort en bondig. - Het totaal aantal punten dat je voor de opgaven kunt behalen is 46 punten Opgave 1 (14pt) Een dataset bestaat uit 30 objecten van twee verschillende klassen die elk twee kenmerken (fl,f2) hebben. Een scatter plot van de data ziet er als volgt uit: a, Ipt) Leg uit waarom het niet zinvol is om k-means toe te passen op deze data. b, Ipt) Leg uit waarom deze data beter geclassificeerd kan worden met de k- NN classifier dan met de Nearest Mean classifier. c, Ipt) Teken de beslisgrens wanneer de 1-NN regel aan de hand van deze data geleerd wordt, (maak gebruik van antwoordvel 1, Ic) d, 2pt) Welke objecten worden behouden als 'condensing' wordt toegepast? (motiveer het antwoord) e, Ipt) Waarom zou men 'editing' willen toepassen? f, 2pt) Welke objecten worden verwijderd als editing wordt toegepast? (motiveer het antwoord) 1

g, Ipt) Wat zijn de a-priori l<ansen op de 2 klassen? h, 3pt) Teken de beslisgrens als de Naive Bayes Classifier aan de hand van deze data geleerd wordt, (maak gebruik van antwoordvel 2, motiveer het antwoord) i, Ipt) Geef aan waarom de complexiteit van een classificator verkleind wordt als we kenmerken filteren of extraheren, j, Ipt) Beredeneer of de t-test voor deze dataset een goed criterium is om te gebruiken tijdens een feature-filtering procedure. OPGAVE 4 (IZpt) In deze crisistijd zijn banken voorzichig met het verstrekken van leningen. Banken proberen via risico-analyse in te schatten of een potentiële geldlener wel ooit zijn lening zal terug betalen. Voor dit doel gebruikt de bank een database van eerdere klanten, waarbij gekeken wordt naar het hebben van een eigen huis, het inkomen, de huwelijkse staat en of men in het verleden aan zijn verplichtingen heeft voldaan (hierna aangeduid als 'betrouwbaar'). Zie tabel 1. Klant Eigen huis Huwelijkse staat Inkomen Classicatie: Betrouwbaar 1 Ja Alleenstaand 125k Nee 2 Nee Gehuwd look Nee 3 Nee Alleenstaand 70k Nee 4 Ja Gehuwd 120k Nee 5 Nee Gescheiden 95k Ja 6 Nee Gehuwd 60k Nee 7 Ja Gescheiden 220k Nee 8 Nee Alleenstaand 85k Ja 9 Nee Gehuwd 75k Nee 10 Nee Alleenstaand' 90k Ja Tabel 1 Om een 'decision tree' te genereren die voorspelt of een toekomstige lener aan zijn verplichting kan voldoen ('betrouwbaar' is), kiest de bank voor een eenvoudige methode om een decision tree te generen. Bij elke stap wordt die binaire splitsing gekozen die tenminste leidt tot 1 subset met records die behoren tot dezelfde klasse. De eerste splitsing wordt gemaakt op basis van eigen huis, de tweede op basis van huwelijkse staat en bij de derde stap wordt gekeken naar het inkomen. a, 3pt) Teken de boom voor tabel 1 en beantwoord de volgende vragen. Bij de tweede stap zijn er twee kandidaat-splitsingen. Geef aan welke je gekozen hebt en waarom? Geef ook aan bij de derde stap welke grens je hebt gekozen met betrekking tot inkomen en waarom? Om de decision tree steeds beter te maken voegt de bank steeds nieuwe klantgegevens aan de database toe. In dit geval worden er twee records toegevoegd 2

(zie tabel 2). Ongelukkigerwijs ontbreekt het inkomen van klant 11. Er zijn drie mogelijkheden: voeg record 11 niet aan de database toe, 2) voeg record 11 toe aan de database en genereer de decision tree alleen op basis van eigen huis en huwelijkse staat, en 3) bereken een geschikte waarde voor het inkomen. Klant Eigen huis Huwelijkse staat lnl<omen Classificatie: Betrouwbaar 11 Nee Gehuwd? Ja 12 Ja Gehuwd 135k Ja Tabel 2 b, 2pt) Aan welke van de drie mogelijkheden geef je de voorkeur. Licht je antwoord toe. c, 2pt) Geef de ontbrekende waarde in geval van mean imputation and hot deck imputation. Voeg record 11 (met de resultaten van de hot deck imputation) en record 12 toe aan de originele database van tabel 1. Voor het maken van een nieuwe decision tree op basis van de 12 records gebruiken we nu een binaire splitsing op basis van de Giniindex. We starten met een splitsing op basis van huwelijkse staat. d, 2pt) Voor de eerste splitsing zijn er 3 kandidaten. Geef deze en bereken voor elk de Gini-index. Aan welke geef je de voorkeur? Licht je antwoord toe. e, 2pt) Als in plaats van de Gini-index de "misclassification error" als criterium was gebruikt, aan welke splitsing zou je dan de voorkeur geven? Geef de 'misclassification errors'. f, Ipt) Aan welke methode geef je uiteindelijk de voorkeur: Gini-index of classificatiefout, of maakt het niet uit? Licht je antwoord toe. OPGAVE 3 (lopt) /C-anonymity is defined as reducing the granularity in such a way that a given record cannot be distinguished from at least k-1 other records. Based on this definition and the following database table entries, answer the following questions. Index BSN Name Gender Birth date Transaction amount (Euros) Transaction Date 26838 78979879 A Female 12-11-1987 45 6-4-2012 89890 89779003 B IVlale 3-4-1986 51 4-4-2012 67989 12123987 C Female 5-6-1985 51 5-4-2012 98273 57893980 D Female 11-2-1992 45 4-4-2012 67820 56787922 E IVlale 12-11-1986 45 6-4-2012 68902 90890892 F Male 7-3-1985 85 5-4-2012 12489 67899909 G Male 4-5-1991 85 5-4-2012 a, Ipt) What is the value for k for the "birth date" attribute? 3

b, 2pt) Anonymize the "transaction amount" attribute such that a record cannot be distinguished from at least 2 other record (k=3 anonymity). c, 2pt) Explain a way to fully hide the identity of the people in the table and elaborate if it is practical in real life to do so. Assume that in another table, we have the following entries: Index Name Items Transaction Date 897970 X Egg chocolates, meat balls, potato 5-4-2012 126789 Y Hair gel, red bull, gum, deodorant 6-4-2012 d, 3pt) Try to identify the names X and Y with respect to name and gender by using the information in the two tables. e, Ipt) Elaborate on the life styles of these two people, for example marital status, occupation and so on. f, Ipt) What is needed to deduce more accurate information on these two people? OPGAVE 4 (lopt) Een bank heeft de volgende geanonimiseerde gegevens van hun cliënten: Rente Kredietwaardigheid perc. Persoonsnr. Geslacht Woonomgeving Inkomen huidige lening 1 man 7.5 stad laag goed 2 vrouw 7.5 stad hoog slecht 3 man 7.5 stad hoog slecht 4 vrouw 7.5 stad hoog goed 5 vrouw 5 dorp hoog goed 6 man 7.5 dorp laag goed 7 man 7.5 stad laag slecht 8 vrouw 5 stad hoog goed 9 vrouw 7.5 stad hoog slecht 10 vrouw 5 stad hoog goed De bank is geïnteresseerd om de bedrijfsvoering te verbeteren door datamining technieken toe te passen op deze gegevens. De bank is voornamelijk geïnteresseerd in de toepassing van de techniek association rules. (a; Ipt) Geef twee voorbeelden van hoe de bank met behulp van de resultaten van een analyse van deze gegevens met association rules de bedrijfsvoering kan veranderen. 4

De bank wil op basis van de eerste 5 gegevens (geslacht; rente percentage huidige lening; woonomgeving; inkomen; en kredietwaardigheid) analyses verrichten. Hierbij hanteert zij een minimale support van 5 en een minimale confidence van 90%. (b; 2pt) Geef alle frequent itemsets. (Laat zien hoe u hieraan gekomen bent) (c; 2pt) Geef alle regels die gevonden worden. (Laat zien hoe u hieraan gekomen bent) (d; Ipt) Wat is de o priori eigenschap? (e; Ipt) Bespreek hoe tijdens het genereren van de regels [rule discovery) gebruik gemaakt kan worden van de a priori eigenschap. (f; Ipt) De bank wil nu ook het gegeven "aantal kinderen" meenemen in de analyse. Geef aan hoe de bank dient om te gaan met dit gegeven om de association rule analyse hierop te kunnen toepassen. (g; Ipt) Bereken van een van de gevonden regels de lift. (h; Ipt) Schets van deze regel ook de double decker plot en geef aan wat de doe waarde is. (Geef duidelijk de getallen aan in de double decker plot) 5