2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.



Vergelijkbare documenten
Oplossingen Datamining 2II15 Juni 2008

Uitwerking Tentamen Datamining (2II15) 26/06/09

Tentamen Data Mining

Data Mining: Classificatie

Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6

DATA MINING (TI2730-C)

Data Mining: Data kwaliteit, Preprocessing

Data mining Van boodschappenmandjes tot bio-informatica

AI en Data mining. Van AI tot Data mining. dr. Walter Kosters, Universiteit Leiden. Gouda woensdag 17 oktober

Data Mining: Classificatie

twee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben.

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Data Mining: Opdracht 2

Classification - Prediction

Cover Page. The handle holds various files of this Leiden University dissertation.

Data Mining. Eindverslag 7 juni 2009

Data Mining: Inleiding

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Data Mining: Clustering

Cover Page. The handle holds various files of this Leiden University dissertation.

Examen Datastructuren en Algoritmen II

Taxanomie van Bloom en de kunst van het vragen stellen. Anouk Mulder verschil in talent

Examen Datastructuren en Algoritmen II

De Taxonomie van Bloom Toelichting

Rijke Lessen. zetten je aan het denken. Handleiding(etje) Minka Dumont 26 november 2009 SLO - Landelijke Plusklasnetwerkdag

Zomercursus Wiskunde. Katholieke Universiteit Leuven Groep Wetenschap & Technologie. September 2008

Workshop voorbereiden Authentieke instructiemodel

Taxonomie van Bloom. (taxonomie = wetenschap van het indelen) 6. Creëren. Nieuwe ideeën, producten of gezichtspunten genereren

Examen Datastructuren en Algoritmen II

Het minimale aantal sleutels op niveau h is derhalve

Examen Algoritmen en Datastructuren III

Examen Datastructuren en Algoritmen II

Datamining: Graven in gegevens

Examen Algoritmen en Datastructuren III

Laag Vaardigheden Leerdoelen Formulering van vragen /opdrachten

Bachelor Project. Neuraal Winkelen

Opgaven Kunstmatige intelligentie 4 mei 2012

Business Analytics bij. Zilveren Kruis. Rob Konijn Data Scientist Kenniscentrum. 12 mei 2016

In dit gedeelte worden drie problemen genoemd die kunnen voorkomen in netwerken.

ZOEKMACHINE-OPTIMALISATIE,

Zomercursus Wiskunde. Module 1 Algebraïsch rekenen (versie 22 augustus 2011)

Kansrekening en Statistiek

November December Jan Meskens / Onderzoek

Toekomstbestending maken van selectie tool Rekening houdend met strikte privacy wetgeving

Proeftentamen Digitale technieken

Het classificeren van hoortoestel modaliteiten m.b.v. een Big Data benadering: Latent Class Trees analyse

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie

Modeluitwerking Tentamen Computationele Intelligentie Universiteit Leiden Informatica Vrijdag 11 Januari 2013

2WO12: Optimalisering in Netwerken

Examen Datastructuren en Algoritmen II

(iii) Enkel deze bundel afgeven; geen bladen toevoegen, deze worden toch niet gelezen!

Transect monitoring. Achterliggende gedachten

Programmeren A. Genetisch Programma voor het Partitie Probleem. begeleiding:

Websites & Zoekmachines

Hoofdstuk 7 : Gelijkvormige figuren

Afstudeerproject Bachelor AI. Nicolaas Heyning en Wouter Suren

- Info per dag van de week - Info per specifieke dag - Info per week

Gestructureerd registreren

Toets deel 2 Data-analyse en retrieval Vrijdag 30 Juni 2017:

Hoofdstuk 1 LIJNEN IN. Klas 5N Wiskunde 6 perioden

Examen Datastructuren en Algoritmen II

opgaven formele structuren deterministische eindige automaten

Hoofdstuk 2 : Som Hoekgrootten van een veelhoek (boek pag 34)

Examenvragen Hogere Wiskunde I

Web mining. In het bijzonder web usage mining

In de 4som-puzzel kun je de gegeven sommen variëren. Nog zo eentje.

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

Ternaire relaties in ERDs zijn lastig

HOEKEN, AFSTANDEN en CIRKELS IN Klas 5N Wiskunde 6 perioden

9. Lineaire Regressie en Correlatie

HOOFDSTUK 9 DE ROL VAN CREATIVITEIT

Deeltoets Digitale technieken

20 maart Prof. Dr. Katrien Verleye

Hoofdstuk 6 : Projectie en Stelling van Thales

Examen Datastructuren en Algoritmen II

Examen Datastructuren en Algoritmen II

Profielproduct-2- -Verantwoording-!

SQL Aantekeningen 3. Maarten de Rijke 22 mei 2003

V = {a, b, c, d, e} Computernetwerken: de knopen zijn machines in het netwerk, de kanten zijn communicatiekanalen.

Data Mining. Arno Siebes

ONTWERP VAN GEDISTRIBUEERDE SOFTWARE ACADEMIEJAAR STE EXAMENPERIODE, 15 JANUARI 2010, 14U 17U30 VRAAG 1: INLEIDENDE BEGRIPPEN[20 MIN]

Automaten en Berekenbaarheid 2016 Oplossingen #4

Voorspellen van webwinkel aankopen met een Random Forest

Tentamen Informatica 6, 2IJ60,

Definitie: Een enkelvoudige weddenschap is het eenvoudigste type weddenschap. Je doet als het ware een

Continuous Learning in Computer Vision S.L. Pintea

Inhoud eindtoets. Eindtoets. Introductie 2. Opgaven 3. Terugkoppeling 6

Twaalfde college algoritmiek. 12 mei Branch & Bound

SBR Filing Rules Mogelijke toekomstige regels

Whitepaper. Personal Targeting Platform. De juiste content Op het juiste moment Aan de juiste persoon

Lekker snel XML met SQL (.nl)

Samenvatting (Summary in Dutch)

Tentamen optimaal sturen , uur. 4 vraagstukken

Het warmteverlies van het lichaamsoppervlak aan de wordt gegeven door de volgende formule:

REVEALING SPATIAL AND TEMPORAL PATTERNS FROM FLICKR SANDER VAN DER DRIFT

De constructie van een raaklijn aan een cirkel is, op basis van deze stelling, niet zo erg moeilijk meer.

Online Presence. Panthera BV. Leon Kok

Cover Page. The following handle holds various files of this Leiden University dissertation:

Antwoordmodel - Vlakke figuren

. Waarvoor staat . Wat zijn de mogelijkheden van . Wat zijn de voordelen. Termen.

Transcriptie:

1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van clustering, classificatie en associatie regels. 2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren. 3. Illustreer de verschillende stappen in het knowledge discovery process met een eigen voorbeeld. 4. Welke datamining techniek sluit het best aan bij volgende problemen? Verklaar je antwoord: a. Het gegroepeerd weergeven van zoekresultaten. Bijvoorbeeld: indien er gezocht wordt op jaguar worden twee groepen documenten weergegeven: diegene die met het dier te maken hebben en degene die met het automerk te maken hebben. b. Ontwerpen van een spam-filter voor email. c. Het ontdekken van wiki-spam; dit zijn reclame-boodschappen vermomd als wikipedia-paginas. 5. Wat is juist de curse of dimensionality en waarom is dit een probleem? 6. Wat zijn de voor- en nadelen van discretisatie. 7. Veronderstel dat we een dataset hebben met 53 numerieke attributen N 1,..., N 53, 15 binaire attributen B 1,..., B 15 en 3 nominale attributen V 1, V 2, V 3. Ontwerp twee verschillende afstandsmaten om de afstand tussen twee tuples in deze dataset te meten. a. Welke van de twee door jou voorgestelde afstandsmaten geniet jouw voorkeur en waarom? b. Wat is het voordeel van het hebben van een afstandsmaat tussen de tuples in een dataset? 8. Wat is het verschil tussen gesuperviseerde en niet-gesuperviseerde data mining technieken? In welke klasse vallen de technieken association rule mining, clustering, classificatie en outlier detectie? 9. Geef de voor- en nadelen van sampling en beschijf mogelijke oplossingen voor de nadelen.

10. Geef een beslissingsboom omvolgende dataset te classificeren. Construeer de boom met de hand. A B Class 1 2 1 6 5 6 8 10 5 8 - - a. Bereken de GINI-index van de splits A<3, A<5, and B<7 in de root node. Welke split is het meest voordelige om het klasse-attribuut te voorspellen? Leg uit waarom dit een goede keuze is. b. Leg uit wat overfitting is in de context van het leren van classifiers; illustreer. 11. Pas het Apriori-algoritme toe op de voorbeeld dataset gegeven hieronder. Toon in jouw oplossing de verschillende tussenstappen. TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke a. Leg uit hoe deze itemsets gebruikt kunnen worden om alle associatieregels te vinden met een support van 50% en een confidence van 60%. b. Welke van de frequente itemsets is closed? c. Verklaar de volgende zin: Apriori is een breadth-first algoritme. 12. Zelfde als vraag 10, maar nu met FPGrowth. 13. Beschouw de volgende, alternatieve definitie voor support van een itemset I, de zogenaamde length-dependant support lsup(i): lsup(i) = support(i)/ I Dus, de length-dependant support is de support van de itemset gedeeld door z n lengte. Is deze support-measure anti-monotoon? Waarom is anti-monotoniciteit van support measures belangrijk bij het minen van frequente itemsets?

14. Veronderstel dat de volgende verzameling alle closed itemsets met een support van minstens 10% bevat. (X:f betekent X is een itemset met support f) { {c}:100%, {b,c}:80%, {a,b,c}:40% } Wat is de support van de volgende itemsets (antwoord met ofwel een exacte frequentie, ofwel met de set is niet frequent )? a. {a,c} b. {b} c. {a,b} 15. Een van de problemen met het DBSCAN algoritme is dat de gebruiker zelf de parameters MinPts and Eps moet bepalen. De goede werking van het algoritme hangt kritisch af van een goede keuze van waardes voor deze parameters. Leg een methode uit die een gebruiker kan helpen om een goede keuze kan maken voor deze parameters. 16. Leg uit waarom het vinden van goede startpunten voor het k-means algoritme zo belangrijk is. Wat is het probleem van een slechte keuze? 17. Leg het Adaboost algoritme uit. Wat is de motivatie voor het herwegen van de voorbeelden in AdaBoost? 18. Waarom is accuracy niet geschikt als kwaliteitsmaat bij classificatie als de grootte van de verschillende klassen erg verschillend is? Wat zijn hier mogelijke oplossingen? 19. Wat is cost-sensitive classification? Geef een voorbeeld waar cost-sensitive classification nuttig is. 20. Beschouw de classificatie methodes knn, Naive Bayes en die gebaserd op beslissingsbomen. Welke methode wou je gebruiken voor volgende datasets (geef bij knn aan welke afstandsmaat nuttig zou kunnen zijn)? Leg uit waarom. a. Grote trainingset, klein aantal numerieke attributen die afhankelijk van elkaar. b. Alle attributen zijn binair. Er is een groot aantal attributen, en ze zijn afhankelijk. c. Groot aantal attributen, geen afhankelijkheid tussen de attributen. 21. Leg Hunt s algoritme uit. Geef je eigen voorbeeld. Wat wordt er bedoeld met Hunt s algoritms splitst de record gebaseerd op een lokaal criterium

22. Page Rank. Werk in het volgende voorbeelden (met spider trap en dead ends) de page-rank uit. (Eens de trend duidelijk is kan je stoppen met rekenen...) a) Zonder constante factor b) Met constante factor, stel α = 0.8 a Dead end b c a Spider trap b c 23. Hubs and Authorities. Voorspel in de onderstaande graaf welke nodes volgens jou hubs en authorities zullen worden. Ga dit vervolgens na door een aantal iteraties uit te werken.

24. Geef de FPTree voor volgende database: TID Items 1 A, B, C, D, E 2 B, C, D, F 3 A, C, D, G 4 B, C, F 5 D, E, G, H, I 25. Beschouw de volgende FPTree: {} : 12 A : 6 B : 2 C : 4 B : 4 D : 2 D : 1 F : 1 D : 2 E : 1 C : 2 D : 1 E : 1 E : 1 Geef de originele transactie database. Zoek bovendien de frequentie van de volgende sets in de FPTree: AB, AD, CDE en DE.