Data Mining: Classificatie
|
|
- Edith van der Wal
- 8 jaren geleden
- Aantal bezoeken:
Transcriptie
1 Data Mining: Classificatie docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Overzicht Wat is classificatie? Leren van een beslissingsboom. Problemen bij classificatie Evalueren van een model
2 Overzicht Wat is classificatie? Definitie Soorten modellen Voorbeelden Leren van een beslissingsboom. Problemen bij classificatie Evalueren van een model Classificatie: Definitie Gegeven een verzameling objecten (training set) ingedeeld in klasses. Vind een model voor de klasse in functie van de andere attributen. Doel: onbekende voorbeelden moeten zo accuraat mogelijk in klassen ingedeeld kunnen worden. Accuraatheid wordt gemeten op een test set.
3 10 10 Illustratie van een classificatie taak Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Learn Model Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Apply Model Voorbeelden van classificatie Voorspellen of tumor kwaadaardig is Classificeren van kredietkaart transacties als al dan niet fraudulent. Classificeren van nieuwsberichten als: financieel, weersvoorspelling, entertainment, sport, etc. Classificeren van meetingen als al dan niet foutief.
4 10 Classificatie technieken Op basis van het soort model dat geleerd wordt: Beslissingsbomen Classificatieregels Geheugengebaseerde methodes NaïveBayes en Bayesiaanse belief netwerken Neurale netwerken Support Vector Machines Voorbeeld van een beslissingsboom categorical Tid Refund Marital Status categorical Taxable Income continuous Cheat class Splitting Attributes 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Refund Yes No MarSt Single, Divorced TaxInc < 80K > 80K YES Married Training Data Model: Beslissingsboom
5 Voorbeeld van een beslissingsboom categorical Tid Refund Marital Status categorical Taxable Income continuous 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes class Married MarSt Yes Single, Divorced Refund No TaxInc < 80K > 80K YES Er is mogelijk meer dan 1 boom voor dezelfde trainingset! Classificeren met de beslissingsboom Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Learn Model Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Apply Model Decision Tree
6 Toepassen van het model op de nieuwe data Start vanaf de root van de boom. Refund Yes No Nieuwe data Refund Marital Status Taxable Income No Married 80K? Cheat MarSt Single, Divorced Married TaxInc < 80K > 80K YES Toepassen van het model op de nieuwe data Nieuwe data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? MarSt Single, Divorced Married TaxInc < 80K > 80K YES
7 10 10 Toepassen van het model op de nieuwe data Nieuwe data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? MarSt Single, Divorced Married TaxInc < 80K > 80K YES Toepassen van het model op de nieuwe data Nieuwe data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? MarSt Single, Divorced Married TaxInc < 80K > 80K YES
8 10 10 Toepassen van het model op de nieuwe data Nieuwe data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? MarSt Single, Divorced Married TaxInc < 80K > 80K YES Toepassen van het model op de nieuwe data Nieuwe data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K MarSt Single, Divorced Married TaxInc < 80K > 80K Ken klasse No toe YES
9 10 10 Overzicht Wat is classificatie? Leren van een beslissingsboom Algoritme van Hunt. Hoe vinden we de beste split? Wanneer stoppen? Problemen bij classificatie Evalueren van een model Leren van een beslissingsboom Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Learn Model Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Apply Model Beslissingsboom
10 Algoritmes voor beslissingsbomen Vinden van de beste beslissingsboom is niet wenselijk Hoge complexiteit Beste boom voor trainingdata is daarom nog niet de beste boom voor nieuwe data (cfr. Later: overfitting) Daarom: heuristieken Meeste algoritmes optimaliseren lokale criteria. Meeste algoritmes vinden suboptimale oplossingen. Inductie van een Beslissingsboom Vele algoritmes: Algoritme van Hunt (een van de eerste) CART ID3, C4.5 SLIQ, SPRINT
11 Algoritme van Hunt Zoek de beste split voor D B.v.b. A 5 >5 Splits D volgens dit criterium in D 1,, D k Hier dus: D 1 = records met A 5 D 2 = records met A>5 Werk recursief verder op de delen D 1,, D k Vind boom voor D 1, boom voor D 2, Combineer de bomen Algoritme van Hunt Zoek de beste split voor D Splits D volgens dit criterium in D 1,, D k Werk recursief verder op de delen D 1,, D k Vind boom voor D 1, boom voor D 2, Combineer de bomen: A 5 >5 T 1 T 2
12 Algoritme van Hunt (Binaire attributen) Algoritme: Hunt(dataset D(A 1,, A k, class)) Maak een nieuwe node root If ( Stopconditie(D) ) Label root met de grootste klasse in D Return root Else Selecteer het attribuut A dat Split_Kwaliteit( D 0, D 1 ) maximaliseert, waarbij D j = {t in D t.a = j} T 0 = Hunt(D 0 ); T 1 = Hunt(D 1 ) Label root met A, Voeg edges van de root naar T 0.root, resp. T 1.root met label 0, resp. 1. Return root Beslissingsboom Induction Greedy strategie. Splits de nodes gebaseerd op een lokaal criterium: slechts 1 attribuut tegelijk. Nog te bepalen/generisch Hoe splitsen we? Nietbinaire attributen Hoe meten we de kwaliteit van een split? Split_Kwaliteit( D 0, D 1 ) Wanneer moeten we stoppen? Stopconditie(D)
13 Hoe splitsen we? Hangt af van het attribuuttype Nominaal Ordinaal Continu en het aantal vertakkingen dat is toegestaan 2way split Multiway split Splitsen op basis van nominale attributen Multiway: Gebruik zoveel vertakkingen als er waarden zijn. Family CarType Sports Luxury Binaire split: Verdeel de waarden in twee verzamelingen. Zoek een optimale opdeling. {Sports, Luxury} CarType {Family} OF {Family, Luxury} CarType {Sports}
14 Splitsen op basis van een continu attribuut Different ways of handling Discretiseren ordinale attributen Binaire split: splits op in (A < v) en (A v) Beschouw alle mogelijke splitpunten Mogelijk computationeel erg complex Splitsen op basis van een continu attribuut
15 Beslissingsboom Induction Greedy strategie. Splits de nodes gebaseerd op een lokaal criterium: slechts 1 attribuut tegelijk. Nog te bepalen/generisch Hoe splitsen we? Nietbinaire attributen Hoe meten we de kwaliteit van een split? Split_Kwaliteit( D 0, D 1 ) Wanneer moeten we stoppen? Stopconditie(D) Welke split heeft jouw voorkeur? Vooraf: 10 records met klasse 0 10 records met klasse 1
16 Welke split heeft jouw voorkeur? Vooraf: 10 records met klasse 0 10 records met klasse 1 Niet homogeen Vrij homogeen Meest homogeen Te veel splits! Hoe bepalen we de kwaliteit van een split? We willen nodes met een homogene klasse distributie We hebben een maat van homogeniteit nodig: Niet homogeen Homogeen
17 Maten van homogeniteit Dataset D: k klassen, n records d j records met klasse j, j=1..k Gini Index GINI( D) = 1 k j= 1 d j n 2 Vraag Dataset D heeft slechts 2 klassen, 0 en 1 GINI( D) = 1 k j= 1 d j n 2 Bij welke verdeling tussen de klassen is de GINIindex maximaal? Minimaal?
18 Vraag Dataset D heeft slechts 2 klassen, 0 en 1 GINI( D) = 1 k j= 1 d j n 2 Bij welke verdeling tussen de klassen is de GINIindex maximaal? Minimaal? d 1 = n.x d 2 = n.(1x) Gini(x) = 1 (x 2 ) (1x) 2 = 2x 2x 2 (Gini(x)) = 24x nulpunt op 0.5 (Gini(x)) = 4 < 0 maximum
19 GINI: algemeen k klassen Maximum 11/k wordt bereikt als de klassen elk een relatieve frequentie van 1/k hebben Minst interessante geval Minimum 0 wordt bereikt als alle records tot 1 klasse behoren Meest interessante geval. C1 0 C2 6 Gini=0.000 C1 1 C2 5 Gini=0.278 C1 2 C2 4 Gini=0.444 C1 3 C2 3 Gini=0.500 Voorbeelden berekening GINI C1 0 C2 6 GINI( D) = 1 k j= 1 d j n 2 C1 1 C2 5 C1 2 C2 4
20 Voorbeelden berekening GINI C1 0 C2 6 d 1 = 0/6 = 0 d 2 = 6/6 = 1 GINI( D) = 1 Gini = 1 d 1 2 d 2 2 = = 0 k j= 1 d j n 2 C1 1 C2 5 d 1 = 1/6 d 2 = 5/6 Gini = 1 (1/6) 2 (5/6) 2 = C1 2 C2 4 d 1 = 2/6 d 2 = 4/6 Gini = 1 (2/6) 2 (4/6) 2 = Splitsen gebaseerd op GINI Gebruikt in CART, SLIQ, SPRINT. Kwaliteit van een split is het gewogen gemiddelde over alle kinderen: GINI split = k i= 1 ni n GINI ( i) met, n i = aantal records voor het kind c i, n = totale aantal nodes in p.
21 Voorbeeld Voor split: C0 C1 N00 N01 M0 A? B? Yes No Yes No Node N1 Node N2 Node N3 Node N4 C0 N10 C0 N20 C0 N30 C0 N40 C1 N11 C1 N21 C1 N31 C1 N41 M1 M2 M3 M4 M12 Gain = M0 M12 vs M0 M34 M34 Waarom gewogen gemiddelde? Effect van het wegen: Grotere partities worden gezocht. B? Parent C1 6 Gini(N1) = 1 (5/6) 2 (2/6) 2 = Gini(N2) = 1 (1/6) 2 (4/6) 2 = Yes Node N1 N1 N2 C1 5 1 C2 2 4 Gini=0.333 No Node N2 C2 6 Gini = Gini(Children) = 7/12 * /12 * = 0.333
22 Beslissingsboom Induction Greedy strategie. Splits de nodes gebaseerd op een lokaal criterium: slechts 1 attribuut tegelijk. Nog te bepalen/generisch Hoe splitsen we? Nietbinaire attributen Hoe meten we de kwaliteit van een split? Split_Kwaliteit( D 0, D 1 ) Wanneer moeten we stoppen? Stopconditie(D) Stop criteria voor beslissingsbomen Verschillende mogelijkheden:
23 Stop criteria voor beslissingsbomen Verschillende mogelijkheden: Stop als alle nodes tot dezelfde klasse behoren. Stop als GINIindex beneden bepaalde waarde komt. Stop als aantal objecten te klein wordt. Stop als alle attributen ongeveer dezelfde waarde hebben. Early termination (zie later) Overzich beslissingsbomen Voordelen: Weinig tijd nodig om te berekenen Classificeren van nieuwe voorbeelden is erg snel Makkelijk te interpreteren modellen (indien niet te veel nodes) Voor vele datasets scoren beslissingsbomen meer dan behoorlijk Nadelen: In detail
24 Overzicht Wat is classificatie? Leren van een beslissingsboom. Problemen bij classificatie Evalueren van een model Practische problemen bij classificatie Sommige functies zijn moeilijk uit te drukken m.b.v. beslissingsbomen Parity (Is het aantal binaire attributen die True zijn, even?) Lager in de boom = minder trainingvoorbeelden = minder statistische relevantie Underfitting en Overfitting Gerelateerd aan de vraag: wanneer stoppen?
25 Moeilijk uit te drukken Hoe zien de beslissingbomen die door het algoritme van Hunt gegenereerd worden er uit voor de volgende dataset? A B Moeilijk uit te drukken Hoe zien de beslissingbomen die door het algoritme van Hunt gegenereerd worden er uit voor de volgende dataset? A B
26 Moeilijk uit te drukken Hoe zien de beslissingbomen die door het algoritme van Hunt gegenereerd worden er uit voor de volgende dataset? A B Moeilijk uit te drukken Hoe zien de beslissingbomen die door het algoritme van Hunt gegenereerd worden er uit voor de volgende dataset? A B
27 Moeilijk uit te drukken Hoe zien de beslissingbomen die door het algoritme van Hunt gegenereerd worden er uit voor de volgende dataset? A B Moeilijk uit te drukken Hoe zien de beslissingbomen die door het algoritme van Hunt gegenereerd worden er uit voor de volgende dataset? A B
28 Typische grafiek. Wat gebeurt er hier? Underfitting Overfitting Underfitting: Als het model te simpel is; de boom is nog te eenvoudig Overfitting: Het model is zo gedetailleerd dat het zelfs de ruis uit de input heeft geleerd
29 Overfitting door ruis Goed model B A Overfitting door ruis Slecht model, toch kleinere error op trainingsset B A
30 Bemerkingen over overfitting Resulteert in complexere bomen dan noodzakelijk. Training error is niet langer een goede maat om te meten hoe de classifier zal presteren op nieuwe data. Betere manieren nodig om fouten te meten. Hoe gaan we overfitting tegen? PrePruning (Early Stopping) Stop voordat de volledige boom gemaakt is. Stop indien het aantal instanties te klein wordt Stop als de klasdistributie onafhankelijk is van de afzonderlijke features (gebruik bvb. χ 2 test) Stop indien er geen split is die resulteert in een positive gain
31 Hoe gaan we overfitting tegen? Postpruning Maak de volledige beslissingsboom Behandel de splits bottomup Als de generalization error verkleint door het wegnemen van een split: haal de split weg en vervang door een blad. Label wordt de grootste klasse in het nieuwe blad. Vraag: Hoe meten we generalization error?
32 Vraag: Hoe meten we generalization error? Splits D vooraf in twee delen: D 1 en D 2 Leer de boom op D 1 Evalueer de generalization errors op D 2 Overzicht Wat is classificatie? Leren van een beslissingsboom. Evalueren van een model Volgende les
Oplossingen Datamining 2II15 Juni 2008
Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen:
Nadere informatieData Mining: Classificatie
Data Mining: lassificatie docent: dr. Toon alders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Vorige les lassificatie: Het groeperen van objecten in voorgedefinieerde
Nadere informatie2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.
1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van
Nadere informatieData Mining: Data kwaliteit, Preprocessing
Data Mining: Data kwaliteit, Preprocessing docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Herhaling: definitie Data Mining is: Extractie van interessante
Nadere informatieData Mining: Inleiding
Data Mining: Inleiding docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining 2II15: Data mining en kennissystemen Lessen: maandag 7de en 8ste uur in Auditorium
Nadere informatieData Mining: Clustering
Data Mining: Clustering docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Wat is clustering? Het onderverdelen van de objecten in een database in homogene
Nadere informatieTentamen Data Mining
Tentamen Data Mining Algemene Opmerkingen Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. Laat bij het uitvoeren van berekeningen zien hoe je aan een antwoord gekomen bent.
Nadere informatieData Mining: Opdracht 2
Data Mining: Opdracht 2 7 juli 2006 Egbert Kroese (#0134252) Paul Lammertsma (#0305235) Inhoudsopgave 1. De datasets...3 1.1 Iris...3 1.2 Vote...3 1.3 Autos...4 2. De algoritmen...4 2.1 Naive Bayes...4
Nadere informatieUitwerking Tentamen Datamining (2II15) 26/06/09
Uitwerking Tentamen Datamining (2II15) 26/06/09 1. (3p) (Clustering) Welke van de volgende uitspraken zijn correct? Voor de correcte uitspraken: leg uit, voor de incorrecte: geef een tegenvoorbeeld. (a)
Nadere informatieTentamen Kunstmatige Intelligentie (INFOB2KI)
Tentamen Kunstmatige Intelligentie (INFOB2KI) 30 januari 2014 10:30-12:30 Vooraf Mobiele telefoons dienen uitgeschakeld te zijn. Het tentamen bestaat uit 7 opgaven; in totaal kunnen er 100 punten behaald
Nadere informatieAI en Software Testing op de lange termijn
AI en Software Testing op de lange termijn Is het een appel? Traditioneel programmeren AI Kleur = rood, groen, geel Vorm = rond Textuur = glad Artificial Intelligence Machine Learning Methods Technologies
Nadere informatieDATA MINING (TI2730-C)
Technische Universiteit Delft Elektrotechniek, Wiskunde en Informatica Secties: Pattern Recognition & Bioinformatics & Multimedia Signal Processing DATA MINING (TI2730-C) Schriftelijk (her)tentomen. Dinsdag
Nadere informatieVoorspellen van webwinkel aankopen met een Random Forest
Voorspellen van webwinkel aankopen met een Random Forest Dorenda Slof Erasmus Universiteit Rotterdam Econometrie en Operationele Research 30 juni 2014 Samenvatting In dit empirische onderzoek voorspellen
Nadere informatieToets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:
Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan
Nadere informatieAI introductie voor testers
AI introductie voor testers De basis van deep learning TestNet werkgroep Testen met AI Martin van Helden Sander Mol Introductie Artificial Intelligence (AI) is anders dan traditioneel programmeren. Traditioneel
Nadere informatieTentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6
Tentamen Data Mining Datum: 4januai2l6 Tijd: 4: - 7: Algemene Opmerkingen e Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. o Laat bij het uitvoeren van berekeningen zien hoeje
Nadere informatieData mining Van boodschappenmandjes tot bio-informatica
Data mining Van boodschappenmandjes tot bio-informatica Walter Kosters Informatica, Universiteit Leiden donderdag 6 april 2006 http://www.liacs.nl/home/kosters/ 1 Wat is Data mining? Data mining probeert
Nadere informatieTwaalfde college complexiteit. 11 mei 2012. Overzicht, MST
College 12 Twaalfde college complexiteit 11 mei 2012 Overzicht, MST 1 Agenda voor vandaag Minimum Opspannende Boom (minimum spanning tree) als voorbeeld van greedy algoritmen Overzicht: wat voor technieken
Nadere informatieClassification - Prediction
Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training
Nadere informatieHet classificeren van hoortoestel modaliteiten m.b.v. een Big Data benadering: Latent Class Trees analyse
Het classificeren van hoortoestel modaliteiten m.b.v. een Big Data benadering: Latent Class Trees analyse Simon Lansbergen & Wouter Dreschler Motivatie // Introductie 1. Veel verschillende hoortoestellen,
Nadere informatieDatastructuren en Algoritmen voor CKI
Ω /texmf/tex/latex/uubeamer.sty-h@@k 00 /texmf/tex/latex/uubeamer.sty Datastructuren en Algoritmen voor CKI Vincent van Oostrom Clemens Grabmayer Afdeling Wijsbegeerte Hoorcollege 5 16 februari 2009 Waar
Nadere informatieFlying Sensor Rapport
Flying Sensor Rapport Locatie: Dintelse Gorzen Noord-Brabant Nederland Vluchtdatum: 21-mei-2014 Flying Sensor: Pelican Client: Natuurmonumenten HiView Costerweg 1V 6702AA Wageningen www.hiview.nl info@hiview.nl
Nadere informatieVierde college complexiteit. 14 februari Beslissingsbomen
College 4 Vierde college complexiteit 14 februari 2017 Restant zoeken Beslissingsbomen 1 Binair zoeken Links := 1; Rechts := n; while Links Rechts do Midden := Links + Rechts 2 ; if X = A[Midden] then
Nadere informatiePredictieve modellen - overzicht
Predictieve modellen - overzicht 08-01-2018 Jochem Grietens Verhaert Alexander Frimout Verhaert 1 AI voor lichtcontrole Het doel is om de verlichting van de Vlaamse snelweg slimmer te maken met behulp
Nadere informatieTW2020 Optimalisering
TW2020 Optimalisering Hoorcollege 8 Leo van Iersel Technische Universiteit Delft 2 november 2016 Leo van Iersel (TUD) TW2020 Optimalisering 2 november 2016 1 / 28 Minimum Opspannende Boom (Minimum Spanning
Nadere informatie2WO12: Optimalisering in Netwerken
2WO12: Optimalisering in Netwerken Leo van Iersel Technische Universiteit Eindhoven (TU/E) en Centrum Wiskunde & Informatica (CWI) 27 februari 2014 http://homepages.cwi.nl/~iersel/2wo12/ l.j.j.v.iersel@gmail.com
Nadere informatieTW2020 Optimalisering
TW2020 Optimalisering Hoorcollege 8 Leo van Iersel Technische Universiteit Delft 28 oktober 2015 Leo van Iersel (TUD) TW2020 Optimalisering 28 oktober 2015 1 / 25 Definitie Een boom is een samenhangende
Nadere informatieHoofdstuk 18,19.1,21.1/3,17.1/2 Russell/Norvig = [RN] Leren
AI Kunstmatige Intelligentie (AI) Hoofdstuk 18,19.1,21.1/3,17.1/2 Russell/Norvig = [RN] Leren voorjaar 2016 College 10, 26 april 2016 www.liacs.leidenuniv.nl/ kosterswa/ai/ 1 Introductie Er zijn vele soorten
Nadere informatieVierde college algoritmiek. 2 maart Toestand-actie-ruimte Exhaustive Search
Algoritmiek 2018/Toestand-actie-ruimte Vierde college algoritmiek 2 maart 2018 Toestand-actie-ruimte Exhaustive Search 1 Algoritmiek 2018/Toestand-actie-ruimte Kannen Voorbeeld 4: Kannenprobleem We hebben
Nadere informatieTweede college algoritmiek. 12 februari Grafen en bomen
College 2 Tweede college algoritmiek 12 februari 2016 Grafen en bomen 1 Grafen (herhaling) Een graaf G wordt gedefinieerd als een paar (V,E), waarbij V een eindige verzameling is van knopen (vertices)
Nadere informatieBenaderingsalgoritmen
Benaderingsalgoritmen Eerste hulp bij NP-moeilijkheid 1 Herhaling NP-volledigheid (1) NP: er is een polynomiaal certificaat voor jainstanties dat in polynomiale tijd te controleren is Een probleem A is
Nadere informatieInhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen
Tom Heskes IRIS, NIII Inhoud De bouwstenen van het zenuwstelsel: neuronen en synapsen Complex gedrag uit eenvoudige elementen McCulloch-Pitts neuronen Hopfield netwerken Computational neuroscience Lerende
Nadere informatietwee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben.
Samenvatting Deze thesis handelt over privacy preserving data mining. Data mining is een tak van de wetenschap waarin men grote hoeveelheden data onderzoekt met de bedoeling er bepaalde patronen in te
Nadere informatieOpgave 2 ( = 12 ptn.)
Deel II Opgave 1 (4 + 2 + 6 = 12 ptn.) a) Beschouw bovenstaande game tree waarin cirkels je eigen zet representeren en vierkanten die van je tegenstander. Welke waarde van de evaluatiefunctie komt uiteindelijk
Nadere informatieInl. Adaptieve Systemen
Inl. Adaptieve Systemen Gerard Vreeswijk Leerstoelgroep Intelligente Systemen, Departement Informatica en Informatiekunde, Faculteit Bètawetenschappen, Universiteit Utrecht. Gerard Vreeswijk. Laatst gewijzigd
Nadere informatieData Mining. Eindverslag 7 juni 2009
Data Mining Eindverslag 7 juni 2009 Naam: Mathijs de Langen 0611699 Stijn Koopal 0613671 Marvin Raaijmakers 0608141 Giel Oerlemans 0607213 Email: m.a.d.langen@student.tue.nl s.koopal@student.tue.nl m.raaijmakers@student.tue.nl
Nadere informatieContinuous Learning in Computer Vision S.L. Pintea
Continuous Learning in Computer Vision S.L. Pintea Continuous Learning in Computer Vision Natura non facit saltus. Gottfried Leibniz Silvia-Laura Pintea Intelligent Sensory Information Systems University
Nadere informatieTentamen Kunstmatige Intelligentie (INFOB2KI)
Tentamen Kunstmatige Intelligentie (INFOB2KI) 12 december 2014 8:30-10:30 Vooraf Mobiele telefoons en dergelijke dienen uitgeschakeld te zijn. Het eerste deel van het tentamen bestaat uit 8 multiple-choice
Nadere informatieKunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016
AI Kunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016 www.liacs.leidenuniv.nl/ kosterswa/ai/ 1 Hersenen De menselijke
Nadere informatie2WO12: Optimalisering in Netwerken
2WO12: Optimalisering in Netwerken Leo van Iersel Technische Universiteit Eindhoven (TUE) en Centrum Wiskunde & Informatica (CWI) 3 en 6 februari 2014 Leo van Iersel (TUE/CWI) 2WO12: Optimalisering in
Nadere informatieOnafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms
Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms Giso Dal (0752975) Pagina s 5 7 1 Deelverzameling Representatie
Nadere informatieProgrammeermethoden. Recursie. week 11: november kosterswa/pm/
Programmeermethoden Recursie week 11: 21 25 november 2016 www.liacs.leidenuniv.nl/ kosterswa/pm/ 1 Pointers Derde programmeeropgave 1 Het spel Gomoku programmeren we als volgt: week 1: pointerpracticum,
Nadere informatieVoorwoord. Maar nu eerst Latex leren.
Voorwoord We schrijven 17 juni 2006, na bijna een jaar proberen er iets van te maken is de meet in zicht. Het is niet altijd even makkelijk geweest, vaak te weinig concentratie, niet voldoende druk om
Nadere informatieTransparanten bij het vak Inleiding Adaptieve Systemen: Introductie Machine Leren. M. Wiering
Transparanten bij het vak Inleiding Adaptieve Systemen: Introductie Machine Leren. M. Wiering Lerende Machines Verbeter in taak T, Voorbeeld: je ziet de karakteristieken (Features) van een aantal dieren
Nadere informatieHoe AI kan ingezet worden voor de analyse van asbesthoudende daken
Hoe AI kan ingezet worden voor de analyse van asbesthoudende daken Earth Observation Data Sciences www.vlaanderen.be/informatievlaanderen www.vito.be Workshop: Asbestinventarisatie en analyse Weerslag
Nadere informatieCollege 4 Inspecteren van Data: Verdelingen
College Inspecteren van Data: Verdelingen Inleiding M&T 01 013 Hemmo Smit Overzicht van deze cursus 1. Grondprincipes van de wetenschap. Observeren en meten 3. Interne consistentie; Beschrijvend onderzoek.
Nadere informatieCover Page. The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation.
Cover Page The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation. Author: Witsenburg, Tijn Title: Hybrid similarities : a method to insert relational information
Nadere informatieDivide & Conquer: Verdeel en Heers vervolg. Algoritmiek
Divide & Conquer: Verdeel en Heers vervolg Algoritmiek Algoritmische technieken Vorige keer: Divide and conquer techniek Aantal toepassingen van de techniek Analyse met Master theorem en substitutie Vandaag:
Nadere informatieNeurale Netwerken en Deep Learning. Tijmen Blankevoort
Neurale Netwerken en Deep Learning Tijmen Blankevoort De toekomst - Internet of Things De toekomst - sluiertipje Je gezondheid wordt continue gemonitored Je dieet wordt voor je afgestemd -> Stroomversnelling
Nadere informatiePrincipe Maken van een Monte Carlo data-set populatie-parameters en standaarddeviaties standaarddeviatie van de bepaling statistische verdeling
Monte Carlo simulatie In MW\Pharm versie 3.30 is een Monte Carlo simulatie-module toegevoegd. Met behulp van deze Monte Carlo procedure kan onder meer de betrouwbaarheid van de berekeningen van KinPop
Nadere informatieAlgoritmiek. 15 februari Grafen en bomen
Algoritmiek 15 februari 2019 Grafen en bomen 1 Grafen (herhaling) Een graaf G wordt gedefinieerd als een paar (V,E), waarbij V een eindige verzameling is van knopen (vertices) en E een verzameling van
Nadere informatieCollege 6 Eenweg Variantie-Analyse
College 6 Eenweg Variantie-Analyse - Leary: Hoofdstuk 11, 1 (t/m p. 55) - MM&C: Hoofdstuk 1 (t/m p. 617), p. 63 t/m p. 66 - Aanvullende tekst 6, 7 en 8 Jolien Pas ECO 01-013 Het Experiment: een voorbeeld
Nadere informatieINZET VAN MACHINE LEARNING
INZET VAN MACHINE LEARNING VOORSTELLEN INHOUD Context wat is de staat van de verzekeringsindustrie? Machine Learning - wat is het eigenlijk en is het nieuw? Toepassingen waar wordt ML met succes toegepast?
Nadere informatieCombinatorische Algoritmen: Binary Decision Diagrams, Deel III
Combinatorische Algoritmen: Binary Decision Diagrams, Deel III Sjoerd van Egmond LIACS, Leiden University, The Netherlands svegmond@liacs.nl 2 juni 2010 Samenvatting Deze notitie beschrijft een nederlandse
Nadere informatieAI en Data mining. Van AI tot Data mining. dr. Walter Kosters, Universiteit Leiden. Gouda woensdag 17 oktober
AI en Data mining Van AI tot Data mining dr. Walter Kosters, Universiteit Leiden Gouda woensdag 17 oktober 2007 www.liacs.nl/home/kosters/ 1 Wat is Data mining? Data mining probeert interessante en (on)verwachte
Nadere informatieDatastructuren: stapels, rijen en binaire bomen
Programmeermethoden Datastructuren: stapels, rijen en binaire bomen week 12: 23 27 november 2015 www.liacs.leidenuniv.nl/ kosterswa/pm/ 1 Inleiding In de informatica worden Abstracte DataTypen (ADT s)
Nadere informatieJava Programma structuur
Java Programma structuur public class Bla // div. statements public static void main(string argv[]) // meer spul Voortgezet Prog. voor KI, week 4:11 november 2002 1 Lijsten Voorbeelden 2, 3, 5, 7, 13 Jan,
Nadere informatieLet op dat de scoping regels gerespecteerd blijven; het volgende voorbeeld mag geen fout melden.
Vrije Universiteit Brussel Faculteit Wetenschappen Vakgroep Computerwetenschappen Academiejaar 2009 2010: tweede examenzittijd Interpretatie van Computerprogrammaʼs I schriftelijke test Voorafgaandelijk:
Nadere informatieVeel van weinig. Hoe vinden we diagnostische markers voor kanker op basis van een beperkt aantal genetische profielen?
Veel van weinig Hoe vinden we diagnostische markers voor kanker op basis van een beperkt aantal genetische profielen? Mark van de Wiel mark.vdwiel@vumc.nl Afdeling Epidemiologie & Biostatistiek Afdeling
Nadere informatieIndexen.
Indexen joost.vennekens@kuleuven.be Probleem Snel gegevens terugvinden Gegevens moeten netjes geordend zijn Manier waarop hangt af van gebruik Sequentieel Gesorteerde gegevens, die in volgorde overlopen
Nadere informatieTriple P (Positive Parenting Program): effectief bij gedragsproblemen?
21/11/11 Triple P (Positive Parenting Program): effectief bij gedragsproblemen? Inge Glazemakers Dirk Deboutte Inhoud Het probleem Oplossingen: de theorie Triple P Het project De eerste evaluatie - - -
Nadere informatieUser Profile Repository Testrapportage kwaliteit
CatchPlus User Profile Repository Testrapportage kwaliteit Versie 1.1 User Profile Repository Testrapportage kwaliteit Versie: 1.1 Publicatiedatum: 20-4-2012 Vertrouwelijk GridLine B.V., 2012 Pagina 1
Nadere informatieLink prediction op het RU domein
Bachelorscriptie Informatica / Informatiekunde Radboud Universiteit Link prediction op het RU domein Auteur: Sietse Mooren 4238508 Inhoudelijk begeleider: Dr. Suzan Verberne s.verberne@cs.ru.nl Tweede
Nadere informatieXPath voor beginners. HVA-IAM-V1-TDI Internetstandaarden 2 2008/2009. Fons van Kesteren
XPath voor beginners HVA-IAM-V1-TDI Internetstandaarden 2 2008/2009 Fons van Kesteren 1 Inhoud Inleiding... 3 XPath paden... 4 Absoluut pad... 4 Relatief pad... 4 Eenvoudige stappen... 5 Element... 5 Attribuut...
Nadere informatieToepassingen op differentievergelijkingen
Toepassingen op differentievergelijkingen We beschouwen lineaire differentievergelijkingen of lineaire recurrente betrekkingen van de vorm a 0 y k+n + a y k+n + + a n y k+ + a n y k = z k, k = 0,,, Hierbij
Nadere informatieEen eenvoudig algoritme om permutaties te genereren
Een eenvoudig algoritme om permutaties te genereren Daniel von Asmuth Inleiding Er zijn in de vakliteratuur verschillende manieren beschreven om alle permutaties van een verzameling te generen. De methoden
Nadere informatieInvloed van MetaCost op imbalanced classificatie problemen
Bachelorscriptie Informatica / Informatiekunde Radboud Universiteit Invloed van MetaCost op imbalanced classificatie problemen Auteur: Lars Kuijpers s4356314 Inhoudelijk begeleider: Prof. dr. Tom Heskes
Nadere informatieExamen Datastructuren en Algoritmen II
Tweede bachelor Informatica Academiejaar 2012 2013, tweede zittijd Examen Datastructuren en Algoritmen II Naam :.............................................................................. Lees de hele
Nadere informatieGids voor geautomatiseerd handelen met Proorder
Gids voor geautomatiseerd handelen met Proorder INHoud Over deze gids 01 Uw strategie creëren 02 Uw strategie testen 04 Uw strategie laten lopen 05 Uw strategie beheren 06 Over deze gids Deze korte gids
Nadere informatieRecursion. Introductie 37. Leerkern 37. Terugkoppeling 40. Uitwerking van de opgaven 40
Recursion Introductie 37 Leerkern 37 5.1 Foundations of recursion 37 5.2 Recursive analysis 37 5.3 Applications of recursion 38 Terugkoppeling 40 Uitwerking van de opgaven 40 Hoofdstuk 5 Recursion I N
Nadere informatie8C080 deel BioModeling en bioinformatica
Vijf algemene opmerkingen Tentamen Algoritmen voor BIOMIM, 8C080, 13 maart 2009, 09.00-12.00u. Het tentamen bestaat uit 2 delen, een deel van BioModeling & bioinformatics en een deel van BioMedische Beeldanalyse.
Nadere informatieGebruik van classificatie om gebruikspieken van een elektronische leeromgeving te voorspellen.
owered by TCPDF (www.tcpdf.org) Academiejaar 2013 2014 Faculteit Ingenieurswetenschappen en Architectuur Valentin Vaerwyckweg 1 9000 Gent Gebruik van classificatie om gebruikspieken van een elektronische
Nadere informatie20 maart Prof. Dr. Katrien Verleye
20 maart 2018 Prof. Dr. Katrien Verleye Voorbereiding Nvivo sessie Start Nvivo op (Athena Academic Nvivo) BELANGRIJK: klik geregeld op save tijdens deze sessie Data-analyse met Nvivo NVivo does not prescribe
Nadere informatieInleiding Programmeren 2
Inleiding Programmeren 2 Gertjan van Noord November 28, 2016 Stof week 3 nogmaals Zelle hoofdstuk 8 en recursie Brookshear hoofdstuk 5: Algoritmes Datastructuren: tuples Een geheel andere manier om te
Nadere informatieMachinaal leren, neurale netwerken, en deep learning
Machinaal leren, neurale netwerken, en deep learning Prof. dr. Tom Heskes KNAW-symposium Go en machinale intelligentie 11 oktober, 2016 Inhoud Inleiding - Supervised, reinforcement, unsupervised leren
Nadere informatieInleiding Programmeren 2
Inleiding Programmeren 2 Gertjan van Noord November 26, 2018 Stof week 3 nogmaals Zelle hoofdstuk 8 en recursie Brookshear hoofdstuk 5: Algoritmes Datastructuren: tuples Een geheel andere manier om te
Nadere informatieVijfde college algoritmiek. 2/3 maart Exhaustive search
Vijfde college algoritmiek 2/3 maart 2017 Exhaustive search 1 Voor- en nadelen Brute force: Voordelen: - algemeen toepasbaar - eenvoudig - levert voor een aantal belangrijke problemen (zoeken, patroonherkenning)
Nadere informatieOude tentamens Kunstmatige intelligentie Universiteit Leiden Informatica 2005
Oude tentamens Kunstmatige intelligentie Universiteit Leiden Informatica 2005 Opgave 1. A* (20/100 punten; tentamen 1 juni 2001) a. (5 punten) Leg het A*-algoritme uit. b. (2 punten) Wanneer heet een heuristiek
Nadere informatieAbstraheren van modellen
Abstraheren van modellen Geert Delanote 7 maart 2005 Geert.Delanote@cs.kuleuven.ac.be Software Development Methodology 1 Inhoudstafel Motivatie Denkpistes Software Development Methodology 2 Motivatie Verslag
Nadere informatieHoofdvraag. Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ?
Hoofdvraag Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ? Data visualisatie (Grafieken, dashboards); Kwantitatieve analyse (cijfers, statistiek); Software Inzichten
Nadere informatieHoe krijg je je motie aangenomen
Universiteit van Amsterdam Hoe krijg je je motie aangenomen het bepalen van succes criteria voor motie classificatie Afstudeerproject Bachelor AI Auteur: N. Daems FNWI Kunstmatige Intelligentie Kruislaan
Nadere informatieTentamen Object Georiënteerd Programmeren TI1206 29 oktober 2014, 9.00-11.00 Afdeling SCT, Faculteit EWI, TU Delft
Tentamen Object Georiënteerd Programmeren TI1206 29 oktober 2014, 9.00-11.00 Afdeling SCT, Faculteit EWI, TU Delft Bij dit tentamen mag je geen gebruik maken van hulpmiddelen zoals boek of slides. Digitale
Nadere informatieToetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen
M, M & C 7.3 Optional Topics in Comparing Distributions: F-toets 6.4 Power & Inference as a Decision 7.1 The power of the t-test 7.3 The power of the sample t- Toetsende Statistiek Week 5. De F-toets &
Nadere informatieTEXT ANALYTICS 11/22/2015. Inleiding Text mining & Machine learning Ludieke voorbeelden. Twee klant cases. AGENDA
11/22/2015 TEXT ANALYTICS Gast College TouW Longhow Lam -- Data Scientist @longhowlam https://longhowlam.wordpress.com/ https://www.linkedin.com/today/author/7434679 Cop yrig ht 2012, SAS Institute Inc.
Nadere informatieTree traversal. Bomen zijn overal. Ferd van Odenhoven. 15 november 2011
15 november 2011 Tree traversal Ferd van Odenhoven Fontys Hogeschool voor Techniek en Logistiek Venlo Software Engineering 15 november 2011 ODE/FHTBM Tree traversal 15 november 2011 1/22 1 ODE/FHTBM Tree
Nadere informatiedefinities recursieve datastructuren college 13 plaatjes soorten Graph = ( V, E ) V vertices, nodes, objecten, knopen, punten
recursieve datastructuren college graphs definities Graph = ( V, E ) V vertices, nodes, objecten, knopen, punten E edges, arcs, kanten, pijlen, lijnen verbinding tussen knopen Voorbeelden steden en verbindingswegen
Nadere informatieBloom. Taxonomie van. in de praktijk
Bloom Taxonomie van in de praktijk De taxonomie van Bloom kan worden toegepast als praktisch hulpmiddel bij het differentiëren in denken en doen. Het helpt je om in je vraagstelling een plaats te geven
Nadere informatieTentamen Kunstmatige Intelligentie
Naam: Studentnr: Tentamen Kunstmatige Intelligentie Department of Information and Computing Sciences Opleiding Informatica Universiteit Utrecht Donderdag 2 februari 2012 08.30 10:30, EDUCA-ALFA Vooraf
Nadere informatieMonte Carlo-analyses waarschijnlijkheids- en nauwkeurigheidsberekeningen van
Waarom gebruiken we Monte Carlo analyses? Bert Brandts Monte Carlo-analyses waarschijnlijkheids- en nauwkeurigheidsberekeningen van gebeurtenissen kunnen een bruikbaar instrument zijn om de post Onvoorzien
Nadere informatieSamenvatting (Summary in Dutch)
Het voornaamste doel van dit proefschrift is nieuwe methoden te ontwikkelen en te valideren om de effectiviteit van customization te kunnen bepalen en hoe dataverzameling kan worden verbeterd. Om deze
Nadere informatieArtificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016
Artificial Intelligence in uw dagelijkse praktijk Hilversum, 22 September 2016 Agenda 09:30 Welkom en introductie 09:35 Artificial Intelligence, al meer dan 50 jaar een actief onderzoeksgebied Jaap van
Nadere informatieOpgaven Kunstmatige intelligentie 4 mei 2012
Opgaven Kunstmatige intelligentie 4 mei 2012 Opgave 28. (opgave tentamen 12 augustus 2002) Stel dat we een handelsreizigersprobleem op willen lossen, en dat we dat met een genetisch algoritme willen doen.
Nadere informatieTiende college algoritmiek. 2 mei Gretige algoritmen, Dijkstra
College 10 Tiende college algoritmiek mei 013 Gretige algoritmen, Dijkstra 1 Muntenprobleem Gegeven onbeperkt veel munten van d 1,d,...d m eurocent, en een te betalen bedrag van n (n 0) eurocent. Alle
Nadere informatieTECHNISCHE UNrVERSITElT DELFT Faculteit Elektrotechniek, Wiskunde en Informatica
TECHNISCHE UNrVERSITElT DELFT Faculteit Elektrotechniek, Wiskunde en Informatica TWl(0)9O Inleiding Programmeren Tentamen 16 maart 2017, 9:00-12:00 uur Normering: Opgave 1 t/m 3 ieder 6 punten. Score:
Nadere informatie9. Lineaire Regressie en Correlatie
9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)
Nadere informatieHoofdstuk 9. Hashing
Hoofdstuk 9 Hashing Het zoeken in een verzameling van één object is in deze cursus al verschillende malen aan bod gekomen. In hoofdstuk 2 werd uitgelegd hoe men een object kan zoeken in een array die veel
Nadere informatieVierde college complexiteit. 26 februari Beslissingsbomen en selectie Toernooimethode Adversary argument
Complexiteit 2019/04 College 4 Vierde college complexiteit 26 februari 2019 Beslissingsbomen en selectie Toernooimethode Adversary argument 1 Complexiteit 2019/04 Zoeken: samengevat Ongeordend lineair
Nadere informatieKortste Paden. Algoritmiek
Kortste Paden Toepassingen Kevin Bacon getal Six degrees of separation Heeft een netwerk de small-world eigenschap? TomTom / Google Maps 2 Kortste paden Gerichte graaf G=(N,A), en een lengte L(v,w) voor
Nadere informatieVakgroep CW KAHO Sint-Lieven
Vakgroep CW KAHO Sint-Lieven Objecten Programmeren voor de Sport: Een inleiding tot JAVA objecten Wetenschapsweek 20 November 2012 Tony Wauters en Tim Vermeulen tony.wauters@kahosl.be en tim.vermeulen@kahosl.be
Nadere informatieTW2020 Optimalisering
TW2020 Optimalisering Hoorcollege 10 Leo van Iersel Technische Universiteit Delft 23 november 2016 Leo van Iersel (TUD) TW2020 Optimalisering 23 november 2016 1 / 40 Vraag Ik heb het deeltentamen niet
Nadere informatie