Data Mining: Classificatie
|
|
|
- Edith van der Wal
- 10 jaren geleden
- Aantal bezoeken:
Transcriptie
1 Data Mining: Classificatie docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Overzicht Wat is classificatie? Leren van een beslissingsboom. Problemen bij classificatie Evalueren van een model
2 Overzicht Wat is classificatie? Definitie Soorten modellen Voorbeelden Leren van een beslissingsboom. Problemen bij classificatie Evalueren van een model Classificatie: Definitie Gegeven een verzameling objecten (training set) ingedeeld in klasses. Vind een model voor de klasse in functie van de andere attributen. Doel: onbekende voorbeelden moeten zo accuraat mogelijk in klassen ingedeeld kunnen worden. Accuraatheid wordt gemeten op een test set.
3 10 10 Illustratie van een classificatie taak Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Learn Model Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Apply Model Voorbeelden van classificatie Voorspellen of tumor kwaadaardig is Classificeren van kredietkaart transacties als al dan niet fraudulent. Classificeren van nieuwsberichten als: financieel, weersvoorspelling, entertainment, sport, etc. Classificeren van meetingen als al dan niet foutief.
4 10 Classificatie technieken Op basis van het soort model dat geleerd wordt: Beslissingsbomen Classificatieregels Geheugengebaseerde methodes NaïveBayes en Bayesiaanse belief netwerken Neurale netwerken Support Vector Machines Voorbeeld van een beslissingsboom categorical Tid Refund Marital Status categorical Taxable Income continuous Cheat class Splitting Attributes 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Refund Yes No MarSt Single, Divorced TaxInc < 80K > 80K YES Married Training Data Model: Beslissingsboom
5 Voorbeeld van een beslissingsboom categorical Tid Refund Marital Status categorical Taxable Income continuous 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes class Married MarSt Yes Single, Divorced Refund No TaxInc < 80K > 80K YES Er is mogelijk meer dan 1 boom voor dezelfde trainingset! Classificeren met de beslissingsboom Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Learn Model Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Apply Model Decision Tree
6 Toepassen van het model op de nieuwe data Start vanaf de root van de boom. Refund Yes No Nieuwe data Refund Marital Status Taxable Income No Married 80K? Cheat MarSt Single, Divorced Married TaxInc < 80K > 80K YES Toepassen van het model op de nieuwe data Nieuwe data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? MarSt Single, Divorced Married TaxInc < 80K > 80K YES
7 10 10 Toepassen van het model op de nieuwe data Nieuwe data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? MarSt Single, Divorced Married TaxInc < 80K > 80K YES Toepassen van het model op de nieuwe data Nieuwe data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? MarSt Single, Divorced Married TaxInc < 80K > 80K YES
8 10 10 Toepassen van het model op de nieuwe data Nieuwe data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? MarSt Single, Divorced Married TaxInc < 80K > 80K YES Toepassen van het model op de nieuwe data Nieuwe data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K MarSt Single, Divorced Married TaxInc < 80K > 80K Ken klasse No toe YES
9 10 10 Overzicht Wat is classificatie? Leren van een beslissingsboom Algoritme van Hunt. Hoe vinden we de beste split? Wanneer stoppen? Problemen bij classificatie Evalueren van een model Leren van een beslissingsboom Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Learn Model Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Apply Model Beslissingsboom
10 Algoritmes voor beslissingsbomen Vinden van de beste beslissingsboom is niet wenselijk Hoge complexiteit Beste boom voor trainingdata is daarom nog niet de beste boom voor nieuwe data (cfr. Later: overfitting) Daarom: heuristieken Meeste algoritmes optimaliseren lokale criteria. Meeste algoritmes vinden suboptimale oplossingen. Inductie van een Beslissingsboom Vele algoritmes: Algoritme van Hunt (een van de eerste) CART ID3, C4.5 SLIQ, SPRINT
11 Algoritme van Hunt Zoek de beste split voor D B.v.b. A 5 >5 Splits D volgens dit criterium in D 1,, D k Hier dus: D 1 = records met A 5 D 2 = records met A>5 Werk recursief verder op de delen D 1,, D k Vind boom voor D 1, boom voor D 2, Combineer de bomen Algoritme van Hunt Zoek de beste split voor D Splits D volgens dit criterium in D 1,, D k Werk recursief verder op de delen D 1,, D k Vind boom voor D 1, boom voor D 2, Combineer de bomen: A 5 >5 T 1 T 2
12 Algoritme van Hunt (Binaire attributen) Algoritme: Hunt(dataset D(A 1,, A k, class)) Maak een nieuwe node root If ( Stopconditie(D) ) Label root met de grootste klasse in D Return root Else Selecteer het attribuut A dat Split_Kwaliteit( D 0, D 1 ) maximaliseert, waarbij D j = {t in D t.a = j} T 0 = Hunt(D 0 ); T 1 = Hunt(D 1 ) Label root met A, Voeg edges van de root naar T 0.root, resp. T 1.root met label 0, resp. 1. Return root Beslissingsboom Induction Greedy strategie. Splits de nodes gebaseerd op een lokaal criterium: slechts 1 attribuut tegelijk. Nog te bepalen/generisch Hoe splitsen we? Nietbinaire attributen Hoe meten we de kwaliteit van een split? Split_Kwaliteit( D 0, D 1 ) Wanneer moeten we stoppen? Stopconditie(D)
13 Hoe splitsen we? Hangt af van het attribuuttype Nominaal Ordinaal Continu en het aantal vertakkingen dat is toegestaan 2way split Multiway split Splitsen op basis van nominale attributen Multiway: Gebruik zoveel vertakkingen als er waarden zijn. Family CarType Sports Luxury Binaire split: Verdeel de waarden in twee verzamelingen. Zoek een optimale opdeling. {Sports, Luxury} CarType {Family} OF {Family, Luxury} CarType {Sports}
14 Splitsen op basis van een continu attribuut Different ways of handling Discretiseren ordinale attributen Binaire split: splits op in (A < v) en (A v) Beschouw alle mogelijke splitpunten Mogelijk computationeel erg complex Splitsen op basis van een continu attribuut
15 Beslissingsboom Induction Greedy strategie. Splits de nodes gebaseerd op een lokaal criterium: slechts 1 attribuut tegelijk. Nog te bepalen/generisch Hoe splitsen we? Nietbinaire attributen Hoe meten we de kwaliteit van een split? Split_Kwaliteit( D 0, D 1 ) Wanneer moeten we stoppen? Stopconditie(D) Welke split heeft jouw voorkeur? Vooraf: 10 records met klasse 0 10 records met klasse 1
16 Welke split heeft jouw voorkeur? Vooraf: 10 records met klasse 0 10 records met klasse 1 Niet homogeen Vrij homogeen Meest homogeen Te veel splits! Hoe bepalen we de kwaliteit van een split? We willen nodes met een homogene klasse distributie We hebben een maat van homogeniteit nodig: Niet homogeen Homogeen
17 Maten van homogeniteit Dataset D: k klassen, n records d j records met klasse j, j=1..k Gini Index GINI( D) = 1 k j= 1 d j n 2 Vraag Dataset D heeft slechts 2 klassen, 0 en 1 GINI( D) = 1 k j= 1 d j n 2 Bij welke verdeling tussen de klassen is de GINIindex maximaal? Minimaal?
18 Vraag Dataset D heeft slechts 2 klassen, 0 en 1 GINI( D) = 1 k j= 1 d j n 2 Bij welke verdeling tussen de klassen is de GINIindex maximaal? Minimaal? d 1 = n.x d 2 = n.(1x) Gini(x) = 1 (x 2 ) (1x) 2 = 2x 2x 2 (Gini(x)) = 24x nulpunt op 0.5 (Gini(x)) = 4 < 0 maximum
19 GINI: algemeen k klassen Maximum 11/k wordt bereikt als de klassen elk een relatieve frequentie van 1/k hebben Minst interessante geval Minimum 0 wordt bereikt als alle records tot 1 klasse behoren Meest interessante geval. C1 0 C2 6 Gini=0.000 C1 1 C2 5 Gini=0.278 C1 2 C2 4 Gini=0.444 C1 3 C2 3 Gini=0.500 Voorbeelden berekening GINI C1 0 C2 6 GINI( D) = 1 k j= 1 d j n 2 C1 1 C2 5 C1 2 C2 4
20 Voorbeelden berekening GINI C1 0 C2 6 d 1 = 0/6 = 0 d 2 = 6/6 = 1 GINI( D) = 1 Gini = 1 d 1 2 d 2 2 = = 0 k j= 1 d j n 2 C1 1 C2 5 d 1 = 1/6 d 2 = 5/6 Gini = 1 (1/6) 2 (5/6) 2 = C1 2 C2 4 d 1 = 2/6 d 2 = 4/6 Gini = 1 (2/6) 2 (4/6) 2 = Splitsen gebaseerd op GINI Gebruikt in CART, SLIQ, SPRINT. Kwaliteit van een split is het gewogen gemiddelde over alle kinderen: GINI split = k i= 1 ni n GINI ( i) met, n i = aantal records voor het kind c i, n = totale aantal nodes in p.
21 Voorbeeld Voor split: C0 C1 N00 N01 M0 A? B? Yes No Yes No Node N1 Node N2 Node N3 Node N4 C0 N10 C0 N20 C0 N30 C0 N40 C1 N11 C1 N21 C1 N31 C1 N41 M1 M2 M3 M4 M12 Gain = M0 M12 vs M0 M34 M34 Waarom gewogen gemiddelde? Effect van het wegen: Grotere partities worden gezocht. B? Parent C1 6 Gini(N1) = 1 (5/6) 2 (2/6) 2 = Gini(N2) = 1 (1/6) 2 (4/6) 2 = Yes Node N1 N1 N2 C1 5 1 C2 2 4 Gini=0.333 No Node N2 C2 6 Gini = Gini(Children) = 7/12 * /12 * = 0.333
22 Beslissingsboom Induction Greedy strategie. Splits de nodes gebaseerd op een lokaal criterium: slechts 1 attribuut tegelijk. Nog te bepalen/generisch Hoe splitsen we? Nietbinaire attributen Hoe meten we de kwaliteit van een split? Split_Kwaliteit( D 0, D 1 ) Wanneer moeten we stoppen? Stopconditie(D) Stop criteria voor beslissingsbomen Verschillende mogelijkheden:
23 Stop criteria voor beslissingsbomen Verschillende mogelijkheden: Stop als alle nodes tot dezelfde klasse behoren. Stop als GINIindex beneden bepaalde waarde komt. Stop als aantal objecten te klein wordt. Stop als alle attributen ongeveer dezelfde waarde hebben. Early termination (zie later) Overzich beslissingsbomen Voordelen: Weinig tijd nodig om te berekenen Classificeren van nieuwe voorbeelden is erg snel Makkelijk te interpreteren modellen (indien niet te veel nodes) Voor vele datasets scoren beslissingsbomen meer dan behoorlijk Nadelen: In detail
24 Overzicht Wat is classificatie? Leren van een beslissingsboom. Problemen bij classificatie Evalueren van een model Practische problemen bij classificatie Sommige functies zijn moeilijk uit te drukken m.b.v. beslissingsbomen Parity (Is het aantal binaire attributen die True zijn, even?) Lager in de boom = minder trainingvoorbeelden = minder statistische relevantie Underfitting en Overfitting Gerelateerd aan de vraag: wanneer stoppen?
25 Moeilijk uit te drukken Hoe zien de beslissingbomen die door het algoritme van Hunt gegenereerd worden er uit voor de volgende dataset? A B Moeilijk uit te drukken Hoe zien de beslissingbomen die door het algoritme van Hunt gegenereerd worden er uit voor de volgende dataset? A B
26 Moeilijk uit te drukken Hoe zien de beslissingbomen die door het algoritme van Hunt gegenereerd worden er uit voor de volgende dataset? A B Moeilijk uit te drukken Hoe zien de beslissingbomen die door het algoritme van Hunt gegenereerd worden er uit voor de volgende dataset? A B
27 Moeilijk uit te drukken Hoe zien de beslissingbomen die door het algoritme van Hunt gegenereerd worden er uit voor de volgende dataset? A B Moeilijk uit te drukken Hoe zien de beslissingbomen die door het algoritme van Hunt gegenereerd worden er uit voor de volgende dataset? A B
28 Typische grafiek. Wat gebeurt er hier? Underfitting Overfitting Underfitting: Als het model te simpel is; de boom is nog te eenvoudig Overfitting: Het model is zo gedetailleerd dat het zelfs de ruis uit de input heeft geleerd
29 Overfitting door ruis Goed model B A Overfitting door ruis Slecht model, toch kleinere error op trainingsset B A
30 Bemerkingen over overfitting Resulteert in complexere bomen dan noodzakelijk. Training error is niet langer een goede maat om te meten hoe de classifier zal presteren op nieuwe data. Betere manieren nodig om fouten te meten. Hoe gaan we overfitting tegen? PrePruning (Early Stopping) Stop voordat de volledige boom gemaakt is. Stop indien het aantal instanties te klein wordt Stop als de klasdistributie onafhankelijk is van de afzonderlijke features (gebruik bvb. χ 2 test) Stop indien er geen split is die resulteert in een positive gain
31 Hoe gaan we overfitting tegen? Postpruning Maak de volledige beslissingsboom Behandel de splits bottomup Als de generalization error verkleint door het wegnemen van een split: haal de split weg en vervang door een blad. Label wordt de grootste klasse in het nieuwe blad. Vraag: Hoe meten we generalization error?
32 Vraag: Hoe meten we generalization error? Splits D vooraf in twee delen: D 1 en D 2 Leer de boom op D 1 Evalueer de generalization errors op D 2 Overzicht Wat is classificatie? Leren van een beslissingsboom. Evalueren van een model Volgende les
Oplossingen Datamining 2II15 Juni 2008
Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen:
Data Mining: Classificatie
Data Mining: lassificatie docent: dr. Toon alders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Vorige les lassificatie: Het groeperen van objecten in voorgedefinieerde
2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.
1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van
Data Mining: Data kwaliteit, Preprocessing
Data Mining: Data kwaliteit, Preprocessing docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Herhaling: definitie Data Mining is: Extractie van interessante
Data Mining: Inleiding
Data Mining: Inleiding docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining 2II15: Data mining en kennissystemen Lessen: maandag 7de en 8ste uur in Auditorium
Data Mining: Clustering
Data Mining: Clustering docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Wat is clustering? Het onderverdelen van de objecten in een database in homogene
Tentamen Data Mining
Tentamen Data Mining Algemene Opmerkingen Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. Laat bij het uitvoeren van berekeningen zien hoe je aan een antwoord gekomen bent.
Data Mining: Opdracht 2
Data Mining: Opdracht 2 7 juli 2006 Egbert Kroese (#0134252) Paul Lammertsma (#0305235) Inhoudsopgave 1. De datasets...3 1.1 Iris...3 1.2 Vote...3 1.3 Autos...4 2. De algoritmen...4 2.1 Naive Bayes...4
Uitwerking Tentamen Datamining (2II15) 26/06/09
Uitwerking Tentamen Datamining (2II15) 26/06/09 1. (3p) (Clustering) Welke van de volgende uitspraken zijn correct? Voor de correcte uitspraken: leg uit, voor de incorrecte: geef een tegenvoorbeeld. (a)
Tentamen Kunstmatige Intelligentie (INFOB2KI)
Tentamen Kunstmatige Intelligentie (INFOB2KI) 30 januari 2014 10:30-12:30 Vooraf Mobiele telefoons dienen uitgeschakeld te zijn. Het tentamen bestaat uit 7 opgaven; in totaal kunnen er 100 punten behaald
DATA MINING (TI2730-C)
Technische Universiteit Delft Elektrotechniek, Wiskunde en Informatica Secties: Pattern Recognition & Bioinformatics & Multimedia Signal Processing DATA MINING (TI2730-C) Schriftelijk (her)tentomen. Dinsdag
Voorspellen van webwinkel aankopen met een Random Forest
Voorspellen van webwinkel aankopen met een Random Forest Dorenda Slof Erasmus Universiteit Rotterdam Econometrie en Operationele Research 30 juni 2014 Samenvatting In dit empirische onderzoek voorspellen
Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:
Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan
AI introductie voor testers
AI introductie voor testers De basis van deep learning TestNet werkgroep Testen met AI Martin van Helden Sander Mol Introductie Artificial Intelligence (AI) is anders dan traditioneel programmeren. Traditioneel
Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6
Tentamen Data Mining Datum: 4januai2l6 Tijd: 4: - 7: Algemene Opmerkingen e Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. o Laat bij het uitvoeren van berekeningen zien hoeje
Data mining Van boodschappenmandjes tot bio-informatica
Data mining Van boodschappenmandjes tot bio-informatica Walter Kosters Informatica, Universiteit Leiden donderdag 6 april 2006 http://www.liacs.nl/home/kosters/ 1 Wat is Data mining? Data mining probeert
Classification - Prediction
Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training
Het classificeren van hoortoestel modaliteiten m.b.v. een Big Data benadering: Latent Class Trees analyse
Het classificeren van hoortoestel modaliteiten m.b.v. een Big Data benadering: Latent Class Trees analyse Simon Lansbergen & Wouter Dreschler Motivatie // Introductie 1. Veel verschillende hoortoestellen,
Datastructuren en Algoritmen voor CKI
Ω /texmf/tex/latex/uubeamer.sty-h@@k 00 /texmf/tex/latex/uubeamer.sty Datastructuren en Algoritmen voor CKI Vincent van Oostrom Clemens Grabmayer Afdeling Wijsbegeerte Hoorcollege 5 16 februari 2009 Waar
Flying Sensor Rapport
Flying Sensor Rapport Locatie: Dintelse Gorzen Noord-Brabant Nederland Vluchtdatum: 21-mei-2014 Flying Sensor: Pelican Client: Natuurmonumenten HiView Costerweg 1V 6702AA Wageningen www.hiview.nl [email protected]
Vierde college complexiteit. 14 februari Beslissingsbomen
College 4 Vierde college complexiteit 14 februari 2017 Restant zoeken Beslissingsbomen 1 Binair zoeken Links := 1; Rechts := n; while Links Rechts do Midden := Links + Rechts 2 ; if X = A[Midden] then
Predictieve modellen - overzicht
Predictieve modellen - overzicht 08-01-2018 Jochem Grietens Verhaert Alexander Frimout Verhaert 1 AI voor lichtcontrole Het doel is om de verlichting van de Vlaamse snelweg slimmer te maken met behulp
TW2020 Optimalisering
TW2020 Optimalisering Hoorcollege 8 Leo van Iersel Technische Universiteit Delft 2 november 2016 Leo van Iersel (TUD) TW2020 Optimalisering 2 november 2016 1 / 28 Minimum Opspannende Boom (Minimum Spanning
2WO12: Optimalisering in Netwerken
2WO12: Optimalisering in Netwerken Leo van Iersel Technische Universiteit Eindhoven (TU/E) en Centrum Wiskunde & Informatica (CWI) 27 februari 2014 http://homepages.cwi.nl/~iersel/2wo12/ [email protected]
TW2020 Optimalisering
TW2020 Optimalisering Hoorcollege 8 Leo van Iersel Technische Universiteit Delft 28 oktober 2015 Leo van Iersel (TUD) TW2020 Optimalisering 28 oktober 2015 1 / 25 Definitie Een boom is een samenhangende
Hoofdstuk 18,19.1,21.1/3,17.1/2 Russell/Norvig = [RN] Leren
AI Kunstmatige Intelligentie (AI) Hoofdstuk 18,19.1,21.1/3,17.1/2 Russell/Norvig = [RN] Leren voorjaar 2016 College 10, 26 april 2016 www.liacs.leidenuniv.nl/ kosterswa/ai/ 1 Introductie Er zijn vele soorten
Vierde college algoritmiek. 2 maart Toestand-actie-ruimte Exhaustive Search
Algoritmiek 2018/Toestand-actie-ruimte Vierde college algoritmiek 2 maart 2018 Toestand-actie-ruimte Exhaustive Search 1 Algoritmiek 2018/Toestand-actie-ruimte Kannen Voorbeeld 4: Kannenprobleem We hebben
Tweede college algoritmiek. 12 februari Grafen en bomen
College 2 Tweede college algoritmiek 12 februari 2016 Grafen en bomen 1 Grafen (herhaling) Een graaf G wordt gedefinieerd als een paar (V,E), waarbij V een eindige verzameling is van knopen (vertices)
Benaderingsalgoritmen
Benaderingsalgoritmen Eerste hulp bij NP-moeilijkheid 1 Herhaling NP-volledigheid (1) NP: er is een polynomiaal certificaat voor jainstanties dat in polynomiale tijd te controleren is Een probleem A is
Inhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen
Tom Heskes IRIS, NIII Inhoud De bouwstenen van het zenuwstelsel: neuronen en synapsen Complex gedrag uit eenvoudige elementen McCulloch-Pitts neuronen Hopfield netwerken Computational neuroscience Lerende
twee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben.
Samenvatting Deze thesis handelt over privacy preserving data mining. Data mining is een tak van de wetenschap waarin men grote hoeveelheden data onderzoekt met de bedoeling er bepaalde patronen in te
Inl. Adaptieve Systemen
Inl. Adaptieve Systemen Gerard Vreeswijk Leerstoelgroep Intelligente Systemen, Departement Informatica en Informatiekunde, Faculteit Bètawetenschappen, Universiteit Utrecht. Gerard Vreeswijk. Laatst gewijzigd
Data Mining. Eindverslag 7 juni 2009
Data Mining Eindverslag 7 juni 2009 Naam: Mathijs de Langen 0611699 Stijn Koopal 0613671 Marvin Raaijmakers 0608141 Giel Oerlemans 0607213 Email: [email protected] [email protected] [email protected]
Tentamen Kunstmatige Intelligentie (INFOB2KI)
Tentamen Kunstmatige Intelligentie (INFOB2KI) 12 december 2014 8:30-10:30 Vooraf Mobiele telefoons en dergelijke dienen uitgeschakeld te zijn. Het eerste deel van het tentamen bestaat uit 8 multiple-choice
Kunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016
AI Kunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016 www.liacs.leidenuniv.nl/ kosterswa/ai/ 1 Hersenen De menselijke
2WO12: Optimalisering in Netwerken
2WO12: Optimalisering in Netwerken Leo van Iersel Technische Universiteit Eindhoven (TUE) en Centrum Wiskunde & Informatica (CWI) 3 en 6 februari 2014 Leo van Iersel (TUE/CWI) 2WO12: Optimalisering in
Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms
Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms Giso Dal (0752975) Pagina s 5 7 1 Deelverzameling Representatie
Programmeermethoden. Recursie. week 11: november kosterswa/pm/
Programmeermethoden Recursie week 11: 21 25 november 2016 www.liacs.leidenuniv.nl/ kosterswa/pm/ 1 Pointers Derde programmeeropgave 1 Het spel Gomoku programmeren we als volgt: week 1: pointerpracticum,
Voorwoord. Maar nu eerst Latex leren.
Voorwoord We schrijven 17 juni 2006, na bijna een jaar proberen er iets van te maken is de meet in zicht. Het is niet altijd even makkelijk geweest, vaak te weinig concentratie, niet voldoende druk om
Transparanten bij het vak Inleiding Adaptieve Systemen: Introductie Machine Leren. M. Wiering
Transparanten bij het vak Inleiding Adaptieve Systemen: Introductie Machine Leren. M. Wiering Lerende Machines Verbeter in taak T, Voorbeeld: je ziet de karakteristieken (Features) van een aantal dieren
Hoe AI kan ingezet worden voor de analyse van asbesthoudende daken
Hoe AI kan ingezet worden voor de analyse van asbesthoudende daken Earth Observation Data Sciences www.vlaanderen.be/informatievlaanderen www.vito.be Workshop: Asbestinventarisatie en analyse Weerslag
College 4 Inspecteren van Data: Verdelingen
College Inspecteren van Data: Verdelingen Inleiding M&T 01 013 Hemmo Smit Overzicht van deze cursus 1. Grondprincipes van de wetenschap. Observeren en meten 3. Interne consistentie; Beschrijvend onderzoek.
Cover Page. The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation.
Cover Page The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation. Author: Witsenburg, Tijn Title: Hybrid similarities : a method to insert relational information
Divide & Conquer: Verdeel en Heers vervolg. Algoritmiek
Divide & Conquer: Verdeel en Heers vervolg Algoritmiek Algoritmische technieken Vorige keer: Divide and conquer techniek Aantal toepassingen van de techniek Analyse met Master theorem en substitutie Vandaag:
Neurale Netwerken en Deep Learning. Tijmen Blankevoort
Neurale Netwerken en Deep Learning Tijmen Blankevoort De toekomst - Internet of Things De toekomst - sluiertipje Je gezondheid wordt continue gemonitored Je dieet wordt voor je afgestemd -> Stroomversnelling
Principe Maken van een Monte Carlo data-set populatie-parameters en standaarddeviaties standaarddeviatie van de bepaling statistische verdeling
Monte Carlo simulatie In MW\Pharm versie 3.30 is een Monte Carlo simulatie-module toegevoegd. Met behulp van deze Monte Carlo procedure kan onder meer de betrouwbaarheid van de berekeningen van KinPop
Algoritmiek. 15 februari Grafen en bomen
Algoritmiek 15 februari 2019 Grafen en bomen 1 Grafen (herhaling) Een graaf G wordt gedefinieerd als een paar (V,E), waarbij V een eindige verzameling is van knopen (vertices) en E een verzameling van
College 6 Eenweg Variantie-Analyse
College 6 Eenweg Variantie-Analyse - Leary: Hoofdstuk 11, 1 (t/m p. 55) - MM&C: Hoofdstuk 1 (t/m p. 617), p. 63 t/m p. 66 - Aanvullende tekst 6, 7 en 8 Jolien Pas ECO 01-013 Het Experiment: een voorbeeld
INZET VAN MACHINE LEARNING
INZET VAN MACHINE LEARNING VOORSTELLEN INHOUD Context wat is de staat van de verzekeringsindustrie? Machine Learning - wat is het eigenlijk en is het nieuw? Toepassingen waar wordt ML met succes toegepast?
Combinatorische Algoritmen: Binary Decision Diagrams, Deel III
Combinatorische Algoritmen: Binary Decision Diagrams, Deel III Sjoerd van Egmond LIACS, Leiden University, The Netherlands [email protected] 2 juni 2010 Samenvatting Deze notitie beschrijft een nederlandse
Datastructuren: stapels, rijen en binaire bomen
Programmeermethoden Datastructuren: stapels, rijen en binaire bomen week 12: 23 27 november 2015 www.liacs.leidenuniv.nl/ kosterswa/pm/ 1 Inleiding In de informatica worden Abstracte DataTypen (ADT s)
Java Programma structuur
Java Programma structuur public class Bla // div. statements public static void main(string argv[]) // meer spul Voortgezet Prog. voor KI, week 4:11 november 2002 1 Lijsten Voorbeelden 2, 3, 5, 7, 13 Jan,
Veel van weinig. Hoe vinden we diagnostische markers voor kanker op basis van een beperkt aantal genetische profielen?
Veel van weinig Hoe vinden we diagnostische markers voor kanker op basis van een beperkt aantal genetische profielen? Mark van de Wiel [email protected] Afdeling Epidemiologie & Biostatistiek Afdeling
Triple P (Positive Parenting Program): effectief bij gedragsproblemen?
21/11/11 Triple P (Positive Parenting Program): effectief bij gedragsproblemen? Inge Glazemakers Dirk Deboutte Inhoud Het probleem Oplossingen: de theorie Triple P Het project De eerste evaluatie - - -
XPath voor beginners. HVA-IAM-V1-TDI Internetstandaarden 2 2008/2009. Fons van Kesteren
XPath voor beginners HVA-IAM-V1-TDI Internetstandaarden 2 2008/2009 Fons van Kesteren 1 Inhoud Inleiding... 3 XPath paden... 4 Absoluut pad... 4 Relatief pad... 4 Eenvoudige stappen... 5 Element... 5 Attribuut...
Toepassingen op differentievergelijkingen
Toepassingen op differentievergelijkingen We beschouwen lineaire differentievergelijkingen of lineaire recurrente betrekkingen van de vorm a 0 y k+n + a y k+n + + a n y k+ + a n y k = z k, k = 0,,, Hierbij
Een eenvoudig algoritme om permutaties te genereren
Een eenvoudig algoritme om permutaties te genereren Daniel von Asmuth Inleiding Er zijn in de vakliteratuur verschillende manieren beschreven om alle permutaties van een verzameling te generen. De methoden
Examen Datastructuren en Algoritmen II
Tweede bachelor Informatica Academiejaar 2012 2013, tweede zittijd Examen Datastructuren en Algoritmen II Naam :.............................................................................. Lees de hele
Gids voor geautomatiseerd handelen met Proorder
Gids voor geautomatiseerd handelen met Proorder INHoud Over deze gids 01 Uw strategie creëren 02 Uw strategie testen 04 Uw strategie laten lopen 05 Uw strategie beheren 06 Over deze gids Deze korte gids
Recursion. Introductie 37. Leerkern 37. Terugkoppeling 40. Uitwerking van de opgaven 40
Recursion Introductie 37 Leerkern 37 5.1 Foundations of recursion 37 5.2 Recursive analysis 37 5.3 Applications of recursion 38 Terugkoppeling 40 Uitwerking van de opgaven 40 Hoofdstuk 5 Recursion I N
Gebruik van classificatie om gebruikspieken van een elektronische leeromgeving te voorspellen.
owered by TCPDF (www.tcpdf.org) Academiejaar 2013 2014 Faculteit Ingenieurswetenschappen en Architectuur Valentin Vaerwyckweg 1 9000 Gent Gebruik van classificatie om gebruikspieken van een elektronische
20 maart Prof. Dr. Katrien Verleye
20 maart 2018 Prof. Dr. Katrien Verleye Voorbereiding Nvivo sessie Start Nvivo op (Athena Academic Nvivo) BELANGRIJK: klik geregeld op save tijdens deze sessie Data-analyse met Nvivo NVivo does not prescribe
Inleiding Programmeren 2
Inleiding Programmeren 2 Gertjan van Noord November 28, 2016 Stof week 3 nogmaals Zelle hoofdstuk 8 en recursie Brookshear hoofdstuk 5: Algoritmes Datastructuren: tuples Een geheel andere manier om te
Machinaal leren, neurale netwerken, en deep learning
Machinaal leren, neurale netwerken, en deep learning Prof. dr. Tom Heskes KNAW-symposium Go en machinale intelligentie 11 oktober, 2016 Inhoud Inleiding - Supervised, reinforcement, unsupervised leren
Inleiding Programmeren 2
Inleiding Programmeren 2 Gertjan van Noord November 26, 2018 Stof week 3 nogmaals Zelle hoofdstuk 8 en recursie Brookshear hoofdstuk 5: Algoritmes Datastructuren: tuples Een geheel andere manier om te
Oude tentamens Kunstmatige intelligentie Universiteit Leiden Informatica 2005
Oude tentamens Kunstmatige intelligentie Universiteit Leiden Informatica 2005 Opgave 1. A* (20/100 punten; tentamen 1 juni 2001) a. (5 punten) Leg het A*-algoritme uit. b. (2 punten) Wanneer heet een heuristiek
Abstraheren van modellen
Abstraheren van modellen Geert Delanote 7 maart 2005 [email protected] Software Development Methodology 1 Inhoudstafel Motivatie Denkpistes Software Development Methodology 2 Motivatie Verslag
Hoofdvraag. Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ?
Hoofdvraag Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ? Data visualisatie (Grafieken, dashboards); Kwantitatieve analyse (cijfers, statistiek); Software Inzichten
Hoe krijg je je motie aangenomen
Universiteit van Amsterdam Hoe krijg je je motie aangenomen het bepalen van succes criteria voor motie classificatie Afstudeerproject Bachelor AI Auteur: N. Daems FNWI Kunstmatige Intelligentie Kruislaan
Tentamen Object Georiënteerd Programmeren TI1206 29 oktober 2014, 9.00-11.00 Afdeling SCT, Faculteit EWI, TU Delft
Tentamen Object Georiënteerd Programmeren TI1206 29 oktober 2014, 9.00-11.00 Afdeling SCT, Faculteit EWI, TU Delft Bij dit tentamen mag je geen gebruik maken van hulpmiddelen zoals boek of slides. Digitale
Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen
M, M & C 7.3 Optional Topics in Comparing Distributions: F-toets 6.4 Power & Inference as a Decision 7.1 The power of the t-test 7.3 The power of the sample t- Toetsende Statistiek Week 5. De F-toets &
TEXT ANALYTICS 11/22/2015. Inleiding Text mining & Machine learning Ludieke voorbeelden. Twee klant cases. AGENDA
11/22/2015 TEXT ANALYTICS Gast College TouW Longhow Lam -- Data Scientist @longhowlam https://longhowlam.wordpress.com/ https://www.linkedin.com/today/author/7434679 Cop yrig ht 2012, SAS Institute Inc.
Tree traversal. Bomen zijn overal. Ferd van Odenhoven. 15 november 2011
15 november 2011 Tree traversal Ferd van Odenhoven Fontys Hogeschool voor Techniek en Logistiek Venlo Software Engineering 15 november 2011 ODE/FHTBM Tree traversal 15 november 2011 1/22 1 ODE/FHTBM Tree
definities recursieve datastructuren college 13 plaatjes soorten Graph = ( V, E ) V vertices, nodes, objecten, knopen, punten
recursieve datastructuren college graphs definities Graph = ( V, E ) V vertices, nodes, objecten, knopen, punten E edges, arcs, kanten, pijlen, lijnen verbinding tussen knopen Voorbeelden steden en verbindingswegen
Bloom. Taxonomie van. in de praktijk
Bloom Taxonomie van in de praktijk De taxonomie van Bloom kan worden toegepast als praktisch hulpmiddel bij het differentiëren in denken en doen. Het helpt je om in je vraagstelling een plaats te geven
Tentamen Kunstmatige Intelligentie
Naam: Studentnr: Tentamen Kunstmatige Intelligentie Department of Information and Computing Sciences Opleiding Informatica Universiteit Utrecht Donderdag 2 februari 2012 08.30 10:30, EDUCA-ALFA Vooraf
Monte Carlo-analyses waarschijnlijkheids- en nauwkeurigheidsberekeningen van
Waarom gebruiken we Monte Carlo analyses? Bert Brandts Monte Carlo-analyses waarschijnlijkheids- en nauwkeurigheidsberekeningen van gebeurtenissen kunnen een bruikbaar instrument zijn om de post Onvoorzien
Samenvatting (Summary in Dutch)
Het voornaamste doel van dit proefschrift is nieuwe methoden te ontwikkelen en te valideren om de effectiviteit van customization te kunnen bepalen en hoe dataverzameling kan worden verbeterd. Om deze
Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016
Artificial Intelligence in uw dagelijkse praktijk Hilversum, 22 September 2016 Agenda 09:30 Welkom en introductie 09:35 Artificial Intelligence, al meer dan 50 jaar een actief onderzoeksgebied Jaap van
Opgaven Kunstmatige intelligentie 4 mei 2012
Opgaven Kunstmatige intelligentie 4 mei 2012 Opgave 28. (opgave tentamen 12 augustus 2002) Stel dat we een handelsreizigersprobleem op willen lossen, en dat we dat met een genetisch algoritme willen doen.
Tiende college algoritmiek. 2 mei Gretige algoritmen, Dijkstra
College 10 Tiende college algoritmiek mei 013 Gretige algoritmen, Dijkstra 1 Muntenprobleem Gegeven onbeperkt veel munten van d 1,d,...d m eurocent, en een te betalen bedrag van n (n 0) eurocent. Alle
9. Lineaire Regressie en Correlatie
9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)
Vierde college complexiteit. 26 februari Beslissingsbomen en selectie Toernooimethode Adversary argument
Complexiteit 2019/04 College 4 Vierde college complexiteit 26 februari 2019 Beslissingsbomen en selectie Toernooimethode Adversary argument 1 Complexiteit 2019/04 Zoeken: samengevat Ongeordend lineair
Kortste Paden. Algoritmiek
Kortste Paden Toepassingen Kevin Bacon getal Six degrees of separation Heeft een netwerk de small-world eigenschap? TomTom / Google Maps 2 Kortste paden Gerichte graaf G=(N,A), en een lengte L(v,w) voor
Vakgroep CW KAHO Sint-Lieven
Vakgroep CW KAHO Sint-Lieven Objecten Programmeren voor de Sport: Een inleiding tot JAVA objecten Wetenschapsweek 20 November 2012 Tony Wauters en Tim Vermeulen [email protected] en [email protected]
TW2020 Optimalisering
TW2020 Optimalisering Hoorcollege 10 Leo van Iersel Technische Universiteit Delft 23 november 2016 Leo van Iersel (TUD) TW2020 Optimalisering 23 november 2016 1 / 40 Vraag Ik heb het deeltentamen niet
