Data Mining: Opdracht 2

Maat: px
Weergave met pagina beginnen:

Download "Data Mining: Opdracht 2"

Transcriptie

1 Data Mining: Opdracht 2 7 juli 2006 Egbert Kroese (# ) Paul Lammertsma (# )

2 Inhoudsopgave 1. De datasets Iris Vote Autos De algoritmen Naive Bayes C Ripper Support Vector Machine Boosting Adaboost met C Adaboost met Decision Stumps Intermezzo: Bagging Conclusies Conclusie Naive Bayes Conclusies C4.5 en Adaboost met C Conclusie Ripper Conclusie Support Vector Machine Conclusie Adaboost met Decision Stumps Conclusies Algemeen Appendix Referenties...16

3 1. De datasets De drie opgegeven datasets, iris, vote en autos, hebben zowel met betrekking tot hun instanties als hun attributen opvallende verschillen. Een analyse is gedaan naar de drie meegeleverde datasets en is uitgezet in Tabel 1. Bij deze analyse gaat voornamelijk om het aantal klasses, de attribuuttypes en het aantal attributen met ontbrekende waardes. De verschillende algoritmes waar straks naar gekeken zal worden gaan immers anders om met deze eigenschappen, en kunnen daarom de classificatie beïnvloeden. Naam Instanties Classes Attribuuttypes # attributen met Num. Nom. Int. missende waardes Iris Vote Autos Tabel Iris De dataset iris heeft twee karakteristieke eigenschappen. Ten eerste valt het op dat deze dataset uitsluitend numerieke waarden bevat. Gezien het feit dat verschillende algoritmen anders omgaan met numerieke of nominale waarden, zal deze eigenschap ongetwijfeld invloed hebben op de classificatie en uiteindelijk het meest geschikte algoritme. Ten tweede maakt deze dataset het de meeste algoritmen wat makkelijker omdat er geen attributen zijn met ontbrekende waarden. Wij hoeven dus hier geen rekening mee te houden. 1.2 Vote Ook deze dataset is kenmerkend doordat alle attributen van dezelfde soort zijn. Het gaat deze keer niet om numerieke waarden, maar juist allemaal om nominale. Willen wij het beste algoritme vinden, zullen we een algoritme moeten zoeken dat hierop toegespitst is. Ook interessant is dat vote geheel binair is: alle attributen en met name de uitkomst kunnen precies twee waarden aannemen.

4 1.3 Autos Tijdens het eerste practicum hebben we deze dataset onderzocht, en ontdekt dat deze zowel numeriek, nominaal als integerwaarden bevat. De attributen zijn afwisselend sterk samenhangend of geheel onsamenhangend, en er lijkt veel sprake van noise te zijn. Mogelijk zullen sommige algoritmes moeite hebben met classificatie doordat instanties uiteindelijk zeven verschillende waarden aan kunnen nemen, en dat er in sommige gevallen attribuutwaarden ontbreken. 2. De algoritmen Wij hebben circa vijftig experimenten uitgevoerd op de datasets met vijf verschillende algoritmes: Naive Bayes, C4.5, Ripper en Adaboost met C4.5 en Decision Stumps. Voordat we onze conclusies presenteren, willen we een korte analyse doen van de werking van deze algoritmes. 2.1 Naive Bayes Naive Bayes classificeert een willekeurige instantie met attributen x volgens Vergelijking 1. p( C = c) n i= 1 p( X i = x i C = c) Vergelijking 1 C is de getoetste klasse en X zijn de gegeven attributen van een bepaalde instantie. c een van de mogelijke uitkomsten is en x de attributen die bij deze uitkomst horen. [3] Deze berekening wordt uitgevoerd voor alle mogelijke klassen; van deze uitkomsten kiest Naive Bayes het beste resultaat. Kort gezegd berekent het algoritme dus de uitkomst door het beste resultaat te kiezen uit een vermenigvuldiging van het aantal voorkomens van elke uitkomst en zijn onderlinge aantal keer dat ieder attribuut voorkomt. Terwijl deze methode bijna té simpel lijkt, levert het vaak een verrassend goede oplossing. Door zijn eenvoud, is Naive Bayes weerbaar tegen geïsoleerde ruispunten omdat uitspringers statistisch wegvallen. Naive Bayes werkt alleen het beste in twee extreme gevallen [5]:

5 Datasets die uitsluitend geheel onafhankelijke features hebben, of Datasets die uitsluitend functioneel afhankelijke features hebben. Gevallen die tussen deze extremen liggen verslechtert de prestatie van het algoritme. Kortom, bij datasets die attributen bevatten die afwisselend samenhangend of onafhankelijk zijn, levert een classificatie door Naive Bayes geen goed resultaat op. 2.2 C4.5 C4.5 is de opvolger van J. Ross Quinlan s ID3 decision tree algoritme. Het algoritme begint met een set van instanties en maakt aan de hand daarvan een boomstructuur waarin nieuwe instanties kunnen worden geclassificeerd. Elke interne knoop van de boom bevat een test waarvan het resultaat bepaalt welke tak te volgen vanuit die knoop (de zogenaamde divide-and-conquer algoritme ). De bladeren bevatten class labels in plaats van testen. Wanner tijdens het classificeren een instantie een blad bereikt zal C4.5 die instantie classificeren met de class van dat blad. Onder de verschillende algoritmen is C4.5 een van de beste doordat deze zorgt voor kleine accurate bomen, resulterend in snelle betrouwbare classifiers. Tijdens het testen kiest C4.5 de test welke het maximum aan informatie uit de instanties haalt, gegeven de voorwaarde dat maar één attribuut getest wordt. Een (grote) boom die 100% van de instanties goed classificeert hoeft niet per se beter te zijn dan een kleine boom waarin niet alle instanties passen. Daarom maakt C4.5 gebruik van pruning; het laten groeien van een grote boom om er vervolgens stukjes weer van te verwijderen. C4.5 s pruning methode is gebaseerd op het schatten van de error-rate van elke sub-boom en deze te vervangen met een blad als de geschatte fout lager is. Schat de error-rate van elke knoop in de boom, beginnend onderaan de boom. Als de schatting aangeeft dat de boom accurater zal zijn als de kinderen van knoop n verwijderd worden (en dat n een blad wordt) dan zal C4.5 n s kinderen verwijderen. Als de schatting perfect is zal dit altijd tot een betere boom leiden. In praktijk (bij niet perfecte tot zelfs grove schattingen) leidt dit toch tot een beter resultaat. 2.3 Ripper Repeated Incremental Pruning to Produce Error Reduction (RIPPER) bouwt de regelset één regel per ronde. Aan elke regel wordt door divide and conquer propositionele condities toegevoegd, net zoals bij C4.5. Ook voert Ripper hierna pruning uit om overfitting te verminderen.

6 Er geldt zowel bij C4.5 als Ripper dat de splitsing bij numerieke attributen anders werkt. Gezien het algoritme een splitsing over n takken moet maken, moet hij weten hoe de data gespreid ligt. In principe zou het algoritme alle instanties moeten doorwerken om dit te ontdekken, maar dit zou te lang duren; het zou immers O(n 2 ) tijd kosten om enkel de spreiding van alle numerieke attributen te bepalen! Een eenvoudige oplossing is dat deze algoritmes uitgaan van een normale verdeling. Vaak leidt dit tot een redelijk resultaat, maar het is onbetrouwbaar. Ripper en C4.5 zijn daarom vaak niet goed te gebruiken bij datasets met veel numerieke attribuuttypes. [7] De tweede stap van het algoritme is waar Ripper van C4.5 verschilt. Daar waar C4.5 regels verwijdert, past Ripper ze aan in het belang van optimalisatie [2]. Er wordt per regel twee alternatieve candidaten gemaakt: de zogenaamde vervangingsregel, die vanuit een lege regel groeit, en revisieregel, die vanuit de huidige regel groeit. Samen met het orgineel wordt de regel met de kortste omschrijving gekozen en vervangt deze de oorspronkelijke regel. 2.4 Support Vector Machine Het Support Vector Machine-algoritme (SVM) berust op het principe van het classificeren van data in een R n ruimte door een hyperplane, en de margin tussen deze hyperplane en de punten te maximaliseren. Het kan echter soms moeilijk zijn om deze hyperplane te bepalen. SVM maakt gebruik van kwadratisch programmeren (QP) om per dimensie de margin te vergroten. Dit is een ingewikkelde berekening die vaak veel tijd kost, waardoor het bekend staat als een traag algoritme. Tevens is de classificatie ondoorzichtig; in tegen stelling tot C4.5 die een boom bouwt of Naive Bayes die de kansen op alle uitkomsten uitzet, moet men maar aannemen dat de berekening van de hyperplane uit de trainingset in SVM tot een optimaal resultaat levert. Ondanks dat de variant van SVM die geïmplementeerd is in Weka, (SMO), geoptimaliseerd is, zijn we sceptisch over het nut van deze oplossing omdat hij aanzienlijk trager is dan de anderen. 2.5 Boosting Boosting is een algemene methode om weak learning algoritmes te verbeteren. Dit door middel van het herhaaldelijk rerunnen van een gegeven weak learning algoritme en daarvan de berekende classifiers combineren. Wat boosting doet is

7 dat het een hypothese genereert met weinig fouten in de training set. Dit doet hij uit de verschillende hypotheses (met veel fouten, maar beter dan ½) door ze te combineren. Boosting is nuttig als de dataset een variërende graad van moeilijkheid van classificatie heeft. Het boosting algoritme neemt als input een training set van m instanties. Daarnaast maakt boosting gebruik van een weak learning algoritme (in ons geval C4.5 en Decision Stumps). Het boosting algoritme roept herhaaldelijk het weak learning algoritme aan in verschillende rondes. Elke ronde voorziet de booster het weak learning algoritme van een verdeling instanties van de training set. Op zijn beurt geeft het weak learning algoritme een classifier voor die distributie van de training set. Deze classifier classificeert een fractie van de training set juist met grote waarschijnlijkheid ten opzichte van de verdeling. Het doel van het weak learning is om een hypothese te vinden welke de training error minimaliseert. Dit proces herhaalt zich een aantal ronden en uiteindelijk combineert de booster de verschillende zwakke hypothesen tot één laatste hypothese bijvoorbeeld door middel van stemmen. Door fout geclassificeerde instanties een groter gewicht te geven zullen ze bij opvolgende ronden eerder aan bod komen. Op deze manier focust boosting op de instanties die voor de weak classifier het moeilijkst zijn Adaboost met C4.5 Adaboost is de afkorting van Adaptive Boosting, en maakt dus gebruik van boosting. Omdat C4.5 ongewogen training instanties verwacht moeten deze eerst geresampled worden. Dit is een methode waar je van de set van voorbeeld instanties er een x aantal random pakt met terugleggen, op deze manier kan één instantie dus ook vaker voorkomen. Het voordeel van C4.5 is dat je in ieder geval wel zeker weet dat deze een error rate kleiner dan ½ zal hebben. Het gevaar bij Adaboost zit in het teveel gewicht leggen op noisy instanties, waar de classificatie onder lijdt. [1] Adaboost met Decision Stumps Het decision stump-algoritme berust op een classificatie volgens single attribute discrimination. In feite is het een beslisboom met maar één enkele knoop met de aan- of afwezigheid van een enkele term als predikaat. Voor elk attribuut A, toetst het algoritme een binaire splitsing en meet de score volgens score(a). De beste classificatie, splitsing door attribuut A i, betekent volgens decision stumps dat score(a i ) maximaal is. [6]

8 2.6 Intermezzo: Bagging Bootstrap aggrigating ( bagging ) is een methode die herhaaldelijk willekeurige samples van een dataset neemt, met teruglegging, en een reeks classifiers maakt C 0 t/m C N. Tot slot worden deze classifiers gecombineerd door middel van voting tot een enkele classifier C. Wordt N groot genoeg gekozen, is de kans dat een instantie uit de dataset gekozen wordt ca [1]. Het gevolg hiervan is dat naar verwachting een classifier gebouwd wordt die gebaseerd is op een willekeurige reeks van 63,2% unieke instanties uit de dataset. Deze methode zullen we niet toetsen, maar is een interessant alternatief op boosting, gezien deze zich minder focust op afwijkende waardes en dus minder gevoelig is voor ruis. 3. Conclusies 3.1 Conclusie Naive Bayes Naive Bayes is een buitengewoon snel algoritme die eenvoudig te implementeren is. Dit is al een flink voordeel, en bovendien is de classificatie vaak vrij redelijk. Bij de iris dataset leverde dit algoritme een verrassend goed resultaat op. De reden hiervoor is dat iris uitsluitend uit sterk samenhangende, numerieke attributen bestaat; daar waar Naive Bayes juist goed op presteert. Als we de data visualiseren in Weka, blijkt er hier en daar wat ruis zichtbaar. Uit de analyse van Naive Bayes weten we dat dit weinig invloed maakt op de classificatie. Op de vote en autos dataset doet Naive Bayes het significant slechter, dit komt doordat deze datasets noch sterk samenhangend noch sterk onsamenhangende attributen bevat. 3.2 Conclusies C4.5 en Adaboost met C4.5 C4.5 is zwakker als er een overwicht is aan continue (numerieke) waarden ten opzichte van de discrete (nominale) waarden [4]. Dit is het geval in de dataset autos. Waar C4.5 een (optimale) score van haalt kan Adaboost dit nog boosten tot Dit is een redelijke score, maar ten opzichte van de andere

9 datasets doen C4.5 en Adaboost met C4.5 het slecht op de autos dataset. Als we C4.5 of Adaboost met C4.5 uitvoeren op deze dataset, steekt het wél met kop en schouders uit boven de andere algoritmen. De reden hiervoor is dat C4.5 een sterk basis algoritme is; hij kan goed om gaan met noise (in tegenstelling tot Adaboost met Decision Stumps) en bouwt een betrouwbare classificatie zoals wij in practicum 1 waargenomen hebben. Aan de andere kant, presteert C4.5 bij iris niet bepaald goed. Onze analyse van deze dataset is dat deze zowel ruis als numerieke waarden bevat. Ruis is geen probleem voor dit algoritme, maar numerieke waarden wel. Wij bekeken nogmaals de werking van C4.5 en zagen dat hij tijdens de split er vanuit kan gaan dat numerieke waarden normaal verdeeld zijn. Dit is echter vaak niet het geval, waardoor hij een relatief slechtere classificatie zal geven. Of Weka daadwerkelijk deze assumptie maakt, wordt niet helemaal duidelijk uit zijn documentatie. 3.3 Conclusie Ripper Uit de dataset iris blijkt dat Ripper slecht presteert met numerieke waarden. Dit heeft kennelijk iets te maken met de manier waarop dit algoritme attributen van dit type probeert te splitten. We weten dat Ripper en C4.5 dezelfde methode gebruiken voor de initiële split, en vermoeden dat hetzelfde probleem optreedt als eerder genoemd bij de conclusie van C4.5: Weka gaat uit van een normaal verdeelde dataset bij numerieke attributen. Uit de prestatie van deze algoritmes vergeleken met de anderen, kunnen we concluderen dat er bij iris echter geen sprake is van normaal verdeelde numerieke attributen. 3.4 Conclusie Support Vector Machine Het idee achter SVM is dat data in R n te classificeren is door middel van een hyperplane. Soms is het niet mogelijk om volgens dit eenvoudige principe data te scheiden. Bij iris is er een lineair verband zichtbaar tussen de meeste attributen. SVM slaagt erin om deze lineaire hyperplane zo te trekken dat het beste resultaat behaald wordt.

10 Bij vote en autos is er iets anders aan de hand. Hoewel we dit niet kunnen zien, vermoeden wij dat er kennelijk geen goed classificeerbaar lineair verband, polynomiaal verband of verband volgens een RBF-kernel mogelijk is. 3.5 Conclusie Adaboost met Decision Stumps Adaboosting met Decision Stumps als basis algoritme doet het op autos zo slecht omdat er veel noise aawezig is. Het is opmerkelijk om te zien dat AdaBoost met decision stumps in de iris klasse het beter doet dan Adaboost met C4.5 omdat we er van uit gaan dat dit een beter basisalgoritme is. Toch doet Decision stumps het hier beter, waarschijnlijk door het al eerder genoemde probleem dat C4.5 slecht om kan gaan met een overwicht aan numerieke waarden. In iris is de ratio numeriek ten opzichte van nominaal 4:0 (zie tabel Tabel 1). 3.6 Conclusies Algemeen Zoals in de tabel te zien is zijn voor veel classes gecombineerd met de verschillende algoritmen de standaard instellingen het beste. Dit komt omdat dit al redelijk optimale instellingen zijn. Het is wel mogelijk om wat class afhankelijke aanpassingen te maken, maar dit geeft toch maar minimale, zeker geen significante, verschillen. Het overall slechte presteren van de algoritmes op autos is waarschijnlijk te danken aan het feit dat deze zeven classes heeft (immers -3 t/m +3). De data is dan veel lastiger te classificeren. Op de iris dataset presteert SVM het allerbeste (zie Appendix, Figuur 1) met een classificatie van 96.27%. Echter, met 96.20% is Naive Bayes een goede tweede, en deze is aanzienlijk sneller in zijn berekening. Daar waar SVM 46 seconden aan het rekenen is doet Naive Bayes er slechts 1 seconde over om de dataset te classificeren. Dit in acht genomen, concluderen wij dat bij numerieke datasets zoals iris, Naive Bayes het beste algoritme is. Op de vote dataset presteert C4.5 het allerbeste (zie Appendix, Figuur 2) met de instelling dat er maar een minimum van één item per blad vereist is scoort hij 96.62%. Zoals we in het eerste practicum gezien hebben zorgt dit tevens voor een grotere boom. Adaboost me Decision Stumps, SVM, Ripper en Adaboost me C4.5 volgen snel met respectievelijk 96.39%, 95.86%, 95.75% en 95.72%. Alleen Naive Bayes scoort hier significant slechter. Op de autos dataset presteert Adaboost met C4.5 het allerbeste (zie Appendix, Figuur 3) met 20 in plaats van 10 iteraties en met een confidence

11 factor van 0.5. Adaboost met C4.5 doet het hier iets beter dan C4.5 los (83.52%) en Ripper (82.24%). Deze 3 algoritmen zijn alledrie significant beter dan SVM (76.84%), Naive Bayes (65.17%) en Adaboost met Decision Stumps (44.90%). Al onze resultaten zijn uitgezet in Tabel 2 van de Appendix.

12 4. Appendix Iris Iris Figuur 1 SVM RAW NB -K Adaboost Ds C4.5 Unpruned Adaboost J48 Jrip -F 4 1. SVM Raw Small Vector Machine met standaard instellingen 2. NB K Naive Bayes met Kernel estimator voor numerieke waarden in plaats van nominale distributie 3. Adaboost DS Adaboost met Decision Stumps als weak learning algoritme en standard instellingen 4. C4.5 Unpruned C4.5 met een unpruned boom 5. Adaboost J48 Adaboost met J48 (C4.5 implementatie van Weka) als weak learning algoritme en standaard instellingen 6. Jrip F 4 Ripper met 4 folds en de rest standaard instellingen

13 Vote Vote C4.5 minnumobj 1 Adaboost DS -P 80 -I 40 SVM -C -1.5 Ripper Adaboost J48 -P 80 NB RAW Figuur 2 1. C4.5 minnumobj 1 C4.5 Algoritme met een minimum van 1 object per blad 2. Adaboost DS P 80 I 40 Adaboost met Decisions Stumps als weak learning algoritme met als bodemgrens van het gewicht tijdens het prunen op 80 en 40 iteraties 3. SVM C -1.5 Small Vector Machines met complexiteit parameten Ripper Ripper met standaard instellingen 5. Adaboost J48 P 80 Adaboost met J48 (C4.5 implementatie van Weka) als weak learning algoritme met als bodemgrens van het gewicht tijdens het prunen op NB Raw Naive Bayes met standaard instellingen

14 Autos Autos 0 Adaboost J48 conf 0.5 -I 20 C4.5 minnumobje 1 Jrip -F 3 -N S 1 -P SVM -E 2.0 NB -D Adaboost DS Figuur 3 1. Adaboost J48 conf 0.5 I 20 Adaboost met J48 (C4.5 implementatie van Weka) als weak learning algoritme met confidence factor 0.5 en 20 iteraties 2. C4.5 minnumobje 1 C4.5 Algoritme met een minimum van 1 object per blad 3. Jrip F 3 N 2.0 O 4 S 1 P Ripper met 3 folds, minimum van 2 objecten per blad (standaard), 4 optimaliseer runs, 1 seed voor de random data (standaard) en unpruned 4. SVM E 2.0 Small Vector Machines met als exponent van de polynomiale kernel NB D Naive Bayes met supervized discretization om numerieke attributen nominaal te maken 6. Adaboost DS Adaboost met Decision Stumps als weak learning algoritme en standard instellingen

15 Algoritme Instelling Iris Vote Autos Naive Bayes Standaard Kernel Estimator Supervized Discretization Support Vector Standaard Machine Complexity RBF Kernel met Gamma RBF Kernel met Gamma RBF Kernel met Gamma 0.01 Complexity Exponent voor de Polynomiale Kernel Exponent voor de Polynomiale Kernel Exponent voor de Polynomiale Kernel Exponent voor de Polynomiale Kernel Ripper Standaard Folds Folds Min. 3 inst. per blad Min. 4 inst. per blad optimalisatie ronde optimalisatie ronde optimalisatie ronde, Unpruned C4.5 Standaard Unpruned Confidence factor Confidence factor Confidence factor Minimale # instanties in 1 blad op Adaboost met Decision Stumps Adaboost met C4.5 Tabel 2 Binary split op nominale attributen Standaard Min. gewicht = Min. gewicht = Min. gewicht = 80 en Resampling i.p.v. Reweighting Resampling i.p.v. Reweighting, 5 iteraties Resampling i.p.v. Reweighting, 15 iteraties iteraties iteraties Standaard Unpruned Min. 1 inst. per blad, Min. gewicht 80, 40 iteraties Confidence factor Confidence factor 0.5 en 20 iteraties Confidence factor 0.5 en 40 iteraties Confidence factor 0.5, Resampling i.p.v Reweighting, 20 iteraties Confidence factor 0.5, Resampling i.p.v Reweighting, 40 iteraties Min. 1 inst. per blad Binary split Min. gewicht Min. gewicht iteraties iteraties

16 5. Referenties [1] Bauer, E., & Kohavi, R. (1999). An empirical comparison of voting classification algorithms: Bagging, boosting and variants. Machine Learning. 36 (1999) [2] Frank, E., & Witten, I. H. (1998). Generating accurate rule sets withoug global optimization. Proc 15 th International Conference on Machine Learning [3] John, G. H. & Langley, P. (1995). Estimating Continuous Distributions in Bayesian Classifiers. Stanford University. [4] Quinlan, J. R. (1996). Improved use of Continuous Attributes in C4.5. Journal of Artificial Intelligence Research. 4 (1996) [5] Rish, I., Hellerstein, J., & Thathacher, J. (2001). An analysis of data characteristics that affect naive Bayes performance. IBM TJ. Watson Research. [6] Wayne Ida, Pat Langley (1992). Induction of One-Level Decision Trees. NASA Ames Research Center (1992). [7] Yıldız, T., & Alpaydın, E. (2004). Learning Rules from Data. Boğaziçi University.

Data Mining: Classificatie

Data Mining: Classificatie Data Mining: Classificatie docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Overzicht Wat is classificatie? Leren van een beslissingsboom. Problemen

Nadere informatie

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren. 1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van

Nadere informatie

Invloed van MetaCost op imbalanced classificatie problemen

Invloed van MetaCost op imbalanced classificatie problemen Bachelorscriptie Informatica / Informatiekunde Radboud Universiteit Invloed van MetaCost op imbalanced classificatie problemen Auteur: Lars Kuijpers s4356314 Inhoudelijk begeleider: Prof. dr. Tom Heskes

Nadere informatie

Tentamen Data Mining

Tentamen Data Mining Tentamen Data Mining Algemene Opmerkingen Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. Laat bij het uitvoeren van berekeningen zien hoe je aan een antwoord gekomen bent.

Nadere informatie

Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6

Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6 Tentamen Data Mining Datum: 4januai2l6 Tijd: 4: - 7: Algemene Opmerkingen e Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. o Laat bij het uitvoeren van berekeningen zien hoeje

Nadere informatie

Uitwerking Tentamen Datamining (2II15) 26/06/09

Uitwerking Tentamen Datamining (2II15) 26/06/09 Uitwerking Tentamen Datamining (2II15) 26/06/09 1. (3p) (Clustering) Welke van de volgende uitspraken zijn correct? Voor de correcte uitspraken: leg uit, voor de incorrecte: geef een tegenvoorbeeld. (a)

Nadere informatie

Oplossingen Datamining 2II15 Juni 2008

Oplossingen Datamining 2II15 Juni 2008 Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen:

Nadere informatie

Classification - Prediction

Classification - Prediction Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training

Nadere informatie

Continuous Learning in Computer Vision S.L. Pintea

Continuous Learning in Computer Vision S.L. Pintea Continuous Learning in Computer Vision S.L. Pintea Continuous Learning in Computer Vision Natura non facit saltus. Gottfried Leibniz Silvia-Laura Pintea Intelligent Sensory Information Systems University

Nadere informatie

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Tentamen Kunstmatige Intelligentie (INFOB2KI) Tentamen Kunstmatige Intelligentie (INFOB2KI) 30 januari 2014 10:30-12:30 Vooraf Mobiele telefoons dienen uitgeschakeld te zijn. Het tentamen bestaat uit 7 opgaven; in totaal kunnen er 100 punten behaald

Nadere informatie

Transparanten bij het vak Inleiding Adaptieve Systemen: Introductie Machine Leren. M. Wiering

Transparanten bij het vak Inleiding Adaptieve Systemen: Introductie Machine Leren. M. Wiering Transparanten bij het vak Inleiding Adaptieve Systemen: Introductie Machine Leren. M. Wiering Lerende Machines Verbeter in taak T, Voorbeeld: je ziet de karakteristieken (Features) van een aantal dieren

Nadere informatie

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Tentamen Kunstmatige Intelligentie (INFOB2KI) Tentamen Kunstmatige Intelligentie (INFOB2KI) 12 december 2014 8:30-10:30 Vooraf Mobiele telefoons en dergelijke dienen uitgeschakeld te zijn. Het eerste deel van het tentamen bestaat uit 8 multiple-choice

Nadere informatie

Twaalfde college complexiteit. 11 mei 2012. Overzicht, MST

Twaalfde college complexiteit. 11 mei 2012. Overzicht, MST College 12 Twaalfde college complexiteit 11 mei 2012 Overzicht, MST 1 Agenda voor vandaag Minimum Opspannende Boom (minimum spanning tree) als voorbeeld van greedy algoritmen Overzicht: wat voor technieken

Nadere informatie

Afstudeerproject Bachelor AI. Nicolaas Heyning en Wouter Suren

Afstudeerproject Bachelor AI. Nicolaas Heyning en Wouter Suren Afstudeerproject Bachelor AI Door : Nicolaas Heyning en Wouter Suren Project begeleider: Maarten van Someren Nicolaas Heyning 1 e Van der Helststraat 57-II 1073 AD, Amsterdam nheyning@gmail.com Wouter

Nadere informatie

Samenvatting De belangrijkste onderzoeksvraag waarop het werk in dit proefschrift een antwoord probeert te vinden, is welke typen taalkundige informatie het nuttigst zijn voor de lexicale desambiguatie

Nadere informatie

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan

Nadere informatie

De statespace van Small World Networks

De statespace van Small World Networks De statespace van Small World Networks Emiel Suilen, Daan van den Berg, Frank van Harmelen epsuilen@few.vu.nl, daanvandenberg1976@gmail.com, Frank.van.Harmelen@cs.vu.nl VRIJE UNIVERSITEIT AMSTERDAM 2 juli

Nadere informatie

Combinatorische Algoritmen: Binary Decision Diagrams, Deel III

Combinatorische Algoritmen: Binary Decision Diagrams, Deel III Combinatorische Algoritmen: Binary Decision Diagrams, Deel III Sjoerd van Egmond LIACS, Leiden University, The Netherlands svegmond@liacs.nl 2 juni 2010 Samenvatting Deze notitie beschrijft een nederlandse

Nadere informatie

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle  holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/29764 holds various files of this Leiden University dissertation. Author: Takes, Frank Willem Title: Algorithms for analyzing and mining real-world graphs

Nadere informatie

Halma Bot: Monte Carlo versus Alpha-Beta

Halma Bot: Monte Carlo versus Alpha-Beta : Monte Carlo versus Alpha-Beta Inleiding Marijn Biekart-11032278, Artemis Çapari-11336390, Jesper van Duuren-10780793, Jochem Hölscher-11007729 en Reitze Jansen-11045442 Zoeken, Sturen en Bewegen 30 juni

Nadere informatie

Summary in Dutch 179

Summary in Dutch 179 Samenvatting Een belangrijke reden voor het uitvoeren van marktonderzoek is het proberen te achterhalen wat de wensen en ideeën van consumenten zijn met betrekking tot een produkt. De conjuncte analyse

Nadere informatie

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R 14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten

Nadere informatie

Voorspellen van webwinkel aankopen met een Random Forest

Voorspellen van webwinkel aankopen met een Random Forest Voorspellen van webwinkel aankopen met een Random Forest Dorenda Slof Erasmus Universiteit Rotterdam Econometrie en Operationele Research 30 juni 2014 Samenvatting In dit empirische onderzoek voorspellen

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

DATA MINING (TI2730-C)

DATA MINING (TI2730-C) Technische Universiteit Delft Elektrotechniek, Wiskunde en Informatica Secties: Pattern Recognition & Bioinformatics & Multimedia Signal Processing DATA MINING (TI2730-C) Schriftelijk (her)tentomen. Dinsdag

Nadere informatie

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Neurale Netwerken en Deep Learning. Tijmen Blankevoort

Neurale Netwerken en Deep Learning. Tijmen Blankevoort Neurale Netwerken en Deep Learning Tijmen Blankevoort De toekomst - Internet of Things De toekomst - sluiertipje Je gezondheid wordt continue gemonitored Je dieet wordt voor je afgestemd -> Stroomversnelling

Nadere informatie

We zullen in deze les kijken hoe we netwerken kunnen analyseren, om bijvoorbeeld de volgende vragen te kunnen beantwoorden:

We zullen in deze les kijken hoe we netwerken kunnen analyseren, om bijvoorbeeld de volgende vragen te kunnen beantwoorden: Wiskunde voor kunstmatige intelligentie, 24 Les 5 Proces analyse Veel processen laten zich door netwerken beschrijven, waarin een aantal knopen acties aangeeft en opdrachten langs verbindingen tussen de

Nadere informatie

User Profile Repository Testrapportage kwaliteit

User Profile Repository Testrapportage kwaliteit CatchPlus User Profile Repository Testrapportage kwaliteit Versie 1.1 User Profile Repository Testrapportage kwaliteit Versie: 1.1 Publicatiedatum: 20-4-2012 Vertrouwelijk GridLine B.V., 2012 Pagina 1

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms

Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms Giso Dal (0752975) Pagina s 5 7 1 Deelverzameling Representatie

Nadere informatie

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

INZET VAN MACHINE LEARNING

INZET VAN MACHINE LEARNING INZET VAN MACHINE LEARNING VOORSTELLEN INHOUD Context wat is de staat van de verzekeringsindustrie? Machine Learning - wat is het eigenlijk en is het nieuw? Toepassingen waar wordt ML met succes toegepast?

Nadere informatie

Samenvatting (in Dutch)

Samenvatting (in Dutch) Samenvatting (in Dutch) Geordende latente klassen modellen voor nonparametrische itemresponstheorie Een geordend latente klassen model kan als een nonparametrisch itemresponstheorie model beschouwd worden.

Nadere informatie

Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus

Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus Dat economie in essentie geen experimentele wetenschap is maakt de econometrie tot een onmisbaar

Nadere informatie

en-splitsingen: een aantal alternatieven worden parallel toegepast, of-splitsingen: van een aantal alternatieven wordt er één toegepast,

en-splitsingen: een aantal alternatieven worden parallel toegepast, of-splitsingen: van een aantal alternatieven wordt er één toegepast, Kansrekening voor Informatiekunde, 25 Les 8 Proces analyse Veel processen laten zich door netwerken beschrijven, waarin knopen acties aangeven en opdrachten langs verbindingen tussen de knopen verwerkt

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Hoofdstuk 8: Algoritmen en Complexiteit

Hoofdstuk 8: Algoritmen en Complexiteit Hoofdstuk 8: Algoritmen en Complexiteit Vandaag: Hoe meten we de performance van algoritmen? Waar ligt de grens tussen een goed en een slecht algoritme? 22 oktober 2014 1 Vandaag: Hoe meten we de performance

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De

Nadere informatie

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen. Herkansing Inleiding Intelligente Data Analyse Datum: 3-3-2003 Tijd: 14.00-17.00, BBL 508 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

Proeftuinplan: Meten is weten!

Proeftuinplan: Meten is weten! Proeftuinplan: Meten is weten! Toetsen: hoog, laag, vooraf, achteraf? Werkt het nu wel? Middels een wetenschappelijk onderzoek willen we onderzoeken wat de effecten zijn van het verhogen cq. verlagen van

Nadere informatie

n-queens minimale dominantie verzamelingen Chessboard Domination on Programmable Graphics Hardware door Nathan Cournik

n-queens minimale dominantie verzamelingen Chessboard Domination on Programmable Graphics Hardware door Nathan Cournik n-queens minimale dominantie verzamelingen Chessboard Domination on Programmable Graphics Hardware door Nathan Cournik Rick van der Zwet 4 augustus 2010 Samenvatting Dit schrijven zal

Nadere informatie

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen M, M & C 7.3 Optional Topics in Comparing Distributions: F-toets 6.4 Power & Inference as a Decision 7.1 The power of the t-test 7.3 The power of the sample t- Toetsende Statistiek Week 5. De F-toets &

Nadere informatie

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten Stochastiek 2 Inleiding in the Mathematische Statistiek staff.fnwi.uva.nl/j.h.vanzanten 1 / 12 H.1 Introductie 2 / 12 Wat is statistiek? - 2 Statistiek is de kunst van het (wiskundig) modelleren van situaties

Nadere informatie

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Oefentoets 1 1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Conditie = experimenteel Conditie = controle Sekse = Vrouw 23 33 Sekse = Man 20 36 Van

Nadere informatie

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16 modulus strepen: uitkomst > 0 Hiermee rekenen we de testwaarde van t uit: n 10 ttest ( x ) 105 101 3,16 n-1 4 t test > t kritisch want 3,16 >,6, dus 105 valt buiten het BI. De cola bevat niet significant

Nadere informatie

EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot

EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot EWMA Control Charts in Statistical Process Monitoring Inez M. Zwetsloot Samenvatting EWMA Regelkaarten in Statistische Procesmonitoring

Nadere informatie

AI en Software Testing op de lange termijn

AI en Software Testing op de lange termijn AI en Software Testing op de lange termijn Is het een appel? Traditioneel programmeren AI Kleur = rood, groen, geel Vorm = rond Textuur = glad Artificial Intelligence Machine Learning Methods Technologies

Nadere informatie

Uitwerking tentamen Analyse van Algoritmen, 29 januari

Uitwerking tentamen Analyse van Algoritmen, 29 januari Uitwerking tentamen Analyse van Algoritmen, 29 januari 2007. (a) De buitenste for-lus kent N = 5 iteraties. Na iedere iteratie ziet de rij getallen er als volgt uit: i rij na i e iteratie 2 5 4 6 2 2 4

Nadere informatie

Samenvatting Nederlands

Samenvatting Nederlands Samenvatting Nederlands 178 Samenvatting Mis het niet! Incomplete data kan waardevolle informatie bevatten In epidemiologisch onderzoek wordt veel gebruik gemaakt van vragenlijsten om data te verzamelen.

Nadere informatie

9. Strategieën en oplossingsmethoden

9. Strategieën en oplossingsmethoden 9. Strategieën en oplossingsmethoden In dit hoofdstuk wordt nog even terug gekeken naar alle voorgaande hoofdstukken. We herhalen globaal de structuren en geven enkele richtlijnen voor het ontwerpen van

Nadere informatie

Cover Page. The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation.

Cover Page. The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation. Author: Witsenburg, Tijn Title: Hybrid similarities : a method to insert relational information

Nadere informatie

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle   holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/39638 holds various files of this Leiden University dissertation. Author: Pelt D.M. Title: Filter-based reconstruction methods for tomography Issue Date:

Nadere informatie

Inl. Adaptieve Systemen

Inl. Adaptieve Systemen Inl. Adaptieve Systemen Gerard Vreeswijk Leerstoelgroep Intelligente Systemen, Departement Informatica en Informatiekunde, Faculteit Bètawetenschappen, Universiteit Utrecht. Gerard Vreeswijk. Laatst gewijzigd

Nadere informatie

Het classificeren van hoortoestel modaliteiten m.b.v. een Big Data benadering: Latent Class Trees analyse

Het classificeren van hoortoestel modaliteiten m.b.v. een Big Data benadering: Latent Class Trees analyse Het classificeren van hoortoestel modaliteiten m.b.v. een Big Data benadering: Latent Class Trees analyse Simon Lansbergen & Wouter Dreschler Motivatie // Introductie 1. Veel verschillende hoortoestellen,

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

twee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben.

twee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben. Samenvatting Deze thesis handelt over privacy preserving data mining. Data mining is een tak van de wetenschap waarin men grote hoeveelheden data onderzoekt met de bedoeling er bepaalde patronen in te

Nadere informatie

BSc Kunstmatige Intelligentie. : Bachelor Kunstmatige Intelligentie Studiejaar, Semester, Periode : semester 1, periode 2

BSc Kunstmatige Intelligentie. : Bachelor Kunstmatige Intelligentie Studiejaar, Semester, Periode : semester 1, periode 2 Studiewijzer BACHELOR KUNSTMATIGE INTELLIGENTIE Vak : Opleiding : Bachelor Kunstmatige Intelligentie Studiejaar, Semester, Periode : 2015-2016 semester 1, periode 2 Coördinator(en) : dr. Maarten van Someren

Nadere informatie

Modeluitwerking Tentamen Computationele Intelligentie Universiteit Leiden Informatica Vrijdag 11 Januari 2013

Modeluitwerking Tentamen Computationele Intelligentie Universiteit Leiden Informatica Vrijdag 11 Januari 2013 Modeluitwerking Tentamen Computationele Intelligentie Universiteit Leiden Informatica Vrijdag Januari 20 Opgave. Python Gegeven is de volgende (slechte) Python code:. def t(x): 2. def p(y):. return x*y

Nadere informatie

Plan van Aanpak. project Tetris Packing

Plan van Aanpak. project Tetris Packing Plan van Aanpak project Tetris Packing Inleiding! 4 Projectomschrijving! 5 Producten! 5 Testplan! 5 Ontwerprapport! 5 Implementatierapport! 5 Testrapport! 5 Systeemdocumentatie! 5 Aanpak! 6 Projectmethodiek!

Nadere informatie

Data Mining: Classificatie

Data Mining: Classificatie Data Mining: lassificatie docent: dr. Toon alders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Vorige les lassificatie: Het groeperen van objecten in voorgedefinieerde

Nadere informatie

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Meervoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Data mining Van boodschappenmandjes tot bio-informatica

Data mining Van boodschappenmandjes tot bio-informatica Data mining Van boodschappenmandjes tot bio-informatica Walter Kosters Informatica, Universiteit Leiden donderdag 6 april 2006 http://www.liacs.nl/home/kosters/ 1 Wat is Data mining? Data mining probeert

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

Living Labs : NFI & RvdK Samen onderweg naar meer grip op data. JenV I-tour presentatie 24 april 2018

Living Labs : NFI & RvdK Samen onderweg naar meer grip op data. JenV I-tour presentatie 24 april 2018 Living Labs : NFI & RvdK Samen onderweg naar meer grip op data JenV I-tour presentatie 24 april 2018 1 Agenda Deel I - door Jannie RvdK Intermezzo filmpje I-plan JenV Deel II door Femke en Xandra NFI KInD

Nadere informatie

Kenmerk ontheffing in de Bijstands Uitkeringen Statistiek 2009 Versie 2

Kenmerk ontheffing in de Bijstands Uitkeringen Statistiek 2009 Versie 2 Centraal Bureau voor de Statistiek Divisie sociale en regionale statistieken (SRS) Sector statistische analyse voorburg (SAV) Postbus 24500 2490 HA Den Haag Kenmerk ontheffing in de Bijstands Uitkeringen

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

Hoofdstuk 5: Steekproevendistributies

Hoofdstuk 5: Steekproevendistributies Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel

Nadere informatie

Project Paper: Tiling problem

Project Paper: Tiling problem Project Paper: Tiling problem Groep 11: Said Hattachi, Ismael el Hadad Hakim, Muttalip Küçük Januari 015 Abstract Dit artikel beschrijft een heuristiek waarmee een veld op een systematische wijze gevuld

Nadere informatie

College 6 Eenweg Variantie-Analyse

College 6 Eenweg Variantie-Analyse College 6 Eenweg Variantie-Analyse - Leary: Hoofdstuk 11, 1 (t/m p. 55) - MM&C: Hoofdstuk 1 (t/m p. 617), p. 63 t/m p. 66 - Aanvullende tekst 6, 7 en 8 Jolien Pas ECO 01-013 Het Experiment: een voorbeeld

Nadere informatie

Hoofdvraag. Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ?

Hoofdvraag. Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ? Hoofdvraag Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ? Data visualisatie (Grafieken, dashboards); Kwantitatieve analyse (cijfers, statistiek); Software Inzichten

Nadere informatie

Inhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen

Inhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen Tom Heskes IRIS, NIII Inhoud De bouwstenen van het zenuwstelsel: neuronen en synapsen Complex gedrag uit eenvoudige elementen McCulloch-Pitts neuronen Hopfield netwerken Computational neuroscience Lerende

Nadere informatie

Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016

Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016 Artificial Intelligence in uw dagelijkse praktijk Hilversum, 22 September 2016 Agenda 09:30 Welkom en introductie 09:35 Artificial Intelligence, al meer dan 50 jaar een actief onderzoeksgebied Jaap van

Nadere informatie

Toets deel 2 Data-analyse en retrieval Vrijdag 30 Juni 2017:

Toets deel 2 Data-analyse en retrieval Vrijdag 30 Juni 2017: Toets deel 2 Data-analyse en retrieval Vrijdag 30 Juni 2017: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan

Nadere informatie

Bijlage 2: 3.2 onderzoek

Bijlage 2: 3.2 onderzoek Bijlage : 3. onderzoek Ik heb een onderzoek gedaan naar de fitheid van de kinderen van groep 7 en 8 van de Sint Lambertus school in Asten. Ik heb eerst een enquête afgenomen, en heb daarna testjes afgenomen

Nadere informatie

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:

Nadere informatie

In de door ons gebruikte demo verloopt het herkennen van beelden in feite in 2 fasen:

In de door ons gebruikte demo verloopt het herkennen van beelden in feite in 2 fasen: Practicum: deel 1 Hond zoekt Bal In het practicum Hond zoekt Bal laten we je kennis maken met de werking van supercomputers. We gebruiken daarvoor een applicatie waarmee met een webcam objecten herkend

Nadere informatie

Masterscriptie Business Analytics. Op tijd vertrekken. Verklaringen voor ADC dispunctualiteit op ICA vluchten. Nivard van Wijk

Masterscriptie Business Analytics. Op tijd vertrekken. Verklaringen voor ADC dispunctualiteit op ICA vluchten. Nivard van Wijk Masterscriptie Business Analytics Op tijd vertrekken Verklaringen voor ADC dispunctualiteit op ICA vluchten Nivard van Wijk Begeleiders: dr. Evert Haasdijk drs. Simone van Neerven dr. Fetsje Moné Bijma

Nadere informatie

TW2020 Optimalisering

TW2020 Optimalisering TW2020 Optimalisering Hoorcollege 8 Leo van Iersel Technische Universiteit Delft 2 november 2016 Leo van Iersel (TUD) TW2020 Optimalisering 2 november 2016 1 / 28 Minimum Opspannende Boom (Minimum Spanning

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

2WO12: Optimalisering in Netwerken

2WO12: Optimalisering in Netwerken 2WO12: Optimalisering in Netwerken Leo van Iersel Technische Universiteit Eindhoven (TU/E) en Centrum Wiskunde & Informatica (CWI) 27 februari 2014 http://homepages.cwi.nl/~iersel/2wo12/ l.j.j.v.iersel@gmail.com

Nadere informatie

Percentage afwijkingen groter dan vijf decibel

Percentage afwijkingen groter dan vijf decibel Om beter op zoek te kunnen gaan waar er verbeteringen kunnen toegevoegd worden aan de algoritmes heb ik een hulpfunctie gemaakt die in plaats van het interpoleren tussen fingerprints slechts de positie

Nadere informatie

From Alife Agents to a Kingdom of Queens

From Alife Agents to a Kingdom of Queens From Alife Agents to a Kingdom of Queens Bob Wansink 27 Mei 2010 Deze notitie is een vrije vertaling en uitleg van het gelijknamige artikel in Intelligent Agent Technology: Systems, Methodologies, and

Nadere informatie

1 Complexiteit. of benadering en snel

1 Complexiteit. of benadering en snel 1 Complexiteit Het college van vandaag gaat over complexiteit van algoritmes. In het boek hoort hier hoofdstuk 8.1-8.5 bij. Bij complexiteitstheorie is de belangrijkste kernvraag: Hoe goed is een algoritme?

Nadere informatie

Opdracht 1 Topics on Parsing and Formal Languages - fall 2010

Opdracht 1 Topics on Parsing and Formal Languages - fall 2010 Opdracht 1 Topics on Parsing and Formal Languages - fall 2010 Rick van der Zwet 13 november 2010 Samenvatting Dit schrijven zal uitwerkingen van opgaven behandelen uit het boek [JS2009]

Nadere informatie

Inhoud. Data. Analyse van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox

Inhoud. Data. Analyse van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox Bram Ramaekers Bianca de Greef KEMTA Masterclass Inhoud Data Kaplan-Meier curve Hazard rate Log-rank test Hazard ratio Cox regressie

Nadere informatie

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Moore, McCabe & Craig: 3.3 Toward Statistical Inference From Probability to Inference 5.1 Sampling Distributions for

Nadere informatie

Inleiding statistiek

Inleiding statistiek Inleiding Statistiek Pagina 1 uit 8 Inleiding statistiek 1. Inleiding In deze oefeningensessie is het de bedoeling jullie vertrouwd te maken met een aantal basisbegrippen van de statistiek, meer bepaald

Nadere informatie

Kunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016

Kunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016 AI Kunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016 www.liacs.leidenuniv.nl/ kosterswa/ai/ 1 Hersenen De menselijke

Nadere informatie

Figuur 1. Schematisch overzicht van de structuur van het twee-stadia recourse model.

Figuur 1. Schematisch overzicht van de structuur van het twee-stadia recourse model. Samenvatting In dit proefschrift worden planningsproblemen op het gebied van routering en roostering bestudeerd met behulp van wiskundige modellen en (numerieke) optimalisatie. Kenmerkend voor de bestudeerde

Nadere informatie

Cerium CMS versie 4.0. Wat is nieuw in versie 4.0. www.cerium.nl

Cerium CMS versie 4.0. Wat is nieuw in versie 4.0. www.cerium.nl Cerium CMS versie 4.0 Wat is nieuw in versie 4.0 www.cerium.nl Bijgewerkt februari 2014 Cerium BV 2014 Inhoudsopgave 1. Inleiding 3 2. Nieuwe onderhouds URL 4 3. Drag and drop upload 5 4. Spring naar item

Nadere informatie

Cover Page. Author: Zhiwei Yang Title: Meta-heuristics for vehicle routing and inventory routing problems Issue Date:

Cover Page. Author: Zhiwei Yang Title: Meta-heuristics for vehicle routing and inventory routing problems Issue Date: Cover Page The handle http://hdl.handle.net/1887/43073 holds various files of this Leiden University dissertation Author: Zhiwei Yang Title: Meta-heuristics for vehicle routing and inventory routing problems

Nadere informatie

TW2020 Optimalisering

TW2020 Optimalisering TW2020 Optimalisering Hoorcollege 7 Leo van Iersel Technische Universiteit Delft 26 oktober 2016 Leo van Iersel (TUD) TW2020 Optimalisering 26 oktober 2016 1 / 28 Deze week: analyseren van algoritmes Hoe

Nadere informatie

11. Meerdere gemiddelden vergelijken, ANOVA

11. Meerdere gemiddelden vergelijken, ANOVA 11. Meerdere gemiddelden vergelijken, ANOVA Analyse van variantie (ANOVA) wordt gebruikt wanneer er situaties zijn waarbij er meer dan twee condities vergeleken worden. In dit hoofdstuk wordt de onafhankelijke

Nadere informatie

8. Complexiteit van algoritmen:

8. Complexiteit van algoritmen: 8. Complexiteit van algoritmen: Voorbeeld: Een gevaarlijk spel 1 Spelboom voor het wespenspel 2 8.1 Complexiteit 4 8.2 NP-problemen 6 8.3 De oplossing 7 8.4 Een vuistregel 8 In dit hoofdstuk wordt het

Nadere informatie

2WO12: Optimalisering in Netwerken

2WO12: Optimalisering in Netwerken 2WO12: Optimalisering in Netwerken Leo van Iersel Technische Universiteit Eindhoven (TUE) en Centrum Wiskunde & Informatica (CWI) 3 en 6 februari 2014 Leo van Iersel (TUE/CWI) 2WO12: Optimalisering in

Nadere informatie

werkcollege 6 - D&P10: Hypothesis testing using a single sample

werkcollege 6 - D&P10: Hypothesis testing using a single sample cursus huiswerk opgaven Ch.9: 1, 8, 11, 12, 20, 26, 36, 37, 71 werkcollege 6 - D&P10: Hypothesis testing using a single sample Activities 9.3 en 9.4 van schatting naar toetsing vorige bijeenkomst: populatie-kenmerk

Nadere informatie

Datastructuren Uitwerking jan

Datastructuren Uitwerking jan Datastructuren Uitwerking jan 2015 1 1a. Een abstracte datastructuur is een beschrijving van een datastructuur, met de specificatie van wat er opgeslagen wordt (de data en hun structuur) en welke operaties

Nadere informatie