Data Mining: Opdracht 2

Maat: px
Weergave met pagina beginnen:

Download "Data Mining: Opdracht 2"

Transcriptie

1 Data Mining: Opdracht 2 7 juli 2006 Egbert Kroese (# ) Paul Lammertsma (# )

2 Inhoudsopgave 1. De datasets Iris Vote Autos De algoritmen Naive Bayes C Ripper Support Vector Machine Boosting Adaboost met C Adaboost met Decision Stumps Intermezzo: Bagging Conclusies Conclusie Naive Bayes Conclusies C4.5 en Adaboost met C Conclusie Ripper Conclusie Support Vector Machine Conclusie Adaboost met Decision Stumps Conclusies Algemeen Appendix Referenties...16

3 1. De datasets De drie opgegeven datasets, iris, vote en autos, hebben zowel met betrekking tot hun instanties als hun attributen opvallende verschillen. Een analyse is gedaan naar de drie meegeleverde datasets en is uitgezet in Tabel 1. Bij deze analyse gaat voornamelijk om het aantal klasses, de attribuuttypes en het aantal attributen met ontbrekende waardes. De verschillende algoritmes waar straks naar gekeken zal worden gaan immers anders om met deze eigenschappen, en kunnen daarom de classificatie beïnvloeden. Naam Instanties Classes Attribuuttypes # attributen met Num. Nom. Int. missende waardes Iris Vote Autos Tabel Iris De dataset iris heeft twee karakteristieke eigenschappen. Ten eerste valt het op dat deze dataset uitsluitend numerieke waarden bevat. Gezien het feit dat verschillende algoritmen anders omgaan met numerieke of nominale waarden, zal deze eigenschap ongetwijfeld invloed hebben op de classificatie en uiteindelijk het meest geschikte algoritme. Ten tweede maakt deze dataset het de meeste algoritmen wat makkelijker omdat er geen attributen zijn met ontbrekende waarden. Wij hoeven dus hier geen rekening mee te houden. 1.2 Vote Ook deze dataset is kenmerkend doordat alle attributen van dezelfde soort zijn. Het gaat deze keer niet om numerieke waarden, maar juist allemaal om nominale. Willen wij het beste algoritme vinden, zullen we een algoritme moeten zoeken dat hierop toegespitst is. Ook interessant is dat vote geheel binair is: alle attributen en met name de uitkomst kunnen precies twee waarden aannemen.

4 1.3 Autos Tijdens het eerste practicum hebben we deze dataset onderzocht, en ontdekt dat deze zowel numeriek, nominaal als integerwaarden bevat. De attributen zijn afwisselend sterk samenhangend of geheel onsamenhangend, en er lijkt veel sprake van noise te zijn. Mogelijk zullen sommige algoritmes moeite hebben met classificatie doordat instanties uiteindelijk zeven verschillende waarden aan kunnen nemen, en dat er in sommige gevallen attribuutwaarden ontbreken. 2. De algoritmen Wij hebben circa vijftig experimenten uitgevoerd op de datasets met vijf verschillende algoritmes: Naive Bayes, C4.5, Ripper en Adaboost met C4.5 en Decision Stumps. Voordat we onze conclusies presenteren, willen we een korte analyse doen van de werking van deze algoritmes. 2.1 Naive Bayes Naive Bayes classificeert een willekeurige instantie met attributen x volgens Vergelijking 1. p( C = c) n i= 1 p( X i = x i C = c) Vergelijking 1 C is de getoetste klasse en X zijn de gegeven attributen van een bepaalde instantie. c een van de mogelijke uitkomsten is en x de attributen die bij deze uitkomst horen. [3] Deze berekening wordt uitgevoerd voor alle mogelijke klassen; van deze uitkomsten kiest Naive Bayes het beste resultaat. Kort gezegd berekent het algoritme dus de uitkomst door het beste resultaat te kiezen uit een vermenigvuldiging van het aantal voorkomens van elke uitkomst en zijn onderlinge aantal keer dat ieder attribuut voorkomt. Terwijl deze methode bijna té simpel lijkt, levert het vaak een verrassend goede oplossing. Door zijn eenvoud, is Naive Bayes weerbaar tegen geïsoleerde ruispunten omdat uitspringers statistisch wegvallen. Naive Bayes werkt alleen het beste in twee extreme gevallen [5]:

5 Datasets die uitsluitend geheel onafhankelijke features hebben, of Datasets die uitsluitend functioneel afhankelijke features hebben. Gevallen die tussen deze extremen liggen verslechtert de prestatie van het algoritme. Kortom, bij datasets die attributen bevatten die afwisselend samenhangend of onafhankelijk zijn, levert een classificatie door Naive Bayes geen goed resultaat op. 2.2 C4.5 C4.5 is de opvolger van J. Ross Quinlan s ID3 decision tree algoritme. Het algoritme begint met een set van instanties en maakt aan de hand daarvan een boomstructuur waarin nieuwe instanties kunnen worden geclassificeerd. Elke interne knoop van de boom bevat een test waarvan het resultaat bepaalt welke tak te volgen vanuit die knoop (de zogenaamde divide-and-conquer algoritme ). De bladeren bevatten class labels in plaats van testen. Wanner tijdens het classificeren een instantie een blad bereikt zal C4.5 die instantie classificeren met de class van dat blad. Onder de verschillende algoritmen is C4.5 een van de beste doordat deze zorgt voor kleine accurate bomen, resulterend in snelle betrouwbare classifiers. Tijdens het testen kiest C4.5 de test welke het maximum aan informatie uit de instanties haalt, gegeven de voorwaarde dat maar één attribuut getest wordt. Een (grote) boom die 100% van de instanties goed classificeert hoeft niet per se beter te zijn dan een kleine boom waarin niet alle instanties passen. Daarom maakt C4.5 gebruik van pruning; het laten groeien van een grote boom om er vervolgens stukjes weer van te verwijderen. C4.5 s pruning methode is gebaseerd op het schatten van de error-rate van elke sub-boom en deze te vervangen met een blad als de geschatte fout lager is. Schat de error-rate van elke knoop in de boom, beginnend onderaan de boom. Als de schatting aangeeft dat de boom accurater zal zijn als de kinderen van knoop n verwijderd worden (en dat n een blad wordt) dan zal C4.5 n s kinderen verwijderen. Als de schatting perfect is zal dit altijd tot een betere boom leiden. In praktijk (bij niet perfecte tot zelfs grove schattingen) leidt dit toch tot een beter resultaat. 2.3 Ripper Repeated Incremental Pruning to Produce Error Reduction (RIPPER) bouwt de regelset één regel per ronde. Aan elke regel wordt door divide and conquer propositionele condities toegevoegd, net zoals bij C4.5. Ook voert Ripper hierna pruning uit om overfitting te verminderen.

6 Er geldt zowel bij C4.5 als Ripper dat de splitsing bij numerieke attributen anders werkt. Gezien het algoritme een splitsing over n takken moet maken, moet hij weten hoe de data gespreid ligt. In principe zou het algoritme alle instanties moeten doorwerken om dit te ontdekken, maar dit zou te lang duren; het zou immers O(n 2 ) tijd kosten om enkel de spreiding van alle numerieke attributen te bepalen! Een eenvoudige oplossing is dat deze algoritmes uitgaan van een normale verdeling. Vaak leidt dit tot een redelijk resultaat, maar het is onbetrouwbaar. Ripper en C4.5 zijn daarom vaak niet goed te gebruiken bij datasets met veel numerieke attribuuttypes. [7] De tweede stap van het algoritme is waar Ripper van C4.5 verschilt. Daar waar C4.5 regels verwijdert, past Ripper ze aan in het belang van optimalisatie [2]. Er wordt per regel twee alternatieve candidaten gemaakt: de zogenaamde vervangingsregel, die vanuit een lege regel groeit, en revisieregel, die vanuit de huidige regel groeit. Samen met het orgineel wordt de regel met de kortste omschrijving gekozen en vervangt deze de oorspronkelijke regel. 2.4 Support Vector Machine Het Support Vector Machine-algoritme (SVM) berust op het principe van het classificeren van data in een R n ruimte door een hyperplane, en de margin tussen deze hyperplane en de punten te maximaliseren. Het kan echter soms moeilijk zijn om deze hyperplane te bepalen. SVM maakt gebruik van kwadratisch programmeren (QP) om per dimensie de margin te vergroten. Dit is een ingewikkelde berekening die vaak veel tijd kost, waardoor het bekend staat als een traag algoritme. Tevens is de classificatie ondoorzichtig; in tegen stelling tot C4.5 die een boom bouwt of Naive Bayes die de kansen op alle uitkomsten uitzet, moet men maar aannemen dat de berekening van de hyperplane uit de trainingset in SVM tot een optimaal resultaat levert. Ondanks dat de variant van SVM die geïmplementeerd is in Weka, (SMO), geoptimaliseerd is, zijn we sceptisch over het nut van deze oplossing omdat hij aanzienlijk trager is dan de anderen. 2.5 Boosting Boosting is een algemene methode om weak learning algoritmes te verbeteren. Dit door middel van het herhaaldelijk rerunnen van een gegeven weak learning algoritme en daarvan de berekende classifiers combineren. Wat boosting doet is

7 dat het een hypothese genereert met weinig fouten in de training set. Dit doet hij uit de verschillende hypotheses (met veel fouten, maar beter dan ½) door ze te combineren. Boosting is nuttig als de dataset een variërende graad van moeilijkheid van classificatie heeft. Het boosting algoritme neemt als input een training set van m instanties. Daarnaast maakt boosting gebruik van een weak learning algoritme (in ons geval C4.5 en Decision Stumps). Het boosting algoritme roept herhaaldelijk het weak learning algoritme aan in verschillende rondes. Elke ronde voorziet de booster het weak learning algoritme van een verdeling instanties van de training set. Op zijn beurt geeft het weak learning algoritme een classifier voor die distributie van de training set. Deze classifier classificeert een fractie van de training set juist met grote waarschijnlijkheid ten opzichte van de verdeling. Het doel van het weak learning is om een hypothese te vinden welke de training error minimaliseert. Dit proces herhaalt zich een aantal ronden en uiteindelijk combineert de booster de verschillende zwakke hypothesen tot één laatste hypothese bijvoorbeeld door middel van stemmen. Door fout geclassificeerde instanties een groter gewicht te geven zullen ze bij opvolgende ronden eerder aan bod komen. Op deze manier focust boosting op de instanties die voor de weak classifier het moeilijkst zijn Adaboost met C4.5 Adaboost is de afkorting van Adaptive Boosting, en maakt dus gebruik van boosting. Omdat C4.5 ongewogen training instanties verwacht moeten deze eerst geresampled worden. Dit is een methode waar je van de set van voorbeeld instanties er een x aantal random pakt met terugleggen, op deze manier kan één instantie dus ook vaker voorkomen. Het voordeel van C4.5 is dat je in ieder geval wel zeker weet dat deze een error rate kleiner dan ½ zal hebben. Het gevaar bij Adaboost zit in het teveel gewicht leggen op noisy instanties, waar de classificatie onder lijdt. [1] Adaboost met Decision Stumps Het decision stump-algoritme berust op een classificatie volgens single attribute discrimination. In feite is het een beslisboom met maar één enkele knoop met de aan- of afwezigheid van een enkele term als predikaat. Voor elk attribuut A, toetst het algoritme een binaire splitsing en meet de score volgens score(a). De beste classificatie, splitsing door attribuut A i, betekent volgens decision stumps dat score(a i ) maximaal is. [6]

8 2.6 Intermezzo: Bagging Bootstrap aggrigating ( bagging ) is een methode die herhaaldelijk willekeurige samples van een dataset neemt, met teruglegging, en een reeks classifiers maakt C 0 t/m C N. Tot slot worden deze classifiers gecombineerd door middel van voting tot een enkele classifier C. Wordt N groot genoeg gekozen, is de kans dat een instantie uit de dataset gekozen wordt ca [1]. Het gevolg hiervan is dat naar verwachting een classifier gebouwd wordt die gebaseerd is op een willekeurige reeks van 63,2% unieke instanties uit de dataset. Deze methode zullen we niet toetsen, maar is een interessant alternatief op boosting, gezien deze zich minder focust op afwijkende waardes en dus minder gevoelig is voor ruis. 3. Conclusies 3.1 Conclusie Naive Bayes Naive Bayes is een buitengewoon snel algoritme die eenvoudig te implementeren is. Dit is al een flink voordeel, en bovendien is de classificatie vaak vrij redelijk. Bij de iris dataset leverde dit algoritme een verrassend goed resultaat op. De reden hiervoor is dat iris uitsluitend uit sterk samenhangende, numerieke attributen bestaat; daar waar Naive Bayes juist goed op presteert. Als we de data visualiseren in Weka, blijkt er hier en daar wat ruis zichtbaar. Uit de analyse van Naive Bayes weten we dat dit weinig invloed maakt op de classificatie. Op de vote en autos dataset doet Naive Bayes het significant slechter, dit komt doordat deze datasets noch sterk samenhangend noch sterk onsamenhangende attributen bevat. 3.2 Conclusies C4.5 en Adaboost met C4.5 C4.5 is zwakker als er een overwicht is aan continue (numerieke) waarden ten opzichte van de discrete (nominale) waarden [4]. Dit is het geval in de dataset autos. Waar C4.5 een (optimale) score van haalt kan Adaboost dit nog boosten tot Dit is een redelijke score, maar ten opzichte van de andere

9 datasets doen C4.5 en Adaboost met C4.5 het slecht op de autos dataset. Als we C4.5 of Adaboost met C4.5 uitvoeren op deze dataset, steekt het wél met kop en schouders uit boven de andere algoritmen. De reden hiervoor is dat C4.5 een sterk basis algoritme is; hij kan goed om gaan met noise (in tegenstelling tot Adaboost met Decision Stumps) en bouwt een betrouwbare classificatie zoals wij in practicum 1 waargenomen hebben. Aan de andere kant, presteert C4.5 bij iris niet bepaald goed. Onze analyse van deze dataset is dat deze zowel ruis als numerieke waarden bevat. Ruis is geen probleem voor dit algoritme, maar numerieke waarden wel. Wij bekeken nogmaals de werking van C4.5 en zagen dat hij tijdens de split er vanuit kan gaan dat numerieke waarden normaal verdeeld zijn. Dit is echter vaak niet het geval, waardoor hij een relatief slechtere classificatie zal geven. Of Weka daadwerkelijk deze assumptie maakt, wordt niet helemaal duidelijk uit zijn documentatie. 3.3 Conclusie Ripper Uit de dataset iris blijkt dat Ripper slecht presteert met numerieke waarden. Dit heeft kennelijk iets te maken met de manier waarop dit algoritme attributen van dit type probeert te splitten. We weten dat Ripper en C4.5 dezelfde methode gebruiken voor de initiële split, en vermoeden dat hetzelfde probleem optreedt als eerder genoemd bij de conclusie van C4.5: Weka gaat uit van een normaal verdeelde dataset bij numerieke attributen. Uit de prestatie van deze algoritmes vergeleken met de anderen, kunnen we concluderen dat er bij iris echter geen sprake is van normaal verdeelde numerieke attributen. 3.4 Conclusie Support Vector Machine Het idee achter SVM is dat data in R n te classificeren is door middel van een hyperplane. Soms is het niet mogelijk om volgens dit eenvoudige principe data te scheiden. Bij iris is er een lineair verband zichtbaar tussen de meeste attributen. SVM slaagt erin om deze lineaire hyperplane zo te trekken dat het beste resultaat behaald wordt.

10 Bij vote en autos is er iets anders aan de hand. Hoewel we dit niet kunnen zien, vermoeden wij dat er kennelijk geen goed classificeerbaar lineair verband, polynomiaal verband of verband volgens een RBF-kernel mogelijk is. 3.5 Conclusie Adaboost met Decision Stumps Adaboosting met Decision Stumps als basis algoritme doet het op autos zo slecht omdat er veel noise aawezig is. Het is opmerkelijk om te zien dat AdaBoost met decision stumps in de iris klasse het beter doet dan Adaboost met C4.5 omdat we er van uit gaan dat dit een beter basisalgoritme is. Toch doet Decision stumps het hier beter, waarschijnlijk door het al eerder genoemde probleem dat C4.5 slecht om kan gaan met een overwicht aan numerieke waarden. In iris is de ratio numeriek ten opzichte van nominaal 4:0 (zie tabel Tabel 1). 3.6 Conclusies Algemeen Zoals in de tabel te zien is zijn voor veel classes gecombineerd met de verschillende algoritmen de standaard instellingen het beste. Dit komt omdat dit al redelijk optimale instellingen zijn. Het is wel mogelijk om wat class afhankelijke aanpassingen te maken, maar dit geeft toch maar minimale, zeker geen significante, verschillen. Het overall slechte presteren van de algoritmes op autos is waarschijnlijk te danken aan het feit dat deze zeven classes heeft (immers -3 t/m +3). De data is dan veel lastiger te classificeren. Op de iris dataset presteert SVM het allerbeste (zie Appendix, Figuur 1) met een classificatie van 96.27%. Echter, met 96.20% is Naive Bayes een goede tweede, en deze is aanzienlijk sneller in zijn berekening. Daar waar SVM 46 seconden aan het rekenen is doet Naive Bayes er slechts 1 seconde over om de dataset te classificeren. Dit in acht genomen, concluderen wij dat bij numerieke datasets zoals iris, Naive Bayes het beste algoritme is. Op de vote dataset presteert C4.5 het allerbeste (zie Appendix, Figuur 2) met de instelling dat er maar een minimum van één item per blad vereist is scoort hij 96.62%. Zoals we in het eerste practicum gezien hebben zorgt dit tevens voor een grotere boom. Adaboost me Decision Stumps, SVM, Ripper en Adaboost me C4.5 volgen snel met respectievelijk 96.39%, 95.86%, 95.75% en 95.72%. Alleen Naive Bayes scoort hier significant slechter. Op de autos dataset presteert Adaboost met C4.5 het allerbeste (zie Appendix, Figuur 3) met 20 in plaats van 10 iteraties en met een confidence

11 factor van 0.5. Adaboost met C4.5 doet het hier iets beter dan C4.5 los (83.52%) en Ripper (82.24%). Deze 3 algoritmen zijn alledrie significant beter dan SVM (76.84%), Naive Bayes (65.17%) en Adaboost met Decision Stumps (44.90%). Al onze resultaten zijn uitgezet in Tabel 2 van de Appendix.

12 4. Appendix Iris Iris Figuur 1 SVM RAW NB -K Adaboost Ds C4.5 Unpruned Adaboost J48 Jrip -F 4 1. SVM Raw Small Vector Machine met standaard instellingen 2. NB K Naive Bayes met Kernel estimator voor numerieke waarden in plaats van nominale distributie 3. Adaboost DS Adaboost met Decision Stumps als weak learning algoritme en standard instellingen 4. C4.5 Unpruned C4.5 met een unpruned boom 5. Adaboost J48 Adaboost met J48 (C4.5 implementatie van Weka) als weak learning algoritme en standaard instellingen 6. Jrip F 4 Ripper met 4 folds en de rest standaard instellingen

13 Vote Vote C4.5 minnumobj 1 Adaboost DS -P 80 -I 40 SVM -C -1.5 Ripper Adaboost J48 -P 80 NB RAW Figuur 2 1. C4.5 minnumobj 1 C4.5 Algoritme met een minimum van 1 object per blad 2. Adaboost DS P 80 I 40 Adaboost met Decisions Stumps als weak learning algoritme met als bodemgrens van het gewicht tijdens het prunen op 80 en 40 iteraties 3. SVM C -1.5 Small Vector Machines met complexiteit parameten Ripper Ripper met standaard instellingen 5. Adaboost J48 P 80 Adaboost met J48 (C4.5 implementatie van Weka) als weak learning algoritme met als bodemgrens van het gewicht tijdens het prunen op NB Raw Naive Bayes met standaard instellingen

14 Autos Autos 0 Adaboost J48 conf 0.5 -I 20 C4.5 minnumobje 1 Jrip -F 3 -N S 1 -P SVM -E 2.0 NB -D Adaboost DS Figuur 3 1. Adaboost J48 conf 0.5 I 20 Adaboost met J48 (C4.5 implementatie van Weka) als weak learning algoritme met confidence factor 0.5 en 20 iteraties 2. C4.5 minnumobje 1 C4.5 Algoritme met een minimum van 1 object per blad 3. Jrip F 3 N 2.0 O 4 S 1 P Ripper met 3 folds, minimum van 2 objecten per blad (standaard), 4 optimaliseer runs, 1 seed voor de random data (standaard) en unpruned 4. SVM E 2.0 Small Vector Machines met als exponent van de polynomiale kernel NB D Naive Bayes met supervized discretization om numerieke attributen nominaal te maken 6. Adaboost DS Adaboost met Decision Stumps als weak learning algoritme en standard instellingen

15 Algoritme Instelling Iris Vote Autos Naive Bayes Standaard Kernel Estimator Supervized Discretization Support Vector Standaard Machine Complexity RBF Kernel met Gamma RBF Kernel met Gamma RBF Kernel met Gamma 0.01 Complexity Exponent voor de Polynomiale Kernel Exponent voor de Polynomiale Kernel Exponent voor de Polynomiale Kernel Exponent voor de Polynomiale Kernel Ripper Standaard Folds Folds Min. 3 inst. per blad Min. 4 inst. per blad optimalisatie ronde optimalisatie ronde optimalisatie ronde, Unpruned C4.5 Standaard Unpruned Confidence factor Confidence factor Confidence factor Minimale # instanties in 1 blad op Adaboost met Decision Stumps Adaboost met C4.5 Tabel 2 Binary split op nominale attributen Standaard Min. gewicht = Min. gewicht = Min. gewicht = 80 en Resampling i.p.v. Reweighting Resampling i.p.v. Reweighting, 5 iteraties Resampling i.p.v. Reweighting, 15 iteraties iteraties iteraties Standaard Unpruned Min. 1 inst. per blad, Min. gewicht 80, 40 iteraties Confidence factor Confidence factor 0.5 en 20 iteraties Confidence factor 0.5 en 40 iteraties Confidence factor 0.5, Resampling i.p.v Reweighting, 20 iteraties Confidence factor 0.5, Resampling i.p.v Reweighting, 40 iteraties Min. 1 inst. per blad Binary split Min. gewicht Min. gewicht iteraties iteraties

16 5. Referenties [1] Bauer, E., & Kohavi, R. (1999). An empirical comparison of voting classification algorithms: Bagging, boosting and variants. Machine Learning. 36 (1999) [2] Frank, E., & Witten, I. H. (1998). Generating accurate rule sets withoug global optimization. Proc 15 th International Conference on Machine Learning [3] John, G. H. & Langley, P. (1995). Estimating Continuous Distributions in Bayesian Classifiers. Stanford University. [4] Quinlan, J. R. (1996). Improved use of Continuous Attributes in C4.5. Journal of Artificial Intelligence Research. 4 (1996) [5] Rish, I., Hellerstein, J., & Thathacher, J. (2001). An analysis of data characteristics that affect naive Bayes performance. IBM TJ. Watson Research. [6] Wayne Ida, Pat Langley (1992). Induction of One-Level Decision Trees. NASA Ames Research Center (1992). [7] Yıldız, T., & Alpaydın, E. (2004). Learning Rules from Data. Boğaziçi University.

Data Mining: Classificatie

Data Mining: Classificatie Data Mining: Classificatie docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Overzicht Wat is classificatie? Leren van een beslissingsboom. Problemen

Nadere informatie

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren. 1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van

Nadere informatie

Tentamen Data Mining

Tentamen Data Mining Tentamen Data Mining Algemene Opmerkingen Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. Laat bij het uitvoeren van berekeningen zien hoe je aan een antwoord gekomen bent.

Nadere informatie

Oplossingen Datamining 2II15 Juni 2008

Oplossingen Datamining 2II15 Juni 2008 Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen:

Nadere informatie

Classification - Prediction

Classification - Prediction Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training

Nadere informatie

Voorspellen van webwinkel aankopen met een Random Forest

Voorspellen van webwinkel aankopen met een Random Forest Voorspellen van webwinkel aankopen met een Random Forest Dorenda Slof Erasmus Universiteit Rotterdam Econometrie en Operationele Research 30 juni 2014 Samenvatting In dit empirische onderzoek voorspellen

Nadere informatie

Samenvatting De belangrijkste onderzoeksvraag waarop het werk in dit proefschrift een antwoord probeert te vinden, is welke typen taalkundige informatie het nuttigst zijn voor de lexicale desambiguatie

Nadere informatie

Twaalfde college complexiteit. 11 mei 2012. Overzicht, MST

Twaalfde college complexiteit. 11 mei 2012. Overzicht, MST College 12 Twaalfde college complexiteit 11 mei 2012 Overzicht, MST 1 Agenda voor vandaag Minimum Opspannende Boom (minimum spanning tree) als voorbeeld van greedy algoritmen Overzicht: wat voor technieken

Nadere informatie

Neurale Netwerken en Deep Learning. Tijmen Blankevoort

Neurale Netwerken en Deep Learning. Tijmen Blankevoort Neurale Netwerken en Deep Learning Tijmen Blankevoort De toekomst - Internet of Things De toekomst - sluiertipje Je gezondheid wordt continue gemonitored Je dieet wordt voor je afgestemd -> Stroomversnelling

Nadere informatie

DATA MINING (TI2730-C)

DATA MINING (TI2730-C) Technische Universiteit Delft Elektrotechniek, Wiskunde en Informatica Secties: Pattern Recognition & Bioinformatics & Multimedia Signal Processing DATA MINING (TI2730-C) Schriftelijk (her)tentomen. Dinsdag

Nadere informatie

Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus

Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus Dat economie in essentie geen experimentele wetenschap is maakt de econometrie tot een onmisbaar

Nadere informatie

User Profile Repository Testrapportage kwaliteit

User Profile Repository Testrapportage kwaliteit CatchPlus User Profile Repository Testrapportage kwaliteit Versie 1.1 User Profile Repository Testrapportage kwaliteit Versie: 1.1 Publicatiedatum: 20-4-2012 Vertrouwelijk GridLine B.V., 2012 Pagina 1

Nadere informatie

twee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben.

twee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben. Samenvatting Deze thesis handelt over privacy preserving data mining. Data mining is een tak van de wetenschap waarin men grote hoeveelheden data onderzoekt met de bedoeling er bepaalde patronen in te

Nadere informatie

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

n-queens minimale dominantie verzamelingen Chessboard Domination on Programmable Graphics Hardware door Nathan Cournik

n-queens minimale dominantie verzamelingen Chessboard Domination on Programmable Graphics Hardware door Nathan Cournik n-queens minimale dominantie verzamelingen Chessboard Domination on Programmable Graphics Hardware door Nathan Cournik Rick van der Zwet 4 augustus 2010 Samenvatting Dit schrijven zal

Nadere informatie

Inl. Adaptieve Systemen

Inl. Adaptieve Systemen Inl. Adaptieve Systemen Gerard Vreeswijk Leerstoelgroep Intelligente Systemen, Departement Informatica en Informatiekunde, Faculteit Bètawetenschappen, Universiteit Utrecht. Gerard Vreeswijk. Laatst gewijzigd

Nadere informatie

Data mining Van boodschappenmandjes tot bio-informatica

Data mining Van boodschappenmandjes tot bio-informatica Data mining Van boodschappenmandjes tot bio-informatica Walter Kosters Informatica, Universiteit Leiden donderdag 6 april 2006 http://www.liacs.nl/home/kosters/ 1 Wat is Data mining? Data mining probeert

Nadere informatie

Hoofdvraag. Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ?

Hoofdvraag. Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ? Hoofdvraag Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ? Data visualisatie (Grafieken, dashboards); Kwantitatieve analyse (cijfers, statistiek); Software Inzichten

Nadere informatie

Samenvatting Nederlands

Samenvatting Nederlands Samenvatting Nederlands 178 Samenvatting Mis het niet! Incomplete data kan waardevolle informatie bevatten In epidemiologisch onderzoek wordt veel gebruik gemaakt van vragenlijsten om data te verzamelen.

Nadere informatie

Samenvatting (in Dutch)

Samenvatting (in Dutch) Samenvatting (in Dutch) Geordende latente klassen modellen voor nonparametrische itemresponstheorie Een geordend latente klassen model kan als een nonparametrisch itemresponstheorie model beschouwd worden.

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

9. Strategieën en oplossingsmethoden

9. Strategieën en oplossingsmethoden 9. Strategieën en oplossingsmethoden In dit hoofdstuk wordt nog even terug gekeken naar alle voorgaande hoofdstukken. We herhalen globaal de structuren en geven enkele richtlijnen voor het ontwerpen van

Nadere informatie

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Meervoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Plan van Aanpak. project Tetris Packing

Plan van Aanpak. project Tetris Packing Plan van Aanpak project Tetris Packing Inleiding! 4 Projectomschrijving! 5 Producten! 5 Testplan! 5 Ontwerprapport! 5 Implementatierapport! 5 Testrapport! 5 Systeemdocumentatie! 5 Aanpak! 6 Projectmethodiek!

Nadere informatie

Kunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016

Kunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016 AI Kunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016 www.liacs.leidenuniv.nl/ kosterswa/ai/ 1 Hersenen De menselijke

Nadere informatie

8. Complexiteit van algoritmen:

8. Complexiteit van algoritmen: 8. Complexiteit van algoritmen: Voorbeeld: Een gevaarlijk spel 1 Spelboom voor het wespenspel 2 8.1 Complexiteit 4 8.2 NP-problemen 6 8.3 De oplossing 7 8.4 Een vuistregel 8 In dit hoofdstuk wordt het

Nadere informatie

2WO12: Optimalisering in Netwerken

2WO12: Optimalisering in Netwerken 2WO12: Optimalisering in Netwerken Leo van Iersel Technische Universiteit Eindhoven (TUE) en Centrum Wiskunde & Informatica (CWI) 3 en 6 februari 2014 Leo van Iersel (TUE/CWI) 2WO12: Optimalisering in

Nadere informatie

Cerium CMS versie 4.0. Wat is nieuw in versie 4.0. www.cerium.nl

Cerium CMS versie 4.0. Wat is nieuw in versie 4.0. www.cerium.nl Cerium CMS versie 4.0 Wat is nieuw in versie 4.0 www.cerium.nl Bijgewerkt februari 2014 Cerium BV 2014 Inhoudsopgave 1. Inleiding 3 2. Nieuwe onderhouds URL 4 3. Drag and drop upload 5 4. Spring naar item

Nadere informatie

MULTIPELE IMPUTATIE IN VOGELVLUCHT

MULTIPELE IMPUTATIE IN VOGELVLUCHT MULTIPELE IMPUTATIE IN VOGELVLUCHT Stef van Buuren We hebben het er liever niet over, maar allemaal worden we geplaagd door ontbrekende gegevens. Het liefst moffelen we problemen veroorzaakt door ontbrekende

Nadere informatie

Proeftuinplan: Meten is weten!

Proeftuinplan: Meten is weten! Proeftuinplan: Meten is weten! Toetsen: hoog, laag, vooraf, achteraf? Werkt het nu wel? Middels een wetenschappelijk onderzoek willen we onderzoeken wat de effecten zijn van het verhogen cq. verlagen van

Nadere informatie

Data Mining: Clustering

Data Mining: Clustering Data Mining: Clustering docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Wat is clustering? Het onderverdelen van de objecten in een database in homogene

Nadere informatie

TestNet Summer School 2011

TestNet Summer School 2011 TestNet Summer School 2011 Datacombinatest met de Classification Tree Editor Kees Saffrie Qualityhouse BV email: k.saffrie@qualityhouse.nl Definities Datacombinatietest een black box testtechniek waarbij

Nadere informatie

Project Paper: Tiling problem

Project Paper: Tiling problem Project Paper: Tiling problem Groep 11: Said Hattachi, Ismael el Hadad Hakim, Muttalip Küçük Januari 015 Abstract Dit artikel beschrijft een heuristiek waarmee een veld op een systematische wijze gevuld

Nadere informatie

Les F-02 UML. 2013, David Lans

Les F-02 UML. 2013, David Lans Les F-02 UML In deze lesbrief wordt globaal beschreven wat Unified Modeling Language (UML) inhoudt. UML is een modelleertaal. Dat wil zeggen dat je daarmee de objecten binnen een (informatie)systeem modelmatig

Nadere informatie

. Dan geldt P(B) = a. 1 4. d. 3 8

. Dan geldt P(B) = a. 1 4. d. 3 8 Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open

Nadere informatie

2WO12: Optimalisering in Netwerken

2WO12: Optimalisering in Netwerken 2WO12: Optimalisering in Netwerken Leo van Iersel Technische Universiteit Eindhoven (TU/E) en Centrum Wiskunde & Informatica (CWI) 27 februari 2014 http://homepages.cwi.nl/~iersel/2wo12/ l.j.j.v.iersel@gmail.com

Nadere informatie

Gebruik van classificatie om gebruikspieken van een elektronische leeromgeving te voorspellen.

Gebruik van classificatie om gebruikspieken van een elektronische leeromgeving te voorspellen. owered by TCPDF (www.tcpdf.org) Academiejaar 2013 2014 Faculteit Ingenieurswetenschappen en Architectuur Valentin Vaerwyckweg 1 9000 Gent Gebruik van classificatie om gebruikspieken van een elektronische

Nadere informatie

Samenvatting (Summary in Dutch)

Samenvatting (Summary in Dutch) Het voornaamste doel van dit proefschrift is nieuwe methoden te ontwikkelen en te valideren om de effectiviteit van customization te kunnen bepalen en hoe dataverzameling kan worden verbeterd. Om deze

Nadere informatie

Data Mining: Data kwaliteit, Preprocessing

Data Mining: Data kwaliteit, Preprocessing Data Mining: Data kwaliteit, Preprocessing docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Herhaling: definitie Data Mining is: Extractie van interessante

Nadere informatie

Figuur 1. Schematisch overzicht van de structuur van het twee-stadia recourse model.

Figuur 1. Schematisch overzicht van de structuur van het twee-stadia recourse model. Samenvatting In dit proefschrift worden planningsproblemen op het gebied van routering en roostering bestudeerd met behulp van wiskundige modellen en (numerieke) optimalisatie. Kenmerkend voor de bestudeerde

Nadere informatie

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 Bjorn Winkens Methodologie en Statistiek Universiteit Maastricht 21 maart

Nadere informatie

Handleiding RoosterGenerator

Handleiding RoosterGenerator Inleiding Handleiding RoosterGenerator, deel II Handleiding RoosterGenerator Deel II: Aan de slag met RoosterGenerator De module RoosterGenerator is bedoeld als aanvulling op het maken van een competitie

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4), op maandag 5 januari 29 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Eindrapport. 5 November 2007

Eindrapport. 5 November 2007 0 Virtual Markets Eindrapport 5 November 2007 1. Introductie In dit document wordt de strategie beschreven die gebruikt wordt door de door ons ontwikkelde agent genaamd SlimAgent. Deze agent moet op een

Nadere informatie

GETAL& RUIMTE. Verbeteringen havo A 10e editie (2011) t.o.v. editie 2007

GETAL& RUIMTE. Verbeteringen havo A 10e editie (2011) t.o.v. editie 2007 Verbeteringen havo A 10e editie (2011) t.o.v. editie 2007 Havo A deel 1 begint met het niet-examenonderwerp Statistiek (was hoofdstuk 4). Al snel wordt de grafische rekenmachine ingezet en ook bij de andere

Nadere informatie

recursie Hoofdstuk 5 Studeeraanwijzingen De studielast van deze leereenheid bedraagt circa 6 uur. Terminologie

recursie Hoofdstuk 5 Studeeraanwijzingen De studielast van deze leereenheid bedraagt circa 6 uur. Terminologie Hoofdstuk 5 Recursion I N T R O D U C T I E Veel methoden die we op een datastructuur aan kunnen roepen, zullen op een recursieve wijze geïmplementeerd worden. Recursie is een techniek waarbij een vraagstuk

Nadere informatie

Hoe accuraat kun je de populariteit van muziek voorspellen met behulp van social media?

Hoe accuraat kun je de populariteit van muziek voorspellen met behulp van social media? Bachelorscriptie informatica Hoe accuraat kun je de populariteit van muziek voorspellen met behulp van social media? 3 april 2015 Auteur: Dion van de Vooren s4256468 Begeleider: Tom Heskes Tweede lezer:

Nadere informatie

Klantbeoordelingen verhogen bestelconversie met 20%

Klantbeoordelingen verhogen bestelconversie met 20% Casestudie Vechtsportwinkel.com Klantbeoordelingen verhogen bestelconversie met 20% Ondanks het relatief lage aantal beoordelingen is het ongelooflijk op welke positieve manier de KiyOh widget op de productpagina

Nadere informatie

Automating Complex Workflows using Processing Modeler

Automating Complex Workflows using Processing Modeler Automating Complex Workflows using Processing Modeler QGIS Tutorials and Tips Author Ujaval Gandhi http://google.com/+ujavalgandhi Translations by Dick Groskamp This work is licensed under a Creative Commons

Nadere informatie

Graphical modelling voor Mediastudies Data

Graphical modelling voor Mediastudies Data Graphical modelling voor Mediastudies Data De analyse Alle analyses zijn gedaan met MIM, een analyseprogramma ontworpen voor graphical modelling (Versie 3.2.07, Edwards,1990,1995). Modellen zijn verkregen

Nadere informatie

Extreem weinig meisjes in de natuurkundeklas: slecht voor meisjes, goed voor jongens

Extreem weinig meisjes in de natuurkundeklas: slecht voor meisjes, goed voor jongens Extreem weinig meisjes in de natuurkundeklas: slecht voor meisjes, goed voor jongens Samenvatting In natuurkunde 12 liepen de prestaties van meisjes nog steeds achter bij die van jongens. Dit hangt samen

Nadere informatie

Cover Page. The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation.

Cover Page. The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation. Author: Witsenburg, Tijn Title: Hybrid similarities : a method to insert relational information

Nadere informatie

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling week 3: schatten en toetsen: de z-toets week 4: het toetsen van gemiddelden: de t-toets Moore, McCabe, and Craig.

Nadere informatie

laboratory for industrial mathematics eindhoven Endinet Regressie-analyse Energiekamer

laboratory for industrial mathematics eindhoven Endinet Regressie-analyse Energiekamer Endinet Regressie-analyse Energiekamer Laboratory for Industrial Mathematics Eindhoven Postbus 513 5600 MB Eindhoven tel.: 040 247 4875 fax: 040 244 2489 e-mail: lime@tue.nl WWW: http://www.lime.tue.nl

Nadere informatie

College 6 Eenweg Variantie-Analyse

College 6 Eenweg Variantie-Analyse College 6 Eenweg Variantie-Analyse - Leary: Hoofdstuk 11, 1 (t/m p. 55) - MM&C: Hoofdstuk 1 (t/m p. 617), p. 63 t/m p. 66 - Aanvullende tekst 6, 7 en 8 Jolien Pas ECO 01-013 Het Experiment: een voorbeeld

Nadere informatie

WISKUNDE B -DAG 2002 1+ 1 = 2. maar en hoe nu verder? 29 november 2002

WISKUNDE B -DAG 2002 1+ 1 = 2. maar en hoe nu verder? 29 november 2002 - 0 - WISKUNDE B -DAG 2002 1+ 1 = 2 maar en hoe nu verder? 29 november 2002 De Wiskunde B-dag wordt gesponsord door Texas Instruments - 1 - Inleiding Snel machtverheffen Stel je voor dat je 7 25 moet uitrekenen.

Nadere informatie

Memorandum. Technical Sciences Brassersplein 2 2612 CT Delft Postbus 5050 2600 GB Delft. Aan Bestuur stichting Pensioenfonds TNO. www.tno.

Memorandum. Technical Sciences Brassersplein 2 2612 CT Delft Postbus 5050 2600 GB Delft. Aan Bestuur stichting Pensioenfonds TNO. www.tno. Memorandum Aan Bestuur stichting Pensioenfonds TNO Van Dr. F. Phillipson Onderwerp Risicobereidheidsonderzoek Pensioenfonds TNO Inleiding In de periode juni-augustus 2014 is er een risicobereidheidsonderzoek

Nadere informatie

In de door ons gebruikte demo verloopt het herkennen van beelden in feite in 2 fasen:

In de door ons gebruikte demo verloopt het herkennen van beelden in feite in 2 fasen: Practicum: deel 1 Hond zoekt Bal In het practicum Hond zoekt Bal laten we je kennis maken met de werking van supercomputers. We gebruiken daarvoor een applicatie waarmee met een webcam objecten herkend

Nadere informatie

Bijlage 2: 3.2 onderzoek

Bijlage 2: 3.2 onderzoek Bijlage : 3. onderzoek Ik heb een onderzoek gedaan naar de fitheid van de kinderen van groep 7 en 8 van de Sint Lambertus school in Asten. Ik heb eerst een enquête afgenomen, en heb daarna testjes afgenomen

Nadere informatie

Kenmerk ontheffing in de Bijstands Uitkeringen Statistiek

Kenmerk ontheffing in de Bijstands Uitkeringen Statistiek Centraal Bureau voor de Statistiek Divisie sociale en regionale statistieken (SRS) Sector statistische analyse voorburg (SAV) Postbus 24500 2490 HA Den Haag Kenmerk ontheffing in de Bijstands Uitkeringen

Nadere informatie

T.A. Horsmeier. Hoeken en kromming. In genormeerde ruimten zonder inprodukt. Bachelorscriptie, 25 augustus 2009

T.A. Horsmeier. Hoeken en kromming. In genormeerde ruimten zonder inprodukt. Bachelorscriptie, 25 augustus 2009 T.A. Horsmeier Hoeken en kromming In genormeerde ruimten zonder inprodukt Bachelorscriptie, 25 augustus 2009 Scriptiebegeleider: Dr. O.W. van Gaans Mathematisch Instituut, Universiteit Leiden Inhoudsopgave

Nadere informatie

Invloed van IT uitbesteding op bedrijfsvoering & IT aansluiting

Invloed van IT uitbesteding op bedrijfsvoering & IT aansluiting xvii Invloed van IT uitbesteding op bedrijfsvoering & IT aansluiting Samenvatting IT uitbesteding doet er niet toe vanuit het perspectief aansluiting tussen bedrijfsvoering en IT Dit proefschrift is het

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 10 Donderdag 14 Oktober 1 / 71 1 Kansrekening Indeling: Bayesiaans leren 2 / 71 Bayesiaans leren 3 / 71 Bayesiaans leren: spelletje Vb. Twee enveloppen met kralen, waarvan

Nadere informatie

Referentie Handleiding

Referentie Handleiding Version 1.1.5 Referentie Handleiding DiscretePhoton H.264 encoder DiscretePhoton www.discretephoton.com Referentie Handleiding Over DiscretePhoton H.264-encoder DiscretePhoton H.264 encoder Windows versie

Nadere informatie

AI & Big Data bij Defensie

AI & Big Data bij Defensie AI & Big Data bij Defensie Max Welling Universiteit van Amsterdam, AMLAB, QUVA Canadian Institute for Advanced Research (CIFAR) Co-founder Scyfer Overzicht Machine Learning & Deep Learning 101 Toepassingen

Nadere informatie

Opdracht 2. Deadline maandag 28 september 2015, 24:00 uur.

Opdracht 2. Deadline maandag 28 september 2015, 24:00 uur. Opdracht 2. Deadline maandag 28 september 2015, 24:00 uur. Deze opdracht bestaat uit vier onderdelen; in elk onderdeel wordt gevraagd een Matlabprogramma te schrijven. De vier bijbehore bestanden stuur

Nadere informatie

Genetische algoritmen in Java met JGAP

Genetische algoritmen in Java met JGAP Genetische algoritmen in Java met JGAP Inleiding JGAP, uitgesproken als "jee-gep", is een framework voor het implementeren van genetische algoritmen en het gebruik ervan in Java. Genetische algoritmen

Nadere informatie

Beschrijving resultaten onderzoek biseksualiteit AmsterdamPinkPanel Oktober 2014 Joris Blaauw

Beschrijving resultaten onderzoek biseksualiteit AmsterdamPinkPanel Oktober 2014 Joris Blaauw Beschrijving resultaten onderzoek biseksualiteit AmsterdamPinkPanel Oktober 2014 Joris Blaauw Dit document beschrijft kort de bevindingen uit het onderzoek over biseksualiteit van het AmsterdamPinkPanel.

Nadere informatie

Vakgroep CW KAHO Sint-Lieven

Vakgroep CW KAHO Sint-Lieven Vakgroep CW KAHO Sint-Lieven Objecten Programmeren voor de Sport: Een inleiding tot JAVA objecten Wetenschapsweek 20 November 2012 Tony Wauters en Tim Vermeulen tony.wauters@kahosl.be en tim.vermeulen@kahosl.be

Nadere informatie

start -> id (k (f c s) (g s c)) -> k (f c s) (g s c) -> f c s -> s c

start -> id (k (f c s) (g s c)) -> k (f c s) (g s c) -> f c s -> s c Een Minimaal Formalisme om te Programmeren We hebben gezien dat Turing machines beschouwd kunnen worden als universele computers. D.w.z. dat iedere berekening met natuurlijke getallen die met een computer

Nadere informatie

WordStream is één van de grootste leveranciers van Internet Marketing software en tevens Google Premier SMB Partner.

WordStream is één van de grootste leveranciers van Internet Marketing software en tevens Google Premier SMB Partner. Voorwoord Bedankt voor het aanvragen van de expertreview van Wemessage. De expertreview biedt inzicht in onze werkwijze, de prestaties en de potentie van jullie Adwords campagne. In de onderstaande expertreview

Nadere informatie

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 1. De onderzoekers van een preventiedienst vermoeden dat werknemers in een bedrijf zonder liften fitter zijn dan werknemers

Nadere informatie

Warehousing. Richard Both, Tom Slenders 22 oktober 2009

Warehousing. Richard Both, Tom Slenders 22 oktober 2009 Warehousing Richard Both, Tom Slenders 22 oktober 2009 1 Inhoudsopgave 1 Inleiding 2 2 Probleemstelling 2 3 Aannames 2 4 Strategieën en hypotheses 3 4.1 Unity picking.......................................

Nadere informatie

Extra Opgaven. 3. Van 10 personen meten we 100 keer de hartslag na het sporten. De gemiddelde hartslag van

Extra Opgaven. 3. Van 10 personen meten we 100 keer de hartslag na het sporten. De gemiddelde hartslag van Extra Opgaven 1. Een persoon doet een HIV-test. Helaas is de uitslag positief. De test is echter niet perfect. De persoon vraagt zich af wat de kans is dat hij nu ook echt HIV heeft. Gegeven is: de kans

Nadere informatie

Herkansing eindtoets statistiek voor HBO

Herkansing eindtoets statistiek voor HBO Herkansing 1A 1 Herkansing eindtoets statistiek voor HBO Schrijf de antwoorden op de vragen alleen op deze pagina s. Antwoorden geschreven op andere vellen papier worden niet meegenomen in de beoordeling.

Nadere informatie

EEN SIMULATIESTUDIE VAN DE SCHEDULE CONTROL INDEX

EEN SIMULATIESTUDIE VAN DE SCHEDULE CONTROL INDEX EEN SIMULATIESTUDIE VAN DE SCHEDULE CONTROL INDEX Universiteit Gent Faculteit economie en bedrijfskunde Student X Tussentijds Rapport Promotor: prof. dr. M. Vanhoucke Begeleider: Y Academiejaar 20XX-20XX

Nadere informatie

Aan het eind van deze lesbrief wordt uitgelegd wat het nut van OOP is en vind je een aantal oefenopdrachten.

Aan het eind van deze lesbrief wordt uitgelegd wat het nut van OOP is en vind je een aantal oefenopdrachten. Doel van deze lesbrief Deze lesbrief is bedoeld om je op de hoogte te brengen van de basisbegrippen die gangbaar zijn bij object georiënteerd programmeren (OOP). In deze lesbrief kom je korte codefragmenten

Nadere informatie

In deze les. Het experiment. Hoe bereid je het voor? Een beetje wetenschapsfilosofie. Literatuuronderzoek (1) Het onderwerp.

In deze les. Het experiment. Hoe bereid je het voor? Een beetje wetenschapsfilosofie. Literatuuronderzoek (1) Het onderwerp. In deze les Het experiment Bart de Boer Hoe doe je een experiment? Hoe bereid je het voor? De probleemstelling Literatuuronderzoek Bedenken/kiezen experimentele opstelling Bedenken/kiezen analysevorm Hoe

Nadere informatie

November December 2011. Jan Meskens / Onderzoek

November December 2011. Jan Meskens / Onderzoek Jan Meskens / Onderzoek 1 Wat is "Predictive Analytics"? Historische en/of huidige data Voorspellingen over de toekomst 2 Toepassing: fraudebestrijding Opsporen fraude met aanrijdingsformulieren [SAS]

Nadere informatie

Performance Scan UWV.nl en Werk.nl in opdracht van FNV

Performance Scan UWV.nl en Werk.nl in opdracht van FNV Performance Scan UWV.nl en Werk.nl in opdracht van FNV Uitgevoerd door: Inhoudsopgave 1. Werk.nl, het belang van beschikbaarheid 3 2. Performance Scan Werk.nl 4 3. Performance score card 5 4. Performance

Nadere informatie

Universiteit Gent. Faculteit Economie en Bedrijfskunde. Academiejaar 2013 2014

Universiteit Gent. Faculteit Economie en Bedrijfskunde. Academiejaar 2013 2014 Universiteit Gent Faculteit Economie en Bedrijfskunde Academiejaar 2013 2014 KOSTENVOORSPELLING BINNEN PROJECTMANAGEMENT: EEN OVERZICHT VAN DE BELANGRIJKSTE TECHNIEKEN Tussentijds rapport Student X Onder

Nadere informatie

Rapportage resultaten enquête project derdengelden

Rapportage resultaten enquête project derdengelden Rapportage resultaten enquête project derdengelden Inleiding De verplichting om een stichting derdengelden ter beschikking te hebben is sinds de introductie in 1998 een terugkerend onderwerp van discussie

Nadere informatie

Overzicht. 1. Definities. 2. Basisalgoritme. 3. Label setting methoden. 4. Label correcting methoden. 5. Ondergrenzen. 6.

Overzicht. 1. Definities. 2. Basisalgoritme. 3. Label setting methoden. 4. Label correcting methoden. 5. Ondergrenzen. 6. Overzicht 1. Definities 2. Basisalgoritme 3. Label setting methoden 4. Label correcting methoden 5. Ondergrenzen 6. Resultaten Kortste Pad Probleem 1 Definities Een graaf G = (V, E) bestaat uit een verzameling

Nadere informatie

Principe Maken van een Monte Carlo data-set populatie-parameters en standaarddeviaties standaarddeviatie van de bepaling statistische verdeling

Principe Maken van een Monte Carlo data-set populatie-parameters en standaarddeviaties standaarddeviatie van de bepaling statistische verdeling Monte Carlo simulatie In MW\Pharm versie 3.30 is een Monte Carlo simulatie-module toegevoegd. Met behulp van deze Monte Carlo procedure kan onder meer de betrouwbaarheid van de berekeningen van KinPop

Nadere informatie

Kunstmatige Intelligentie (AI) Hoofdstuk 6 van Russell/Norvig = [RN] Constrained Satisfaction Problemen (CSP s) voorjaar 2015 College 7, 31 maart 2015

Kunstmatige Intelligentie (AI) Hoofdstuk 6 van Russell/Norvig = [RN] Constrained Satisfaction Problemen (CSP s) voorjaar 2015 College 7, 31 maart 2015 AI Kunstmatige Intelligentie (AI) Hoofdstuk 6 van Russell/Norvig = [RN] Constrained Satisfaction Problemen (CSP s) voorjaar 2015 College 7, 31 maart 2015 www.liacs.leidenuniv.nl/ kosterswa/ai/ 1 Introductie

Nadere informatie

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14 Statistiek met Excel Schoolexamen en Uitbreidingsopdrachten 2 Inhoudsopgave Achtergrondinformatie... 4 Schoolexamen Wiskunde VWO: Statistiek met grote datasets... 5 Uibreidingsopdrachten vwo 5... 6 Schoolexamen

Nadere informatie

College 3 Meervoudige Lineaire Regressie

College 3 Meervoudige Lineaire Regressie College 3 Meervoudige Lineaire Regressie - Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2) Jolien Pas ECO 2012-2013 'Computerprogramma voorspelt Top 40-hits Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html

Nadere informatie

Six Sigma. Wat is Six Sigma?

Six Sigma. Wat is Six Sigma? Six Sigma Wat is het, wat brengt het? Oktober 2015 Wat is Six Sigma? OVERZICHT Statistische benadering Lange termijn Continu verbeteren Streven om te voldoen aan klantwens Een business filosofie en strategie

Nadere informatie

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie Parking Surveillance foreground/background segmentation - objectherkenning Examen Beeldverwerking Pieter Vancoillie Doel van het (deel)project Uit beelden van een camera voetgangers, fietsers en auto s

Nadere informatie

ENERGY EFFICIENCY OPGP-F7-0592/0592/0296-ES-25-B00. Nominal airflow: Initial efficiency 0.4 µm: Minimum efficiency 0.4 µm: Annual Energy Consumption:

ENERGY EFFICIENCY OPGP-F7-0592/0592/0296-ES-25-B00. Nominal airflow: Initial efficiency 0.4 µm: Minimum efficiency 0.4 µm: Annual Energy Consumption: OPGP--0592/0592/0296-ES-25-B00 NIEUWE EUROVENT NORM VOOR LUCHTFILTERS OPGP--0592/0592/0296-ES-25-B00 0.9 m 3 /s AIRFILTERS ;OM-11- ;T2012 Clean air solutions m 3 /s AIRFILTERS ;OM-11- ;T2012 0.9 BESPAAR

Nadere informatie

Klimaatverandering & schadelast. April 2015

Klimaatverandering & schadelast. April 2015 Klimaatverandering & schadelast April 2015 Samenvatting Het Centrum voor Verzekeringsstatistiek, onderdeel van het Verbond, heeft berekend in hoeverre de klimaatscenario s van het KNMI (2014) voor klimaatverandering

Nadere informatie

qwertyuiopasdfghjklzxcvbnmq wertyuiopasdfghjklzxcvbnmqw ertyuiopasdfghjklzxcvbnmqwer tyuiopasdfghjklzxcvbnmqwerty uiopasdfghjklzxcvbnmqwertyui

qwertyuiopasdfghjklzxcvbnmq wertyuiopasdfghjklzxcvbnmqw ertyuiopasdfghjklzxcvbnmqwer tyuiopasdfghjklzxcvbnmqwerty uiopasdfghjklzxcvbnmqwertyui qwertyuiopasdfghjklzxcvbnmq wertyuiopasdfghjklzxcvbnmqw ertyuiopasdfghjklzxcvbnmqwer tyuiopasdfghjklzxcvbnmqwerty WHICH MOVIE? uiopasdfghjklzxcvbnmqwertyui Van text-mining naar een quiz opasdfghjklzxcvbnmqwertyuiop

Nadere informatie

Kruis per vraag slechts één vakje aan op het antwoordformulier.

Kruis per vraag slechts één vakje aan op het antwoordformulier. Toets Stroom 1.2 Methoden en Statistiek tul, MLW 7 april 2006 Deze toets bestaat uit 25 vierkeuzevragen. Kruis per vraag slechts één vakje aan op het antwoordformulier. Vraag goed beantwoord dan punt voor

Nadere informatie

Recommender Systems voor het realtime aanbieden van nieuwssecties. Thomas Janssen

Recommender Systems voor het realtime aanbieden van nieuwssecties. Thomas Janssen Recommender Systems voor het realtime aanbieden van nieuwssecties Thomas Janssen 23 januari 2007 1 Voorwoord Deze scriptie is geschreven ter afsluiting van mijn Bachelor voor de studie Informatica aan

Nadere informatie

Data Mining. Eindverslag 7 juni 2009

Data Mining. Eindverslag 7 juni 2009 Data Mining Eindverslag 7 juni 2009 Naam: Mathijs de Langen 0611699 Stijn Koopal 0613671 Marvin Raaijmakers 0608141 Giel Oerlemans 0607213 Email: m.a.d.langen@student.tue.nl s.koopal@student.tue.nl m.raaijmakers@student.tue.nl

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN

TECHNISCHE UNIVERSITEIT EINDHOVEN TECHNISCHE UNIVERSITEIT EINDHOVEN Tentamen Biostatistiek voor BMT (2S390) op 17-11-2003 U mag alleen gebruik maken van een onbeschreven Statistisch Compendium (dikt. nr. 2218) en van een zakrekenmachine.

Nadere informatie

Quantum computing. Dirk Nuyens. dept. computerwetenschappen KULeuven. [dirk.nuyens@cs.kuleuven.ac.be]

Quantum computing. Dirk Nuyens. dept. computerwetenschappen KULeuven. [dirk.nuyens@cs.kuleuven.ac.be] Quantum computing Dirk Nuyens [dirk.nuyens@cs.kuleuven.ac.be] dept. computerwetenschappen KULeuven qc-sim-intro.tex Quantum computing Dirk Nuyens 18/12/2001 21:25 p.1 Mijn thesis plannen Proberen een zo

Nadere informatie

Handreiking Gebruik zorgvraagzwaarte-indicator GGZ Voor GGZ-instellingen en zorgverzekeraars

Handreiking Gebruik zorgvraagzwaarte-indicator GGZ Voor GGZ-instellingen en zorgverzekeraars Handreiking Gebruik zorgvraagzwaarte-indicator GGZ Voor GGZ-instellingen en zorgverzekeraars September 2015 Utrecht 1 Handreiking zorgvraagzwaarte-indicator GGZ; Voor GGZinstellingen en zorgverzekeraars

Nadere informatie

Flying Sensor Rapport

Flying Sensor Rapport Flying Sensor Rapport Locatie: Dintelse Gorzen Noord-Brabant Nederland Vluchtdatum: 21-mei-2014 Flying Sensor: Pelican Client: Natuurmonumenten HiView Costerweg 1V 6702AA Wageningen www.hiview.nl info@hiview.nl

Nadere informatie

Releasen met een druk op de knop: Met behulp van Continuous Delivery sneller uw doel bereiken

Releasen met een druk op de knop: Met behulp van Continuous Delivery sneller uw doel bereiken Releasen met een druk op de knop: Met behulp van Continuous Delivery sneller uw doel bereiken De business organisatie heeft altijd stijgende verwachtingen van uw IT organisatie. Meer dan ooit is het van

Nadere informatie