Data Mining: Classificatie
|
|
- Gustaaf Wauters
- 7 jaren geleden
- Aantal bezoeken:
Transcriptie
1 Data Mining: lassificatie docent: dr. Toon alders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Vorige les lassificatie: Het groeperen van objecten in voorgedefinieerde categorieen. lassifier inductie: Het leren classificeren gebaseerd op een trainingsset met gelabelde data. lassificatie algoritmes leren een model van de data.
2 Vorige les Decision tree induction Leren van een beslissingsboom gebaseerd op gelabelde data Hunts algoritme Maakt gebruik van lokale criteria Gebruik van bvb. GINIindex om beste split te kiezen Vorige les Voorbeeld: classificeren van diersoort (Weka)
3 Vorige les Problemen met beslissingsbomen: Sommige functies zijn moeilijk uit te drukken Overfitting Underfitting Overzicht van deze les De Naïveayes classifier Overzicht van andere classificatiemethodes eslissingsregels Nearest neighbors Lineaire discriminant (perceptron learning) Performantie van classifiers beoordelen? ccuracy, precision, recall ost sensitivity
4 Naïve ayes lassifier Maakt een probabilistisch model van de data Werkt op discrete data Ook uitbreidingen voor normaal verdeelde data De Naïve ayes classifier Gebaseerd op de stelling van ayes: P( ) P( ) P ( ) = P( ) = attributen = klasse attribuut
5 Voorbeeld van het theorema van ayes Gegeven meningitis veroorzaakt nekpijn in 50% van de gevallen 1/50,000 patienten heeft meningitis 1/20 van de patienten heeft nekpijn ls een patient nekpijn heeft, wat is dan de kans op meningitis? Voorbeeld van het theorema van ayes ls een patient nekpijn heeft, wat is dan de kans op meningitis? P(S) = 1/20 P(M) = 1/50,000 P(S M) = ½ Kans op meningitis gegeven nekpijn: P( S M ) P( M ) 0.5 1/ P( M S) = = = P( S) 1/ 20
6 ayesiaanse classifiers eschouw elke variabele (ook klasse) als stochastische variabele Gegeven een record ( 1, 2,, n,) Doel is het voorspellen van klasse ; we zoeken die die P( 1, 2,, n ) maximaliseert Hoe kunnen we P( 1, 2,, n ) direkt uit de data bepalen? ayesiaanse classifiers anpak: ereken de posterior P( 1, 2,, n ) voor alle klassen : P ( 1 2 K ) = n P ( K ) P ( ) 1 2 n P ( K ) Kies de waarde van met maximale P( 1, 2,, n ) 1 2 n Hoe kunnen we P( 1, 2,, n ) benaderen met de data die we hebben?
7 Hoe kunnen we P( 1, 2,, n ) benaderen? Tellen: voor elke combinatie van 1,, n, tel de frequentie van de klassen Echter, niet elke combinatie komt voor in de trainingset Daarom: veronderstellingen maken over de attributen Naïve ayes veronderstelt dat attributen onafhankelijk zijn N classifier verondersteld dat afhankelijkheden expliciet gegeven zijn Naïve ayes lassifier We veronderstellen onafhankelijkheid gegeven het klasse attribuut: P( 1, 2,, n ) = P( 1 ) P( 2 ) P( n ) P( i ) kan wel uit de data gehaald worden voor elk attribuut. Wat is de formule voor P( 1, 2,, n ) uitgaande van de veronderstelling van onafhankelijkheid?
8 Naïve ayes lassifier Wat is de formule voor P( 1, 2,, n ) uitgaande van de veronderstelling van onafhankelijkheid? ) ( ) ( ) ( ) ( ) ( ) ( )... ( ) ( ) ( ) ( ) ( n i n i n n n n P P P P P P P P P P P K K K K = = = = Naïve ayes lassifier Voor elk attribuut : Voor elke waarde v van dat attribuut: Voor elke klasse : Schat de kans P(=v ) als volgt: P(=v ) # o van klasse met o. = v #o van klasse Het model: De prior: P() voor alle klassen Voor elke (,v,) : schatting P(=v )
9 Toepassen van de classifier Gegeven: het model geleerd door de classifier: Prior P() voor alle klassen Voor elk triplet (,v,) : P(=v ) Gegeven een nieuw voorbeeld (v 1,, v n,?) Welke klasse voorspellen we? Toepassen van de classifier Gegeven een nieuw voorbeeld (v 1,, v n,?) Welke klasse voorspellen we? ereken voor elke klasse : n P( i i= 1 = v i ) P( ) Voorspel de klasse die dit produkt maximaliseert
10 Voorbeeld (DM = klasse) D Stat DM Model: Voorbeeld (DM = klasse) D Stat DM Model: Klasse = (60%) D: Stat: Klasse = (40%) D: Stat: 0 1 1
11 Voorbeeld (DM = klasse) D Stat DM Voorspelling voor een student met D=, Stat=? Model: Klasse = (60%) D: Stat: Klasse = (40%) D: Stat: Voorbeeld (DM = klasse) D Stat DM Voorspelling voor een student met D=, Stat=? Klasse : 40% x 50% x 50% = 0.1 Klasse : 60% x 33% x 66% = 0.13 Model: Klasse = (60%) D: Stat: Klasse = (40%) D: Stat: 0 1 1
12 Wat met continue attributen? Voor continue attributen: Discretiseren Houdt steeds informatie verlies in. Moeilijk om het juiste aantal intervallen te bepalen: Meer intervallen [l,u] = relatief slechtere benadering van P( in [l,u] ). Twoway split: ( < v) or ( > v) kies een enkel splitpunt (bvb. Meest informatieve) Schat parameters van de distributie: ij discrete data karakteriseren we eigenlijk de volledige distributie Dit kunnen we ook doen bij continue data indien we een bepaalde klasse van distributies veronderstellen Schatten van parameters De kansdichtheid in een punt x drukt de waarschijnlijkheid uit dat X zich rond x bevindt Veronderstel dat X normaal verdeeld is met gemiddelde µ en standaardafwijking σ; dan is de kansdichtheid in punt x: ( µ ) 1 x 2 2σ e 2 2πσ 2
13 Wat met continue attributen? Indien we veronderstellen dat een variable X normaal verdeeld is gegeven de klasse: P( X ) wordt volledig bepaald door de parameters µ en σ We kunnen deze parameters in de data schatten De waarden van de parameters wordt in het model opgenomen (sample mean, sample variation)
14 1 0 Voorbeeld: Mix van attributen c c Tid Refund Marital Status c Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Evade 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes naive ayes lassifier: P(Refund=Yes No) = 3/7 P(Refund=No No) = 4/7 P(Refund=Yes Yes) = 0 P(Refund=No Yes) = 1 P(Marital Status=Single No) = 2/7 P(Marital Status=Divorced No)=1/7 P(Marital Status=Married No) = 4/7 P(Marital Status=Single Yes) = 2/7 P(Marital Status=Divorced Yes)=1/7 P(Marital Status=Married Yes) = 0 For taxable income: If class=no: sample mean=110 sample variance=2975 If class=yes: sample mean=90 sample variance=25 Voorbeeld: mix van attributen Gegeven test record: X = ( Refund = No,Married,Income = 120K) naive ayes lassifier: P(Refund=Yes No) = 3/7 P(Refund=No No) = 4/7 P(Refund=Yes Yes) = 0 P(Refund=No Yes) = 1 P(Marital Status=Single No) = 2/7 P(Marital Status=Divorced No)=1/7 P(Marital Status=Married No) = 4/7 P(Marital Status=Single Yes) = 2/7 P(Marital Status=Divorced Yes)=1/7 P(Marital Status=Married Yes) = 0 For taxable income: If class=no: sample mean=110 sample variance=2975 If class=yes: sample mean=90 sample variance=25 P(X lass=no) = P(Refund=No lass=no) P(Married lass=no) P(Income=120K lass=no) = 4/7 4/ = P(X lass=yes) = P(Refund=No lass=yes) P(Married lass=yes) P(Income=120K lass=yes) = = 0 P(X No)P(No) > P(X Yes)P(Yes) Dus P(No X) > P(Yes X), en we voorspellen lass = No
15 Probleem met Naïve ayes lassifier ls 1 van de probabiliteiten 0 is, wordt alles 0 Daarom meestal aangepaste schatting: Originele : P( = v ) = Laplace : P( = v ) = N N N N m estimate : P( = v ) = ic c ic c 1 c Nic mp N m c c: aantal klassen p: prior voor P(=v ) m: parameter Naïve ayes (Samenvatting) Robuust m.b.t. ruis en irrelevante attributen Ontbrekende waarden makkelijk op te vangen Maakt erg sterke veronderstellingen Onafhankelijkheid: zelden of nooit waar preprocessing! Voor continue data: normale distributie Vaak niet waar normalisatie toepassen! Dus: gebruik preprocessing fase om randcondities waar te maken
16 Overzicht van deze les De Naïveayes classifier Overzicht van andere classificatiemethodes eslissingsregels Nearest neighbors Lineaire discriminant (perceptron learning) Performantie van classifiers beoordelen? ccuracy, precision, recall ost sensitivity eslissingsregels eslissingsregels Model is een (geordende) set van regels Verschillende interpretaties R1: (Give irth = no) (an Fly = yes) irds R2: (Give irth = no) (Live in Water = yes) Fishes R3: (Give irth = yes) (lood Type = warm) Mammals R4: (Give irth = no) (an Fly = no) Reptiles R5: (Live in Water = sometimes) mphibians Name lood Type Give irth an Fly Live in Water lass turtle cold no no sometimes?
17 eslissingsregels Leeralgoritmes zijn erg gelijkaardig aan die voor beslissingsbomen Iteratie: Leer de beste regel Topdown of bottomup Verwijder alle voorbeelden die door deze regel gecovered worden uit de dataset Totdat een stopconditie waar is eslissingsregels Leeralgoritmes zijn erg gelijkaardig aan die voor beslissingsbomen Iteratie: Leer de beste regel Topdown of bottomup Verwijder alle voorbeelden die door deze regel gecovered worden uit de dataset Totdat een stopconditie waar is
18
19
20 Voordelen van beslissingsregels Even expressief als beslissingsbomen Makkelijk te interpreteren Snel te genereren Nieuwe instanties snel genereren Performantie vergelijkbaar met beslissingsbomen
21 Nearest neighbor If it walks like a duck, quacks like a duck, then it s probably a duck Model = de volledige dataset Nieuw voorbeeld: Vind k dichtste buren Voorspel de klasse die het vaakst voorkomt
22 Problemen en voordelen van knn knn kan maar zo goed zijn als de afstandsmaat Schaling urse of dimensionality knn model : geen informatie over de data Lazy learner Tijdsintensief om grote hoeveelheden nieuwe gegevens te classificeren Indexstructuren Erg simpel en vaak erg doeltreffend Lineaire discriminant Enkel bij continue data Zoek een hypervlak dat de data zo goed mogelijk scheidt
23 Lineaire discriminant Enkel bij continue data Zoek een hypervlak dat de data zo goed mogelijk scheidt Lineaire discriminant Dus, model = hypervlak w 0 w 1 x 1 w 2 x 2 w k x k = 0 Nieuw voorbeeld x: Kijk of w.x al dan niet kleiner is dan w 0 lgoritmes maken hier een optimalisatieprobleem van: Gegeven een criterium, bvb: kleinste kwadraten E = [ Y w ] 2 0 w1 x1... w n x n ( x, Y ) D Zoek de optimale gewichten
24 Overzicht van deze les De Naïveayes classifier Overzicht van andere classificatiemethodes eslissingsregels Nearest neighbors Lineaire discriminant (perceptron learning) Performantie van classifiers beoordelen? ccuracy, precision, recall ost sensitivity Volgende les
Data Mining: Classificatie
Data Mining: Classificatie docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Overzicht Wat is classificatie? Leren van een beslissingsboom. Problemen
Nadere informatie2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.
1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van
Nadere informatieData Mining: Data kwaliteit, Preprocessing
Data Mining: Data kwaliteit, Preprocessing docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Herhaling: definitie Data Mining is: Extractie van interessante
Nadere informatieOplossingen Datamining 2II15 Juni 2008
Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen:
Nadere informatieData Mining: Clustering
Data Mining: Clustering docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Wat is clustering? Het onderverdelen van de objecten in een database in homogene
Nadere informatieUitwerking Tentamen Datamining (2II15) 26/06/09
Uitwerking Tentamen Datamining (2II15) 26/06/09 1. (3p) (Clustering) Welke van de volgende uitspraken zijn correct? Voor de correcte uitspraken: leg uit, voor de incorrecte: geef een tegenvoorbeeld. (a)
Nadere informatieData Mining: Inleiding
Data Mining: Inleiding docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining 2II15: Data mining en kennissystemen Lessen: maandag 7de en 8ste uur in Auditorium
Nadere informatieClassification - Prediction
Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training
Nadere informatieTentamen Kunstmatige Intelligentie (INFOB2KI)
Tentamen Kunstmatige Intelligentie (INFOB2KI) 30 januari 2014 10:30-12:30 Vooraf Mobiele telefoons dienen uitgeschakeld te zijn. Het tentamen bestaat uit 7 opgaven; in totaal kunnen er 100 punten behaald
Nadere informatieHoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent
Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data p 1/31 Beschrijvende
Nadere informatie9. Lineaire Regressie en Correlatie
9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)
Nadere informatieToetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling
Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Moore, McCabe & Craig: 3.3 Toward Statistical Inference From Probability to Inference 5.1 Sampling Distributions for
Nadere informatieToets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:
Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan
Nadere informatieTW2020 Optimalisering
TW2020 Optimalisering Hoorcollege 8 Leo van Iersel Technische Universiteit Delft 2 november 2016 Leo van Iersel (TUD) TW2020 Optimalisering 2 november 2016 1 / 28 Minimum Opspannende Boom (Minimum Spanning
Nadere informatieVandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses
Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling
Nadere informatieBSc Kunstmatige Intelligentie. : Bachelor Kunstmatige Intelligentie Studiejaar, Semester, Periode : semester 1, periode 2
Studiewijzer BACHELOR KUNSTMATIGE INTELLIGENTIE Vak : Opleiding : Bachelor Kunstmatige Intelligentie Studiejaar, Semester, Periode : 2015-2016 semester 1, periode 2 Coördinator(en) : dr. Maarten van Someren
Nadere informatieTW2020 Optimalisering
TW2020 Optimalisering Hoorcollege 8 Leo van Iersel Technische Universiteit Delft 28 oktober 2015 Leo van Iersel (TUD) TW2020 Optimalisering 28 oktober 2015 1 / 25 Definitie Een boom is een samenhangende
Nadere informatieVandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen
Vandaag Onderzoeksmethoden: Statistiek 2 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Theoretische kansverdelingen
Nadere informatieDATA MINING (TI2730-C)
Technische Universiteit Delft Elektrotechniek, Wiskunde en Informatica Secties: Pattern Recognition & Bioinformatics & Multimedia Signal Processing DATA MINING (TI2730-C) Schriftelijk (her)tentomen. Dinsdag
Nadere informatieData Mining: Opdracht 2
Data Mining: Opdracht 2 7 juli 2006 Egbert Kroese (#0134252) Paul Lammertsma (#0305235) Inhoudsopgave 1. De datasets...3 1.1 Iris...3 1.2 Vote...3 1.3 Autos...4 2. De algoritmen...4 2.1 Naive Bayes...4
Nadere informatie1. Statistiek gebruiken 1
Hoofdstuk 0 Inhoudsopgave 1. Statistiek gebruiken 1 2. Gegevens beschrijven 3 2.1 Verschillende soorten gegevens......................................... 3 2.2 Staafdiagrammen en histogrammen....................................
Nadere informatieHerkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.
Herkansing Inleiding Intelligente Data Analyse Datum: 3-3-2003 Tijd: 14.00-17.00, BBL 508 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.
Nadere informatieKansrekening en stochastische processen 2S610
Kansrekening en stochastische processen 2S610 Docent : Jacques Resing E-mail: j.a.c.resing@tue.nl http://www.win.tue.nl/wsk/onderwijs/2s610 1/28 Schatten van de verwachting We hebben een stochast X en
Nadere informatieDuration: 2 hrs; Total points: 100 No documents allowed. You can use a regular calculator.
: Computationele Intelligentie (INFOCI) Exam II Duration: hrs; Total points: No documents allowed. You can use a regular calculator. Question [ points] In de Allais paradox krijgen mensen de keuze tussen
Nadere informatieContinuous Learning in Computer Vision S.L. Pintea
Continuous Learning in Computer Vision S.L. Pintea Continuous Learning in Computer Vision Natura non facit saltus. Gottfried Leibniz Silvia-Laura Pintea Intelligent Sensory Information Systems University
Nadere informatieStatistiek voor A.I. College 9. Donderdag 11 Oktober
Statistiek voor A.I. College 9 Donderdag 11 Oktober 1 / 48 2 Deductieve statistiek Bayesiaanse statistiek 2 / 48 Reistijd naar college (minuten). Jullie - onderzoek Tim Histogram of CI Frequency 0 1 2
Nadere informatiewerkcollege 6 - D&P9: Estimation Using a Single Sample
cursus 9 mei 2012 werkcollege 6 - D&P9: Estimation Using a Single Sample van frequentie naar dichtheid we bepalen frequenties van meetwaarden plot in histogram delen door totaal aantal meetwaarden > fracties
Nadere informatieZowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y
1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld
Nadere informatieTentamen Data Mining
Tentamen Data Mining Algemene Opmerkingen Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. Laat bij het uitvoeren van berekeningen zien hoe je aan een antwoord gekomen bent.
Nadere informatieintroductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte
toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling Moore, McCabe, and Craig. Introduction to the Practice of Statistics Chapter 5: Sampling Distributions 5.1: The
Nadere informatieTentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6
Tentamen Data Mining Datum: 4januai2l6 Tijd: 4: - 7: Algemene Opmerkingen e Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. o Laat bij het uitvoeren van berekeningen zien hoeje
Nadere informatieVoorspellen van webwinkel aankopen met een Random Forest
Voorspellen van webwinkel aankopen met een Random Forest Dorenda Slof Erasmus Universiteit Rotterdam Econometrie en Operationele Research 30 juni 2014 Samenvatting In dit empirische onderzoek voorspellen
Nadere informatieKansrekening en stochastische processen 2DE18
Kansrekening en stochastische processen 2DE18 Docent : Jacques Resing E-mail: resing@win.tue.nl 1/23 Voor een verzameling stochastische variabelen X 1,..., X n, de verwachting van W n = X 1 + + X n is
Nadere informatieKansrekening en Statistiek
Kansrekening en Statistiek College 14 Donderdag 28 Oktober 1 / 37 2 Statistiek Indeling: Hypothese toetsen Schatten 2 / 37 Vragen 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden
Nadere informatieHoofdstuk 9 De Normale Verdeling. Kern 1 Normale verdelingen. Netwerk, 4 Havo A, uitwerkingen Hoofdstuk 9, De Normale Verdeling Elleke van der Most
Hoofdstuk 9 De Normale Verdeling Kern Normale verdelingen a percentage 30 0 0 57 6 67 7 77 8 87 9 97 0 07 De polygoon heeft een klokvorm. b De gemiddelde lengte valt in de klasse 80 84 cm. Omdat 8 precies
Nadere informatieTentamen Kunstmatige Intelligentie (INFOB2KI)
Tentamen Kunstmatige Intelligentie (INFOB2KI) 12 december 2014 8:30-10:30 Vooraf Mobiele telefoons en dergelijke dienen uitgeschakeld te zijn. Het eerste deel van het tentamen bestaat uit 8 multiple-choice
Nadere informatieOpgeloste Oefeningen Hoofdstuk 6: Steekproeven en empirische distributies
Opgeloste Oefeningen Hoofdstuk 6: Steekproeven en empirische distributies 6.. Uit een normaal verdeeld universum X met gemiddelde waarde µ = en standaardafwijking σ = worden 0 onafhankelijke steekproefwaarden
Nadere informatieParking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie
Parking Surveillance foreground/background segmentation - objectherkenning Examen Beeldverwerking Pieter Vancoillie Doel van het (deel)project Uit beelden van een camera voetgangers, fietsers en auto s
Nadere informatiemlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2
mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 Bjorn Winkens Methodologie en Statistiek Universiteit Maastricht 21 maart
Nadere informatieTECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd
Nadere informatieData mining Van boodschappenmandjes tot bio-informatica
Data mining Van boodschappenmandjes tot bio-informatica Walter Kosters Informatica, Universiteit Leiden donderdag 6 april 2006 http://www.liacs.nl/home/kosters/ 1 Wat is Data mining? Data mining probeert
Nadere informatieMeten en experimenteren
Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie
Nadere informatieKansrekening en Statistiek
Kansrekening en Statistiek College 7 Dinsdag 11 Oktober 1 / 33 2 Statistiek Vandaag: Populatie en steekproef Maten Standaardscores Normale verdeling Stochast en populatie Experimenten herhalen 2 / 33 3
Nadere informatieTentamen Kansrekening en Statistiek MST 14 januari 2016, uur
Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord
Nadere informatieToegepaste Wiskunde 2: Het Kalman-filter
Toegepaste Wiskunde 2: Het Kalman-filter 25 februari, 2008 Hans Maassen 1. Inleiding Het Kalman filter schat de toestand van een systeem op basis van een reeks, door ruis verstoorde waarnemingen. Een meer
Nadere informatieTW2020 Optimalisering
TW2020 Optimalisering Hoorcollege 3 Leo van Iersel Technische Universiteit Delft 21 september 2016 Leo van Iersel (TUD) TW2020 Optimalisering 21 september 2016 1 / 36 LP: Lineair Programmeren min x 1 2
Nadere informatieTentamen Inleiding Kansrekening 9 juni 2016, 10:00 13:00 Docent: Prof. dr. F. den Hollander
Tentamen Inleiding Kansrekening 9 juni 6, : 3: Docent: Prof. dr. F. den Hollander Bij dit tentamen is het gebruik van boek en aantekeningen niet toegestaan. Er zijn 8 vragen, elk met onderdelen. Elk onderdeel
Nadere informatieCursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)
Cursus Statistiek Hoofdstuk 4 Statistiek voor Informatica Hoofdstuk 4: Verwachtingen Cursusjaar 29 Peter de Waal Departement Informatica Inhoud Verwachtingen Variantie Momenten en Momentengenererende functie
Nadere informatieLes 1: Waarschijnlijkheidrekening
Les 1: Waarschijnlijkheidrekening A Men neemt een steekproef van 1000 appelen. Deze worden ingedeeld volgens gewicht en volgens symptomen van een bepaalde schimmel: geen, mild, gematigd of ernstig. Het
Nadere informatie. Dan geldt P(B) = a. 1 4. d. 3 8
Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open
Nadere informatietwee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben.
Samenvatting Deze thesis handelt over privacy preserving data mining. Data mining is een tak van de wetenschap waarin men grote hoeveelheden data onderzoekt met de bedoeling er bepaalde patronen in te
Nadere informatieLes 1: de normale distributie
Les 1: de normale distributie Elke Debrie 1 Statistiek 2 e Bachelor in de Biomedische Wetenschappen 18 oktober 2018 1 Met dank aan Koen Van den Berge Indeling lessen Elke bullet point is een week. R en
Nadere informatieMeten en experimenteren
Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 5 oktober 007 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D Hondt
Nadere informatieAI en Software Testing op de lange termijn
AI en Software Testing op de lange termijn Is het een appel? Traditioneel programmeren AI Kleur = rood, groen, geel Vorm = rond Textuur = glad Artificial Intelligence Machine Learning Methods Technologies
Nadere informatieWAARSCHIJNLIJKHEID (EN) MODELLEREN
WAARSCHIJNLIJKHEID (EN) MODELLEREN Gert de Cooman Universiteit Gent, SYSTeMS gert.decooman@ugent.be http://users.ugent.be/ gdcooma gertekoo.wordpress.com TechBoost 18 april 2013 Probabilistische Systeemtheorie
Nadere informatieKansrekening en statistiek wi2105in deel 2 16 april 2010, uur
Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop
Nadere informatieMULTIPELE IMPUTATIE IN VOGELVLUCHT
MULTIPELE IMPUTATIE IN VOGELVLUCHT Stef van Buuren We hebben het er liever niet over, maar allemaal worden we geplaagd door ontbrekende gegevens. Het liefst moffelen we problemen veroorzaakt door ontbrekende
Nadere informatieHoofdstuk 5 Een populatie: parametrische toetsen
Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie
Nadere informatieExamen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008
Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer
Nadere informatieInleiding Applicatie Software - Statgraphics
Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een
Nadere informatieKunstmatige Intelligentie (AI) Hoofdstuk 13 en 14 van Russell/Norvig = [RN] Bayesiaanse netwerken. voorjaar 2016 College 12, 10 mei 2016
AI Kunstmatige Intelligentie (AI) Hoofdstuk 13 en 14 van Russell/Norvig = [RN] Bayesiaanse netwerken voorjaar 2016 College 12, 10 mei 2016 www.liacs.leidenuniv.nl/ kosterswa/ai/ 1 Introductie We gaan nu
Nadere informatieSPSS Introductiecursus. Sanne Hoeks Mattie Lenzen
SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen
Nadere informatie14.1 Kansberekeningen [1]
14.1 Kansberekeningen [1] Herhaling kansberekeningen: Somregel: Als de gebeurtenissen G 1 en G 2 geen gemeenschappelijke uitkomsten hebben geldt: P(G 1 of G 2 ) = P(G 1 ) + P(G 2 ) B.v. P(3 of 4 gooien
Nadere informatied(w j, x i ) d(w l, x i ) Voorbeeld
Transparanten bij het vak Inleiding Adaptieve Systemen: Unsupervised Leren/ Self organizing networks. M. Wiering Unsupervised Learning en Self Organizing Networks Leerdoelen: Weten wat unsupervised learning
Nadere informatieLiving Labs : NFI & RvdK Samen onderweg naar meer grip op data. JenV I-tour presentatie 24 april 2018
Living Labs : NFI & RvdK Samen onderweg naar meer grip op data JenV I-tour presentatie 24 april 2018 1 Agenda Deel I - door Jannie RvdK Intermezzo filmpje I-plan JenV Deel II door Femke en Xandra NFI KInD
Nadere informatieStatistische verwerking van ringtestresultaten onder ISO Siegfried Hofman
11/10/2010 Statistische verwerking van ringtestresultaten onder ISO 17043 Siegfried Hofman Kader ISO 17043 (maa 2010): Conformity assessment General Requirements For Proficiency Testing» ISO Guide 43 (1997):
Nadere informatieSamenvatting (Summary in Dutch)
Het voornaamste doel van dit proefschrift is nieuwe methoden te ontwikkelen en te valideren om de effectiviteit van customization te kunnen bepalen en hoe dataverzameling kan worden verbeterd. Om deze
Nadere informatieToegepaste data-analyse: oefensessie 2
Toegepaste data-analyse: oefensessie 2 Depressie 1. Beschrijf de clustering van de dataset en geef aan op welk niveau de verschillende variabelen behoren Je moet weten hoe de data geclusterd zijn om uit
Nadere informatieInleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek
Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje
Nadere informatieLes 5: Analysis of variance
Les 5: Analysis of variance 2de bachelor in de chemie en biologie 14/11/2018 Jeroen Gilis Gebaseerd op slides Caroline De Tender Testen die we tot nu toe gezien hebben: Toetsen van één gemiddelde ten opzichte
Nadere informatieDerde college complexiteit. 7 februari Zoeken
College 3 Derde college complexiteit 7 februari 2017 Recurrente Betrekkingen Zoeken 1 Recurrente betrekkingen -1- Rij van Fibonacci: 0,1,1,2,3,5,8,13,21,... Vanaf het derde element: som van de voorgaande
Nadere informatieKansrekening en Statistiek
Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve
Nadere informatiePredictieve modellen - overzicht
Predictieve modellen - overzicht 08-01-2018 Jochem Grietens Verhaert Alexander Frimout Verhaert 1 AI voor lichtcontrole Het doel is om de verlichting van de Vlaamse snelweg slimmer te maken met behulp
Nadere informatieVoorbeeldtentamen Statistiek voor Psychologie
Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij
Nadere informatieStatistiek voor A.I.
Statistiek voor A.I. College 13 Donderdag 25 Oktober 1 / 28 2 Deductieve statistiek Orthodoxe statistiek 2 / 28 3 / 28 Jullie - onderzoek Tobias, Lody, Swen en Sander Links: Aantal broers/zussen van het
Nadere informatieData analyse Inleiding statistiek
Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door
Nadere informatieTECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.
VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT
Nadere informatieStatistiek voor Natuurkunde Opgavenserie 1: Kansrekening
Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail
Nadere informatieMeten en experimenteren
Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 6 oktober 009 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D Hondt
Nadere informatie13.1 Kansberekeningen [1]
13.1 Kansberekeningen [1] Herhaling kansberekeningen: Somregel: Als de gebeurtenissen G 1 en G 2 geen gemeenschappelijke uitkomsten hebben geldt: P(G 1 of G 2 ) = P(G 1 ) + P(G 2 ) B.v. P(3 of 4 gooien
Nadere informatieHoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1
Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch
Nadere informatieData Mining. Eindverslag 7 juni 2009
Data Mining Eindverslag 7 juni 2009 Naam: Mathijs de Langen 0611699 Stijn Koopal 0613671 Marvin Raaijmakers 0608141 Giel Oerlemans 0607213 Email: m.a.d.langen@student.tue.nl s.koopal@student.tue.nl m.raaijmakers@student.tue.nl
Nadere informatieStatistiek voor A.I. College 1. Dinsdag 11 September 2012
Statistiek voor A.I. College 1 Dinsdag 11 September 2012 1 / 39 Literatuur Website: http://phil.uu.nl/statistiek/ Applied Statistics for the Behavioral Sciences - 5th edition, Dennis E. Hinkle, William
Nadere informatieTW2020 Optimalisering
TW2020 Optimalisering Hoorcollege 3 Leo van Iersel Technische Universiteit Delft 21 september 2016 Leo van Iersel (TUD) TW2020 Optimalisering 21 september 2016 1 / 36 LP: Lineair Programmeren min x 1 2
Nadere informatiec Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6
c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 1. Iemand kiest geblinddoekt 4 paaseitjes uit een mand met oneindig veel paaseitjes. De helft is melkchocolade, de andere
Nadere informatieTentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.
Tentamen Inleiding Intelligente Data Analyse Datum: 19-12-2002 Tijd: 9.00-12.00, BBL 420 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.
Nadere informatieBestrijd illegale houtkap en red het regenwoud met HANA
Bestrijd illegale houtkap en red het regenwoud met HANA Expertum NL, RFCx, SAP Dirk Kemper en Eline Bangert 14 Mei 2019 Oktober 2017 - SAP Run Live Truck Doel: App voor de rangers - Prototype binnen 5
Nadere informatie11. Multipele Regressie en Correlatie
11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in
Nadere informatieEEN INTRODUCTIE TOT SUPPORT VECTOR MACHINES DOOR PIETER WELLENS
EEN INTRODUCTIE TOT SUPPORT VECTOR MACHINES DOOR PIETER WELLENS Eindwerk ingediend met het oog op het behalen van de graad Licentiaat in de Wetenschappen. Promotor: Prof. Dr. B. Verdonk UNIVERSITEIT ANTWERPEN
Nadere informatieTECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2, Vrijdag 23 januari 25, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven dienen
Nadere informatiePositiebepaling met WiFi-signalen
Positiebepaling met WiFi-signalen Groep H3 Probleemoplossen en ontwerpen, Departement Computerwetenschappen 22 mei 2007 Overzicht 1 Inleiding 2 Omschrijving van de applicatie 3 Implementatie 4 Algoritme
Nadere informatieHOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN
HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN. Continue Verdelingen 1 A. De uniforme (of rechthoekige) verdeling Kansdichtheid en cumulatieve frequentiefunctie Voor x < a f(x) = 0 F(x) = 0 Voor a x
Nadere informatieRaamwerk voor Optimale Globale Belichting
Raamwerk voor Optimale Globale Belichting Lukas Latacz Mathieu De Zutter Departement Computer Graphics K.U.Leuven 18 april 2005 Overzicht 1 Inleiding Situering Probleemstelling Vorig werk 2 Nieuw raamwerk
Nadere informatieCitation for published version (APA): Adiguzel, F. (2006). Essays on Customization Applications in Marketing s.n.
University of Groningen Essays on Customization Applications in Marketing Adiguzel, Feray IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF) if you wish to cite from it.
Nadere informatieOefenvragen bij Statistics for Business and Economics van Newbold
Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd
Nadere informatieDeze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie
Deze week: Schatten Statistiek voor Informatica Hoofdstuk 6: Schatten Cursusjaar 2009 Peter de Waal Departement Informatica Statistische inferentie A Priori en posteriori verdelingen Geconjugeerde a priori
Nadere informatieCollege 2 Enkelvoudige Lineaire Regressie
College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:
Nadere informatieHoofdstuk 10: Regressie
Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.
Nadere informatie4.1 Eigenschappen van de normale verdeling [1]
4.1 Eigenschappen van de normale verdeling [1] Relatief frequentiepolygoon van de lengte van mannen in 1968 1 4.1 Eigenschappen van de normale verdeling [1] In dit plaatje is een frequentiepolygoon getekend.
Nadere informatie