Data Mining: Classificatie
|
|
|
- Gustaaf Wauters
- 9 jaren geleden
- Aantal bezoeken:
Transcriptie
1 Data Mining: lassificatie docent: dr. Toon alders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Vorige les lassificatie: Het groeperen van objecten in voorgedefinieerde categorieen. lassifier inductie: Het leren classificeren gebaseerd op een trainingsset met gelabelde data. lassificatie algoritmes leren een model van de data.
2 Vorige les Decision tree induction Leren van een beslissingsboom gebaseerd op gelabelde data Hunts algoritme Maakt gebruik van lokale criteria Gebruik van bvb. GINIindex om beste split te kiezen Vorige les Voorbeeld: classificeren van diersoort (Weka)
3 Vorige les Problemen met beslissingsbomen: Sommige functies zijn moeilijk uit te drukken Overfitting Underfitting Overzicht van deze les De Naïveayes classifier Overzicht van andere classificatiemethodes eslissingsregels Nearest neighbors Lineaire discriminant (perceptron learning) Performantie van classifiers beoordelen? ccuracy, precision, recall ost sensitivity
4 Naïve ayes lassifier Maakt een probabilistisch model van de data Werkt op discrete data Ook uitbreidingen voor normaal verdeelde data De Naïve ayes classifier Gebaseerd op de stelling van ayes: P( ) P( ) P ( ) = P( ) = attributen = klasse attribuut
5 Voorbeeld van het theorema van ayes Gegeven meningitis veroorzaakt nekpijn in 50% van de gevallen 1/50,000 patienten heeft meningitis 1/20 van de patienten heeft nekpijn ls een patient nekpijn heeft, wat is dan de kans op meningitis? Voorbeeld van het theorema van ayes ls een patient nekpijn heeft, wat is dan de kans op meningitis? P(S) = 1/20 P(M) = 1/50,000 P(S M) = ½ Kans op meningitis gegeven nekpijn: P( S M ) P( M ) 0.5 1/ P( M S) = = = P( S) 1/ 20
6 ayesiaanse classifiers eschouw elke variabele (ook klasse) als stochastische variabele Gegeven een record ( 1, 2,, n,) Doel is het voorspellen van klasse ; we zoeken die die P( 1, 2,, n ) maximaliseert Hoe kunnen we P( 1, 2,, n ) direkt uit de data bepalen? ayesiaanse classifiers anpak: ereken de posterior P( 1, 2,, n ) voor alle klassen : P ( 1 2 K ) = n P ( K ) P ( ) 1 2 n P ( K ) Kies de waarde van met maximale P( 1, 2,, n ) 1 2 n Hoe kunnen we P( 1, 2,, n ) benaderen met de data die we hebben?
7 Hoe kunnen we P( 1, 2,, n ) benaderen? Tellen: voor elke combinatie van 1,, n, tel de frequentie van de klassen Echter, niet elke combinatie komt voor in de trainingset Daarom: veronderstellingen maken over de attributen Naïve ayes veronderstelt dat attributen onafhankelijk zijn N classifier verondersteld dat afhankelijkheden expliciet gegeven zijn Naïve ayes lassifier We veronderstellen onafhankelijkheid gegeven het klasse attribuut: P( 1, 2,, n ) = P( 1 ) P( 2 ) P( n ) P( i ) kan wel uit de data gehaald worden voor elk attribuut. Wat is de formule voor P( 1, 2,, n ) uitgaande van de veronderstelling van onafhankelijkheid?
8 Naïve ayes lassifier Wat is de formule voor P( 1, 2,, n ) uitgaande van de veronderstelling van onafhankelijkheid? ) ( ) ( ) ( ) ( ) ( ) ( )... ( ) ( ) ( ) ( ) ( n i n i n n n n P P P P P P P P P P P K K K K = = = = Naïve ayes lassifier Voor elk attribuut : Voor elke waarde v van dat attribuut: Voor elke klasse : Schat de kans P(=v ) als volgt: P(=v ) # o van klasse met o. = v #o van klasse Het model: De prior: P() voor alle klassen Voor elke (,v,) : schatting P(=v )
9 Toepassen van de classifier Gegeven: het model geleerd door de classifier: Prior P() voor alle klassen Voor elk triplet (,v,) : P(=v ) Gegeven een nieuw voorbeeld (v 1,, v n,?) Welke klasse voorspellen we? Toepassen van de classifier Gegeven een nieuw voorbeeld (v 1,, v n,?) Welke klasse voorspellen we? ereken voor elke klasse : n P( i i= 1 = v i ) P( ) Voorspel de klasse die dit produkt maximaliseert
10 Voorbeeld (DM = klasse) D Stat DM Model: Voorbeeld (DM = klasse) D Stat DM Model: Klasse = (60%) D: Stat: Klasse = (40%) D: Stat: 0 1 1
11 Voorbeeld (DM = klasse) D Stat DM Voorspelling voor een student met D=, Stat=? Model: Klasse = (60%) D: Stat: Klasse = (40%) D: Stat: Voorbeeld (DM = klasse) D Stat DM Voorspelling voor een student met D=, Stat=? Klasse : 40% x 50% x 50% = 0.1 Klasse : 60% x 33% x 66% = 0.13 Model: Klasse = (60%) D: Stat: Klasse = (40%) D: Stat: 0 1 1
12 Wat met continue attributen? Voor continue attributen: Discretiseren Houdt steeds informatie verlies in. Moeilijk om het juiste aantal intervallen te bepalen: Meer intervallen [l,u] = relatief slechtere benadering van P( in [l,u] ). Twoway split: ( < v) or ( > v) kies een enkel splitpunt (bvb. Meest informatieve) Schat parameters van de distributie: ij discrete data karakteriseren we eigenlijk de volledige distributie Dit kunnen we ook doen bij continue data indien we een bepaalde klasse van distributies veronderstellen Schatten van parameters De kansdichtheid in een punt x drukt de waarschijnlijkheid uit dat X zich rond x bevindt Veronderstel dat X normaal verdeeld is met gemiddelde µ en standaardafwijking σ; dan is de kansdichtheid in punt x: ( µ ) 1 x 2 2σ e 2 2πσ 2
13 Wat met continue attributen? Indien we veronderstellen dat een variable X normaal verdeeld is gegeven de klasse: P( X ) wordt volledig bepaald door de parameters µ en σ We kunnen deze parameters in de data schatten De waarden van de parameters wordt in het model opgenomen (sample mean, sample variation)
14 1 0 Voorbeeld: Mix van attributen c c Tid Refund Marital Status c Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Evade 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes naive ayes lassifier: P(Refund=Yes No) = 3/7 P(Refund=No No) = 4/7 P(Refund=Yes Yes) = 0 P(Refund=No Yes) = 1 P(Marital Status=Single No) = 2/7 P(Marital Status=Divorced No)=1/7 P(Marital Status=Married No) = 4/7 P(Marital Status=Single Yes) = 2/7 P(Marital Status=Divorced Yes)=1/7 P(Marital Status=Married Yes) = 0 For taxable income: If class=no: sample mean=110 sample variance=2975 If class=yes: sample mean=90 sample variance=25 Voorbeeld: mix van attributen Gegeven test record: X = ( Refund = No,Married,Income = 120K) naive ayes lassifier: P(Refund=Yes No) = 3/7 P(Refund=No No) = 4/7 P(Refund=Yes Yes) = 0 P(Refund=No Yes) = 1 P(Marital Status=Single No) = 2/7 P(Marital Status=Divorced No)=1/7 P(Marital Status=Married No) = 4/7 P(Marital Status=Single Yes) = 2/7 P(Marital Status=Divorced Yes)=1/7 P(Marital Status=Married Yes) = 0 For taxable income: If class=no: sample mean=110 sample variance=2975 If class=yes: sample mean=90 sample variance=25 P(X lass=no) = P(Refund=No lass=no) P(Married lass=no) P(Income=120K lass=no) = 4/7 4/ = P(X lass=yes) = P(Refund=No lass=yes) P(Married lass=yes) P(Income=120K lass=yes) = = 0 P(X No)P(No) > P(X Yes)P(Yes) Dus P(No X) > P(Yes X), en we voorspellen lass = No
15 Probleem met Naïve ayes lassifier ls 1 van de probabiliteiten 0 is, wordt alles 0 Daarom meestal aangepaste schatting: Originele : P( = v ) = Laplace : P( = v ) = N N N N m estimate : P( = v ) = ic c ic c 1 c Nic mp N m c c: aantal klassen p: prior voor P(=v ) m: parameter Naïve ayes (Samenvatting) Robuust m.b.t. ruis en irrelevante attributen Ontbrekende waarden makkelijk op te vangen Maakt erg sterke veronderstellingen Onafhankelijkheid: zelden of nooit waar preprocessing! Voor continue data: normale distributie Vaak niet waar normalisatie toepassen! Dus: gebruik preprocessing fase om randcondities waar te maken
16 Overzicht van deze les De Naïveayes classifier Overzicht van andere classificatiemethodes eslissingsregels Nearest neighbors Lineaire discriminant (perceptron learning) Performantie van classifiers beoordelen? ccuracy, precision, recall ost sensitivity eslissingsregels eslissingsregels Model is een (geordende) set van regels Verschillende interpretaties R1: (Give irth = no) (an Fly = yes) irds R2: (Give irth = no) (Live in Water = yes) Fishes R3: (Give irth = yes) (lood Type = warm) Mammals R4: (Give irth = no) (an Fly = no) Reptiles R5: (Live in Water = sometimes) mphibians Name lood Type Give irth an Fly Live in Water lass turtle cold no no sometimes?
17 eslissingsregels Leeralgoritmes zijn erg gelijkaardig aan die voor beslissingsbomen Iteratie: Leer de beste regel Topdown of bottomup Verwijder alle voorbeelden die door deze regel gecovered worden uit de dataset Totdat een stopconditie waar is eslissingsregels Leeralgoritmes zijn erg gelijkaardig aan die voor beslissingsbomen Iteratie: Leer de beste regel Topdown of bottomup Verwijder alle voorbeelden die door deze regel gecovered worden uit de dataset Totdat een stopconditie waar is
18
19
20 Voordelen van beslissingsregels Even expressief als beslissingsbomen Makkelijk te interpreteren Snel te genereren Nieuwe instanties snel genereren Performantie vergelijkbaar met beslissingsbomen
21 Nearest neighbor If it walks like a duck, quacks like a duck, then it s probably a duck Model = de volledige dataset Nieuw voorbeeld: Vind k dichtste buren Voorspel de klasse die het vaakst voorkomt
22 Problemen en voordelen van knn knn kan maar zo goed zijn als de afstandsmaat Schaling urse of dimensionality knn model : geen informatie over de data Lazy learner Tijdsintensief om grote hoeveelheden nieuwe gegevens te classificeren Indexstructuren Erg simpel en vaak erg doeltreffend Lineaire discriminant Enkel bij continue data Zoek een hypervlak dat de data zo goed mogelijk scheidt
23 Lineaire discriminant Enkel bij continue data Zoek een hypervlak dat de data zo goed mogelijk scheidt Lineaire discriminant Dus, model = hypervlak w 0 w 1 x 1 w 2 x 2 w k x k = 0 Nieuw voorbeeld x: Kijk of w.x al dan niet kleiner is dan w 0 lgoritmes maken hier een optimalisatieprobleem van: Gegeven een criterium, bvb: kleinste kwadraten E = [ Y w ] 2 0 w1 x1... w n x n ( x, Y ) D Zoek de optimale gewichten
24 Overzicht van deze les De Naïveayes classifier Overzicht van andere classificatiemethodes eslissingsregels Nearest neighbors Lineaire discriminant (perceptron learning) Performantie van classifiers beoordelen? ccuracy, precision, recall ost sensitivity Volgende les
Data Mining: Classificatie
Data Mining: Classificatie docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Overzicht Wat is classificatie? Leren van een beslissingsboom. Problemen
2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.
1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van
Data Mining: Data kwaliteit, Preprocessing
Data Mining: Data kwaliteit, Preprocessing docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Herhaling: definitie Data Mining is: Extractie van interessante
Oplossingen Datamining 2II15 Juni 2008
Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen:
Data Mining: Clustering
Data Mining: Clustering docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Wat is clustering? Het onderverdelen van de objecten in een database in homogene
Uitwerking Tentamen Datamining (2II15) 26/06/09
Uitwerking Tentamen Datamining (2II15) 26/06/09 1. (3p) (Clustering) Welke van de volgende uitspraken zijn correct? Voor de correcte uitspraken: leg uit, voor de incorrecte: geef een tegenvoorbeeld. (a)
Data Mining: Inleiding
Data Mining: Inleiding docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining 2II15: Data mining en kennissystemen Lessen: maandag 7de en 8ste uur in Auditorium
Classification - Prediction
Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training
Tentamen Kunstmatige Intelligentie (INFOB2KI)
Tentamen Kunstmatige Intelligentie (INFOB2KI) 30 januari 2014 10:30-12:30 Vooraf Mobiele telefoons dienen uitgeschakeld te zijn. Het tentamen bestaat uit 7 opgaven; in totaal kunnen er 100 punten behaald
Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent
Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data p 1/31 Beschrijvende
9. Lineaire Regressie en Correlatie
9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)
Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling
Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Moore, McCabe & Craig: 3.3 Toward Statistical Inference From Probability to Inference 5.1 Sampling Distributions for
Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:
Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan
TW2020 Optimalisering
TW2020 Optimalisering Hoorcollege 8 Leo van Iersel Technische Universiteit Delft 2 november 2016 Leo van Iersel (TUD) TW2020 Optimalisering 2 november 2016 1 / 28 Minimum Opspannende Boom (Minimum Spanning
Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses
Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling
BSc Kunstmatige Intelligentie. : Bachelor Kunstmatige Intelligentie Studiejaar, Semester, Periode : semester 1, periode 2
Studiewijzer BACHELOR KUNSTMATIGE INTELLIGENTIE Vak : Opleiding : Bachelor Kunstmatige Intelligentie Studiejaar, Semester, Periode : 2015-2016 semester 1, periode 2 Coördinator(en) : dr. Maarten van Someren
TW2020 Optimalisering
TW2020 Optimalisering Hoorcollege 8 Leo van Iersel Technische Universiteit Delft 28 oktober 2015 Leo van Iersel (TUD) TW2020 Optimalisering 28 oktober 2015 1 / 25 Definitie Een boom is een samenhangende
Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen
Vandaag Onderzoeksmethoden: Statistiek 2 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Theoretische kansverdelingen
DATA MINING (TI2730-C)
Technische Universiteit Delft Elektrotechniek, Wiskunde en Informatica Secties: Pattern Recognition & Bioinformatics & Multimedia Signal Processing DATA MINING (TI2730-C) Schriftelijk (her)tentomen. Dinsdag
Data Mining: Opdracht 2
Data Mining: Opdracht 2 7 juli 2006 Egbert Kroese (#0134252) Paul Lammertsma (#0305235) Inhoudsopgave 1. De datasets...3 1.1 Iris...3 1.2 Vote...3 1.3 Autos...4 2. De algoritmen...4 2.1 Naive Bayes...4
1. Statistiek gebruiken 1
Hoofdstuk 0 Inhoudsopgave 1. Statistiek gebruiken 1 2. Gegevens beschrijven 3 2.1 Verschillende soorten gegevens......................................... 3 2.2 Staafdiagrammen en histogrammen....................................
Kansrekening en stochastische processen 2S610
Kansrekening en stochastische processen 2S610 Docent : Jacques Resing E-mail: [email protected] http://www.win.tue.nl/wsk/onderwijs/2s610 1/28 Schatten van de verwachting We hebben een stochast X en
Duration: 2 hrs; Total points: 100 No documents allowed. You can use a regular calculator.
: Computationele Intelligentie (INFOCI) Exam II Duration: hrs; Total points: No documents allowed. You can use a regular calculator. Question [ points] In de Allais paradox krijgen mensen de keuze tussen
werkcollege 6 - D&P9: Estimation Using a Single Sample
cursus 9 mei 2012 werkcollege 6 - D&P9: Estimation Using a Single Sample van frequentie naar dichtheid we bepalen frequenties van meetwaarden plot in histogram delen door totaal aantal meetwaarden > fracties
Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y
1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld
Tentamen Data Mining
Tentamen Data Mining Algemene Opmerkingen Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. Laat bij het uitvoeren van berekeningen zien hoe je aan een antwoord gekomen bent.
introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte
toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling Moore, McCabe, and Craig. Introduction to the Practice of Statistics Chapter 5: Sampling Distributions 5.1: The
Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6
Tentamen Data Mining Datum: 4januai2l6 Tijd: 4: - 7: Algemene Opmerkingen e Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. o Laat bij het uitvoeren van berekeningen zien hoeje
Voorspellen van webwinkel aankopen met een Random Forest
Voorspellen van webwinkel aankopen met een Random Forest Dorenda Slof Erasmus Universiteit Rotterdam Econometrie en Operationele Research 30 juni 2014 Samenvatting In dit empirische onderzoek voorspellen
Kansrekening en stochastische processen 2DE18
Kansrekening en stochastische processen 2DE18 Docent : Jacques Resing E-mail: [email protected] 1/23 Voor een verzameling stochastische variabelen X 1,..., X n, de verwachting van W n = X 1 + + X n is
Kansrekening en Statistiek
Kansrekening en Statistiek College 14 Donderdag 28 Oktober 1 / 37 2 Statistiek Indeling: Hypothese toetsen Schatten 2 / 37 Vragen 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden
Hoofdstuk 9 De Normale Verdeling. Kern 1 Normale verdelingen. Netwerk, 4 Havo A, uitwerkingen Hoofdstuk 9, De Normale Verdeling Elleke van der Most
Hoofdstuk 9 De Normale Verdeling Kern Normale verdelingen a percentage 30 0 0 57 6 67 7 77 8 87 9 97 0 07 De polygoon heeft een klokvorm. b De gemiddelde lengte valt in de klasse 80 84 cm. Omdat 8 precies
Tentamen Kunstmatige Intelligentie (INFOB2KI)
Tentamen Kunstmatige Intelligentie (INFOB2KI) 12 december 2014 8:30-10:30 Vooraf Mobiele telefoons en dergelijke dienen uitgeschakeld te zijn. Het eerste deel van het tentamen bestaat uit 8 multiple-choice
Opgeloste Oefeningen Hoofdstuk 6: Steekproeven en empirische distributies
Opgeloste Oefeningen Hoofdstuk 6: Steekproeven en empirische distributies 6.. Uit een normaal verdeeld universum X met gemiddelde waarde µ = en standaardafwijking σ = worden 0 onafhankelijke steekproefwaarden
Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie
Parking Surveillance foreground/background segmentation - objectherkenning Examen Beeldverwerking Pieter Vancoillie Doel van het (deel)project Uit beelden van een camera voetgangers, fietsers en auto s
mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2
mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 Bjorn Winkens Methodologie en Statistiek Universiteit Maastricht 21 maart
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd
Data mining Van boodschappenmandjes tot bio-informatica
Data mining Van boodschappenmandjes tot bio-informatica Walter Kosters Informatica, Universiteit Leiden donderdag 6 april 2006 http://www.liacs.nl/home/kosters/ 1 Wat is Data mining? Data mining probeert
Meten en experimenteren
Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie
Kansrekening en Statistiek
Kansrekening en Statistiek College 7 Dinsdag 11 Oktober 1 / 33 2 Statistiek Vandaag: Populatie en steekproef Maten Standaardscores Normale verdeling Stochast en populatie Experimenten herhalen 2 / 33 3
Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur
Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord
Toegepaste Wiskunde 2: Het Kalman-filter
Toegepaste Wiskunde 2: Het Kalman-filter 25 februari, 2008 Hans Maassen 1. Inleiding Het Kalman filter schat de toestand van een systeem op basis van een reeks, door ruis verstoorde waarnemingen. Een meer
Tentamen Inleiding Kansrekening 9 juni 2016, 10:00 13:00 Docent: Prof. dr. F. den Hollander
Tentamen Inleiding Kansrekening 9 juni 6, : 3: Docent: Prof. dr. F. den Hollander Bij dit tentamen is het gebruik van boek en aantekeningen niet toegestaan. Er zijn 8 vragen, elk met onderdelen. Elk onderdeel
Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)
Cursus Statistiek Hoofdstuk 4 Statistiek voor Informatica Hoofdstuk 4: Verwachtingen Cursusjaar 29 Peter de Waal Departement Informatica Inhoud Verwachtingen Variantie Momenten en Momentengenererende functie
Les 1: Waarschijnlijkheidrekening
Les 1: Waarschijnlijkheidrekening A Men neemt een steekproef van 1000 appelen. Deze worden ingedeeld volgens gewicht en volgens symptomen van een bepaalde schimmel: geen, mild, gematigd of ernstig. Het
. Dan geldt P(B) = a. 1 4. d. 3 8
Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open
twee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben.
Samenvatting Deze thesis handelt over privacy preserving data mining. Data mining is een tak van de wetenschap waarin men grote hoeveelheden data onderzoekt met de bedoeling er bepaalde patronen in te
Les 1: de normale distributie
Les 1: de normale distributie Elke Debrie 1 Statistiek 2 e Bachelor in de Biomedische Wetenschappen 18 oktober 2018 1 Met dank aan Koen Van den Berge Indeling lessen Elke bullet point is een week. R en
WAARSCHIJNLIJKHEID (EN) MODELLEREN
WAARSCHIJNLIJKHEID (EN) MODELLEREN Gert de Cooman Universiteit Gent, SYSTeMS [email protected] http://users.ugent.be/ gdcooma gertekoo.wordpress.com TechBoost 18 april 2013 Probabilistische Systeemtheorie
Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur
Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop
MULTIPELE IMPUTATIE IN VOGELVLUCHT
MULTIPELE IMPUTATIE IN VOGELVLUCHT Stef van Buuren We hebben het er liever niet over, maar allemaal worden we geplaagd door ontbrekende gegevens. Het liefst moffelen we problemen veroorzaakt door ontbrekende
Hoofdstuk 5 Een populatie: parametrische toetsen
Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie
Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008
Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer
Inleiding Applicatie Software - Statgraphics
Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een
SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen
SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen
14.1 Kansberekeningen [1]
14.1 Kansberekeningen [1] Herhaling kansberekeningen: Somregel: Als de gebeurtenissen G 1 en G 2 geen gemeenschappelijke uitkomsten hebben geldt: P(G 1 of G 2 ) = P(G 1 ) + P(G 2 ) B.v. P(3 of 4 gooien
d(w j, x i ) d(w l, x i ) Voorbeeld
Transparanten bij het vak Inleiding Adaptieve Systemen: Unsupervised Leren/ Self organizing networks. M. Wiering Unsupervised Learning en Self Organizing Networks Leerdoelen: Weten wat unsupervised learning
Living Labs : NFI & RvdK Samen onderweg naar meer grip op data. JenV I-tour presentatie 24 april 2018
Living Labs : NFI & RvdK Samen onderweg naar meer grip op data JenV I-tour presentatie 24 april 2018 1 Agenda Deel I - door Jannie RvdK Intermezzo filmpje I-plan JenV Deel II door Femke en Xandra NFI KInD
Statistische verwerking van ringtestresultaten onder ISO Siegfried Hofman
11/10/2010 Statistische verwerking van ringtestresultaten onder ISO 17043 Siegfried Hofman Kader ISO 17043 (maa 2010): Conformity assessment General Requirements For Proficiency Testing» ISO Guide 43 (1997):
Samenvatting (Summary in Dutch)
Het voornaamste doel van dit proefschrift is nieuwe methoden te ontwikkelen en te valideren om de effectiviteit van customization te kunnen bepalen en hoe dataverzameling kan worden verbeterd. Om deze
Toegepaste data-analyse: oefensessie 2
Toegepaste data-analyse: oefensessie 2 Depressie 1. Beschrijf de clustering van de dataset en geef aan op welk niveau de verschillende variabelen behoren Je moet weten hoe de data geclusterd zijn om uit
Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek
Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje
Derde college complexiteit. 7 februari Zoeken
College 3 Derde college complexiteit 7 februari 2017 Recurrente Betrekkingen Zoeken 1 Recurrente betrekkingen -1- Rij van Fibonacci: 0,1,1,2,3,5,8,13,21,... Vanaf het derde element: som van de voorgaande
Kansrekening en Statistiek
Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve
Predictieve modellen - overzicht
Predictieve modellen - overzicht 08-01-2018 Jochem Grietens Verhaert Alexander Frimout Verhaert 1 AI voor lichtcontrole Het doel is om de verlichting van de Vlaamse snelweg slimmer te maken met behulp
Voorbeeldtentamen Statistiek voor Psychologie
Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij
Statistiek voor A.I.
Statistiek voor A.I. College 13 Donderdag 25 Oktober 1 / 28 2 Deductieve statistiek Orthodoxe statistiek 2 / 28 3 / 28 Jullie - onderzoek Tobias, Lody, Swen en Sander Links: Aantal broers/zussen van het
Data analyse Inleiding statistiek
Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.
VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT
Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening
Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail
Meten en experimenteren
Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 6 oktober 009 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D Hondt
13.1 Kansberekeningen [1]
13.1 Kansberekeningen [1] Herhaling kansberekeningen: Somregel: Als de gebeurtenissen G 1 en G 2 geen gemeenschappelijke uitkomsten hebben geldt: P(G 1 of G 2 ) = P(G 1 ) + P(G 2 ) B.v. P(3 of 4 gooien
Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1
Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch
Data Mining. Eindverslag 7 juni 2009
Data Mining Eindverslag 7 juni 2009 Naam: Mathijs de Langen 0611699 Stijn Koopal 0613671 Marvin Raaijmakers 0608141 Giel Oerlemans 0607213 Email: [email protected] [email protected] [email protected]
TW2020 Optimalisering
TW2020 Optimalisering Hoorcollege 3 Leo van Iersel Technische Universiteit Delft 21 september 2016 Leo van Iersel (TUD) TW2020 Optimalisering 21 september 2016 1 / 36 LP: Lineair Programmeren min x 1 2
c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6
c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 1. Iemand kiest geblinddoekt 4 paaseitjes uit een mand met oneindig veel paaseitjes. De helft is melkchocolade, de andere
11. Multipele Regressie en Correlatie
11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in
EEN INTRODUCTIE TOT SUPPORT VECTOR MACHINES DOOR PIETER WELLENS
EEN INTRODUCTIE TOT SUPPORT VECTOR MACHINES DOOR PIETER WELLENS Eindwerk ingediend met het oog op het behalen van de graad Licentiaat in de Wetenschappen. Promotor: Prof. Dr. B. Verdonk UNIVERSITEIT ANTWERPEN
Oefenvragen bij Statistics for Business and Economics van Newbold
Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd
Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie
Deze week: Schatten Statistiek voor Informatica Hoofdstuk 6: Schatten Cursusjaar 2009 Peter de Waal Departement Informatica Statistische inferentie A Priori en posteriori verdelingen Geconjugeerde a priori
College 2 Enkelvoudige Lineaire Regressie
College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:
Hoofdstuk 10: Regressie
Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.
4.1 Eigenschappen van de normale verdeling [1]
4.1 Eigenschappen van de normale verdeling [1] Relatief frequentiepolygoon van de lengte van mannen in 1968 1 4.1 Eigenschappen van de normale verdeling [1] In dit plaatje is een frequentiepolygoon getekend.
