Data Mining: Data kwaliteit, Preprocessing

Maat: px
Weergave met pagina beginnen:

Download "Data Mining: Data kwaliteit, Preprocessing"

Transcriptie

1 Data Mining: Data kwaliteit, Preprocessing docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Herhaling: definitie Data Mining is: Extractie van interessante (niet-triviale, impliciete, vooraf ongekende en mogelijk bruikbare) patronen of kennis uit grote hoeveelheden data 1

2 Herhaling: data mining technieken Beschrijvende (descriptieve) technieken: Clustering Outlier detection Associatie regels, sequentiele patronen Predictieve methodes Classificatie Regressie Herhaling: Classificatie Gebaseerd op gelabelde data: Leer model van de data Met als doel nieuwe objecten correct te kunnen classificeren Soorten modellen: Beslissingsboom Dataset zelf (Nearest neighbors) 2

3 Herhaling: Classificatie Gebaseerd op een set van gelabelde objecten: Leer model van de data Met als doel nieuwe objecten correct te kunnen classificeren leeftijd <30 30 geslacht M V HOOG type auto Herhaling: Associatie regels Gegeven een transactie database Vind associaties tussen sets van items Hoge support en confidence => 3

4 Herhaling: Clustering Gegeven een set van objecten Deel de objecten op in homogene groepen (mogelijk overlappend) Vraag Welke methode sluit het beste aan bij volgende problemen: Een Search Company wil zoekresultaten weergeven gegroepeerd per topic. Welke zoektermen komen vaak samen voor in zoekopdrachten? Ontwerp een spam-filter die ongewenste s tegen houdt. Welke kenmerken zijn karakteristiek voor spam-mails? 4

5 Inhoud van deze les Evaluatie Relevant Data voor de taak Data Mining Data Warehouse Selectie Opschonen Data integratie Databanken Overzicht Voorbereiden van de data voor data mining Types van data Data kwaliteit Pre-processing Maten voor afstand en similariteit 5

6 10 Overzicht Voorbereiden van de data voor data mining Types van data Soorten attributen Karakteristieken van datasets Data kwaliteit Pre-processing Maten voor afstand en similariteit Wat is Data? Collectie data objecten en hun attributen Een attribuut is een eigenschap of karakteristiek van een object Vb.: haarkleur van een persoon, etc. Objecten Attributen Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Een verzameling attributen beschrijft een object 6

7 Soorten Attributen Nominaal: ID nummer, kleur, zip-code Ordinaal: rankings (hoog-medium-laag) Interval: kalender data, temperatuur in C of F. Ratio: temperaturen in K Eigenschappen van attributen Het type hangt af van welke van de volgende operaties ondersteund worden: Ongelijkheid: = Volgorde: < > Optelling: + - Vermenigvuldiging: * / 7

8 Attribuut Niveau Transformatie Commentaar Categorisch/kwalitatief Numeriek\quantitatief Nominaal Elke permutatie van de waarden Als alle werknemers nummers opnieuw toegekend worden, maakt dit een verschil? Ordinaal Interval Elke transformatie die de volgorde bewaart, bvb., new_value =a * old_value + b met a en b constanten Slecht-Gemiddeld-Goed kan gecodeerd worden als 1, 2, 3 of als -1, 0, 1, of als F en C kunnen in elkaar worden omgezet zonder verlies aan betekenis Ratio new_value = a * old_value Het is zinvol om te spreken over 2xlengte. Discreet en Continue variabelen Discrete Attributen Eindig of aftelbaar aantal attributen Voorbeeld: aantallen, huisnummers, verzameling van woorden in een document Kan m.b.v. integers voorgesteld worden. Merk op: binaire attributen zijn een speciaal geval Continue Attributen Reele getallen als waarden Voorbeelden: temperatuur, gewicht, lengte, 8

9 Vraag: Geef voorbeelden van Discreet Continu Nominaal Ordinaal Interval Ratio Vraag: Geef voorbeelden van Discreet Continu Nominaal Ordinaal Student IDs Goed-Slecht Interval Datums Tijdstippen Ratio Aantallen Lengte 9

10 Types van data sets Record data Data Matrix Document Data Transaction Data Graaf data World Wide Web Molecular Structures Geordende data Spatial Data Temporal Data Sequential Data Genetic Sequence Data Belangrijke karakteristieken van data Dimensie Curse of Dimensionality Sparsity Symmetrisch/assymmetrisch Resolutie Patronen afhankelijk van schaal 10

11 10 Record Data Data bestaat uit een collectie van records, elk met een vast aantal attributen Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Data Matrix Objecten met een vast aantal attributen kunnen gezien worden als punten in een multi-dimensionele ruimte m x n matrix, voor elk van de m objecten is er een rij, voor elk van de n attributen is er een kolom. Projection of x Load Projection of y load Distance Load Thickness

12 Document data Elk document voorgesteld door een term vector, season timeout lost wi n game score ball pla y coach team Transactie Data Speciaal type van record data Elk record is een verzameling. Vb: supermarkt; de verzameling producten van een klant tijdens 1 bezoek aan de supermarkt komt overeen met 1 transactie TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk 12

13 Graaf data: een grote graaf Vb: HTML Links <a href="papers/papers.html#bbbb"> Data Mining </a> <li> <a href="papers/papers.html#aaaa"> Graph Partitioning </a> <li> <a href="papers/papers.html#aaaa"> Parallel Solution of Sparse Linear System of Equations </a> <li> <a href="papers/papers.html#ffff"> N-Body Computation and Dense Linear System Solvers Graaf data: afzonderlijke grafen Benzene Molecule: C 6 H 6 13

14 Geordende data Sequenties van transactions Items/gebeurtenissen Een element in de sequentie Geordende data Genoomsequenties GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG 14

15 Geordende data Spatio- Temporele Data Gemiddelde maandtemperatuur Overzicht Voorbereiden van de data voor data mining Types van data Data kwaliteit Welke problemen? Hoe ontdekken? Wat er aan doen? Pre-processing Maten voor afstand en similariteit 15

16 Data kwaliteit Soorten problemen: Ruis en outliers Ontbrekende waarden duplicaten Ruis Ruis Two Sine Waves Two Sine Waves + Noise 16

17 Outliers Outliers zijn data objecten met significant afwijkende karakteristieken Ontbrekende waarden Oorzaken Informatie was niet beschikbaar (Vb. Sommige mensen willen hun leeftijd of gewicht niet opgeven) Niet alle attributen van toepassing op alle objecten (vb. Jaarinkomen bij kinderen) Hoe er mee omgaan? Elimineren van objecten met ontbrekende waarden Schatten van de waarden Negeer de ontbrekende waarden Vervang met alle mogelijkheden + waarschijnlijkheidsdistributie 17

18 Duplicaten Typisch probleem wanneer we data uit verschillende bronnen combineren Voorbeelden: Persoon heeft meerdere -adressen Data cleaning Proces van het wegwerken van duplicaten Overzicht Klaarmaken van de data voor data mining Types van data Data kwaliteit Pre-processing Maten voor afstand en similariteit 18

19 Data Pre-processing Objecten Aggregatie Sampling Attributen Dimensionality Reduction Feature subset selectie Feature creatie Discretizatie and Binarizatie Attribuut Transformatie Data Pre-processing Objecten Aggregatie Sampling Attributen Dimensionality Reduction Feature subset selectie Feature creatie Discretizatie and Binarizatie Attribuut Transformatie 19

20 Aggregatie Combineren van twee of meer attributen/objecten in een enkel attribuut/object Doel Data reductie Schaalgrootte aanpassen Steden geaggregeerd in regios, landen, Stabielere data Geagregeerde data heeft minder variabiliteit (in het algemeen) Aggregatie Variatie van neerslag in Australie Gemiddelde maandelijkse neerslag Gemiddelde jaarlijkse neerslag 20

21 Data Pre-processing Objecten Aggregatie Sampling Attributen Dimensionality Reduction Feature subset selectie Feature creatie Discretizatie and Binarizatie Attribuut Transformatie Sampling De belangrijkste data selectie techniek. Vaak gebruikt bij een eerste analyse van de data. Sampeling heeft verschillende doelen Statistiek: data van volledige populatie is niet beschikbaar (steekproef) Data mining: de data is wel bechikbaar, maar de algoritmes schalen niet goed met de beschikbare data 21

22 Sampling Belangrijkste principes: Als de data representatief is, dan werkt sampling over het algemeen genomen even goed als het gebruiken van de volledige dataset. Een sample is representatief als de eigenschappen die van belang zijn voor de analyse hetzelfde zijn in de sample als in de oorspronkelijke data. Types van Sampling Simple Random Sampling Gelijke kans voor elk object om geselecteerd te worden Sampling zonder teruglegging Elk object kan slechts 1 maal geselecteerd worden Sampling met teruglegging Objecten kunnen meermaals geselecteerd worden Stratified sampling Data wordt verdeeld over verschillende partities en de partities worden afzonderlijk gesampled 22

23 Sample grootte 8000 points 2000 Points 500 Points Vraag: welke sample-grootte is nodig om uit elk van de 10 groepen minstens 1 object te hebben? 23

24 Data Pre-processing Objecten Aggregatie Sampling Attributen Dimensionality Reduction Feature subset selectie Feature creatie Discretizatie and Binarizatie Attribuut Transformatie Curse of Dimensionality Wanneer de dimensie van data toeneemt, wordt de ruimte leger Dichtheid en afstand verliezen hun betekenis Zijn kritisch voor clustering 500 random gegenereerde punten Bereken het relatieve verschil tussen de maximum en minumum afstand over alle paren van punten 24

25 Data Pre-processing Objecten Aggregatie Sampling Attributen Dimensionality Reduction Feature subset selectie Feature creatie Discretizatie and Binarizatie Attribuut Transformatie Dimensionality Reduction Doel: Vermijd curse of dimensionality Reduceer berekeningstijd van data mining algoritmes Betere visualisatie Kan ruis en irrelevante factoren verwijderen Technieken Principle Component Analysis Singular Value Decomposition Anderen: gesuperviseerde en niet-lineaire technieken 25

26 Dimensionality Reduction: PCA Doel is een projectie te vinden die de grootste variabiliteit van de data vat. x 2 e x 1 Dimensionality Reduction: PCA Zoek de eigenvectoren van de covariantie-matrix De eigenvectoren vormen de nieuwe basis x 2 e x 1 26

27 Data Pre-processing Objecten Aggregatie Sampling Attributen Dimensionality Reduction Feature subset selectie Feature creatie Discretizatie and Binarizatie Attribuut Transformatie Feature Subset Selectie Andere manier om het aantal dimensies te reduceren Redundante features Dupliceren veel van de informatie in de andere attributen Vb: prijs van een produkt en de hoeveelheid taksen betaald op dat produkt Irrelevante features Bevat geen informatie voor de data mining taak Vb: studentnummer, haarkleur hebben weinig relatie met de studieresultaten van studenten. 27

28 Feature Subset Selectie Technieken: Brute-force: Probeer alle mogelijkheden Embedded: Ingebouwd in het algoritme Filter: Vooraf, voor de data mining algoritmes worden uitgevoerd Wrapper: Gebruik het data mining algoritme als een black box om verschillende feature sets te evalueren Data Pre-processing Objecten Aggregatie Sampling Attributen Dimensionality Reduction Feature subset selectie Feature creatie Discretizatie and Binarizatie Attribuut Transformatie 28

29 Feature Creatie Creeer nieuwe attributen die relevant zijn voor de huidige data mining taak Drie algemene methodologieen: Feature Extraction Data transformeren naar een nieuwe ruimte Feature Construction Data transformeren naar een nieuwe ruimte Fourier transformatie Wavelet transformatie 2 sinussen Superpositie + ruis Frequenties 29

30 Data Pre-processing Objecten Aggregatie Sampling Attributen Dimensionality Reduction Feature subset selectie Feature creatie Discretisatie and Binarisatie Attribuut Transformatie Discretiseren met behulp van Class Labels Vaak gebaseerd op entropie 3 categories for both x and y 5 categories for both x and y 30

31 Discretiseren zonder Class Labels Data Gelijke interval breedte Gelijke frequentie K-means Overzicht Klaarmaken van de data voor data mining Types van data Data kwaliteit Pre-processing Maten voor afstand en similariteit (Verplaatst naar les 3) 31

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren. 1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van

Nadere informatie

Data Mining: Classificatie

Data Mining: Classificatie Data Mining: Classificatie docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Overzicht Wat is classificatie? Leren van een beslissingsboom. Problemen

Nadere informatie

Data Mining: Inleiding

Data Mining: Inleiding Data Mining: Inleiding docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining 2II15: Data mining en kennissystemen Lessen: maandag 7de en 8ste uur in Auditorium

Nadere informatie

Oplossingen Datamining 2II15 Juni 2008

Oplossingen Datamining 2II15 Juni 2008 Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen:

Nadere informatie

Data Mining: Clustering

Data Mining: Clustering Data Mining: Clustering docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Wat is clustering? Het onderverdelen van de objecten in een database in homogene

Nadere informatie

Data Mining: Classificatie

Data Mining: Classificatie Data Mining: lassificatie docent: dr. Toon alders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Vorige les lassificatie: Het groeperen van objecten in voorgedefinieerde

Nadere informatie

Data Mining: similariteit en visuele data exploratie

Data Mining: similariteit en visuele data exploratie Data Mining: similariteit en visuele data exploratie docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Overzicht: wat zagen we vorige les? Data karakteristieken

Nadere informatie

Inleiding tot de meettheorie

Inleiding tot de meettheorie Inleiding tot de meettheorie Meten is het toekennen van cijfers aan voorwerpen. Koeien Koeien in een kudde, studenten in een auditorium, mensen met een bepaalde stoornis, leerlingen met meer dan 15 in

Nadere informatie

Classification - Prediction

Classification - Prediction Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training

Nadere informatie

A. Week 1: Introductie in de statistiek.

A. Week 1: Introductie in de statistiek. A. Week 1: Introductie in de statistiek. Populatie en steekproef. In dit vak leren we de basis van de statistiek. In de statistiek probeert men erachter te komen hoe we de populatie het beste kunnen observeren.

Nadere informatie

Tentamen Data Mining

Tentamen Data Mining Tentamen Data Mining Algemene Opmerkingen Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. Laat bij het uitvoeren van berekeningen zien hoe je aan een antwoord gekomen bent.

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

lengte aantal sportende broers/zussen

lengte aantal sportende broers/zussen Oefening 1 Alvorens opgenomen te worden in een speciaal begeleidingsprogramma s voor jonge talentvolle lopers, worden jonge atleten eerst onderworpen aan een aantal vragenlijsten en onderzoeken. Uit het

Nadere informatie

Data mining Van boodschappenmandjes tot bio-informatica

Data mining Van boodschappenmandjes tot bio-informatica Data mining Van boodschappenmandjes tot bio-informatica Walter Kosters Informatica, Universiteit Leiden donderdag 6 april 2006 http://www.liacs.nl/home/kosters/ 1 Wat is Data mining? Data mining probeert

Nadere informatie

Statistiek. Beschrijvend statistiek

Statistiek. Beschrijvend statistiek Statistiek Beschrijvend statistiek Verzameling van gegevens en beschrijvingen Populatie, steekproef Populatie = o de gehele groep ondervragen o parameter is een kerngetal Steekproef = o een onderdeel van

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

4 Domein STATISTIEK - versie 1.2

4 Domein STATISTIEK - versie 1.2 USolv-IT - Boomstructuur DOMEIN STATISTIEK - versie 1.2 - c Copyrighted 42 4 Domein STATISTIEK - versie 1.2 (Op initiatief van USolv-IT werd deze boomstructuur mede in overleg met het Universitair Centrum

Nadere informatie

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan

Nadere informatie

Hoorcollege 1 datavisualisatie 21-11-12

Hoorcollege 1 datavisualisatie 21-11-12 Hoorcollege 1 21-11-12 docenten! http://vimeo.com/31244010#at=10 hoorcollege 1 introductie HVA CMD V2 21 november 2012!! justus sturkenboom! j.p.sturkenboom@hva.nl! yuri westplat! y.westplat@hva.nl! vandaag

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 9 Woensdag 7 Oktober 1 / 51 Kansrekening en Statistiek? Bevordert luieren de fantasie? Psychologie 2 / 51 Kansrekening en Statistiek? Bevordert luieren de fantasie? Psychologie

Nadere informatie

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen. Herkansing Inleiding Intelligente Data Analyse Datum: 3-3-2003 Tijd: 14.00-17.00, BBL 508 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

DATA MINING (TI2730-C)

DATA MINING (TI2730-C) Technische Universiteit Delft Elektrotechniek, Wiskunde en Informatica Secties: Pattern Recognition & Bioinformatics & Multimedia Signal Processing DATA MINING (TI2730-C) Schriftelijk (her)tentomen. Dinsdag

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

waarin de op dit moment relevante bron data als ook de analyse technieken worden geintegreerd.

waarin de op dit moment relevante bron data als ook de analyse technieken worden geintegreerd. 129 Samenvatting Bioinformatica is een interdisciplinair onderzoeksveld waarbij methoden uit de computer wetenschappen, wiskunde en statistiek worden gebruikt met het specifieke doel betekenis te geven

Nadere informatie

Opdracht 5a ----------- Kruistabellen

Opdracht 5a ----------- Kruistabellen Opdracht 5a ----------- Kruistabellen Aan elk van 36 studenten werd gevraagd of zij alcohol drinken, en zo ja, welke soort alcoholische drank de voorkeur heeft. Tevens werd voor elke student de leeftijd

Nadere informatie

DOS-oefening 2. lengte Aantal sportende broers/zussen

DOS-oefening 2. lengte Aantal sportende broers/zussen DOS-oefening 2 Oefening 1: meetniveaus Alvorens opgenomen te worden in een speciaal begeleidingsprogramma s voor jonge talentvolle lopers, worden jonge atleten eerst onderworpen aan een aantal vragenlijsten

Nadere informatie

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken de rekenregel breuk Ik kan

Nadere informatie

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. 3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. Absolute verandering = Aantal 2004 Aantal 1994 = 1625 3070 = -1445 Relatieve verandering = Nieuw Oud Aantal

Nadere informatie

Onderzoeksmethoden: Statistiek 1

Onderzoeksmethoden: Statistiek 1 0 123458898391081904749010998490849 074907079`794793784908`094389983.. Onderzoeksmethoden: Statistiek 1 Joepie, ons computerprogramma levert output Wat doen we hiermee? Marjan van den Akker 1 2 Output

Nadere informatie

3.1 Opsomming data type

3.1 Opsomming data type Deel I Hoofdstuk 3: Klasse Model - gevorderd 2005 Prof Dr. O. De Troyer Klasse Model - gevorderd pag. 1 3.1 Opsomming data type Opsomming (enumeration) data type Data type waarvan de verzameling waarden

Nadere informatie

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 2 : Grafische beschrijving van data Marnix Van Daele Marnix.VanDaele@UGent.be Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Grafische beschrijving van data p. 1/35 Soorten meetwaarden

Nadere informatie

twee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben.

twee partijen zijn. Aangezien het bij data mining gaat om grote hoeveelheden data is het belangrijk om praktische oplossingen te hebben. Samenvatting Deze thesis handelt over privacy preserving data mining. Data mining is een tak van de wetenschap waarin men grote hoeveelheden data onderzoekt met de bedoeling er bepaalde patronen in te

Nadere informatie

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14 Statistiek met Excel Schoolexamen en Uitbreidingsopdrachten 2 Inhoudsopgave Achtergrondinformatie... 4 Schoolexamen Wiskunde VWO: Statistiek met grote datasets... 5 Uibreidingsopdrachten vwo 5... 6 Schoolexamen

Nadere informatie

Anomaliedetectie en patroonherkenning

Anomaliedetectie en patroonherkenning Digitale overheid van de Toekomst, 28 september 2016 Anomaliedetectie en patroonherkenning binnen de loonaangifteketen Dr. Ralph Foorthuis Voorstelrondje Werkervaring Sr. enterprise architect bij UWV Werkzaam

Nadere informatie

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie Parking Surveillance foreground/background segmentation - objectherkenning Examen Beeldverwerking Pieter Vancoillie Doel van het (deel)project Uit beelden van een camera voetgangers, fietsers en auto s

Nadere informatie

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren: INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 4 1. Toets met behulp van SPSS de hypothese van Evelien in verband met de baardlengte van metalfans. Ga na of je dezelfde conclusies

Nadere informatie

Eindtermen Lineaire Algebra voor E vor VKO (2DE01)

Eindtermen Lineaire Algebra voor E vor VKO (2DE01) Eindtermen Lineaire Algebra voor E vor VKO (2DE01) dr. G.R. Pellikaan 1 Voorkennis Middelbare school stof van wiskunde en natuurkunde. Eerste gedeelte (Blok A) van Lineaire Algebra voor E (2DE04). 2 Globale

Nadere informatie

TW2020 Optimalisering

TW2020 Optimalisering TW2020 Optimalisering Hoorcollege 8 Leo van Iersel Technische Universiteit Delft 2 november 2016 Leo van Iersel (TUD) TW2020 Optimalisering 2 november 2016 1 / 28 Minimum Opspannende Boom (Minimum Spanning

Nadere informatie

LES 3 Analoog naar digitaal conversie

LES 3 Analoog naar digitaal conversie LES 3 Analoog naar digitaal conversie Misschien is het goed om eerst te definiëren wat analoog en digitaal is en wat de de voor en nadelen hiervan zijn. Analoog naar digitaal conversie wordt voor veel

Nadere informatie

TIP 10: ANALYSE VAN DE CIJFERS

TIP 10: ANALYSE VAN DE CIJFERS TOETSTIP 10 oktober 2011 Bepaling wat en waarom je wilt meten Toetsopzet Materiaal Betrouw- baarheid Beoordeling Interpretatie resultaten TIP 10: ANALYSE VAN DE CIJFERS Wie les geeft, botst automatisch

Nadere informatie

Lineaire Algebra TW1205TI. I.A.M. Goddijn, Faculteit EWI 12 februari 2014

Lineaire Algebra TW1205TI. I.A.M. Goddijn, Faculteit EWI 12 februari 2014 Lineaire Algebra TW1205TI, 12 februari 2014 Contactgegevens Mekelweg 4, kamer 4.240 tel : (015 27)86408 e-mail : I.A.M.Goddijn@TUDelft.nl homepage : http: //fa.its.tudelft.nl/ goddijn blackboard : http:

Nadere informatie

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:

Nadere informatie

Zelftest Inleiding Programmeren

Zelftest Inleiding Programmeren Zelftest Inleiding Programmeren Document: n0824test.fm 22/01/2013 ABIS Training & Consulting P.O. Box 220 B-3000 Leuven Belgium TRAINING & CONSULTING INLEIDING BIJ DE ZELFTEST INLEIDING PROGRAMMEREN Deze

Nadere informatie

Onderzoeksmethodiek LE: 2

Onderzoeksmethodiek LE: 2 Onderzoeksmethodiek LE: 2 3 Parameters en grootheden 3.1 Parameters Wat is een parameter? Een karakteristieke grootheid van een populatie Gem. gewicht van een 34-jarige man 3.2 Steekproefgrootheden Wat

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 10 Donderdag 14 Oktober 1 / 71 1 Kansrekening Indeling: Bayesiaans leren 2 / 71 Bayesiaans leren 3 / 71 Bayesiaans leren: spelletje Vb. Twee enveloppen met kralen, waarvan

Nadere informatie

Antwoorden op de theoretische vragen in de examen voorbereiding

Antwoorden op de theoretische vragen in de examen voorbereiding Antwoorden op de theoretische vragen in de examen voorbereiding Theorie vraag Zij A een m n-matrix. Geef het verband tussen de formule voor de dimensie d van een niet-strijdig stelsel, d = n rang (A) (zie

Nadere informatie

Voorspellen van webwinkel aankopen met een Random Forest

Voorspellen van webwinkel aankopen met een Random Forest Voorspellen van webwinkel aankopen met een Random Forest Dorenda Slof Erasmus Universiteit Rotterdam Econometrie en Operationele Research 30 juni 2014 Samenvatting In dit empirische onderzoek voorspellen

Nadere informatie

Teggs beeldherkenning

Teggs beeldherkenning Teggs beeldherkenning Peter Tummers 17 Januari 2013 WP 3 - Ontwerp van betrouwbare codes Doelsteling: Ontwikkeling van technieken die betrouwbare codes genereren voor een individueel ei. Uitvoering: Een

Nadere informatie

2 Fourier analyse en de Fast Fourier Transform

2 Fourier analyse en de Fast Fourier Transform 2 FOURIER ANALYSE EN DE FAST FOURIER TRANSFORM 21 2 Fourier analyse en de Fast Fourier Transform Zij f een continue 2π-periodieke funktie op IR (eventueel met complexe waarden), dan kunnen we f ontwikkelen

Nadere informatie

Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data

Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data An Carbonez Leuven Statistics Research Centre Katholieke Universiteit Leuven Voorstelling van de

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 16 Donderdag 4 November 1 / 25 2 Statistiek Indeling: Schatten Correlatie 2 / 25 Schatten 3 / 25 Schatters: maximum likelihood schatters Def. Zij Ω de verzameling van

Nadere informatie

ONDERDRUKKEN VAN LEK NAAR ZIJLOBBEN BIJ HET BEREKENEN VAN AUTO- EN KRUISSPECTRA M.B.V. PAST FOURIER TRANSFORMS

ONDERDRUKKEN VAN LEK NAAR ZIJLOBBEN BIJ HET BEREKENEN VAN AUTO- EN KRUISSPECTRA M.B.V. PAST FOURIER TRANSFORMS ONDERDRUKKEN VAN LEK NAAR ZIJLOBBEN BIJ HET BEREKENEN VAN AUTO- EN KRUISSPECTRA M.B.V. PAST FOURIER TRANSFORMS G. Klopman Waterloopkundig Laboratorium 24 februari 1989 1. Inleiding Bij het bepalen van

Nadere informatie

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Moore, McCabe & Craig: 3.3 Toward Statistical Inference From Probability to Inference 5.1 Sampling Distributions for

Nadere informatie

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke Niet de hoogte, wel de oppervlakte Prof. dr. Herman Callaert Aandachtspunten bij - statistische technieken voor een continue veranderlijke - de interpretatie van een histogram - de normale dichtheidsfunctie

Nadere informatie

DATA-ANALYSEPLAN (20/6/2005)

DATA-ANALYSEPLAN (20/6/2005) DATA-ANALYSEPLAN (20/6/2005) Inleiding De manier waarop data georganiseerd, gecodeerd en gescoord (getallen toekennen aan observaties) worden en welke technieken daarvoor nodig zijn, dient in het ideale

Nadere informatie

Vakgroep CW KAHO Sint-Lieven

Vakgroep CW KAHO Sint-Lieven Vakgroep CW KAHO Sint-Lieven Objecten Programmeren voor de Sport: Een inleiding tot JAVA objecten Wetenschapsweek 20 November 2012 Tony Wauters en Tim Vermeulen tony.wauters@kahosl.be en tim.vermeulen@kahosl.be

Nadere informatie

Deze menu-aansturingen zijn van toepassing op versies 14.0 en 15.0 van SPSS.

Deze menu-aansturingen zijn van toepassing op versies 14.0 en 15.0 van SPSS. Menu aansturing van SPSS voorbeeld in hoofdstuk 9 over multipele correspondentie (HOMALS) en niet-linaire principale componenten analyse (PRINCALS) van kenmerken van moorden Hieronder wordt uitgelegd hoe

Nadere informatie

Datamining: Graven in gegevens

Datamining: Graven in gegevens Datamining: Graven in gegevens Business Intelligence in de praktijk Jasper Lansink CMG Noord Nederland - Advanced Technology Agenda Business Intelligence Datamining theorie Datamining in de praktijk management

Nadere informatie

datavisualisatie Stappen 14-12-12 verzamelen en opschonen analyseren van data interpeteren hoorcollege 4 visualisatie representeren

datavisualisatie Stappen 14-12-12 verzamelen en opschonen analyseren van data interpeteren hoorcollege 4 visualisatie representeren Stappen datavisualisatie hoorcollege 4 visualisatie HVA CMD V2 12 december 2012 verzamelen en opschonen analyseren van data interpeteren representeren in context plaatsen 1 "Ultimately, the key to a successful

Nadere informatie

2 Data en datasets verwerken

2 Data en datasets verwerken Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken 1 Data presenteren 1.4 Oefenen In opdracht van: Commissie Toekomst Wiskunde Onderwijs 1.4 Oefenen Opgave 9 Bekijk de genoemde dataset

Nadere informatie

Lineaire Algebra (2DD12)

Lineaire Algebra (2DD12) Lineaire Algebra (2DD12) docent: Ruud Pellikaan - Judith Keijsper email: J.C.M.Keijsper@tue.nl studiewijzer: http://www.win.tue.nl/ ruudp/2dd12.html Technische Universiteit Eindhoven college 1 J.Keijsper

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19 Stochastiek 2 Inleiding in de Mathematische Statistiek 1/19 Herhaling H.1 2/19 Mathematische Statistiek We beschouwen de beschikbare data als realisatie(s) van een stochastische grootheid X.(Vaak een vector

Nadere informatie

Statistiek voor A.I. College 2. Donderdag 13 September 2012

Statistiek voor A.I. College 2. Donderdag 13 September 2012 Statistiek voor A.I. College 2 Donderdag 13 September 2012 1 / 42 1 Beschrijvende statistiek 2 / 42 Extrapolatie 3 / 42 Verkiezingen 2012 4 / 42 Verkiezingen 2012 5 / 42 1 Beschrijvende statistiek Vandaag:

Nadere informatie

Samenvatting (in Dutch)

Samenvatting (in Dutch) Samenvatting (in Dutch) Geordende latente klassen modellen voor nonparametrische itemresponstheorie Een geordend latente klassen model kan als een nonparametrisch itemresponstheorie model beschouwd worden.

Nadere informatie

November December 2011. Jan Meskens / Onderzoek

November December 2011. Jan Meskens / Onderzoek Jan Meskens / Onderzoek 1 Wat is "Predictive Analytics"? Historische en/of huidige data Voorspellingen over de toekomst 2 Toepassing: fraudebestrijding Opsporen fraude met aanrijdingsformulieren [SAS]

Nadere informatie

Operationaliseren van variabelen (abstracte begrippen)

Operationaliseren van variabelen (abstracte begrippen) Operationaliseren van variabelen (abstracte begrippen) Tabel 1, schematisch overzicht van abstracte begrippen, variabelen, dimensies, indicatoren en items. (Voorbeeld is ontleend aan de masterscriptie

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

d(w j, x i ) d(w l, x i ) Voorbeeld

d(w j, x i ) d(w l, x i ) Voorbeeld Transparanten bij het vak Inleiding Adaptieve Systemen: Unsupervised Leren/ Self organizing networks. M. Wiering Unsupervised Learning en Self Organizing Networks Leerdoelen: Weten wat unsupervised learning

Nadere informatie

Bijlage 1 bevat een overzicht van het domeinmodel van metadata in de HortiCube. In het model zijn de volgende deelgebieden te onderscheiden:

Bijlage 1 bevat een overzicht van het domeinmodel van metadata in de HortiCube. In het model zijn de volgende deelgebieden te onderscheiden: Domeinmodel van de metadata in de HortiCube Versie 6, 23 juni 2016 Inleiding De HortiCube levert via gestandaardiseerde interfaces gestandaardiseerde data aan applicaties. De functionaliteit van de HortiCube

Nadere informatie

Geheeltallige programmering

Geheeltallige programmering Geheeltallige programmering In een LP probleem zijn alle variabelen reëel. In een geheeltallig probleem blijven doelfunctie en constraints lineair, maar zijn de variabelen geheeltallig. LP: IP: BIP: MIP:

Nadere informatie

Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms

Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms Giso Dal (0752975) Pagina s 5 7 1 Deelverzameling Representatie

Nadere informatie

Samenvatting Nederlands

Samenvatting Nederlands Samenvatting Nederlands 178 Samenvatting Mis het niet! Incomplete data kan waardevolle informatie bevatten In epidemiologisch onderzoek wordt veel gebruik gemaakt van vragenlijsten om data te verzamelen.

Nadere informatie

Release notes PCTrans. Release notes PCTrans. Aantekeningen voor PCTrans 5.0 ( )

Release notes PCTrans. Release notes PCTrans. Aantekeningen voor PCTrans 5.0 ( ) Aantekeningen voor 5.0 (20161128) Opgeloste problemen: In module Projection: RD x,y,h, geographic wordt het inlezen van een file met X,Y,H coordinaten niet goed verwerkt. De beperkingen zoals beschreven

Nadere informatie

d. Maak een spreidingsdiagram van de gegevens. Plaats de x-waarden op de x-as en de z-waarden op de y-as.

d. Maak een spreidingsdiagram van de gegevens. Plaats de x-waarden op de x-as en de z-waarden op de y-as. Opdracht 6a ----------- Dichtheidskromme, normaal-kwantiel-plot Een nauwkeurige waarde van de lichtsnelheid is van belang voor ontwerpers van computers, omdat de elektrische signalen zich uitsluitend met

Nadere informatie

Inleiding tot het opstellen van een elektronische enquête met LimeSurvey

Inleiding tot het opstellen van een elektronische enquête met LimeSurvey Inleiding tot het opstellen van een elektronische enquête met LimeSurvey Cursus Wetenschappelijk denken en Informatica voor leidinggevenden in het UZ Brussel (voorjaar 2011) 4-3-2011 Herhaling titel van

Nadere informatie

Optimalisering en Complexiteit, College 1. Han Hoogeveen, Utrecht University

Optimalisering en Complexiteit, College 1. Han Hoogeveen, Utrecht University Optimalisering en Complexiteit, College 1 Han Hoogeveen, Utrecht University Gegevens Docent : Han Hoogeveen : j.a.hoogeveen@uu.nl Vak website : http://www.cs.uu.nl/docs/vakken/opt/ Student assistenten

Nadere informatie

Grafieken Cirkeldiagram

Grafieken Cirkeldiagram Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Dataconversie met Oracle Spatial

Dataconversie met Oracle Spatial Realworld klantendag 19 september 2013 Voorstellen 1 2 Computer Science & Engineering (TU/e) 3 Realworld Systems 4 Datamigraties Alliander Stedin Agenda 1 Architectuur Inleiding Ontwerp migratie 2 Rapportage

Nadere informatie

Whitepaper. Personal Targeting Platform. De juiste content Op het juiste moment Aan de juiste persoon

Whitepaper. Personal Targeting Platform. De juiste content Op het juiste moment Aan de juiste persoon Whitepaper Personal Targeting Platform De juiste content Op het juiste moment Aan de juiste persoon Introductie 2 Geïntegreerde personalisering 2 Het opbouwen van een profiel 2 Segmenteren en personaliseren

Nadere informatie

Data-analyse en boekhoudsoftware voor de MKB-accountant in een breder perspectief

Data-analyse en boekhoudsoftware voor de MKB-accountant in een breder perspectief Data-analyse en boekhoudsoftware voor de MKB-accountant in een breder perspectief Wie ben ik Wat is data-analyse Plaats in de controle Schema Een netwerkmodel van de controle; Focus op en inkleuren van

Nadere informatie

Aanvullingen bij Hoofdstuk 8

Aanvullingen bij Hoofdstuk 8 Aanvullingen bij Hoofdstuk 8 8.5 Definities voor matrices De begrippen eigenwaarde eigenvector eigenruimte karakteristieke veelterm en diagonaliseerbaar worden ook gebruikt voor vierkante matrices los

Nadere informatie

Lineaire Algebra (2DD12) Laatste nieuws in 2012

Lineaire Algebra (2DD12) Laatste nieuws in 2012 Lineaire Algebra (2DD12) Laatste nieuws in 2012 Kwartiel 3, week 1 Het eerste college zal op maandagmiddag 6 februari 2012 beginnen om 13:45 uur in Auditorium 8. Zie de desbetreffende pagina van OASE of

Nadere informatie

SQL Aantekeningen 3. Maarten de Rijke mdr@science.uva.nl. 22 mei 2003

SQL Aantekeningen 3. Maarten de Rijke mdr@science.uva.nl. 22 mei 2003 SQL Aantekeningen 3 Maarten de Rijke mdr@science.uva.nl 22 mei 2003 Samenvatting In deze aflevering: het selecteren van tuples, operaties op strings, en aggregatie functies. Verder kijken we naar iets

Nadere informatie

Handleiding Downloaden Iv3 open data via het dataportaal

Handleiding Downloaden Iv3 open data via het dataportaal Handleiding Downloaden Iv3 open data via het dataportaal w 23 maart 2016 Inhoudsopgave 1. Inleiding 3 2. Opzoeken Iv3 open datatabel via het portaal 4 3. Downloaden data uit de Iv3 open datatabel 7 3.1

Nadere informatie

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA) HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA) DATA STRUKTUUR Afhankelijke variabele: Eén kontinue variabele Onafhankelijke variabele(n): - één discrete variabele: één gecontroleerde factor - twee discrete variabelen:

Nadere informatie

Onderzoek. B-cluster BBB-OND2B.2

Onderzoek. B-cluster BBB-OND2B.2 Onderzoek B-cluster BBB-OND2B.2 Succes met leren Leuk dat je onze bundels hebt gedownload. Met deze bundels hopen we dat het leren een stuk makkelijker wordt. We proberen de beste samenvattingen voor jou

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Populatie: een intuïtieve definitie.... Een

Nadere informatie

WOT statistiek. Betrouwbaarheidsanalyse. CLIN Centre for Linguistics. Els Schoonjans

WOT statistiek. Betrouwbaarheidsanalyse. CLIN Centre for Linguistics. Els Schoonjans WOT statistiek Betrouwbaarheidsanalyse Els Schoonjans CLIN Centre for Linguistics 1 Betrouwbaarheid Betrouwbaarheid van een meetinstrument: consistentie; instrument geeft vergelijkbare resultaten in vergelijkbare

Nadere informatie

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef Statistiek II Onderdeel toetsen binnen de cursus: 1. Eenvoudig toetsen Toetsen en schatten ivm één statistiek of steekproef Via de z-verdeling, als µ onderzocht wordt en gekend is: Via de t-verdeling,

Nadere informatie

Vectoren, matrices en beeld. Figuur: Lena. Albert-Jan Yzelman

Vectoren, matrices en beeld. Figuur: Lena. Albert-Jan Yzelman Vectoren, matrices en beeld Figuur: Lena Vectoren, matrices en beeld Hoe coderen we foto s zodat ze te gebruiken zijn op computers? Wat verwachten we van de bestandsgrootte? Hoe verkleinen we de benodigde

Nadere informatie

Tentamen Beeldverwerking TI2716-B Woensdag 28 januari 2015 14.00-17.00

Tentamen Beeldverwerking TI2716-B Woensdag 28 januari 2015 14.00-17.00 Tentamen Beeldverwerking TI2716-B Woensdag 28 januari 2015 14.00-17.00 De 2D Gaussische fimctie e-' = 037 e'^ =0.14 e"'' = 0.082 e-' =0.018 deze toets bestaat uit 4 opgaven en 8 pagina's Opgave 1 en 2

Nadere informatie

ER-modeling. Wat is ER-modeling? ERD & relationeel model. ER-benadering DMO Datamodellering 2008

ER-modeling. Wat is ER-modeling? ERD & relationeel model. ER-benadering DMO Datamodellering 2008 ER-modeling Datamodellering 2008 1 Wat is ER-modeling? ER-modelleren: top-down benadering bedacht door P. Chen 1976, paper in ACM Transactions on Database Systems Codd (Relationeel Model) aanvankelijk

Nadere informatie

Hoofdvraag. Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ?

Hoofdvraag. Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ? Hoofdvraag Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ? Data visualisatie (Grafieken, dashboards); Kwantitatieve analyse (cijfers, statistiek); Software Inzichten

Nadere informatie

Graphical modelling voor Mediastudies Data

Graphical modelling voor Mediastudies Data Graphical modelling voor Mediastudies Data De analyse Alle analyses zijn gedaan met MIM, een analyseprogramma ontworpen voor graphical modelling (Versie 3.2.07, Edwards,1990,1995). Modellen zijn verkregen

Nadere informatie

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle  holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/29764 holds various files of this Leiden University dissertation. Author: Takes, Frank Willem Title: Algorithms for analyzing and mining real-world graphs

Nadere informatie

User Profile Repository Testrapportage kwaliteit

User Profile Repository Testrapportage kwaliteit CatchPlus User Profile Repository Testrapportage kwaliteit Versie 1.1 User Profile Repository Testrapportage kwaliteit Versie: 1.1 Publicatiedatum: 20-4-2012 Vertrouwelijk GridLine B.V., 2012 Pagina 1

Nadere informatie

Python. Vraag 1: Expressies en types. Vraag 1 b: Types -Ingebouwde functies- Vraag 1 a 3/10/14

Python. Vraag 1: Expressies en types. Vraag 1 b: Types -Ingebouwde functies- Vraag 1 a 3/10/14 Python Vraag 1: Expressies en types Integrated Development Environment (IDE): Ø Wing 101 (gratis te downloaden op www.wingware.com) Oefeningen in de shell >> noemen we de prompt Python commando s = expressies

Nadere informatie

Vak naam : Beeldbewerking Docent : Lb Vak code : BBW1N1 Datum : Klas : NH43 Tijd : uur Aantal bladzijden : 2 Lok : T40

Vak naam : Beeldbewerking Docent : Lb Vak code : BBW1N1 Datum : Klas : NH43 Tijd : uur Aantal bladzijden : 2 Lok : T40 Vak naam : Beeldbewerking Docent : Lb Vak code : BBW1N1 Datum : 04-01-2000 Klas : NH43 Tijd : 15.05 uur Aantal bladzijden : 2 Lok : T40 Bij dit tentamen is het toegestaan gebruik te maken van dictaten,

Nadere informatie

Data Mining. Arno Siebes

Data Mining. Arno Siebes 1 X Data Mining Arno Siebes U en Databases 1 X Elke Nederlander zit in honderden databases: door uw bonuskaart weet AH precies wat U eet; elke keer dat U pint weet de bank waar U hoeveel geld uitgeeft;

Nadere informatie