Data Mining: similariteit en visuele data exploratie

Maat: px
Weergave met pagina beginnen:

Download "Data Mining: similariteit en visuele data exploratie"

Transcriptie

1 Data Mining: similariteit en visuele data exploratie docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Overzicht: wat zagen we vorige les? Data karakteristieken Soorten attributen Nominaal, ordinaal, interval, ratio Data-formaten Record data, transactie data, grafen, Dimensie van de data Curse of dimensionality 1

2 Overzicht: wat zagen we vorige les? Data kwaliteit Ruis Ontbrekende waarden Duplicaten Overzicht: wat zagen we vorige les? Data preprocessing: Aggregatie Sampling Dimensionality Reduction Feature subset selectie Feature creatie Discretizatie and Binarizatie Attribuut Transformatie 2

3 Wat zien we deze les? Laatste onderdeel van data Meten van afstand en similariteit Belangrijke input voor vele algoritmes Exploreren van data Samenvattende statistieken Visuele methodes Deel 1: Similariteit en afstand Wat? Voor 1 attribuut Meerdere attributen van hetzelfde type Meerdere attributen, verschillende types 3

4 Similariteit en Dissimilariteit Similariteit Numerieke maat van gelijkenis tussen objecten. Hoger als objecten meer gelijk. Vaak in het interval [0,1] Dissimilariteit Numerieke maat voor verschil tussen objecten. Lager als objecten meer gelijk. Minimale dissimilariteit is vaak 0. Bovengrens is variabel Proximity verwijst naar beide Deel 1: Similariteit en afstand Wat? Voor 1 attribuut Meerdere attributen van hetzelfde type Meerdere attributen, verschillende types 4

5 Similariteit/Dissimilariteit voor 1 attribuut p en q zijn de attribuutwaarden voor twee records. Deel 1: Similariteit en afstand Wat? Voor 1 attribuut Meerdere attributen van hetzelfde type Numeriek Binair Meerdere attributen, verschillende types Similariteiten voor sequenties, strings 5

6 Euclidische afstand Euclidische afstand dist = n ( k= 1 p k q k ) 2 n = aantal dimensies, p k en q k : k-de component van resp. object p en q. Standaardisatie is noodzakelijk als de schaal ongelijk is. Vraag Standaardisatie is noodzakelijk als de schaal ongelijk is --- Waarom? 6

7 Vraag Standaardisatie is noodzakelijk als de schaal ongelijk is --- Waarom? Anders kunnen enkele dimensies een te grote rol spelen en de andere dimensies irrelevant maken. Vb: attributen Leeftijd (L) en Inkomen (I) d((30,1900), (32,2000) ) = Genormaliseerd (op 100 en op 5000): d((0.30,0.38), (0.32,0.40) ) = (0.02) 2 + (0.02) 2 Euclidische afstand 3 2 p1 p3 p4 1 p point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 p1 p2 p3 p4 p p p p Distance Matrix 7

8 Minkowski afstand Minkowski afstand is een veralgemening van de Euclidische dist n = ( p k q k k= 1 r : parameter n : aantal dimensies p k, q k : k-de component van resp. object p en q. r ) 1 r Minkowski afstand: Voorbeelden r = 1. City block (Manhattan, taxicab, L 1 ) Hamming distance; aantal bits verschillend in twee binaire vectoren. r = 2. Euclidische afstand r. supremum (L max norm, L norm) Maximale verschil tussen de componenten van twee vectoren. Opgepast! Verwar r niet met n; al deze afstandsmaten zijn gedefinieerd voor alle aantallen dimensies. 8

9 Minkowski afstand point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 L1 p1 p2 p3 p4 p p p p L2 p1 p2 p3 p4 p p p p L p1 p2 p3 p4 p p p p Afstandsmatrices Vraag: Wat gebeurt er indien er correlatie bestaat tussen de verschillende attributen? Helpt normalisatie? Worden sommige attributen overbodig? Welke? Hoe voorkom je mogelijke problemen? 9

10 Vraag: Wat gebeurt er indien er correlatie bestaat tussen de verschillende attributen? Extreem geval: attribuut A 1 = A 2 en een attribuut B: d(o 1,o 2 ) = (o 1.A 1 - o 2.A 1 ) 2 + (o 1.A 2 -o 2.A 2 ) 2 + (o 1.B -o 2.B) 2 = 2 (o 1.A - o 2.A) 2 + (o 1.B -o 2.B) 2 Komt vaak voor; dit trekt de verhoudingen tussen de attributen scheef Vraag: Wat gebeurt er indien er correlatie bestaat tussen de verschillende attributen? Mogelijke oplossing: dimensionality reduction bvb. Principal component analysis; ontbind de dimensies in orthogonale componenten. Volgende slide bevat andere mogelijke oplossing 10

11 Mahalanobis afstand 1 mahalanobi s( p, q) = ( p q) ( p q) T Σ is de co-variantie matrix van de input matrix X Σ 1 n j, k = ( X ij X j)( X ik X k ) n 1 i= 1 Voor de rode punten is de Euclidische afstand 14.7, de Mahalanobis afstand is 6. Mahalanobis afstand Co-variantie matrix: Σ = B A C A: (0.5, 0.5) B: (0, 1) C: (1.5, 1.5) Mahal(A,B) = 5 Mahal(A,C) = 4 11

12 Mahalanobis afstand: interpretatie Mahalanobis afstand: interpretatie 12

13 Vraag Waarom lost Mahalanobis het probleem van de gecorreleerde attributen op? Illustreer met het extreme voorbeeld Vraag Waarom lost Mahalanobis het probleem van de gecorreleerde attributen op? Illustreer met het extreme voorbeeld Twee objecten met bijna gelijke A 1 waarde zullen ook slechts klein verschil hebben op A 2. Door de sterke correlatie tussen die twee attributen, echter, is de bol die de distributie beschrijft erg plat in het A 1 -A 2 vlak met breedte in de richting van gelijke A-waarden. 13

14 Metrieken Afstanden zoals de Euclidische, hebben een aantal eigenschappen: 1. voor alle p en q: d(p, q) 0 d(p, q) = 0 asa p = q. (Positief definiet) 2. voor alle p en q: d(p, q) = d(q, p) (Symmetrie) 3. voor alle p, q en r : d(p, r) d(p, q) + d(q, r) (Driehoeksongelijkheid) Een afstandsmaat die hieraan voldoen noemen we een metriek Eigenschappen van een similariteit Enkele vaak voorkomende eigenschappen: 1. s(p, q) = 1 (of de maximale similariteit) asa p = q. 2. s(p, q) = s(q, p) voor alle p en q. (Symmetrie) 14

15 Similariteit tussen binaire vectoren Vaak voorkomend: p en q hebben enkel binaire attributen. We gebruik volgende getallen in de definities: M 00 = aantal attributen met p = 0 en q = 0 M 01 = aantal attributen met p = 0 en q = 1 M 10 = aantal attributen met p = 1 en q = 0 M 11 = aantal attributen met p = 1 en q = 1 Simple Matching en Jaccard Coefficient SMC = aantal gelijken / aantal attributen = (M 11 + M 00 ) / (M 01 + M 10 + M 11 + M 00 ) J = aantal 11 matches / aantal niet 0-0 paren = (M 11 ) / (M 01 + M 10 + M 11 ) SMC versus Jaccard: Voorbeeld p = q = M 01 = 2 M 10 = 1 M 00 = 7 M 11 = 0 SMC = (M 11 + M 00 )/(M 01 + M 10 + M 11 + M 00 ) = (0+7) / ( ) = 0.7 J = (M 11 ) / (M 01 + M 10 + M 11 ) = 0 / ( ) = 0 15

16 Cosinus similariteit Als d 1 and d 2 bvb. document-vectoren zijn cos( d 1, d 2 ) = (d 1 d 2 ) / d 1 d 2, is het scalair produkt tussen vectoren en d is de lengte van vector d. Voorbeeld: d 1 = d 2 = d 1 d 2 = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 d 1 = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0) 0.5 = (42) 0.5 = d 2 = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = cos( d 1, d 2 ) =.3150 Tanimoto Coefficient Voor continue of count-attributen 16

17 Vraag Met welke maat komt Tanimoto overeen indien we ons beperken tot binaire attributen? Vraag Met welke maat komt Tanimoto overeen indien we ons beperken tot binaire attributen? Jaccard. Daarom is deze maat ook bekend als extended Jaccard 17

18 Correlatie Correlatie meet de mate van lineair verband tussen twee attributen Correlatie berekenen = vectoren normaliseren en vervolgens het scalair produkt nemen. p k q k = ( p mean( p)) / std( p) k = ( q mean( q)) / std( q) k correlatio n( p, q) = p q Visueel correlatie herkennen Scatter plots tonen correlaties van 1 tot 1. 18

19 Opgelet! Correlatie meet enkel in welke mate er een lineair verband is! Deel 1: Similariteit en afstand Wat? Voor 1 attribuut Meerdere attributen van hetzelfde type Numeriek Binair Meerdere attributen, verschillende types Similariteiten voor sequenties, strings 19

20 Combineren van similariteiten Soms hebben attributen verschillende types, maar is er toch een similariteitsmaat nodig. Gebruik van gewichten bij combinaties Indien niet alle attributen even belangrijk. Gebruik gewichten w k tussen 0 en 1 die sommeren tot 1. 20

21 Deel 1: Similariteit en afstand Wat? Voor 1 attribuut Meerdere attributen van hetzelfde type Numeriek Binair Meerdere attributen, verschillende types Similariteiten voor sequenties, strings Andere afstandsmaten Voor strings Edit distance (Levenshtein distance) DNA sequences Voor sequenties Time-warping distance 21

22 Edit distance Afstand tussen twee strings: minimale aantal operaties om de ene in de andere om te zetten Invoegen van een karakter (insert) Verwijderen van een karakter (delete) Substituteren van een karakter Voorbeeld: paard paad parad parade afstand = 3 eauivlaent equivlaent equivaent equivalent afstand = 3 Edit distance Afstand tussen twee strings: minimale aantal operaties om de ene in de andere om te zetten Invoegen van een karakter (insert) Verwijderen van een karakter (delete) Substituteren van een karakter Relatief duur om uit te rekenen Dynamisch programmeren 22

23 Edit distance: algoritme _ P A A R D _ P A R A vullen van matrix entry i,j: edit distance tussen t[1..i] en s[1..j] D E Edit distance: algoritme _ P A A R D _ P 1 A 2 R 3 Invullen van matrix: recursief d[i,j] = min { d(i-1, j) + 1 (del) A 4 d(i,j-1) + 1 (ins) d(i-1,j-1) + cost } D 5 (match of subst.) E 6 23

24 Edit distance: algoritme _ P A A R D _ P A R A D E Afstand voor DNA sequenties Matching in BLAST (Basic Local Alignment and Search Tool) is gebaseerd op soort match die we hier beschrijven Similarity gedefinieerd als maximale match ATGGCGT ***!** ATG-AGT 24

25 Sequence alignment Voor elke mogelijke alignment wordt een score gegeven: Gebaseerd op de scores tussen residuen plus strafpunten voor gaps A-A score kan lager zijn dan een C-C score Score van een A-G fout kan zwaarder zijn dan een A-C fout Gebaseerd op tabellen Alignment van een gap met een gap is zinloos De alignment score is de som van de scores voor de residuen min de strafpunten Sequence alignment Simpel score mechanisme: match = 1, nietmatch = -1, gaps niet bestraft Beste alignment: ATGGCGT ATG-AGT = 4 Alternatief: ATGGCGT A-TGAGT = 2 25

26 Sequence alignment De substitutie matrix geeft aan wat de score is voor een bepaalde match C T A G C T A G Er bestaan vaste tabellen waarbij de score gebaseerd is op evolutionaire theorieen; het kan zijn b.v.b. dat een A C mutatie veel waarschijnlijker is dan een A G BLOSUM62 substitutie matrix 26

27 Afstand voor DNA sequenties Gaps moeten ontmoedigd worden Verstoren de alignment Veranderen het volledige time-frame Beter 1 grote gap i.p.v. meerdere kleintjes Voorbeeld: gap van lengte n krijgt strafpunten: gap_penalty(n) = x n Afstand voor DNA sequenties Similariteit van twee sequenties kan nu gedefinieerd worden als de maximale score over alle alignments. Er kan opnieuw een dynamisch algoritme gebruikt worden: Needleman-Wunsch Opnieuw duur; bestaan vele benaderende algoritmes 27

28 Time warping afstand voor sequenties Vaste tijd Punten van de sequenties 1 per 1 matchen Geen vasts tijd; Warped Niet-lineaire alignments mogelijk Samenvattend Verschillende afstandsmaten Belangrijk voor visualisatie, clustering, classificatie, Voor numerieke attributen Klasse van Minkowski metrieken Mahalanobis voor gecorreleerde attributen Binaire en count attributen Jaccard, Simple matching Cosine, extended Jaccard Combinaties 28

29 Deel 2: Data Exploratie Wat is data exploratie? Eerste onderzoek om karakteristieken van de data te leren kennen Motivatie Betere selectie van pre-processing en analyse tools Gebruik maken van menselijke capaciteit om patronen te herkennen Visuele patronen Gerelateerd aan Exploratory Data Analysis (EDA) 29

30 Technieken in data exploratie Origineel gedefinieerd door Tukey: Focus op visualisatie Omvat clustering en anomalie detectie In tegenstelling tot de DM wereld: eigen onderzoeksgebieden In deze uiteenzetting, vooral focus op: Summary statistics Visualisatie Online Analytical Processing (OLAP) Inhoud Summary statistics Visualisatie Online Analytical Processing (OLAP) 30

31 Iris Sample Data Set Veel voorbeelden worden geillustreerd met de Iris Plant data set (UCI ML Repository) Drie bloemtypes (klassen): Setosa Virginica Versicolour Vier andere attributen breedte en lengte van het kelk- en bloemblad Virginica. Robert H. Mohlenbrock. USDA NRCS Northeast wetland flora: Field office guide to plant species. Northeast National Technical Center, Chester, PA. Courtesy of USDA NRCS Wetland Science Institute. Summary Statistics Samenvattende statistieken: getallen die de data samenvatten in 1 getal O.a. Locatie: mediaan, gemiddelde, modus Spreiding: standaard afwijking frequentie De meeste samenvattende statistieken kunnen berekend worden in 1 data scan. 31

32 Frequentie en modus Frequentie van een waarde = aantal maal deze waarde voorkomt Bvb. man komt ongeveer 50% voor als geslacht = frequentie van man is 50% De modus is de meest voorkomende waarde Frequentie en modus worden meest gebruikt bij categorische data Eerst discretiseren Percentielen Voor continue data zijn percentielen meer geschikt. Gegeven een geordend attribuut X in dataset D. Het p-de percentiel voor X in D is een getal x p zodat p% van de punten in D een X- waarde hebben die kleiner of gelijk is aan X p. Bvb. 50% van de waarden zijn kleiner of gelijk en 50% zijn groter dan het 50-ste percentiel. 32

33 Locatie: gemiddelde en mediaan Gemiddelde meest bekende voor locatie. Echter, gemiddelde is gevoelig voor outliers. Daarom: ook mediaan of trimmed mean. Spreiding: Bereik en variantie Bereik = verschil minumum en maximum Variantie en standaard afwijking: meest gebruikt om spreiding te geven. Ook gevoelig voor outliers, daarom: 33

34 Inhoud Summary statistics Visualisatie Online Analytical Processing (OLAP) Visualisatie technieken: Histogrammen Histogram Distributie van de waarden van 1 variabele Onderverdeling in bins; hoogte proportioneel aan frequentie. Vorm v/h histogram hangt af van aantal bins Voorbeeld: breedte bloemblad (10 vs 20 bins) 34

35 2D Histogrammen Toont de gezamelijke distributie van 2 var s. Vb: breedte en lengte v/d bloembladen Visualisatie techniek: Box Plots Box Plot (J. Tukey) Toont ook de distributie van de data outlier 90 ste percentiel 75 ste percentiel 50 ste percentiel 25 ste percentiel 10 de percentiel 35

36 Voorbeeld van Box Plots Visualisatie techniek: Scatter-plot Attribuutwaarden bepalen positie 2D of 3D Extra attributen via grootte, kleur, vorm, Matrix van scatterplots 36

37 Scatter-plot matrix van de Iris attributen Visualisatie techniek: Contour plot Continu attribuut op spatial grid Partitioneren van de ruimte Punten met gelijke waarde verbinden Cfr. hoogtelijnen Temperatuur, regenval, etc. 37

38 Voorbeeld: SST Dec, 1998 Celsius Visualisatie techniek: Matrix plot Plot van de data matrix Nuttig indien objecten geordend naar klasse Attributen worden typisch genormaliseerd Ook plots van similariteits- en afstandsmatrices zijn erg bruikbaar voor visuele inspectie van de relatie tussen objecten. 38

39 Visualisatie van de Iris data matrix standard deviation Visualisatie van de correlatie matrix 39

40 Visualisatie techniek: parallelle coordinaten Voor hoog-dimensionele data Parallelle assen i.p.v. loodrechte Attribuutwaarden van zelfde object worden verbonden door een lijn Ordening van attributen is belangrijk Vaak clusteren de lijnen samen in groepen voor een aantal attributen. Parallelle coordinaten voor de Iris data 40

41 Andere visualisatie technieken Star Plots Gelijkaardig aan parallelle coordinaten, maar nu zijn de assen radiaal (cfr. spaken in een wiel) De verbindingslijn is nu een polygoon Chernoff gezichten Elk attribuut is een karakteristiek van het gelaat De attribuutwaarden komen overeen met een uitdrukking van de geassocieerde karakteristiek Elk object is een gezicht Gebaseerd op gelaatsherkenning Star plots voor sample van de Iris data Setosa Versicolour Virginica 41

42 Chernoff gezichten Setosa Versicolour Virginica Inhoud Summary statistics Visualisatie Online Analytical Processing (OLAP) 42

43 OLAP On-Line Analytical Processing (OLAP) voorgesteld door E. F. Codd. Relationele databases zetten data in tabellen; OLAP gebruikt een multidimensionele array. Aantal analyse- en exploratie- taken zijn makkelijker uit te drukken wanneer de data als een cube gezien worden. Data Cube TV PC VCR sum Product Date 1Qtr 2Qtr 3Qtr 4Qtr sum Ireland France Germany Country sum 43

44 Data Cube - operaties Slice/dice: restricteer verschillende dimensies Roll-up en Drill-down: ga hoger resp. lager in de hierarchie (aggregatie) Pivoteren: construeer draaitabellen Samenvatting: Data exploratie Aantal Summary statistics Een enkel getal dat de data beschrijft (locatie, spreiding, ) Aantal visualisatie technieken 1 attribuut: histogram, box plot 2 attributen: scatter plot Meerdere attributen: matrix plot, parallelle coordinaten, star plots, Chernoff gezichten Online Analytical Processing (OLAP) 44

Data Mining: Data kwaliteit, Preprocessing

Data Mining: Data kwaliteit, Preprocessing Data Mining: Data kwaliteit, Preprocessing docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Herhaling: definitie Data Mining is: Extractie van interessante

Nadere informatie

Data Mining: Clustering

Data Mining: Clustering Data Mining: Clustering docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Wat is clustering? Het onderverdelen van de objecten in een database in homogene

Nadere informatie

Classification - Prediction

Classification - Prediction Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training

Nadere informatie

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data p 1/31 Beschrijvende

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren. 1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door

Nadere informatie

Oplossingen Datamining 2II15 Juni 2008

Oplossingen Datamining 2II15 Juni 2008 Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen:

Nadere informatie

Principale Componenten Analyse:

Principale Componenten Analyse: Principale Componenten Analyse: Doelstellingen: dimensiereductie inzicht in de variabiliteit van de data dataexploratie PCA is een transformatie: van p oorspronkelijke variabelen naar p PC s ˆΣ Σ variantie

Nadere informatie

College 4 Inspecteren van Data: Verdelingen

College 4 Inspecteren van Data: Verdelingen College Inspecteren van Data: Verdelingen Inleiding M&T 01 013 Hemmo Smit Overzicht van deze cursus 1. Grondprincipes van de wetenschap. Observeren en meten 3. Interne consistentie; Beschrijvend onderzoek.

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

Les 1: de normale distributie

Les 1: de normale distributie Les 1: de normale distributie Elke Debrie 1 Statistiek 2 e Bachelor in de Biomedische Wetenschappen 18 oktober 2018 1 Met dank aan Koen Van den Berge Indeling lessen Elke bullet point is een week. R en

Nadere informatie

DAR Approximate string matching Casus: biological sequence alignment

DAR Approximate string matching Casus: biological sequence alignment DAR Approximate string matching Casus: biological sequence alignment 1 Text search Approx string matching dynamic programming, edit distance example application: Google search Text indexing inverted list

Nadere informatie

Data Mining: Classificatie

Data Mining: Classificatie Data Mining: Classificatie docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Overzicht Wat is classificatie? Leren van een beslissingsboom. Problemen

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

College Week 4 Inspecteren van Data: Verdelingen

College Week 4 Inspecteren van Data: Verdelingen College Week 4 Inspecteren van Data: Verdelingen Inleiding in de Methoden & Technieken 2013 2014 Hemmo Smit Dus volgende week Geen college en werkgroepen Maar Oefententamen on-line (BB) Data invoeren voor

Nadere informatie

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 2 : Grafische beschrijving van data Marnix Van Daele [email protected] Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Grafische beschrijving van data p. 1/35 Soorten meetwaarden

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een

Nadere informatie

Onderzoeksmethoden: Statistiek 1

Onderzoeksmethoden: Statistiek 1 0 123458898391081904749010998490849 074907079`794793784908`094389983.. Onderzoeksmethoden: Statistiek 1 Joepie, ons computerprogramma levert output Wat doen we hiermee? Marjan van den Akker 1 2 Output

Nadere informatie

Uitwerking Tentamen Datamining (2II15) 26/06/09

Uitwerking Tentamen Datamining (2II15) 26/06/09 Uitwerking Tentamen Datamining (2II15) 26/06/09 1. (3p) (Clustering) Welke van de volgende uitspraken zijn correct? Voor de correcte uitspraken: leg uit, voor de incorrecte: geef een tegenvoorbeeld. (a)

Nadere informatie

Computer Vision: Hoe Leer ik een Computer Zien?

Computer Vision: Hoe Leer ik een Computer Zien? Computer Vision: Hoe Leer ik een Computer Zien? Michael H.F. Wilkinson Instituut voot Wiskunde en Informatica Rijksuniversiteit Groningen 27 April 2006 Overzicht 1 of 19 Wat is Computer Vision? Wat zijn

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen Vandaag Onderzoeksmethoden: Statistiek 2 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Theoretische kansverdelingen

Nadere informatie

Grafieken Cirkeldiagram

Grafieken Cirkeldiagram Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

Hoofdstuk 4. Beschrijvende statistiek. 4.1 Beschrijvende statistiek voor één variabele

Hoofdstuk 4. Beschrijvende statistiek. 4.1 Beschrijvende statistiek voor één variabele Hoofdstuk 4 Beschrijvende statistiek Alle commando s voor statistische berekeningen en analyse bevinden zich onder de optie Analyze in het hoofdmenu. Hieronder worden de verschillende commando s besproken

Nadere informatie

4 Domein STATISTIEK - versie 1.2

4 Domein STATISTIEK - versie 1.2 USolv-IT - Boomstructuur DOMEIN STATISTIEK - versie 1.2 - c Copyrighted 42 4 Domein STATISTIEK - versie 1.2 (Op initiatief van USolv-IT werd deze boomstructuur mede in overleg met het Universitair Centrum

Nadere informatie

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:

Nadere informatie

Computer Vision: Hoe Leer ik een Computer Zien?

Computer Vision: Hoe Leer ik een Computer Zien? Computer Vision: Hoe Leer ik een Computer Zien? Michael H.F. Wilkinson Instituut voor Wiskunde en Informatica Rijksuniversiteit Groningen Les voor technasium, 5 februari 2008 Informatica aan de RUG Informatica

Nadere informatie

De Collegereeks Statistiek. statistiek. Statistiek in het dagelijkse nieuws. Statistiek Hoorcollege 1. Descriptieve statistiek ttitik

De Collegereeks Statistiek. statistiek. Statistiek in het dagelijkse nieuws. Statistiek Hoorcollege 1. Descriptieve statistiek ttitik 9/8/009 De Collegereeks Statistiek Statistiek Hoorcollege 1 Descriptieve statistiek ttitik Informatiekunde Universiteit Utrecht Dr. H. Prüst (37): Descriptieve statistiek (H 1,,3) (HP) 3(38): Score & Kans

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

Statistiek I Samenvatting. Prof. dr. Carette

Statistiek I Samenvatting. Prof. dr. Carette Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De

Nadere informatie

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie Parking Surveillance foreground/background segmentation - objectherkenning Examen Beeldverwerking Pieter Vancoillie Doel van het (deel)project Uit beelden van een camera voetgangers, fietsers en auto s

Nadere informatie

Opgave 1: (zowel 2DM40 als 2S390)

Opgave 1: (zowel 2DM40 als 2S390) TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (DM4 en S39) op donderdag, 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

SPSS. Statistiek : SPSS

SPSS. Statistiek : SPSS SPSS - hoofdstuk 1 : 1.4. fase 4 : verrichten van metingen en / of verzamelen van gegevens Gegevens gevonden bij een onderzoek worden systematisch weergegeven in een datamatrix bij SPSS De datamatrix Gebruik

Nadere informatie

Inleiding statistiek

Inleiding statistiek Inleiding Statistiek Pagina 1 uit 8 Inleiding statistiek 1. Inleiding In deze oefeningensessie is het de bedoeling jullie vertrouwd te maken met een aantal basisbegrippen van de statistiek, meer bepaald

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4), op maandag 5 januari 29 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Data Mining: Classificatie

Data Mining: Classificatie Data Mining: lassificatie docent: dr. Toon alders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Vorige les lassificatie: Het groeperen van objecten in voorgedefinieerde

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen

Nadere informatie

Formules Excel Bedrijfsstatistiek

Formules Excel Bedrijfsstatistiek Formules Excel Bedrijfsstatistiek Hoofdstuk 2 Data en hun voorstelling AANTAL.ALS vb: AANTAL.ALS(A1 :B6,H1) Telt hoeveel keer (frequentie) de waarde die in H1 zit in A1:B6 voorkomt. Vooral bedoeld voor

Nadere informatie

DEEL 1 Probleemstelling 1

DEEL 1 Probleemstelling 1 DEEL 1 Probleemstelling 1 Hoofdstuk 1 Van Probleem naar Analyse 1.1 Notatie 4 1.1.1 Types variabelen 4 1.1.2 Types samenhang 5 1.2 Sociaalwetenschappelijke probleemstellingen en hun basisformat 6 1.2.1

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 7 juni 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data

Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data An Carbonez Leuven Statistics Research Centre Katholieke Universiteit Leuven Voorstelling van de

Nadere informatie

Statistiek. Beschrijvend statistiek

Statistiek. Beschrijvend statistiek Statistiek Beschrijvend statistiek Verzameling van gegevens en beschrijvingen Populatie, steekproef Populatie = o de gehele groep ondervragen o parameter is een kerngetal Steekproef = o een onderdeel van

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie

Nadere informatie

Oplossingen hoofdstuk 8

Oplossingen hoofdstuk 8 Count Count Oplossingen hoofdstuk 8 1. Plaats de volgende eigenschappen bij de gegeven verdelingen. De eigenschappen kunnen voorkomen bij meerdere verdelingen. Plaats bij elke eigenschap het hierbij horende

Nadere informatie

More points, lines, and planes

More points, lines, and planes More points, lines, and planes Make your own pictures! 1. Lengtes en hoeken In het vorige college hebben we het inwendig product (inproduct) gedefinieerd. Aan de hand daarvan hebben we ook de norm (lengte)

Nadere informatie

Onderzoeksmethodiek LE: 2

Onderzoeksmethodiek LE: 2 Onderzoeksmethodiek LE: 2 3 Parameters en grootheden 3.1 Parameters Wat is een parameter? Een karakteristieke grootheid van een populatie Gem. gewicht van een 34-jarige man 3.2 Steekproefgrootheden Wat

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

Onderzoek. B-cluster BBB-OND2B.2

Onderzoek. B-cluster BBB-OND2B.2 Onderzoek B-cluster BBB-OND2B.2 Succes met leren Leuk dat je onze bundels hebt gedownload. Met deze bundels hopen we dat het leren een stuk makkelijker wordt. We proberen de beste samenvattingen voor jou

Nadere informatie

b. Maak een histogram van de verdeling van het groeiseizoen. Kies eerst klassen en maak een geschikte frequentietabel.

b. Maak een histogram van de verdeling van het groeiseizoen. Kies eerst klassen en maak een geschikte frequentietabel. Opdracht 2a ----------- Stamdiagrammen, histogrammen, tijdreeksgrafieken De Old Farmers Almanac vermeldt de groeiseizoenen voor de grote steden in de V.S., zoals gerapporteerd door het National Climatic

Nadere informatie

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn Statistiek: Spreiding en dispersie 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Met spreiding willen we in één getal uitdrukken hoe verspreid de gegevens zijn: in hoeveel

Nadere informatie

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor 4 juni 2012 Het voorkomen van ziekte kan op drie manieren worden weergegeven: - Prevalentie - Cumulatieve incidentie - Incidentiedichtheid In de

Nadere informatie

Wiskunde voor relativiteitstheorie

Wiskunde voor relativiteitstheorie Wiskunde voor relativiteitstheorie HOVO Utrecht Les 1: Goniometrie en vectoren Dr. Harm van der Lek [email protected] Natuurkunde hobbyist Overzicht colleges 1. College 1 1. Goniometrie 2. Vectoren 2. College

Nadere informatie

A. Week 1: Introductie in de statistiek.

A. Week 1: Introductie in de statistiek. A. Week 1: Introductie in de statistiek. Populatie en steekproef. In dit vak leren we de basis van de statistiek. In de statistiek probeert men erachter te komen hoe we de populatie het beste kunnen observeren.

Nadere informatie

Inleiding tot de meettheorie

Inleiding tot de meettheorie Inleiding tot de meettheorie Meten is het toekennen van cijfers aan voorwerpen. Koeien Koeien in een kudde, studenten in een auditorium, mensen met een bepaalde stoornis, leerlingen met meer dan 15 in

Nadere informatie

Tentamen Data Mining

Tentamen Data Mining Tentamen Data Mining Algemene Opmerkingen Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. Laat bij het uitvoeren van berekeningen zien hoe je aan een antwoord gekomen bent.

Nadere informatie

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14 Statistiek met Excel Schoolexamen en Uitbreidingsopdrachten 2 Inhoudsopgave Achtergrondinformatie... 4 Schoolexamen Wiskunde VWO: Statistiek met grote datasets... 5 Uibreidingsopdrachten vwo 5... 6 Schoolexamen

Nadere informatie

datavisualisatie Stappen 14-12-12 verzamelen en opschonen analyseren van data interpeteren hoorcollege 4 visualisatie representeren

datavisualisatie Stappen 14-12-12 verzamelen en opschonen analyseren van data interpeteren hoorcollege 4 visualisatie representeren Stappen datavisualisatie hoorcollege 4 visualisatie HVA CMD V2 12 december 2012 verzamelen en opschonen analyseren van data interpeteren representeren in context plaatsen 1 "Ultimately, the key to a successful

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 9 Woensdag 7 Oktober 1 / 51 Kansrekening en Statistiek? Bevordert luieren de fantasie? Psychologie 2 / 51 Kansrekening en Statistiek? Bevordert luieren de fantasie? Psychologie

Nadere informatie

SQL Aantekeningen 3. Maarten de Rijke [email protected]. 22 mei 2003

SQL Aantekeningen 3. Maarten de Rijke mdr@science.uva.nl. 22 mei 2003 SQL Aantekeningen 3 Maarten de Rijke [email protected] 22 mei 2003 Samenvatting In deze aflevering: het selecteren van tuples, operaties op strings, en aggregatie functies. Verder kijken we naar iets

Nadere informatie

TIP 10: ANALYSE VAN DE CIJFERS

TIP 10: ANALYSE VAN DE CIJFERS TOETSTIP 10 oktober 2011 Bepaling wat en waarom je wilt meten Toetsopzet Materiaal Betrouw- baarheid Beoordeling Interpretatie resultaten TIP 10: ANALYSE VAN DE CIJFERS Wie les geeft, botst automatisch

Nadere informatie

mlw stroom 2.1: Statistisch modelleren

mlw stroom 2.1: Statistisch modelleren mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht

Nadere informatie

Mogelijkheden en keuzes bij het clusteren van onderwijsdata

Mogelijkheden en keuzes bij het clusteren van onderwijsdata 1 Mogelijkheden en keuzes bij het clusteren van onderwijsdata Hanneke van der Hoef Matthijs J Warrens ORD Nijmegen 14 juni 2018 2 Mogelijkheden en keuzes bij het clusteren van onderwijsdata Overzicht Clusteranalyse

Nadere informatie

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken de rekenregel breuk Ik kan

Nadere informatie

Gemiddelde, mediaan, kwartielen, interkwartielafstand, minimum, maximum, variantie, standaardafwijking, boxdiagrammen

Gemiddelde, mediaan, kwartielen, interkwartielafstand, minimum, maximum, variantie, standaardafwijking, boxdiagrammen Opdracht 3a ----------- Gemiddelde, mediaan, kwartielen, interkwartielafstand, minimum, maximum, variantie, standaardafwijking, boxdiagrammen Voor de meting van de leesvaardigheid van kinderen wordt als

Nadere informatie

1. Statistiek gebruiken 1

1. Statistiek gebruiken 1 Hoofdstuk 0 Inhoudsopgave 1. Statistiek gebruiken 1 2. Gegevens beschrijven 3 2.1 Verschillende soorten gegevens......................................... 3 2.2 Staafdiagrammen en histogrammen....................................

Nadere informatie

HOVO statistiek November 2011 1

HOVO statistiek November 2011 1 Principale Componentenanalyse en hockeystick-short centring Principale Componentenanalyse bedacht door Karl Pearson in 1901 Peter Grünwald HOVO 31-10 2011 Stel we hebben een grote hoeveelheid data. Elk

Nadere informatie

Hoofdstuk 2: Verbanden

Hoofdstuk 2: Verbanden Hoofdstuk 2: Verbanden Inleiding In het gebruik van statistiek komen we vaak relaties tussen variabelen tegen. De focus van dit hoofdstuk ligt op het leren hoe deze relaties op grafische en numerieke wijze

Nadere informatie

SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I

SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I Hieronder volgen de SPSS uitvoer en de antwoorden van de opgaven van Stap 7: Oefenen I. Daarnaast wordt bij elke opgave

Nadere informatie

Oplossingen hoofdstuk 4

Oplossingen hoofdstuk 4 Oplossingen hoofdstuk 4 1.Welke uitslag komt overeen met percentiel 50? Dit is de uitslag 588. Blijft dit antwoord van toepassing indien elk blad (leaf) overeenkomt met 10 observaties? Ja. 2. Welke leeftijd

Nadere informatie

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn. Opdracht 12a ------------ enkelvoudige lineaire regressie Kan de leeftijd waarop een kind begint te spreken voorspellen hoe zijn score zal zijn bij een latere test op verstandelijke vermogens? Een studie

Nadere informatie

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2 INHOUDSOPGAVE Leswijzer...3 Beschrijvende Statistiek...3 Kansberekening...3 Inductieve statistiek, inferentiele statistiek...3 Hoofdstuk...3. Drie deelgebieden...3. Frequentieverdeling....3. Frequentieverdeling....4.5

Nadere informatie

NP-Volledigheid. Wil zo snel mogelijke algoritmes om problemen op te lossen. De looptijd is polynomiaal: O n k - dat is heel erg mooi

NP-Volledigheid. Wil zo snel mogelijke algoritmes om problemen op te lossen. De looptijd is polynomiaal: O n k - dat is heel erg mooi NP-Volledigheid Wil zo snel mogelijke algoritmes om problemen op te lossen Gezien: selectie [O(n)], DFS [O(n + m)], MaxFlow [O nm n + m ], MST [O(n + m)], etc De looptijd is polynomiaal: O n k - dat is

Nadere informatie

lengte aantal sportende broers/zussen

lengte aantal sportende broers/zussen Oefening 1 Alvorens opgenomen te worden in een speciaal begeleidingsprogramma s voor jonge talentvolle lopers, worden jonge atleten eerst onderworpen aan een aantal vragenlijsten en onderzoeken. Uit het

Nadere informatie

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA 16. MANOVA MANOVA Multivariate variantieanalyse (MANOVA) kan gebruikt worden in een situatie waarin je meerdere afhankelijke variabelen hebt. Met MANOVA kan er 1 onafhankelijke variabele gebruikt worden

Nadere informatie

FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie

FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie Lineaire Algebra, tentamen Uitwerkingen vrijdag 4 januari 0, 9 uur Gebruik van een formuleblad of rekenmachine is niet toegestaan. De

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Wiskunde voor relativiteitstheorie

Wiskunde voor relativiteitstheorie Wiskunde voor relativiteitstheorie Utrecht Les : Goniometrie en vectoren Dr. Harm van der Lek [email protected] Natuurkunde hobbyist verzicht colleges. College. Goniometrie 2. Vectoren 2. College 2. Matrixen

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19 Stochastiek 2 Inleiding in de Mathematische Statistiek 1/19 Herhaling H.1 2/19 Mathematische Statistiek We beschouwen de beschikbare data als realisatie(s) van een stochastische grootheid X.(Vaak een vector

Nadere informatie

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken

Nadere informatie

Benaderingsalgoritmen

Benaderingsalgoritmen Benaderingsalgoritmen Eerste hulp bij NP-moeilijkheid 1 Herhaling NP-volledigheid (1) NP: er is een polynomiaal certificaat voor jainstanties dat in polynomiale tijd te controleren is Een probleem A is

Nadere informatie

REËLE FUNCTIES BESPREKEN

REËLE FUNCTIES BESPREKEN INLEIDING FUNCTIES 1. DEFINITIE...3 2. ARGUMENT EN BEELD...4 3. HET FUNCTIEVOORSCHRIFT...5 4. DE FUNCTIEWAARDETABEL...7 5. DE GRAFIEK...9 6. FUNCTIES HERKENNEN...12 7. OEFENINGEN...14 8. OPLOSSINGEN...18

Nadere informatie

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek cursus 23 mei 2012 werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen onderzoek streeft naar inzicht in relatie tussen variabelen bv. tussen onafhankelijke

Nadere informatie

Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6

Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6 Tentamen Data Mining Datum: 4januai2l6 Tijd: 4: - 7: Algemene Opmerkingen e Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. o Laat bij het uitvoeren van berekeningen zien hoeje

Nadere informatie

Wat is nieuw in Enterprise Guide

Wat is nieuw in Enterprise Guide Enterprise Guide 42 4.2 Lieve Goedhuys Copyright 2009 SAS Institute Inc. All rights reserved. Wat is nieuw in Enterprise Guide Vereenvoudigde interface Gebruikersinterface i Project recovery Conditionele

Nadere informatie