Data Mining: similariteit en visuele data exploratie
|
|
|
- Andreas de Kooker
- 10 jaren geleden
- Aantal bezoeken:
Transcriptie
1 Data Mining: similariteit en visuele data exploratie docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Overzicht: wat zagen we vorige les? Data karakteristieken Soorten attributen Nominaal, ordinaal, interval, ratio Data-formaten Record data, transactie data, grafen, Dimensie van de data Curse of dimensionality 1
2 Overzicht: wat zagen we vorige les? Data kwaliteit Ruis Ontbrekende waarden Duplicaten Overzicht: wat zagen we vorige les? Data preprocessing: Aggregatie Sampling Dimensionality Reduction Feature subset selectie Feature creatie Discretizatie and Binarizatie Attribuut Transformatie 2
3 Wat zien we deze les? Laatste onderdeel van data Meten van afstand en similariteit Belangrijke input voor vele algoritmes Exploreren van data Samenvattende statistieken Visuele methodes Deel 1: Similariteit en afstand Wat? Voor 1 attribuut Meerdere attributen van hetzelfde type Meerdere attributen, verschillende types 3
4 Similariteit en Dissimilariteit Similariteit Numerieke maat van gelijkenis tussen objecten. Hoger als objecten meer gelijk. Vaak in het interval [0,1] Dissimilariteit Numerieke maat voor verschil tussen objecten. Lager als objecten meer gelijk. Minimale dissimilariteit is vaak 0. Bovengrens is variabel Proximity verwijst naar beide Deel 1: Similariteit en afstand Wat? Voor 1 attribuut Meerdere attributen van hetzelfde type Meerdere attributen, verschillende types 4
5 Similariteit/Dissimilariteit voor 1 attribuut p en q zijn de attribuutwaarden voor twee records. Deel 1: Similariteit en afstand Wat? Voor 1 attribuut Meerdere attributen van hetzelfde type Numeriek Binair Meerdere attributen, verschillende types Similariteiten voor sequenties, strings 5
6 Euclidische afstand Euclidische afstand dist = n ( k= 1 p k q k ) 2 n = aantal dimensies, p k en q k : k-de component van resp. object p en q. Standaardisatie is noodzakelijk als de schaal ongelijk is. Vraag Standaardisatie is noodzakelijk als de schaal ongelijk is --- Waarom? 6
7 Vraag Standaardisatie is noodzakelijk als de schaal ongelijk is --- Waarom? Anders kunnen enkele dimensies een te grote rol spelen en de andere dimensies irrelevant maken. Vb: attributen Leeftijd (L) en Inkomen (I) d((30,1900), (32,2000) ) = Genormaliseerd (op 100 en op 5000): d((0.30,0.38), (0.32,0.40) ) = (0.02) 2 + (0.02) 2 Euclidische afstand 3 2 p1 p3 p4 1 p point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 p1 p2 p3 p4 p p p p Distance Matrix 7
8 Minkowski afstand Minkowski afstand is een veralgemening van de Euclidische dist n = ( p k q k k= 1 r : parameter n : aantal dimensies p k, q k : k-de component van resp. object p en q. r ) 1 r Minkowski afstand: Voorbeelden r = 1. City block (Manhattan, taxicab, L 1 ) Hamming distance; aantal bits verschillend in twee binaire vectoren. r = 2. Euclidische afstand r. supremum (L max norm, L norm) Maximale verschil tussen de componenten van twee vectoren. Opgepast! Verwar r niet met n; al deze afstandsmaten zijn gedefinieerd voor alle aantallen dimensies. 8
9 Minkowski afstand point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 L1 p1 p2 p3 p4 p p p p L2 p1 p2 p3 p4 p p p p L p1 p2 p3 p4 p p p p Afstandsmatrices Vraag: Wat gebeurt er indien er correlatie bestaat tussen de verschillende attributen? Helpt normalisatie? Worden sommige attributen overbodig? Welke? Hoe voorkom je mogelijke problemen? 9
10 Vraag: Wat gebeurt er indien er correlatie bestaat tussen de verschillende attributen? Extreem geval: attribuut A 1 = A 2 en een attribuut B: d(o 1,o 2 ) = (o 1.A 1 - o 2.A 1 ) 2 + (o 1.A 2 -o 2.A 2 ) 2 + (o 1.B -o 2.B) 2 = 2 (o 1.A - o 2.A) 2 + (o 1.B -o 2.B) 2 Komt vaak voor; dit trekt de verhoudingen tussen de attributen scheef Vraag: Wat gebeurt er indien er correlatie bestaat tussen de verschillende attributen? Mogelijke oplossing: dimensionality reduction bvb. Principal component analysis; ontbind de dimensies in orthogonale componenten. Volgende slide bevat andere mogelijke oplossing 10
11 Mahalanobis afstand 1 mahalanobi s( p, q) = ( p q) ( p q) T Σ is de co-variantie matrix van de input matrix X Σ 1 n j, k = ( X ij X j)( X ik X k ) n 1 i= 1 Voor de rode punten is de Euclidische afstand 14.7, de Mahalanobis afstand is 6. Mahalanobis afstand Co-variantie matrix: Σ = B A C A: (0.5, 0.5) B: (0, 1) C: (1.5, 1.5) Mahal(A,B) = 5 Mahal(A,C) = 4 11
12 Mahalanobis afstand: interpretatie Mahalanobis afstand: interpretatie 12
13 Vraag Waarom lost Mahalanobis het probleem van de gecorreleerde attributen op? Illustreer met het extreme voorbeeld Vraag Waarom lost Mahalanobis het probleem van de gecorreleerde attributen op? Illustreer met het extreme voorbeeld Twee objecten met bijna gelijke A 1 waarde zullen ook slechts klein verschil hebben op A 2. Door de sterke correlatie tussen die twee attributen, echter, is de bol die de distributie beschrijft erg plat in het A 1 -A 2 vlak met breedte in de richting van gelijke A-waarden. 13
14 Metrieken Afstanden zoals de Euclidische, hebben een aantal eigenschappen: 1. voor alle p en q: d(p, q) 0 d(p, q) = 0 asa p = q. (Positief definiet) 2. voor alle p en q: d(p, q) = d(q, p) (Symmetrie) 3. voor alle p, q en r : d(p, r) d(p, q) + d(q, r) (Driehoeksongelijkheid) Een afstandsmaat die hieraan voldoen noemen we een metriek Eigenschappen van een similariteit Enkele vaak voorkomende eigenschappen: 1. s(p, q) = 1 (of de maximale similariteit) asa p = q. 2. s(p, q) = s(q, p) voor alle p en q. (Symmetrie) 14
15 Similariteit tussen binaire vectoren Vaak voorkomend: p en q hebben enkel binaire attributen. We gebruik volgende getallen in de definities: M 00 = aantal attributen met p = 0 en q = 0 M 01 = aantal attributen met p = 0 en q = 1 M 10 = aantal attributen met p = 1 en q = 0 M 11 = aantal attributen met p = 1 en q = 1 Simple Matching en Jaccard Coefficient SMC = aantal gelijken / aantal attributen = (M 11 + M 00 ) / (M 01 + M 10 + M 11 + M 00 ) J = aantal 11 matches / aantal niet 0-0 paren = (M 11 ) / (M 01 + M 10 + M 11 ) SMC versus Jaccard: Voorbeeld p = q = M 01 = 2 M 10 = 1 M 00 = 7 M 11 = 0 SMC = (M 11 + M 00 )/(M 01 + M 10 + M 11 + M 00 ) = (0+7) / ( ) = 0.7 J = (M 11 ) / (M 01 + M 10 + M 11 ) = 0 / ( ) = 0 15
16 Cosinus similariteit Als d 1 and d 2 bvb. document-vectoren zijn cos( d 1, d 2 ) = (d 1 d 2 ) / d 1 d 2, is het scalair produkt tussen vectoren en d is de lengte van vector d. Voorbeeld: d 1 = d 2 = d 1 d 2 = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 d 1 = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0) 0.5 = (42) 0.5 = d 2 = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = cos( d 1, d 2 ) =.3150 Tanimoto Coefficient Voor continue of count-attributen 16
17 Vraag Met welke maat komt Tanimoto overeen indien we ons beperken tot binaire attributen? Vraag Met welke maat komt Tanimoto overeen indien we ons beperken tot binaire attributen? Jaccard. Daarom is deze maat ook bekend als extended Jaccard 17
18 Correlatie Correlatie meet de mate van lineair verband tussen twee attributen Correlatie berekenen = vectoren normaliseren en vervolgens het scalair produkt nemen. p k q k = ( p mean( p)) / std( p) k = ( q mean( q)) / std( q) k correlatio n( p, q) = p q Visueel correlatie herkennen Scatter plots tonen correlaties van 1 tot 1. 18
19 Opgelet! Correlatie meet enkel in welke mate er een lineair verband is! Deel 1: Similariteit en afstand Wat? Voor 1 attribuut Meerdere attributen van hetzelfde type Numeriek Binair Meerdere attributen, verschillende types Similariteiten voor sequenties, strings 19
20 Combineren van similariteiten Soms hebben attributen verschillende types, maar is er toch een similariteitsmaat nodig. Gebruik van gewichten bij combinaties Indien niet alle attributen even belangrijk. Gebruik gewichten w k tussen 0 en 1 die sommeren tot 1. 20
21 Deel 1: Similariteit en afstand Wat? Voor 1 attribuut Meerdere attributen van hetzelfde type Numeriek Binair Meerdere attributen, verschillende types Similariteiten voor sequenties, strings Andere afstandsmaten Voor strings Edit distance (Levenshtein distance) DNA sequences Voor sequenties Time-warping distance 21
22 Edit distance Afstand tussen twee strings: minimale aantal operaties om de ene in de andere om te zetten Invoegen van een karakter (insert) Verwijderen van een karakter (delete) Substituteren van een karakter Voorbeeld: paard paad parad parade afstand = 3 eauivlaent equivlaent equivaent equivalent afstand = 3 Edit distance Afstand tussen twee strings: minimale aantal operaties om de ene in de andere om te zetten Invoegen van een karakter (insert) Verwijderen van een karakter (delete) Substituteren van een karakter Relatief duur om uit te rekenen Dynamisch programmeren 22
23 Edit distance: algoritme _ P A A R D _ P A R A vullen van matrix entry i,j: edit distance tussen t[1..i] en s[1..j] D E Edit distance: algoritme _ P A A R D _ P 1 A 2 R 3 Invullen van matrix: recursief d[i,j] = min { d(i-1, j) + 1 (del) A 4 d(i,j-1) + 1 (ins) d(i-1,j-1) + cost } D 5 (match of subst.) E 6 23
24 Edit distance: algoritme _ P A A R D _ P A R A D E Afstand voor DNA sequenties Matching in BLAST (Basic Local Alignment and Search Tool) is gebaseerd op soort match die we hier beschrijven Similarity gedefinieerd als maximale match ATGGCGT ***!** ATG-AGT 24
25 Sequence alignment Voor elke mogelijke alignment wordt een score gegeven: Gebaseerd op de scores tussen residuen plus strafpunten voor gaps A-A score kan lager zijn dan een C-C score Score van een A-G fout kan zwaarder zijn dan een A-C fout Gebaseerd op tabellen Alignment van een gap met een gap is zinloos De alignment score is de som van de scores voor de residuen min de strafpunten Sequence alignment Simpel score mechanisme: match = 1, nietmatch = -1, gaps niet bestraft Beste alignment: ATGGCGT ATG-AGT = 4 Alternatief: ATGGCGT A-TGAGT = 2 25
26 Sequence alignment De substitutie matrix geeft aan wat de score is voor een bepaalde match C T A G C T A G Er bestaan vaste tabellen waarbij de score gebaseerd is op evolutionaire theorieen; het kan zijn b.v.b. dat een A C mutatie veel waarschijnlijker is dan een A G BLOSUM62 substitutie matrix 26
27 Afstand voor DNA sequenties Gaps moeten ontmoedigd worden Verstoren de alignment Veranderen het volledige time-frame Beter 1 grote gap i.p.v. meerdere kleintjes Voorbeeld: gap van lengte n krijgt strafpunten: gap_penalty(n) = x n Afstand voor DNA sequenties Similariteit van twee sequenties kan nu gedefinieerd worden als de maximale score over alle alignments. Er kan opnieuw een dynamisch algoritme gebruikt worden: Needleman-Wunsch Opnieuw duur; bestaan vele benaderende algoritmes 27
28 Time warping afstand voor sequenties Vaste tijd Punten van de sequenties 1 per 1 matchen Geen vasts tijd; Warped Niet-lineaire alignments mogelijk Samenvattend Verschillende afstandsmaten Belangrijk voor visualisatie, clustering, classificatie, Voor numerieke attributen Klasse van Minkowski metrieken Mahalanobis voor gecorreleerde attributen Binaire en count attributen Jaccard, Simple matching Cosine, extended Jaccard Combinaties 28
29 Deel 2: Data Exploratie Wat is data exploratie? Eerste onderzoek om karakteristieken van de data te leren kennen Motivatie Betere selectie van pre-processing en analyse tools Gebruik maken van menselijke capaciteit om patronen te herkennen Visuele patronen Gerelateerd aan Exploratory Data Analysis (EDA) 29
30 Technieken in data exploratie Origineel gedefinieerd door Tukey: Focus op visualisatie Omvat clustering en anomalie detectie In tegenstelling tot de DM wereld: eigen onderzoeksgebieden In deze uiteenzetting, vooral focus op: Summary statistics Visualisatie Online Analytical Processing (OLAP) Inhoud Summary statistics Visualisatie Online Analytical Processing (OLAP) 30
31 Iris Sample Data Set Veel voorbeelden worden geillustreerd met de Iris Plant data set (UCI ML Repository) Drie bloemtypes (klassen): Setosa Virginica Versicolour Vier andere attributen breedte en lengte van het kelk- en bloemblad Virginica. Robert H. Mohlenbrock. USDA NRCS Northeast wetland flora: Field office guide to plant species. Northeast National Technical Center, Chester, PA. Courtesy of USDA NRCS Wetland Science Institute. Summary Statistics Samenvattende statistieken: getallen die de data samenvatten in 1 getal O.a. Locatie: mediaan, gemiddelde, modus Spreiding: standaard afwijking frequentie De meeste samenvattende statistieken kunnen berekend worden in 1 data scan. 31
32 Frequentie en modus Frequentie van een waarde = aantal maal deze waarde voorkomt Bvb. man komt ongeveer 50% voor als geslacht = frequentie van man is 50% De modus is de meest voorkomende waarde Frequentie en modus worden meest gebruikt bij categorische data Eerst discretiseren Percentielen Voor continue data zijn percentielen meer geschikt. Gegeven een geordend attribuut X in dataset D. Het p-de percentiel voor X in D is een getal x p zodat p% van de punten in D een X- waarde hebben die kleiner of gelijk is aan X p. Bvb. 50% van de waarden zijn kleiner of gelijk en 50% zijn groter dan het 50-ste percentiel. 32
33 Locatie: gemiddelde en mediaan Gemiddelde meest bekende voor locatie. Echter, gemiddelde is gevoelig voor outliers. Daarom: ook mediaan of trimmed mean. Spreiding: Bereik en variantie Bereik = verschil minumum en maximum Variantie en standaard afwijking: meest gebruikt om spreiding te geven. Ook gevoelig voor outliers, daarom: 33
34 Inhoud Summary statistics Visualisatie Online Analytical Processing (OLAP) Visualisatie technieken: Histogrammen Histogram Distributie van de waarden van 1 variabele Onderverdeling in bins; hoogte proportioneel aan frequentie. Vorm v/h histogram hangt af van aantal bins Voorbeeld: breedte bloemblad (10 vs 20 bins) 34
35 2D Histogrammen Toont de gezamelijke distributie van 2 var s. Vb: breedte en lengte v/d bloembladen Visualisatie techniek: Box Plots Box Plot (J. Tukey) Toont ook de distributie van de data outlier 90 ste percentiel 75 ste percentiel 50 ste percentiel 25 ste percentiel 10 de percentiel 35
36 Voorbeeld van Box Plots Visualisatie techniek: Scatter-plot Attribuutwaarden bepalen positie 2D of 3D Extra attributen via grootte, kleur, vorm, Matrix van scatterplots 36
37 Scatter-plot matrix van de Iris attributen Visualisatie techniek: Contour plot Continu attribuut op spatial grid Partitioneren van de ruimte Punten met gelijke waarde verbinden Cfr. hoogtelijnen Temperatuur, regenval, etc. 37
38 Voorbeeld: SST Dec, 1998 Celsius Visualisatie techniek: Matrix plot Plot van de data matrix Nuttig indien objecten geordend naar klasse Attributen worden typisch genormaliseerd Ook plots van similariteits- en afstandsmatrices zijn erg bruikbaar voor visuele inspectie van de relatie tussen objecten. 38
39 Visualisatie van de Iris data matrix standard deviation Visualisatie van de correlatie matrix 39
40 Visualisatie techniek: parallelle coordinaten Voor hoog-dimensionele data Parallelle assen i.p.v. loodrechte Attribuutwaarden van zelfde object worden verbonden door een lijn Ordening van attributen is belangrijk Vaak clusteren de lijnen samen in groepen voor een aantal attributen. Parallelle coordinaten voor de Iris data 40
41 Andere visualisatie technieken Star Plots Gelijkaardig aan parallelle coordinaten, maar nu zijn de assen radiaal (cfr. spaken in een wiel) De verbindingslijn is nu een polygoon Chernoff gezichten Elk attribuut is een karakteristiek van het gelaat De attribuutwaarden komen overeen met een uitdrukking van de geassocieerde karakteristiek Elk object is een gezicht Gebaseerd op gelaatsherkenning Star plots voor sample van de Iris data Setosa Versicolour Virginica 41
42 Chernoff gezichten Setosa Versicolour Virginica Inhoud Summary statistics Visualisatie Online Analytical Processing (OLAP) 42
43 OLAP On-Line Analytical Processing (OLAP) voorgesteld door E. F. Codd. Relationele databases zetten data in tabellen; OLAP gebruikt een multidimensionele array. Aantal analyse- en exploratie- taken zijn makkelijker uit te drukken wanneer de data als een cube gezien worden. Data Cube TV PC VCR sum Product Date 1Qtr 2Qtr 3Qtr 4Qtr sum Ireland France Germany Country sum 43
44 Data Cube - operaties Slice/dice: restricteer verschillende dimensies Roll-up en Drill-down: ga hoger resp. lager in de hierarchie (aggregatie) Pivoteren: construeer draaitabellen Samenvatting: Data exploratie Aantal Summary statistics Een enkel getal dat de data beschrijft (locatie, spreiding, ) Aantal visualisatie technieken 1 attribuut: histogram, box plot 2 attributen: scatter plot Meerdere attributen: matrix plot, parallelle coordinaten, star plots, Chernoff gezichten Online Analytical Processing (OLAP) 44
Data Mining: Data kwaliteit, Preprocessing
Data Mining: Data kwaliteit, Preprocessing docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Herhaling: definitie Data Mining is: Extractie van interessante
Data Mining: Clustering
Data Mining: Clustering docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Wat is clustering? Het onderverdelen van de objecten in een database in homogene
Classification - Prediction
Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training
Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent
Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data p 1/31 Beschrijvende
SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen
SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen
2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.
1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van
Data analyse Inleiding statistiek
Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door
Oplossingen Datamining 2II15 Juni 2008
Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen:
Principale Componenten Analyse:
Principale Componenten Analyse: Doelstellingen: dimensiereductie inzicht in de variabiliteit van de data dataexploratie PCA is een transformatie: van p oorspronkelijke variabelen naar p PC s ˆΣ Σ variantie
College 4 Inspecteren van Data: Verdelingen
College Inspecteren van Data: Verdelingen Inleiding M&T 01 013 Hemmo Smit Overzicht van deze cursus 1. Grondprincipes van de wetenschap. Observeren en meten 3. Interne consistentie; Beschrijvend onderzoek.
G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing
G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag
Les 1: de normale distributie
Les 1: de normale distributie Elke Debrie 1 Statistiek 2 e Bachelor in de Biomedische Wetenschappen 18 oktober 2018 1 Met dank aan Koen Van den Berge Indeling lessen Elke bullet point is een week. R en
DAR Approximate string matching Casus: biological sequence alignment
DAR Approximate string matching Casus: biological sequence alignment 1 Text search Approx string matching dynamic programming, edit distance example application: Google search Text indexing inverted list
Data Mining: Classificatie
Data Mining: Classificatie docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Overzicht Wat is classificatie? Leren van een beslissingsboom. Problemen
Oefenvragen bij Statistics for Business and Economics van Newbold
Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd
College Week 4 Inspecteren van Data: Verdelingen
College Week 4 Inspecteren van Data: Verdelingen Inleiding in de Methoden & Technieken 2013 2014 Hemmo Smit Dus volgende week Geen college en werkgroepen Maar Oefententamen on-line (BB) Data invoeren voor
Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent
Hoofdstuk 2 : Grafische beschrijving van data Marnix Van Daele [email protected] Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Grafische beschrijving van data p. 1/35 Soorten meetwaarden
9. Lineaire Regressie en Correlatie
9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)
Inleiding Applicatie Software - Statgraphics
Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een
Onderzoeksmethoden: Statistiek 1
0 123458898391081904749010998490849 074907079`794793784908`094389983.. Onderzoeksmethoden: Statistiek 1 Joepie, ons computerprogramma levert output Wat doen we hiermee? Marjan van den Akker 1 2 Output
Uitwerking Tentamen Datamining (2II15) 26/06/09
Uitwerking Tentamen Datamining (2II15) 26/06/09 1. (3p) (Clustering) Welke van de volgende uitspraken zijn correct? Voor de correcte uitspraken: leg uit, voor de incorrecte: geef een tegenvoorbeeld. (a)
Computer Vision: Hoe Leer ik een Computer Zien?
Computer Vision: Hoe Leer ik een Computer Zien? Michael H.F. Wilkinson Instituut voot Wiskunde en Informatica Rijksuniversiteit Groningen 27 April 2006 Overzicht 1 of 19 Wat is Computer Vision? Wat zijn
Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen
Vandaag Onderzoeksmethoden: Statistiek 2 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Theoretische kansverdelingen
Grafieken Cirkeldiagram
Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd
Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek
Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje
Hoofdstuk 4. Beschrijvende statistiek. 4.1 Beschrijvende statistiek voor één variabele
Hoofdstuk 4 Beschrijvende statistiek Alle commando s voor statistische berekeningen en analyse bevinden zich onder de optie Analyze in het hoofdmenu. Hieronder worden de verschillende commando s besproken
4 Domein STATISTIEK - versie 1.2
USolv-IT - Boomstructuur DOMEIN STATISTIEK - versie 1.2 - c Copyrighted 42 4 Domein STATISTIEK - versie 1.2 (Op initiatief van USolv-IT werd deze boomstructuur mede in overleg met het Universitair Centrum
introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets
toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:
Computer Vision: Hoe Leer ik een Computer Zien?
Computer Vision: Hoe Leer ik een Computer Zien? Michael H.F. Wilkinson Instituut voor Wiskunde en Informatica Rijksuniversiteit Groningen Les voor technasium, 5 februari 2008 Informatica aan de RUG Informatica
De Collegereeks Statistiek. statistiek. Statistiek in het dagelijkse nieuws. Statistiek Hoorcollege 1. Descriptieve statistiek ttitik
9/8/009 De Collegereeks Statistiek Statistiek Hoorcollege 1 Descriptieve statistiek ttitik Informatiekunde Universiteit Utrecht Dr. H. Prüst (37): Descriptieve statistiek (H 1,,3) (HP) 3(38): Score & Kans
Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015
Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%
Statistiek I Samenvatting. Prof. dr. Carette
Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De
Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie
Parking Surveillance foreground/background segmentation - objectherkenning Examen Beeldverwerking Pieter Vancoillie Doel van het (deel)project Uit beelden van een camera voetgangers, fietsers en auto s
Opgave 1: (zowel 2DM40 als 2S390)
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (DM4 en S39) op donderdag, 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine
SPSS. Statistiek : SPSS
SPSS - hoofdstuk 1 : 1.4. fase 4 : verrichten van metingen en / of verzamelen van gegevens Gegevens gevonden bij een onderzoek worden systematisch weergegeven in een datamatrix bij SPSS De datamatrix Gebruik
Inleiding statistiek
Inleiding Statistiek Pagina 1 uit 8 Inleiding statistiek 1. Inleiding In deze oefeningensessie is het de bedoeling jullie vertrouwd te maken met een aantal basisbegrippen van de statistiek, meer bepaald
Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur
Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4), op maandag 5 januari 29 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven
Data Mining: Classificatie
Data Mining: lassificatie docent: dr. Toon alders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Vorige les lassificatie: Het groeperen van objecten in voorgedefinieerde
Data analyse Inleiding statistiek
Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen
Formules Excel Bedrijfsstatistiek
Formules Excel Bedrijfsstatistiek Hoofdstuk 2 Data en hun voorstelling AANTAL.ALS vb: AANTAL.ALS(A1 :B6,H1) Telt hoeveel keer (frequentie) de waarde die in H1 zit in A1:B6 voorkomt. Vooral bedoeld voor
DEEL 1 Probleemstelling 1
DEEL 1 Probleemstelling 1 Hoofdstuk 1 Van Probleem naar Analyse 1.1 Notatie 4 1.1.1 Types variabelen 4 1.1.2 Types samenhang 5 1.2 Sociaalwetenschappelijke probleemstellingen en hun basisformat 6 1.2.1
Examen G0N34 Statistiek
Naam: Richting: Examen G0N34 Statistiek 7 juni 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium
Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data
Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data An Carbonez Leuven Statistics Research Centre Katholieke Universiteit Leuven Voorstelling van de
Statistiek. Beschrijvend statistiek
Statistiek Beschrijvend statistiek Verzameling van gegevens en beschrijvingen Populatie, steekproef Populatie = o de gehele groep ondervragen o parameter is een kerngetal Steekproef = o een onderdeel van
Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1
Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch
5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:
5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van
Meten en experimenteren
Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie
Oplossingen hoofdstuk 8
Count Count Oplossingen hoofdstuk 8 1. Plaats de volgende eigenschappen bij de gegeven verdelingen. De eigenschappen kunnen voorkomen bij meerdere verdelingen. Plaats bij elke eigenschap het hierbij horende
More points, lines, and planes
More points, lines, and planes Make your own pictures! 1. Lengtes en hoeken In het vorige college hebben we het inwendig product (inproduct) gedefinieerd. Aan de hand daarvan hebben we ook de norm (lengte)
Onderzoeksmethodiek LE: 2
Onderzoeksmethodiek LE: 2 3 Parameters en grootheden 3.1 Parameters Wat is een parameter? Een karakteristieke grootheid van een populatie Gem. gewicht van een 34-jarige man 3.2 Steekproefgrootheden Wat
1. Reductie van error variantie en dus verhogen van power op F-test
Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De
Onderzoek. B-cluster BBB-OND2B.2
Onderzoek B-cluster BBB-OND2B.2 Succes met leren Leuk dat je onze bundels hebt gedownload. Met deze bundels hopen we dat het leren een stuk makkelijker wordt. We proberen de beste samenvattingen voor jou
b. Maak een histogram van de verdeling van het groeiseizoen. Kies eerst klassen en maak een geschikte frequentietabel.
Opdracht 2a ----------- Stamdiagrammen, histogrammen, tijdreeksgrafieken De Old Farmers Almanac vermeldt de groeiseizoenen voor de grote steden in de V.S., zoals gerapporteerd door het National Climatic
Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn
Statistiek: Spreiding en dispersie 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Met spreiding willen we in één getal uitdrukken hoe verspreid de gegevens zijn: in hoeveel
Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor
Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor 4 juni 2012 Het voorkomen van ziekte kan op drie manieren worden weergegeven: - Prevalentie - Cumulatieve incidentie - Incidentiedichtheid In de
Wiskunde voor relativiteitstheorie
Wiskunde voor relativiteitstheorie HOVO Utrecht Les 1: Goniometrie en vectoren Dr. Harm van der Lek [email protected] Natuurkunde hobbyist Overzicht colleges 1. College 1 1. Goniometrie 2. Vectoren 2. College
A. Week 1: Introductie in de statistiek.
A. Week 1: Introductie in de statistiek. Populatie en steekproef. In dit vak leren we de basis van de statistiek. In de statistiek probeert men erachter te komen hoe we de populatie het beste kunnen observeren.
Inleiding tot de meettheorie
Inleiding tot de meettheorie Meten is het toekennen van cijfers aan voorwerpen. Koeien Koeien in een kudde, studenten in een auditorium, mensen met een bepaalde stoornis, leerlingen met meer dan 15 in
Tentamen Data Mining
Tentamen Data Mining Algemene Opmerkingen Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. Laat bij het uitvoeren van berekeningen zien hoe je aan een antwoord gekomen bent.
Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14
Statistiek met Excel Schoolexamen en Uitbreidingsopdrachten 2 Inhoudsopgave Achtergrondinformatie... 4 Schoolexamen Wiskunde VWO: Statistiek met grote datasets... 5 Uibreidingsopdrachten vwo 5... 6 Schoolexamen
datavisualisatie Stappen 14-12-12 verzamelen en opschonen analyseren van data interpeteren hoorcollege 4 visualisatie representeren
Stappen datavisualisatie hoorcollege 4 visualisatie HVA CMD V2 12 december 2012 verzamelen en opschonen analyseren van data interpeteren representeren in context plaatsen 1 "Ultimately, the key to a successful
Kansrekening en Statistiek
Kansrekening en Statistiek College 9 Woensdag 7 Oktober 1 / 51 Kansrekening en Statistiek? Bevordert luieren de fantasie? Psychologie 2 / 51 Kansrekening en Statistiek? Bevordert luieren de fantasie? Psychologie
SQL Aantekeningen 3. Maarten de Rijke [email protected]. 22 mei 2003
SQL Aantekeningen 3 Maarten de Rijke [email protected] 22 mei 2003 Samenvatting In deze aflevering: het selecteren van tuples, operaties op strings, en aggregatie functies. Verder kijken we naar iets
TIP 10: ANALYSE VAN DE CIJFERS
TOETSTIP 10 oktober 2011 Bepaling wat en waarom je wilt meten Toetsopzet Materiaal Betrouw- baarheid Beoordeling Interpretatie resultaten TIP 10: ANALYSE VAN DE CIJFERS Wie les geeft, botst automatisch
mlw stroom 2.1: Statistisch modelleren
mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht
Mogelijkheden en keuzes bij het clusteren van onderwijsdata
1 Mogelijkheden en keuzes bij het clusteren van onderwijsdata Hanneke van der Hoef Matthijs J Warrens ORD Nijmegen 14 juni 2018 2 Mogelijkheden en keuzes bij het clusteren van onderwijsdata Overzicht Clusteranalyse
HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....
HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken de rekenregel breuk Ik kan
Gemiddelde, mediaan, kwartielen, interkwartielafstand, minimum, maximum, variantie, standaardafwijking, boxdiagrammen
Opdracht 3a ----------- Gemiddelde, mediaan, kwartielen, interkwartielafstand, minimum, maximum, variantie, standaardafwijking, boxdiagrammen Voor de meting van de leesvaardigheid van kinderen wordt als
1. Statistiek gebruiken 1
Hoofdstuk 0 Inhoudsopgave 1. Statistiek gebruiken 1 2. Gegevens beschrijven 3 2.1 Verschillende soorten gegevens......................................... 3 2.2 Staafdiagrammen en histogrammen....................................
HOVO statistiek November 2011 1
Principale Componentenanalyse en hockeystick-short centring Principale Componentenanalyse bedacht door Karl Pearson in 1901 Peter Grünwald HOVO 31-10 2011 Stel we hebben een grote hoeveelheid data. Elk
Hoofdstuk 2: Verbanden
Hoofdstuk 2: Verbanden Inleiding In het gebruik van statistiek komen we vaak relaties tussen variabelen tegen. De focus van dit hoofdstuk ligt op het leren hoe deze relaties op grafische en numerieke wijze
SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I
SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I Hieronder volgen de SPSS uitvoer en de antwoorden van de opgaven van Stap 7: Oefenen I. Daarnaast wordt bij elke opgave
Oplossingen hoofdstuk 4
Oplossingen hoofdstuk 4 1.Welke uitslag komt overeen met percentiel 50? Dit is de uitslag 588. Blijft dit antwoord van toepassing indien elk blad (leaf) overeenkomt met 10 observaties? Ja. 2. Welke leeftijd
b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.
Opdracht 12a ------------ enkelvoudige lineaire regressie Kan de leeftijd waarop een kind begint te spreken voorspellen hoe zijn score zal zijn bij een latere test op verstandelijke vermogens? Een studie
Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2
INHOUDSOPGAVE Leswijzer...3 Beschrijvende Statistiek...3 Kansberekening...3 Inductieve statistiek, inferentiele statistiek...3 Hoofdstuk...3. Drie deelgebieden...3. Frequentieverdeling....3. Frequentieverdeling....4.5
NP-Volledigheid. Wil zo snel mogelijke algoritmes om problemen op te lossen. De looptijd is polynomiaal: O n k - dat is heel erg mooi
NP-Volledigheid Wil zo snel mogelijke algoritmes om problemen op te lossen Gezien: selectie [O(n)], DFS [O(n + m)], MaxFlow [O nm n + m ], MST [O(n + m)], etc De looptijd is polynomiaal: O n k - dat is
lengte aantal sportende broers/zussen
Oefening 1 Alvorens opgenomen te worden in een speciaal begeleidingsprogramma s voor jonge talentvolle lopers, worden jonge atleten eerst onderworpen aan een aantal vragenlijsten en onderzoeken. Uit het
16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA
16. MANOVA MANOVA Multivariate variantieanalyse (MANOVA) kan gebruikt worden in een situatie waarin je meerdere afhankelijke variabelen hebt. Met MANOVA kan er 1 onafhankelijke variabele gebruikt worden
FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie
FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie Lineaire Algebra, tentamen Uitwerkingen vrijdag 4 januari 0, 9 uur Gebruik van een formuleblad of rekenmachine is niet toegestaan. De
5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:
5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van
Wiskunde voor relativiteitstheorie
Wiskunde voor relativiteitstheorie Utrecht Les : Goniometrie en vectoren Dr. Harm van der Lek [email protected] Natuurkunde hobbyist verzicht colleges. College. Goniometrie 2. Vectoren 2. College 2. Matrixen
Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19
Stochastiek 2 Inleiding in de Mathematische Statistiek 1/19 Herhaling H.1 2/19 Mathematische Statistiek We beschouwen de beschikbare data als realisatie(s) van een stochastische grootheid X.(Vaak een vector
HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf
HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken
Benaderingsalgoritmen
Benaderingsalgoritmen Eerste hulp bij NP-moeilijkheid 1 Herhaling NP-volledigheid (1) NP: er is een polynomiaal certificaat voor jainstanties dat in polynomiale tijd te controleren is Een probleem A is
REËLE FUNCTIES BESPREKEN
INLEIDING FUNCTIES 1. DEFINITIE...3 2. ARGUMENT EN BEELD...4 3. HET FUNCTIEVOORSCHRIFT...5 4. DE FUNCTIEWAARDETABEL...7 5. DE GRAFIEK...9 6. FUNCTIES HERKENNEN...12 7. OEFENINGEN...14 8. OPLOSSINGEN...18
werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek
cursus 23 mei 2012 werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen onderzoek streeft naar inzicht in relatie tussen variabelen bv. tussen onafhankelijke
Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6
Tentamen Data Mining Datum: 4januai2l6 Tijd: 4: - 7: Algemene Opmerkingen e Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. o Laat bij het uitvoeren van berekeningen zien hoeje
Wat is nieuw in Enterprise Guide
Enterprise Guide 42 4.2 Lieve Goedhuys Copyright 2009 SAS Institute Inc. All rights reserved. Wat is nieuw in Enterprise Guide Vereenvoudigde interface Gebruikersinterface i Project recovery Conditionele
