Classification - Prediction



Vergelijkbare documenten
Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

11. Multipele Regressie en Correlatie

College 3 Meervoudige Lineaire Regressie

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

9. Lineaire Regressie en Correlatie

1 vorig = omzet voorgaande jaar. Forward (Criterion: Probability-of-F-to-enter <=,050) 2 bezoek = aantal bezoeken vertegenwoordiger

Oplossingen hoofdstuk XI

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

mlw stroom 2.1: Statistisch modelleren

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari uur

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

College 2 Enkelvoudige Lineaire Regressie

Statistiek II. Sessie 4. Feedback Deel 4

HOOFDSTUK VII REGRESSIE ANALYSE

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

Feedback examen Statistiek II Juni 2011

4 Domein STATISTIEK - versie 1.2

(slope in het Engels) en het snijpunt met de y-as, b 0

Hoofdstuk 8: Multipele regressie Vragen

Voorbeeld regressie-analyse

Deze opdracht lossen we eenvoudig op door in de vergelijking X1 en X2 te vervangen door de geobserveerde waarden van deze variabelen:

Enkelvoudige lineaire regressie

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

College 6 Eenweg Variantie-Analyse

Opgave 1: (zowel 2DM40 als 2S390)

Principe Maken van een Monte Carlo data-set populatie-parameters en standaarddeviaties standaarddeviatie van de bepaling statistische verdeling

Data analyse Inleiding statistiek

Regressie-analyse doel menu hulp globale werkwijze aandachtspunten Doel: Voor de uitvoering in SPSS: Missing Values Globale werkwijze

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Examen G0N34 Statistiek

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, uur

Meervoudige lineaire regressie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

Correlatie = statistische samenhang Meest gebruikt = Spearman s rang correlatie Ordinaal geschaalde variabelen -1 <= r s <= +1 waarbij:

Hoofdstuk 10: Regressie

11. Meerdere gemiddelden vergelijken, ANOVA

Uitwerking Tentamen Datamining (2II15) 26/06/09

Verband tussen twee variabelen

2DM71: Eindtoets Biostatistiek, op dinsdag 20 Januari 2015,

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Voorblad bij tentamen

Disclosure Belangen Spreker

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Toegepaste data-analyse: oefensessie 2

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Bijlage 3: Multiple regressie analyse

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

4 Meervoudige lineaire regressie

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Algemeen lineair model

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Oefenvragen bij Statistics for Business and Economics van Newbold

Tentamen Biostatistiek 3 / Biomedische wiskunde

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

SPSS. Statistiek : SPSS

Toegepaste Biostatistiek CAST oefeningen 1

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Causale modellen: Confounding en mediatie. Harry Ganzeboom Kwantitatieve Methoden voor PMC-BCO College 2: 25 april 2016

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

Hoofdstuk 12: Eenweg ANOVA

Evaluatie Waterproject Ruinen

MISSING DATA van gatenkaas naar valide uitkomsten

Residual Plot for Strength. predicted Strength

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Wiskunde B - Tentamen 2

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

Statistiek II. Sessie 6. Feedback Deel 6

Samenvatting Nederlands

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

Voorbeelden van gebruik van 5 VUSTAT-apps

1. Reductie van error variantie en dus verhogen van power op F-test

Exponentiële Functie: Toepassingen

Examen G0N34 Statistiek

Kwantitatieve modellen. Harry B.G. Ganzeboom 18 april 2016 College 1: Meetkwaliteit

Voorspellen van webwinkel aankopen met een Random Forest

1. Statistiek gebruiken 1

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

Transcriptie:

Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training data: om model te bouwen Validatie data: om accuraatheid model te testen confusion matrix

Nu: ook prediction k-nearest Neighbours Multiple Linear Regression... Op basis van predictor variabelen X 1, X 2,..., X p waarde van continue variabele Y proberen te voorspellen. Training data: om model te bouwen Validatie data: om accuraatheid model te testen numerieke maten Voor elke observatie i, prediction error (residu): e i = y i ŷ i met y i : de echte waarde ŷ i : de voorspelde waarde (door het model)

Numerieke maten voor accuraatheid prediction model MAE/MAED (Mean Absolute Error/Deviation) Average Error 1 n 1 n n i=1 e i n e i i=1 MAPE (Mean Absolute Percentage Error) 100% 1 n n i=1 e i y i RMSE (Root Mean Squared Error) 1 n n e 2 i i=1 TSSE Total Sum of Squared Erros n e 2 i i=1

Enkelvoudige lineaire regressie Op basis van 1 predictor variabele X de waarde van 1 continue output variabele Y proberen te voorspellen. Theoretisch model (populatie): Y = β 0 + β 1 X + ɛ met ɛ ruis, spreiding in Y. Veronderstellingen: spreiding in Y voor elke waarde van X hetzelfde (ɛ N(0, σ 2 )) = homoscedasticiteit prediction errors (residuen) onafhankelijk van elkaar Training data (v.b. 40% volledige dataset) coëfficiënten β 0 en β 1 schatten Y = b 0 + b 1 X parameter ɛ, spreiding in Y schatten Std. Dev. estimate in output

Hoe goed is gevonden model? afhankelijk van het doel! Doel analyse: beschrijving (typisch statistiek) goodness of fit berekenen op training data! R 2 (of R) berekenen hoe dichter bij 1 (of -1), hoe beter R-squared in output Doel analyse: voorspelling (typisch data mining) numerieke maten voor accuraatheid voorspelling (zie vorige slide) berekenen op validatie data! Validation Data scoring in output evenwicht zoeken tussen de twee voor data mining: vooral voorspellende kracht belangrijk

Wat bij een andere partitie? bijvoorbeeld verhouding 60%-40%, maar andere seed bijvoorbeeld andere verhouding, maar zelfde seed andere schattingen b 0 en b 1 voor β 0 en β1 hoe veel kan dit verschillen van partitie tot partitie? para- schattingen voor de spreiding in de meters van partitie tot partitie Std. Error in output bij Coefficient

Meervoudige lineaire regressie Op basis van meerdere predictor variabelen X 1, X 2,..., X p de waarde van 1 continue output variabele Y proberen te voorspellen. Theoretisch model (populatie): Y = β 0 + β 1 X 1 +... + β p X p + ɛ met ɛ ruis, spreiding in Y. Veronderstellingen: spreiding in Y voor elke waarde van X hetzelfde (ɛ N(0, σ 2 )) = homoscedasticiteit prediction errors (residuen) onafhankelijk van elkaar Training data (v.b. 40% volledige dataset) parameters β 0, β 1,..., β p schatten Y = b 0 + b 1 X 1 +... + b p X p parameter ɛ, spreiding in Y schatten Std. Dev. estimate in output

Welke predictor variabelen dragen echt bij tot de voorspelling? Welke coëfficiënten b 0, b 1,... b p zijn significant verschillend van 0? Het niet nul zijn van een coëfficiënt in het model kan toeval zijn! (bijvoorbeeld door de (toevallige) observaties in de training data) p-waarde berekenen p-waarde: kans om die waarde voor coëfficiënt toevallig bij het model in de training data te vinden als die coëfficiënt in de populatie nul is. Kleine p-waarde: coëfficiënt signifcant verschillend van nul, levert echte bijdrage tot de voorspelling p-value in output bij Coefficient

Optimaal aantal + keuze predictor variabelen? Te veel variabelen: kans op overfitting! eventueel weinig voorspellingskracht Liefst geen variabelen opnemen die geen bijdrage leveren tot de voorspelling. verhogen de spreiding in de voorspellingen Liefst geen variabelen vewijderen die wel echte bijdrage leveren tot de voorspelling. verhogen de gemiddelde fout in voorspellingen Opgelet voor predictor variabelen die onderling sterk gecorreleerd zijn! kan coëfficiënten vertekenen onderlinge correlaties opsporen ( matrix plot of correlation matrix ) Opgelet voor outliers! Vuistregel: aantal observaties n in training data minstens gelijk aan 5 (p + 2)

Methodes om de beste subset van predictor variabelen te kiezen eerst: met domeinkennis aantal predictor variabelen reeds reduceren daarna: algoritmes gebruiken Exhaustive search : alle subsets van predictor variabelen proberen Forward selection : starten met 1 predictor variabele, telkens de meest significante toevoegen Backward selection : starten met alle predictor variabelen, telkens de minst signifcante verwijderen...