Classification - Prediction

Maat: px
Weergave met pagina beginnen:

Download "Classification - Prediction"

Transcriptie

1 Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training data: om model te bouwen Validatie data: om accuraatheid model te testen confusion matrix

2 Nu: ook prediction k-nearest Neighbours Multiple Linear Regression... Op basis van predictor variabelen X 1, X 2,..., X p waarde van continue variabele Y proberen te voorspellen. Training data: om model te bouwen Validatie data: om accuraatheid model te testen numerieke maten Voor elke observatie i, prediction error (residu): e i = y i ŷ i met y i : de echte waarde ŷ i : de voorspelde waarde (door het model)

3 Numerieke maten voor accuraatheid prediction model MAE/MAED (Mean Absolute Error/Deviation) Average Error 1 n 1 n n i=1 e i n e i i=1 MAPE (Mean Absolute Percentage Error) 100% 1 n n i=1 e i y i RMSE (Root Mean Squared Error) 1 n n e 2 i i=1 TSSE Total Sum of Squared Erros n e 2 i i=1

4 Enkelvoudige lineaire regressie Op basis van 1 predictor variabele X de waarde van 1 continue output variabele Y proberen te voorspellen. Theoretisch model (populatie): Y = β 0 + β 1 X + ɛ met ɛ ruis, spreiding in Y. Veronderstellingen: spreiding in Y voor elke waarde van X hetzelfde (ɛ N(0, σ 2 )) = homoscedasticiteit prediction errors (residuen) onafhankelijk van elkaar Training data (v.b. 40% volledige dataset) coëfficiënten β 0 en β 1 schatten Y = b 0 + b 1 X parameter ɛ, spreiding in Y schatten Std. Dev. estimate in output

5 Hoe goed is gevonden model? afhankelijk van het doel! Doel analyse: beschrijving (typisch statistiek) goodness of fit berekenen op training data! R 2 (of R) berekenen hoe dichter bij 1 (of -1), hoe beter R-squared in output Doel analyse: voorspelling (typisch data mining) numerieke maten voor accuraatheid voorspelling (zie vorige slide) berekenen op validatie data! Validation Data scoring in output evenwicht zoeken tussen de twee voor data mining: vooral voorspellende kracht belangrijk

6 Wat bij een andere partitie? bijvoorbeeld verhouding 60%-40%, maar andere seed bijvoorbeeld andere verhouding, maar zelfde seed andere schattingen b 0 en b 1 voor β 0 en β1 hoe veel kan dit verschillen van partitie tot partitie? para- schattingen voor de spreiding in de meters van partitie tot partitie Std. Error in output bij Coefficient

7 Meervoudige lineaire regressie Op basis van meerdere predictor variabelen X 1, X 2,..., X p de waarde van 1 continue output variabele Y proberen te voorspellen. Theoretisch model (populatie): Y = β 0 + β 1 X β p X p + ɛ met ɛ ruis, spreiding in Y. Veronderstellingen: spreiding in Y voor elke waarde van X hetzelfde (ɛ N(0, σ 2 )) = homoscedasticiteit prediction errors (residuen) onafhankelijk van elkaar Training data (v.b. 40% volledige dataset) parameters β 0, β 1,..., β p schatten Y = b 0 + b 1 X b p X p parameter ɛ, spreiding in Y schatten Std. Dev. estimate in output

8 Welke predictor variabelen dragen echt bij tot de voorspelling? Welke coëfficiënten b 0, b 1,... b p zijn significant verschillend van 0? Het niet nul zijn van een coëfficiënt in het model kan toeval zijn! (bijvoorbeeld door de (toevallige) observaties in de training data) p-waarde berekenen p-waarde: kans om die waarde voor coëfficiënt toevallig bij het model in de training data te vinden als die coëfficiënt in de populatie nul is. Kleine p-waarde: coëfficiënt signifcant verschillend van nul, levert echte bijdrage tot de voorspelling p-value in output bij Coefficient

9 Optimaal aantal + keuze predictor variabelen? Te veel variabelen: kans op overfitting! eventueel weinig voorspellingskracht Liefst geen variabelen opnemen die geen bijdrage leveren tot de voorspelling. verhogen de spreiding in de voorspellingen Liefst geen variabelen vewijderen die wel echte bijdrage leveren tot de voorspelling. verhogen de gemiddelde fout in voorspellingen Opgelet voor predictor variabelen die onderling sterk gecorreleerd zijn! kan coëfficiënten vertekenen onderlinge correlaties opsporen ( matrix plot of correlation matrix ) Opgelet voor outliers! Vuistregel: aantal observaties n in training data minstens gelijk aan 5 (p + 2)

10 Methodes om de beste subset van predictor variabelen te kiezen eerst: met domeinkennis aantal predictor variabelen reeds reduceren daarna: algoritmes gebruiken Exhaustive search : alle subsets van predictor variabelen proberen Forward selection : starten met 1 predictor variabele, telkens de meest significante toevoegen Backward selection : starten met alle predictor variabelen, telkens de minst signifcante verwijderen...

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y 1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld

Nadere informatie

11. Multipele Regressie en Correlatie

11. Multipele Regressie en Correlatie 11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in

Nadere informatie

College 3 Meervoudige Lineaire Regressie

College 3 Meervoudige Lineaire Regressie College 3 Meervoudige Lineaire Regressie - Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2) Jolien Pas ECO 2012-2013 'Computerprogramma voorspelt Top 40-hits Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html

Nadere informatie

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA Masterclass: advanced statistics Bianca de Greef Sander van Kuijk Afdeling KEMTA Inhoud Masterclass Deel 1 (theorie): Achtergrond regressie Deel 2 (voorbeeld): Keuzes Output Model Model Dependent variable

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

1 vorig = omzet voorgaande jaar. Forward (Criterion: Probability-of-F-to-enter <=,050) 2 bezoek = aantal bezoeken vertegenwoordiger

1 vorig = omzet voorgaande jaar. Forward (Criterion: Probability-of-F-to-enter <=,050) 2 bezoek = aantal bezoeken vertegenwoordiger De groothandel Onderwerp: regressieanalyse met SPSS Bij: hoofdstuk 10 Een groothandel heeft onderzoek gedaan onder de klanten en daarbij geprobeerd met regressieanalyse vast te stellen wat de bepalende

Nadere informatie

Oplossingen hoofdstuk XI

Oplossingen hoofdstuk XI Oplossingen hoofdstuk XI. Hierbij vind je de resultaten van het onderzoek naar de relatie tussen een leestest en een schoolrapport voor lezen. Deze gegevens hebben betrekking op een regressieanalyse bij

Nadere informatie

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan

Nadere informatie

mlw stroom 2.1: Statistisch modelleren

mlw stroom 2.1: Statistisch modelleren mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4), op maandag 5 januari 29 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd

Nadere informatie

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek cursus 23 mei 2012 werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen onderzoek streeft naar inzicht in relatie tussen variabelen bv. tussen onafhankelijke

Nadere informatie

College 2 Enkelvoudige Lineaire Regressie

College 2 Enkelvoudige Lineaire Regressie College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:

Nadere informatie

Statistiek II. Sessie 4. Feedback Deel 4

Statistiek II. Sessie 4. Feedback Deel 4 Statistiek II Sessie 4 Feedback Deel 4 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 4 We hebben besloten de bekomen grafieken in R niet in het document in te voegen, dit omdat het document met

Nadere informatie

laboratory for industrial mathematics eindhoven Endinet Regressie-analyse Energiekamer

laboratory for industrial mathematics eindhoven Endinet Regressie-analyse Energiekamer Endinet Regressie-analyse Energiekamer Laboratory for Industrial Mathematics Eindhoven Postbus 513 5600 MB Eindhoven tel.: 040 247 4875 fax: 040 244 2489 e-mail: lime@tue.nl WWW: http://www.lime.tue.nl

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek Hoofdstuk 19 Voorspellende analyse bij marktonderzoek Voorspellen begrijpen Voorspelling: een uitspraak over wat er naar verwachting in de toekomst zal gebeuren op basis van ervaringen uit het verleden

Nadere informatie

Feedback examen Statistiek II Juni 2011

Feedback examen Statistiek II Juni 2011 Feedback examen Statistiek II Juni 2011 Bij elke vraag is alternatief A correct. 1 De variabele X is Student verdeeld in een bepaalde populatie, met verwachting µ X en variantie σ 2 X. Je trekt steekproeven

Nadere informatie

4 Domein STATISTIEK - versie 1.2

4 Domein STATISTIEK - versie 1.2 USolv-IT - Boomstructuur DOMEIN STATISTIEK - versie 1.2 - c Copyrighted 42 4 Domein STATISTIEK - versie 1.2 (Op initiatief van USolv-IT werd deze boomstructuur mede in overleg met het Universitair Centrum

Nadere informatie

(slope in het Engels) en het snijpunt met de y-as, b 0

(slope in het Engels) en het snijpunt met de y-as, b 0 8. Regressie Een introductie Al vaak is genoemd dat statistische modellen allemaal neerkomen op uitkomst = model + error. Dit model kun je ook gebruiken om de uitkomst te voorspellen, met een correlatie

Nadere informatie

Hoofdstuk 8: Multipele regressie Vragen

Hoofdstuk 8: Multipele regressie Vragen Hoofdstuk 8: Multipele regressie Vragen 1. Wat is het verschil tussen de pearson correlatie en de multipele correlatie R? 2. Voor twee modellen berekenen we de adjusted R2 : Model 1 heeft een adjusted

Nadere informatie

Voorbeeld regressie-analyse

Voorbeeld regressie-analyse Voorbeeld regressie-analyse In dit voorbeeld wordt gebruik gemaakt van het SPSS data-bestand vb_regr.sav (dit bestand kan gedownload worden via de on-line helpdesk). We schatten een model waarin de afhankelijke

Nadere informatie

Deze opdracht lossen we eenvoudig op door in de vergelijking X1 en X2 te vervangen door de geobserveerde waarden van deze variabelen:

Deze opdracht lossen we eenvoudig op door in de vergelijking X1 en X2 te vervangen door de geobserveerde waarden van deze variabelen: INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 10 1. Volgende regressievergelijking werd opgesteld na onderzoek: YY ii = 6 + 2.5 XX ii1 + 3 XX ii2 + εε ii Bereken de voorspelde

Nadere informatie

Enkelvoudige lineaire regressie

Enkelvoudige lineaire regressie Enkelvoudige lineaire regressie Inleiding Dit hoofdstuk sluit aan op hoofdstuk I-9 van het statistiekboek. Er wordt hier steeds gesproken over het verband tussen één afhankelijke variabele Y en één onafhankelijke

Nadere informatie

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn. Opdracht 12a ------------ enkelvoudige lineaire regressie Kan de leeftijd waarop een kind begint te spreken voorspellen hoe zijn score zal zijn bij een latere test op verstandelijke vermogens? Een studie

Nadere informatie

College 6 Eenweg Variantie-Analyse

College 6 Eenweg Variantie-Analyse College 6 Eenweg Variantie-Analyse - Leary: Hoofdstuk 11, 1 (t/m p. 55) - MM&C: Hoofdstuk 1 (t/m p. 617), p. 63 t/m p. 66 - Aanvullende tekst 6, 7 en 8 Jolien Pas ECO 01-013 Het Experiment: een voorbeeld

Nadere informatie

Opgave 1: (zowel 2DM40 als 2S390)

Opgave 1: (zowel 2DM40 als 2S390) TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (DM4 en S39) op donderdag, 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Principe Maken van een Monte Carlo data-set populatie-parameters en standaarddeviaties standaarddeviatie van de bepaling statistische verdeling

Principe Maken van een Monte Carlo data-set populatie-parameters en standaarddeviaties standaarddeviatie van de bepaling statistische verdeling Monte Carlo simulatie In MW\Pharm versie 3.30 is een Monte Carlo simulatie-module toegevoegd. Met behulp van deze Monte Carlo procedure kan onder meer de betrouwbaarheid van de berekeningen van KinPop

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen

Nadere informatie

Regressie-analyse doel menu hulp globale werkwijze aandachtspunten Doel: Voor de uitvoering in SPSS: Missing Values Globale werkwijze

Regressie-analyse doel menu hulp globale werkwijze aandachtspunten Doel: Voor de uitvoering in SPSS: Missing Values Globale werkwijze Regressie-analyse Regressie-analyse is gericht op het voorspellen van één (numerieke) afhankelijke variabele met behulp van een of meerdere onafhankelijke variabelen (numerieke en/of dummy-variabelen).

Nadere informatie

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Meervoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur. VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) Avondopleiding. donderdag 6-6-3, 9.-. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 7 juni 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, 9.00-12.00 uur

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, 9.00-12.00 uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (DM4) woensdag 8 oktober 9, 9.-. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven Statistisch

Nadere informatie

Meervoudige lineaire regressie

Meervoudige lineaire regressie Meervoudige lineaire regressie Inleiding In dit hoofdstuk dat aansluit op hoofdstuk II- (deel 2) wordt uitgelegd hoe een meervoudige regressieanalyse uitgevoerd kan worden met behulp van SPSS. Aan de hand

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en

Nadere informatie

Correlatie = statistische samenhang Meest gebruikt = Spearman s rang correlatie Ordinaal geschaalde variabelen -1 <= r s <= +1 waarbij:

Correlatie = statistische samenhang Meest gebruikt = Spearman s rang correlatie Ordinaal geschaalde variabelen -1 <= r s <= +1 waarbij: Correlatie analyse Correlatie = statistische samenhang Meest gebruikt = Spearman s rang correlatie Ordinaal geschaalde variabelen -1

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

11. Meerdere gemiddelden vergelijken, ANOVA

11. Meerdere gemiddelden vergelijken, ANOVA 11. Meerdere gemiddelden vergelijken, ANOVA Analyse van variantie (ANOVA) wordt gebruikt wanneer er situaties zijn waarbij er meer dan twee condities vergeleken worden. In dit hoofdstuk wordt de onafhankelijke

Nadere informatie

Uitwerking Tentamen Datamining (2II15) 26/06/09

Uitwerking Tentamen Datamining (2II15) 26/06/09 Uitwerking Tentamen Datamining (2II15) 26/06/09 1. (3p) (Clustering) Welke van de volgende uitspraken zijn correct? Voor de correcte uitspraken: leg uit, voor de incorrecte: geef een tegenvoorbeeld. (a)

Nadere informatie

Toets deel 2 Data-analyse en retrieval Vrijdag 30 Juni 2017:

Toets deel 2 Data-analyse en retrieval Vrijdag 30 Juni 2017: Toets deel 2 Data-analyse en retrieval Vrijdag 30 Juni 2017: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan

Nadere informatie

Verband tussen twee variabelen

Verband tussen twee variabelen Verband tussen twee variabelen Inleiding Dit practicum sluit aan op hoofdstuk I-3 van het statistiekboek en geeft uitleg over het maken van kruistabellen, het berekenen van de correlatiecoëfficiënt en

Nadere informatie

2DM71: Eindtoets Biostatistiek, op dinsdag 20 Januari 2015, 13.30-16.30

2DM71: Eindtoets Biostatistiek, op dinsdag 20 Januari 2015, 13.30-16.30 Faculteit der Wiskunde en Informatica 2DM71: Eindtoets Biostatistiek, op dinsdag 20 Januari 2015, 13.30-16.30 Opgave 1: (5 x 6 = 30 punten) (Bij deze opgave is gebruik van resultaten uit bijlage 1 noodzakelijk)

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit College 7 Regressie-analyse en Variantie verklaren Inleiding M&T 2012 2013 Hemmo Smit Neem mee naar tentamen Geslepen potlood + gum Collegekaart (alternatief: rijbewijs, ID-kaart, paspoort) (Grafische)

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op dinsdag 5-03-2005, 9.00-22.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Voorblad bij tentamen

Voorblad bij tentamen Studentnaam: Studentnummer: Voorblad bij tentamen (in te vullen door de examinator) Vaknaam:Biostatistiek en Lineaire Algebra Vakcode: 2DM81 Datum: Begintijd:13.30 Eindtijd: 16.30 Aantal pagina s:2 voor

Nadere informatie

Disclosure Belangen Spreker

Disclosure Belangen Spreker 1 Geen (potentiële) belangenverstengeling Disclosure Belangen Spreker Voor bijeenkomst mogelijk relevante relaties: Sponsoring of onderzoeksgeld - Honorarium of andere (financiële ) vergoedingen Aandeelhouder

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 27 oktober 2010, uur

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 27 oktober 2010, uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4) woensdag 27 oktober 2, 9.-2. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 30 januari 2009 - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 2 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling Kwantitatieve Data Analyse (KDA) Onderzoekspracticum Sessie 2 11 Aanpassingen takenboek! Check studienet om eventuele verbeteringen te downloaden! Huidige versie takenboek: 09 Gjalt-Jorn Peters gjp@ou.nl

Nadere informatie

Toegepaste data-analyse: oefensessie 2

Toegepaste data-analyse: oefensessie 2 Toegepaste data-analyse: oefensessie 2 Depressie 1. Beschrijf de clustering van de dataset en geef aan op welk niveau de verschillende variabelen behoren Je moet weten hoe de data geclusterd zijn om uit

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, 9.00-12.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Bijlage 3: Multiple regressie analyse

Bijlage 3: Multiple regressie analyse Bijlage 3: Multiple regressie analyse REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING PAIRWISE /STATISTICS COEFF OUTS CI(95) R ANOVA COLLIN TOL ZPP /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40), op woensdag 12 november 2008 14.00-17.00 uur

Tentamen Biostatistiek 1 voor BMT (2DM40), op woensdag 12 november 2008 14.00-17.00 uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4), op woensdag 2 november 28 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

4 Meervoudige lineaire regressie

4 Meervoudige lineaire regressie 4 Meervoudige lineaire regressie In het vorige hoofdstuk is enkelvoudige lineaire regressie besproken. Hierbij was er slechts één onafhankelijke variabele. In de praktijk zijn er echter gevallen waarin

Nadere informatie

Technische appendix bij DNBulletin Voor lagere werkloosheid is meer economische groei nodig. Variable Coefficient Std. Error t-statistic Prob.

Technische appendix bij DNBulletin Voor lagere werkloosheid is meer economische groei nodig. Variable Coefficient Std. Error t-statistic Prob. Technische appendix bij DNBulletin Voor lagere werkloosheid is meer economische groei nodig Schatting Okun s law; Nederland, periode 1979-2017 Variabelen Afhankelijke variabele UD= jaar op jaarmutatie

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2S390) op maandag 19-11-2001, 14.00-17.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Gezinsinkomen en kansenongelijkheid Cijfers bij beschouwend artikel Didactief mei 2018

Gezinsinkomen en kansenongelijkheid Cijfers bij beschouwend artikel Didactief mei 2018 Gezinsinkomen en kansenongelijkheid Cijfers bij beschouwend artikel Didactief mei 2018 De slides illustreren achtereenvolgens: 1 De overheid demonstreert een sterk verband tussen gezinsinkomen en bereikt

Nadere informatie

Algemeen lineair model

Algemeen lineair model Algemeen lineair model Lieven Clement 2 de bach. in de Biologie, Chemie, Biochemie en Biotechnologie en Biomedische Wetenschappen statomics, Ghent University lieven.clement@ugent.be 1/57 Inleiding Tot

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

Tentamen Biostatistiek 3 / Biomedische wiskunde

Tentamen Biostatistiek 3 / Biomedische wiskunde Tentamen Biostatistiek 3 / Biomedische wiskunde 25 maart 2014; 12:00-14:00 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau. Het

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op vrijdag 29-04-2004, 9-2 uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

SPSS. Statistiek : SPSS

SPSS. Statistiek : SPSS SPSS - hoofdstuk 1 : 1.4. fase 4 : verrichten van metingen en / of verzamelen van gegevens Gegevens gevonden bij een onderzoek worden systematisch weergegeven in een datamatrix bij SPSS De datamatrix Gebruik

Nadere informatie

Toegepaste Biostatistiek CAST oefeningen 1

Toegepaste Biostatistiek CAST oefeningen 1 Toegepaste Biostatistiek CAST oefeningen 1 CAST Exercises CAST is een gratis online e-book (eigenlijk 3 e-books), met oefeningen. De link voor de site (http://cast.massey.ac.nz/collection_public.html)

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op donderdag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op donderdag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op donderdag 0-03-2005, 4.00-7.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine,

Nadere informatie

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef Statistiek II Onderdeel toetsen binnen de cursus: 1. Eenvoudig toetsen Toetsen en schatten ivm één statistiek of steekproef Via de z-verdeling, als µ onderzocht wordt en gekend is: Via de t-verdeling,

Nadere informatie

Causale modellen: Confounding en mediatie. Harry Ganzeboom Kwantitatieve Methoden voor PMC-BCO College 2: 25 april 2016

Causale modellen: Confounding en mediatie. Harry Ganzeboom Kwantitatieve Methoden voor PMC-BCO College 2: 25 april 2016 Causale modellen: Confounding en mediatie Harry Ganzeboom Kwantitatieve Methoden voor PMC-BCO College 2: 25 april 2016 Correlatie en causatie Een standaard wijsheid in methodologie is dat correlatie (samenhang)

Nadere informatie

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 1. De onderzoekers van een preventiedienst vermoeden dat werknemers in een bedrijf zonder liften fitter zijn dan werknemers

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

Evaluatie Waterproject Ruinen

Evaluatie Waterproject Ruinen Evaluatie Waterproject Ruinen Waterproject Ruinen 2 Een praktijktoepassing van interventieanalyse met Menyanthes Grondwaterstand (m+nap) 5,8 5,6 5,4 5,2 5 4,8 4,6 Zand: lage gws Keileem: hoge gws Water

Nadere informatie

MISSING DATA van gatenkaas naar valide uitkomsten

MISSING DATA van gatenkaas naar valide uitkomsten MISSING DATA van gatenkaas naar valide uitkomsten Sander M.J. van Kuijk Afdeling Klinische Epidemiologie en Medical Technology Assessment sander.van.kuijk@mumc.nl Inhoud Masterclass Theorie over missing

Nadere informatie

Residual Plot for Strength. predicted Strength

Residual Plot for Strength. predicted Strength Uitwerking tentamen DS mei 4 Opgave Een uitwerking geven is hier niet mogelijk. Het is van belang het iteratieve optimaliseringsproces goed uit te voeren (zie ook de PowerPoint sheets): screening design

Nadere informatie

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De

Nadere informatie

Faculteit der Wiskunde en Informatica

Faculteit der Wiskunde en Informatica Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (DM4), op woensdag 7 januari 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

H7: Analysis of variance

H7: Analysis of variance H7: Analysis of variance Lieven Clement Statistiek: 2 de bach. in de Biochemie en Biotechnologie, Biologie, Biomedische Wetenschappen, en de Chemie statomics, Krijgslaan 281 (S9), Gent, Belgium lieven.clement@ugent.be

Nadere informatie

Wiskunde B - Tentamen 2

Wiskunde B - Tentamen 2 Wiskunde B - Tentamen Tentamen van Wiskunde B voor CiT (57) Donderdag 4 april 005 van 900 tot 00 uur Dit tentamen bestaat uit 8 opgaven, 3 tabellen en formulebladen Vermeld ook je studentnummer op je werk

Nadere informatie

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren. 1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van

Nadere informatie

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 Bjorn Winkens Methodologie en Statistiek Universiteit Maastricht 21 maart

Nadere informatie

Statistiek II. Sessie 6. Feedback Deel 6

Statistiek II. Sessie 6. Feedback Deel 6 Statistiek II Sessie 6 Feedback Deel 6 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 6 We hebben besloten de bekomen grafieken in R niet in het document in te voegen, dit omdat het document met

Nadere informatie

Samenvatting Nederlands

Samenvatting Nederlands Samenvatting Nederlands 178 Samenvatting Mis het niet! Incomplete data kan waardevolle informatie bevatten In epidemiologisch onderzoek wordt veel gebruik gemaakt van vragenlijsten om data te verzamelen.

Nadere informatie

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen. Tentamen Inleiding Intelligente Data Analyse Datum: 19-12-2002 Tijd: 9.00-12.00, BBL 420 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen. Herkansing Inleiding Intelligente Data Analyse Datum: 3-3-2003 Tijd: 14.00-17.00, BBL 508 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN

TECHNISCHE UNIVERSITEIT EINDHOVEN TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4 en 2S39) op maandag 2--27, 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 5 februari - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 9 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

Voorbeelden van gebruik van 5 VUSTAT-apps

Voorbeelden van gebruik van 5 VUSTAT-apps Voorbeelden van gebruik van 5 VUSTAT-apps Piet van Blokland Begrijpen van statistiek door simulaties en visualisaties Hoe kun je deze apps gebruiken bij het statistiek onderwijs? De apps van VUSTAT zijn

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

Exponentiële Functie: Toepassingen

Exponentiële Functie: Toepassingen Exponentiële Functie: Toepassingen 1 Overgang tussen exponentiële functies en lineaire functies Wanneer we werken met de exponentiële functie is deze niet altijd gemakkelijk te herkennen. Daarom proberen

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 8 september 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 6 mei 2010 1 1 Introductie De Energiekamer

Nadere informatie

Kwantitatieve modellen. Harry B.G. Ganzeboom 18 april 2016 College 1: Meetkwaliteit

Kwantitatieve modellen. Harry B.G. Ganzeboom 18 april 2016 College 1: Meetkwaliteit Kwantitatieve modellen voor BCO PMC Harry B.G. Ganzeboom 18 april 2016 College 1: Meetkwaliteit Drie colleges Validiteits- en betrouwbaarheidsanalyse Causale analyse met confounding en mediatie Causale

Nadere informatie

Voorspellen van webwinkel aankopen met een Random Forest

Voorspellen van webwinkel aankopen met een Random Forest Voorspellen van webwinkel aankopen met een Random Forest Dorenda Slof Erasmus Universiteit Rotterdam Econometrie en Operationele Research 30 juni 2014 Samenvatting In dit empirische onderzoek voorspellen

Nadere informatie

1. Statistiek gebruiken 1

1. Statistiek gebruiken 1 Hoofdstuk 0 Inhoudsopgave 1. Statistiek gebruiken 1 2. Gegevens beschrijven 3 2.1 Verschillende soorten gegevens......................................... 3 2.2 Staafdiagrammen en histogrammen....................................

Nadere informatie

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008 Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer

Nadere informatie

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Formuleblad Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Plaats van de median berekenen: Oneven aantal observaties: (n+1)/2 Even aantal observaties: gemiddelde van de

Nadere informatie