Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:
|
|
|
- Victor van de Velden
- 9 jaren geleden
- Aantal bezoeken:
Transcriptie
1 Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan een (grafische) rekenmachine te gebruiken. 3. Geef bij berekeningen niet alleen het eindresultaat, maar laat ook de belangrijke tussenstappen zien. Opgave 1: Naive Bayes voor tekstclassificatie (16 punten) Gegeven is de volgende collectie campingrecensies met bijbehorende beoordeling: recensieid woorden in recensie Oordeel r1 goed onderhouden mooie ligging Positief r2 mooie speeltuin geweldig sanitair Positief r3 sanitair verwaarloosd slecht schoongemaakt Negatief r4 speeltuin oud vies slecht onderhouden Negatief (a) (8 punten) Schat de kansen P (slecht Negatief) en P (slecht Positief) volgens het multinomiale Naive Bayes model. Gebruik hierbij Laplace smoothing. (b) (8 punten) Schat de kansen P (mooie = 1 Positief) en P (mooie = 1 Negatief) volgens het Bernoulli Naive Bayes model. Gebruik wederom Laplace smoothing.
2 Opgave 2: Clustering (24 punten) (a) (8 punten) Leg uit hoe je de recall van een document retrieval systeem kunt verbeteren door gebruik te maken van clustering. (b) (8 punten) We voeren het K-means clustering algoritme twee keer uit op dezelfde dataset, één keer met K = 2, en één keer met K = 3. We beginnen beide malen vanuit een willekeurige toewijzing van punten aan clusters. Produceert de uitvoering van het algoritme met K = 3 altijd een betere oplossing dan met K = 2? Met beter wordt hier bedoeld: een lagere residual sum of squares (RSS). Zo ja, leg uit waarom. Zo nee, geef een voorbeeld waarin dit niet het geval is. (c) (8 punten) Gegeven is de onderstaande clustering van objecten met klasse vierkantje, cirkeltje of kruisje. cluster 1 cluster 2 cluster 3 Bereken de Rand-Index van deze clustering. Opgave 3: Gemengde Vragen (18 punten) (a) (6 punten) Stel dat we de verkoopprijs (in euro s) van huizen willen voorspellen. Naast de verkoopprijs beschikken we over de volgende gegevens: de perceeloppervlakte (in vierkante meters), en of het huis al dan niet op een aantrekkelijke locatie staat. We willen een model met de volgende eigenschap: huizen op een aantrekkelijke locatie hebben mogelijk een andere prijs per extra vierkante meter perceeloppervlakte dan huizen die niet op een aantrekkelijke locatie staan. Welke predictorvariabelen moeten we in ons regressiemodel opnemen? (b) (6 punten) Neem aan dat de lengte van volwassen Nederlandse mannen en vrouwen normaal verdeeld is met gemiddelde respectievelijk 182 cm en 168 cm. Verder is gegeven dat de verhouding man-vrouw in de populatie is. Iemand selecteert willekeurig een persoon uit de populatie en vertelt mij dat deze persoon een lengte heeft van 175 cm. Als ik de kans op een foute classificatie wil minimaliseren moet ik voorspellen dat deze persoon (kies één van onderstaande opties): (A) Een man is. (B) Een vrouw is.
3 (C) Het is om het even, de kans is op beide even groot. (D) Er is niet voldoende informatie gegeven om hierover een uitspraak te kunnen doen. (c) (6 punten) Beschouw het binaire classificatiemodel y i = β 0 + β 1 x i + ε i, ε i U ( 1 2, 1 2), ofwel ε i heeft een uniforme verdeling op het interval [ 1, 1 ]. In een plaatje: 2 2 f(ε i ) ε i Hierbij is yi een latente variabele, we observeren alleen of yi groter is dan nul: { 1 if y y i = i > 0 0 if yi 0 Geef de formule voor P (y i = 1 x i ) volgens dit model. Opgave 4: Logistische Regressie (24 punten) Kunnen we voorspellen welke programma s fouten bevatten? Thomas Zimmermann en collega s (Predicting Defects for Eclipse, Third International Workshop on Predictor Models in Software Engineering, IEEE Computer Society 2007) hebben een onderzoek hiernaar uitgevoerd op de code base van de Eclipse programmeeromgeving (een van de grootste open-source projecten). We analyseren data van Eclipse 3.0 packages; dit zijn er 661 in totaal. We proberen te voorspellen of van een package één of meer defecten zijn gerapporteerd binnen 6 maanden na de release, of dat er geen enkel defect is gerapporteerd. Deze mogelijkheden worden als respectievelijk defect=1 en defect=0 gecodeerd. We modelleren dit probleem met logistische regressie. We gebruiken een eenvoudig model met als enige predictorvariabele het totaal aantal regels code in het package gedeeld door 100. Deze predictor wordt aangeduid met TLOC (Total Lines Of Code). We schatten het model met maximum likelihood.
4 Dit levert het volgende resultaat op (zie het extract van de R output hieronder): Coefficients: Estimate Std. Error (Intercept) TLOC (a) (6 punten) Wat is de geschatte kans op een fout in een package met 1000 regels code? (Let op de definitie van TLOC!) (b) (4 punten) Welke van onderstaande uitspraken is juist? (kies één antwoord) (A) Als het aantal regels code met 100 toeneemt, dan neemt de kans dat er een defect wordt gerapporteerd met ongeveer 6.4 procentpunten toe. (B) Als het aantal regels code met 100 toeneemt, dan neemt de kans dat er een defect wordt gerapporteerd toe, maar de grootte van de toename hangt af van de uitgangswaarde van TLOC. (C) Als het aantal regels code met 100 toeneemt, dan kan de kans dat er een defect wordt gerapporteerd zowel toenemen als afnemen; dit komt doordat de intercept negatief is. (D) Alle bovenstaande uitspraken zijn onjuist. (c) (4 punten) Is de coëfficiënt van TLOC significant bij significantieniveau α = 0.05? (d) (4 punten) Geef een eenvoudige classificatieregel om te voorspellen of van een package al dan niet een defect gerapporteerd zal worden. Ga er hierbij van uit dat je de klasse met de grootste kans gegeven het aantal regels code voorspelt. We passen de classificatieregel toe op de training set zelf, en krijgen dan de onderstaande confusion matrix (rijen: voorspelde klasse, kolommen: werkelijke klasse): (e) (6 punten) Geef de accuracy, recall, precision en F 1 score van het model.
5 Opgave 5: Ordinale Classificatie (18 punten) Gegeven is een dataset met 2933 query-document paren en bijbehorende relevantiebeoordelingen. De relevantiebeoordeling kan zijn: laag (code: 1), middel (code: 2), of hoog (code: 3). De predictorvariabelen zijn Term Frequency (TF) (het aantal keren dat een query-term voorkomt in het document) en Document Length (het aantal woorden in het document) (DL). Beide variabelen zijn geschaald tussen 0 en 1, dat wil zeggen, hun waarden liggen in het interval [0, 1]. We passen het proportional odds logistische regressiemodel toe en vinden de volgende resultaten: We roepen in herinnering dat Coëfficiënt Schatting TF DL Threshold Schatting t t ˆP (y j x) = Λ(ˆt j ˆβ x), j {1, 2}, waarbij Λ de cumulatieve logistische kansdichtheidsfunctie is. (a) (6 punten) Wat is volgens dit model de kans dat een query-document paar de hoogste relevantie-klasse heeft wanneer beide predictorvariabelen de waarde 0.5 hebben? (b) (6 punten) We stellen vast dat de geschatte coëfficiënt van TF positief is. Uit dit enkele feit kunnen we concluderen dat wanneer Term Frequency stijgt bij gelijkblijvende Document Length, dan (kruis de juiste antwoorden, één per rij, in onderstaande tabel aan): ˆP (y = 1) ˆP (y = 2) ˆP (y = 3) daalt stijgt kan beide (c) (6 punten) De verdeling van de klassen in de trainingset is als volgt: Klasse Aantal
6 Hoeveel gevallen worden door het proportional odds logistische regressiemodel fout geclassificeerd op de training set? Neem hierbij aan dat we aan de klasse met de grootste kans gegeven de waarden van TF en DL toewijzen. Kies één van onderstaande opties: (A) 2316 (B) 190 (C) 617 (D) Er is onvoldoende informatie gegeven om hierover een uitspraak te kunnen doen.
9. Lineaire Regressie en Correlatie
9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)
Classification - Prediction
Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training
Tentamen Biostatistiek 3 / Biomedische wiskunde
Tentamen Biostatistiek 3 / Biomedische wiskunde 25 maart 2014; 12:00-14:00 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau. Het
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op vrijdag 29-04-2004, 9-2 uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en
11. Multipele Regressie en Correlatie
11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in
mlw stroom 2.1: Statistisch modelleren
mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht
Oplossingen hoofdstuk XI
Oplossingen hoofdstuk XI. Hierbij vind je de resultaten van het onderzoek naar de relatie tussen een leestest en een schoolrapport voor lezen. Deze gegevens hebben betrekking op een regressieanalyse bij
Voorbeeld regressie-analyse
Voorbeeld regressie-analyse In dit voorbeeld wordt gebruik gemaakt van het SPSS data-bestand vb_regr.sav (dit bestand kan gedownload worden via de on-line helpdesk). We schatten een model waarin de afhankelijke
College 2 Enkelvoudige Lineaire Regressie
College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd
Hoofdstuk 8: Multipele regressie Vragen
Hoofdstuk 8: Multipele regressie Vragen 1. Wat is het verschil tussen de pearson correlatie en de multipele correlatie R? 2. Voor twee modellen berekenen we de adjusted R2 : Model 1 heeft een adjusted
HOOFDSTUK VII REGRESSIE ANALYSE
HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens
Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y
1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld
Toegepaste data-analyse: oefensessie 2
Toegepaste data-analyse: oefensessie 2 Depressie 1. Beschrijf de clustering van de dataset en geef aan op welk niveau de verschillende variabelen behoren Je moet weten hoe de data geclusterd zijn om uit
Wiskunde B - Tentamen 2
Wiskunde B - Tentamen Tentamen van Wiskunde B voor CiT (57) Donderdag 4 april 005 van 900 tot 00 uur Dit tentamen bestaat uit 8 opgaven, 3 tabellen en formulebladen Vermeld ook je studentnummer op je werk
Statistiek ( ) eindtentamen
Statistiek (200300427) eindtentamen studiejaar 2010-11, blok 4; Taalwetenschap, Universiteit Utrecht. woensdag 29 juni 2011, 17:15-19:00u, Educatorium, zaal Gamma. Schrijf je naam en student-nummer op
Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen.
Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen. 1. (a) In de appendix van deze vraag, is een dataset gegeven met de corresponderende
FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie
FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie Lineaire Algebra, tentamen Uitwerkingen vrijdag 4 januari 0, 9 uur Gebruik van een formuleblad of rekenmachine is niet toegestaan. De
Toegepaste Statistiek, Dag 7 1
Toegepaste Statistiek, Dag 7 1 Statistiek: Afkomstig uit het Duits: De studie van politieke feiten en cijfers. Afgeleid uit het latijn: status, staat, toestand Belangrijkste associatie: beschrijvende statistiek
Hoofdstuk 10: Regressie
Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.
Examen G0N34 Statistiek
Naam: Richting: Examen G0N34 Statistiek 8 september 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium
Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur
Kansrekening en statistiek WI22TI / WI25IN deel 2 2 februari 22, 4. 6. uur VOOR WI22TI: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad is niet toegestaan.
8. Analyseren van samenhang tussen categorische variabelen
8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde
Examen G0N34 Statistiek
Naam: Richting: Examen G0N34 Statistiek 7 juni 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium
Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.
Afdeling Wiskunde Volledig tentamen Statistics Deeltentamen 2 Statistics Vrije Universiteit 28 mei 2015 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen: opgaven 1,2,3,4. Cijfer=
Data analyse Inleiding statistiek
Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen
1 vorig = omzet voorgaande jaar. Forward (Criterion: Probability-of-F-to-enter <=,050) 2 bezoek = aantal bezoeken vertegenwoordiger
De groothandel Onderwerp: regressieanalyse met SPSS Bij: hoofdstuk 10 Een groothandel heeft onderzoek gedaan onder de klanten en daarbij geprobeerd met regressieanalyse vast te stellen wat de bepalende
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op dinsdag 5-03-2005, 9.00-22.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine
Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA
Masterclass: advanced statistics Bianca de Greef Sander van Kuijk Afdeling KEMTA Inhoud Masterclass Deel 1 (theorie): Achtergrond regressie Deel 2 (voorbeeld): Keuzes Output Model Model Dependent variable
Statistiek II. Sessie 4. Feedback Deel 4
Statistiek II Sessie 4 Feedback Deel 4 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 4 We hebben besloten de bekomen grafieken in R niet in het document in te voegen, dit omdat het document met
Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur
Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, 9.00-12.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven
Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u
Technische Universiteit Delft Mekelweg 4 Faculteit Elektrotechniek, Wiskunde en Informatica 2628 CD Delft Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Formulebladen, rekenmachines,
Correlatie = statistische samenhang Meest gebruikt = Spearman s rang correlatie Ordinaal geschaalde variabelen -1 <= r s <= +1 waarbij:
Correlatie analyse Correlatie = statistische samenhang Meest gebruikt = Spearman s rang correlatie Ordinaal geschaalde variabelen -1
2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.
1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van
College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit
College 7 Regressie-analyse en Variantie verklaren Inleiding M&T 2012 2013 Hemmo Smit Neem mee naar tentamen Geslepen potlood + gum Collegekaart (alternatief: rijbewijs, ID-kaart, paspoort) (Grafische)
Hoofdstuk 3 Statistiek: het toetsen
Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.
Hoofdstuk 5 Een populatie: parametrische toetsen
Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie
Tentamen Voortgezette biostatistiek / Biomedische wiskunde
Tentamen Voortgezette biostatistiek / Biomedische wiskunde 27 maart 2015; 15:15-17:15 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau.
TYPE EXAMENVRAGEN VOOR TOEGEPASTE STATISTIEK
TYPE EXAMENVRAGEN VOOR TOEGEPASTE STATISTIEK Prof. Dr. M. Vandebroek 1. Een aantal proefpersonen werd gevraagd een frisdrank te beoordelen door aan te geven in hoeverre ze het eens zijn met de volgende
b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.
Opdracht 12a ------------ enkelvoudige lineaire regressie Kan de leeftijd waarop een kind begint te spreken voorspellen hoe zijn score zal zijn bij een latere test op verstandelijke vermogens? Een studie
Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008
Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer
werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek
cursus 23 mei 2012 werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen onderzoek streeft naar inzicht in relatie tussen variabelen bv. tussen onafhankelijke
Oefenvragen bij Statistics for Business and Economics van Newbold
Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) Avondopleiding. donderdag 6-6-3, 9.-. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine
Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt
A. Effect & het onderscheidingsvermogen Effectgrootte (ES) De effectgrootte (effect size) vertelt ons iets over hoe relevant de relatie tussen twee variabelen is in de praktijk. Er zijn twee soorten effectgrootten:
Samenvatting Nederlands
Samenvatting Nederlands 178 Samenvatting Mis het niet! Incomplete data kan waardevolle informatie bevatten In epidemiologisch onderzoek wordt veel gebruik gemaakt van vragenlijsten om data te verzamelen.
G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing
G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag
Kansrekening en Statistiek
Kansrekening en Statistiek College 16 Donderdag 4 November 1 / 25 2 Statistiek Indeling: Schatten Correlatie 2 / 25 Schatten 3 / 25 Schatters: maximum likelihood schatters Def. Zij Ω de verzameling van
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek DD14) op vrijdag 17 maart 006, 9.00-1.00 uur. UITWERKINGEN 1. Methoden om schatters te vinden a) De aannemelijkheidsfunctie
Combinatoriek groep 1 & 2: Recursie
Combinatoriek groep 1 & : Recursie Trainingsweek juni 008 Inleiding Bij een recursieve definitie van een rij wordt elke volgende term berekend uit de vorige. Een voorbeeld van zo n recursieve definitie
Veel van weinig. Hoe vinden we diagnostische markers voor kanker op basis van een beperkt aantal genetische profielen?
Veel van weinig Hoe vinden we diagnostische markers voor kanker op basis van een beperkt aantal genetische profielen? Mark van de Wiel [email protected] Afdeling Epidemiologie & Biostatistiek Afdeling
Tentamen Inleiding Kansrekening wi juni 2010, uur
Technische Universiteit Delft Mekelweg Faculteit Electrotechniek, Wiskunde en Informatica 8 CD Delft Tentamen Inleiding Kansrekening wi juni, 9.. uur Bij dit examen is het gebruik van een (evt. grafische
b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte
Classroom Exercises GEO2-4208 Opgave 7.1 a) Regressie-analyse dicteert hier geen stricte regels voor. Wanneer we echter naar causaliteit kijken (wat wordt door wat bepaald), dan is het duidelijk dat hoogte
mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2
mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 Bjorn Winkens Methodologie en Statistiek Universiteit Maastricht 21 maart
Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur
Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord
1. Reductie van error variantie en dus verhogen van power op F-test
Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De
Examenvragen D0H45 (Lineaire optimalizatie)
Examenvragen D0H45 (Lineaire optimalizatie) Tijdstip: Vrijdag 3 februari 2012 vanaf 09.00 uur tot 12.00 uur Er zijn vier opgaven. Achter de opgaven zitten de bladzijden die u kunt gebruiken om uw antwoord
introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets
toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:
Hoofdstuk 12: Eenweg ANOVA
Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake
Kansrekening en Statistiek
Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve
Statistiek voor A.I.
Statistiek voor A.I. College 13 Donderdag 25 Oktober 1 / 28 2 Deductieve statistiek Orthodoxe statistiek 2 / 28 3 / 28 Jullie - onderzoek Tobias, Lody, Swen en Sander Links: Aantal broers/zussen van het
Feedback examen Statistiek II Juni 2011
Feedback examen Statistiek II Juni 2011 Bij elke vraag is alternatief A correct. 1 De variabele X is Student verdeeld in een bepaalde populatie, met verwachting µ X en variantie σ 2 X. Je trekt steekproeven
INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5
INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 1. De onderzoekers van een preventiedienst vermoeden dat werknemers in een bedrijf zonder liften fitter zijn dan werknemers
Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3
Statistiek II Sessie 3 Verzamelde vragen en feedback Deel 3 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 3 1 Statismex en bloeddruk 1. Afhankelijke variabele: Bloeddruk (van ratio-niveau) Onafhankelijke
Antwoorden Wiskunde Hoofdstuk 4
Antwoorden Wiskunde Hoofdstuk 4 Antwoorden door een scholier 1784 woorden 25 juni 2004 3,4 117 keer beoordeeld Vak Methode Wiskunde Moderne wiskunde Opgave I-1 Zorg er eerst voor dat je goed begrijpt dat
Voorspellen van webwinkel aankopen met een Random Forest
Voorspellen van webwinkel aankopen met een Random Forest Dorenda Slof Erasmus Universiteit Rotterdam Econometrie en Operationele Research 30 juni 2014 Samenvatting In dit empirische onderzoek voorspellen
Examenvragen KBM (herexamen)
Examenvragen KBM 2012-2013 (herexamen) THEORIE: - BetaGLS en BetaOLS berekenen - Bewijs met principale componenten - Vraag over variantieanalyse: o wanneer stochastisch gebruiken o wanneer het andere (ben
Geef niet alleen antwoorden, maar bewijs al je beweringen.
Tentamen Lineaire Algebra maandag 3--27, 3.3-6.3 uur Het is niet toegestaan telefoons, computers, grafische rekenmachines (wel een gewone), dictaten, boeken of aantekeningen te gebruiken. Schrijf op elk
Hoofdstuk 8 Het toetsen van nonparametrische variabelen
Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn
c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6
c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 1. Iemand kiest geblinddoekt 4 paaseitjes uit een mand met oneindig veel paaseitjes. De helft is melkchocolade, de andere
Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur
Kansrekening en statistiek wi20in deel I 29 januari 200, 400 700 uur Bij dit examen is het gebruik van een (evt grafische rekenmachine toegestaan Tevens krijgt u een formuleblad uitgereikt na afloop inleveren
1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.
Oefentoets 1 1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Conditie = experimenteel Conditie = controle Sekse = Vrouw 23 33 Sekse = Man 20 36 Van
6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.
Opgaven hoofdstuk 6 I Basistechnieken 6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. x 0 2 4 6 p(x) ¼ ¼ ¼ ¼ a. Schrijf alle mogelijke verschillende steekproeven van n =
Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses
Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.
VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT
Herkansing eindtoets statistiek voor HBO
Herkansing 1A 1 Herkansing eindtoets statistiek voor HBO Schrijf de antwoorden op de vragen alleen op deze pagina s. Antwoorden geschreven op andere vellen papier worden niet meegenomen in de beoordeling.
Statistiek en Data Analyse Opgavenserie 3: Lineaire regressie
Statistiek en Data Analyse Opgavenserie 3: Lineaire regressie Inleveren: uiterlijk maandag 6 februari 16.00 bij Marianne Jonker (Kamer: R3.46) Afspraken De opdrachten maak je in tweetallen. Schrijf duidelijk
Voorbeeldtentamen Statistiek voor Psychologie
Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij
Kies voor i een willekeurige index tussen 1 en r. Neem het inproduct van v i met de relatie. We krijgen
Hoofdstuk 95 Orthogonaliteit 95. Orthonormale basis Definitie 95.. Een r-tal niet-triviale vectoren v,..., v r R n heet een orthogonaal stelsel als v i v j = 0 voor elk paar i, j met i j. Het stelsel heet
Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling
Kwantitatieve Data Analyse (KDA) Onderzoekspracticum Sessie 2 11 Aanpassingen takenboek! Check studienet om eventuele verbeteringen te downloaden! Huidige versie takenboek: 09 Gjalt-Jorn Peters [email protected]
Tentamen Kunstmatige Intelligentie (INFOB2KI)
Tentamen Kunstmatige Intelligentie (INFOB2KI) 12 december 2014 8:30-10:30 Vooraf Mobiele telefoons en dergelijke dienen uitgeschakeld te zijn. Het eerste deel van het tentamen bestaat uit 8 multiple-choice
Uitleg. Welkom bij de Beverwedstrijd 2006. Je krijgt 15 vragen, die je in maximaal 45 minuten moet beantwoorden.
Uitleg Welkom bij de Beverwedstrijd 2006 Je krijgt 15 vragen, die je in maximaal 45 minuten moet beantwoorden. Je krijgt 5 vragen van niveau A, 5 vragen van niveau B en 5 vragen van niveau C. Wij denken
Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur
Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4), op maandag 5 januari 29 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven
1 Rekenen in eindige precisie
Rekenen in eindige precisie Een computer rekent per definitie met een eindige deelverzameling van getallen. In dit hoofdstuk bekijken we hoe dit binnen een computer is ingericht, en wat daarvan de gevolgen
c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie?
Opdracht 13a ------------ Een-factor ANOVA (ANOVA-tabel, Contrasten, Bonferroni) Bij een onderzoek naar de leesvaardigheid bij kinderen in de V.S. werden drie onderwijsmethoden met elkaar vergeleken. Verschillende
