MULTIPELE IMPUTATIE IN VOGELVLUCHT
|
|
|
- Gerarda ten Wolde
- 10 jaren geleden
- Aantal bezoeken:
Transcriptie
1 MULTIPELE IMPUTATIE IN VOGELVLUCHT Stef van Buuren We hebben het er liever niet over, maar allemaal worden we geplaagd door ontbrekende gegevens. Het liefst moffelen we problemen veroorzaakt door ontbrekende gegevens onder het tapijt. De standaard oplossing voor missing data bestaat uit het weglaten van de onvolledige rijen uit de analyse. In veel software gebeurt dit automatisch, en als gevolg daarvan zien we vaak dat de steekproefgrootte varieert tussen verschillende tabellen, figuren en analyses. Buiten dat de rapportage minder consistent is, gaat er bij de standaard aanpak veel kostbaar verzameld materiaal verloren. Bovendien kan het weglaten van informatie tot foutieve conclusies leiden. De laatste jaren zijn betere methoden ontwikkeld voor het omgaan met incomplete gegevens. In dit artikel laat ik de lezer snuffelen aan één van deze methoden, multipele imputatie. 10 STAtOR juni 01
2 Aantal publicaties (log) vroege publicaties multiple imputation in abstract multiple imputation in titel Jaar Figuur 1. Aantal publicaties (log) over multipele imputatie gedurende de periode volgens drie telmethoden Multipele imputatie is rond 1980 door Donald B. Rubin ontwikkeld. Figuur 1 illustreert dat multipele imputatie pas sinds kort geaccepteerd is. Multipele imputatie heeft tot doel de onzekerheid te schatten die het gevolg is van het ontbreken van informatie. Belangrijk voordeel van de methode is dat standaard analysetechnieken, die doorgaans alleen werken voor complete data, ongewijzigd kunnen worden toegepast. Onder ruime voorwaarden geeft de methode zuivere schattingen, en correcte standaardfouten, P-waarden en betrouwbaarheidsintervallen. als de data compleet zouden zijn geweest. De parameterschattingen zullen onderling verschillen. Dit is lastig omdat we niet één, maar drie resultaten krijgen. Realiseer echter dat de resultaten slechts van elkaar verschillen omdat de imputaties variëren. Hoe meer gegevens ontbreken en hoe meer variatie de imputatie vertonen, hoe meer de drie resultaten onderling zullen verschillen. Deze extra variatie tellen we op bij de gebruikelijke steekproefvariatie, en hiermee kunnen we correcte betrouwbaarheidsintervallen en P-waarden berekenen. Hoe werkt multipele imputatie? Figuur beschrijft schematisch de belangrijkste stappen. De figuur start aan de linkerkant met een incomplete data set. De ontbrekende gegevens worden eerst vervangen door imputaties. Dit gebeurt driemaal, resulterend in drie verschillende versies van de compleet gemaakte dataset. Deze versies zijn identiek op de plaatsen waar de echte data staan, maar zullen verschillen onderling op de plaatsen waar de data zijn verzonnen. Hoe dit imputeren in zijn werk gaat behandelen we verderop. Elk van de drie geïmputeerde datasets analyseren we met de methode die we hadden willen toepassen ontbrekende data geïmputeerde data analyseresultaten gebundelde resultaten Figuur. Schema van de hoofdstappen van multipele imputatie 11 STAtOR juni 01
3 7 7 a b verwijderde datawaarde Figuur a en b. Twee manieren om ontbrekend gasverbruik te imputeren bij Celsius: a. geen imputatie, b. voorspelde waarde Genereren van multipele imputaties De methode om multipele imputaties te genereren moet proper zijn. Het voert te ver om hier de precieze definitie van proper imputaties uit te leggen, maar in de praktijk komt proper erop neer dat het imputatiemodel rekening moet houden met het mechanisme dat de ontbrekende data creëerde, met de relaties in de gegevens, en met de onzekerheid over deze relaties. Hoe kunnen we imputaties genereren die aan de bovenstaande criteria voldoen? We kijken hiervoor naar de whiteside-dataset uit het R package MASS. Whiteside noteerde gedurende twee winters (190 en 191) het wekelijks gasverbruik (in kubieke voet) van zijn woning in Zuid-Oost Engeland, en de gemiddelde buitentemperatuur (in Celsius). Improper imputatie Figuur a is een spreidingsdiagram van de gegevens. Meer gas is nodig tijdens koudere weken, zodat er een sterk negatief verband is. De dataset is compleet, maar laten we ter illustratie de gasverbruik uit rij 7 verwijderen. De temperatuur tijdens deze week was Celsius. Hoe kunnen we multipele imputaties voor het ontbrekende gasverbruik genereren? Een eerste mogelijkheid is de regressielijn te berekenen, en de imputatie vanaf de regressielijn te nemen. De regressievergelijking is gelijk aan gasverbruik =,9 + 0,9 temperatuur, dus bij een temperatuur van Celsius is de voorspelde waarde gelijk aan,9-0,9 maal =,0. Figuur b laat zien waar de geïmputeerde waarde ligt. Merk op dat deze waarde de beste waarde is, dat wil zeggen de meest waarschijnlijke onder het model. Echter, het is niet de beste imputatie omdat uit de waarde zelf niet blijkt wat de kwaliteit is. De voorspelde waarde geeft niet de mate van onzekerheid weer. We kunnen de methode verbeteren door ruis toe te voegen aan de voorspelde waarde. Veronderstel 1 STAtOR juni 01
4 7 c 7 d Figuur c en d. Twee manieren om ontbrekend gasverbruik te imputeren bij Celsius: c. voorspelde waarde + ruis, d. voorspelde waarde + ruis + parameter onzekerheid dat de geobserveerde gegevens normaal verdeeld zijn rond de regressielijn. De geschatte standaard deviatie is gelijk aan 0,8 kubieke voet. Het idee is een waarde willekeurig te trekken uit de normaalverdeling met gemiddelde nul en standaard deviatie 0,8, deze waarde bij de voorspelde waarde van,0 op te tellen, en het resultaat te gebruiken als imputatie. We kunnen het trekken uit de normaalverdeling herhalen, en daarmee multipele imputaties maken. Figuur c illustreert dit proces voor vijf imputaties. Gemiddeld zullen de imputaties gelijk zijn aan de voorspelde waarde. De variatie van de imputaties weerspiegelt het feit dat we gasverbruik niet exact uit de temperatuur kunnen voorspellen. onbekend, en moeten ze geschat worden uit de data. Dat betekent echter ook dat de regressielijn zelf onderhevig is aan de steekproefvariatie. De onzekerheid van de regressielijn kan ook in de imputaties worden opgenomen. Dat kan op twee manieren. De Bayesiaanse methode trekt de parameters uit hun posterior verdeling, gegeven de data. De bootstrap methode hertrekt eerst de observaties (met teruglegging), en schat de parameters uit deze steekproef. Figuur d bevat vijf getrokken regressielijnen berekend met behulp van de Bayesiaanse methode. Een imputatie bestaat nu uit de voorspelde waarde vanaf de rode lijn, plus een trekking uit de ruisverdeling. Proper imputatie Het toevoegen van ruis is een stap voorwaarts, maar is nog niet geheel juist. De methode uit de vorige paragraaf veronderstelt dat we weten waar de regressielijn ligt. In de praktijk zijn de regressieparameters Scherper imputeren De gegevens bevatten nog een tweede voorspeller die aangeeft of het huis geisoleerd was. Het opnemen van deze voorspeller in het imputatiemodel reduceert de 1 STAtOR juni 01
5 7 7 e f na isolatie voor isolatie voor isolatie na isolatie Figuur e en f. Twee manieren om ontbrekend gasverbruik te imputeren bij Celsius: e. twee voorspellers, f. predictive mean matching variatie van de imputaties. Figuur e geeft de datapunten weer met labels van de isolatiestatus. De figuur bevat twee regressielijnen, eentje (de bovenste) voor het gasverbruik van het niet-geïsoleerd huis, de andere voor het verbruik na isolatie. Na isolatie is het gasverbruik aanzienlijk lager. Stel dat we ook weten dat het huis geïsoleerd is. Hoe zouden we dan de imputatie moeten trekken? We passen dezelfde methode toe als hierboven, maar nu gebruik makend van de onderste regressielijn. Figuur e laat de vijf imputaties zien van deze methode. Zoals verwacht is de verdeling van de imputaties gemiddeld lager. Merk op dat de variatie tussen de imputaties nu kleiner is. We kunnen het gasverbruik nauwkeuriger inschatten, en de onzekerheid wordt daarmee minder. Figuur f, tenslotte, illustreert een alternatief. Gelijk aan de eerdere methode berekenen we het voorspelde gasverbruik bij Celsius voor het geïsoleerde huis. We selecteren vervolgens een klein aantal kandidaat donoren (meestal of 10). Deze donoren worden zodanig gekozen dat zij hun voorspelde waarde gelijk is aan, of dichtbij ligt, bij de voorspelde waarde van het te imputeren record. Uit deze kandidaat donoren trekken we willekeurig een donor. We gebruiken het geobserveerde gasverbruik van deze donor als imputatie. Deze methode staat bekend als predictive mean matching. Een prettige eigenschap is dat zij altijd imputaties levert van waarden die werkelijk geobserveerd zijn. Deze methode is simpel en bijzonder robuust tegen schendingen van de lineariteitsassumptie van het imputatiemodel. Multivariate missing data In de praktijk komen de ontbrekende gegevens in meerdere variabelen voor. Hoe kunnen we dan imputaties genereren? Multivariate Imputation by 1 STAtOR juni 01
6 Chained Equations (MICE) biedt hiervoor een eenvoudige oplossing. Stel dat we als start elke ontbrekende waarde invullen met een willekeurige trekking uit de geobserveerde data. Het MICE-algoritme imputeert de eerste variabele in de dataset zoals boven beschreven, onder de tijdelijke aanname dat alle andere variabelen compleet zijn, imputeert dan de tweede variabele gebruikmakende van de eerdere imputaties op de eerste variabele, etc. Na iteraties is het algoritme dikwijls geconvergeerd. Deze eenvoudige methode is flexibel en produceert imputaties van hoge kwaliteit. Software en documentatie Het boek van Rubin (1987) geeft de statistische onderbouwing van de techniek. Het MICE package in R (Van Buuren en Groothuis-Oudshoorn, 011) bevat de meest uitgebreide implementatie van het MICE algoritme. Vereenvoudigde versies van het algoritme zijn de laatste twee jaar beschikbaar gekomen in IBM SPSS, SAS en Stata. Mijn onlangs verschenen boek Flexible Imputation of Missing Data (01) beschrijft de techniek en de methodologie in detail. In combinatie met het MICE package kan de geïnteresseerde lezer daarmee meteen aan de slag. Literatuur Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons. Van Buuren, S. & Groothuis-Oudshoorn, C. G. M. (011). mice: Multivariate Imputation by Chained Equations. Journal of Statistical Software, (), 1 7. Van Buuren, S. (01). Flexible Imputation of Missing Data. Boca Raton, Florida: Chapman and Hall/CRC Press. Stef van Buuren is bijzonder hoogleraar Applied Statistics in Prevention, verbonden aan de Faculteit Sociale Wetenschappen, Afdeling Methoden en Statistiek van de Universiteit Utrecht, en senior onderzoeker bij TNO waar hij hoofd van de afdeling statistiek is. <[email protected]>, <[email protected]> 1 STAtOR juni 01
Missing Data: Multipele Imputatie
Missing Data: Multipele Imputatie Mark Huisman Rijksuniversiteit Groningen Statistiek in de Praktijk 30 maart 2006 Missing Data: Multipele Imputatie 1 Inhoud 1. Omgaan met ontbrekende scores: Imputeren
Samenvatting Nederlands
Samenvatting Nederlands 178 Samenvatting Mis het niet! Incomplete data kan waardevolle informatie bevatten In epidemiologisch onderzoek wordt veel gebruik gemaakt van vragenlijsten om data te verzamelen.
MISSING DATA van gatenkaas naar valide uitkomsten
MISSING DATA van gatenkaas naar valide uitkomsten Sander M.J. van Kuijk Afdeling Klinische Epidemiologie en Medical Technology Assessment [email protected] Inhoud Masterclass Theorie over missing
Bij medisch-wetenschappelijk onderzoek ontbreken
Stand van zaken Methodologie van onderzoek Rekenen met ontbrekende gegevens Ralph C.A. Rippe, Martin den Heijer en Saskia le Cessie Ontbrekende gegevens in medisch-wetenschappelijk onderzoek zijn soms
9. Lineaire Regressie en Correlatie
9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)
Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid
Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De
9. Multipele imputatie van ontbrekende scores
9. Multipele imputatie van ontbrekende scores M. Huisman Samenvatting Multipele imputatie is een techniek die al een aantal jaren bekend is, maar pas de laatste jaren voor een breder publiek van toegepaste
11. Multipele Regressie en Correlatie
11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in
Hoofdstuk 10: Regressie
Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.
Missing Data in Clinical Trials. Kristien Wouters Statisticus - Onderzoekscel
Missing Data in Clinical Trials Kristien Wouters Statisticus - Onderzoekscel Overzicht Inleidend voorbeeld Missing data proces Missing data mechanisme Missing data patroon Methoden voor behandeling van
HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN
HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.
SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen
SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen
Examen Statistiek I Feedback
Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).
HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES
HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan
Jong talent in een topsportinstituut: hoe voelt dat?
STAtOR periodiek van de VvS+OR jaargang 13, nummer 2, juni 2012 Een planningsmethode voor reductie van de fluctuaties in de belasting van verpleegafdelingen Multipele imputatie in vogelvlucht De verlate
mlw stroom 2.1: Statistisch modelleren
mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht
Hoofdstuk 19. Voorspellende analyse bij marktonderzoek
Hoofdstuk 19 Voorspellende analyse bij marktonderzoek Voorspellen begrijpen Voorspelling: een uitspraak over wat er naar verwachting in de toekomst zal gebeuren op basis van ervaringen uit het verleden
Samenvatting (Summary in Dutch)
Het voornaamste doel van dit proefschrift is nieuwe methoden te ontwikkelen en te valideren om de effectiviteit van customization te kunnen bepalen en hoe dataverzameling kan worden verbeterd. Om deze
Statistiek in een rechtzaak
Statistiek in een rechtzaak Maarten van Kampen & Soon-Yip Wong 1 april 00 1 Schuldig of niet? Naar aanleiding van een recent krantenartikel over de rechtzaak omtrent Lucy B. willen wij onderzoeken wat
EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot
EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot EWMA Control Charts in Statistical Process Monitoring Inez M. Zwetsloot Samenvatting EWMA Regelkaarten in Statistische Procesmonitoring
Adviseren over onderzoeksmethoden: Ontbrekende waarnemingen, uitbijters en nonrespons
Adviseren over onderzoeksmethoden:, uitbijters en nonrespons Statistiek versus Onderzoeksmethodologie 19 november 2004 : Missing Values Missing Cases Nonrespons: Unit nonrespons Item nonrespons Uitbijters
Hoofdstuk 26: Modelleren in Excel
Hoofdstuk 26: Modelleren in Excel 26.0 Inleiding In dit hoofdstuk leer je een aantal technieken die je kunnen helpen bij het voorbereiden van bedrijfsmodellen in Excel (zie hoofdstuk 25 voor wat bedoeld
Feedback proefexamen Statistiek I 2009 2010
Feedback proefexamen Statistiek I 2009 2010 Het correcte antwoord wordt aangeduid door een sterretje. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Een derde van de mannen is
Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008
Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer
Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies
Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan
Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur
Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop
Hoofdstuk 5: Steekproevendistributies
Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel
SOCIALE STATISTIEK (deel 2)
SOCIALE STATISTIEK (deel 2) D. Vanpaemel KU Leuven D. Vanpaemel (KU Leuven) SOCIALE STATISTIEK (deel 2) 1 / 57 Hoofdstuk 5: Schatters en hun verdeling 5.1 Steekproefgemiddelde als toevalsvariabele D. Vanpaemel
Classification - Prediction
Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training
gegevens analyseren Welk onderzoekmodel gebruik je? Quasiexperiment ( 5.5) zonder controle achtergronden
een handreiking 71 hoofdstuk 8 gegevens analyseren Door middel van analyse vat je de verzamelde gegevens samen, zodat een overzichtelijk beeld van het geheel ontstaat. Richt de analyse in de eerste plaats
Het gebruik van het blancheerrendement als indicator voor het verwerkingsrendement.
Het gebruik van het blancheerrendement als indicator voor het verwerkingsrendement. Een statistische onderbouwing voor bemonstering van partijen champignons. P.C.C. van Loon Praktijkonderzoek Plant & Omgeving
Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:
Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan
Klantonderzoek: statistiek!
Klantonderzoek: statistiek! Statistiek bij klantonderzoek Om de resultaten van klantonderzoek juist te interpreteren is het belangrijk de juiste analyses uit te voeren. Vaak worden de mogelijkheden van
Het gebruik van SPSS voor statistische analyses. Een beknopte handleiding.
Het gebruik van SPSS voor statistische analyses. Een beknopte handleiding. SPSS is een alom gebruikt, gebruiksvriendelijk statistisch programma dat vele analysemogelijkheden kent. Voor HBO en universitaire
Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur
Kansrekening en statistiek wi2105in deel 2 27 januari 2010, 14.00 16.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na
Documentatierapport Persoonskenmerken van alle in de Gemeentelijke Basis Administratie (GBA) ingeschreven personen (GBAPERSOONTAB)
Centrum voor Beleidsstatistiek en Microdata Services Documentatierapport Persoonskenmerken van alle in de Gemeentelijke Basis Administratie (GBA) ingeschreven personen (GBAPERSOONTAB) Datum: 29 juli 2015
Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling
Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Moore, McCabe & Craig: 3.3 Toward Statistical Inference From Probability to Inference 5.1 Sampling Distributions for
Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur
Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, 9.00-12.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven
1. Reductie van error variantie en dus verhogen van power op F-test
Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en
EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009
EIND TOETS TOEGEPASTE BIOSTATISTIEK I 30 januari 2009 - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 2 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.
Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie
Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Inleveren: Uiterlijk 15 februari voor 16.00 in mijn postvakje Afspraken Overleg is toegestaan, maar iedereen levert zijn eigen werk in. Overschrijven
We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten
Hoofdstuk 8 Betrouwbaarheidsintervallen In het vorige hoofdstuk lieten we zien hoe het mogelijk is om over een ongekende karakteristiek van een populatie hypothesen te formuleren. Een andere manier van
1. Introductie tot SPSS
1. Introductie tot SPSS Wat is SPSS? SPSS is een statistisch computerprogramma dat door wetenschappers wordt gebruikt om gegevens te verzamelen, analyseren en te bewerken. Het wordt voornamelijk gebruikt
Grafieken Cirkeldiagram
Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd
. Dan geldt P(B) = a. 1 4. d. 3 8
Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open
Hoofdstuk 3 Statistiek: het toetsen
Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.
Examen Statistiek I Januari 2010 Feedback
Examen Statistiek I Januari 2010 Feedback Correcte alternatieven worden door een sterretje aangeduid. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Twee derden van de mannen
VEILIGHEIDSVOORRADEN BEREKENEN
VEILIGHEIDSVOORRADEN BEREKENEN 4 Soorten berekeningen 12 AUGUSTUS 2013 IR. PAUL DURLINGER Durlinger Consultancy Management Summary In dit paper worden vier methoden behandeld om veiligheidsvoorraden te
Hoofdstuk 4 Kansen. 4.1 Randomheid
Hoofdstuk 4 Kansen 4.1 Randomheid Herhalingen en kansen Als je een munt opgooit (of zelfs als je een SRS trekt) kunnen de resultaten van tevoren voorspeld worden, omdat de uitkomsten zullen variëren wanneer
KWANTITATIEF TESTEN. experimenteel ontwerp (MIT 14) statistische analyse (MIT 15)
KWANTITATIEF TESTEN experimenteel ontwerp (MIT 14) statistische analyse (MIT 15) tips Google Wikipedia MIT 14, 15 stats.stackexhchange.com ander onderzoek dat lijkt op het jouwe experimenteel ontwerp kwantitatieve
Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R
14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten
Hoofdstuk 1 Het soort onderzoek waar dit boek op gericht is 15
Inhoud Voorwoord 11 Hoofdstuk 1 Het soort onderzoek waar dit boek op gericht is 15 1.1 Inleiding 15 1.2 Voorbeelden 16 1.2.1 Leiden problemen in welbevinden tot voortijdig schoolverlaten? 16 1.2.2 Beter
SPSS VOOR DUMMIES+ Werken met de NSE: enkele handige basisbeginselen. Gebaseerd op SPSS21.0 & Benchmarkbestand NSE 2014
SPSS VOOR DUMMIES+ Werken met de NSE: enkele handige basisbeginselen Gebaseerd op SPSS21.0 & Benchmarkbestand NSE 2014 Huidig kennis- en ervaringsniveau?????? Beginners Gevorderden 2 Inhoud 1. Wat doe
Inleiding statistiek
Inleiding Statistiek Pagina 1 uit 8 Inleiding statistiek 1. Inleiding In deze oefeningensessie is het de bedoeling jullie vertrouwd te maken met een aantal basisbegrippen van de statistiek, meer bepaald
Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling
Kwantitatieve Data Analyse (KDA) Onderzoekspracticum Sessie 2 11 Aanpassingen takenboek! Check studienet om eventuele verbeteringen te downloaden! Huidige versie takenboek: 09 Gjalt-Jorn Peters [email protected]
Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur
Kansrekening en statistiek wi20in deel I 29 januari 200, 400 700 uur Bij dit examen is het gebruik van een (evt grafische rekenmachine toegestaan Tevens krijgt u een formuleblad uitgereikt na afloop inleveren
We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:
INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 4 1. Toets met behulp van SPSS de hypothese van Evelien in verband met de baardlengte van metalfans. Ga na of je dezelfde conclusies
Hoofdstuk 12: Eenweg ANOVA
Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake
Klimaatverandering & schadelast. April 2015
Klimaatverandering & schadelast April 2015 Samenvatting Het Centrum voor Verzekeringsstatistiek, onderdeel van het Verbond, heeft berekend in hoeverre de klimaatscenario s van het KNMI (2014) voor klimaatverandering
Kenmerk ontheffing in de Bijstands Uitkeringen Statistiek
Centraal Bureau voor de Statistiek Divisie sociale en regionale statistieken (SRS) Sector statistische analyse voorburg (SAV) Postbus 24500 2490 HA Den Haag Kenmerk ontheffing in de Bijstands Uitkeringen
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd
Statistiek ( ) ANTWOORDEN eerste tentamen
Statistiek (200300427) ANTWOORDEN eerste tentamen studiejaar 2010-11, blok 4; Taalwetenschap, Universiteit Utrecht. woensdag 18 mei 2011, 17:15-19:00u, Kromme Nieuwegracht 80, zaal 0.06. Schrijf je naam
Foutenbronnen bij statistisch onderzoek. 9 10Jelke Bethlehem. Statistische Methoden (10004)
Foutenbronnen bij statistisch onderzoek 9 10Jelke Bethlehem Statistische Methoden (10004) Den Haag/Heerlen, 2010 Verklaring van tekens. = gegevens ontbreken * = voorlopig cijfer ** = nader voorlopig cijfer
Antwoordvel Versie A
Antwoordvel Versie A Interimtoets Toegepaste Biostatistiek 13 december 013 Naam:... Studentnummer:...... Antwoorden: Vraag Antwoord Antwoord Antwoord Vraag Vraag A B C D A B C D A B C D 1 10 19 11 0 3
HOOFDSTUK VII REGRESSIE ANALYSE
HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens
College 2 Enkelvoudige Lineaire Regressie
College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:
Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren
Hoofdstuk 18 Verbanden tussen variabelen vaststellen en interpreteren Analyse van verbanden Analyse van verbanden: bij de analyse van verbanden stel je vast of er een stabiel verband bestaat tussen twee
Kansrekening en Statistiek
Kansrekening en Statistiek College 9 Dinsdag 18 Oktober 1 / 1 2 Statistiek Vandaag: Centrale Limietstelling Correlatie Regressie 2 / 1 Centrale Limietstelling 3 / 1 Centrale Limietstelling St. (Centrale
Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i
Formuleblad Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Plaats van de median berekenen: Oneven aantal observaties: (n+1)/2 Even aantal observaties: gemiddelde van de
Het poolen van partiële etakwadraat bij variantieanalyse na multipele imputatie
Typ hier uw vergelijking. Het poolen van partiële etakwadraat bij variantieanalyse na multipele imputatie Cynthia Adegeest Bachelorscriptie Studierichting Psychologie Faculteit Sociale Wetenschappen -
Verbanden tussen demografische kenmerken, gezondheidsindicatoren en gebruik van logopedie
Notitie De vraag naar logopedie datum 24 mei 2016 aan van Marliek Schulte (NVLF) Robert Scholte en Lucy Kok (SEO Economisch Onderzoek) Rapport-nummer 2015-15 Kunnen ontwikkelingen in de samenstelling en
