Initiële Data Analyse. (Truuks en Flessenhalzen)
|
|
|
- Stijn Smit
- 10 jaren geleden
- Aantal bezoeken:
Transcriptie
1 Slide 1 Initiële data analyse (Truuks en Flessenhalzen) Herman Adèr 13 Mei, 2003 Overzicht Slide 2 Fasen in de data analyse Data kwaliteit Initiële Data Analyse Behoud van informatie Ontbrekende waarnemingen Meetniveau van de variabelen IDA van (i) Categoriale variabelen (ii) Continue variabelen (iii) Kosten variabelen Principe van bootstrapping Transformaties Overzicht 1
2 Slide 3 $ $!"# % $ & Overzicht Slide 4 Fasen in de data analyse = Data kwaliteit Initiële Data Analyse Behoud van informatie Ontbrekende waarnemingen Meetniveau van de variabelen IDA van (i) Categoriale variabelen (ii) Continue variabelen (iii) Kosten variabelen Principe van bootstrapping Transformaties Overzicht 2
3 Slide 5 Typen kwaliteit: Methodologische kwaliteit Kwaliteit van de rapportage Data kwaliteit Slide 6 Kwaliteitscontrole tijdens het onderzoeks-proces: Initiële data analyse Systematisch reviewen Citation index Peer review 3
4 Overzicht Fasen in de data analyse Slide 7 Data kwaliteit = Initiële Data Analyse Behoud van informatie Ontbrekende waarnemingen Meetniveau van de variabelen IDA van (i) Categoriale variabelen (ii) Continue variabelen (iii) Kosten variabelen Principe van bootstrapping Transformaties Overzicht Typische vragen die gedurende de initiële data analyse beantwoord moeten worden: Slide 8 1. Wat is de kwaliteit van de data? 2. Is het onderzoeks-ontwerp geslaagd? 3. Wat is de samenstelling van de steekproef? Vraag: Wat is het belang van ieder van deze punten voor de rest van het onderzoek? 4
5 Commentaar op Slide 8: 1. De kwaliteit van de data bepaalt de betrouwbaarheid van de analyse-resultaten 2. Hier moet men denken aan zaken als randomisatie, maar in een pilot kan het ook van belang zijn dat alle subgroepen van een populatie vertegenwoordigd zijn. 3. Dit punt is natuurlijk van algemeen belang bij het beschrijven van het onderzoek. Meer in het bijzonder speelt het een rol wanneer men sommige analyses graag in subgroepen wil kunnen uitvoeren. Slide 9 " $ # & ' %! Slide 10 Principe 1 Gedurende IDA doen we geen analyses gericht op het beantwoorden van de onderzoeksvraagstellingen. Vraag: Waarom niet? 5
6 Waaraan moeten de meest gebruikte statistische analyse technieken voldoen? Kruistabellen (χ 2 -toets): Geen structurele nullen in de cellen. T-test: De verdeling mag niet te scheef zijn in de groepen. Slide 11 Multiple lineaire regressie-analyse (en (M)ANOVA, GLM, MLwiN): Normaal verdeelde residuen. Variantie-analyse: Geen lege of slecht gevulde cellen. (Confirmatieve) factor-analyse: Geen missings, geen slecht verdeelde variabelen. Cox regressie (Survival analyse): Normaal verdeelde residuen. Censurering onafhankelijk van overlevingstijd. Vraag: Wat is de relevantie van de bovenstaande voorwaarden voor de initiële data analyse? Voorbeeld 1 (Twijfelachtige data waarden.). Van een meetinstrument dat per seconde 10 waarden registreert, staat vast dat de uitkomsten integer waarden moeten zijn in de range Maar vreemd genoeg wordt in een data set een waarde 222 ontdekt. Onderzoeker A neemt aan dat tijdens registratie een schrijfarm heeft gehaperd en dat de waarde in de de data set eigenlijk 22 had moeten zijn. Onderzoeker B neemt liever het zekere voor het onzekere en verandert de waarde in een ontbrekende waarde. Vraag: Wat zou uw aanpak zijn? In veel gevallen kan men eenvoudig nazoeken (bijvoorbeeld in de patient status) wat de oorspronkelijke waarde had moeten zijn. Maar in het geval dat in Slide 12 wordt beschreven is dat onmogelijk. In zo n geval is het belangrijkste dat zowel de oorspronkelijke waarde (222) als de aangepaste waarde bewaard blijft (22 of missing) bewaard blijft. Dit bewaren kan op verschillende manieren, maar het eenvoudigst is om een extra variabele v aan de data set (meestal: het SPSS system file) toe te voegen. De oorspronkelijke waarden blijven nu bewaard in de oorspronkelijke variabele v, terwijl bij de nieuwe, extra variabele v op de plaats waar in v twijfelachtige waarden stonden, door de onderzoeker vervangende waarden zijn ingevuld. Dit vereist weld at verschillen tussen de twee variabelen worden gedocumenteerd, bijvoorbeeld in de value labels van de nieuwe variabele v. Het voordeel van de bovenstaande methode is, dat de oorspronkelijke waarden beschikbaar blijven, zodat een eventuele foutieve beslissing over de vervangende waarden kan worden teruggedraaid. Een ander voordeel is dat de aanpassingen traceerbaar blijven voor iedereen die met het data file werkt. 6
7 Overzicht Fasen in de data analyse Data kwaliteit Slide 12 Initiële Data Analyse = Behoud van informatie Ontbrekende waarnemingen Meetniveau van de variabelen IDA van (i) Categoriale variabelen (ii) Continue variabelen (iii) Kosten variabelen Principe van bootstrapping Transformaties Overzicht Voorbeelden van situaties waarin veranderingen in de data worden aangebracht: Tijdens Data cleaning Slide 13 Samennemen van subgroepen In categoriën indelen van (continue) variabelen (leeftijd!) Imputeren van ontbrekende waarnemingen Vervangen van uitbijters of extreme waarden Het voorbeeld in Slide 12 is een bijzonder geval van een veel algemener principe dat geldt tijdens alle fasen van de data analyse (zie Slide 15). 7
8 Slide 14 Principe 2 (Behoud van informatie.) Bij de opeenvolgende data manipulaties dient alle informatie uit voorgaande stappen behouden en toegankelijk te blijven. Er zijn twee verschillende methoden om dit te verwezelijken: Zoals in het voorbeeld in Slide 12, kan men een nieuwe variabele toevoegen waarin veranderingen worden aangebracht. Een andere methode is om het system file te kopieren en in de kopie veranderingen aan te brengen in de oorspronkelijke variabelen. De laatste methode is vooral zinvol als men anders grote hoeveelheden nieuwe variabelen zou moeten aanmaken, ieder met een nieuwe naam, of wanneer de oorspronkelijke variabelen bij de verdere data analyse geen rol zullen spelen (en het dus onzin is om ze de rest van de analyses mee te slepen). Overzicht Fasen in de data analyse Data kwaliteit Initiële Data Analyse Slide 15 Behoud van informatie = Ontbrekende waarnemingen Meetniveau van de variabelen IDA van (i) Categoriale variabelen (ii) Continue variabelen (iii) Kosten variabelen Principe van bootstrapping Transformaties Overzicht 8
9 Slide 16 Principe 3 (Ontbrekende waarnemingen) De ontbrekende waarden moeten worden gecodeerd en het imputeren moet worden gedocumenteerd. Vraag: Wat is imputeren? Omdat de noodzaak om ontbrekende waarnemingen te imputeren meestal ligt in de erop volgende analyses (factor-analyse, variantie-analyse), worden de geimputeerde variabelen meestal in een apart file opgeslagen (dat is ook de manier waarop SPSSgeïmputeerde variabelen opslaat) Slide 17 9
10 Slide 18 Slide 19 10
11 Slide 20 Met repeated measurement multilevel analyse (MLwiN) en GEE is het mogelijk een data set waar op bepaalde tijdstippen waarnemingen ontbreken, te analyseren. Dat kan niet bij repeated measures GLM in SPSS. GEE: Generalized Estimating Equations. GLM: Generalized Linear Modelling. Het zelfde soort opmerkingen als voor ontbrekende waarnemingen kan worden gemaakt voor uitbijters. Alleen leveren uitbijters nog een extra methodologisch probleem: Het is soms moeilijk om precies aan te geven wat een echte uitbijter is en waarom hij in de data voorkomt. Pas wanneer ze goed geïdentificeerd zijn, kunnen ze als ontbrekende waarnemingen worden behandeld. Principe 4 (Uitbijters en extreme waarden.) Uitbijters mogen alleen worden verwijderd, wanneer hun aanwezigheid onafhankelijk is van de primaire uitkomst variabele. Extreme waarden mogen nooit worden verwijderd. Vraag: Wat betekent verwijderd in het bovenstaande principe? Vraag: Wat betekent onafhankelijk van de primaire uitkomst variabele?. Vraag: Waarom mogen extreme waarden niet worden verwijderd? Een belangrijke vuistregel wordt gegeven in Slide??. Wanneer aan de bovengenoemde onafhankelijkheid niet is voldaan, is het het handigste om een nieuwe variabele te introduceren, bijvoorbeeld: Uit, die de aanwezigheid van een uitbijter aangeeft en de uitbijters zelf als missing te behandelen. In de hoofdanalyses wordt Uit eerst in het (regressie) model opgenomen. Wanneer de aanwezigheid van uitbijters niet samenhangt met de waarde van de afhankelijke variabele, wordt de, eventueel geïmputeerde orginele variabele in het model opgenomen. Als de aanwezigheid van uitbijters wel invloed heeft, werken we in plaats daarvan met Uit. 11
12 Overzicht Fasen in de data analyse Data kwaliteit Initiële Data Analyse Behoud van informatie Slide 21 Ontbrekende waarnemingen = Meetniveau van de variabelen IDA van (i) Categoriale variabelen (ii) Continue variabelen (iii) Kosten variabelen Principe van bootstrapping Transformaties Overzicht Meetniveau van de variabelen: Slide 22 Categorisch. Voorbeelden: Sexe, Cases/Controls, Onderzoeksgroep, Huisarts/Verplegend personeel; Ordinaal. Voorbeelden: Hoeveelste kind in het gezin? Niet mee eens enz. Tentamen beoordeling. Continue variabelen. Voorbeelden: VAS score, BMI, Lengte, Leeftijd, Bloeddruk. 12
13 EDUC educ Slide 23 Valid Missing Total 1 primary school 2 LBO 3 MULO, MAVO 4 MBO 5 MMS, HAVO, HBS, VWO 6 HBO 7 Universiteit 8 andere opleiding Total System Cumulative Frequency Percent Valid Percent Percent Merk op dat de tabel in Slide 25 verraadt dat de aantallen in sommige groepen wel erg klein zijn. er is reden om klassen bij elkaar te nemen. We komen daar later op terug, wanneer we over transformaties praten. GENDER gender * MARSTAT marstat Crosstabulation GENDER gender Total 1.00 male 2.00 female Count % within GENDER gender % within MARSTAT marstat Adjusted Residual Count % within GENDER gender % within MARSTAT marstat Adjusted Residual Count % within GENDER gender % within MARSTAT marstat MARSTAT marstat 1 married/c ohabit 2 not married 3 widow(er) 4 divorced Total % 16.1% 2.0% 2.4% 100.0% 53.8% 55.0% 15.5% 37.5% 50.9% % 13.6% 11.4% 4.2% 100.0% 46.2% 45.0% 84.5% 62.5% 49.1% % 14.9% 6.6% 3.3% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 13
14 Uitvoer HILOGLINEAR: Tests of PARTIAL associations. Effect Name DF Partial Chisq Prob Iter SEX*MARSTAT*EDUC SEX*MARSTAT*HA SEX*EDUC*HA MARSTAT*EDUC*HA SEX*MARSTAT SEX*EDUC MARSTAT*EDUC SEX*HA MARSTAT*HA EDUC*HA SEX MARSTAT EDUC HA De bijbehorende setup is: HILOGLINEAR sex(1 2) marstat(1 4) educ(1 8) ha(0 1) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=association /DESIGN. Hierboven staat de output van het programma HILOGLINEAR in SPSS. Hiermee kunnen alleen categoriale variabelen tegen elkaar worden uitgezet en de meest opmerkelijke kruistabellen worden gevonden, maar er is nog ander programma (LOGLINEAR) waarmee ook de invloed van continue en ordinale confounders kan worden bestudeerd. Het gebruik daarvan hoort meer in de hoofdanalyses thuis. Descriptives CESDSUM Mean 95% Confidence Interval for Mean Lower Bound Upper Bound Statistic Std. Error % Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis
15 Slide N = 40 LENGTH Slide 25! " " #$ % & % & ' (') WOODRU 15
16 Slide Costs (In Dutch Florins) Bootstrapping. De nu volgende vier slides (Slide 30 32) betreffen eigenlijk niet de initiële data analyse, want bootstrapping wordt toegepast in de fase waarin de hoofd-analyses worden uitgevoerd. De reden dat het onderwerp is opgenomen is dat al diegenen die met met kosten-effectiviteits analyse te maken zullen krijgen, ook met de principes van bootstrapping vertrouwd zullen moeten zijn. Overzicht Fasen in de data analyse Data kwaliteit Initiële Data Analyse Behoud van informatie Slide 27 Ontbrekende waarnemingen Meetniveau van de variabelen IDA van (i) Categoriale variabelen (ii) Continue variabelen (iii) Kosten variabelen = Principe van bootstrapping Transformaties Overzicht 16
17 Slide 28 Voorbeeld van bootstrap samples (n = 5, B = 7). 1, 2, 3, 4, 5 Bootstrap samples: Slide 29 3, 2, 3, 1, 5 1, 2, 3, 3, 5 2, 2, 3, 1, 4 1, 3, 2, 1, 5 5, 4, 3, 3, 1 4, 5, 1, 3, 2 4, 1, 1, 4, 5 In Slide 31 wordt een voorbeeld van een zeer kleine steekproef gegeven: het toont wat men zich bij het begrip bootstrap sample moet voorstellen. Met ziet goed dat eenzelfde waarneming meerdere malen in eenzelfde sample mag voorkomen. 17
18 Slide 30 Situaties waarin bootstrap procedures nuttig kunnen zijn De waarschijnlijkheids-verdeling van de statistic die ons interesseert is onbekend of theoretisch te gecompliceerd. De steekproef omvang is klein Power berekeningen Het eerste komt vaak voor bij het analyseren van trials waarbij ook kosten-variabelen zijn verzameld (kosten-effectiviteit studies). De kosten zelf zijn vaak niet-normaal verdeeld (zie Slide 28) dus vergelijkingen tussen groepen worden vaak met behulp van bootstrapping gedaan. Daarnaast wordt voor het berekenen van betrouwbaarheids-intervallen van de kosten-effectiviteits-ratio ook vaak bootstrapping gebruikt. Op de laatste mogelijkheid (power berekeningen) gaan we hier niet in. 18
19 Overzicht Fasen in de data analyse Data kwaliteit Initiële Data Analyse Behoud van informatie Slide 31 Ontbrekende waarnemingen Meetniveau van de variabelen IDA van (i) Categoriale variabelen (ii) Continue variabelen (iii) Kosten variabelen Principe van bootstrapping = Transformaties Overzicht Slide 32 Vraag: Wanneer zijn transformaties nodig? De analyses die tijdens IDA worden gedaan zijn onder andere bedoeld om informatie te krijgen om te kunnen beoordelen of transformaties nodig zijn. 19
20 Slide 33 Transformaties: Missings en Uitbijters: Imputatie. Categoriale variabelen: Herindelen in kleinere groepen. Ordinale variabelen: Som (Schaal)-scores. Continue variabelen: Indelen in Hoog Middel Laag. Continue variabelen: Log-transformatie Slide 34 Categoriale variable: groepen bij elkaar nemen. compute cateduc=educ. recode cateduc (1,2=1)(3,4=2)(5=3)(6,7=4)(8=9). missing values cateduc (9). value labels cateduc 1 prim-lbo 2 MUL-MAV-MBO 3 MMS-HAVO-VWO 4 HBO,Uni 9 Anders,missing. freq cateduc. De oorspronkelijke frequentie-verdeling is te vinden op Slide 25. Wanneer de setup in Slide 36 wordt uitgevoerd, worden een aantal klassen bij elkaar genomen. 20
21 Slide 35 Continue (ordinale) variabelen: somscore berekenen compute cesdsum = means.19(cesd1, cesd2, cesd3, cesd4, cesd5, cesd6, cesd7, cesd8, cesd9, cesd10, cesd11, cesd12, cesd13, cesd14, cesd15, cesd16, cesd17, cesd18, cesd19, cesd20)*20. examine cesdsum/plot=none. Slide 36 Continue variabelen: in klassen indelen compute catage=age. recode catage (lo thru 35=1)(35 thru 45=2) (45 thru 65=3)(65 thru hi=4). value labels catage 1 < >65. freq catage. 21
22 CATAGE Slide 37 Valid Missing Total 1.00 < >65 Total System Cumulative Frequency Percent Valid Percent Percent Slide 38 Continue variabelen: logaritme nemen compute lncessum=ln(cesdsum). examine lncessum/plot=none. 22
23 Uitvoer RELIABILITY: % &&' ()! "# * )' $% ' + +,+ -+,+. -/ *0 '1 '( )* * * 1' ** + +,+ -+,+. -/ (*&0 ('0 ')&* )0& * ) & *) + % +,+ -+,+. -/ ( * 111 &1** *1*( * 0' +% % %! + 2,! % %,%3% + "%! "%! % % "%! " 1*) 0 )0( "* (0& 0 *1 ") '1 ' &'0 "& **0 ' *& "' 1) & 1(') "1 ('1 0 (() " (1 0 *&*& (((& & 00& &'(( )& & '1* ) 0& 10* 000 &( ( &' '0' )01 *)) 0 ) &(& *0*1 '1)( &'* ) ( '10 %34 0 *0!!5! + %34 0*' 23
24 Bijbehorende setup: RELIABILITY /VARIABLES=cesd1 cesd2 cesd3 cesd4 cesd5 cesd6 cesd7 cesd8 cesd9 cesd10 /FORMAT=NOLABELS /SCALE(ALPHA)=ALL/MODEL=ALPHA /STATISTICS=SCALE /SUMMARY=TOTAL MEANS VARIANCE CORR. Overzicht van belangrijke punten: 1. Initiële data analyse is voor een belangrijk deel gericht op het nagaan van de kwaliteit van de data. 2. Gedurende IDA doen we geen analyses gericht op het beantwoorden van de onderzoeksvraagstellingen. Slide Bij de opeenvolgende data manipulaties dient alle informatie uit voorgaande stappen behouden en toegankelijk te blijven. 4. In het bijzonder moeten bij imputatie van ontbrekende waarden of uitbijters en bij transformaties moeten zowel de oorspronkelijke waarden als de nieuwe waarden bewaard blijven. 5. Het meetniveau bepaald welke analyses het meest geschikt zijn tijdens IDA. 6. De slechte verdelingseigenschappen bij kosten-variabelen kunnen vaak met behulp van bootstrapping worden opgevangen. 24
SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I
SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I Hieronder volgen de SPSS uitvoer en de antwoorden van de opgaven van Stap 7: Oefenen I. Daarnaast wordt bij elke opgave
introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets
toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:
** VOORBEELD VAN CAUSALE ANALYSE MET CONFOUNDER EN MEDIATOR **.. GET FILE='u:\)Research\ISSP-NL\ISSP \Data\issp_2013_2014_NL_def.sav'.
** VOORBEELD VAN CAUSALE ANALYSE MET CONFOUNDER EN MEDIATOR **.. GET FILE=''. ** EERST MAKEN WE EEN OVERZICHT VAN DE DATA **. freq nl_rinc wrkhrs sex. Frequencies Statistics N Valid Missing NL_RINC Resp:
mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2
mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 Bjorn Winkens Methodologie en Statistiek Universiteit Maastricht 21 maart
Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden
Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd
Verband tussen twee variabelen
Verband tussen twee variabelen Inleiding Dit practicum sluit aan op hoofdstuk I-3 van het statistiekboek en geeft uitleg over het maken van kruistabellen, het berekenen van de correlatiecoëfficiënt en
Statistische Bijlagen Consumentenonderzoek.
MPI HOLLAND Statistische Bijlagen Consumentenonderzoek. Statistische uitvoer Enquête Jos van Zuidam 24-6-2010 Deze bijlage bevat enkele achtergrondgegevens behorend bij de publicatie Consumentenonderzoek
Meervoudige ANOVA Onderzoeksvraag Voorwaarden
Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) Avondopleiding. donderdag 6-6-3, 9.-. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op dinsdag 5-03-2005, 9.00-22.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine
We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:
INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 4 1. Toets met behulp van SPSS de hypothese van Evelien in verband met de baardlengte van metalfans. Ga na of je dezelfde conclusies
Antwoordvel Versie A
Antwoordvel Versie A Interimtoets Toegepaste Biostatistiek 13 december 013 Naam:... Studentnummer:...... Antwoorden: Vraag Antwoord Antwoord Antwoord Vraag Vraag A B C D A B C D A B C D 1 10 19 11 0 3
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op maandag ,
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op maandag 08-03-2004, 9.00-2.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine,
Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent
Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data p 1/31 Beschrijvende
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op vrijdag 29-04-2004, 9-2 uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine
Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur
Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4), op maandag 5 januari 29 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en
Handleiding SPSS tabellen en kruistabellen. In een paar stappen van spss data naar bruikbare informatie.
Handleiding SPSS tabellen en kruistabellen In een paar stappen van spss data naar bruikbare informatie. A) Het openen van een databestand File \ open \ data Kies de naam van je databestand, bijvoorbeeld
Bijlage 3: Multiple regressie analyse
Bijlage 3: Multiple regressie analyse REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING PAIRWISE /STATISTICS COEFF OUTS CI(95) R ANOVA COLLIN TOL ZPP /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT
Interim Toegepaste Biostatistiek deel 1 14 december 2009 Versie A ANTWOORDEN
Interim Toegepaste Biostatistiek deel december 2009 Versie A ANTWOORDEN C 2 B C A 5 C 6 B 7 B 8 B 9 D 0 D C 2 A B A 5 C Lever zowel het antwoordformulier als de interim toets in Versie A 2. Dit tentamen
Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, 9.00-12.00 uur
Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (DM4) woensdag 8 oktober 9, 9.-. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven Statistisch
SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen
SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen
INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5
INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 1. De onderzoekers van een preventiedienst vermoeden dat werknemers in een bedrijf zonder liften fitter zijn dan werknemers
Opgave 1: (zowel 2DM40 als 2S390)
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (DM4 en S39) op donderdag, 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine
Grafieken Cirkeldiagram
Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd
Residual Plot for Strength. predicted Strength
Uitwerking tentamen DS mei 4 Opgave Een uitwerking geven is hier niet mogelijk. Het is van belang het iteratieve optimaliseringsproces goed uit te voeren (zie ook de PowerPoint sheets): screening design
Fasen in het onderzoeksproces
Fasen in het onderzoeksproces Gegevensbestand Controleren gegevens Bewerken gegevens Analyseren gegevens Interpreteren resultaten Nieuwe vragen? ja Onderzoeksverslag 1 Bestand opmaken Variabelen definiëren:
Twee en een half jaar Kwaliteitsmeting in de Fysiotherapie
Twee en een half jaar Kwaliteitsmeting in de Fysiotherapie Feiten en cijfers tot nu toe Managementsamenvatting Na twee en een half jaar kwaliteitsmetingen in de fysiotherapie is het een geschikt moment
Hierbij is het steekproefgemiddelde x_gemiddeld= en de steekproefstandaardafwijking
Opdracht 9a ----------- t-procedures voor een enkelvoudige steekproef Voor de meting van de leesvaardigheid van kinderen wordt als toets de Degree of Reading Power (DRP) gebruikt. In een onderzoek onder
Oplossingen hoofdstuk Het milieubesef
Oplossingen hoofdstuk 3 1. Het milieubesef Eerst het hercoderen van item 3 en 5, via het commando Transform, Recode into different variables, nadien verschijnt het dialoogvenster Recode into Different
Beknopte handleiding SPSS versie 18.0 1 van 28
Beknopte handleiding SPSS versie 18.0 1 van 28 Beknopte handleiding SPSS versie 18.0 2 van 28 Inhoudsopgave Inleiding...3 SPSS- tips...4 Kopiëren van datakenmerken...6 Van SPSS naar Excel...7 Opsturen
Correlatie = statistische samenhang Meest gebruikt = Spearman s rang correlatie Ordinaal geschaalde variabelen -1 <= r s <= +1 waarbij:
Correlatie analyse Correlatie = statistische samenhang Meest gebruikt = Spearman s rang correlatie Ordinaal geschaalde variabelen -1
Samenvatting Nederlands
Samenvatting Nederlands 178 Samenvatting Mis het niet! Incomplete data kan waardevolle informatie bevatten In epidemiologisch onderzoek wordt veel gebruik gemaakt van vragenlijsten om data te verzamelen.
Pilot vragenlijst communicatieve redzaamheid
Pilot vragenlijst communicatieve redzaamheid Het instrument Communicatieve redzaamheid kan worden opgevat als een vermogen om wederkerig te communiceren met behulp van woorden, gebaren of symbolen. Communicatief
Analyse van kruistabellen
Analyse van kruistabellen Inleiding In dit hoofdstuk, dat aansluit op hoofdstuk II-13 (deel2) van het statistiekboek wordt ingegaan op het analyseren van kruistabellen met behulp van SPSS. Met een kruistabel
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd
Inhoud. Data. Analyse van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox
van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox Bram Ramaekers Bianca de Greef KEMTA Masterclass Inhoud Data Kaplan-Meier curve Hazard rate Log-rank test Hazard ratio Cox regressie
Het gebruik van SPSS voor statistische analyses. Een beknopte handleiding.
Het gebruik van SPSS voor statistische analyses. Een beknopte handleiding. SPSS is een alom gebruikt, gebruiksvriendelijk statistisch programma dat vele analysemogelijkheden kent. Voor HBO en universitaire
Examen G0N34 Statistiek
Naam: Richting: Examen G0N34 Statistiek 7 juni 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium
Bestaat er een betekenisvol verband tussen het geslacht en het voorkomen van dyslexie? Gebruik de Chi-kwadraattoets voor kruistabellen.
Oplossingen hoofdstuk IX 1. Bestaat er een verband tussen het geslacht en het voorkomen van dyslexie? Uit een aselecte steekproef van 00 leerlingen (waarvan 50% jongens en 50% meisjes) uit het basisonderwijs
Oplossingen hoofdstuk XI
Oplossingen hoofdstuk XI. Hierbij vind je de resultaten van het onderzoek naar de relatie tussen een leestest en een schoolrapport voor lezen. Deze gegevens hebben betrekking op een regressieanalyse bij
EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009
EIND TOETS TOEGEPASTE BIOSTATISTIEK I 30 januari 2009 - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 2 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.
Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur
Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, 9.00-12.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven
Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y
1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld
De data worden ingevoerd in twee variabelen, omdat we te maken hebben met herhaalde metingen:
INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 6 1. De 15 leden van een kleine mountainbikeclub vragen zich af in welk mate de omgevingstemperatuur een invloed heeft op hun
De Bladenbox in 2012 en verder.. Onderzoeksrapport
De Bladenbox in 2012 en verder.. Onderzoeksrapport Samenvatting Onderzoeksvraag en methodebeschrijving Uit de situatieanalyses is naar voren gekomen dat er een verandering plaats vindt in het leefgedrag
c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie?
Opdracht 13a ------------ Een-factor ANOVA (ANOVA-tabel, Contrasten, Bonferroni) Bij een onderzoek naar de leesvaardigheid bij kinderen in de V.S. werden drie onderwijsmethoden met elkaar vergeleken. Verschillende
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek I voor B (2S410) op , uur.
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek I voor B (S40) op 0-0-0, 4.00 7.00 uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine, een
toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden
toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling week 3: schatten en toetsen: de z-toets week 4: het toetsen van gemiddelden: de t-toets Moore, McCabe, and Craig.
Handleiding SPSS. 1) Maak je bestand
Handleiding SPSS 1) Maak je bestand In de file die op Minerva staat, zijn de data opgenomen van alle groepjes. Het is de bedoeling dat je je eindverslag schrijft over de data van jouw groepje. Om dit te
MISSING DATA van gatenkaas naar valide uitkomsten
MISSING DATA van gatenkaas naar valide uitkomsten Sander M.J. van Kuijk Afdeling Klinische Epidemiologie en Medical Technology Assessment [email protected] Inhoud Masterclass Theorie over missing
Basishandleiding SPSS
Basishandleiding SPSS Elvira Folmer & Marieke ten Voorde SLO, Juli 2008 Deze handleiding is gebaseerd op SPSS 16.0 for Windows Inhoud 1 Het maken van een gegevensbestand in de Variable View... 4 2 Het
Voer de gegevens in in een tabel. Definieer de drie kolommen van de tabel en kies als kolomnamen groep, vooraf en achteraf.
Opdracht 10a ------------ t-procedures voor gekoppelde paren t-procedures voor twee onafhankelijke steekproeven samengestelde t-procedures voor twee onafhankelijke steekproeven Twee groepen van 10 leraren
Kruis per vraag slechts één vakje aan op het antwoordformulier.
Toets Stroom 1.2 Methoden en Statistiek tul, MLW 7 april 2006 Deze toets bestaat uit 25 vierkeuzevragen. Kruis per vraag slechts één vakje aan op het antwoordformulier. Vraag goed beantwoord dan punt voor
Betrouwbaarheid, validiteit en overeenstemming
Betrouwbaarheid, validiteit en overeenstemming Inleiding Dit practicum sluit aan op het theoriegedeelte over betrouwbaarheidsanalyse van hoofdstuk II-16 (deel 2). In dit hoofdstuk wordt besproken hoe een
Hoofdstuk 8 Het toetsen van nonparametrische variabelen
Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn
9. Lineaire Regressie en Correlatie
9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)
Algemene methodologie (onderdeel van CAT)
Oefentoets Algemene methodologie (onderdeel van CAT) Cursus Wetenschappelijk Focus Onderwijs: Algemene methodologie Cursuscoördinator dr. A.L. de Vries 30 oefenvragen ZONDER antwoorden 1 In een onderzoeksprotocol
b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.
Opdracht 12a ------------ enkelvoudige lineaire regressie Kan de leeftijd waarop een kind begint te spreken voorspellen hoe zijn score zal zijn bij een latere test op verstandelijke vermogens? Een studie
Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA
Masterclass: advanced statistics Bianca de Greef Sander van Kuijk Afdeling KEMTA Inhoud Masterclass Deel 1 (theorie): Achtergrond regressie Deel 2 (voorbeeld): Keuzes Output Model Model Dependent variable
Wat te doen met die lange variabele- labels in SPSS?
Wat te doen met die lange variabele- labels in SPSS? (Hulp bij Onderzoek, Groningen, versie 8 april 2014) mag zowel met als zonder streepjes Voorwoord In onze white papers behandelen we onderwerpen die
Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid
Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De
DATA-ANALYSEPLAN (20/6/2005)
DATA-ANALYSEPLAN (20/6/2005) Inleiding De manier waarop data georganiseerd, gecodeerd en gescoord (getallen toekennen aan observaties) worden en welke technieken daarvoor nodig zijn, dient in het ideale
Menu aansturing van SPSS voorbeeld in paragraaf 6.5 van hoofdstuk 6 over multipele regressie analyses van recidive bij jongens
Menu aansturing van SPSS voorbeeld in paragraaf 6.5 van hoofdstuk 6 over multipele regressie analyses van recidive bij jongens Hieronder wordt uitgelegd hoe alle analyses besproken in paragraaf 6.5 van
1 vorig = omzet voorgaande jaar. Forward (Criterion: Probability-of-F-to-enter <=,050) 2 bezoek = aantal bezoeken vertegenwoordiger
De groothandel Onderwerp: regressieanalyse met SPSS Bij: hoofdstuk 10 Een groothandel heeft onderzoek gedaan onder de klanten en daarbij geprobeerd met regressieanalyse vast te stellen wat de bepalende
Oplossingen hoofdstuk 9
Oplossingen hoofdstuk 9 1. Bestaat er een verband tussen het geslacht en het voorkomen van dyslexie? Uit een aselecte steekproef van 200 leerlingen (waarvan 50% jongens en 50% meisjes) uit het basisonderwijs
11. Multipele Regressie en Correlatie
11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in
Voorbeeld regressie-analyse
Voorbeeld regressie-analyse In dit voorbeeld wordt gebruik gemaakt van het SPSS data-bestand vb_regr.sav (dit bestand kan gedownload worden via de on-line helpdesk). We schatten een model waarin de afhankelijke
Beschrijvende statistieken
Elske Salemink (Klinische Psychologie) heeft onderzocht of het lezen van verhaaltjes invloed heeft op angst. Studenten werden at random ingedeeld in twee groepen. De ene groep las positieve verhaaltjes
ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003
ANOVA in SPSS Hugo Quené [email protected] opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003 1 vooraf In dit voorbeeld gebruik ik fictieve gegevens, ontleend aan
Enkelvoudige lineaire regressie
Enkelvoudige lineaire regressie Inleiding Dit hoofdstuk sluit aan op hoofdstuk I-9 van het statistiekboek. Er wordt hier steeds gesproken over het verband tussen één afhankelijke variabele Y en één onafhankelijke
Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015
Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%
1. Reductie van error variantie en dus verhogen van power op F-test
Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De
RESULTATEN KOTENQUÊTE
RESULTATEN KOTENQUÊTE ACADEMIEJAAR 2005-2006 A. Algemeen De enquête werd afgenomen onder studenten van de UGent na de Paasvakantie van het academiejaar 2005-2006. Via de elektronische leeromgeving Minerva
Oplossingen hoofdstuk 8
Count Count Oplossingen hoofdstuk 8 1. Plaats de volgende eigenschappen bij de gegeven verdelingen. De eigenschappen kunnen voorkomen bij meerdere verdelingen. Plaats bij elke eigenschap het hierbij horende
5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:
5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van
OefenCAT MWO1: Veel succes! Formuleblad: Standaard fout bij RR: sse[ln(rr)] = 1 a 1. Epidemiologie en statistiek
OefenCAT MWO1: Extra instructies: Geef niet meer antwoorden dan gespecificeerd in de vraag (bijv. 3 criteria, 4 aspecten). Alleen de eerste antwoorden tellen mee. Dus schrijf niet 6 antwoorden op in de
Examen G0N34 Statistiek
Naam: Richting: Examen G0N34 Statistiek 8 september 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium
Deel 1: Voorbeeld van beschrijvende analyses in een onderzoeksrapport. Beschrijving van het rookgedrag in Vlaanderen anno 2013
7.2.4 Voorbeeld van een kwantitatieve analyse (fictief voorbeeld) In onderstaand voorbeeld werken we met fictieve data. Doel van dit voorbeeld is dat je inzicht krijgt in hoe een onderzoeksrapport van
Classification - Prediction
Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training
M M M M M M M M M M M M M M La La La La La La La Mid Mid Mid Mid Mid Mid Mid 65 56 83 68 64 47 59 63 93 65 75 68 68 51
INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 7 1. Een onderzoeker wil nagaan of de fitheid van jongeren tussen 14 en 18 jaar (laag, matig, hoog) en het geslacht (M, V) een
Oefenvragen bij Statistics for Business and Economics van Newbold
Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd
SPSS. Statistiek : SPSS
SPSS - hoofdstuk 1 : 1.4. fase 4 : verrichten van metingen en / of verzamelen van gegevens Gegevens gevonden bij een onderzoek worden systematisch weergegeven in een datamatrix bij SPSS De datamatrix Gebruik
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.
VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT
