Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 10 april 2013 14.00-17.00 uur Bij het tentamen mag alleen gebruik worden gemaakt van een zakrekenmachine. Het gebruik van boek, college-aantekeningen, laptop ed. is NIET toegestaan. De antwoorden dienen gemotiveerd, duidelijk geformuleerd en overzichtelijk opgeschreven te worden. Indien niet anders gespecificeerd geldt: toets met een onbetrouwbaarheid van 5%. Betrouwbaarheidsintervallen 95%. Er zijn 5 vraagstukken met in totaal 20 onderdelen. Elk onderdeel wordt gewaardeerd met 5 punten. Het eindcijfer wordt berekend door het totaal door 10 te delen. Aan het eind van dit tentamen zijn bijlagen met uitvoer van SPSS toegevoegd. Opgave 1: (3 x 5 = 15 punten) (Bij deze opgave is gebruik van resultaten uit bijlage 1 noodzakelijk) Is het cholesterol gehalte bij personen met hoge bloeddruk hoger dan bij personen met normale bloeddruk? Om dit te onderzoeken is voor een aantal personen met normale danwel hoge bloeddruk het cholesterolgehalte bepaald. Op basis van deze resultaten zijn een aantal analyses uitgevoerd, welke vermeld staan in bijlage 1. a. Voer op basis van de resultaten in bijlage 1 een Exploratieve Data Analyse uit. Vermeld relevante kentallen, beschrijf opvallende zaken en bespreek in hoeverre er sprake is van een Normale verdeling en/of van een symmetrische verdeling van de resultaten. b. Voer op basis van de resultaten in de bijlage 1 een t-toets uit om te bepalen of het cholesterol gehalte bij personen met hoge bloeddruk hoger is dan bij personen met normale bloeddruk. Vermeld hypothesen, toetsingsgrootheid, steekproevenverdeling en conclusie. Indien meerdere toetsen van toepassing zijn beargumenteer dan welke toets de voorkeur verdient. c. Voer op basis van de resultaten in de bijlage 1 een parametervrije toets om te bepalen of het cholesterol gehalte bij personen met hoge bloeddruk hoger is dan bij personen met normale bloeddruk. Omschrijf het principe van de toets en vermeld hypothesen, significantie en conclusie. Beargumenteer welk van de twee toetsen, de t-toets of de parametervrije toets, je voorkeur heeft in dit geval. 2DM50 1
Opgave 2: (4 x 5 = 20 punten) (Bij deze opgave is gebruik van resultaten uit de bijlagen 2a en 2b noodzakelijk) Is er een samenhang tussen leeftijd en slaapproblemen? Om dit na te gaan classificeert men een aantal proefpersonen naar leeftijdscategorie en het hebben van slaapproblemen. Resultaten zijn: Op basis van deze resultaten zijn een aantal analyses uitgevoerd, welke vermeld zijn in bijlage 2a. Gebruikte variabelen zijn: Leeftijd (1: 40-49 jaar; 2: 50-60 jaar) en Slaapproblemen (1: Nee, 2: Ja). a. Voer op basis van de resultaten in bijlage 2a een toets uit om te bepalen of er een samenhang is tussen leeftijd en slaapproblemen. Vermeld hypothesen, toetsingsgrootheid, steekproevenverdeling en conclusie. Indien meerdere toetsen van toepassing zijn beargumenteer dan welke toets de voorkeur verdient. b. Welke aannamen gelden voor de in onderdeel a. geselecteerde toets? Controleer of aan de noodzakelijke voorwaarden voldaan is. Interpreteer ook de resultaten voor de gerapporteerde residuals en beargumenteer welk van de gerapporteerde residuen (Residual, Std. Residual, Adjusted Residual) de voorkeur verdient. c. Bereken de Odds voor het optreden van slaapproblemen bij personen in de leeftijdscategorie 1: 40-49 jaar en bij personen in de leeftijdscategorie 2: 50-60 jaar. Omschrijf in woorden hoe je deze Odds interpreteert. Bepaal ook de Odds Ratio (kansverhouding) voor slaapproblemen van personen in leeftijdscategorie 2: 50-60 jaar ten opzichte van personen in leeftijdscategorie 1: 40-49 jaar. Omschrijf in woorden hoe je deze Odds Ratio interpreteert. In het onderzoek naar een mogelijke samenhang tussen leeftijd en slaapproblemen is voor de betreffende proefpersonen ook nog een opsplitising naar geslacht (1: man, 2: vrouw) gemaakt. Resultaten zijn: Op basis van deze resultaten zijn een aantal analyses uitgevoerd die vermeld zijn in bijlage 2b. Gebruikte variabelen zijn: Leeftijd (1: 40-49 jaar; 2: 50-60 jaar), Slaapproblemen (1: Nee, 2: Ja) en Geslacht (1: man, 2: vrouw). d. Voer op basis van de resultaten in bijlage 2b een toets uit om te bepalen of er een samenhang is tussen slaapproblemen en leeftijd, rekening houdend met het geslacht van de persoon. Vermeld hypothesen, significantie nivo en conclusie. Beargumenteer of aan de noodzakelijke voorwaarde(n) voor de gebruikte toets voldaan is. 2DM50 2
Opgave 3: (4 x 5 = 20 punten) (Bij deze opgave is gebruik van resultaten uit de bijlagen 3a t/m 3c noodzakelijk) HIV-diagnostiek kan plaatsvinden door op basis van antistoffen in bloed of weefsel specifieke indices te bepalen. Om na te gaan hoe dergelijke indices samenhangen bepaalt men bij een aantal proefpersonen vier van dergelijke indices, namelijk x 1 : DNA-blood, x 2 : Co-culture blood, x 3 : DNA weefsel, x 4 : RNA weefsel. Op basis van deze gegevens zijn een aantal analyses uitgevoerd, welke vermeld zijn in bijlagen 3a en 3b. a. Voer op basis van de resultaten in bijlage 3a een Exploratieve Data Analyse uit voor de gerapporteerde indices x 1 : DNA-blood, x 2 : Co-culture blood, x 3 : DNA weefsel, x 4 : RNA weefsel. Beschrijf opvallende zaken en besteed aandacht aan mogelijke samenhang tussen de variabelen. Om een mogelijke samenhang tussen de gerapporteerde kenmerken nader te onderzoeken zijn, in bijlage 3b, ook een aantal partiële correlatiecoëfficiënten gerapporteerd. b. Leg uit wat het verschil is tussen partiële correlatiecoëfficiënten, zoals vermeld in bijlage 3b, en de gewone (Pearson) correlatie coëfficiënten zoals vermeld in bijlage 3a. Vergelijk resultaten voor de gewone (Pearson) correlaties met resultaten voor de partiële correlaties en interpreteer mogelijke verschillen. Men is ook geïnteresseerd in een model om de index x 1 : DNA-blood te voorspellen uit de indices x 2 : Co-culture blood, x 3 : DNA weefsel, x 4 : RNA weefsel. Op basis van de beschikbare gegevens is met een automatische modelselectie techniek een regressiemodel gefit. Resultaten staan in bijlage 3c. c. Specificeer de gebruikte selectiemethode en het uiteindelijk geselecteerde model. Welke aannamen zijn op dit model van toepassing? Beargumenteer op basis van de resultaten in bijlage 3c of aan deze aannamen voldaan lijkt te zijn. Vormt multicollineariteit een probleem? d. Geef expliciet 95% betrouwbaarheidsintervallen voor de afzonderlijke coëfficiënten in het uiteindelijk geselecteerde model en geef aan hoe deze te gebruiken zijn om de significantie van afzonderlijke modeltermen te toetsen. Opgave 4: (4 x 5 = 20 punten) (Bij deze opgave is gebruik van resultaten uit bijlage 4 noodzakelijk) Is ipratropiumbromide effectief als luchtwegverwijderaar bij astma en chronische obstructieve longziekten (COPD)? Om dit na te gaan voert men een experiment uit waarbij per proefpersoon met COPD het uitgeademde luchtvolume per minuut gemeten is onder telkens vier condities, namelijk zonder toediening en bij toediening van ipratropiumbromide in een lage, een normale en een hoge dosis. Op basis van deze gegevens zijn een aantal analyses uitgevoerd welke vermeld staan in bijlage 4. a. Van welk type experiment opzet (experimental setup) is bij het geschetste experiment sprake? Geef de structuur aan van de kwadratensom-opsplitsing voor dit model en vermeld welke termen bijdragen aan het modeleffect en welke aan de error. b. Geef een zo gedetailleerd mogelijk model om de waarneming y ik van proefpersoon k bij toegediende dosis i (1=geen toediening, 2=lage dosis, 3=normale dosis, 4=hoge dosis) te beschrijven in deze experiment opzet. Welke aannamen zijn van toepassing voor dit model? c. Bepaal op basis van de resultaten in bijlage 4 of het uitgeademde luchtvolume per minuut verschilt voor de verschillende condities: 1=geen toediening, 2=lage dosis, 3=normale dosis, 4=hoge dosis. Vermeld hypothesen, toetsingsgrootheid, steekproevenverdeling en conclusie. Indien meerdere toetsen van toepassing zijn, beargumenteer dan welke toets je voorkeur heeft! d. Bepaal op basis van de resultaten in bijlage 4 of het uitgeademde luchtvolume per minuut bij toediening van ipratropiumbromide in een van de gebruikte doses (2=lage dosis, 3=normale dosis, 4=hoge dosis) verschilt van dat zonder toediening (1=geen toediening). Indien meerdere toetsen van toepassing zijn, beargumenteer dan welke toets je voorkeur heeft en verklaar eventuele verschillen qua conclusie! 2DM50 3
Opgave 5: (5 x 5 = 25 punten) (Bij deze opgave is gebruik van resultaten uit bijlage 5 noodzakelijk) Is het aantal verzuimdagen bij een viertal ziektebeelden (1=hartfalen, 2=kanker, 3=CVA, 4=TBC) verschillend voor mannen en vrouwen? Om dit na te gaan verzamelt men voor een aantal mannen en vrouwen die voor een van deze ziektebeelden gediagnostiseerd zijn nadere verzuimgegevens. Op basis van deze gegevens voert men een aantal analyses uit welke vermeld staan in bijlage 5. a. Van welk type experiment opzet (experimental setup) is bij het geschetste experiment sprake? Geef de structuur aan van de kwadratensom-opsplitsing voor dit model en vermeld welke termen bijdragen aan het modeleffect en welke aan de error. b. Geef een zo gedetailleerd mogelijk model om de waarneming y ijk van persoon k met ziektebeeld i (1=hartfalen, 2=kanker, 3=CVA, 4=TBC) en van geslacht j (1=man, 2=vrouw) in deze experiment opzet te beschrijven. Welke aannamen zijn van toepassing voor dit model? c. Voer op basis van de resultaten in bijlage 5 een Exploratieve Data Analyse uit. Beschrijf opvallende zaken en bespreek in hoeverre er sprake is van een symmetrische verdeling. Is er sprake van een gebalanceerde opzet? d. Bepaal op basis van de resultaten in de bijlage 5 of factoren en hun interacties significant zijn. Vermeld hypothesen, toetsingsgrootheid, steekproevenverdeling en conclusie. Geef voor significante factoren en interacties een interpretatie! e. Welke aannamen zijn van toepassing voor de in onderdeel d. gebruikte toetsen? Beargumenteer op basis van de resultaten in bijlage 5 of aan deze aannamen voldaan lijkt te zijn. 2DM50 4
Bijlage 1 (opgave 1): volgorde: {Hoog, Normaal} groep: Hoog groep: Normaal 2DM50 5
Bijlage 2a (opgave 2 a t/m c): volgorde: Leeftijd {40-49; 50-60} 2DM50 6
Bijlage 2b (opgave 2 d): 2DM50 7
Bijlage 3a (opgave 3a): Bijlage 3b (opgave 3b): vervolg bijlage 3 2DM50 8
Bijlage 3c (opgave 3 c t/m d): Scatterplot of Standardized Predicted Values versus Studentized Residuals Studentized Residuals 2DM50 9
Bijlage 4 (opgave 4): Volgorde dosis: {geen, laag, normaal, hoog} Paarsgewijze verschillen: {laag, normaal, hoog} ten opzichte van {geen} Vervolg bijlage 4 2DM50 10
Bijlage 4 vervolg (opgave 4): Pairwise Comparisons: LSD method Pairwise Comparisons: Bonferroni method 2DM50 11
Bijlage 5 (opgave 5): Studentized Residuals Vervolg bijlage 5 2DM50 12
Bijlage 5 vervolg (opgave 5): Studentized Residuals volgorde: {man, vrouw} TBC CVA hartfalen kanker volgorde: {hartfalen, kanker, CVA, TBC} vrouw man 2DM50 13