Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4) woensdag 27 oktober 2, 9.-2. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven Statistisch Compendium. De antwoorden dienen gemotiveerd, duidelijk geformuleerd en overzichtelijk opgeschreven te worden. In het bijzonder dienen bij statistische toetsen expliciet hypothesen, toetsingsgrootheden, relevante steekproefverdelingen en steekproefresultaten vermeld te worden. Indien niet anders gespecificeerd geldt: toets met een onbetrouwbaarheid van 5% en bepaal 95%- betrouwbaarheids-intervallen. Er zijn 5 vraagstukken met in totaal 2 onderdelen. Elk onderdeel wordt gewaardeerd met 5 punten. Het eindcijfer wordt berekend door het totaal door te delen. Opgave a: (3x5=5 punten) Men veronderstelt dat een geboorteafwijking samenhangt met een specifiek gen, gen a, en dat overerving via een zogenaamd autosomaal recessief patroon plaatsvindt: bij een kind treedt de geboorteafwijking op als beide ouders dit betreffende gen, gen a, doorgeven. In de oorspronkelijke populatie komt bij personen in een op de drie gevallen het betreffende gen, gen a, voor. a. Bepaal de kans dat in de oorspronkelijke populatie bij een kind de betreffende geboorteafwijking optreedt, aannemende dat de vererving van de genen van vader en moeder onafhankelijk van elkaar is. Uit onderzoek is gebleken dat na generaties (ruim 2 jaar later dus) de oorspronkelijke populatie zich ontwikkeld heeft tot twee deelpopulaties, deelpopulatie A en B. In deelpopulatie A, die een omvang heeft van 7% van de oorspronkelijke populatie, blijkt het voor de geboorteafwijking verantwoordelijke gen, gen a, in vier op de tien gevallen voor te komen. In deelpopulatie B, die een omvang heeft van 3% van de oorspronkelijke populatie, blijkt het betreffende gen, gen a, in een op de vijf gevallen voor te komen. b. Veronderstel dat voor kinderen in de volgende generatie geldt dat in 65% van de gevallen beide ouders uit deelpopulatie A komen, in % van de gevallen beide ouders uit deelpopulatie B en dat in 25% van de gevallen een van de ouders uit deelpopulatie A en de andere uit deelpopulatie B is. Bepaal de kans dat bij een kind van de volgende generatie de geboorteafwijking optreedt. Bij een kind in de volgende generatie treedt de geboorteafwijking op. Onbekend is tot welke deelpopulaties beide ouders behoorden. c. Bepaal op grond van deze gegevens wat de meest waarschijnlijke situatie is voor wat betreft de herkomst van beide ouders qua deelpopulatie. Licht je antwoord toe! 2DM4
Opgave 2: (4x5=2 punten) (Bij deze opgave kan gebruik gemaakt worden van resultaten uit de bijlage bij opgave 2) Hoge intra-oculaire kan voor ouderen een gevaar vormen. Een waarde van 4 mm Hg wordt bij hen als normaal beschouwd, een waarde van 6 mm Hg of hoger als gevaarlijk. Een oogarts doet onderzoek hier naar en bepaalt experimenteel bij een aantal ouderen deze intra-oculaire (in mm Hg). Resultaten van een analyse van deze data zijn opgenomen in een bijlage bij opgave 2. Hiervan kan bij het beantwoorden van de volgende vragen gebruik gemaakt worden! a. Voer op basis van de resultaten in de bijlage bij opgave 2 een Exploratieve Data Analyse uit op deze data. Vermeld relevante kentallen, beschrijf opvallende zaken en bespreek in hoeverre er sprake is van een symmetrische verdeling danwel van een Normale verdeling. b. Voer, met behulp van de resultaten uit de bijlage bij opgave 2, een toets uit om te bepalen of de bij ouderen hoger is dan de normale waarde van 4 mm HG. Licht je werkwijze toe en geef ook een schatting voor de p-waarde van deze toets. c. Bereken, op basis van de resultaten uit de bijlage bij opgave 2, een 99%-betrouwbaarheids-interval voor de variantie van de bij ouderen. De oogarts vraagt zich af of ze met de huidige experimentopzet ook in staat is om met 8% kans een gevaarlijk hoge intra-oculaire bloeddruk van 6 mm HG of meer te detecteren. Zij heeft daartoe voor de huidige experimentopzet de toetsings-karakteristiek (Power Curve of Operating Characteristic) bepaald. Daarbij is ze uitgegaan van een standaardafwijking van σ=4 mm HG..8 Power ( - beta).6.4.2 2 4 6 8 True Mean d. Geef een toelichting op de grootheden die in deze toetsings-karakteristiek uitgezet zijn. Beargumenteer of het met de huidige experimentopzet mogelijk is om gevaarlijk hoge intra-oculaire bloeddruk met een kans van minimaal 8 % te kunnen detecteren. Geef zo nodig advies voor concrete verbetering van de experimentopzet. Opgave 3: (4x5=2 punten) Vaak wordt bij klinische studies aan patiënten gevraagd zelf een diagnose te stellen met betrekking tot een aspect van hun medische voorgeschiedenis. Zo ook in een onderzoek onder een groep van vrouwen, waarbij hen gevraagd is of ze in het verleden al dan niet een miskraam gehad hebben. Naar eigen zeggen was dit bij 25 van de vrouwen het geval, bij de resterende 975 vrouwen niet. Uit een eerder groot onderzoek is met betrekking tot de betrouwbaarheid van een dergelijke zelfdiagnoses het volgende bekend: Bij 8% van de vrouwen die zelf rapporteerden een miskraam gehad te hebben bleek daadwerkelijk ook een miskraam opgetreden te zijn. Bij 97% van de vrouwen die zelf rapporteerden GEEN miskraam gehad te hebben bleek daadwerkelijk ook GEEN miskraam opgetreden te zijn. 2DM4 2
a. Benoem de in het eerdere onderzoek aangegeven kansen in termen van specificiteit, sensitiviteit, predicitve value positive en/of predictive value negative. b. Bepaal op grond van bovenstaande gegevens de kans dat 6 van de 25 vrouwen die zelf rapporteerden een miskraam gehad te hebben ook daadwerkelijk een miskraam hadden. Beargumenteer welke kansverdeling je gebruikt en welke aannamen hieraan ten grondslag liggen. c. Bepaal op grond van bovenstaande gegevens de kans dat minstens van de 975 vrouwen die zelf rapporteerden GEEN miskraam gehad te hebben feitelijk wel een miskraam hadden. Gebruik, voor zo ver mogelijk, een adequate benadering voor het berekenen van kansen en licht je keuze toe! d. Bepaal op grond van bovenstaande gegevens de kans dat binnen de onderzoekspopulatie van vrouwen een vrouw daadwerkelijk een miskraam gehad heeft. Licht je berekening toe! Opgave 4: (5x5=25 punten) (Bij deze opgave is gebruik van resultaten uit de bijlage bij opgave 4 noodzakelijk) Men vermoedt dat het eten van met kwik verontreinigde vis van invloed is op het kwikgehalte in het bloed. Om dit nader te onderzoeken is bij een aantal personen de hoeveel kwik bepaald die zij via het eten van vis binnenkregen (variabele: HGvis, in μg/dag). Ook is het kwikgehalte in hun bloed bepaald (variabele: HGbloed, in ng/g). Op basis van deze gegevens is een regressie-analyse uitgevoerd. Resultaten van deze analyse staan vermeld in een bijlage bij opgave 4. Gebruik bij het beantwoorden van deze opgaven deze resultaten. Merk op dat in deze bijlage sommige deelresultaten met opzet ontbreken! a. Geef op basis van summary statistics en scatterplot aan of in dit geval lineaire regressie een geschikte methode lijkt om de resultaten van het onderzoek te analyseren. Beargumenteer de keuze voor verklaarde en verklarende variabele en geef de vergelijking van de regressielijn die het verband weergeeft tussen de hoeveelheid kwik die via het eten van vis binnenkregen is en het kwikgehalte in het bloed. b. Voer een F-toets uit om te bepalen of het model als geheel significant is. Licht je werkwijze toe en geef ook een schatting voor de p-waarde van deze toets. c. Voer een t-toets uit om te bepalen of de richtingscoëfficiënt van het model significant is. Licht je werkwijze toe en leg uit hoe deze toets samenhangt met de toets uit onderdeel b. d. Welke modelaannamen gelden voor een enkelvoudig lineair regressiemodel? Beargumenteer op basis van de resultaten in bijlage 4 of aan deze modelaannamen voldaan lijkt te zijn. e. Bereken de verwachte waarde en het 95% predictie-interval (voorspellings-interval) voor het kwikgehalte in het bloed bij een dagelijkse kwikinname van 45 μg kwik/dag. 2DM4 3
Opgave 5: (4x5=2 punten) Hoe effectief is de werkzaamheid van medicijnen tegen astma? Om dit te achterhalen is bij proefpersonen voor een nieuw medicijn, drug A, de verandering in het uitademingsvolume bepaald, twee uur na inname van dit medicijn. Resultaten zijn: Persoon 2 3 4 5 6 7 8 9 drug A.74.3.59.22.9.83.3.99.3. drug A - -.26.3 -.4.22.9 -.7.3 -..3. In de onderste regel van de tabel is aangegeven hoeveel de feitelijke waarde verschilt van de streefwaarde van. a. Omschrijf het principe van een tekentoets (sign test) om te bepalen of bij het nieuwe medicijn, drug A, de verandering in uitademingsvolume significant verschilt van de streefwaarde. Voer deze toets uit en licht je werkwijze toe! b. Omschrijf het principe van een adequate Wilcoxontoets om te bepalen of bij het nieuwe medicijn, drug A, de verandering in uitademingsvolume significant verschilt van de streefwaarde. Voer deze toets uit en licht je werkwijze toe! In het eerder beschreven experiment is voor elk van de proefpersonen ook de verandering in uitademingsvolume van een tweede medicijn, drug B, bepaald. Resultaten zijn: Persoon 2 3 4 5 6 7 8 9 drug A.74.3.59.22.9.83.3.99.3. drug B.28.64...34.96.92.83.6.74 drug A drug B -.54.67 -.5.2 -.5 -.3..6 -.3.36 In de onderste regel van de tabel is aangegeven hoe groot het verschil tussen beide medicijnen is. c. Voer een tekentoets (sign test) uit om te bepalen of beide medicijnen, drug A en drug B, significant verschillen voor wat betreft de verandering in uitademingsvolume. Licht je werkwijze toe! d. Voer een adequate Wilcoxontoets uit om te bepalen of beide medicijnen, drug A en drug B, significant verschillen voor wat betreft de verandering in uitademingsvolume. Licht je werkwijze toe en bespreek voor/nadelen van deze Wilcoxontoets ten opzichte van de tekentoets uit onderdeel c! 2DM4 4
Bijlage bij opgave 2: SnapStat: One Sample Analysis Data variable: Count = 2 Average = 5.96 Standard deviation = 3.99874 Coeff. of variation = 25.547% Minimum =. Maximum = 28.2 Range = 8.2 Stnd. skewness = 2.6453 Stnd. kurtosis = 3.2977 frequency 5 4 3 2 Histogram 9 3 7 2 25 29 33 Box-and-Whisker Plot 95% confidence intervals Mean: 5.96 +/-.8747 [4.885, 7.835] Sigma: [3.4, 5.8444] Diagnostics Shapiro-Wilks P-value =.457 Lag autocorrelation = -.99954 +/-.438262 9 3 7 2 25 29 33 Time Sequence Plot Normal Probability Plot 33 29 25 2 7 3 9 4 8 2 6 2 Row percentage 99.9 99 95 8 5 2 5. 9 3 7 2 25 29 33 2DM4 5
Bijlage bij opgave 4: n = 3; x = 499; y = 3; L S = 458; L S = 26243; L S = 99644; Summary Statistics: i i xx xx xy xy yy yy Count 3 3 Average 383.846 23.846 Variance 3479.8 6637. Standard deviation 84.878 28.984 Minimum 5. 5. Maximum 65. 5. Range 545. 395. Stnd. skewness -.33247.4779 Stnd. kurtosis -.8826 -.3358 HGvis HGbloed Scatterplot HGbloed 5 4 3 2 2 4 6 8 HGvis Correlations: HGvis HGbloed HGvis.96 (3). HGbloed.96 (3). Correlation (Sample Size) P-Value Simple Regression - HGbloed vs. HGvis: Dependent variable: HGbloed Independent variable: HGvis Linear model: Y = a + b*x Coefficients Least Squares Standard T Parameter Estimate Error Statistic P-Value Intercept -4.48 35.6764???? Slope.63927.84359???? Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 67542.???????? Residual 32.3???? Total (Corr.) 99644.?? R-squared = 83.927 percent R-squared (adjusted for d.f.) = 82.4589 percent Standard Error of Est. = 54.23 Vervolg bijlage bij opgave 4 2DM4 6
Vervolg bijlage bij opgave 4: Plot of Fitted Model: 5 4 HGbloed 3 2 2 4 6 8 HGvis 3 Residual Plots: 3 2 2 Studentized residual - -2 Studentized residual - -2-3 2 4 6 8 HGvis -3 2 3 4 5 predicted HGbloed Normal Probability Plot 99.9 99 95 percentage 8 5 2 5. -.6 -.6.4.4 2.4 3.4 SRESIDUALS 2DM4 7