Toegepaste biostatistiek

Maat: px
Weergave met pagina beginnen:

Download "Toegepaste biostatistiek"

Transcriptie

1 Toegepaste biostatistiek 1 e master biomedische wetenschappen

2 1 Hoofdstuk 11: regressie en correlatie methoden Lineaire regressie: hier ga je willen onderzoeken hoe normaal verdeelde uitkomsten gerelateerd kunnen worden met 1 of meerdere predictor variabelen (schattingen), deze kunnen continue of categorisch verdeeld zijn. Standaard formule voor lineaire regressie: Y = α + βx Y= afhankelijke variabele: de variabele waarvoor men een schatting wilt maken X= onafhankelijke variabele of predictor variabele: de variabele die je gebruikt om een voorspelling te maken β= slope (helling van de regressielijn) α= intercept (punt wat x zou zijn wanneer y = 0. Het geeft dus de hoogte weer van de regressielijn) aangezien iedere persoon anders is, is het niet mogelijk om aan de hand van deze standaard formule een correcte schatting te maken voor iedereen. Om deze reden wordt er ook een correctie factor toegevoegd (e). Hierdoor krijg je de volgende formule: Y = α + βx + e Gebruikt voorbeeld in de cursus: e= stelt de variatie voor van tussen personen met een zelfde x variabele. Het is wel noodzakelijk dat e normaal verdeeld is met een gemiddelde 0 en een variantie σ 2. Tijdens de zwangerschap kan het estriol gehalte gemeten worden in de urine. Het estriol gehalte zou een voorspellende (predictor variabele) kunnen zijn voor het geboortegewicht. Om hier een kwantificeerbaar gegeven van te maken, kunnen we een regressielijn proberen te plaatsen tussen deze twee variabelen (geboorte gewicht en estriol concentratie). Voor de formule van lineaire regressie komt dat op het volgende: Y = α + βx + e Y: het geboortegewicht X: het estriol gehalte in de urine α: het estriol gehalte wanneer het geboortegewicht 0 zou zijn. β: hoe sterk het geboortegewicht stijgt of daalt, bij een toename of afname van het estriol gehalte met 1 unit.

3 2!! de correctiefactor (e) moet normaal verdeeld zijn met gemiddelde 0 en variantie σ 2. De variabelen x en y moeten niet noodzakelijk normaal verdeeld zijn. Het effect van σ 2 op de vergelijking. - Als σ 2 = 0, dan krijg je een perfecte lijn van je gemeten punten (x variabelen). Als je daar een regressie lijn door wilt trekken, dan krijg je een perfecte fit. - Als σ 2 0, krijg je een wolk van punten, om hier een regressielijn door te trekken gaat het al wat moeilijker zijn. Je kan wel berekenen wat de beste fit is voor die gegevens. (dit zal ook het meeste voorkomen in realiteit). De oriëntatie van de regressielijn is afhankelijk van de slope (β). Indien de slope negatief is, gaan de waarden een dalend karakter hebben. Dit wilt zeggen dat een stijgende x waarde gepaard gaat met een dalende y waarde. Daarnaast kan je ook concluderen, indien de slope nul zou zijn, er geen relatie is tussen de predictor variabele (x) en de afhankelijke variabele (y). Hypothetisch gezien zou dat voor ons voorbeeld willen zeggen dat, hoe hoger de estriol concentratie, hoe lager het geboorte gewicht zal zijn indien de slope negatief zou zijn. Als de slope positief zou zijn (wat we op basis van onze resultaten ook kunnen waarnemen) gaat een hogere estriol concentratie gepaard met een hoger geboortegewicht.

4 3 Fitting van de regressielijn. Zoals juist al aangehaald, gaan de verzamelde gegevens veelal een wolk van punten gaan vormen wanneer je ze plot. Het vormen van een regressielijn zal dus niet zo eenvoudig zijn. Dit kunnen we echter wel berekenen en dit doen we met de methode van de minste machten (method of least squares). De geschatte regressielijn (least squares line) is de lijn ( Y = α + βx + e) waarbij de som van de gekwadrateerde afstanden tussen gemeten waarde en de regressielijn het laagst is. (we nemen de gekwadrateerde afstanden om te voorkomen dat we altijd 0 uitkommen). Notities: - Raw sum of squares voor x n x i 2 i=1 - Gecorrigeerde sum of squares voor x = L XX n (x i x ) 2 i=1 - Raw sum of squares voor y n y i 2 i=1 - Gecorrigeerde sum of squares voor y = L YY n (y i y ) 2 i=1 - Raw sum of cross products n x i y i i=1 - Gecorrigeerde sum of cross products = L XY n (x i x )(y i y ) i=1

5 4 Berekenen L XX L YY en L XY : - Bereken het gemiddelde van x x - Bereken het gemiddelde van y y - Bereken x - x X - Bereken y - y Y - Kwadrateer X X 2 - Kwadrateer Y Y 2 - Bereken de som van alle X 2 L XX - Bereken de som van alle Y 2 L YY - Vermenigvuldig X elke met Y XY - Neem de som van XY L XY Deze berekende waarden kunnen we nu gebruiken om de vergelijking te vervolledigen. Om zo een regressielijn te vormen die het beste is voor de gegevens die we verzameld hebben. β (ook soms afgebeeld als b) = L XY L XX α (ook soms afgebeeld als a) = y bx Nadat je de regressielijn hebt kunnen opstellen en de formule hebt vervolledigd, is het mogelijk om voorspellingen te maken voor y met behulp van x. Dat is heel het punt van lineaire regressie. Dit doe je door alle gekende gegevens van de formule in te vullen. y = α + βx In ons voorbeeld kunnen we nu dus gaan schatten wat het geboortegewicht zal zijn van een baby tijdens de zwangerschap en dit op basis van het estriol gehalte. Stel dat we bij een vrouw een estriol gehalte gemeten hebben van 10mg/24h. Uit onze berekeningen zien we ook dat het intercept (α) = en dat de slope (β) = y = ( ) = hg 100 = 2760g Uiteraard is het ook nog eens mogelijk om te controleren hoe goed de regressielijn past bij de gegevens die we geobserveerd hebben. Om dit te kunnen nagaan zouden we ook nog een paar extra berekeningen moeten maken. We hebben namelijk de Res SS en Reg SS nodig.

6 5 Res SS: residual sum of squares Deze waarde laat het verschil zien tussen, geobserveerde waarde (x i, y i ) en de geschatte waarde (x i, y i). In andere woorden laat deze waarde zien hoe goed onze schatting gaat aansluiten bij de werkelijkheid. Reg SS: regression sum of squares Hoe kleiner de Res SS, hoe beter. Deze waarde geeft het verschil weer tussen de geschatte waarde y i en het gemiddelde y. In andere woorden geeft de Reg SS een beeld over de helling van de regressielijn. Hoe groter de Reg SS, hoe beter. De beste situatie zou dus een model zijn waar de Res SS zo klein mogelijk is en de Reg SS zo groot mogelijk. Deze goodness of fit kunnen we ook kwantificeren door de R 2 te bepalen. R 2 = Reg SS total SS Waardat total SS = res SS + Reg SS R² zal een waarde aannemen tussen 0 en 1. Een R² van 1 wilt zeggen dat je een perfect model hebt en dat alle variatie in het model verklaard kan worden door de x variabele in het model. Alle geobserveerde data punten vallen op de regressielijn. Een R² van 0 wilt zeggen dat je een waardeloos model hebt. Je kan niets voorspellen met dit model. de x variabelen kunnen niets verklaren van de onzekerheid. Voorbeeld: stel dat je het geboorte gewicht probeert te verklaren aan de hand van de naam van de moeder. = L YY

7 6 Met de R² kan je dus bepalen hoe goed je model zal zijn in het maken van schattingen op basis van de onafhankelijke variabele (x). Hoeveel van de variantie kan verklaard worden door de x variabelen die we in het model zitten? Je kan aan je model meerdere x variabelen toevoegen. Hoe meer x variabelen je kan toevoegen aan het model die gelinkt zijn aan de afhankelijke variabele (y), hoe beter. Bij enkelvoudige regressie is R² = r². r² is de correlatie coëfficiënt tussen x en y (=Pearson) Vooraleer we verder gaan is het ook wel eens nuttig om te controleren of het wel enig nut heeft om aan regressie te doen met het model dat we hebben. Als we een model hebben dat de slope (β) gelijk is aan 0, dan heeft het niet echt zin om verder te gaan met dit model want we kunnen er niets mee voorspellen. Om dit te bepalen kunnen we een F-test doen? F-test Controleren of het wel enig nut heeft om aan lineaire regressie te doen. We gaan hier enkel proberen te achterhalen of de slope verschillend is van 0 (of we dus iets kunnen bepalen aan de hand van dit model). 1) Bepalen van de hypotheses H 0: β = 0 VS. H 1: β 0 2) Berekenen van de test statistiek (toetsingsgrootheid) op basis van de gegevens gevonden in je steekproef. We gaan dit doen aan de hand van de Res MS en de Reg MS Res MS: residual mean sum of squares (ook soms s²xy genoemd) = Res SS n k 1 Reg MS: regression mean sum of squares = Reg SS k o In de veronderstelling dat H 0 waar is en er dus geen verband is tussen de x en y variabelen, volgen de gegevens de F-verdeling. 3) Nu ga je willen kijken in welke mate deze gegevens plausibel zijn wanneer die F-verdeling geldt (onder de assumptie dat H 0 juist is). Dit kunnen we op 2 manieren bepalen.

8 7 - kritieke waarde De kritieke waarden geeft een soort van cut off waarde. Wanneer de berekende teststatistiek groter is dan deze waarde dan kunnen we ervanuit gaan dat de H 0 niet plausibel is en verwerpen we deze. H1 zal in dit geval meer realistisch zijn. De kritieke waarde kunnen we opzoeken in een tabel (die van de F verdeling). En kunnen we met behulp van de vrijheidsgraden bepalen. F k, n-k-1, 1-α k: het aantal onafhankelijke variabelen (predictor variabelen, x) n: het aantal deelnemers in het onderzoek α: significantie niveau (kan je zelf kiezen, meestal wordt een α van 0.05 gekozen) Een F-test is een enkelzijdige test, je hebt namelijk altijd een positieve waarde aangezien je de berekeningen doet met gekwadrateerde gegevens. Hierdoor is de F verdeling geen volledige gaus curve maar een halve. - p-waarde hier ga je berekenen wat de kans is op het verkrijgen van een teststatistiek die extremer of gelijk is aan de geobserveerde waarde (berekende f waarde) er van uit gaande dat H 0 waar is. p = Pr (F k,n k 1,1 α f) Om deze waarde te kwantificeren gaan we ook terug gebruik maken van de tabel (van de F-verdeling). Nu gaan we die tabel echter andersom gebruiken. a) Bereken de teststatistiek (f-waarde) b) Ga naar de tabel en zoek de kolom die de vrijheidsgraden aangeeft. (F k,n-k-1).

9 8 c) Nu ga je op zoek naar de f-waarde (in het deel aangegeven door de vrijheidsgraden). De P-waarde zal het inverte zijn van de overeenkomende p (je gaat dus 1- die waarde moeten doen om de p-waarde te bekomen). Als het getal er niet tussen staat ga je de p-waarde zo goed mogelijk proberen te benaderen. Je gaat hiervoor op zoek naar de twee f- waardes waar uw berekende f-waarde tussen ligt. De p-waarde zal dan tussen de twee corresponderende p-waarden liggen. d) De p-waarde geeft de kans dat de geobserveerde waarde links ligt van de kritieke waarde. Een p-waarde kleiner dan de vooropgestelde α geeft dus weer dat we ervan uit gaan dat de kans op het observeren van de waarde die wij in onze steekproef gevonden hebben te extreem is en dat we kunnen besluiten dat de H 0 niet correct is. 4) Conclusie: indien we de H0 kunnen verwerpen en H1 aanvaarden hebben we evidentie om te zeggen we een nuttig model hebben en dat we verder kunnen. Met de F-test kunnen we concluderen of de een x-variabele significant effect heeft op de y-variabele. We kunnen echter niets zeggen over de significantie van het model. met de R² kan je bepalen hoe goed het model is. Nadat we gecontroleerd hebben of het zinvol is om aan regressie te doen (f-test) en we de kwaliteit van het model hebben gecontroleerd (R²), kunnen we nagaan wat de significantie is van de relatie die we aan het testen zijn. Dit doen we aan de hand van een T-test. T-test Achterhalen van de significantie tussen de predictor en de afhankelijke variabele. Voor een enkelvoudige regressie (waar er maar 1 x variabele is) zijn de T-test en de F-test gelijkaardig. Bij meervoudige regressie is hier wel een meer uitgesproken verschil. Hier ga ja namelijk meerdere x variabelen hebben en hier zal de F-test gedaan worden om te controleren of één van die x variabelen en significant resultaat gaat opleveren. Daarna ga je met de T-test de x variabelen afzonderlijk controleren. Procedure voor T-test: 1) Opstellen van een hypothese. Deze is het zelfde als bij de F-test. H 0: β = 0 VS. H 1: β 0 2) Berekenen van de toetsingsgrootheid (de teststatistiek). t = b S xy 2 L XX S² xy = Res MS t = b se (b) se (b) = standaard error van b

10 9 3) Plausibiliteit controleren - Kritieke waarde Ook hier wordt er gebruik gemaakt van een tabel, meer bepaald deze van de T- verdeling. In deze tabel ga je locatie moeten zoeken aan de hand van de vrijheidsgraden. Er is hier wel een verschil met de F-test en dat is dat een T-test een dubbelzijdige test is. Hierdoor gaat de interpretatie iets anders zijn dan voorheen. Een dubbelzijdige test wilt dus ook zeggen dat je twee kritieke waarden gaat moeten opzoeken (een positieven en een negatieve). Het gemakkelijke aan deze verdelingen is dat ze een spiegelbeeld vormen. Wat ik hier mee wil zeggen is dat de positieve kritieke waarde het zelfde is als de negatieve, met het verschil dat er een - voor staat. In de praktijk ga je dus maar 1 waarde moeten opzoeken. t n k 1,1 α 2 t n k 1,1 α 2 n-k-1: is het zelfde als voorheen n: aantal deelnemers / patiënten k: aantal x variabelen (bij enkelvoudige regressie is dit altijd 1) 1 α : omdat een T-test een dubbelzijdige test is, ga je de α 2 delen door 2. Dit omdat je nu langs twee kanten van een verdeling moet kijken. Zoals je in de afbeelding kunt zien en zoals eerder vermeld ga je een tweezijdige test doen. De berekende test statistiek kan dus ook negatief zijn (de b in de formule kan namelijk negatief zijn). Dit is wel belangrijk voor de uiteindelijke interpretatie van de gegevens.

11 10 Wanneer de teststatistiek groter is dan de positieve (rechter) kritieke waarde of wanneer de teststatiek kleiner is dan de negatieve (linker) kritieke waarde ga je de H 0 verwerpen. Als de teststatistiek tussen de positieve en de negatieve kritieke waarde ligt ga je H 0 aanvaarden. - P-waarde Ook hier moet je rekening houden met het feit dat de T-test een dubbelzijdige test is. De p-waarde ligt dus verdeeld over de twee kanten. Om de totale P-waarde te willen weten ga je de waarde die je in de tabel kan aflezen nog moeten verdubbelen. Opzoeken van de p-waarde in de tabel van de t-verdeling p-waarde is de kans dat de t-verdeling nog extremer of even extreem is dan de berekende t-waarde. Om de p-waarde te bepalen ga je de tabel andersom moeten gebruiken als bij het bepalen van de kritieke waarde. a) Bereken de t-waarde. b) Ga in de t-verdeling tabel naar de rij met vrijheidsgraad n-k-1. c) Ga op zoek naar de berekende t-waarde. De overeenkomende u (= 1 α p waarde ) ga je nog moeten aftrekken van 1 om te 2 2 bekomen en deze nog eens verdubbelen om de p-waarde te bekomen. d) Indien de berekende t-waarde niet exact in de tabel staat ga je zo goed mogelijk moeten definiëren waar de p-waarde zich zal bevinden (door gebruik te maken van < en >).

12 11 - Betrouwbaarheidsinterval (= CI) Een betrouwbaarheidsinterval is een schatting van een marge die de precisie van de geschatte parameter weergeeft. Daarnaast geeft het ook een beeld van de significantie. o Een kleine marge betekend dat de schatting redelijk accuraat zal zijn o Indien de marde 0 bevat bestaat de kans dat de H0 correct is dus je kan niet met zekerheid zeggen dat het significant is. Als het betrouwbaarheidsinterval de 0 niet bevat gaat het wel significant zijn. Een CI geeft dus meer informatie over de gegevens dan enkel de kritieke waarde of de p-waarde. Een CI kan berekend worden voor verschillende zaken Voor de regressie parameters (α en β). Door het significantie niveau aan te passen kan je bepalen hoe strikt je het CI wilt hebben. (een CI van 100% is onmogelijk) Voor de voorspelling gemaakt met behulp van lineaire regressie. Hier kunnen we nog een extra onderscheid maken. Er kan namelijk nog gekeken worden of we een voorspelling maken voor een individu of voor een groep. Gemiddeld gezien ga je bij een groepsvoorspelling een CI bekomen dat nauwer is dan voor het maken van een individuele voorspelling. Dit omdat je bij een individuele voorspelling te maken kunt hebben met een extreme observatie. In een groep gaat hier voor zekere mate gecompenseerd worden.

13 12 Voorbeeld CI berekening bij betrouwbaarheid level van 95% Slope (b) = b ± t α n k 1,1 se(b) 2 = 0,608 ± 2,045 0,1468 Se(b) : standaard error van de slope (b) t α n k 1,1 : opzoeken in t-verdelingtabel 2 [0,308 ; 0,908] Intercept (a) = a ± t α n k 1,1 se(a) 2 = 21,5234 ± 2,045 2,6204 [16,16 ; 26,88] Se(a) : standaard error van het intercept (a) t α n k 1,1 : opzoeken in t-verdelingtabel 2 Het berekenen van het CI van a is minder belangrijk en wordt niet echt gedaan. Individuele voorspelling (FEV voor iemand met lengte:160 cm) y = x(height) = y ± t α n k 1,1 se 1 (y ) 2 = 2.90 ± ,126 y = y = 2.90 [2,62 ; 3,18] se 1 (y ) = s 2 xy [1 + 1 (x x )² + ] n L XX se 1 (y ) = 0,0145 [ se 1 (y ) = 0,126 ( )² + ] 2288 Groepsvoorspelling (FEV voor groep met allemaal een lengte van: 160 cm) = y ± t α n k 1,1 se 2 (y ) 2 = 2.90 ± ,036 [2,82 ; 2,98] se 2 (y ) = s 2 xy [ 1 (x x )² + ] n L XX se 1 (y ) = 0,0145 [ 1 12 ( )² + ] 2288 se 1 (y ) = 0,036 In dit voorbeeld is duidelijk te zien dat de CI voor een groepsvoorspelling nauwer is dan voor een individuele voorspelling

14 13 Assumpties voor lineaire regressie 1) Er moet een lineair verband zijn om aan lineaire regressie te doen. Voor elke gegeven x moet de corresponderende y een gemiddelde waarde hebben van a + bx. (welke een lineaire functie is van x) 2) Residuals moeten normaal verdeeld zijn!! De foutenterm moet normaal verdeeld zijn Voor elke gegeven x, de corresponderende y is normaal verdeeld met een gelijke variantie σ 2 voor elke x. 3) Foutentermen moeten onafhankelijk zijn (ze mogen niet samenhangen) De fout die je maakt op een voorgaande observatie mag niet afhankelijk zijn van een voorgaande observatie. Hoe te controleren voor de assumpties: a) Controleer de normaliteit van de residuals. Dit kan met behulp van de shapiro-wilk normality test o H 0: residuals zijn normaal verdeeld o H 1: residuals zijn niet normaal verdeeld o P > α H 0 aanvaarden b) Kijk naar je gegevens (op een x-y scatterplot). In het voorbeeld hieronder zien we dat, hoe hoger het estriol gehalte wordt, hoe verder de punten verspreid liggen rond de regressielijn. Dit zie je uiteraard liever niet. (varianties moeten gelijk zijn) In deze plot kunnen we zien dat de gegevens geen curvilineariteit bevatten (dus lineair karakter hebben). c) Kijk naar de scatterplot van de residuals VS de voorspelde waardes van y. Hier kan je gaan zien of er homoscedadiciteit (gelijke variantie) is of niet. Je wilt in deze figuur liefst een random scattering zien, geen funnel bijvoorbeeld.

15 14 Wat als het blijkt dat de gegevens niet normaal verdeeld zijn: Transformeren van de afhankelijke variabele (y) op een ander schaal. = variance stabelizing transformation Meest gebruikte methodes zijn: o Vierkantwortel transformatie o Ln transformatie Correlatie coëfficiënt (r) In sommige gevallen zijn we niet zo zeer geïnteresseerd in het schatten van een afhankelijke variabele (y). Soms willen we gewoon achterhalen of twee variabelen gecorreleerd zijn met elkaar (of er een relatie is tussen de twee). Dit kunnen we doen aan de hand van het bepalen van een correlatie coëfficiënt (Pearson). Voor enkelvoudige regressie kunnen we stellen dat R² (wat eerder behandeld werd) het zelfde is als r² (correlatie coëfficiënt²). r = L xy L XX LYY Assumpties: T-test: X en Y moeten normaal verdeeld zijn Indien ze niet normaal verdeeld zijn kan je: o De gegevens transformeren o Een non parametrische test gebruiken (spearman) De spearman zou je in principe altijd kunnen gebruiken (ook bij normaal verdeelde gegevens) maar wordt enkel gebuikt bij niet normaal verdeelde gegevens. Om de significantie te testen van de correlatie. 1) Hypothese formuleren H 0 : ρ = 0 VS. H 1 : ρ 0 2) Teststatistiek (toetsingsgrootheid bepalen). t = r (n 2) 1 r²

16 15 3) Toetsen - Kritieke waarde t n k 1,1 α 2 t n k 1,1 α 2 Wanneer de teststatistiek groter is dan de positieve (rechter) kritieke waarde of wanneer de teststatiek kleiner is dan de negatieve (linker) kritieke waarde ga je de H 0 verwerpen. Als de teststatistiek tussen de positieve en de negatieve kritieke waarde ligt ga je H 0 aanvaarden. - P-waarde Het berekenen van de p-waarde gebeurt identiek zoals eerder besproken bij de t-test. Het is gewoon belangrijk dat je onthoudt dat je hier met een dubbelzijdige test zit. 4) Assumpties moeten gecontroleerd worden!!! Z-test Stel: je wilt onderzoeken of een bepaalde correlatie al dan niet verschillend is met een andere waarde dan 0. Als je bijvoorbeeld op basis van literatuur of voorgaande ervaringen hebt gezien dat je de correlatie beter kan testen ten opzichten van 0,5 (dus dat de H 0 : ρ = ρ 0 = 0,5). Dit kan gedaan worden met behulp van een Z-test. 1) Om deze test te kunnen doen is het eerst nodig om de z en de z 0 te bepalen. Dit kan aan de hand van de z-transformatie op de correlatie coëfficiënt r. 2) Bereken de teststatistiek λ

17 16 3) Toetsen - Kritieke waarde Z 1 α 2 Z 1 α 2 Om de te zien of de H0 al dan niet verworpen kan worden ga ja ook hier weer gebruik maken van een tabel. Deze keer de tabel van de Z-verdeling (=normaal verdeling). Er zijn verschillende tabellen waar je gebruik va nkan maken, afhankelijk van de situatie. De B kolom is, persoonlijk, het meest eenvoudige toe te passen. - P-waarde Neem de Z-verdeling tabel en zoek de berekende λ in de eerste kolom (x) Ga dan naar het overeenkomstige getal in de kolom B Verdubbel deze waarde om de totale p-waarde te bekomen. Deze zelfde test kan ook gebruikt worden om twee correlaties met elkaar te vergelijken. Is de correlatie van groep 1 vergelijkbaar met die van groep2? o Bijvoorbeeld: het vergelijken van 2 landen met elkaar. (belgen VS nederlanders) 1) Het begin is hier het zelfde als bij de voorgaande. Bereken de z van beide groepen. 2) Bereken de test statistiek 3) Toetsen van de waarde Dit is identiek als de vorige z-test.

18 17 Tot nu toe hebben we enkel een model gebruikt waar dat we met één predictor variabele (x) één afhankelijke variabele (y) proberen te schatten. Het kan echter ook zijn dat je evidentie hebt dat die ene predictor variabene niet alles kan verklaren. Er zijn eventueel nog andere predictor variabele die samen het volledige model kunnen verklaren. Om dit te testen kunnen we meervoudige lineaire regressie gebruiken. y = α + β 1 x 1 + β 2 x β k x k + e Ook hier ga je de methode van least sum of squares gebruiken om de regressielijn te kunnen formuleren en om α en β k te bepalen. Omdat deze berekeningen te ver gaan, zal op het examen een output gegeven worden uit R. in deze output is het wel mogelijk dat enkele zaken weggelaten worden die je aan de hand van de rest wel kan bepalen. Als voorbeeld gaan we onderzoeken wat de relatie is tussen bloeddruk van een pasgeborene en een volwassenen. Hierbij is er echter een probleem gedetecteerd dat er enkele externe factoren de bloeddruk van pasgeborenen kunnen beïnvloeden. - Geboortegewicht - Hoeveel dagen na de geboorte de bloeddruk gemeten werd. Deze twee variabelen zullen we dus betrekken in ons model om een correcter antwoord te kunnen formuleren. y = α + β 1 x 1 + β 2 x 2 + e sum sq Df = mean sq Reg MS = sum sq (birthweight)+ sum sq (age) k Res MS = sum sq residuals n k 1 Reg MS Res MS = F waarde estimate std.error = t waarde Y = 53,45 + 0,126x 1 + 5,89x 2 Partieel regressie coëfficiënt De schattingen van β 1, β 2,, β j zijn partiele regressie coeficienten. Dit wilt zeggen dat ze respectievelijk de gemiddelde toename in y per unit x 1, x 2, x j voorstellen, wanneer alle andere variabele constant gehouden worden (in andere worden na adjusting voor alle andere variabelen).

19 18 De variabelen β 1, β 2, β j zeggen dus iets over de invloed van een bepaalde x variabele op de y variabele. En dat wanneer je corrigeert voor de andere variabelen in het model. Het voordeel van multiple regressie is dat je al die variabelen samen kan onderzoeken. Door ze samen in een model te steken en niet allemaal afzonderlijk te analyseren zoals bij enkelvoudige regressie, ga je rekening houden met alle (andere) factoren die een invloed hebben op y. o De variabelen die je in je model steekt zijn dus allemaal deels verklarend (partieel) voor y. Is hierdoor dus accurater dan de enkelvoudige regressie Aangezien er hier meerdere predictor variabelen zijn, kan je u afvragen welke van deze variabelen nu de grootste impact heeft op het voorspellen van y. Het is in dit geval niet mogelijk om enkel te kijken naar de verschillen van de onderlinge beta s. Deze kunnen namelijk een verschil in sprong maken per unit. Het verschil tussen het meten van de bloeddruk op dag 1 of op dag 2 gaat een groot verschil met zich meebrengen (omdat je hier de variabele gaat vermenigvuldigen met 1 of met 2 respectievelijk) zie model. Als je dit gaat vergelijken met de invloed van een verschil in geboortegewicht van 100 of 101g, dan zie je dat het verschil van de sprong van ene variabele extremer is dan de sprong van de andere variabele. In dit geval is het dus aan te raden om de gegevens eerst te standaardiseren vooraleer er een vergelijking gemaakt wordt. De gestandaardiseerde regressie coëfficiënt: b s = b ( s x s y ) s x : standaard deviatie van x s y : standaard deviatie van y Dit moet je dus berekenen voor alle x variabelen en voor de y variabele. Berekenen van een standaard deviatie: - Bepaal het gemiddelde van x i (of y) - Bereken van elke waarde het verschil met het gemiddelde (deviatie) - Kwadrateer nu alle deviaties - Neem hier het gemiddelde van - Neem nu de vierkantswortel van dit gemiddelde Om dit terug te brengen naar het voorgaand voorbeeld: In deze gestandaardiseerde gegevens is te zien dat het geboortegewicht toegenomen is in belangrijkheid en dat leeftijd serieus gedaald is (in vergelijking met de niet gestandaardiseerde waarden). Het is echter wel nog duidelijk dat de leeftijd nog steeds een grotere impact heeft op de SBP dan geboortegewicht. De interpretatie van deze gestandaardiseerde waarden is wel iets ingewikkelder geworden.

20 19 De gemiddelde toename in SBP is 0,352 standaarddeviatie units van bloeddruk per standaarddeviatie toename in geboortegewicht (waarbij de leeftijd constant gehouden wordt). De gemiddelde toename in SBP is 0,833 standaarddeviatie units van bloeddruk per standaarddeviatie toename in leeftijd (waarbij het geboortegewicht constant gehouden wordt). Hypothese testen in multiple regressie F-test Met deze test kan er gecontroleerd worden of het wel nut heeft om met het gemaakte model aan regressie te doen. Er gaat dus gecontroleerd worden of er in het model minstens 1 β significant verschillend is van 0. Je krijgt hier geen beeld over welke, of hoeveel, variabele(n) een significant resultaat geven. Na de F-tets kan er geconcludeerd worden of het model de moeite is om tijd in te steken en verdere analyses te doen. 1) Bepalen van de hypothese H 0: alle β = 0 VS. H 1: minstens 1 β 0 Is het zelfde als : H 0: R² =0 VS H 1: R² 0 2) Berekenen van de test statistiek (toetsingsgrootheid) ook hier op basis van Res MS en Reg MS. Res MS: residual mean sum of squares (ook soms s²xy genoemd) = Res SS n k 1 Reg MS: regression mean sum of squares Reg SS = k o In de veronderstelling dat H 0 waar is en er dus geen verband is tussen de x en y variabelen, volgen de gegevens de F-verdeling.

21 20 3) Nu ga je willen kijken in welke mate deze gegevens plausibel zijn wanneer die F-verdeling geldt (onder de assumptie dat H 0 juist is). Dit kunnen we op 2 manieren bepalen. - kritieke waarde F k, n-k-1, 1-α k: het aantal onafhankelijke variabelen (predictor variabelen, x) n: het aantal deelnemers in het onderzoek α: significantie niveau (kan je zelf kiezen, meestal wordt een α van 0.05 gekozen) - p-waarde zie F-test (pagina 7) T-test als de F-test evidentie geeft om H0 te verwerpen wilt dat zeggen dat er in het model minstens 1 x-variabele een significante predictive variabele is. Om te achterhalen welke variabelen dit zijn ga je een t-test moeten uitvoeren voor alle x variabelen. 1) Opstellen van een hypothese. H 0: β j = 0 VS. H 1: β j 0 2) Berekenen van de toetsingsgrootheid (de teststatistiek). t = b S xy 2 L XX S² xy = Res MS t = b se (b) se (b) = standaard error van b

22 21 3) Toetsen van de teststatistiek Idem als eerder: - Kritieke waarde t n k 1,1 α 2 t n k 1,1 α 2 n: aantal deelnemers / patiënten k: aantal x variabelen α: significantieniveau - P-waarde - Betrouwbaarheidsinterval 4) opmerkingen - aandacht voor confounders!! Zie later er zijn statistische programma s om de keuze van de variabelen te verifiëren. (controleren of er geen confouding variabelen tussen zitten) dit door middel van forward of backwards selection - multicollinearity wanneer twee variabelen sterk aan elkaar gerelateerd zijn opgenomen worden in het model. Wanneer er dan gecontroleerd wordt voor de andere variabelen is te zien dat geen van beide een significant resultaat geeft. Voorbeeld: als je per ongeluk een variabele gender en sex opneemt in het model. Dat is twee keer het zelfde dus als je hier voor gaan controleren ga je nooit een significant resultaat bekomen (al zou dit wel kunnen zijn). Dit is uiteraard een heel extreem voorbeeld. 5) Assumpties - De zelfde assumpties dienen gecontroleerd te worden als bij enkelvoudige lineaire regressie. - Controleer aan de hand van (partial) residual plots Lineair verband Gelijke varianties en normaal verdeeld Foutentermen zijn onafhankelijk van elkaar Y variabele moet normaal verdeeld zijn, de x variabele niet Plotten van je gegevens kan een beeld geven van de verdeling van je observaties. Zo kun je eventuele outliers detecteren (en mogelijk weglaten). Eerst het volledige model plotten (scatterplot) Daarna kan je de partiele coëfficiënten nog eens plotten. Outliers ga je zien op alle plots die je maakt.

23 22 Na het weglaten van de outlier kan je nog eens een plot maken om te zien of de resultaten nu ook effectief beter verdeeld zijn. Indien er een outlier gedetecteerd wordt en deze wordt verwijderd ga je opnieuw de berekeningen maken van voorheen maar nu met de aangepaste data set. Het verwijderen van outliers moet doordacht en met duidelijke reden gebeuren. Het random karakter van de data set gaat hierdoor wat minder overtuigend zijn. Opmerkingen over multiple regressie: Een 2-sample t-test met gelijke varianties (waar je dus twee groep-gemiddelden met elkaar vergelijkt van normaal verdeelde data) is equivalent aan een lineaire regressie model (y = a+bx + e) waar y de uitkomst variabele is en x gelijk gesteld wordt aan 1 of 0 (1: deelnemer zit in de groep; 0: deelnemer zit niet in de groep) en waar e normaal verdeeld is met variantie σ 2 en gemiddelde 0. Het is dus mogelijk om aan de hand van een lineair regressie model een t-test te doen. Hiervoor moet er wel gebruik gemaakt worden van dummy variabelen die het mogelijk maken om groepen te onderscheiden (0 of 1). De R² bevat ook nog een probleem. Het is namelijk zo dat, wanneer er meer predictor variabelen toegevoegd worden aan een model voor multiple regressie, de R² altijd zal toenemen. Dit zou betekenen dat, als je er gewoon voor zorgt dat er voldoende predictor variabelen in het model zitten je altijd een goed model bekomt. Uiteraard is dit niet correct en moet hiervoor een correctie ingevoerd worden. Daarom is het mogelijk om de adjusted R² (R 2 adj ) te bepalen. Rank correlation 2 R adj 2 R adj n 1 Res SS = 1 ( ) n (k + 1) Reg SS n 1 = 1 ( ) (1 R²) n (k + 1) Om de correlatie (relatie) te bepalen tussen twee variabelen die beide normaal verdeeld zijn kan er gebruik gemaakt worden van de Pearson correlatie coëfficiënt. Echter wanneer de gegevens niet normaal verdeeld zijn is dit niet mogelijk en moet er gezocht worden naar een alternatief. Er bestaan non-parametrische testen waarbij de gegevens niet normaal verdeeld moeten zijn. De non-parametrische test voor een correlatie te bepalen is Spearman rank correlatie coëfficiënt (er zijn meerdere non-parametrische testen om dit te bepalen). Deze test is gelijkaardig aan de Pearson correlatie test echter gaat er hier gebruik gemaakt worden van de ranks in plaats van de directe gegevens.

24 23 t- test voor spearman rank correlatie 1) Berekenen van test statistiek t s = r s n 2 1 r s 2 2) Toetsen van test statistiek aan: - Kritieke waarde - P-waarde 2-zijdie test!! 3) Opmerking Deze test is enkel mogelijk vanaf een steekproef grootte van 10 Voorbeeld: (slide 115) APGAR score 1M APGAR score geragschikt 1M rank nummer 1M rank nummers gecorrigeerd 1M , , , , , , , , , , , , , ,5

25 24 Alle warden zijn vervangen door het corresponderende rank nummer. Indien er twee identieke observaties zijn (in dit geval 2 baby s met een zelfde APGAR score) gaat het gemiddelde genomen worden van alle rank nummers gekoppeld aan die waarden. Hoofdstuk 12: multisample inference Multisample: wanneer je meer dan 1 dataset hebt Inference: gevolgstrekking (wat kan je uit iets afleiden; de besluiten die je uit iets kan trekken) In het vorige hoofdstuk werd enkel gewerkt met 1 data set. Wat als je nu meerdere steekproeven genomen hebt (meerdere groepen)? o In dit geval kan er gewerkt worden met ANOVA (analysis of variance) Het ANOVA model kan bekeken worden als een regressie model. een t-test is namelijk de meest eenvoudige vorm van ANOVA en zoals eerder besproken kan je een t-test doen aan de hand van een regressiemodel. Voorbeeld van ANOVA:

26 25 In dit voorbeeld wil je dus onderzoeken wat het effect is van verschillende rookgewoontes op de longinhoud (FEF). Je zit dus met verschillende groepen die je onderling wilt vergelijken met een continue variabele (FEF). One-way ANOVA Er wordt hier gesproken van een one-way ANOVA omdat er maar door 1 variabele een onderscheid gemaakt wordt (het rookgedrag). Als je bijvoorbeeld nog gaat willen controleren of er naast het rookgedrag ook nog een verschil gaat zijn in FEF bij het rookgedrag en het geslacht (dus dat bijvoorbeeld in de groep van zware rokers nog een verschil te zien in tussen mannen en vrouwen), dan heb je een two-way ANOVA. Dat gaat zo verder per toevoeging van categorische variabelen. In een one-way ANOVA ga je de gemiddelden van elke groep (welke normaal verdeeld zijn met een gelijke variantie) kunnen vergeleken worden. Er gaat dus gekeken worden of de variabiliteit in de data voornamelijk komt van variabiliteit in de groepen of door variabiliteit tussen de groepen. One-way ANOVA fixed effect model Het model: y ij = µ + α i + e ij y ij : de j e observatie in de i e groep. µ : constante die voor elke observatie geld (gemiddelde over alle groepen heen) α i : stelt het deel voor dat eigen is aan de ie groep (kan positief of negatief zijn). Het is dus een constante eigen aan de groep. (het gemiddelde verschil met µ). e ij : foutenterm van specifieke observatie (kan positief of negatief zijn) De foutenterm e ij moet normaal verdeeld zijn met een gemiddelde 0 en een variantie van σ 2. Is een basis assumptie. Een observatie van de i e groep is normaal verdeeld met gemiddelde µ + α i en variantie σ 2. Ideaal gezien zouden we voor elke groep een gemiddelde α i moeten kunnen bepalen en een overall constante µ. Dit is echter niet mogelijk aangezien we maar k geobserveerde gemiddelde waarden hebben voor de k groepen welke gebruikt worden om k+1 paramater te schatten. Hierdoor zijn we verplicht om de parameters te beperken zodat we enkel k parameters moeten schatten. o De methode die wij gebruiken is dat we ervoor zorgen dat de som van de α i s gelijk is aan 0

27 26 Uitleg van de prof: aanvankelijk is µ een (gewone) constante (nog niet "the underlying mean of all groups taken together") en αi een constante specifiek voor de ide groep. En dan heb je k+1 constanten te schatten (k van de alfa's en nog een voor µ), en dat gaat niet met de info van de k groepen. Maar als men de µ wel gelijkstelt aan de "the underlying mean of all groups taken together" dan stelt αi het verschil voor tussen het gemiddelde van de ide groep en µ. En dan heb je dat de som van de αi's 0 is zodat je niet alle alfa's moet kennen want als je ze allemaal kent behalve één dan kan je de laatste ook kennen want hun som is nul. Fixed-effect model: Het fixed-model verwijst naar wat je wilt onderzoeken en hoe dit opgenomen is in het design van de studie. In een fixed model gaat het design van de studie er voorzorgen dat je specifieke groepen wilt vergelijken. Voorbeeld: Als we het voorbeeld er bij halen waar we geïnteresseerd zijn in de invloed van rookgedrag op de longinhoud (FEF). Stel dat we bij aanvang van de studie vastgelegd hebben dat we geïnteresseerd zijn in het onderzoeken van het verschil in FEF tussen passief rokers en niet rokers. Het studie design zal zo opgesteld zijn dat we uiteindelijk die twee groepen met elkaar kunnen vergelijken. De groepen zijn dus vastgelegd (fixed) bij aanvang van het onderzoek. Het tegenovergestelde is het random effect model. Hier ben je niet zo zeer geïnteresseerd in het vergelijken van twee bepaalde groepen maar ben je eerder op zoek naar een algemene vraag. Voorbeeld: Je wilt de longinhoud vergelijken wereldwijd (je bent dus geïnteresseerd of nationaliteit een rol speelt op je FEF). Je doet een onderzoek in Leuven (multiculturele stad) en noteert gewoon van elke participant de nationaliteit. Met deze gegevens doe je een ANOVA. Je wilt algemeen kunnen besluiten dat nationaliteit een invloed heeft op FEF. Je hebt hier dus niet specifiek gezocht naar bepaalde nationaliteiten om te vergelijken maar je hebt gewoon een random steekproef genomen en gezien dat er verschillende nationaliteiten zijn. random effect

28 27 Hypothese testing in one-way ANOVA fixed model We willen dus twee groepen met elkaar vergelijken en zien of ze significant verschillend zijn van elkaar. Meer bepaald willen we onderzoeken of de variabiliteit tussen twee groepen significant is en we willen daarbij ook uitsluiten dat het geobserveerde verschil niet komt door een grote variabiliteit in de groepen. We kunnen dit terug brengen naar de volgende formule: y ij : de j e observatie in de i e groep. y : algemeen gemiddelde over alle groepen heen y i : gemiddelde van 1 bepaalde groep. (y ij y i) : within group variabiliteit (y i y ) : between group variabiliteit Ideaal gezien zouden we dus een data set willen hebben waarbij de within group variabiliteit klein is en waar de between variabiliteit groot is. Ideale omstandigheden: kleine within variatie (dus alle observaties liggen dicht bij elkaar) en grote between variatie (de verschillen tussen de groepen zijn groot). Als je dit model hebt zal de kans groot zijn dat de H 0 verworpen zal worden. Niet ideaal!: grote within variabiliteit (veel variantie tussen de observaties in een zelfde groep) kleine between variabiliteit (de verschillen tussen de groepen is niet uitgesproken, dit is ook te zien doordat de groepen elkaar overlappen is een indicatie dat de bewteen variabiliteit niet goed is). Als je dit model hebt zal de kans groot zijn dat H 0 aanvaard zal worden.

29 28

30 29 F-test Het doel hier is het zelfde als bij lineaire regressie. Proberen te achterhalen of het wel nut heeft om verder te gaan met dit model. Meer specifiek ga de alfa s analyseren en zien of er überhaupt ergens een alfa significant verschillend is tussen twee groepen. In het voorbeeld ga je dus willen kijken of er ook maar 2 groepen met elkaar significant verschillen. Je gaat niet specifiek kijken welke groepen gewoon in het algemeen. Of de longinhoud van één van de groepen (met verschillend rookgedrag) significant verschillend is met een andere groep (met ander rookgedrag). Net zoals bij lineaire regressie ga je dit willen bepalen aan de hand van Res MS en Reg MS. Deze waarden kunnen we afleiden uit eerder vermelde formule. Ook in deze formule gaan we alles kwadrateren om ervoor te zorgen dat we niet altijd 0 gaan uitkomen en we de groepen ook kunnen vergelijken. Om deze waarden te berekenen kunnen volgende formules gebruikt worden.: Between SS = k i=1 n i y i 2 y.. 2 n = [(n 1 y 2 2 ) + (n 2 y 2 2 ) + + (n i y i 2 )] y.. 2 between MS = between ss k 1 n

31 30 k Within SS = (n i i=1 1) s i 2 [(n 1 1) s 1 2 ] + [(n 2 1) s 2 2 ] + + [(n i 1) s i 2 ] within MS = within ss n k Nu de within en between MS bepaald zijn kunnen deze gebruikt worden om de F-test uit te voeren. 1) Bepalen van de hypotheses H 0: α i = 0 voor alle groepen VS. H 1: minstens 1 α i 0 Als H0 waar is zullen de gegevens de F-verdeling volgen met k-1,n-k-1 vrijheidsgraden. 2) Berekenen van de teststatistiek f = Between MS Within MS 3) Toetsen van test statistiek - Kritieke waarde F k 1,n k 1,1 α - P-waarde Als de berekende f-waarde > dan de kritiekewaarde H 0 verwerpen Als de berekende f-waarde dan de kritieke waarde H 0 aanvaarden p = Pr(F k 1,n k 1 ) > f De kans dat de F-verdeling een meer extreme waarde zou geven dan de waarde die we meten. Als die kans klein is geloven we niet dat dit zo zal zijn en verwerpen we H 0. Indien H 0 verworpen kan worden kunnen we aannemen dat ergens in het model twee groepen zijn met een significant gemiddeld verschil tussen de variabelen. Om nu te kunnen achterhalen welke groepen dit juist zijn kunnen we een t-test gaan doen. Deze t-test zal afzonderlijk moeten gedaan worden (dus alle groepen afzonderlijk met elkaar vergelijken).

32 31 t-test Controleren welke groepen significant verschillen van elkaar. Vergelijken van paren van groepen (Vb.: passief rokers VS niet rokers) 1) Hypothese opstellen H 0: α 1 = α 2 VS. H 1: α 1 α 2 2) Berekenen van de gepoolde variantie (s²) Deze heb je nodig om de teststatistiek te kunnen bepalen. s² = within MS van de one way anova 3) Berekenen van de teststatistiek t = y 1 y 2 s 2 ( 1 n n 2 ) Indien H0 correct is zullen de gegevens de t verdeling volgen met n-k vrijheidsgraden. het grote verschil tussen een gewone t-test en deze in ANOVA, is dat je hier ook informatie betrekt van de volledige populatie (je doet een t-test tussen twee groepen, rekening houdend met alle groepen door de s² te integreren). Bij ANOVA maak je gebruik van de variantie over alle groepen. Je doet dit omdat je er toch vanuit gaat dat alle varianties gelijk zijn in alle groepen. Dus als je de variantie kunt gebruiken van alle groepen samen, ga je een meer accurate representatie krijgen van de variantie in de totale populatie. Indien je redenen hebt om te geloven dat de varianties niet in alle groepen gelijk zijn, dan kan je geen ANOVA doen. in dit geval kan je beter een gewone 2 sample t-test doen met enkel de varianties van de twee groepen. Deze test is wel nog mogelijk met ongelijke varianties. 4) Toetsen - Kritieke waarde 2-zijdige test!! Dus denk er aan dat je aan twee kanten moet kijken (maken van een figuur!!) - P-waarde 2-zijdige test!!! De p-waarde die je gaat aflezen in de tabel moet je nog eens verdubbelen. Bij het maken van een tekening moet je de p/2 aanduiden aan beide kanten van de gauscurve. Deze methode wordt ook wel LSD genoemd (least significant difference).

33 32 Lineair contrast In een situatie waar je geïnteresseerd bent om een verzameling van groepen te vergelijken met een andere verzameling van groepen. Bijvoorbeeld als je niet rokers wilt vergelijken met inhalerende rokers (onder inhalerende rokers worden zowel de lichte rokers, medium rokers als zware rokers bedoeld). Berekenen van het lineair contrast (L) k L = c i y i i=1 Waarbij de som van de coëfficiënten (c i ) = 0 Berekenen van de t-test a. Hypothese formuleren H 0 = µ L = 0 VS H 1 = µ L 0 µ L = gemiddelde lineair contrast b. Gepoolde schatting van de variantie s² bepalen (= within MS) 2 Within SS = (n i 1) s i k i=1 [(n 1 1) s 1 2 ] + [(n 2 1) s 2 2 ] + + [(n i 1) s i 2 ] within MS = within ss n k c. Berekenen van lineair contrast

34 33 k L = c i y i i=1 d. Bepalen van de teststatistiek L t = s 2 k c i 2 i=1 n i t = L se(l) e. Toetsen i. Kritieke waarde ii. P-waarde Multiple comparisons In normale omstandigheden ga je bij aanvang van uw onderzoek definiëren wat je wilt onderzoeken en welke groepen je wilt gaan vergelijken. Als je eerst naar de data gaat kijken en dan zien wat er allemaal getest kan worden zijn er veel mogelijkheden. Als je te veel gaat testen, bestaat de kans dat de significante verschillen die je detecteert enkel komen door toeval. Doordat je de testen gaat doen men een significantieniveau (α: 0,05) laat je 5% kans op een fout toe. (5% kans om een extreme groep waar te nemen in je onderzoek). Als je veel zaken gaat vergelijken in 1 onderzoek gaat die α opbouwen (want je laat bij elke meting 5% kans op het maken van een fout toe). o Als je 10 t-testen na elkaar doet op de zelfde data set is de kans groot dat je 1 significant resultaat bekomt dat eigenlijk niet significant is (dus dat je een meting tegenkomt die binnen die foutmarge van α (5%) zit. o Bij 1 t-test valt die fout nog mee, maar als je meerdere testen gaat uitvoeren gaat die fout cumuleren (bv als je 2 testen doet op dezelfde data set ga je in de plaats van een foutmarge van 5%, een foutmarge krijgen van 10% en dat gaat zo verder. Dit concept wordt ook het multiple comparison probleem genoemd. Je kan bepalen hoe groot de kans is op het maken van een fout bij het maken van meerdere testen. Bijvoorbeeld: als je 6 groepen hebt Hier kan je 15 paren mee maken (en dus ook vergelijken) dit is enkel voor gepaarde t-test (niet bij lineair contrast omdat er hier oneindig veel mogelijkheden zijn, hiervoor is een andere methoden bedacht) Elk van deze 15 vergelijkingen draagt een foutmarge van α (5%)

35 34 Probabiliteit (minstens 1 vals positieve t-test) = 1-pr(geen vals positieve t-test) = 1-0,95 15 = 1-0,46 = 0,54 Je hebt met dit voorbeeld dus 54% kans om een vals positieve t-test te bekomen. (een significant resultaat terwijl het niet significant is) Voor deze redenen zijn er dus enkele correctie methoden geïntroduceerd die hier rekening mee kunnen houden. - Bonferroni - Scheffé Bonferroni: Is een heel gekende correctie maar is ook zeer streng. Na deze correctie ben je zo goed als zeker dat je geen vals positieve resultaten bekomt o Het is echter ook wel zo dat de kans op het überhaupt bekomen van een significant resultaat sterk zal dalen. Deze gedaalde kans op het bekomen van een significant resultaat kan vooral een groot effect hebben bij een data set waar de significantie sowieso maar klein gaat zijn. Bonferroni ontneemt u ook een deel om significantie te ontdekken, je moet al een heel significant resultaat bekomen om deze na correctie nog te behouden. Bij de bonferroni correctie ga je de α strenger maken bij een toenemend aantal testen dat je doet. α waar c = het aantal testen dat je doet. c Concreet wilt dit zeggen dat je in het voorbeeld van eerder (met de 6 groepen) niet meer gaat vergelijken op een α (0,05) maar op een α (0,0033). α = 0,05 = 0,0033 c 15 je gaat in dit voorbeeld dus pas concluderen dat een vergelijking significant is als de p-waarde kleiner is dan 0,0033. Scheffé: Indien je lineaire contrasten wilt doen welke niet gepland zijn bij aanvang van het onderzoek maar welke gesuggereerd worden na het bekijken van de data, biedt scheffé een goede correctie voor dit multiple testing probleem. Voor lineaire contrasten is het nodig om een andere correctie methoden te gebruiken dan bonferroni aangezien het hier minder eenvoudig is om het aantal lineaire contrasten vast te leggen, het kunnen er namelijk oneindig veel zijn.

36 35 Methode: 1) Berekenen van test statistiek t = t = L s 2 k c i 2 L se(l) i=1 n i = identiek aan de berekening van een gewoon lineair contrast. 2) Bepalen kritieke waarde c 2 = (k 1) F k 1,n k 1,1 α c 1 = (k 1) F k 1,n k 1,1 α Als de berekende t groter is dan c 2 of kleiner dan c 1 H 0 verwerpen Als de berekende t kleiner of gelijk is aan c 2 of groter of gelijk aan c 1 H 0 aanvaarden De kritieke waarde wordt bepaald op basis van de F-verdeling!!

37 36 One-way ANOVA en multiple regressie Deze twee methoden zijn analoog aan elkaar. Je kan ANOVA formuleren als een regressie. Hiervoor moet je gebruik maken van dummy variabelen. Dummy variabelen: Stel dat je k aantal categorieën hebt in je gegevens. Het doel is om twee groepen met elkaar te vergelijken. Je kan dit doen met behulp van dummy variabelen. Een dummy variabelen kan 2 waarden aannemen: 0 of 1. Waarbij 1 gaat verwijzen dat de groep meegenomen wordt in de vergelijking met een referentie waarde en waar 0 verwijst naar het weglaten van die categorie in de betreffende vergelijking. Om dit wat te verduidelijken kunnen we er best het model bij nemen. y = α + β 1 x 1 + β 2 x β k x k + e In dit model gaan de symbolen wel een licht gewijzigde betekenis krijgen dan bij multiple regressie. α = de gemiddelde waarde y voor de subjecten in categorie 1 (de referentiegroep) β j = het verschil tussen de gemiddelde waarde α en de gemiddelde waarde van categorie j. de gemiddelde waarde voor categorie j = α + β j x j = de dummy variabelen ( 1 of 0). e = foutenterm De referentiegroep kan je zelf toewijzen en is veelal afhankelijk van de onderzoeksvraag die je maakt. Voorbeeld: We nemen het voorbeeld terug van de groepen met verschillend rookgedrag. We gaan de groepen willen vergelijken met de non smokers, deze wordt dus de referentiegroep. Alle andere krijgen dus een dummy variabele toegekend. Op die manier kan je de 5 overgebleven groepen één voor één gaan vergelijken met de referentiegroep. categorie dummy variabele x k-1 x 1 x 2 x 3 x 4 x 5 Non smokers (ref) light smokers medium smokers heavy smokers passive smokers non inhaling smokers Als je bijvoorbeeld de light smokers wilt gaan vergelijken met de referentie groep dan ga je bij de categorie light smokers kijken en gebruik je die x en in het model. Houd wel rekening dat de gerelateerde β1 niet de zelfde is als bij multiple regressie (deze is in dit model namelijk de α geworden).

38 37 Fixed effect two way ANOVA Het enige verschil met one-way ANOVA is dat er hier een tweede categorische variabele bij komt. Voorbeeld: We hebben een data set waar we geïnteresseerd zijn om een verband te zoeken tussen bepaalde voedingspatronen en SBP (systolische bloeddruk). Als we het hier bij laten zouden we een one way ANOVA hebben. Echter zijn we ook geïnteresseerd of geslacht een rol speelt in deze verschillen. (je kan bijvoorbeeld wel een verschil detecteren tussen voedingspatroon en SBP maar wat als dat geobserveerde verschil nu veroorzaakt wordt doordat het geslacht in deze groepen verschillend is en het verschil dat we zien eigenlijk veroorzaakt wordt door het verschil in geslacht. als we geslacht meenemen in het model spreken we van een two-way ANOVA. Interactie effect: De twee categorische variabelen (in het voorbeeld voedingsgewoonte en geslacht) interageren met elkaar wat de uitkomst kan beïnvloeden. Als je bijvoorbeeld ziet dat SBP bij SV mannen lager is dan bij NOR mannen maar wanneer je bij de vrouwen kijkt is er geen verschil tussen de twee voedingspatronen. Het is dus duidelijk dat er een interactie is tussen geslacht en voedingspatroon (het effect van één factor (voedingspatroon) hangt af van de andere factor (geslacht). Er is een interactie omdat het effect van het voedingspatroon op SBP verschillend zal zijn tussen mannen en vrouwen. Dit zal de interpretatie moeilijker maken van de afzonderlijke effecten van elke variabele. Het kan dus zijn dat er geen significante interactie is en dat beide variabelen afzonderlijk kunnen bekeken worden. Dit zal getest moeten worden. Ideaal gezien wil je dus een data set waar geen interactie is tussen de variabelen.

39 38 Het two-way ANOVA model: y ijk = µ + α i + β j + γ ij + e ijk y ijk : De SBP van de k e pesoon in de i e groep en het geslacht j µ : constante α i : constante die het effect weergeeft van voedingspatroon op SBP β j : constante die het effect weergeeft van het geslacht op SBP γ ij : constant die het effect weergeeft van de interactie tussen voedignspatroon en geslacht. e ijk : foutenterm, deze moet normaal verdeeld zijn met een gemiddelde = 0 en variantie = σ². Hyopthese testing: Bij two-way ANOVA kan je 3 zaken onderzoeken - Rij effecten In dit voorbeeld het voedingspatroon wat is het effect van voedingspatroon op SBP? En dit na controleren van het effect van geslacht) H 0: alle α i = 0 H 1: minstens 1 α i 0 - Kolom effecten In dit voorbeeld de geslachten Wat is het effect van geslacht op de SBP? En dit na het controleren voor het effect van het voedingspatroon. H 0: alle β i = 0 H 1: minstens 1 β i 0 - Interactie effecten Kijken of er al dan niet een verschillend effect is van voedingspatroon tussen mannen en vrouwen op de SBP. H0: alle γ ij = 0 H1: minstens 1 γ ij 0

40 39 Voorbeeld 2-way ANOVA fixed model zonder interactie. We beschouwen een voorbeeld waarbij we vanuit gaan dat er voorafgaand al een interactie testing gebeurt is, deze bleek geen interactie aan te geven. Ook hier gaan we terug werken met dummy variabelen zodat we verschillende groepen gaan kunnen vergelijken. Model : y = α + β 1 x 1 + β 2 x 2 + β 3 x 3 + e In dit model is geen γ terug te vinden omdat we eerder al bepaald hebben dat er geen interactie is. β 1, β 2 en β 3 stellen respectievelijk de schatting voor van SV, LV en mannen Dummy variabelen: X 1 : 1 person zin in SV 0 person zit in een andere dieetgroep X 2 : 1 persoon zit in LV 0 persoon zit in een andere dieetgroep X 3 : 1 persoon is man 0 persoon is vrouw α : referentie groep. Deze bestaat uit vrouwen met een normaal dieet. Dit wilt dus zeggen dat je alle groepen gaat vergelijken met vrouwen met een normaal dieet. 1) Zoals altijd gaan we ook hier eerst willen bepalen of het model wel enig nut heeft. Dit doen we aan de hand van een F-test. Met een F-test kan je dus controleren of alle groepen aan elkaar gelijk zijn of niet. H 0 : β 1 = β 2 = β 3 = 0 VS. H 1 : minstens 1 β 0 Berekende F-waarde = 105,85 (voorbeeld) Kritieke waarde = F k 1,n k,1 α o k = het aantal x variabelen. p-waarde indien de berekende F-waarde groter is dan de kritieke waarde of als de p-waarde kleiner is dan α kan je H0 verwerpen. Er is dan dus minstens 1 significant effect.

41 40 2) Als we hebben kunnen besluiten dat er ergens in het model een significant effect is (met de F-test) kunnen we gaan kijken welke van de categorische variabelen nu juist een significant heeft op de SBP. Voedingspatroon? Geslacht? Allebei? Geen van beide? Niet mogelijk aangezien je met de f-test al bepaald hebt dat er wel ergens een significant resultaat moet zijn. Type 1 en Type 3 SS Type 1: geeft een schatting van het effect van een specifieke risicofactor na het controleren voor de effecten van de variabelen die voor de specifieke risicofactor zijn ingegeven. (dit is enkel nuttig wanneer je de variabelen in een bewuste specifieke volgorde hebt toegevoegd). Type 3: geeft een schatting van het effect van een specifieke risicofactor na het controleren voor de effecten van alle andere variabelen in het model (ongeacht wanneer ze toegevoegd zijn) We kunnen met het huidige model twee verschillende vergelijkingen maken (er zijn namelijk 2 verschillende categorische variabelen. Hypothese test om het effect van het voedingspatroon te achterhalen, wanneer je ook rekening houd met het geslacht. Hypothese test om het effect van geslacht te achterhalen wanneer je ook rekening houd met het voedingspatroon. Hebben vrouwen een significant lagere SBP dan mannen ook al zijn er meer vrouwen die vegetarisch zijn (en om die reden dus een lagere SBP hebben) 3) Uit vorige testen hebben we kunnen achterhalen dat de 1 e categorische variabele (voedingspatroon) een significant effect heeft. Echter willen we ook nog weten tussen welke voedingspatronen er een significant verschil is? Dit kunnen we doen met behulp van een t-test. NOR vs SV NOR vs LV SV vs LV Om te weten in welke richting deze significantie gaat, moet je terug gaan kijken naar de gegevens (als het gemiddelde van de ene groep lager of hoger ligt dan de andere). Voor de interpretatie moet je ook voorzichtig zijn. Het model dat je gemaakt hebt kan waarschijnlijk niet alles verklaren (er zullen misschien nog wel variabelen zijn die een invloed gaan hebben die nog niet gekend zijn). 4) Het zelfde kan je nu ook doen voor de andere categorische variabelen die je in het model gestoken hebt (in dit voorbeeld geslacht). Je hebt in punt 2 al gekeken of er een significant verschil is in deze categorie. Aangezien er maar twee variabelen in dit model steken is het wel duidelijk tussen welke variabelen het zal gaan. Daarom zal je bij de t-test hier het zelfde resultaat bekomen als bij de f-test.

42 41 5) Schatting maken Hiervoor moet je het model er terug bij halen. y = α + β 1 x 1 + β 2 x 2 + β 3 x 3 + e β 1 x 1 : SV β 2 x 2 : LV β 3 x 3 : mannen Het regressie model is beperkt zoals eerder aangehaald doordat je model altijd een vergelijking zal maken met een vooropgestelde referentiegroep. Je kan in dit voorbeeld dus geen vergelijking maken tussen SV en LV. o Via een omweg kan je toch het verschil bepalen. o Door de schatting van SV af te trekken van de schatting van LV. (-17) - (-13) = -4 o Dus een SV heeft gemiddeld een SBP die 4mmHg lager is dan de LV, nadat je gecontroleerd hebt voor het geslacht.

43 42 Two-way ANCOVA Wanneer je aan een ANOVA model (verschillende categorische variabelen) enkele continue variabelen toevoegt. Voorbeeld: - ANOVA model: 2 categorische variabelen waarvan je gemiddeldes gaat vergelijken) a. Voedingspatroon i. SV ii. LV iii. NOR b. Geslacht i. Man ii. Vrouw - Hier willen we echter nog enkele extra variabelen aan toevoegen omdat we redenen hebben om te denken dat deze ook een invloed gaan hebben om de SBP. a. Dit zijn 2 continue variabelen i. Leeftijd ii. Gewicht - Vanaf dit punt spreken we van een ANCOVA (analysis of covariance) In het voorbeeld dat we hier gaan gebruiken zijn we weer vanuit gegaan dat er geen interactie is. Model: y = α + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + β 5 x 5 + e β 1 x 1 : SV β 2 x 2 : LV β 3 x 3 : mannen β 4 x 4 : leeftijd β 5 x 5 : gewicht Voor de rest blijft de output het zelfde enkel dat er nu voor meerdere variabelen gecontroleerd wordt en dat er op meerdere variabelen significantie kan getest worden.

44 43 1. De algemene f-test laat zien dat er ergens in het model minstens 1 variabele een significant effect heeft op SBP 2. De type 3 SS geeft aan dat alle risicofactoren een significant effect hebben op SBP, wanneer er gecontroleerd wordt voor alle andere variabelen in het model. 3. We zien hier dat door de toevoeging van gewicht en leeftijd het verschil tussen SV en LV niet meer significant. De rest is wel nog significant. Het significante resultaat bij ANOVA kan dus verklaard worden door de extra toegevoegde variabelen. 4. Ook het geslacht heeft nog een significant effect op de SBP na toevoeging van de extra variabelen. 5. De schattingen zijn kleiner na toevoeging van de variabelen gewicht en leeftijd. Het maken van de schattingen : Om te weten wat je bij de x en moet invullen van de continue variabelen moet je gaan kijken in je gegevens hoe ze daar beschreven staan. Bv.: voor gewicht, of het in gram, kg, moet staan Voor de categorische variabelen geldt het zelfde als bij ANOVA (dummy variabelen).

45 44 Kruskal wallis test Indien er gegevens niet normaal verdeeld zijn of de hebt ordinale data, dan kan je niet via een klassieke ANOVA werken. Dit is een non parametrische variant van de one way ANOVA Als je twee samples hebt gaat dit de wilcoxon rank sum test zijn One-way ANOVA random effect model Fixed effect model: als je uw studie zo gemaakt hebt om specifieke groepen te testen. Random effect model: als je design het niet toelaat om op voorhand te weten welke groepen je gaat bekomen. Dan kan je niet echt spreken van een fixed effect random effect Voorbeeld: Je gaat willen onderzoeken of een labo grote variabilitiet heeft op het testen van een bepaalde parameter. Je gaat op zoek naar 5 random verplegers en neemt van elk 2 bloedstalen. In totaal heb je dus 10 stalen. Deze laat je testen in 1 labo en je gaat controleren of er variatie zit tussen de uitkomsten per individu (tussen de twee stalen van elke verpleger). Er wordt hier van een random effect model gesproken omdat het niet uitmaakt van waar de bloedstalen komen. Als je dezelfde test doet met 5 andere verplegers of 5 andere mensen, het maakt niet uit want je interpretatie van de gegevens zal het zelfde blijven. Interpretatie van deze gegevens: Je gaat hier willen kijken of er een verschil bestaat tussen vrouwen rekening houden met het feit dat er een verschil kan bestaan binnen elke vrouw. (between variation en within variation). Het beste wat je kan krijgen is dat er weinig verschil is binnen elke vrouw (wat in het voorbeeld zou betekenen dat de test een consistent resultaat levert). En dat er een grote between variatie is (in dit voorbeeld dat vrouwen onderling wel verschillen. Als dit is dan kan je concluderen dat het labo een test heeft die goed de verschillen kan bepalen. Is er een groter significant verschil waar te nemen tussen personen dan in de persoon zelf? (between vs. Within) Interpretatie van voorbeeld: Heeft een kleine p-waarde, <0,05 H0 verwerpen Er is dus een significant verschil tussen between en within variabiliteit Het verschil tussen de vrouwen (between) is groter dan het verschil in de vrouw (within). o De meetfout die je meet weegt dus niet op tegen de verschillen tussen de vrouwen.

46 45 In het geval de H0 aanvaard zou worden ga je concluderen dat de test te veel meetfouten met zich meeneemt om een goede vergelijking te maken tussen vrouwen. Je kan deze modellen zeer ingewikkeld maken door combinaties te maken tussen fixed en random modellen. Als je zit met meerdere metingen per persoon, dan kan je de ID van die persoon meenemen als random factor. (je gaat dat aan je programma duidelijk maken dat 1 ID meerdere metingen heeft) Reproduceerbaarheidsstudies - Heel belangrijk - Je wilt namelijk een studie hebben die je opnieuw kan doen en daarbij ook gelijkaardige bevindingen produceert. Om reproduceerbaarheid te kwantificeren kan je CV (coeficient of variation) bepalen. CV: 100 * within MS Een lage CV is goed!! (liefst een CV < 20%) > 30% is niet goed

47 46 Hoofdstuk 13: design and analysis techniques for epidemiologic studies Study design Epidemiologische studies kan je in 3 groepen indelen. - Retrospectief - Prospectief - Cross sectioneel Prospectief: In dit design start je het onderzoek met een groep gezonde vrijwilligers (cohort) en deze groep zal je dan opvolgen over tijd tot een ziekte ontwikkeld. Het ontwikkelen van een ziekte kan dan terug getrokken worden op het blootgesteld zijn aan bepaalde variabelen (exposure variables). Hier kan je de incidentie bepalen. Wordt ook soms een cohort studie genoemd. Positief - Geen probleem met geheugen - Resultaat is meer betrouwbaar / meer precies Negatief - Kost veel - Duurt lang Retrospectief: Hier ga je terug in de tijd kijken. Je gaat veelal opzoek naar een groep mensen met een bepaalde ziekte (cases) en een groep gezonde vrijwilligers (controls). Aan deze mensen ga je dan vragen stellen om te achterhalen aan wat ze allemaal zijn blootgesteld in het verleden. Op deze manier kan je proberen te achterhalen of de cases een bepaalde blootstelling gemeen hebben die de controles niet hebben om zo een mogelijke oorzaak te kunnen formuleren. Wordt ook soms case-control studie genoemd. Het is hier niet mogelijk om causaliteit aan te tonen omwille van, onder andere, het gebrek aan zekerheid van temporaliteit!! Positief - Goedkoop - Snel Negatief - Berust op geheugen (recall bias) - Selection bias De steekproef die je neemt is niet representatief voor de totale populatie. Hier moet dus extra aandacht aan gegeven worden om dit te voorkomen.

48 47 Cross-sectioneel: Bij een cross-sectionele studie ga je een doorsnede nemen van je populatie op een bepaald moment. Dus je gaat bijvoorbeeld vandaag naar de oude markt en vraagt aan iedereen of ze een bepaalde ziekte hebben en aan wat ze momenteel blootgesteld zijn (en geweest zijn verleden). Met deze studie design is het mogelijk om de prevalentie te schatten van een bepaalde ziekte omdat je de prevalentie van een bepaalde ziekte op één bepaald moment gaat vergelijken tussen blootgestelde en niet blootgestelde individuen. Wordt ook som een prevalentie studie genoemd. Niet alle studies gaan perfect in een van deze categorieën kunnen geplaatst worden. Meten van effect voor categorische data Epidemiologische studies zijn veelal simpel opgesteld, makkelijk te interpreteren en uit te leggen. Ze maken meestal gebruik van grote cut off waarden. Voorbeeld: < of > 30 jaar bij eerste bevalling en het voorkomen van borstkanker. Hierdoor is het wel mogelijk om met kansen te werken. En kunnen we met deze kansen een aantal overzichtelijke begrippen berekenen. P 1: kans op het ontwikkelen van ziekte voor blootgestelde individuen. P 2: kan op het ontwikkelen van ziekte bij niet blootgestelde individuen. Berekeningen met kansen: Risk difference (RD): het verschil tussen twee risico s (niet veel gebruikt) p 1 p 2 Risk ratio of relatief risico (RR): verhouding tussen twee kansen (veel gebruikt) p 1 p 2 ODDs ratio (OR): de verhouding van de odds (iets abstracter dan het RR) p 1 p 1 1 p1 q1 p = 2 p 2 1 p2 q2 q 1 : de kans op het niet ontwikkelen van ziekte voor blootgestelde q 2 : de kans op het niet ontwikkelen van ziekte voor niet blootgestelde. OR = de kans op het ontwikkelen van de ziekte als je bent blootgesteld 1 de kans op het ontwikkelen van de ziekte als je bent blootgesteld de kans op het ontwikkelen van de ziekte als je niet bent blootgesteld 1 de kans op het ontwikkelen van de ziekte als je niet blootgesteld bent

49 48 Berekenen van de ODDs : Een OR gaat een getal zijn tussen 0 en. Een OR van 1 = geen effect. Een odds ratio kan je op 2 verschillende manieren interpreteren (opstellen) Disease OR: kans op ziek worden als je bent blootgesteld gedeeld door de kans op ziek worden als je niet bent blootgesteld. Exporure OR: de kans op blootgesteld zijn als je ziek bent gedeeld door de kans op blootgesteld zijn als je niet ziek bent. Exposure en disease OR zijn het zelfde De interpretatie van ODDS zijn moeilijker dan een RR omdat je niet over een rechtstreekse kans. In sommige gevallen is het niet anders mogelijk zoals bij een case control studie. Bij logistische regressie gebruik je ook altijd de ODDs. Voorbeeld :

50 49 P1: de kans op MI bij blootstelling (pil gebruikers). We zien dat er bij de blootgestelde 13 zijn die MI kregen en 4987 die geen MI kregen. 13 p 1 = = 0, P2: de kans op MI bij niet blootgestelde (vrouwen die geen pil nemen). Er zijn 7 vrouwen die MI kregen wanneer ze niet blootgesteld waren en dan 9993 geen MI kregen wanneer ze niet blootgesteld waren. 7 p 2 = = 0, RD = p 1 p 2 = 0,0026 0,0007 = 0,0019 RR = p 1 p 2 = 0,0026 0,0007 = 3,71 OR = a d b c Confouding = = 3,72 De odds op het krijgen van MI bij blootgestelde is 3,72 keer hoger dan het krijgen van MI bij niet blootgestelde. Externe (3 e ) factor/variabele die zowel gerelateerd is aan de blootstelling (E) als aan de outcome (O) van een pathway die je wenst te onderzoeken, zonder deel uit te maken van de causal pathway. Een confounding variabele kan dus een invloed hebben op de outcome (O) zonder deel uit te maken van de pathway die je wenst te onderzoeken. Voorbeeld: Je wilt onderzoeken of er een relatie is tussen alcohol gebruik (E) en het ontwikkelen van longkanker (O). Alcohol gebruik (E) longkanker (O) Als je deze relatie gaat onderzoeken bekom je een significant resultaat (drinken veroorzaakt longkanker). Echter, we hebben gezien dat mensen die regelmatig alcohol consumeren een verhoogde kans hebben om te roken en we weten ook dat roken een verhoogde kans met zich meeneemt op het ontwikkelen van longkanker. Om deze reden gaan we in het voorgaande model eens corrigeren voor roken (roken als confounding variabele integreren. Alcohol gebruik (E) longkanker (O) Roken

51 50 We gaan de data set opsplitsen tussen rokers en niet rokers en bij deze afzonderlijk de relatie drinken longkanker onderzoeken. We zien dat roken en drinken gerelateerd zijn o Bij de rokers zijn 80% ook drinkers. o Bij de niet rokers is 30% ook drinker. Roken is gerelateerd aan longkanker o Bij de rokers ontwikkeld 3% longkanker o Bij de niet rokers is dit 1% Als we de OR s berekenen van beide groepen (relatie drinken longkanker): o Rokers: OS = 1 o Niet rokers OR = 1 Er is dus geen significant verschil meer te zien nadat er gecontroleerd werd voor roken als confouding variabele. Tussen confounding variabelen kunnen we ook nog een onderscheid maken tussen positieve en negatieve confouders. - Positieve confounder: een confounder die zowel voor de E als O positief of negatief gerelateerd is. Na correctie gaat de OR (of RR) lager zijn dan voor de correctie. Voorbeeld: roken is een positieve confounder bij de relatie drinken vs longkanker. Zware drinkers roken meer. Rokers hebben meer longkanker. - Negatieve confounder: een confounder die voor 1 variabele positief gerelateerd is en voor de ander negatief gerelateerd. Na correctie gaat de OR (of RR) hoger zijn dan voor de correctie. Voorbeeld: leeftijd is een negatieve confouder bij de relatie pil gebruik vs MI. Hoe ouder je wordt, hoe minder je de pil gaat nemen. Hoe ouder je wordt, hoe meer kans je hebt op het krijgen van een MI. corrigeren voor een confouding variabele is enkel nodig wanneer het geen deel uitmaakt van de causal pathway. Als het deel uitmaakt van de causal pathway spreken we van een intermediair. Leeftijd en geslacht zijn twee variabelen die veel meegenomen worden als confouding variabelen. (en waar dus voor gecorrigeerd wordt.

52 51 Stratificatie Een studie opsplitsen op basis van een confounder is stratificeren (zoals we hier boven gedaan hebben). Mantel-Haenszel test Is een test die gebruikt kan worden om de OR van twee strata met elkaar te vergelijken. - Deze gaat op zoek naar een common OR en berekend daar een betrouwbaarheidsinterval voor. (als dit betrouwbaarheidsinterval 1 bevat is het niet significant. Is ook een test om de significantie te bepalen van het effect van een dichotome variabelen op een andere dichotome variabele. Multiple logistische regressie Is analoog met multiple lineaire regressie maar waar dat de afhankelijke variabele (y) binair gaat zijn. In tegenstelling tot multiple lineaire regressie waar dit een continue variabele is. Bij multiple logistische regressie gaat de y variabele dus binair zijn (0 of 1) je hebt de ziekte of je hebt de ziekte niet. Stel nu dat je in een situatie komt waarin je wilt gaan kunnen schatten (voorspellen) wat de kans is op het ontwikkelen van de ziekte. Dit zou kunnen gedaan worden met behulp van multiple logistische regressie. Als we nu eens naar het model kijken van multiple lineaire regressie: Om aan de hand van dit model een binaire uitkomst te bepalen is niet mogelijk aangezien je met continue predictor variabelen zit. Er moet hier dus een oplossing voor gevonden worden. Een betere fit zouden we al krijgen als we in de plaats van Y met de probabiliteit gaan werken als afhankelijke variabele. Het model zou er dan als volgt uit zien: Dit zorgt al voor een betere fit maar is nog niet ideaal omdat een kans maar een waarde kan aannemen tussen 0 en 1 en de voorspellende deel (alles rechts van de vergelijking) kan ook negatieve waarden aannemen. dit model geeft dus nog niet de beste oplossing.

53 52 Ook al geeft dit een betere oplossing, het dekt nog niet het volledige probleem. Daarom moet er dus nog een andere oplossing gezocht worden. Deze oplossing kan gevonden worden door de kans p te vervangen door de logit transformatie van de kans (p). Logit = het natuurlijk logaritme van de verhouding van de kans gedeeld door 1- de kans. Logit (p) = ln ( p 1 p ) = α + β 1x β k x k Is het zelfde als p = e α+ β 1x1+ + β k x k 1+e α+ β 1x1+ + β k x k Na logit transformatie van de kans (p) kan de afhankelijke variabele alle waarden aannemen van tot. Dit zal dus een goede fit geven!! Je moet wel rekening houden dat je hier niet meer werkt met de waarde zelf maar met de kansen op om ziek te worden. (de kans dat een persoon ziek zal worden) Interpretatie van de parameters met behulp van OR Met behulp van een statistisch programma kunnen we de verschillende β s bepalen van de predictor variabelen in het model. Je kan door een OR te berekenen, van een bepaalde variabele (β), het effect gaan uitdrukken van die variabele op het al dan niet ziek worden. (als je die β gaat verhogen met 1 unit, hoe fel verhoogt dan de ODDs op ziek worden?) Om de ODDs te bepalen kunnen we volgende formule gebruiken. Daarnaast kan je uiteraard ook een betrouwbaarheidsinterval (CI) berekenen om te zien hoe nauwkeurig de schatting van de OR is en of ze significant is of niet. De grenzen van dit CI kan bepaald worden met onderstaande formules. De termen e B j en se(b j) zullen gegeven zijn op het examen (hier is niet verder ingegaan op de berekeningen).

54 53 Hypothese testing Net zoals bij alle analyses die tot nu toe besproken werden, kunnen we ook nu het opgestelde model gaan testen. Om te zien of de variabelen significant zijn. De OR die we eerder bepaald hebben zegt nog niet direct iets over de significantie, dat kan je hier dan gaan achterhalen. 1) Hypothese formuleren H 0 = β j = 0, alle andere β s 0 H 1 = alle β j 0 2) Bereken teststatistiek Z = 3) Toetsen β j se(β j) - Kritieke waarde - P-waarde Tweezijdige test!! 4) Opmerkingen Deze test mag enkel gebruikt worden als er minstens 20 successen zijn en 20 falingen in de data set. 20 zieken en 20 niet zieken in de steekproef. Voorspellingen maken met behulp van het multiple logistische regressie model. Je kan dit model ook gaan gebruiken om een voorspelling te maken. Deze voorspelling zal zijn of je de ziekte gaat krijgen of niet. Voorspellingen kunnen gemaakt worden met de volgende formule.

55 54 In het voorbeeld zal : x1 = etniciteit (1 = zwart ; 0 = niet zwart) X2 = # sekspartners (= getal) Je bekomt hier dus een kans. Deze kans kan je dan gaan toetsen aan een vooropgestelde cut off waarde (meestal 0,5). p > 0,5 voorspelt krijgen van de ziekte. p 0,5 voorspelt niet krijgen van de ziekte. De cut off waarde kan je zelf optimaliseren. Dit hangt af van wat je juist wilt aantonen en wordt veelal gebaseerd op sensitiviteit en specificiteit. Sensitiviteit en specificiteit: Wordt bepaald aan de hand van vals positieven en vals negatieven. True positive: wanneer het model voorspelt dat je ziek bent en je ook effectief ziek bent. True negative: als het model voorspelt dat je niet ziek ben en je bent ook niet ziek. False positive: als het model voorspelt dat je ziek ben maar je bent niet ziek. False negative: als het model voorspelt dat je niet ziek bent maar je bent wel ziek. Sensitiviteit (%): # true positives totaal aantal zieken 100 # true negatives Specificiteit (%): 100 totaal aantal niet zieken Je wilt dus een model hebben dat zowel een grote sensitiviteit als specificiteit heeft. Er kan echter kan je met deze verhouding spelen om de cut off waarde af te stellen op het doel dat je voor ogen hebt met het model. Wanneer je wilt dat je liever meer vals positieve hebt dan vals negatieve dan kan je een cut off stellen waar de sensitiviteit wat lager gaat zijn. o Dit kan je bijvoorbeeld gaan stellen wanneer je een model hebt waarmee je een ziekte wilt voorspellen waarvan de behandeling vrij onschuldig is (ook al ben je niet ziek, het kan niet kwaad om de behandeling te krijgen). Dit kan ook in de tegengestelde richting werken. Stel dat je een behandeling hebt die heel duur is of heel schadelijk kan zijn voor de persoon die het krijgt (denk maar een chemo bij kanker). Dan wil je een model hebben dat heel streng gaat zijn en liever een vals negatieve gaat detecteren dan een vals positieve. Hier ga je voor een model kiezen met een hogere specificiteit. Enkel de begrippen sensitiviteit en specificiteit zijn redelijk abstract en daarom is er ook een visualisatie ontwikkeld, de ROC curve (receiver operating characteristic). Deze curve plot de sensitiviteit op de 1- specificiteit. De rechte in deze curve geeft een beeld van alle cut off waarden bij een verschillende sensitiviteit en specificiteit. De ROC curve kan je ook gebruiken om twee verschillende modellen met elkaar te vergelijken. De curve met de grootste AUC (area under the curve) zal geassocieerd worden met de betere van de twee.

56 55 Longitudinale data analyse Wat als je voor een onderzoek een steekproef volgt over tijd? Je gaat dus meerdere metingen nemen per deelnemer ever een bepaalde periode. Die herhaaldelijke metingen van 1 deelnemer zijn gecorreleerd aan elkaar (je kunt ze niet onafhankelijk van elkaar beschouwen) Daarnaast zal de variantie ook kunnen verschillen over tijd. Door deze twee kenmerken zal het niet mogelijk zijn om ANOVA of lineaire regressie te doen op deze gegevens. Hiervoor zouden gegevens onafhankelijk moeten zijn (niet gecorreleerd) en moet je gelijke varianties hebben. De oplossing ligt bij de longitudinale data analyse (repeated measurements). Het mogelijke patroon van correlatie en variantie kan voor een gecompliceerde covariantie/correlatie structuur zorgen. deze structuur moet je mee in rekening brengen om een goede statistische beoordeling te kunnen maken. We gaan voor de analyse dus een bepaalde structuur gaan veronderstellen (een bepaalde covariantie/correlatie structuur). De metingen per persoon zijn gerelateerd aan elkaar Deze correlatie kan op verschillende manieren gebeuren. o Het kan zijn dat de metingen heel eenvoudig gecorreleerd zijn met elkaar Dus dat er maar weinig verschil zit tussen de tijdstippen. (de 1 e meting van de persoon is niet veel verschillend van de volgende). o Het kan ook zijn dat een correlatie toeneemt (of afneemt) in de tijd Er zijn dus veel benaderingen die de correlatie kunnen beschrijven.

57 56 Het zal allemaal complexer worden aangezien je in uw model gaat moeten zeggen wat voor correlatie ze hebben (wat de correlatie structuur is). Je gaat dus proberen het model te fitten en ziek of het een mooi model is en voldoet aan bepaalde verwachtingen die je hebt en of het de resultaten kan verklaren (en de toekomstige resultaten kan verklaren). Als dat niet is, dan ga je iets moeten veranderen aan de correlatie structuur die je toegewezen hebt. De correlatie structuur leg je als onderzoeker vast bij aanvang van het onderzoek (op basis van literatuur of voorgaande ervaringen). Je kan in de loop van de tijd inzien dat het toch niet de meest ideale structuur is en deze dan aanpassen. (het model verfijnen) Kan heel complex worden.

58 57 Hoofdstuk 14: hypothese testing: person- time data Inleiding 2x2 tabel De meest gebruikte test om dit te analyseren is de chi² test. Deze gaat testen of de OR verschillend is van 1. Om te beginnen ga je een 2x2 tabel genereren van de waardes die je geobserveerd hebt in de steekproef. De chi² test gaat ook een tabel maken met waarden die hij verwacht te zien indien er geen verband is tussen de blootgestelde en de niet blootgestelde. (wanneer H0 waar zal zijn en OR = 0). Nu gaat de test kijken wat het verschil is tussen de waarden die je verwacht te zien en de geobserveerde waarden van de steekproef. o Van de verschillen zal een correctie factor afgetrokken worden (0,5 correctie van yates). o Die waarden wordt gekwadrateerd en gedeeld door de verwachte waarde. o Dat doe je voor alle cellen. o Dan ga je alle berekende waarden optellen. Dan heb je de test statistiek waarmee je gaat toetsen met behulp van de chi² tabel. Berekenen van de verwachte waarden (formule niet in het formularium) OM DE CHI² TE MOGEN DOEN MOETEN ALLE VERWACHTE WAARDEN > 5. Anders kan de fisher exact test gedaan worden.

59 58 Methode: 1) Bepalen van de OR 2) Significantie testen of OR = 1 of niet. - Bij het berekenen van de test statistiek moet e met absolute waardes werken (. ). - Chi² is een enkelzijdige test!

60 59 Measure of effect for person-time data In een prospectieve studie, ga je mensen volgen over tijd. Je begint met het identificeren van de blootgestelde en de niet blootgestelde op baseline en gaat die indelen in twee groepen. Na verloop van tijd ga je kijken wie er allemaal de ziekte ontwikkeld heeft en je gaat de proporties van de blootgestelde en niet blootgestelde groep met elkaar vergelijken. Je gaat dus kijken of er al dan niet meer mensen de ziekte ontwikkeld hebben in de blootgestelde groep of niet. Die proporties, die je gaat vergelijken, worden ook wel cummulatieve incidentie rates genoemd. We gaan er van uit dat alle deelnemers voor de zelfde periode opgevolgd worden. Dit is echter niet altijd het geval. Mensen zijn niet altijd even compliant of er zijn andere redenen waardoor ze niet de volledige termijn kunnen uitzitten. Je kan hiervoor gaan corrigeren door de person-time mee te nemen. (de tijd dat je de persoon gevolgd hebt). Meestal person-years. Person-years: som van de tijd dat alle deelnemers hebben deelgenomen aan de studie en dat uitgedrukt in jaren. Om de variatie van follow-up tijd toe te staan gaan we de incidence density (ID) definiëren per groep. Dit is het aantal cases in die groep gedeeld door de person-years. Voorbeeld:

61 60 Nu je de incidentie densiteit (= incidentie rate) berekend is kunnen we ook gaan bepalen of deze significant verschillend zijn van elkaar. Methode: 1) Berekende ID (incidentie rate) Zie vorige pagina 2) Bereken de verwachte events in groep 1 en groep 2. 3) Bereken de test statistiek Er zijn hier twee mogelijke berekeningen voor de teststatistiek te berekenen. Als α 1 > E 1 Als α 1 E 1 DEZE TEST KAN ENKEL UITGEVOERD WORDEN WANNEER V1 5

62 61 4) Toetsen a. Kritieke waarde Z 1-α/2 (= 1,96) Als Z < Z 1-α/2 en > Z α/2 aanvaarden van H 0 Als Z > Z 1-α/2 of < Z α/2 verwerpen van H 0 b. P-waarde Tweezijdige test!! Dus p-waarde maal 2 Survival analysis In een situatie waar je een vergelijking wilt maken van het aantal ziekte (events) tussen twee groepen waar de incidentie van ziekte varieert over tijd. 1) Bereken de geschatte incinentie rates van ziektes van elke periode. (in het voorbeeld elke periode van 90 dagen). En dit voor alle studie populaties. Incidentie rates die over tijd substantieel veranderen worden ook wel hazard rates genoemd. De berekening: 2) De hazard rates kunnen geplot worden voor de twee groepen. De kans op het niet ontwikkelen van een ziekte wordt ook survival probability genoemd. Deze kun je ook in een functie zetten survival functie. De survival functie geeft de kans op overleven tot op een bepaalde tijd. Hier kunnen we een curve van maken en met behulp van de log rank test kan je de significantie bepalen van het verschil tussen de twee curves die je gemaakt hebt (van elke groep). Zie volgende pagina waar de berekeningen staan om zo een curve te kunnen maken. Hazard functie is de kans op het krijgen van een ziekte op een bepaalde tijd.

11. Multipele Regressie en Correlatie

11. Multipele Regressie en Correlatie 11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

mlw stroom 2.1: Statistisch modelleren

mlw stroom 2.1: Statistisch modelleren mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht

Nadere informatie

College 2 Enkelvoudige Lineaire Regressie

College 2 Enkelvoudige Lineaire Regressie College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen

Nadere informatie

Classification - Prediction

Classification - Prediction Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training

Nadere informatie

G0N11C Statistiek & data-analyse Project tweede zittijd

G0N11C Statistiek & data-analyse Project tweede zittijd G0N11C Statistiek & data-analyse Project tweede zittijd 2014-2015 Naam : Raimondi Michael Studierichting : Biologie Gebruik deze Word-template om een antwoord te geven op onderstaande onderzoeksvragen.

Nadere informatie

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3 Statistiek II Sessie 3 Verzamelde vragen en feedback Deel 3 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 3 1 Statismex en bloeddruk 1. Afhankelijke variabele: Bloeddruk (van ratio-niveau) Onafhankelijke

Nadere informatie

Statistiek II. Sessie 5. Feedback Deel 5

Statistiek II. Sessie 5. Feedback Deel 5 Statistiek II Sessie 5 Feedback Deel 5 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 5 1 Statismex, gewicht en slaperigheid2 1. Lineair model: slaperigheid2 = β 0 + β 1 dosis + β 2 bd + ε H 0 :

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

Statistiek II. Sessie 4. Feedback Deel 4

Statistiek II. Sessie 4. Feedback Deel 4 Statistiek II Sessie 4 Feedback Deel 4 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 4 We hebben besloten de bekomen grafieken in R niet in het document in te voegen, dit omdat het document met

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

College 6 Eenweg Variantie-Analyse

College 6 Eenweg Variantie-Analyse College 6 Eenweg Variantie-Analyse - Leary: Hoofdstuk 11, 1 (t/m p. 55) - MM&C: Hoofdstuk 1 (t/m p. 617), p. 63 t/m p. 66 - Aanvullende tekst 6, 7 en 8 Jolien Pas ECO 01-013 Het Experiment: een voorbeeld

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 8 september 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008 Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer

Nadere informatie

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R 14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, 9.00-12.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 7 juni 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 Bjorn Winkens Methodologie en Statistiek Universiteit Maastricht 21 maart

Nadere informatie

Les 5: ANOVA. Elke Debrie 1 Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 28 november 2018

Les 5: ANOVA. Elke Debrie 1 Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 28 november 2018 Les 5: ANOVA Elke Debrie 1 Statistiek 2 e Bachelor in de Biochemie en Biotechnologie 28 november 2018 1 Gebaseerd op de slides van Koen Van den Berge Testen die we tot nu toe gezien hebben: Toetsen van

Nadere informatie

8. Analyseren van samenhang tussen categorische variabelen

8. Analyseren van samenhang tussen categorische variabelen 8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

11. Meerdere gemiddelden vergelijken, ANOVA

11. Meerdere gemiddelden vergelijken, ANOVA 11. Meerdere gemiddelden vergelijken, ANOVA Analyse van variantie (ANOVA) wordt gebruikt wanneer er situaties zijn waarbij er meer dan twee condities vergeleken worden. In dit hoofdstuk wordt de onafhankelijke

Nadere informatie

Les 5: Analysis of variance

Les 5: Analysis of variance Les 5: Analysis of variance 2de bachelor in de chemie en biologie 14/11/2018 Jeroen Gilis Gebaseerd op slides Caroline De Tender Testen die we tot nu toe gezien hebben: Toetsen van één gemiddelde ten opzichte

Nadere informatie

Toegepaste data-analyse: oefensessie 2

Toegepaste data-analyse: oefensessie 2 Toegepaste data-analyse: oefensessie 2 Depressie 1. Beschrijf de clustering van de dataset en geef aan op welk niveau de verschillende variabelen behoren Je moet weten hoe de data geclusterd zijn om uit

Nadere informatie

Hoofdstuk 6 Twee populaties: parametrische toetsen

Hoofdstuk 6 Twee populaties: parametrische toetsen Hoofdstuk 6 Twee populaties: parametrische toetsen 6.1 De t-toets voor het verschil tussen twee gemiddelden: In veel onderzoekssituaties zijn we vooral in de verschillen tussen twee populaties geïnteresseerd.

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

Feedback examen Statistiek II Juni 2011

Feedback examen Statistiek II Juni 2011 Feedback examen Statistiek II Juni 2011 Bij elke vraag is alternatief A correct. 1 De variabele X is Student verdeeld in een bepaalde populatie, met verwachting µ X en variantie σ 2 X. Je trekt steekproeven

Nadere informatie

Oplossingen hoofdstuk XI

Oplossingen hoofdstuk XI Oplossingen hoofdstuk XI. Hierbij vind je de resultaten van het onderzoek naar de relatie tussen een leestest en een schoolrapport voor lezen. Deze gegevens hebben betrekking op een regressieanalyse bij

Nadere informatie

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit College 7 Regressie-analyse en Variantie verklaren Inleiding M&T 2012 2013 Hemmo Smit Neem mee naar tentamen Geslepen potlood + gum Collegekaart (alternatief: rijbewijs, ID-kaart, paspoort) (Grafische)

Nadere informatie

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek cursus 23 mei 2012 werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen onderzoek streeft naar inzicht in relatie tussen variabelen bv. tussen onafhankelijke

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd

Nadere informatie

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef Statistiek II Onderdeel toetsen binnen de cursus: 1. Eenvoudig toetsen Toetsen en schatten ivm één statistiek of steekproef Via de z-verdeling, als µ onderzocht wordt en gekend is: Via de t-verdeling,

Nadere informatie

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Formuleblad Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Plaats van de median berekenen: Oneven aantal observaties: (n+1)/2 Even aantal observaties: gemiddelde van de

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 14 Donderdag 28 Oktober 1 / 37 2 Statistiek Indeling: Hypothese toetsen Schatten 2 / 37 Vragen 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt A. Effect & het onderscheidingsvermogen Effectgrootte (ES) De effectgrootte (effect size) vertelt ons iets over hoe relevant de relatie tussen twee variabelen is in de praktijk. Er zijn twee soorten effectgrootten:

Nadere informatie

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA Masterclass: advanced statistics Bianca de Greef Sander van Kuijk Afdeling KEMTA Inhoud Masterclass Deel 1 (theorie): Achtergrond regressie Deel 2 (voorbeeld): Keuzes Output Model Model Dependent variable

Nadere informatie

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse 10.1 Eenwegs-variantieanalyse: Als we gegevens hebben verzameld van verschillende groepen en we willen nagaan of de populatiegemiddelden van elkaar verscihllen,

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en

Nadere informatie

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 13. Factor ANOVA De theorie achter factor ANOVA (tussengroep) Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 1. Onafhankelijke

Nadere informatie

Methoden van Onderzoek en Statistiek, Deeltentamen 2, 29 maart 2012 Versie 2

Methoden van Onderzoek en Statistiek, Deeltentamen 2, 29 maart 2012 Versie 2 Vraag 1. Voor welk van de onderstaande variabelen zal een placebo effect waarschijnlijk het grootst zijn? 1. Haarlengte. 2. Lichaamstemperatuur. 3. Mate van tevredenheid met de behandeling. 4. Hemoglobinegehalte

Nadere informatie

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Oefentoets 1 1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Conditie = experimenteel Conditie = controle Sekse = Vrouw 23 33 Sekse = Man 20 36 Van

Nadere informatie

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28 Inhoud Woord vooraf 13 Hoofdstuk 1. Inductieve statistiek in onderzoek 17 1.1 Wat is de bedoeling van statistiek? 18 1.2 De empirische cyclus 19 1.3 Het probleem van de inductieve statistiek 20 1.4 Statistische

Nadere informatie

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen M, M & C 7.3 Optional Topics in Comparing Distributions: F-toets 6.4 Power & Inference as a Decision 7.1 The power of the t-test 7.3 The power of the sample t- Toetsende Statistiek Week 5. De F-toets &

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) Avondopleiding. donderdag 6-6-3, 9.-. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent.

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent. Hoofdstuk 12 : Regressie en correlatie Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Regressie en correlatie p 1/26 Regressielijn Vraag : vind het

Nadere informatie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Hoofdstuk 8 Het toetsen van nonparametrische variabelen Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn

Nadere informatie

College 3 Meervoudige Lineaire Regressie

College 3 Meervoudige Lineaire Regressie College 3 Meervoudige Lineaire Regressie - Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2) Jolien Pas ECO 2012-2013 'Computerprogramma voorspelt Top 40-hits Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

Les 2: Toetsen van één gemiddelde

Les 2: Toetsen van één gemiddelde Les 2: Toetsen van één gemiddelde Koen Van den Berge Statistiek 2 e Bachelor in de Biochemie & Biotechnologie 22 oktober 2018 Het statistisch testen van één gemiddelde is een veel voorkomende toepassing

Nadere informatie

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Meervoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Voorbeeldtentamen Statistiek voor Psychologie

Voorbeeldtentamen Statistiek voor Psychologie Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 11 Dinsdag 25 Oktober 1 / 27 2 Statistiek Vandaag: Hypothese toetsen Schatten 2 / 27 Schatten 3 / 27 Vragen: liegen 61 Amerikanen werd gevraagd hoeveel % van de tijd

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 5 februari - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 9 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

Les 5: ANOVA. Koen Van den Berge Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 19 november 2018

Les 5: ANOVA. Koen Van den Berge Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 19 november 2018 Les 5: ANOVA Koen Van den Berge Statistiek 2 e Bachelor in de Biochemie en Biotechnologie 19 november 2018 Toetsen van 2 gemiddeldes Het toetsen van twee gemiddeldes met ongekende variantie H 0 : µ X =

Nadere informatie

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003 ANOVA in SPSS Hugo Quené hugo.quene@let.uu.nl opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003 1 vooraf In dit voorbeeld gebruik ik fictieve gegevens, ontleend aan

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 30 januari 2009 - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 2 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y 1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2S390) op maandag 19-11-2001, 14.00-17.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4), op maandag 5 januari 29 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Hoofdstuk 8: Multipele regressie Vragen

Hoofdstuk 8: Multipele regressie Vragen Hoofdstuk 8: Multipele regressie Vragen 1. Wat is het verschil tussen de pearson correlatie en de multipele correlatie R? 2. Voor twee modellen berekenen we de adjusted R2 : Model 1 heeft een adjusted

Nadere informatie

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte Classroom Exercises GEO2-4208 Opgave 7.1 a) Regressie-analyse dicteert hier geen stricte regels voor. Wanneer we echter naar causaliteit kijken (wat wordt door wat bepaald), dan is het duidelijk dat hoogte

Nadere informatie

Statistiek ( ) eindtentamen

Statistiek ( ) eindtentamen Statistiek (200300427) eindtentamen studiejaar 2010-11, blok 4; Taalwetenschap, Universiteit Utrecht. woensdag 29 juni 2011, 17:15-19:00u, Educatorium, zaal Gamma. Schrijf je naam en student-nummer op

Nadere informatie

Antwoordvel Versie A

Antwoordvel Versie A Antwoordvel Versie A Interimtoets Toegepaste Biostatistiek 13 december 013 Naam:... Studentnummer:...... Antwoorden: Vraag Antwoord Antwoord Antwoord Vraag Vraag A B C D A B C D A B C D 1 10 19 11 0 3

Nadere informatie

Toegepaste Statistiek, Dag 7 1

Toegepaste Statistiek, Dag 7 1 Toegepaste Statistiek, Dag 7 1 Statistiek: Afkomstig uit het Duits: De studie van politieke feiten en cijfers. Afgeleid uit het latijn: status, staat, toestand Belangrijkste associatie: beschrijvende statistiek

Nadere informatie

Eindtoets Toegepaste Biostatistiek

Eindtoets Toegepaste Biostatistiek Eindtoets Toegepaste Biostatistiek 2013-2014 29 januari 2014 Dit tentamen bestaat uit vier opgaven, onderverdeeld in 24 subvragen. Begin bij het maken van een nieuwe opgave steeds op een nieuw antwoordvel.

Nadere informatie

Beschrijvende statistiek

Beschrijvende statistiek Beschrijvende statistiek Beschrijvende en toetsende statistiek Beschrijvend Samenvatting van gegevens in de steekproef van onderzochte personen (gemiddelde, de standaarddeviatie, tabel, grafiek) Toetsend

Nadere informatie

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling Kwantitatieve Data Analyse (KDA) Onderzoekspracticum Sessie 2 11 Aanpassingen takenboek! Check studienet om eventuele verbeteringen te downloaden! Huidige versie takenboek: 09 Gjalt-Jorn Peters gjp@ou.nl

Nadere informatie

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie?

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie? Opdracht 13a ------------ Een-factor ANOVA (ANOVA-tabel, Contrasten, Bonferroni) Bij een onderzoek naar de leesvaardigheid bij kinderen in de V.S. werden drie onderwijsmethoden met elkaar vergeleken. Verschillende

Nadere informatie

4 Domein STATISTIEK - versie 1.2

4 Domein STATISTIEK - versie 1.2 USolv-IT - Boomstructuur DOMEIN STATISTIEK - versie 1.2 - c Copyrighted 42 4 Domein STATISTIEK - versie 1.2 (Op initiatief van USolv-IT werd deze boomstructuur mede in overleg met het Universitair Centrum

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op dinsdag 5-03-2005, 9.00-22.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Cursus Statistiek Parametrische en non-parametrische testen. Fellowonderwijs Intensive Care UMC St Radboud

Cursus Statistiek Parametrische en non-parametrische testen. Fellowonderwijs Intensive Care UMC St Radboud Cursus Statistiek Parametrische en non-parametrische testen Fellowonderwijs Intensive Care UMC St Radboud Vergelijken gemiddelde met hypothetische waarde 13 24 19 18 11 22 10 17 14 31 21 18 22 12 18 11

Nadere informatie

Voorbeeld regressie-analyse

Voorbeeld regressie-analyse Voorbeeld regressie-analyse In dit voorbeeld wordt gebruik gemaakt van het SPSS data-bestand vb_regr.sav (dit bestand kan gedownload worden via de on-line helpdesk). We schatten een model waarin de afhankelijke

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

Verband tussen twee variabelen

Verband tussen twee variabelen Verband tussen twee variabelen Inleiding Dit practicum sluit aan op hoofdstuk I-3 van het statistiekboek en geeft uitleg over het maken van kruistabellen, het berekenen van de correlatiecoëfficiënt en

Nadere informatie

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16 modulus strepen: uitkomst > 0 Hiermee rekenen we de testwaarde van t uit: n 10 ttest ( x ) 105 101 3,16 n-1 4 t test > t kritisch want 3,16 >,6, dus 105 valt buiten het BI. De cola bevat niet significant

Nadere informatie

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:

Nadere informatie

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur Kansrekening en statistiek WI22TI / WI25IN deel 2 2 februari 22, 4. 6. uur VOOR WI22TI: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad is niet toegestaan.

Nadere informatie

Opgave 1: (zowel 2DM40 als 2S390)

Opgave 1: (zowel 2DM40 als 2S390) TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (DM4 en S39) op donderdag, 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op vrijdag 29-04-2004, 9-2 uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA 16. MANOVA MANOVA Multivariate variantieanalyse (MANOVA) kan gebruikt worden in een situatie waarin je meerdere afhankelijke variabelen hebt. Met MANOVA kan er 1 onafhankelijke variabele gebruikt worden

Nadere informatie

Gegevensverwerving en verwerking

Gegevensverwerving en verwerking Gegevensverwerving en verwerking Staalname - aantal stalen/replicaten - grootte staal - apparatuur Experimentele setup Bibliotheek Statistiek - beschrijvend - variantie-analyse - correlatie - regressie

Nadere informatie

3de bach TEW KBM. Theorie. uickprinter Koningstraat Antwerpen ,00

3de bach TEW KBM. Theorie. uickprinter Koningstraat Antwerpen ,00 3de bach TEW KBM Theorie Q www.quickprinter.be uickprinter Koningstraat 13 2000 Antwerpen 168 6,00 Online samenvattingen kopen via www.quickprintershop.be BOEK 1: ENKELVOUDIGE EN MEERVOUDIGE REGRESSIE

Nadere informatie

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn. Opdracht 12a ------------ enkelvoudige lineaire regressie Kan de leeftijd waarop een kind begint te spreken voorspellen hoe zijn score zal zijn bij een latere test op verstandelijke vermogens? Een studie

Nadere informatie

Les 1: de normale distributie

Les 1: de normale distributie Les 1: de normale distributie Elke Debrie 1 Statistiek 2 e Bachelor in de Biomedische Wetenschappen 18 oktober 2018 1 Met dank aan Koen Van den Berge Indeling lessen Elke bullet point is een week. R en

Nadere informatie

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen.

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen. Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen. 1. (a) In de appendix van deze vraag, is een dataset gegeven met de corresponderende

Nadere informatie

Het ANCOVA model is een vorm van het general linear model (GLM), en kan als volgt geschreven worden qua populatie parameters:

Het ANCOVA model is een vorm van het general linear model (GLM), en kan als volgt geschreven worden qua populatie parameters: Hoofdstuk 4 4.1 De ANCOVA is een vorm van statistische controle, en was specifiek ontworpen om on-uitgelegde foutvariatie ( error variation ) te verminderen. Om dit te doen is er een co-variabele ( covariate

Nadere informatie

Cursus Statistiek 2. Fellowonderwijs Opleiding Intensive Care. UMC St Radboud, Nijmegen

Cursus Statistiek 2. Fellowonderwijs Opleiding Intensive Care. UMC St Radboud, Nijmegen Cursus Statistiek 2 Fellowonderwijs Opleiding Intensive Care UMC St Radboud, Nijmegen Cursus Statistiek 2 Steekproefgrootte en power berekening Vergelijken van gemiddelden (T-testen) Niet-parametrische

Nadere informatie

Hoofdstuk 2. Aanduiding 1: Aanduiding 2: Formule 1: Formule 2: s2 x = Formule 3: s x = Formule 4: X nieuw = X oud ± a betekent ook

Hoofdstuk 2. Aanduiding 1: Aanduiding 2: Formule 1: Formule 2: s2 x = Formule 3: s x = Formule 4: X nieuw = X oud ± a betekent ook Hoofdstuk 2 Aanduiding 1: X ij Aanduiding 2: Formule 1: Formule 2: s2 x = Formule 3: s x = Formule 4: X nieuw = X oud ± a betekent ook ± a Formule 5: X nieuw = bx oud betekent t X nieuw = X oud/b betekent

Nadere informatie