Inleiding in de toegepaste biostatistiek 4. Continue uitkomstvariabelen analyseren

Maat: px
Weergave met pagina beginnen:

Download "Inleiding in de toegepaste biostatistiek 4. Continue uitkomstvariabelen analyseren"

Transcriptie

1 Inleiding in de toegepaste biostatistiek 4. Continue uitkomstvariabelen analyseren Twee aspecten van het onderzoek spelen een rol bij het kwantificeren van onzekerheid, namelijk de grootte van de steekproef en de spreiding van de individuele ondedrzoeksresultaten (zie hoofdstuk 3). Deze komen samen in de standard error of the mean, waarmee het 95%-BI kan woren uitgerekend. Hiervoor moet je dus eerst de individuele spreiding weten! Bij bijv oorbeeld cholesterol gaat het om een continue variabele, dus moet je een t-toets gebruiken, en moeten we op zoek gaan naar de waarde die hoort bij het 95%-BI. Deze is afhankelijk van de vrijheidsgraden en de grootte van de steekproef. Het getal dat hieruit komt kun je gebruiken in de formule om de 95%-BI uit te rekenen. 95%-BI= dx + of t x SEM, met dx=gemiddelde verandering, t=het getal dat uit de t- verdeling komt. De twee getallen die hieruitkomen vormen het 95%-BI. Het is dan 95% zeker dat de werkelijke verandering tussen deze waarde ligt. Je kunt dit natuurlijk ook voor de nulhypothese toetsen. De geobserveerde waarde wordt dan vergelijken met de verwachte waarde van de nulhypothese, gedeeld door de SEM: t=(dx-o)/sem. De statistische techniek die zowel het 95%-BI, als de toets uitvoert, heet de gepaarde toets. Vergelijken van het gemiddelde met de standaardwaarden Stel dat je nu niet het verschil van bijvoorbeeld gemiddelde cholesterolwaarde voor en na een interventie wilt weten, maar het verschil van de gemiddelde waarde met de algemeen aangenomen standaardwaarde? Je kunt dan heel makkelijk een 95%-BI opstellen, als je in de formule voor dx het gemiddelde verschil van de standaardwaarde neemt. Verder kun je weer met een t-toets (de toetsingsgrootheid) de p-waarde uitrekenen, waarbij je dus bekijkt hoe groot de kans is dat de nulhypothese (het gemiddelde verschil is gelijk aan de standaardwaarde) waar is. Vergelijkingen van twee verschillende groepen Als je twee groepen wilt vergelijken, is het het handigst om met de gemiddelden van beide groepen te werken. Je ziet dan direct dat daar een verschil zit of niet, maar je moet natuurlijk weten of dit naar de populatie te vertalen is. Hiervoor heb je de SEM nodig, waarmee je dan weer het 95%-BI kunt uitrekenen. Hiervoor hebben we weer een t-verdeling nodig. De twee groepen zullen vaak een andere standaarddeviatie hebben. Om ermee te kunnen rekenen zul je dus eerst een soort gemiddelde sd moeten hebben, ook wel de populatiestandaarddeviatie (sp). Sp=wortel ((n1-1)xs1^2+(n2-1)xs2^2)/(n1-1+n2-1)). (De getallen direct achter de letters, zijn eigenlijk subscripts). Sp=populatiesd, s1=sd van groep 1, s2= sd van groep2, n1= populatiegrootte groep 1 en n2=populatiegrootte groep2. Deze formule is niets meer dan een gemiddelde van twee varianties van groepen. De formule om hiermee het 95%-BI uit te rekenen, verandert dan ook. Deze is in word niet uit te schrijven. Zie formule 4.4. De interpretatie van het 95%-BI dat eruit komt, is dat we met 95% zekerheid mogen zeggen dat het echte verschil tussen de twee groepen tussen die waardes ligt. Ook kun je er weer een t-toets op loslaten, om de nulhypothese te toetsen. T=(x1-x2-O)/(sp x wortel (1/n1 +1/n2))

2 Blijf je indenken dat de grens van p=0,05 (kans van 5%) arbitrair is, maar ook dat de grootte van de p-waarde niets zegt over de grootte van het verschil tussen de twee groepen! Voor dit laatste heb je namelijk het effect en het 95%-BI nodig. Daarnaast kan je pas een t-toets uitvoeren, niet alleen als er sprake is van een normaalverdeling, maar ook als beide normaalverdeling bij benadering dezelfde vorm hebben, oftewel, als beide varianties gelijk zijn. Als dit niet zo is, moet er voordat de t-toets worden uitgevoerd, een F-toets (Levene s test for the equality of variances) worden gedaan. Dit gebeurt in SPSS automatisch. SPSS zorgt voor een soort aangepaste t-toets: de aanpassing van Welch. Als uit de F-toets een p>0,05 komt, dan is de nulhypothese, dat beide varianties gelijk zijn, niet verworpen en mag er dus een normale t-toets uitgevoerd worden. Mochten de varianties wel veschillen, dan worden de vrijheidsgraden en de standard error difference aangepast, waardoor de verdeling breder wordt en p-waarde hoger. Vergelijken van twee scheef verdeelde uitkomstvariabelen Voor een t-toets tussen twee groepen, moeten de uitkomsten enigszins normaal verdeeld zijn. Ze moeten dus niet scheef verdeeld zijn, van je vergelijkt twee gemiddelden met elkaar, en die gemiddelden worden heel erg beïnvloed, en dus veranderd, door de hogere waarden bij een scheve verdeling. De meest voorkomende scheve verdeling, is de verdeling naar rechts. Hoe kunnen we ondanks de scheve verdeling nou toch twee groepen vergelijken? Je moet dan eerst de gegevens transformeren naar een normaalverdeling, daarna het 95%-BI uitrekenen, en deze data dan weer terugtransformeren naar de oorspronkelijke data. Als het gemiddelde groter is dan de mediaan en de sd behoorlijk groot is, dan spreek je van een scheve verdeling,. Je zou denken dat je bij twee grote steekproeven door middel van centrale limietstelling de twee groepen gewoon mag vergelijken, maar bedenk dat je werkt met gemiddelden, en die zijn dus niet goed te vergelijken bij een scheve verdeling. Je kunt de gegevens van een scheve verdeling naar rechts transformeren middels een logaritmische transformatie. Je gebruikt dan meestal een natuurlogaritme (ln). Hierop kun je dan een t-toets uitvoeren. De gegevens die daaruit komen moet je dan weer terugtransformeren met de klassieke rekenregel voor logaritmen: het verschil tussen twee logaritmen met hetzelfde grondtal is gelijk aan de logaritme van het quotiënt van de twee getallen. De formule wordt dan ln(groep1)-ln(groep2)=ln(groep1/groep2). Van de uitkomst moet je dan de EXP nemen. Dit is het verschil van de geometrische gemiddelden van de groep, wat niet het gewone gemiddelde is, maar een getransformeerd gemiddelde dat meer op de mediaan lijkt. Bij het transformeren van het betrouwbaarheidsinterval doe je gewoon de EXP van deze twee getallen. Hierna kan een normale t-toets worden gedaan. Non-parametrisch toetsen Een andere manier voor het analyseren van scheve verdelingen is het gebruik van nonparametrische (verdelingsvrije) toetsen. De waarden worden dan niet zelf geobserveerd, maar er wordt een rangnummer aan gegeven die wordt getoetst. Nadeel is dat het alleen een toets is en dat je dus geen schattingen en 95%-BI kunt maken. De uitkomst van de toets is een p-waarde. Ongeacht tot welke groep de observatiewaarden horen, krijgt iedere waarde een rangnmmer. Deze worden bij elkaar opgeteld, en de twee sommen worden met elkaar vergeleken, hier komt een p uit. Het heet de rangsomtoets van Wilcoxon (Mann- Whitney-toets). Er wordt een asymptotische waarde berekend van een non-parametrische toets, wat natuurlijk gek is. Het is wel mogelijk de p-waarde exact te berekenen, maar hoe groter de steekproef, hoe moeilijker. Vandaar de asymptotische waarde.

3 De non-parametrische toets wordt heel vaak gebruikt, maar is in grotere populaties niet nodig, vanwege de centrale limietstelling. Je kunt dan gewoon een t-toets gebruiken. Als je een gewone t-toets, een loggetransformeerde t-toets en een non-parametrische toets naast elkaar legt, zijn alle p-waarden verschillend, maar alle methoden zijn goed. Het is niet duidelijk welke p dan het beste gebruikt kan worden. Voor twee metingen bij dezelfde persoon, bijvoorbeeld het cholesterolgehalte voor en na een interventie, is ook een non-parametrische variant beschikbaar: de rangtekentoets. Er worden hier rangnummers gegeven aan de verschillen van voor en na voor de positieve en negatieve verschillen en deze worden opgeteld. De nulhypothese zegt dat de som van de negatieve en positieve even hoog is. Als dit niet zo is, is er dus een verschil. Het vergelijken van meerdere groepen Bij vergelijking van meerdere groepen heeft het meer een toetsingsachtergrond en het wordt vooral in de psychologie gebruikt. De toets hiervoor heet de variantieanalyse en is een uitbreiding op de t-toets. Je gebruikt kwadratensommen; het gekwadrateerde verschil tussen de observaties van een bepaald gemiddelde. Eigenlijk moet eerst de totale kwadratensom berekend worden, het gekwadrateerde verschil tussen alle individuele observaties en het gemiddelde. Zie formule 4.7. sst=totale kwadratensom, G=aantal groepen, n=aantal proefpersonen per groep en y=de waarden van de uitkomstvariabelen. Vervolgens wordt deze formule in twee deelkwadratensommen opgesplitst: de SSw, de binnengroepskwadratensom (de individuele observaties vergeleken met het groepsgemiddelde) en de SSb, de tussengroepskwadratensom (de gemiddelden van de groepen vergelijken met het totale gemiddelde). Zie formule 4.8 en 4.9. Je zal deze twee kwadratensommen delen door het aantal vrijheidsgraden, waarmee je de gemiddelde kwadratensom krijgt (mean square). De verhouding tussen deze twee mean squares geeft de F-waarde, waarmee j een p-waarde kunt berekenen. Als de p significantie aangeeft, zegt dit alleen dat ergens tussen de gemeten groepen een significant verschil zit, maar niet bij welke. Je moet dan een post-hoc-procedure doen, waarbij je alle groepen per twee tegen elkaar uitzet in een t-toets. Dit doe je dus alleen als er significantie uit de kwadratensommen komt! De betrouwbaarheid wordt dan wel lager door het multiple-toetsing probleem. Hiervoor kun je corrigeren door het 95%-BI te verbreden en de bijbehorende p te verhogen. Hier zijn veel methoden voor, SPSS doet ze automatisch voor je. Ook bij het vergelijken van meer dan twee groepen, is de aanname dat de uitkomstvariabele min of meer normaal verdeeld is. Mocht dit niet zo zijn, dan zul je ook hiervoor moeten transformeren. Je kan dan een non-parametrische toets uitvoeren, die in het geval van meerdere variabelen de Kruskall-Wallis test is. Lineaire regressie analyse Liniaire regressieanalyse is een methode om continue uitkomstvariabelen te analyseren. Een t-toets analyseert dichotome determinanten, een variantieanalyse categoriale (=meerdere) determinanten, maar een lineaire regressieanalyse kan alle soorten determinanten analyseren. Als voorbeeld nemen we de relatie tussen twee continue variabelen, uitgezet in een scatterplit.lineaire regressie moet de relatie tussen Y en X zo goed mogelijk beschrijven. Er wordt hiervoor een soort lijn gedefinieerd die de kortste verticale afstand tot alle puntjes beschrijft. Deze afstanden en de lijn zelf heten residuen.

4 De twee parameters die gebruikt worden in een regressieanalyse met 1 determinant (enkelvoudige regressie) zijn de intercept of constante (b0), die het kruispunt met de y-as bepaalt, en de regressiecoëfficiënt oftewel helling (b1). De regressiecoëfficiënten worden natuurlijk met SPSS berekend, maar met de hand kan dat ook. Zie formule 4.10 en Lineaire regressie kan tussen alle determinanten, en dus ook tussen een continue en een dichotome variabele. Hierbij krijg je in een scatterplot maar twee vertikale strookjes met bolletjes, die voor de twee groepen staan. De lijn wordt dan door de twee gemiddelden van de groepen getrokken. De b0 is logischerwijs dan het gemiddelde van de eerste groep. B1 zal het verschil tussen de groepen aangeven. Je kunt hier de p-waarde mee berekenen door de nulhypothese af te trekken van de regressiecoëfficiënt en dat te delen door de SEM (vergelijk met t-toets!). Hier kan je dan aan de hand van de vrijheidsgraden (n-1) de p berekenen. Ook kan je met lineaire regressie een 95%-BI uitrekenen. Je kunt ook lineaire regressie met categoriale variabelen uitrekenen. Je b0 is dan weer het gemiddelde van de eerste groep. Helaas gaat het bij lineaire regressie om het trekken van een rechte lijn, en is het vaak moeilijk om een rechte lijn te trekken door meerdere groepen heen. Je zult dan twee dichotome dummyvariabelen aan moeten maken, zodat je wel twee groepen met elkaar kunt vergelijken. Deze twee dummy s moeten altijd samen worden geanalyseerd. De formule is dan: Verwachte waarde=b0+b1 x dummy1 + b2 x dummy2. De resultaten zijn dan het verschil in de gemiddelden tussen de twee groepen die je meet. Het is op verschillende manieren te coderen. Bij een lineaire regressie met twee continue variabelen, wordt er een lijn getrokken door de scatterplot. Dit betekent dat per stap je naar rechts gaat, er een vast getal bijkomt. Maar de vraag is in hoeverre dit zo is in het echt. Er zijn bij een continue variabele verschillene manieren om te onderzoeken of er wel sprake is van een lineair verband. Je kunt bijvoorbeeld kijken of er een ander verband is waar een betere p-waarde uitkomt. Zo kun je een van de variabelen kwadrateren, daar een lineaire regressie op loslaten en dan kijken of de p-waarde beter is dan je oorspronkelijke regressie. Nadeel van deze methode is dat je uitgaat van een wiskundig verband tussen de variabelen, terwijl je niet eens zeker weet of die er wel is, en dat regressiecoëfficiënten moeilijk te interpreteren zijn. Een andere manier om te onderzoeken of er een lineair verband is, is het opdelen van je variabelen in groepen en daar dan een dummyvariabele analyse op los te laten. Aan de hand van het oplopen van de regressiecoëfficiënten, kun je dan zien of er sprake is van een lineair verband. Zo niet, dan rapporteer je volgens de dummyvariabelen, en zo wel, dan rapporteer je aan de hand van de continue variabele. Een verband is pas echt lineair als de regressiecoëfficiënten van de verschillende groepen in verhouding staan met de gemiddelde leeftijden van de dummygroepen. Nadeel van de dummymethode is overigens dat ervan wordt uitgegaan dat alle mensen in dezelfe dummygroep dezelfde variabele hebben, wat in de praktijk natuurlijk niet zo is. Je zult dus tussen de twee methodes moeten kiezen, als kiezen tussen twee kwaden. Correlatiecoëfficiënt Er wordt ook veel gebruik gemaakt van de gestandaardiseerde regressiecoëfficiënt. Deze wordt gemaakt door de formule Het zorgt ervoor dat de x-as en de y-as zo worden opgerekt dat ze allebei dezelfde eenheid hebben: standaarddeviaties van de betreffende variabelen. Zo zet je dus de standaarddeviaties tegen elkaar uit. In de praktijk heet dit de Pearsson correlatiecoëfficiënt.

5 Je kunt ook zonder hulp van eerst een regressieanalyse te doen een correlatiecoëfficiënt uitrekenen. Dit doe je met formule Het verschil tussen de regressielijn en de correlatiecoëfficiënt, is dat als je in een scatterplot een regressielijn trekt, die voor een hele wijd verspreide scatterplot hetzelfde kan zijn als voor een heel opeengepakte scatterplot. De correlatiecoëfficiënt houdt echter ook rekening met de afstand van alle puntjes tot de regressielijn, en dan heb je bij een wijd verspreide scatterplot dus een kleinere coëfficiënt dan bij een opeengepakte. Variantie verklaring De lineaire regressieanalyse geeft nog veel meer informatie. De R is de regressiecoëfficiënt, de R square geeft aan hoeveel procent van de variabele door de andere variabele wordt verklaard, de adjusted R square past dit aan wanneer er een overschatting is van de kwaliteit van het model, en de standard error of the estimate is een indicatie van hoe goed de geobserveerde punten op de geschatte regressielijn liggen. Omdat lineaire regressie analyse en variantieanalyse dezelfde principes gebruiken (kwadratensommen), wordt bij een regressieanalyse ook altijd de output van de variantie weergegeven. De resultaten zullen precies hetzelfde zijn. Lineaire regressie bij een niet-normaal verdeling Als je een lineaire regressie uitvoert op een verdeling die scheef verdeeld is, doe je dat hetzelfde als bij de t-toets. Je zet het gewoon in een natuurlijk logaritme en transformeert het na de regressie weer terug. Eigenlijk gaat het bij lineaire regressie niet om de normaliteit van de uitkomstvariabele maar om die van de residuen. Je kunt dit gemakkelijk testen door er een histogram van te maken. Zie je dat het neit normaalverdeeld is, dan kun je er een logtransformatie op loslaten. Nonparametrische technieken zijn er voor lineaire regressie niet. Een nonparametrische correlatiecoëfficiënt. We hebben eerder gezien dat voor een normaal verdeelde uitkomstvariabele een Pearsoncorrelatiecoëfficiënt gebruikt kan worden. Voor niet-normale verdelingen kun je de Spearman-correlatiecoëfficiënt gebruiken. Als er een normale verdeling is, komt hier hetzelfde getal uit. Effectmodificatie en confouding Een effectmodificator betekent dat het effect/relatie anders is per verschillende waarde van de effectmodificator. Een effect kan bijvoorbeeld anders zijn voor mannen of voor vrouwen. Confounding betekent dat het effect geheel of gedeeltelijk wordt veroorzaakt door iets anders. Je kunt lineaire regressie gebruiken om deze twee biasen op te sporen. Om bijvoorbeeld te kijken of sekse een confounder is in een onderzoek, zul je na de eerste lineaire regressie een tweede regressie moeten uitvoeren met sexe als extra variabele. Mocht er confounding uitkomen, dan moet je uitzoeken in hoeverre dit relevant is. Er is daarvoor een grens van verandering van de regressiecoëfficiënt met 10% genomen. Om de effectmodificatie op te sporen moet een zogenaamde interactieterm worden aangemaakt, diir de determinant te vermenigvuldigen met de mogelijke effectmodificator.daarna voer je een regressieanalyse uit. Hierna moet de grootte en het belang van de regressiecoëfficiënt bepaald worden. Dit doe je aan de hand van de p. Is de p van de interactieterm niet significant, dan is er geen effectmodificatie. Soms is er een groot verschil, maar geeft de p niet significantie aan. In sommige gevallen kan je dan op de klinische relevantie afgaan en de p verwerpen of iets ophogen.

6 Je kunt uit de output van de effectmodificatie lineaire regressie niet direct een 95%-BI aflezen. Je zult dan eerst opnieuw moeten coderen. Bij het vinden van effectmodificatie bij een continue variabele, zul je weer een interactieterm moeten opstellen en dan de lineaire regressie uitvoeren. De regressiecoëfficiënt die je dan ziet, geeft weer hoeveel het verschil is in verandering per effectmodificator eenheid (bij effectmodificator leeftijd is dat dan het verschil in verandering per jaar) tussen de twee variabelen (man/vrouw, bijvoorbeeld).

7 Inleiding in de toegepaste biostatistiek 5. Dichotome uitkomsten analyseren Bij het vergelijken van een dichotome uitkomstvariabele tussen twee groepen is de eenvoudigste manier om de resultaten te presenteren in een 2x2 tabel. In een 2x2tabel kan het verschil tussen percentages gebruikt worden om het effect van de interventie te kwantificeren. Een mogelijkheid is om het verschil tussen beide percentages te berekenen. Dit wordt het risicoverschil (RV) genoemd. Een andere mogelijkheid is om verhouding van twee percentages te berekenen. Deze verhouding wordt het relatief risico (RR) genoemd. Bij wetenschappelijk onderzoek gaat het erom dat het onderzoeksresultaat vertaald kan worden naar de populatie. De onzekerheid van het gevonden resultaat hangt af van de grootte van de onderzoekspopulatie en de spreiding in de uitkomstvariabele. Het 95% betrouwbaarheidsinterval rond het risicoverschil en het relatief risico Bij een dichotome variabele gaat het om percentages, en de standaard deviatie van een percentage wordt als volgt gedefineerd: Sd (p) = (p(1-p)) Waarbij sd (p) = standaarddeviatie van het percentage; p = het percentage De standaardfout van het gevonden percentage is dan (net als bij continue uitkomstvariabelen) de standaarddeviatie gedeeld door de wortel uit het aantal observaties) Se (p) = ((p(1-p)) / n) Waarbij se (p) = standaardfout van het percentage; p = percentage; n = aantal proefpersonen De standaardfout van het verschil in percentages is te berekenen als volgt: Se (p 1 - p 2 ) = (( p 1 (1-p 1 ) / n 1 ) +(p 2 (1-p 2 ) / n 2 )) Waarbij p 1 en p 2 = percentages met de bepaalde uitkomst in beide groepen. N 1 en n 2 = het aantal proefpersonen in beide populaties. Het betrouwbaarheidsinterval is vervolgens te construeren met behulp van een normale benadering. Waarbij p 1 p 2 = risicoverschil; = waarde van de standaardnormale verdeling waarvoor geldt dat (1-α/2)% van de verdeling voor de betreffende waarde ligt; se (p 1 p 2 )= de standaardfout van het risicoverschil. Op basis van een gevonden betrouwbaarheidsinterval kan een uitspraak worden gedaan of het risicoverschil significant is. Er moet worden gekeken of de waarde van de 0hypothese binnen of buiten de grenzen van het interval ligt. Als de waarde van de nulhypothese 0 is (er is geen verschil in percentage tussen interventie en controlegroep), en dat getal ligt buiten het 95% betrouwbaarheidsinterval is er dus sprake van een significant verschil tussen beide percentages.

8 Bij de normale verdeling gebruikt men 1,96 keer de standaardfout als maat voor de onzekerheid. Deze benadering gaat beter naarmate de aantallen groter zijn en ook naarmate de geobserveerde percentages dichter bij 50% liggen. De normale benadering gaat steeds beter naarmate de onderzoekspopulatie groter wordt en de geobserveerde percentages dichter bij 50% liggen. Ook voor het relatief risico kan een 95% betrouwbaarheidsinterval worden geconstrueerd. Voor de berekening daarvan is het belangrijk te beseffen dat het relatief risico onder de nulhypothese een scheef naar rechtse verdeling heeft. De waarde van de nulhypothese is 1, de minimale waarde is gelijk aan 0 en de maximale waarde gelijk aan oneindig. Om een betrouwbaarheidsinterval te berekenen moet eerst een logtransformatie worden uitgevoerd en vervolgens moet de standaardfout van de loggetransformeerde waarde van het relatieve risico worden berekend. Waarbij se[ln (RR)] = standaardfout van de natuurlijke logaritme van het relatief risico; a,b,c en d = aantal personen in de cellen van de 2x2 tabel. Aan de hand van de 2x2tabel kan de standaardfout van de natuurlijke logaritme van het relatief risico worden berekend. Vervolgens kan rond de natuurlijke logaritme van het relatief risico op de gebruikelijke manier een 95%-betrouwbaarheidsinterval worden berekend. Waarbij ln (RR) = natuurlijke logaritme van het relatief risico; z(1-α/2) = waarde van de standaardnormale verdeling waarvoor geldt dat (1-α/2)% van de verdeling voor de betreffende waarde ligt; se[ln(rr)] = standaardfout van de natuurlijke logaritme van het relatief risico. Het betrouwbaarheidsinterval moet weer teruggetransformeerd worden om een 95%- betrouwbaarheidsinterval te krijgen rond het relatief risico. Dit kan gedaan worden door de e- macht te nemen van beide grenzen. Wat op valt is dat het betrouwbaarheidsinterval niet symmetrisch is rond het geobserveerde relatieve risico. De bovengrens ligt verder weg van het gevonden relatieve risico dan de ondergrens als het betrouwbaarheidsinterval groter is dan 1. Als het relatieve risico kleiner is dan 1 is dit net andersom. Dit komt omdat het relatief risico gemeten is op een logaritmische schaal. Toetsen van het risicoverschil en het relatief risico Aan de hand van het 95% betrouwbaarheidsinterval rond het risicoverschil kun je concluderen dat er sprake is van een significant risicoverschil. Om een echte p-waarde te krijgen moet men de kans berekenen dat de 2x2tabel deze waarden zal bevatten (of nog verder weg van de nulhypothese) als de nulhypothese waar is. Om dit te berekenen kan onder andere een toetsingsgrootheid worden gegenereerd Z = (p1 p2)-0 Se( p1 p2) H0

9 Waarbij Z = waarde van de standaardnormale verdeling; (p1-p2) = geobserveerd verschil van twee percentages; se(p1-p2)h0 = standaardfout van het verschil van twee percentages onder de nulhypothese De standaardfout van het verschil in percentages is niet de zelfde als in deze formule: Se (p 1 - p 2 ) = (( p 1 (1-p 1 ) / n 1 ) +(p 2 (1-p 2 ) / n 2 )) Om het betrouwbaarheidsinterval te construeren gebruikt men de standaardfout van het geobserveerde verschil in percentages, bij het toetsen gebruikt men de standaardfout van het verschil in percentages onder de nulhypothese. Bij een betrouwbaarheidsinterval rond de geobserveerde waarde ligt de standaardfout ook rond de geobserveerde waarde. Bij toetsen van de nulphypothese gaat het om onzekerheid rond de nulhypothese en knan het best worden geschat aan de hand van de standaardfout van percentages verwacht onder de nulhypothese. ^p = het verwachte percentage onder de nulhypothese; n1, n2 = aantal personen in beide groepen; r1, r2 = aantal personen met de onderzochte uitkomst in de beide groepen De standaardfout van de percentages onder de nulhypothese verschilt van de standaardfout van de geobserveerde percentages. Met de standaardfout kan de toetsingsgrootheid worden berekend en de bijbehorende p-waarde worden bepaald. Omat de toets en het betrouwbaarheidsinterval gebruik maken van verschillende standaardfout kan de toets met betrekking tot significantie een andere conclusie vormen dan het betrouwbaarheidsinterval. Dit zal alleen gebeuren als de p-waarden heel dicht bij de 5% grens liggen. Een andere manier om de p-waarde te berekenen bij het vergelijken van twee groepen groepen is de chikwadraattoets. Eerst moet worden berekend hoeveel mensen in verschillende cellen worden verwacht als de nulhypothese waar is. In een 2x2 tabel moet de kans dat iemand in een bepaalde kolom zit vermenigvuldigd worden met de kans dat iemand in een bepaalde rij zit. Om de kans te berekenen op een 2x2tabel als de nulhypothese waar is moet per cel het geobserveerde aantal personen vergeleken worden met het verwachte aantal personen. Hoe groter het verschil hoe lager de p-waarde zal zijn. De X 2 kan op die manier worden berekend. Voor elke cel wordt het verschil tusen het geobserveerde personen en het verwachte aantal personen gekwadrateerd en vervolgens gedeeld door het verwachte aantal. In totaal levert dit dus de X 2. Er volgt dus een chi-kwadraatverdeling met 1 vrijheidsgraad.

10 De manier om de p-waarde te berekenen is een benadering van de werkelijkheid. Dit gaat beter naarmate de verwachte aantallen in verschillende cellen groter zijn. De grens is arbitrair: de chikwadraattoets gaat goed als de verwachte aantalen in 80% van de cellen groter of gelijk is aan 5 en in alle cellen groter dan 1 De p-waarde behorend bij de 2x2tabel is te berekenen met de exacte toets van Fisher P = (a+b)!(a+c)!(b+d)!(c+d)! N!a!c!d! De volgende stap in de berekening is het zoeken van de kans op de in het onderzoek gevondencombinatie en de kans op de combinaties die nog verder weg liggen van de 0hypothesen. De kansen verder van de 0hypothese moeten erbij worden opgeteld en verdubbeld aangezien de verdeling tweezijdig en symmetrisch is. De chikwadraattoets geeft altijd een lagere p-waarde dan via de exacte manier toets van fisher. Alleen als de chikwadraattest niet kan worden gedaan door de regel van 5, wordt de methode van fisher toegepast. Ok kan de continuïteitscorrectie worden gedaan (ook wel Yates correctie). In alle gevallen zal de p-waarde berekend met behup van de continuiteitscorrectie iets hoger zijn dan de exacte p-waarde. De chikwadraatverdeling met 1 vrijheidsgraad is identiek aan de standaardnormale verdeling in het kwadraat. Het vergelijken van een proportie met eens standaardwaarde Om te onderzoeken of het resultaat ook in de doelpopulatie voorkomt moet de onbetrouwbaarheid van het gevonden resultaat gekwantificeerd worden. Dit gebeuren door het 95% betrouwbaarheidsinterval te construeren rond het gevonden herstelpercentage. P +/- z(1-α/2) x se(p) Het vergelijken van twee metingen bij dezelfde persoon Bij een continue uitkomstvariabele kunnen de verschillen tussen twee metingen bij dezelfde persoon geanalyseerd worden met de gepaarde t-toets. Bij dichotome uitkomstvariabelen wordt dit gedaan door middel van cross-over-trial. Het is een experinemteel onderzoek waarin de proefpersonen gebruikt worden als hun eigen controlepersoon. De ene helft van de proefpersonen krijgt dan eerst de interventieconditie en daarna de controleconditie. De andere krijgt eerst de controle en vervolgens de interventieconditie. Het is alleen effectief bij een kortdurend effect. Het wordt vaak gebruikt voor onderzoeken zoals pijnstillers, bloedverdunners en dergelijk. Het risicoverschil oftewel het verschil tussen de twee percentages verbetering, en de daarbij horende standaardfout zijn nu te berekenen met behulp van: P1-p2 = (a+b)/n (a+c)/n = (b-c)/n Se(p1 p2) = 1/n (b+c ((b-c) 2 /n) Waarbij p1-p2 = risicoverschil; a,b,c,d= aantallen in de cellenv an de 2xe tabel. N = grootte van de onderzoekspopulatie; se(p1-p2) = standaardfout van het risicoverschil. Met behulp van de standaardfout kan het 95% betrouwbaarheidsinterval rond het risicoverschil worden berekend p1-p2 +/- z(1-α/2) x se (p1-p2) McNemar-toets is een chikwadraattoets voor gepaarde waarnemingen. Hiervoor moet eerst de waarde van de standaardfout van het verwachte risicoverschil (als de nulhypothese waar is) worden berekend

11 Se (p1 p2) = 1/n ((b+c)/2 + (b+c)/2 0) Se(p1 p2) = 1/n (b+c) P1-p2 = risicoverschil; a,b,c,s = aantallen in de cellen van de 2x2tabel; n = grootte van de onderzoekspopulatie; se (p1-p2 = standaardfout van het risicoverschil. De toetsingsgrootheid van McNemar-toets is te berekenen met behulp van formule Z = (b-c)/n (b+c)/n = b-c (b+c) Omdat de McNemartoets uitgaat van een chikqadraatverdeling met een vrijheidsgraad, is de toetsingsgrootehid van deze toets het kwadraat van de Z-waarde. Zie: X 2 = (b-c) 2 B+c Bij spss krijg je een andere waarde omdat spss een standaard continuiteitscorrectie toepast. Dit kan ook worden toegevoegd aan de formule Zcorr = b-c-1 (b-c) Het vergelijken van meer dan 2 groepen Het aantal vrijheidsgraden bij een willekeurige kruistabel kan eenvoudig worden berekend door het aantal rijen min 1 te vermenigvuldigen met het aantal kolommen min 1. De linear by linear association of tewel toets voor trend of trendtoets wordt gebruikt om te toetsen als percentages in de 2x3 tabel gelijkmatig oplopen dan wel aflopen, at een extra dimensie toevoegt aan de standaard chikwadraattoes. Het heeft alleen een interpreteerbare p-waarde als de determinant (de variabele met meer dan twee groepen) een ordinale variabele is. De toets trendtoets heeft altijd een vrijheidsgraad onafhankelijk van de hoeveelheid groepen waaruit de determinant bestaat. Dit is om dat de toets voor trend toetst of alle stapjes in toe of afname van de percentages gelijk zijn. Dus als 1 stap bekend is, zijn alle stapjes gelijk. Om het betrouwbaarheidsinterval te berekenen moeten van de 3x2tabel 3 keer een 2x2 tabel gemaakt worden, waarvoor verschillende risicoverschillen of relatieve risico s worden berekend. De oddsratio Relatieve risico en risicoverschil kunnen alleen gebruikt worden als er sprake is van prospectief cohortonderzoek. In alle andere kansen kun je geen absolute kansen bereken. In case-controlonderzoek en retrospectief onderzoek en cross-sectioneelcohortonderzoek gebruik je de oddsratio. Het gaat hierbij op relatieve kansen op de uitkomstvariabele. De odds op een bepaalde uitkomst is gedefinieerd als de kans op de uitkomst gedeeld door 1 min die kans Odds = P(Y = 1) 1- P(Y=1) P(y=1) is de kans op de uitkomstvariabele. De oddsratio luidt als volgt:

12 OR = (a/a+b)/(b/a+b) (c/c+d)/(d/c+d) Of anders berekend: (a x d)/ (b x c) Een odds wordt vaak geinterpreteerd als het relatieve risico, maar een odds is altijd een overschatting van het relatief risico. Het betrouwbaarheidsinterval is erg van belang bij het oddsratio. Eerst moet het gelogtransformeerd worden. Als de 0hypothese waar is, dan is de oddsratio een scheef naar rechtse verdeling. Als de nulhypothese waar is, is de oddsratio gelijk aan 1. De minimale waarde is dan nul en de maximale waarde oneindig. De standaardfout van de natuurlijke logaritme van de oddsratio: Se [ ln(or)] (1/a + 1/b + 1/c + 1/d) SE [ ln(or)] = standaardfout van de natuurlijke logaritme van de odssratio. Het 95%betrouwbaarheidsinterval: Ln(OR) +/- z(1-α/2) x se[ln(or)] Vervolgens moet de e-macht genomen worden. Het betrouwbaarheidsinterval rond de oddsratio is niet symmetrisch, net zoals bij het relatieve risico. Ook ligt de bovengrens verder weg dan de ondergrens. Om voor de oddsratio de werkelijke p-waarde te krijgen moet de chikwadraattoets worden gedaan. Hoe groot de overschatting van het oddsratio van het relatieve risico is, hangt af van de prevalentie van de uitkosmtvariabele. Als de prevalentie van de uitkomstvariabele erg klein is, kleiner dan 5% wordt het een betere schatter. De p-waarde van de odds-ratio is het zelfde als die van het relatief risico. Dit impliceert dat het 95%betrouwaarheidsinterval rond het oddsratio breder is dan het 95% betrouwbaarheidsinterval rond het relatief risico. De oddsratio kan worden berekend met logistische regressieanalyse. Het analyseren van relaties tussen een dichotome uitkomstvariabele en diverse andere variabelen Bij continue uitkomstvariabelen gebruikt men de lineaire regressieanalyse, bij dichotome uitkomstvariabelen gebruikt men de logistische regressieanalyse. Een logistische regressieanalyse is een manier om de dichotome uitkomstvariabele zo te transformeren dat hij lineair wordt. Stap 1 is het opstellen van een lineaire regressievergelijking voor de dichotome uikomstvariabele Ydichotoom = b0 +b1x1+ Dit kan niet lineair bekeken worden omdat dit niet normaal verdeeld is. Stap 2 is de kans op de dichotome uitkomst modelleren. P(Ydichotoom) = b0 + b1x1 + Nu is de kans binomiaal verdeeld tussen 0 en 1 Vervolgens wordt de Odds gebruikt (De relatieve kans) P(Ydichotoom) = b0 + b1x1 + 1-P(Ydichotoom)

13 De odds vormt een continue variabele van 0 tot oneindig. De odds is alleen scheef naar rechts verdeeld. Een kans van 50% (het midden) geeft odds van 1, een kans van 0% geeft een kans van 0 en een kans van 100% geeft een kans oneindig. Om de scheef naar rechtse verdeling normaal te maken kan een logtransformatie worden toegepast. De natuurlijke logaritme van de odds wordt dan toegepast Ln(P(Ydichotoom) 1-P(Ydichotoom) = b0 + b1x1 + Dit is continue en normaal verdeeld. Vervolgens kan het gebruikt worden als lineaire regressieanalyse. Hij kan ook zo worden geschreven: P(Ydichotoom =1) = 1/ (1+ e^(-(b0 + b1x1 + ))) De regressiecoefficient is het verschil in de uitkomstvariabele per eenheid verschil in de determinant. Aangezien de uitkomstvariabele van een logischtische regressieanalyse de natuurlijklogaritme is van de odds op de dichotome uitkomst, kan de regressiecoëfficient van de variabele rookgedrag gezien worden als het verschil tussen rokers en niet-rokers voor wat betreft de natuurlijke logaritme van de kans op een hartinfarct gedeeld door 1 min die kans. De regressiecoëfficiënt is dus gelijk aan de natuurlijke logaritme van de oddsratio. Door een e-macht te nemen van de regressiecoëfficient, EXP(regressiecoefficient), verdwijnt de natuurlijke logaritme en blijft de oddsratio over. B1= ln (odds(y=1) roken Odds (y=1) niet roken EXP (b1) = odds (y=1) roken Odds (y=1) niet roken EXP b1 is dus de oddsratio. Om het 95% betrouwbaarheidsinterval rond de gevonden oddsratiote berekenen moet eerst het 95%-betrouwbaarheidsinterval rond de gevonden regressiecoëfficient berekend worden B1 +/- z(1-α/2) x se(b10 B1 is de regressiecoefficient, se (b1) is standaardfout van de regressiecoefficient. Nu moeten de grenzen van het 95%betrouwbaarheidsinterval omgezet worden naar de oddsratio. Dit kan door een e-macht van beide grenzen te nemen. Om de p-waarde te berekenen kan met behulp van de output van de logistische regressieanalyse de Waldtoets worden uitgevoerd Wald = (b) 2 Se(b) Wald = wald-statistic; b = regressiecoëfficient, se(b) = standaardfout van de regressiecoefficient. De wald-statistic volgt een chikwadraatverdeling met een vrijheidsgraad.

14 Bij lineaire regressieanalyse worden de waarden van de regressiecoëfficiënten geschat met behulp van de kleinstekwadratenmethode. Bij logistische regressieanalyse gebruikt men een andere schattingstechniek, namelijk de maximum likelihood-schattingsmethode. De likelihood (aannemelijkheid) moet zo groot mogelijk zijn voor iedereen. De likelihood wordt berkenend door voor elke person in het onderzoek op basis van de regressiecoëfficienënten de kans opd euitkosmt te berekenen en daarna al deze kansen met elkaar te vermenigvuldigen. Het wordt ingevuld in de volgende formule: P(Ydichotoom) =1) = 1 1+e^-(b0+b1X1 + ) De kansen zijn niet absoluut, maar relatief ten opzichte van de kans van 50% die er a priori is. Je krijgt een kans van 50% als er evenveel cases als controls zijn. Omdat de likelihood heel klein is, wordt hij vaak getrasformeerd tot de -2-log-likelihood (-2 x de natuurlijke logaritme van de likelihood). Dus -2 x ln [ likelihood] Het doel van de maximum likelihood-schattingsprocedure is de regressiecoëfficiënten te schatten dat de likelihood van het model zo groot mogelijk is. Dus de -2-log likelihood zo laag mogelijk. De waarden zijn heel afhankelijk van de grootte van de populatie. In de likelihood-ratio worden twee -2-log-likelihoods met elkaar vergeleken. Het aantal vrijheidsgraden van deze chikwadraatverdeling is gelijk aan het verschil in aantal parameters tussen beide modellen. De wald-toets en de likelihood beantwoorden dus min of meer dezelfde vraag. Als een logischtische regressie-analyse wordt gedaan met een continue variabele, krijg je dezelfde toets als de toets voor trend. Net als bij lineaire regressieanalyse met een categoriale determinant moet de categoriale variabele alcoholgebruik worden vervangen door een aantal dichotome dummyvariabelen. Er moeten dus dummyvariabelen gemaakt worden. Als je geïnteresseerd bent in de relatie (bijvoorbeeld aantal glazen alcohol) dan wil je de regressiecoëfficiënt weten van twee alcohol dummyvariabelen. Ln (odds (Y=1)) = b0 + b1 x dummy1 + b2 x dummy 2 Als voor beide dummywaarden nul wordt ingevuld, krijg je het natuurlijke logarime van de odds op het hebben van de uitkomstmaat. Om van het verschil in regressie-coëfficient te gaan naar oddsratio moet de e-macht genomen worden. De inverse oddsratio geeft de inverse kans aan. Om een betrouwbaarheidsinterval te krijgen moeten de dummyvariabelen anders gecodeerd worden. De overall-wald toets is te vergelijken met de chikwadraattoets. De overall p-waarde van de associatie tussen het hebben van een hartinfarct en alcoholgebruik kan ook bepaald worden met behulp van de likelihood-ratiotoets. Hiervoor moet de likelihood van het logistische regressiemodel zonder determinanten vergeleken worden met de likelihood van het logistische regressiemodel met daarin de twee dummyvariabelen. Bij het berekenen van de chikwadraat of wald-statistic beantwoord je eigenlijk de vraag: wat is de kans op het gevonden resultaat (of nog verder weg van de nulhypothese) als de nulhypothese waar is?

15 Als je van BMI bijvoorbeeld 1 eenheid weet, en je wilt weten wat de oddsratio van 5 eenheden is, bereken je dit als volgt: OR 5 eenheden = EXP [ 5 x b1eenheid] Voor het 95% betrouwbaarheidsinterval moet ook de standaardfout en de regressiecoefficient met vijf vermenigvuldigd worden. 95% BI [OR 5 eenheden] = EXP [( 5 x b 1eenheid) +/- (1,96 x 5x SE 1eenheid)] Om de oddsratio van 5 eenheden te meten: OR 5eenheden = (OR 1eenheid) 5 Confounding en effectmodificatie Effectmodificatie betekent dat het effect (of de relatie) dat gevonden is een bepaalde analyse verandert bij verschillende waarden van de mogelijke effectmodificator. Het effect kan bijvoorbeeld anders zijn voor mannen dan voor vrouwen, jong of oud. Confouding wil zeggen dat het effect dat gevonden wordt geheel of gedeeltelijk te maken heeft met een andere factor. Het is het eenvoudigst om zo n effect te meten door het gestratificeerd analyseren van een 2x2tabel. Als je een effectmodificator vind is het moeilijk om te bepalen of het appart vermeld moet worden of niet. Een oddsratio wordt gemeten op een logaritmische schaal dus lijkt het verschil groter dan het werkelijk is. Verder kun je twee betrouwbaarheidsintervallen vergelijken. Ook kun je bepalen of de oddsratios significant van elkaar verschillen. Het is ook mogelijk om een toets uit te voeren die de twee gevonden oddsratio s met elkaar vergelijkt. Deze toets wrodt de toets voor homogeniteit genoemd. de 0hypothese (er is geen verschil) kan verworpen worden als de p-waarde te groot is. Als er wel een verschil is, door bijvoorbeeld geslacht, moet dit gerapporteerd worden. Dan speelt confounding voor geslacht geen rol meer. Of er een confounder is, kan bepaald worden met gestratificeerde 2x2tabellen. Het gewogen gemiddelde van de twee gevonden oddsratio s is een indicatie van het eeffect van de interventie Het gewogen gemiddelde van de twee oddsratios s staat bekend als de Mantel Haenszels gepoolde oddsratio ORmh = mantel haenszel gepoolde oddsratio. I = aantal strata; ai, bi, ci, di = aantal personen in cellen a,b,c en d van de 2x2tabel. Ti = totaal aantal personen in de betreffende 2x2 tabel

16 Bij een RTC ligt het relatief risico het meest voor de hand. Procedure om effectmodificatie en confounding te onderzoeken met behulp van gestratificeerde 2x2 tabellen: 1. Bereken de ruwe effectmaat (bijvoorbeeld de oddsratio) 2. Stratificeer voor een mogelijke confouncer/effectmodificator en bereken de stratumspecifieke effectmaten 3. Vergelijk de stratumspeficieke effectmaten a. Indien er grote verschillen zijn: effectmodificatie; rapporteer de stratum specifieke effectmaten (analyse afgelopen) b. Als er geen grote verschillen zijn: geen effectmodificatie 4. Bereken de gepoolde effectmaat en vergelijk de ruwe effectmaat met de gepoolde effectmaat a. Als er grote verschillen zijn: confounding, rapporteer de gepoolde effectmaat b. Als er geen grote verschillen zijn: geen confounding; rapporteer de ruwe effectmaat De methode is vooral geschikt voor dichotome confounders en effectmodificatoren, minder voor categoriale en continue confounders en effectmodificatoren. Er is sprake van relevante confounding als de regressiecoefficiënt met meer dan 10% verandert. Met behulp van logistische regressieanalyse kun je ook een effectmodificatieonderzoeken. Er moet eerst een interactieterm worden aangemaakt die bestaat uit een vermenigvuldiging van de interventievariabele en de mogelijke effectmodificator. Vervolgens wordt er een logistische regressieanalyse uitgevoerd met drie variabelen: interventievariabele en de interactie en nog een derde. Dit kan worden ingevuld in de formule ln ( p(herstel) ) 1 P(herstel) De oddsratio van de interventie voor vrouwen is vaak direct uit output af te lezen. Bij mannen moeten er twee regressie-coëfficiënten bij elkaar opgeteld. Dit kan ook als volgt worden berekend: ORmanne = ORvrouwen x ORinteractie

Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 13-14

Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 13-14 Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 1314 Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 1314 Figuren en formules

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

Hoofdstuk 6 Twee populaties: parametrische toetsen

Hoofdstuk 6 Twee populaties: parametrische toetsen Hoofdstuk 6 Twee populaties: parametrische toetsen 6.1 De t-toets voor het verschil tussen twee gemiddelden: In veel onderzoekssituaties zijn we vooral in de verschillen tussen twee populaties geïnteresseerd.

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Hoofdstuk 8 Het toetsen van nonparametrische variabelen Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn

Nadere informatie

11. Multipele Regressie en Correlatie

11. Multipele Regressie en Correlatie 11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Meervoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

mlw stroom 2.1: Statistisch modelleren

mlw stroom 2.1: Statistisch modelleren mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht

Nadere informatie

8. Analyseren van samenhang tussen categorische variabelen

8. Analyseren van samenhang tussen categorische variabelen 8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en

Nadere informatie

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De

Nadere informatie

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse 10.1 Eenwegs-variantieanalyse: Als we gegevens hebben verzameld van verschillende groepen en we willen nagaan of de populatiegemiddelden van elkaar verscihllen,

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek DD14) op vrijdag 17 maart 006, 9.00-1.00 uur. UITWERKINGEN 1. Methoden om schatters te vinden a) De aannemelijkheidsfunctie

Nadere informatie

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:

Nadere informatie

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 13. Factor ANOVA De theorie achter factor ANOVA (tussengroep) Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 1. Onafhankelijke

Nadere informatie

College 2 Enkelvoudige Lineaire Regressie

College 2 Enkelvoudige Lineaire Regressie College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:

Nadere informatie

mlw stroom 2.2: Biostatistiek en Epidemiologie

mlw stroom 2.2: Biostatistiek en Epidemiologie mlw stroom 2.2: Biostatistiek en Epidemiologie Hoorcollege 1: Onderzoeksopzet en risikomaten Rosner 13.1-13.4 Capaciteitsgroep Methodologie en Statistiek tul / UM 10 januari 2006 Methodologie en Statistiek

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, 9.00-12.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 14 Donderdag 28 Oktober 1 / 37 2 Statistiek Indeling: Hypothese toetsen Schatten 2 / 37 Vragen 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte Classroom Exercises GEO2-4208 Opgave 7.1 a) Regressie-analyse dicteert hier geen stricte regels voor. Wanneer we echter naar causaliteit kijken (wat wordt door wat bepaald), dan is het duidelijk dat hoogte

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R 14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten

Nadere informatie

11. Meerdere gemiddelden vergelijken, ANOVA

11. Meerdere gemiddelden vergelijken, ANOVA 11. Meerdere gemiddelden vergelijken, ANOVA Analyse van variantie (ANOVA) wordt gebruikt wanneer er situaties zijn waarbij er meer dan twee condities vergeleken worden. In dit hoofdstuk wordt de onafhankelijke

Nadere informatie

Voorbeeldtentamen Statistiek voor Psychologie

Voorbeeldtentamen Statistiek voor Psychologie Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Oefentoets 1 1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Conditie = experimenteel Conditie = controle Sekse = Vrouw 23 33 Sekse = Man 20 36 Van

Nadere informatie

Antwoordvel Versie A

Antwoordvel Versie A Antwoordvel Versie A Interimtoets Toegepaste Biostatistiek 13 december 013 Naam:... Studentnummer:...... Antwoorden: Vraag Antwoord Antwoord Antwoord Vraag Vraag A B C D A B C D A B C D 1 10 19 11 0 3

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 11 Dinsdag 25 Oktober 1 / 27 2 Statistiek Vandaag: Hypothese toetsen Schatten 2 / 27 Schatten 3 / 27 Vragen: liegen 61 Amerikanen werd gevraagd hoeveel % van de tijd

Nadere informatie

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA 16. MANOVA MANOVA Multivariate variantieanalyse (MANOVA) kan gebruikt worden in een situatie waarin je meerdere afhankelijke variabelen hebt. Met MANOVA kan er 1 onafhankelijke variabele gebruikt worden

Nadere informatie

Statistiek voor A.I.

Statistiek voor A.I. Statistiek voor A.I. College 13 Donderdag 25 Oktober 1 / 28 2 Deductieve statistiek Orthodoxe statistiek 2 / 28 3 / 28 Jullie - onderzoek Tobias, Lody, Swen en Sander Links: Aantal broers/zussen van het

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling Kwantitatieve Data Analyse (KDA) Onderzoekspracticum Sessie 2 11 Aanpassingen takenboek! Check studienet om eventuele verbeteringen te downloaden! Huidige versie takenboek: 09 Gjalt-Jorn Peters gjp@ou.nl

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamenopgaven Statistiek 2DD71: UITWERKINGEN 1. Stroopwafels a De som S van de 12 gewichten is X 1 + X 2 + + X 12. Deze is normaal

Nadere informatie

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen. Herkansing Inleiding Intelligente Data Analyse Datum: 3-3-2003 Tijd: 14.00-17.00, BBL 508 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op dinsdag 5-03-2005, 9.00-22.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Samenvatting Statistiek

Samenvatting Statistiek Samenvatting Statistiek De hoofdstukken 1 t/m 3 gaan over kansrekening: het uitrekenen van kansen in een volledig gespecifeerd model, waarin de parameters bekend zijn en de kans op een gebeurtenis gevraagd

Nadere informatie

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling week 3: schatten en toetsen: de z-toets week 4: het toetsen van gemiddelden: de t-toets Moore, McCabe, and Craig.

Nadere informatie

Beschrijvende statistiek

Beschrijvende statistiek Beschrijvende statistiek Beschrijvende en toetsende statistiek Beschrijvend Samenvatting van gegevens in de steekproef van onderzochte personen (gemiddelde, de standaarddeviatie, tabel, grafiek) Toetsend

Nadere informatie

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16 modulus strepen: uitkomst > 0 Hiermee rekenen we de testwaarde van t uit: n 10 ttest ( x ) 105 101 3,16 n-1 4 t test > t kritisch want 3,16 >,6, dus 105 valt buiten het BI. De cola bevat niet significant

Nadere informatie

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28 Inhoud Woord vooraf 13 Hoofdstuk 1. Inductieve statistiek in onderzoek 17 1.1 Wat is de bedoeling van statistiek? 18 1.2 De empirische cyclus 19 1.3 Het probleem van de inductieve statistiek 20 1.4 Statistische

Nadere informatie

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen. Tentamen Inleiding Intelligente Data Analyse Datum: 19-12-2002 Tijd: 9.00-12.00, BBL 420 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

College 6 Eenweg Variantie-Analyse

College 6 Eenweg Variantie-Analyse College 6 Eenweg Variantie-Analyse - Leary: Hoofdstuk 11, 1 (t/m p. 55) - MM&C: Hoofdstuk 1 (t/m p. 617), p. 63 t/m p. 66 - Aanvullende tekst 6, 7 en 8 Jolien Pas ECO 01-013 Het Experiment: een voorbeeld

Nadere informatie

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK 1 1. INLEIDING Parametrische statistiek: Normale Verdeling Niet-parametrische statistiek: Verdelingsvrij Keuze tussen de twee benaderingen I.

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op vrijdag 29-04-2004, 9-2 uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek Hoofdstuk 19 Voorspellende analyse bij marktonderzoek Voorspellen begrijpen Voorspelling: een uitspraak over wat er naar verwachting in de toekomst zal gebeuren op basis van ervaringen uit het verleden

Nadere informatie

Hoofdstuk 5: Steekproevendistributies

Hoofdstuk 5: Steekproevendistributies Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel

Nadere informatie

Professionele Ontwikkeling en Wetenschap. Collegeaantekeningen GENEESKUNDE VU, JAAR 3

Professionele Ontwikkeling en Wetenschap. Collegeaantekeningen GENEESKUNDE VU, JAAR 3 Professionele Ontwikkeling en Wetenschap Collegeaantekeningen GENEESKUNDE VU, JAAR 3 16/05/2013 Randomized clinical trial Maarten boers De meeste onderzoeken zijn observationeel. De eenvoudigste zijn case

Nadere informatie

Methoden van Onderzoek en Statistiek, Deeltentamen 2, 29 maart 2012 Versie 2

Methoden van Onderzoek en Statistiek, Deeltentamen 2, 29 maart 2012 Versie 2 Vraag 1. Voor welk van de onderstaande variabelen zal een placebo effect waarschijnlijk het grootst zijn? 1. Haarlengte. 2. Lichaamstemperatuur. 3. Mate van tevredenheid met de behandeling. 4. Hemoglobinegehalte

Nadere informatie

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN 4. VERGELIJKINGSTOETSEN A. Vergelijken van varianties Men beschouwt twee steekproeven uit normaal verdeelde populaties: X, X,, X n ~ N(µ, σ ) Y, Y,, Y n

Nadere informatie

Opgave 1: (zowel 2DM40 als 2S390)

Opgave 1: (zowel 2DM40 als 2S390) TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (DM4 en S39) op donderdag, 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Kruis per vraag slechts één vakje aan op het antwoordformulier.

Kruis per vraag slechts één vakje aan op het antwoordformulier. Toets Stroom 1.2 Methoden en Statistiek tul, MLW 7 april 2006 Deze toets bestaat uit 25 vierkeuzevragen. Kruis per vraag slechts één vakje aan op het antwoordformulier. Vraag goed beantwoord dan punt voor

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2S390) op maandag 19-11-2001, 14.00-17.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur. VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT

Nadere informatie

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt A. Effect & het onderscheidingsvermogen Effectgrootte (ES) De effectgrootte (effect size) vertelt ons iets over hoe relevant de relatie tussen twee variabelen is in de praktijk. Er zijn twee soorten effectgrootten:

Nadere informatie

Reconstructie Bedrijfsstatistiek 2016

Reconstructie Bedrijfsstatistiek 2016 Reconstructie Bedrijfsstatistiek 2016 Open vragen Vraag 1 1. Bewijs dat σ^² een onvertekende schatter is voor σ²=σi 1/n * Xi² 2. Bereken de variantie van o^² 3. Is de schatter consistent? 4. Teken chi-kwadraat

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) Avondopleiding. donderdag 6-6-3, 9.-. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Voorbeeld regressie-analyse

Voorbeeld regressie-analyse Voorbeeld regressie-analyse In dit voorbeeld wordt gebruik gemaakt van het SPSS data-bestand vb_regr.sav (dit bestand kan gedownload worden via de on-line helpdesk). We schatten een model waarin de afhankelijke

Nadere informatie

Statistiek II. Sessie 5. Feedback Deel 5

Statistiek II. Sessie 5. Feedback Deel 5 Statistiek II Sessie 5 Feedback Deel 5 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 5 1 Statismex, gewicht en slaperigheid2 1. Lineair model: slaperigheid2 = β 0 + β 1 dosis + β 2 bd + ε H 0 :

Nadere informatie

Inhoudsopgave. Deel I Schatters en toetsen 1

Inhoudsopgave. Deel I Schatters en toetsen 1 Inhoudsopgave Deel I Schatters en toetsen 1 1 Hetschattenvanpopulatieparameters.................. 3 1.1 Inleiding:schatterversusschatting................. 3 1.2 Hetschattenvaneengemiddelde..................

Nadere informatie

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor 4 juni 2012 Het voorkomen van ziekte kan op drie manieren worden weergegeven: - Prevalentie - Cumulatieve incidentie - Incidentiedichtheid In de

Nadere informatie

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 1. Iemand kiest geblinddoekt 4 paaseitjes uit een mand met oneindig veel paaseitjes. De helft is melkchocolade, de andere

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop

Nadere informatie

DEEL 1 Probleemstelling 1

DEEL 1 Probleemstelling 1 DEEL 1 Probleemstelling 1 Hoofdstuk 1 Van Probleem naar Analyse 1.1 Notatie 4 1.1.1 Types variabelen 4 1.1.2 Types samenhang 5 1.2 Sociaalwetenschappelijke probleemstellingen en hun basisformat 6 1.2.1

Nadere informatie

Oplossingen hoofdstuk XI

Oplossingen hoofdstuk XI Oplossingen hoofdstuk XI. Hierbij vind je de resultaten van het onderzoek naar de relatie tussen een leestest en een schoolrapport voor lezen. Deze gegevens hebben betrekking op een regressieanalyse bij

Nadere informatie

Analyse van kruistabellen

Analyse van kruistabellen Analyse van kruistabellen Inleiding In dit hoofdstuk, dat aansluit op hoofdstuk II-13 (deel2) van het statistiekboek wordt ingegaan op het analyseren van kruistabellen met behulp van SPSS. Met een kruistabel

Nadere informatie

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018 Statistiek in de alfa en gamma studies Aansluiting wiskunde VWO-WO 16 april 2018 Wie ben ik? Marieke Westeneng Docent bij afdeling Methoden en Statistiek Faculteit Sociale Wetenschappen Universiteit Utrecht

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 30 januari 2009 - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 2 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

Interim Toegepaste Biostatistiek deel 1 14 december 2009 Versie A ANTWOORDEN

Interim Toegepaste Biostatistiek deel 1 14 december 2009 Versie A ANTWOORDEN Interim Toegepaste Biostatistiek deel december 2009 Versie A ANTWOORDEN C 2 B C A 5 C 6 B 7 B 8 B 9 D 0 D C 2 A B A 5 C Lever zowel het antwoordformulier als de interim toets in Versie A 2. Dit tentamen

Nadere informatie

1 Basisbegrippen, W / O voor waar/onwaar

1 Basisbegrippen, W / O voor waar/onwaar Naam - Toetsende Statistiek Rijksuniversiteit Groningen Lente Docent: John Nerbonne Tentamen di. 22 juni om 14 uur tentamenhal Belangrijke instructies 1. Schrijf uw naam & studentnummer hierboven, schrijf

Nadere informatie

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages. MARGES EN SIGNIFICANTIE BIJ STEEKPROEFRESULTATEN. De marges van percentages Metingen via een steekproef leveren een schatting van de werkelijkheid. Het toevalskarakter van de steekproef heeft als consequentie,

Nadere informatie

Bijlage Bijlage 3. Statistische toetsing: werkwijze, toetsen, formules, toepassing

Bijlage Bijlage 3. Statistische toetsing: werkwijze, toetsen, formules, toepassing Bijlage 3 Statistische toetsing: werkwijze, toetsen, formules, toepassing In dit boek wordt kennis van statistiek en statistische ( hypothese)toetsing in principe bekend verondersteld. Niettemin geven

Nadere informatie

SPSS. Statistiek : SPSS

SPSS. Statistiek : SPSS SPSS - hoofdstuk 1 : 1.4. fase 4 : verrichten van metingen en / of verzamelen van gegevens Gegevens gevonden bij een onderzoek worden systematisch weergegeven in een datamatrix bij SPSS De datamatrix Gebruik

Nadere informatie

a. Wanneer kan men in plaats van de Pearson correlatie coefficient beter de Spearman rangcorrelatie coefficient berekenen?

a. Wanneer kan men in plaats van de Pearson correlatie coefficient beter de Spearman rangcorrelatie coefficient berekenen? Opdracht 15a ------------ Spearman rangcorrelatie coefficient (non-parametrische tegenhanger van de Pearson correlatie coefficient) Wilcoxon symmetrie-toets (non-parametrische tegenhanger van de t-procedure

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd

Nadere informatie

gemiddelde politieke interesse van hoger opgeleide mensen)

gemiddelde politieke interesse van hoger opgeleide mensen) SPSS-oefening 2: Hypothesetoetsen Opgave Oefening 1 a) Het zijn onafhankelijke steekproeven. De scores voor politieke interesse zijn afkomstig van verschillende mensen aangezien elke persoon slechts in

Nadere informatie

Toegepaste Statistiek, Dag 7 1

Toegepaste Statistiek, Dag 7 1 Toegepaste Statistiek, Dag 7 1 Statistiek: Afkomstig uit het Duits: De studie van politieke feiten en cijfers. Afgeleid uit het latijn: status, staat, toestand Belangrijkste associatie: beschrijvende statistiek

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Formuleblad Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Plaats van de median berekenen: Oneven aantal observaties: (n+1)/2 Even aantal observaties: gemiddelde van de

Nadere informatie

Toegepaste Statistiek, Week 6 1

Toegepaste Statistiek, Week 6 1 Toegepaste Statistiek, Week 6 1 Eén ordinale en één nominale variabele Nominale variabele met TWEE categorieën, 1 en 2 Ordinale variabele normaal verdeeld binnen iedere categorie? Variantie in beide categorieën

Nadere informatie

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y 1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld

Nadere informatie

statviewtoetsen 18/12/ Statview toets, 2K WE, 30 mei Fitness-campagne Dominantie bij muizen... 4

statviewtoetsen 18/12/ Statview toets, 2K WE, 30 mei Fitness-campagne Dominantie bij muizen... 4 statviewtoetsen 18/12/2000 Contents............................................................ 1 1 Statview toets, 2K WE, 30 mei 1995 2 1.1 Fitness-campagne................................................

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 5 februari - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 9 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding.

Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding. Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding. Bij Excel denken de meesten niet direct aan een statistisch programma. Toch biedt Excel veel mogelijkheden tot statistische

Nadere informatie

20. Multilevel lineaire modellen

20. Multilevel lineaire modellen 20. Multilevel lineaire modellen Hiërarchische gegevens Veel fenomenen zijn ingebed in een bredere context. Variabelen kunnen dus ook hiërarchisch zijn, ingebed zijn in variabelen op hogere niveaus. Deze

Nadere informatie

Verband tussen twee variabelen

Verband tussen twee variabelen Verband tussen twee variabelen Inleiding Dit practicum sluit aan op hoofdstuk I-3 van het statistiekboek en geeft uitleg over het maken van kruistabellen, het berekenen van de correlatiecoëfficiënt en

Nadere informatie

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn Statistiek: Spreiding en dispersie 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Met spreiding willen we in één getal uitdrukken hoe verspreid de gegevens zijn: in hoeveel

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie