Causaliteit en de paradoxen van Simpson en Berkson (Engelse titel: Causality and the paradoxes of Simpson and Berkson)

Maat: px
Weergave met pagina beginnen:

Download "Causaliteit en de paradoxen van Simpson en Berkson (Engelse titel: Causality and the paradoxes of Simpson and Berkson)"

Transcriptie

1 Technische Universiteit Delft Faculteit Elektrotechniek, Wiskunde en Informatica Delft Institute of Applied Mathematics Causaliteit en de paradoxen van Simpson en Berkson (Engelse titel: Causality and the paradoxes of Simpson and Berkson) Verslag ten behoeve van het Delft Institute of Applied Mathematics als onderdeel ter verkrijging van de graad van BACHELOR OF SCIENCE in TECHNISCHE WISKUNDE door J.J. de Haas Delft, Nederland Mei 2014 Copyright c 2014 door J.J. de Haas. Alle rechten voorbehouden.

2

3 BSc verslag TECHNISCHE WISKUNDE Causaliteit en de paradoxen van Simpson en Berkson J.J. DE HAAS Technische Universiteit Delft Begeleider Prof.dr.ir. G. Jongbloed Overige commissieleden Prof.dr.ir. A. W. Heemink Dr.ir. M. Keijzer Mei, 2014 Delft

4

5 Samenvatting Er zijn paradoxen waarbij causaliteit een rol speelt. Twee interessante voorbeelden hiervan zijn Simpsons paradox en Berksons paradox. Causaliteit is een oorzakelijk verband tussen twee gebeurtenissen, waarbij de oorzaak invloed heeft op het gevolg. Vooral het oorzakelijke verband is hierbij belangrijk, want het kan zo zijn dat er twee gebeurtenissen zijn, die samenhang vertonen, maar waartussen geen oorzakelijk verband is, dan heb je een associatie. Een belangrijk statement is dat causaliteit niet gelijk is aan associatie. Associatie kan je uitdrukken met de statistische taal zoals we die kennen, maar om causale verbanden uit te drukken moeten we nieuwe notaties introduceren. Een manier om causaliteit uit te drukken is met behulp van het counterfactualmodel, hiermee kunnen we de standaard statistische taal uitbreiden, zodat we causale verbanden kunnen berekenen. Dit model kunnen we gebruiken om Simpsons paradox met behulp van causaliteit toe te lichten en dan zal je zien dat als we de paradox causaal zouden interpreteren dat er helemaal geen sprake is van een paradox. Een andere manier om causale verbanden weer te geven is met behulp van grafen. De eerste keer dat causale verbanden op een mathematische manier werden weergegeven was rond 1920 door Sewall Wright. De benadering met grafen kan gebruikt worden om Berksons paradox toe te lichten. Hiermee zal je zien dat je eenvoudig verkeerde conclusies kan trekken als je niet de causale relaties bekijkt. 5

6 6

7 Inhoudsopgave 1 Inleiding Doel van het verslag Paradoxen Simpsons Paradox De behandeling van nierstenen Simpsons paradox wiskundig uitgedrukt Simpsons paradox en Causaliteit Berksons Paradox Berksons voorbeeld Berkson s Paradox en Causaliteit Het counterfactualmodel Het counterfactual model Associatie is geen causaliteit! Het leveraandoeningsvoorbeeld Do-notatie Het leveraandoeningsvoorbeeld Acyclische Gerichte Grafen DAG s Acyclische gerichte grafen en causaliteit Het leveraandoeningsvoorbeeld

8 8 INHOUDSOPGAVE 5 Paradoxen revisited Simpsons Paradox Berksons Paradox Appendix Appendix Appendix

9 Voorwoord Voor u ligt het eindresultaat van mijn bachelorproject, dat ik heb gedaan ter afronding van mijn bacheloropleiding Technische Wiskunde aan de Technische Universiteit Delft. Ik heb mijn project bij de afdeling statistiek gedaan, omdat ik dat een interessante vakgroep vind. Het verslag gaat over causaliteit en dan in het bijzonder over wat causaliteit te maken heeft met Simpsons paradox en Berksons paradox. Ik wil graag iedereen bedanken die heeft bijgedragen aan het tot stand komen van dit verslag en dan in het bijzonder mijn begleider Geurt Jongbloed. Ik wens u veel plezier bij het lezen van dit verslag. Jolien de Haas 9

10 10 INHOUDSOPGAVE

11 Hoofdstuk 1 Inleiding Het begrip causaliteit komt veel voor in onderzoeken in de medische- en sociale wetenschappen, op plekken waar veel mensen geen of weinig wiskundige achtergrond hebben. Bij onderzoeken uit de medische wetenschap moet je bijvoorbeeld denken aan de vraag of een bepaald symptoom het gevolg is van een bepaalde ziekte, of wat het effect van roken is op longkanker. Dit zijn causale vraagstukken. Vroeger wist men al van het bestaan van causaliteit, maar men kon dit niet uitdrukken in de statistische taal zoals men die toen kende. Pas in de 20ste eeuw werden er manieren bedacht om causale verbanden uit te drukken. De statistische taal moet dus uitgebreid worden, dit is een van de obstakels waar veel onderzoekers moeite mee hebben. Een tweede obstakel is dat er altijd ongeteste aannames moeten worden gedaan om causale verbanden te bepalen. Causaliteit is een oorzakelijk verband tussen twee gebeurtenissen, waarbij de oorzaak invloed heeft op het gevolg. Vooral het oorzakelijke verband is hierbij belangrijk, want het kan zo zijn dat er twee gebeurtenissen zijn, die samenhang vertonen, maar waartussen geen oorzakelijk verband is. Stel bijvoorbeeld dat het een zonnige dag is. Op een zonnige dag wordt meer ijs verkocht en op een zonnige dag verdrinken er meer kinderen. Dus je zou kunnen stellen dat als er meer ijs wordt verkocht, verdrinken er meer kinderen. Dan is er een samenhang tussen het verdrinken en de ijsverkoop, maar geen causaal verband want de kans op het verdrinken van kinderen wordt helemaal niet groter als er meer ijs verkocht wordt. Het is logischer om aan te nemen dat er meer kinderen verdrinken doordat het een zonnige dag is. Er is wel een causaal verband tussen de mogelijkheid tot verdrinken en het mooie weer, omdat er dan meer kinderen gaan zwemmen. Je ziet dat het hebben van achtergrondinformatie van belang is hier. Dit is dan ook een kenmerk van causale vraagstukken, want deze kunnen niet opgelost worden op basis van de data alleen, er is altijd achtergrondinformatie vereist. Een belangrijk statement is dat associatie en causaliteit over het algemeen niet hetzelfde zijn. Bovenstaand voorbeeld laat dat zien. Om causale verbanden mathematisch te benaderen, hebben we nieuwe notaties nodig, want de statistische taal zoals we die nu kennen is niet voldoende. Het doel van de standaard statistische analayse is om parameters van een verdeling te schatten. Met deze parameters kan je associaties tussen variabelen afleiden, zoals P (ziekte symptonen). Met deze kansfunctie bereken je niet of de symptonen de ziekte veroorzaken, maar alleen dat de symptonen een associatie hebben met de ziekte. Daarom moeten we nieuwe notaties introduceren, zodat we causale relaties uit kunnen drukken. 11

12 12 HOOFDSTUK 1. INLEIDING 1.1 Doel van het verslag Causaliteit is een onderwerp waarmee je vele kanten op kan. Dit verslag spitst zich toe op het bestuderen van twee paradoxen waarbij causaliteit een rol speelt. Het belang van dit verslag is om meer duidelijkheid over causaliteit te verkrijgen en om de paradoxen beter te begrijpen. In hoofdstuk 2 worden deze paradoxen, Simpsons paradox en Berksons paradox, geïntroduceerd. Daarna wordt het counterfactualmodel besproken in hoofdstuk 3. Dit model is nodig om te begrijpen wat Simpsons paradox met causaliteit te maken heeft. Verder wordt er in hoofdstuk 4 over grafen gesproken, dit is een andere manier om causale verbanden uit te drukken en met behulp daarvan lichten we Berksons paradox toe. Als laatste worden in hoofdstuk 5 de paradoxen nog eens besproken, maar dan in verband met causaliteit.

13 Hoofdstuk 2 Paradoxen 2.1 Simpsons Paradox In 1951 publiceerde E. H. Simpson een technisch rapport over een bepaalde paradox, in essentie dezelfde paradox was al eerder genoemd door de statistici Pearson in 1899 en Yule in De paradox werd eerst gezien als iets wat theoretisch gezien een mogelijkheid was, maar het is nu al vaker in werkelijkheid voorgekomen. Zo werd de Universiteit in California beschuldigd van seksediscriminatie, omdat ze procentueel gezien meer mannen dan vrouwen zouden toegelaten hebben. Toen men de toelatingen per faculteit ging bekijken, leek de discriminatie andersom te zijn. Dit is een typisch voorbeeld van Simpsons paradox, waarbij het effect omkeert als er naar de subpopulaties wordt gekeken. Ook treedt de paradox vaak op bij het behandelen van ziektes, daarom is het belangrijk dat deze paradox bekend is, zodat er geen foute conclusies worden getrokken. We bekijken in paragraaf eerst zo n bestaand voorbeeld uit de medische wereld, daarna bekijken we de wiskundige uitdrukking van de paradox in paragraaf en als laatste bekijken we wat de paradox met causaliteit te maken heeft in paragraaf De behandeling van nierstenen Om het gegeven begrip hierboven wat duidelijker te maken, bespreken we eerst een bestaand voorbeeld. Tussen 1972 en 1985 is er een onderzoek geweest voor het behandelen van nierstenen, waarbij het hebben van een open operatie (behandeling A) werd vergeleken met een operatie aan de nieren die percutane nefrolithotomie (behandeling B) heet. Nu bleek dat bij behandeling A 78% van de patiënten genazen en bij behandeling B 83%. Uit deze gegevens zou je kunnen concluderen dat behandeling B meer succes heeft dan behandeling A. Het effect bleek om te keren toen er naar verschillende groottes van de nierstenen werd gekeken. Nierstenen die kleiner waren dan 2 cm werden onderscheiden van de nierstenen die groter waren. Zie tabel

14 14 HOOFDSTUK 2. PARADOXEN Open operatie(behandeling A) Percutane nefrolihotomie(behandeling B) Genezen Behandeld Genezen Behandeld Kleine nierstenen 81(93%) (87%) 270 Grote nierstenen 192(73%) (69%) 80 Totaal 273(78%) (83%) 350 Tabel 2.1: Simpsons paradox In tabel 2.1 zie je dat zowel bij kleine als bij grote nierstenen, behandeling A een hogere frequentie genezen patiënten geeft dan behandeling B. Dat de succesfactoren opeens zijn omgedraaid komt doordat kleine nierstenen meestal werden behandeld met behandeling B en een behandeling van kleine nierstenen heeft nu eenmaal meer succes dan een behandeling van grote nierstenen. Daardoor lijkt behandeling B in totaal succesvoller. Dit is een mooi voorbeeld van Simpsons paradox, een paradox waarbij een bepaald effect, dat optreedt bij verschillende groepen, omkeert als deze groepen samen worden genomen. Dit wordt eigenlijk altijd veroorzaakt door verstorende factoren, zoals in dit voorbeeld de grootte van de nierstenen. Maar ook factoren zoals leeftijd en geslacht kunnen verstorende factoren zijn. Een voorbeeld hiervan is als iedereen boven de 50 altijd een bepaalde behandeling krijgt, omdat de andere behandelingen te risicovol zijn. Deze keuze heeft zeker invloed op succesfactoren van de verschillende behandelingen. Zonder deze verstorende factoren zou er geen paradox zijn. In de volgende paragraaf wordt de paradox verder uitgewerkt met behulp van voorwaardelijke kansen Simpsons paradox wiskundig uitgedrukt Zij {X, Y, Z} stochastische variabelen met waarden in {0, 1}. Mathematisch gezien kunnen we Simpsons paradox als volgt uitdrukken: P (Y = 1 X = 1) > P (Y = 1 X = 0) (2.1) P (Y = 1 X = 1, Z = 0) < P (Y = 1 X = 0, Z = 0) (2.2) P (Y = 1 X = 1, Z = 1) < P (Y = 1 X = 0, Z = 1) (2.3) Waarbij het optreden van gebeurtenis X = 1 ervoor zorgt dat de kans op Y = 1 groter is dan de kans op Y = 1 gegeven de gebeurtenis X = 0. Het omgekeerde gebeurt als we de vergelijking verder uitsplitsen met behulp van de stochast Z. Als we nu bovenstaand voorbeeld weer bekijken en voor X = 0 behandeling A nemen, voor X = 1 behandeling B en voor Z = 0 en Z = 1 kleine- en grote nierstenen, en Y = 1 het herstel. Dan kunnen we bovenstaand model als volgt interpreteren: De genezing van een patiënt met behandeling A heeft een betere uitwerking, gegeven dat de patiënt kleine- en grote nierstenen heeft, maar de genezing van een patiënt met behandeling B heeft een betere uitwerking over het geheel. Dus dit is net zoals we in het voorbeeld hebben gezien.

15 2.1. SIMPSONS PARADOX 15 Als we nu naar de vergelijkingen (2.1) t/m (2.3) kijken, zien we niet iets wat wiskundig gezien raar of fout is. Hiervoor schrijven we vergelijking (2.1) uit. P (Y = 1, X = 1, Z = 0) + P (Y = 1, X = 1, Z = 1) P (Y = 1 X = 1) = P (X = 1) P (Y = 1 X = 1, Z = 0)P (X = 1, Z = 0) + P (Y = 1 X = 1, Z = 1)P (X = 1, Z = 1) = P (X = 1) = P (Y = 1 X = 1, Z = 0)P (Z = 0 X = 1) + P (Y = 1 X = 1, Z = 1)P (Z = 1 X = 1) (2.4) En soortgelijk voor P (Y = 1 X = 0): P (Y = 1 X = 0) = P (Y = 1 X = 0, Z = 0)P (Z = 0 X = 0) + P (Y = 1 X = 0, Z = 1)P (Z = 1 X = 0) (2.5) Je weet dat vergelijkingen (2.2) en (2.3) gelden, maar dit zegt nog niets over de ongelijkheid in vergelijking (2.1). Je ziet namelijk in vergelijkingen (2.4) en (2.5) dat de frequentie, de grootte van de nierstenen die een bepaalde behandeling hebben gekregen, een rol speelt. Dit zorgt voor het omkeren van het teken. Stel nu dat: P (Z = 0 X = 0) = P (Z = 0 X = 1) en P (Z = 1 X = 0) = P (Z = 1 X = 1), dan komt, onder de patiënten die kleine nierstenen hebben, behandeling A procentueel gezien even vaak voor als behandeling B en net zo bij de patiënten met grootte nierstenen. Als dit gebeurd, moeten de ongelijkheden dezelfde kant op staan, anders is er sprake van een paradox. In het wiskundige model is dus helemaal geen sprake van een paradox. En we hebben in het voorbeeld met de nierstenen gezien dat het ook daadwerkelijk echt gebeurt. De vraag die nu opkomt, is welke behandeling er nu gebruikt moet worden. Uit het model dat we hier nu hebben kunnen we daar geen antwoord op krijgen, want dit geeft slechts de samenhang tussen de variabelen weer en niet het daadwerkelijke effect Simpsons paradox en Causaliteit Mathematisch gezien kloppen de vergelijkingen (2.1) t/m (2.3), je kan alleen niet vanuit deze vergelijkingen iets zeggen over een effect. Wat we hier hebben bekeken zijn namelijk niet de causale effecten. Als we de causale interpretatie van deze vegelijkingen zouden bekijken betreft het dan ook een paradox, want dan gebeurt er iets wat zichzelf tegenspreekt. We zullen dan ook zien dat bij vergelijking (2.1) het teken zou omklappen. Om te begrijpen hoe we Simpsons paradox kunnen ontkrachten, moeten we weten waarom de causale interpretatie van vergelijking (2.1) niet klopt. Hiervoor moeten we meer over causaliteit te weten komen.

16 16 HOOFDSTUK 2. PARADOXEN 2.2 Berksons Paradox Stel we gooien met twee zuivere munten 1 en 2, dan zegt de uitkomst van munt 1 niets over munt 2, dus munt 1 en munt 2 zijn onafhankelijk. Stel nu dat bekend is dat minstens één van de twee muntjes als uitkomst kop heeft, dan geldt als munt 1 als uitkomst munt heeft, dat munt 2 kop moet zijn. We zien dat munt 1 en munt 2 niet meer onafhankelijk zijn, maar conditioneel afhankelijk. Dit is een eenvoudig voorbeeld van Berksons paradox, waarbij twee onafhankelijke gebeurtenissen, conditioneel afhankelijk zijn door een gevolg dat de beide gebeurtenissen gemeen hebben. Als gevolg van de paradox kunnen er verkeerde conclusies worden getrokken. Dit is al vaker in de praktijk voorgekomen, en dan vooral in ziekenhuizen. Dit komt vaak doordat de bevolking in een ziekenhuis niet te vergelijken is met de gehele bevolking van bijvoorbeeld een land. Hier werd voor het eerst op gewezen door Berkson in 1946 door foute conclusies over het ontstaan van diabetes door cholecystitis, een ontsteking van de galblaas. Het was zelfs zo dat men galblazen ging verwijderen om diabetes te behandelen. Men dacht een verband te hebben gevonden tussen cholecystitis en diabetes, doordat ze in het ziekenhuis het percentage mensen die aan cholecystitis leden en diabetes hadden, vergeleken met mensen die geen diabetes hadden als controle-groep. We gaan dit voorbeeld van Berkson uitgebreider behandelen in paragraaf 2.2.1, daarna bekijken we wat Berksons paradox met causaliteit te maken heeft in paragraaf Berksons voorbeeld We beschouwen het bovenstaande voorbeeld over cholecystitis en diabetes. De verhoudingen van het hebben van diabetes en cholecystitis in het ziekenhuis waren zoals in tabel 2.2. Cholecystitis(A) Geen Cholecystitis( A c ) Totaal Diabetes(B) Geen Diabetes(B c ) Totaal Tabel 2.2: Berksons paradox We stellen dat in de gehele populatie de kans op diabetes 1% is en de kans op cholecystitis 3%. Oftewel P (A) = 0.03, P (A c ) = 0.97, P (B) = 0.01 en P (B c ) = Neem verder aan dat Z een gebeurtenis, die betekent dat men in het ziekenhuis is. We gaan laten zien dat we inderdaad met een geval van Berksons paradox te maken hebben. Hiervoor nemen we aan dat in de gehele populatie, dus niet alleen in het ziekenhuis, geldt dat het hebben van diabetes en cholecystitis onafhankelijk is. Er geldt: P (A B) = P (A)P (B) = = (2.6) P (A B Z) = P (A Z)P (B Z) = = (2.7)

17 2.2. BERKSONS PARADOX 17 Als we aannemen dat de frequenties uit de tabel de daadwerkelijke kansen voorstellen, zien we dat in vergelijking (2.6) diabetes en cholecystitis onafhankelijk zijn, maar in vergelijking (2.7) zien we dat de beide ziektes afhankelijk zijn, gegeven dat we in het ziekenhuis zijn. Zodoende zien we dat we hier met een geval van Berksons paradox te maken hebben. We kunnen niet zomaar stellen dat het hebben van cholecystitis en diabetes in de gehele bevolking onafhankelijk is, daarvoor moeten we eerst weten of er wel een causaal verband is tussen deze twee ziektes Berkson s Paradox en Causaliteit Berkson liet zien dat cholecystitis en diabetes niet met elkaar in verband hoeven te staan. Hij vergeleek patiënten met cholecystitis met mensen die naar het ziekenhuis kwamen voor een bril. Van deze oorzaken dacht hij zeker te weten dat er geen verband was. Het hebben van een bril en het krijgen van cholecystitis was volgens Berkson slechts een associatie. Om te laten zien dat cholecystitis en diabetes geen causaal verband hebben is een stuk lastiger, hiervoor hebben we te maken met missende data. Om hier wat over te kunnen zeggen, moeten we eerst meer te weten komen over conditionele afhankelijkheden en causale verbanden. Dit wordt behandeld in hoofdstuk 4 over grafen.

18 18 HOOFDSTUK 2. PARADOXEN

19 Hoofdstuk 3 Het counterfactualmodel Causaliteit kan op verschillende manieren bekeken en berekend worden. In dit hoofdstuk kijken we naar het counterfactualmodel, hiermee kunnen we de standaard statistische taal uitbreiden, zodat we causale verbanden kunnen berekenen. Dit model gaan we in hoofdstuk 6 ook gebruiken om Simpsons paradox met behulp van causaliteit toe te lichten. We zien hoe we causale effecten kunnen kwantificeren met behulp van het counterfactualmodel in paragraaf 3.1, het verschil tussen associatie en causaliteit wordt toegelicht in paragraaf 3.2, daarna bekijken we een voorbeeld om het counterfactualmodel beter te begrijpen in paragraaf 3.3. Als laatste bekijken we de do-notatie in paragraaf 3.4, dit is een andere benadering om causale verbanden te kwantificeren. 3.1 Het counterfactual model We nemen aan dat we twee binaire stochastische variabelen X en Y hebben. We stellen dat X = 0 staat voor niet behandeld, X = 1 voor behandeld, Y = 0 voor het niet hebben van een ziekte en Y = 1 voor het hebben van een ziekte. Behandeling heeft hier een bredere betekenis, niet alleen het krijgen van medicijnen of een operatie, maar bijvoorbeeld ook dat een persoon rookt of vlees eet. We willen weten of de behandeling invloed heeft op de ziekte. De associatie tussen X en Y kunnen we al kwantificeren met behulp van bijvoorbeeld correlaties, maar om de invloed van de behandeling op de ziekte te bepalen, moeten we het causale effect berekenen. Hiervoor moeten we nieuwe variabelen introduceren. Een persoon wordt behandeld of wordt niet behandeld. Dus je hebt bij binaire stochastische variabelen altijd twee mogelijkheden, en afhankelijk van de keuze van X zie je wat het met de ziekte Y doet. Stel een persoon wordt behandeld, dan kan je de associatie met Y berekenen, maar je kan dan niet meer weten wat er was gebeurd als de persoon niet was behandeld. We introduceren twee nieuwe variabelen (C 0, C 1 ), de potentiële uitkomsten. Er geldt C 0 is gelijk aan Y als X = 0, en C 1 is gelijk aan Y als X = 1. Dus als een persoon wordt behandeld observeren we C 1 en is C 0 de counterfactual, want dat zou de uitkomst zijn geweest als de persoon niet was behandeld. Je observeert dus altijd maar één uitkomst. We hebben het volgende verband: Y = { C0 als X = 0; C 1 als X = 1. (3.1) 19

20 20 HOOFDSTUK 3. HET COUNTERFACTUALMODEL Oftewel in het algemeen geldt: Y = C X (3.2) Dit wordt in het counterfactual model de consistentie relatie genoemd. Met behulp van de potientiële uitkomsten kunnen we het causale effect θ definiëren. Hiermee kunnen we bepalen of X invloed heeft op Y, door te bekijken of het causale effect niet gelijk is aan 0. Als het causale effect ongelijk is aan 0 kunnen we zien wat het effect van X op Y is. Definitie 1. Het causale effect wordt als volgt gedefinieërd: θ = E(C 1 ) E(C 0 ) θ is dus de verwachting van de ziekte als iedereen behandeld zou worden min de verwachting van de ziekte als iedereen niet zou worden behandeld. We kunnen ook de associatie α berekenen, de associatie is de verwachting van de ziekte van degene die behandeld worden min de verwachting van de ziekte van degene die niet behandeld worden. Definitie 2. De associatie wordt als volgt gedefinieërd: α = E(Y X = 1) E(Y X = 0) Je ziet dat hier de potentiële uitkomsten geen rol spelen. De associatie kunnen we dus al bepalen als we niets over de potentiële uitkomsten aannemen, bijvoorbeeld bij een observationeel onderzoek. We behandelen een klein niet-realistisch voorbeeld om het te verduidelijken. We nemen nu voor X = 0 niet roken, X = 1 wel roken, Y = 0 geen leveraandoening en Y = 1 wel leveraandoening. Stel dat we een populatie hebben zoals in tabel 3.1, 8 personen waarvan je kan zien wat de stochast Y is als ze zouden roken en als ze niet zouden roken. De waarden met het sterretje zijn degenen die we niet zouden observeren. C 0 C * 0 0 * 0 0 * 0 0 * 1 * 1 1 * 1 1 * 1 1 * 1 Tabel 3.1: De potentiële uitkomsten We hebben hier vier rokers en vier niet rokers. Verder hebben we met een opmerkelijke populatie te maken, de personen uit deze populatie zijn namelijk of gedoemd of overlevers, bijvoorbeeld bij de eerste vier personen in de tabel maakt het niet uit of ze zouden roken of niet, ze krijgen geen leveraandoening. Bij de laatste vier personen in de tabel geldt juist dat ze sowieso een

21 3.1. HET COUNTERFACTUAL MODEL 21 leveraandoening krijgen. In dit voorbeeld heeft roken dus geen effect op het krijgen van een leveraandoening, want er geldt steeds C 0 = C 1. Stel dat nu de X s en Y s die in tabel 3.2 staan bij de potentiele uitkomsten horen. Merk op dat de consistentierelatie Y = C X geldt. Y X C 0 C * * * * * * * * 1 Tabel 3.2: Alle gegevens In een observationeel onderzoek zou je verkeerde conclusies kunnen trekken, omdat je dan alleen de X s en de Y s observeert en dan lijkt het alsof roken wel effect heeft op het krijgen van een leveraandoening. Want als je rookt (X = 1) krijg je een leveraandoening (Y = 1) en als je niet rookt (X = 0) krijg je geen leveraandoening (Y = 0). Je bekijkt dan de associatie tussen X en Y. Wat je dan niet weet is dat als bijvoorbeeld de eerste vier uit tabel 3.2 wel zouden roken, ze ook geen leveraandoening zouden krijgen. Dus in dit eenvoudige voorbeeld zie je dat er geen causaal verband is tussen roken en het krijgen van een leveraandoening. We berekenen voor de duidelijkheid het causale effect van dit voorbeeld met behulp van definitie 1: θ = E(C 1 ) E(C 0 ) = 1 8 C 1i i=1 i=1 C 0i = = Er is dus geen causaal effect tussen X en Y, dit hebben we net ook in de tabel gezien. We berekenen de associatie van dit voorbeeld met behulp van definitie 2: α = E(Y X = 1) E(Y X = 0) = = 1 Je ziet dat er een associatie is tussen roken en het krijgen van een leveraandoening. Dit hadden we al uit de tabel geconcludeerd. In dit voorbeeld is er dus geen causaal verband tussen roken en het krijgen van een leveraandoening, maar wel een associatie.

22 22 HOOFDSTUK 3. HET COUNTERFACTUALMODEL We hebben in het voorbeeld gezien dat er wel een associatie was tussen X en Y, maar geen causaal verband. Een manier waarmee we die associatie kunnen verklaren is door de stochast Z, die we de covariaat noemen. Z kan bijvoorbeeld staan voor het geslacht of voor leeftijd. Stel je bent een ziekte Y aan het bestuderen, die vooral onder mannen voorkomt, en je wilt weten wat het verband is van de ziekte met het eten van veel vlees, waarschijnlijk vind je dan een associatie tussen veel vlees eten en de ziekte, als je aanneemt dat vooral mannen veel vlees eten. Om nu het causale effect te kwantificeren, definiëren we het conditionele causale effect. Hiermee kan je bijvoorbeeld het causale effect van een bepaalde aandoening onder mannen apart berekenen van het causale effect van die aandoening onder vrouwen. Definitie 3. We definiëren het conditionele causale effect: θ z = E(C 1 Z = z) E(C 0 Z = z) Stel Z = 0 als je niet drinkt en Z = 1 als je wel drinkt. Dan is θ 0 het causale effect onder de niet drinkers en θ 1 het causale effect onder de drinkers. Om te zien of er een samenhang is tussen X en Y kunnen we ook de conditionele kansen P (Y = y X = x) berekenen. Er geldt, als Z alleen de waarden {0, 1} kan aannemen: P (Y = y X = x) = P (Y = y X = x, Z = 0)P (X = x, Z = 0) + P (Y = y X = x, Z = 1)P (X = x, Z = 1) P (X = x) (3.3) Zoals we weten kunnen we nu nog niets zeggen over het causale verband tussen X en Y, hiervoor moeten we de potentiële uitkomsten bekijken. Om te zien of er een causaal verband is moeten we de kansen P (C x = y) bepalen. Er geldt: P (C x = y) = P (C x = y Z = 0)P (Z = 0) + P (C x = y Z = 1)P (Z = 1) (3.4) Als er geen causaal verband is tussen X en Y en Y 0, 1 geldt P (C 0 = y) = P (C 1 = y), omdat X hier geen invloed heeft op de uitkomst. We hebben gezien wat het verschil is tussen het berekenen van een associatie en dat van een causaal verband tussen X en Y. Stel nu dat je twee stochastische variabelen, X en Z, hebt waarvan je wilt weten of ze een causaal effect hebben op Y. Hiervoor introduceren we een nieuwe consistentie-relatie: Y = C XZ (3.5)

23 3.2. ASSOCIATIE IS GEEN CAUSALITEIT! 23 Het berekenen van het causale effect van X op Y gaat dan als volgt: θ X = E(C 1Z ) E(C 0Z ) = E{E(C 1Z Z)} E{E(C 0Z Z)} = (E(C 10 ) E(C 00 ))P (Z = 0) + (E(C 11 ) E(C 01 ))P (Z = 1) (3.6) En soortgelijk gaat het voor het causale effect van Z op Y : θ Z = (E(C 01 ) E(C 00 ))P (X = 0) + (E(C 11 ) E(C 10 ))P (X = 1) (3.7) 3.2 Associatie is geen causaliteit! Zoals we in de inleiding hebben gezien geldt dat associatie over het algemeen niet gelijk is aan causaliteit, oftewel α θ. Als we de waarde van X random en onafhankelijk toekennen, geldt α = θ. X is dan onafhankelijk van (C 0, C 1 ). Je hebt (C 0, C 1 ) die al vast staan, maar de X verandert onafhankelijk van die C s. Dit tonen we hieronder aan: α = E(Y X = 1) E(Y X = 0) = E(C 1 X = 1) E(C 0 X = 0) = E(C 1 ) E(C 0 ) (want C 0 en C 1 onafhankelijk van X) = θ (3.8) Intuïtief gezien is dit logisch, want vaak wordt er voor een bepaalde behandeling gekozen afhankelijk van de patiënt of het staat bijvoorbeeld al vast of iemand rookt of niet. Maar als er onafhankelijk wordt gekozen of een persoon wel of niet wordt behandeld hangt dit niet meer van de omstandigheden af. Zoals je in de vorige paragraaf hebt gezien zijn er causale verbanden uitgerekend, maar dit was steeds met informatie die we niet weten. Zo hebben we steeds aangenomen dat we informatie over C 0 en C 1 hadden, terwijl je met echte data er altijd maar één zou kunnen weten. Verder is er ook aangenomen dat roken en drinken elkaar beïnvloeden. We kunnen het causale effect dus niet berekenen met alleen observationele data, maar er zijn altijd niet-testbare aannames nodig, tenzij we de waarde voor X random toewijzen. Als we het causale effect niet kunnen berekenen, kunnen er wel boven- en ondergrenzen voor het causale effect bepaald worden. Stel we hebben de volgende data uit een observationele studie: (X 1, Y 1 ), (X n, Y n ) met X i en Y i binaire stochastische variabelen voor alle i = 1,, n. We hebben hier alleen observationele data, dus we kunnen het causale effect niet uitrekenen. We gaan hier laten zien dat je wel grenzen kan berekenen voor het causale effect. We nemen aan P (X = 0) = P (X = 1) = 1 2. Er geldt:

24 24 HOOFDSTUK 3. HET COUNTERFACTUALMODEL θ = E[C 1 ] E[C 0 ] = E[C 1 X = 1]P (X = 1) + E[C 1 X = 0]P (X = 0) E[C 0 X = 1]P (X = 1) E[C 0 X = 0]P (X = 0) = 1 2 α + E[C 1 X = 0]P (X = 0) E[C 0 X = 1]P (X = 1) Dus in dit voorbeeld geldt dat θ [ 1 2 α 1 2 E[C 0 X = 1], 1 2 α E[C 1 X = 0]] en omdat hier E[C 0 X = 1], E[C 1 X = 0] [0, 1], volgt θ [ 1 2 α 1 2, 1 2 α ]. Merk op dat afhankelijk van α, nul binnen de grenzen ligt, dan zegt dit nog niets over het causale effect. Slechts als nul niet in het interval kan liggen, kan je zeggen dat er een causaal effect is. In dit voorbeeld ligt α [ 1, 1], dus hier ligt nul altijd in het interval. 3.3 Het leveraandoeningsvoorbeeld We hebben in de vorige twee paragrafen gezien hoe we causale verbanden kunnen kwantificeren, in deze paragraaf gaan we dit toepassen in een voorbeeld. We hebben 3 stochastische variabelen; X, Y en Z. Ze stellen het volgende voor: X = 0 niet-roken X = 1 roken Z = 0 niet-drinken Z = 1 drinken Y = 0 geen leveraandoening Y = 1 leveraandoening We willen met dit voorbeeld het verschil tussen het causale effect en de associatie bekijken. We beschouwen hiervoor een heel specifiek model, dat niet erg realistisch is, om gevoel te krijgen voor het begrip causaliteit. Voordat we het causale effect kunnen berekenen, moeten we de potentiële uitkomsten weten. We gebruiken de consistentie-relatie die is gegeven in vergelijking (3.5). Als we die consistentierelatie uitschrijven volgt: C 00 als X = 0 en Z = 0 C Y = 01 als X = 0 en Z = 1 C 10 als X = 1 en Z = 0 C 11 als X = 1 en Z = 1 (3.9) We nemen aan dat in ons voorbeeld alle potentiële uitkomsten C XZ Bernoulli verdeeld zijn.

25 3.3. HET LEVERAANDOENINGSVOORBEELD 25 C 00 Ber(p) C Y = 01 Ber(q) (3.10) C 10 = C 00 C 11 = C 01 Ook nemen we aan dat p < q geldt. Hiermee nemen we indirect aan dat drinken schadelijk is voor de lever. We kunnen dan ook een causaal verband tussen drinken en het krijgen van een leveraandoening verwachten. Verder geldt C 00 = C 10 en C 01 = C 11, hiermee nemen we aan dat de verdelingen voor drinken hetzelfde zijn, en zo ook voor niet drinken. Verder nemen we aan dat X en Z ook Bernoulli verdeeld zijn en dat ze van dezelfde uniforme stochast afhangen. X = 1 [0,px](U) (3.11) Z = 1 [0,pz](U) (3.12) Met U uniform (0, 1) verdeeld en p x < p z. Hieruit volgt dat iedereen die rookt, ook drinkt. Dus voor de verdeling van X en Z geldt dan: P (X = 0, Z = 0) = 1 p z P (X = 0, Z = 1) = p z p x P (X = 1, Z = 0) = 0 P (X = 1, Z = 1) = p x We zien dat X en Z afhankelijk zijn. We gaan in dit voorbeeld eerst bekijken of er een causaal verband is tussen roken en het krijgen van een leveraandoening. Hiervoor moeten we de verdelingen van C 0Z en C 1Z vergelijken, we gebruiken vergelijking (3.4). P (C 1Z = 1) = P (C 1Z = 1 Z = 0)P (Z = 0) + P (C 1Z = 1 Z = 1)P (Z = 1) = P (C 10 = 1)P (Z = 0) + P (C 11 = 1)P (Z = 1) = p + (q p)p z P (C 0Z = 1) = P (C 0Z = 1 Z = 0)P (Z = 0) + P (C 0Z = 1 Z = 1)P (Z = 1) = P (C 00 = 1)P (Z = 0) + P (C 01 = 1)P (Z = 1) = p + (q p)p z

26 26 HOOFDSTUK 3. HET COUNTERFACTUALMODEL We zien dat geldt P (C 1Z = 1) = P (C 0Z = 1). Dit betekent dat er geen causaal verband is tussen roken en het krijgen van een leveraandoening in dit specifieke model, want of er nu wel of niet gerookt wordt de kans op een leveraandoening blijft even groot. Omdat we hier met Bernouilli verdeelde stochasten werken, geldt P (C 1Z = 1) = E(C 1Z ) en ook P (C 0Z = 1) = E(C 0Z ). Het causale effect is dan ook gelijk aan nul, er geldt namelijk θ X = E(C 1Z ) E(C 0Z ) = P (C 1Z = 1) P (C 0Z = 1) = 0. Dit causaal effect wordt veroorzaakt doordat C 0Z = C 1Z. We bekijken nu of er een samenhang is tussen roken en het krijgen van een leveraandoening. Hiervoor gebruiken we vergelijking (3.3). Als eerste berekenen we de kans op een leveraandoening gegeven dat de persoon rookt. P (Y = 1 X = 1, Z = 0)P (X = 1, Z = 0) + P (Y = 1 X = 1, Z = 1)P (X = 1, Z = 1) P (Y = 1 X = 1) = P (X = 1) = P (C 10 = 1)P (X = 1, Z = 0) + P (C 11 = 1)P (X = 1, Z = 1) P (X = 1) = p 0 + q p x p x = q Je ziet dat er in bovenstaande vergelijking gebruik wordt gemaakt van de potentiële uitkomsten. Dit kan, omdat als is gegeven dat X = x en Z = z, we weten naar welke potentiële uitkomst, die gelijk is aan Y, er gekeken moet worden. Nu bekijken we de kans op een leveraandoening gegeven dat de persoon niet rookt, zodat we de uitkomsten kunnen vergelijken en we ook de associatie α X kunnen berekenen. P (Y = 1 X = 0, Z = 0)P (X = 0, Z = 0) + P (Y = 1 X = 0, Z = 1)P (X = 0, Z = 1) P (Y = 1 X = 0) = P (X = 0) = p (1 p z) + q (p z p x ) 1 p x = p 1 p z 1 p x + q p z p x 1 p x Hier zien we dat tussen roken en het krijgen van een leveraandoening wel degelijk een samenhang is, aangezien P (Y = 1 X = 1) P (Y = 1 X = 0). Ook hier geldt E(C 1Z X = 1) = P (Y = 1 X = 1) en E(C 0Z X = 0) = P (Y = 1 X = 0), dan geldt voor de associatie α X = E(C 1Z X = 1) E(C 0Z X = 0) = P (Y = 1 X = 1) P (Y = 1 X = 0) = q p 1 pz 1 p x + q pz px 1 p x. Als je nu nog niets over causaliteit zou weten, had je hier misschien geconcludeerd dat roken invloed heeft op het krijgen van een leveraandoening. We hebben gezien dat in ons voorbeeld er geen causaal verband is tussen roken en het krijgen van een leveraandoening, maar wel een associatie. Zoals we in paragraaf 3.1 hebben gezien is er dan een covariaat die de associatie veroorzaakt, in dit voorbeeld is dat Z. We gaan berekenen of er een causaal verband is tussen drinken en het krijgen van een leveraandoening. Hiervoor vergelijken we de verdelingen van C X0 en C X1.

27 3.3. HET LEVERAANDOENINGSVOORBEELD 27 P (C X1 = 1) = P (C X1 = 1 X = 0)P (X = 0) + P (C X1 = 1 X = 1)P (X = 1) = P (C 01 = 1)P (X = 0) + P (C 11 = 1)P (X = 1) = q(1 p x ) + qp x = q P (C X0 = 1) = P (C X0 = 1 X = 0)P (X = 0) + P (C X0 = 1 X = 1)P (X = 1) = P (C 00 = 1)P (X = 0) + P (C 10 = 1)P (X = 1) = pp x + p(1 p x ) = p Dus hier geldt P (C X0 = 1) = p < q = P (C X1 = 1). Er is in ons voorbeeld dus een causaal verband tussen drinken en het hebben van een leveraandoening, namelijk als je drinkt is de kans op een leveraandoening groter. Het causaal effect is dan gelijk aan: θ Z = (E(C 01 ) E(C 00 ))P (X = 0) + (E(C 11 ) E(C 10 ))P (X = 1) = (q p)(1 p x ) + (q p)p x = q p Concluderend is er in dit voorbeeld wel een causaal verband tussen drinken het krijgen van een leveraandoening, maar niet tussen roken en het krijgen van een leveraandoening. De associatie tussen roken en het krijgen van een leveraandoening wordt veroorzaakt door het causale verband tussen drinken en het krijgen van een leveraandoening uit ons voorbeeld. Om het allemaal wat beter te begrijpen en om bovenstaand voorbeeld met wat andere aannames te bekijken gaan we dit voorbeeld simuleren met het programma R. Ook zie je dat we de kans op het niet krijgen van een leveraandoening gegeven roken of drinken nog niet hebben bepaald en is het interessant om wat plots te bestuderen. We bekijken twee gevallen, eerst het voorbeeld met iets aangepaste aannames dan hierboven daarna bekijken we hetzelfde voorbeeld alleen met de stochasten X en Z onafhankelijk. We hebben in onze simulatie een steekproef van 25 personen. We doen een Monte Carlo simulatie waarbij we 100 keer een nieuwe steekproef van 25 personen wordt gesimuleerd. De codes voor deze simulaties zijn te vinden in appendix in de paragrafen 6.1 en We nemen alle potentiële uitkomsten onafhankelijk van elkaar, maar er geldt wel dat C 00 Ber(p) en C 10 Ber(p) en zo ook voor C 01 Ber(q) en C 11 Ber(q) met p < q. Dit omdat we nog steeds aannemen dat er minder mensen zijn die niet drinken dan wel drinken. We nemen aan dat p = 0.3, q = 0.7. Verder nemen we aan dat 45% van de populatie rookt en 70% drinkt, dus p x = 0.45 en p z = 0.7. We simuleren de assocatie en het causale verband. Er volgt:

28 28 HOOFDSTUK 3. HET COUNTERFACTUALMODEL ˆP (Y = 1 X = 0) = 0.49 ˆP (Y = 1 X = 1) = 0.70 ˆP (Y = 0 X = 0) = 0.51 ˆP (Y = 0 X = 1) = 0.30 Er geldt dat ˆP (Y = 1 X = 1) > ˆP (Y = 1 X = 0) en ook ˆP (Y = 0 X = 0) > ˆP (Y = 0 X = 1). Dit geeft slechts de associatie tussen de variabelen weer. Dus we kunnen hieruit niet concluderen dat als je niet rookt de kans op een leveraandoening kleiner is dan als je wel rookt, al lijkt het wel zo te zijn. Als we het causale verband simuleren zien we dat die conclusie inderdaad niet klopt. ˆP (C 0Z = 1) = 0.59 ˆP (C 1Z = 1) = 0.57 ˆP (C 0Z = 0) = 0.41 ˆP (C 1Z = 0) = 0.43 Je ziet ˆP (C 0Z = 1) ˆP (C 1Z = 1) en ˆP (C 0Z = 0) ˆP (C 1Z = 0). Ze zijn niet exact gelijk aan elkaar, omdat we een simulatie bekijken. Dus ook uit deze simulatie volgt dat er geen causaal verband is tussen X en Y. We zetten de associatie tussen roken het krijgen van een leveraandoening(α X ) uit tegen het causale effect van roken op het krijgen van een leveraandoening(θ X ), zie figuur 3.1. We zien dat θ X rond nul zit, hieruit volgt dat er geen sprake is van een causaal effect. Het causale effect is niet steeds exact nul, doordat we een simulatie bekijken. Ook zien we dat α X rond 0.2 zit, dus de associatie is ongeveer 0.2. Verder geeft de zwarte lijn aan waar α X = θ X geldt, we zien in de figuur dat er geen één stip op de lijn ligt, dus α X en θ X zijn niet aan elkaar gelijk. Figuur 3.1: α X uitgezet tegen θ X, en de lijn α X = θ X. Als laatst bekijken we nog de simulatie van het causale verband tussen drinken en het krijgen van een leveraandoening.

29 3.3. HET LEVERAANDOENINGSVOORBEELD 29 ˆP (C X0 = 1) = 0.31 ˆP (C X1 = 1) = 0.70 ˆP (C X0 = 0) = 0.69 ˆP (C X1 = 0) = 0.30 Hier zie je dat geldt ˆP (C X1 = 1) > ˆP (C X0 = 1) en ˆP (C X0 = 0) > ˆP (C X1 = 0). Dus er is wel een causaal verband tussen Z en Y in deze simulatie. Namelijk de kans dat je een leveraandoening krijgt is groter als je drinkt dan als je niet drinkt en de kans dat je geen leveraandoening krijgt is groter als je niet drinkt dan als je wel drinkt. Het causale effect is dan gelijk aan: ˆθ Z = 0.39 Je ziet dat dit model niet erg realistisch is, aangezien we bijvoorbeeld hebben aangenomen dat als je drinkt je ook rookt. Wel geeft het een goed beeld hoe we met deze variabelen kunnen rekenen en hoe we kunnen zien of er een causaal verband is of slechts een associatie. Verder heb je gezien dat we hier gebruik hebben gemaakt van het feit dat we alle potentiële uitkomsten wisten. In een observationeel onderzoek kan je er natuurlijk maar één zien, daarom doen we nog een simulatie waarbij X en Z random gegeneerd worden en onafhankelijk zijn van elkaar. We hebben in paragraaf 3.2 gezien, dat causaliteit en associatie dan gelijk zijn. 2. Hier nemen we dezelfde verdelingen als hierboven voor de potentiële uitkomsten, maar we nemen X en Z dus onafhankelijk. Dus ze hangen beide af van een andere uniforme verdeelde stochast. We hebben nu X en Z random gekozen, dus de verbanden tussen roken en drinken gelden niet meer. Voor de verdeling van X en Z geldt nu: P (X = 0, Z = 0) = (1 p z ) (1 p x ) P (X = 0, Z = 1) = (1 p x ) p z P (X = 1, Z = 0) = p x (1 p z ) P (X = 1, Z = 1) = p x p z

30 30 HOOFDSTUK 3. HET COUNTERFACTUALMODEL We voeren de simulatie nu opnieuw uit. We zien in figuur 3.2 θ X uitgezet tegen α X en θ Z uitgezet tegen α Z, in de figuur kunnen we zien dat bij beide de α s met de θ s overeen komen, want ze liggen rond de zwarte lijn waarvoor geldt α = θ. Dus je ziet dat de waarden van de associatie en het causale verband hetzelfde zijn. Doordat hier de waarden van de associatie gelijk zijn aan de waarden van het causale effect, hoeven we niet de potentiële uitkomsten te weten om dit verband uit te kunnen rekenen. Ook hier zien we geen causaal verband tussen X en Y, want hier zitten α X en θ X rond nul. We zien wel een causaal verband tussen Z en Y, want α Z en θ Z zijn beide groter dan nul. Figuur 3.2: α X uitgezet tegen θ X en α Z uitgezet tegen θ Z, ook zijn de lijnen α X = θ X en α Z = θ Z geplot.

31 3.4. DO-NOTATIE Do-notatie We hebben tot nu toe gezien hoe we causale verbanden kunnen kwantificeren met behulp van het counterfactualmodel. Een andere benadering is de zogeheten do-notatie. Deze notatie wordt veel gebruikt, vooral door Pearl, daarom is het belangrijk dat deze benadering besproken wordt. Deze notatie is te vergelijken met het counterfactualmodel. Bij het counterfactualmodel hebben we gezien dat ieder persoon een C 0 en een C 1 heeft, de één is voor als de persoon niet behandelend zou worden en de ander voor als de persoon wel zou worden behandeld. In de werkelijkheid krijg je maar één van de potientiële uitkomsten te zien, namelijk degene waarvoor de persoon bijvoorbeeld heeft gekozen of wat hem is opgedragen, deze keuze wordt dan niet onafhankelijk van de omstandigheden gemaakt. Soortgelijk gaat het ook met de do-notatie, hier wordt geen gebruik gemaakt van de potentiële uitkomsten, maar van de notatie do(x = 1), wat in woorden betekent dat je iemand forceert om te worden behandeld, zodat dit volledig onafhankelijk is van andere omstandigheden. Stel dat je bijvoorbeeld wilt onderzoeken wat het effect van roken op het krijgen van longkanker is, dan zal je normaal gesproken in een experiment aan de proefpersonen vragen of ze roken of niet. Bij de do-notatie (in een niet-realistisch experiment) forceer je deel van een groep om te roken en het andere deel van die groep om niet te roken. Hierdoor hangt het niet meer van omstandigheden af of een persoon rookt of niet en kan je uitrekenen wat roken voor invloed heeft op longkanker. Bij de do-notatie wordt de notatie P (Y = 1 do(x = 1)) gebruikt, wat in woorden betekent, de kans dat de genezing Y = 1 gebeurt als de behandelingsconditie X = 1 uniform over de gehele populatie wordt geforceerd. Doordat de do-notatie en het counterfactual model overeenkomen, definiëren we P (Y = 1 do(x = 1)) = P (C 1 = 1). We willen nu een vergelijking voor P (Y = 1 do(x = 1)) afleiden, dit doen we met behulp van de vergelijking die we kennen voor P (C 1 = 1). Er geldt: P (C x = y) = P (C x = y Z = 0)P (Z = 0) + P (C x = y Z = 1)P (Z = 1) = P (C x = y X = x, Z = 0)P (Z = 0) + P (C x = y X = x, Z = 1)P (Z = 1) (want C x X Z) = P (Y = y X = x, Z = 0)P (Z = 0) + P (Y = y X = x, Z = 1)P (Z = 1) = P (Y = y do(x = x)) Er geldt nu dat C x X Z, maar aangezien we weten met welke X we te maken hebben geldt C x = Y. Dus kunnen we Y X Z noteren. We kunnen onder de aanname dat Y X Z, P (Y = y do(x = x)) voortaan noteren als: P (Y = y do(x = x)) = P (Y = y X = x, Z = 0)P (Z = 0) + P (Y = y X = x, Z = 1))P (Z = 1) (3.13)

32 32 HOOFDSTUK 3. HET COUNTERFACTUALMODEL Het leveraandoeningsvoorbeeld De do-notatie is vergeleken met het counterfactualmodel, om het te allemaal te verduidelijken bekijken we nog een voorbeeld. We gebruiken het leveraandoeningsvoorbeeld die geïntroduceerd is in hoofdstuk 3.3. We berekenen hier alleen het causale verband tussen drinken en het krijgen van een leveraandoening. We gebruiken vergelijking (3.14): P (Y = 1 do(z = 1)) = P (Y = 1 Z = 1, X = 0)P (X = 0) + P (Y = 1 Z = 1, X = 1)P (X = 1) = P (C 01 = 1)P (X = 0) + P (C 11 = 1)P (X = 1) = q En soortgelijk voor P (Y = 1 do(z = 0)) geldt: P (Y = 1 do(z = 0)) = P (Y = 1 Z = 0, X = 0)P (X = 0) + P (Y = 1 Z = 0, X = 1)P (X = 1) = P (C 00 = 1)P (X = 0) + P (C 10 = 1)P (X = 1) = p We zien dat geldt P (Y = 1 do(z = 0)) = p < q = P (Y = 1 do(z = 1)). Dus ook hier geldt dat er in dit voorbeeld een causaal verband is tussen drinken en het krijgen van een leveraandoening, namelijk dat de kans op een leveraandoening groter is gegeven dat iemand drinkt dan de kans op een leveraandoening als iemand niet drinkt.

33 Hoofdstuk 4 Acyclische Gerichte Grafen De eerste keer dat causale verbanden op een mathematische manier werden weergegeven was rond 1920 door Sewall Wright. Hij gebruikte een combinatie van formules en grafen om zo causale relaties uit te drukken. Hij had een lineaire vergelijking opgesteld, maar dit gaf de causale verbanden nog niet goed weer, daarom maakte hij ook gebruik van grafen. Doordat grafen goed van pas komen om relaties tussen variabelen weer te geven, gebruiken we ze om causale verbanden weer te geven. We gaan deze benadering ook gebruiken in hoofdstuk 6 om Berksons paradox verder toe te lichten. Voor deze benadering moeten we eerst meer te weten komen over acyclische gerichte grafen. Dit gebeurt in paragraaf 4.1, daarna, in paragraaf 4.2, bekijken we hoe grafen kunnen gebruiken om causale verbanden weer te geven. Als laatste bekijken we nogmaals het leveraandoeningsvoorbeeld in paragraaf DAG s Een graaf bestaat uit een verzameling punten en lijnen. De punten worden knopen genoemd en de lijnen takken. Een graaf G = (V, E) bestaat uit een verzameling knopen V = {1, 2,..., n} en een verzameling takken E = {e 1, e 2,..., e m }, zodanig dat elke tak correspondeert met een ongeordend paar knopen {i, j}. Een gerichte graaf heeft alleen gerichte takken en hoogstens één tak tussen twee knopen. We noteren (i, i+1) E voor alle i < n, waarbij i en i+1 knopen zijn, dit kan je grafisch weergeven door een pijl van i naar i + 1 te maken. De knopen i en i + 1 zijn aangrenzend als een gerichte tak i en i + 1 verbindt. Als de gerichte tak van i naar i + 1 is gericht dan noemen we i een ouder van i + 1 en i + 1 is dan een kind van i. Een gericht pad is een gerichte graaf met knopen 1, 2,..., n en takken e 1, e 2,..., e n 1, zodat voor alle i < n er een gerichte tak e i is van i naar i + 1. De knoop i is een voorouder van de knoop i + 1 als er een gericht pad van i naar i + 1 bestaat en ook als i = i + 1. i + 1 is dan een afstammeling van i. 33

34 34 HOOFDSTUK 4. ACYCLISCHE GERICHTE GRAFEN Verder geldt dat als er een gericht pad start en eindigt op hetzelfde punt je een gerichte cykel hebt. Een graaf zonder gerichte cykels heet acyclisch. Grafen die gericht en acyclisch zijn, noemen we DAG s en worden veel gebruikt als we over causaliteit praten. Daarom spreken we vanaf nu alleen nog maar over acyclische gerichte grafen(dag s). De afkorting DAG komt van het Engels en staat voor Directed Acyclic Graph. We willen graag een gezamenlijke verdeling P vinden, die bij de graaf hoort, zodat we de knopen in de grafen kunnen linken aan stochastische variabelen en de takken aan bepaalde relaties tussen twee variabelen. We weten vanuit de vermenigvuldigingsregel, dat we de gezamenlijke verdelingsfunctie van een verzameling stochasten (X 1,..., X n ) kunnen schrijven als: P (X 1 = x 1,..., X n = x n ) = P (X n = x n X n 1 = x n 1,..., X 1 = x 1 )... P (X 2 = x 2 X 1 = x 1 )P (X 1 = x 1 ) = i P (X i = x i X 1 = x 1,... X i 1 = x i 1 ) (4.1) Door de verdeling P te linken aan een DAG, kunnen we bovenstaande vergelijking herschrijven, zodat vergelijking (4.1) aanzienlijk wordt versimpeld, de vergelijking die we dan krijgen kunnen we vinden met behulp van definitie 4. Laat G een DAG zijn met knopen V = (1,..., n), we gaan deze knopen linken aan de stochastische variabelen (X 1,..., X n ). Laat P (X 1 = x 1,... X n = x n ) de gezamenlijke kansverdeling van die variabelen zijn. Dan volgt de volgende definitie. Definitie 4. We zeggen dat G en P compatibel zijn, als P (X 1 = x 1,..., X n = x n ) = n i=1 P (X i = x i X j = x j j π i ) waarbij π i, in de graaf, de ouders van de knoop i zijn. Hier is elke knoop i gelinkt met een stochastische variabele X i. We noteren de verzameling verdelingen die compatibel zijn met G als M(G). Vanaf nu nemen we aan dat de stochastische variabelen (X 1,..., X n ), corresponderen met de knopen (1,..., n) in de graaf en noteren we in de figuren, die gaan volgen, alleen de stochastische variabelen. Figuur 4.1: graaf 1

35 4.1. DAG S 35 Ter illustratie gebruiken we definitie 4 in de graaf in figuur 4.1. Er geldt P M(G) dan en slechts dan als: P (X 1 = x 1, X 2 = x 2, X 3 = x 3, X 4 = x 4 ) = P (X 1 = x 1 )P (X 2 = x 2 )P (X 3 = x 3 X 1 = x 1, X 2 = x 2 )P (X 4 = x 4 X 3 = x 3 ) (4.2) Compatibiliteit tussen DAG s en verdelingen is erg belangrijk in statistische modellen, doordat compatibiliteit een voldoende conditie is voor een DAG G om een stochastisch proces te beschrijven die de verdeling P genereert. Om de verzameling verdelingen te vinden die compatibel zijn met de DAG G, moeten we alle (conditionele) onafhankelijkheden achterhalen. Een aantal van deze onafhankelijkheden kunnen we makkelijk achterhalen met behulp van stelling 1. Stelling 1. Een verdeling P M(G) dan en slechts dan als de Markov-voorwaarde geldt: Voor elke variabele X i, X i X j {X k k π i } Waarbij X k alle variabelen zijn die corresponderen met de knopen k, waarvoor geldt k π i, hier zijn π i de ouders van de knoop i, die correspondeert met de variabele X i. De knoop, die correspondeert met de variabele X j, kan elke knoop in DAG G zijn, behalve de ouders en de nakomelingen van de knoop i. Stelling 1 komt uit het boek All of Statistics: A concise course in statistical inference van L. Wasserman [11]. In het boek Causality van J. Pearl [5] wordt verwezen naar een bewijs van deze stelling. We kunnen stelling 1 bijvoorbeeld toepassen op de graaf in figuur 4.1, dan zien we dat X 4 X 1 X 3 en ook X 4 X 2 X 3. Met behulp van stelling 1 kunnen we dus conditionele onafhankelijkheden vinden, maar met deze stelling kan je echter niet alle onafhankelijkheden vinden. Om alle (conditionele) onafhankelijkheden te achterhalen hebben we het begrip d-scheiding nodig. Hiervoor moeten we eerst weten wat een collider is. Een (deel van een) graaf met de volgende vorm: heet een collider op X 2. Een collider-eigenschap is pad afhankelijk. Een pad is elke onafgebroken route langs de takken van een graaf, deze route mag met de pijlen in de graaf meegaan of er tegenin gaan. Als de pijlen allemaal dezelfde kant op zijn gericht spreken we van een gericht pad. Een punt kan dus een collider zijn op één pad en datzelfde punt kan een niet-collider zijn op een ander pad. Als we bijvoorbeeld figuur 4.2 bekijken zien we dat X 2 een collider is op het pad (X 1, X 2, X 3 ), maar een niet-collider op het pad (X 1, X 2, X 4 ).

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2), Vrijdag 24 januari 24, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven

Nadere informatie

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur Kansrekening en statistiek wi20in deel I 29 januari 200, 400 700 uur Bij dit examen is het gebruik van een (evt grafische rekenmachine toegestaan Tevens krijgt u een formuleblad uitgereikt na afloop inleveren

Nadere informatie

Statistiek voor A.I. College 3. Dinsdag 18 September 2012

Statistiek voor A.I. College 3. Dinsdag 18 September 2012 Statistiek voor A.I. College 3 Dinsdag 18 September 2012 1 / 45 2 Deductieve statistiek Kansrekening 2 / 45 Uitkomstenruimte 3 / 45 Vragen: voorspellen Een charlatan zegt te kunnen voorspellen of een ongeboren

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van 9.00 12.00 uur.

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van 9.00 12.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (WS4), woensdag 3 juni, van 9.. uur. Dit is een tentamen met gesloten boek. De uitwerkingen van de

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2, Vrijdag 23 januari 25, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven dienen

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Uitwerking tentamen Kansrekening en Stochastische Processen (2S61) op woensdag 27 april 25, 14. 17. uur. 1. Gegeven zijn twee onafhankelijke

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Eindtentamen Kansrekening en Statistiek (WS), Tussentoets Kansrekening en Statistiek (WS), Vrijdag 8 april, om 9:-:. Dit is een tentamen

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 8 Donderdag 13 Oktober 1 / 23 2 Statistiek Vandaag: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 23 Stochast en populatie

Nadere informatie

Uitwerkingen Wiskunde A HAVO

Uitwerkingen Wiskunde A HAVO Uitwerkingen Wiskunde A HAVO Nederlands Mathematisch Instituut December 28, 2012 Supersize me Opgave 1. De formule voor de dagelijkse energiebehoefte is E b = 33,6 G. Als we dit invullen dan krijgen we

Nadere informatie

Stochastische grafen in alledaagse modellen

Stochastische grafen in alledaagse modellen Stochastische grafen in alledaagse modellen Ionica Smeets en Gerard Hooghiemstra 27 februari 2004 Stochastische grafen zijn grafen waarbij het aantal kanten bepaald wordt door kansverdelingen. Deze grafen

Nadere informatie

Uitwerkingen Mei 2012. Eindexamen VWO Wiskunde C. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Uitwerkingen Mei 2012. Eindexamen VWO Wiskunde C. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Uitwerkingen Mei 2012 Eindexamen VWO Wiskunde C Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek I Tjing Opgave 1. Het aantal hoofdstukken in de I Tjing correspondeert met het totale aantal

Nadere informatie

Opdracht 2. Deadline maandag 28 september 2015, 24:00 uur.

Opdracht 2. Deadline maandag 28 september 2015, 24:00 uur. Opdracht 2. Deadline maandag 28 september 2015, 24:00 uur. Deze opdracht bestaat uit vier onderdelen; in elk onderdeel wordt gevraagd een Matlabprogramma te schrijven. De vier bijbehore bestanden stuur

Nadere informatie

De enveloppenparadox

De enveloppenparadox De enveloppenparadox Mats Vermeeren Berlin Mathematical School) 6 april 013 1 Inleiding Een spel gaat als volgt. Je krijgt twee identiek uitziende enveloppen aangeboden, waarvan je er één moet kiezen.

Nadere informatie

Set 3 Inleveropgaven Kansrekening (2WS20) Opgaven met sterretjes zijn lastiger dan opgaven zonder sterretje.

Set 3 Inleveropgaven Kansrekening (2WS20) Opgaven met sterretjes zijn lastiger dan opgaven zonder sterretje. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Set 3 Inleveropgaven Kansrekening (2WS2) 23-24 Opgaven met sterretjes zijn lastiger dan opgaven zonder sterretje.. Voetbalplaatjes. Bij

Nadere informatie

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord

Nadere informatie

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur Kansrekening en statistiek WI05IN deel I 4 november 0, 4.00 7.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad wordt uitgereikt. Meerkeuzevragen Toelichting:

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

Statistiek voor A.I. College 4. Donderdag 20 September 2012

Statistiek voor A.I. College 4. Donderdag 20 September 2012 Statistiek voor A.I. College 4 Donderdag 20 September 2012 1 / 30 2 Deductieve statistiek Kansrekening 2 / 30 Cycle 3 / 30 Context 4 / 30 2 Deductieve statistiek Vandaag: Eigenschappen kansen Oneindige

Nadere informatie

Uitwerkingen Mei 2012. Eindexamen HAVO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Uitwerkingen Mei 2012. Eindexamen HAVO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Uitwerkingen Mei 2012 Eindexamen HAVO Wiskunde A Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Supersize me Opgave 1. De formule voor de dagelijkse energiebehoefte is E b = 33,6 G. Als

Nadere informatie

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Moore, McCabe & Craig: 3.3 Toward Statistical Inference From Probability to Inference 5.1 Sampling Distributions for

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19 Stochastiek 2 Inleiding in de Mathematische Statistiek 1/19 Herhaling H.1 2/19 Mathematische Statistiek We beschouwen de beschikbare data als realisatie(s) van een stochastische grootheid X.(Vaak een vector

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Vrijdag 16 Oktober 1 / 38 2 Statistiek Indeling vandaag: Normale verdeling Wet van de Grote Getallen Centrale Limietstelling Deductieve statistiek Hypothese toetsen

Nadere informatie

Checklist Wiskunde A HAVO 4 2014-2015 HML

Checklist Wiskunde A HAVO 4 2014-2015 HML Checklist Wiskunde A HAVO 4 2014-2015 HML 1 Hoofdstuk 1 Ik weet hoe je met procenten moet rekenen: procenten en breuken, percentage berekenen, toename en afname in procenten, rekenen met groeifactoren.

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Populatie: een intuïtieve definitie.... Een

Nadere informatie

Overzicht. Statistiek voor Informatica Hoofdstuk 2: Voorwaardelijke kansen. Voorwaardelijke kans. Voorbeeld: Probabilistisch redeneren

Overzicht. Statistiek voor Informatica Hoofdstuk 2: Voorwaardelijke kansen. Voorwaardelijke kans. Voorbeeld: Probabilistisch redeneren Overzicht Statistiek voor Informatica Hoofdstuk 2: Voorwaardelijke kansen Cursusjaar 2009 Peter de Waal Departement Informatica Voorwaardelijke kans Rekenregels Onafhankelijkheid Voorwaardelijke Onafhankelijkheid

Nadere informatie

Cover Page. The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation.

Cover Page. The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation. Author: Witsenburg, Tijn Title: Hybrid similarities : a method to insert relational information

Nadere informatie

Statistische paradoxen in de rechtszaal - theorie, voorbeelden en antwoorden

Statistische paradoxen in de rechtszaal - theorie, voorbeelden en antwoorden Statistische paradoxen in de rechtszaal - theorie, voorbeelden en antwoorden Charlotte Vlek www.charlottevlek.nl c.s.vlek@rug.nl 1 februari, 2014 1 Theorie 1.1 Bayesiaanse statistiek Met Bayesiaanse statistiek

Nadere informatie

Hoofdstuk 4 Kansen. 4.1 Randomheid

Hoofdstuk 4 Kansen. 4.1 Randomheid Hoofdstuk 4 Kansen 4.1 Randomheid Herhalingen en kansen Als je een munt opgooit (of zelfs als je een SRS trekt) kunnen de resultaten van tevoren voorspeld worden, omdat de uitkomsten zullen variëren wanneer

Nadere informatie

Statistiek voor A.I.

Statistiek voor A.I. Statistiek voor A.I. College 13 Donderdag 25 Oktober 1 / 28 2 Deductieve statistiek Orthodoxe statistiek 2 / 28 3 / 28 Jullie - onderzoek Tobias, Lody, Swen en Sander Links: Aantal broers/zussen van het

Nadere informatie

Praktische opdracht Wiskunde som van de ogen van drie dobbelstenen

Praktische opdracht Wiskunde som van de ogen van drie dobbelstenen Praktische opdracht Wiskunde som van de ogen van drie dobbelstenen Praktische-opdracht door een scholier 918 woorden 17 maart 2002 4,9 60 keer beoordeeld Vak Wiskunde Inleiding Wij hebben gekozen voor

Nadere informatie

Een combinatorische oplossing voor vraag 10 van de LIMO 2010

Een combinatorische oplossing voor vraag 10 van de LIMO 2010 Een combinatorische oplossing voor vraag 10 van de LIMO 2010 Stijn Vermeeren (University of Leeds) 16 juni 2010 Samenvatting Probleem 10 van de Landelijke Interuniversitaire Mathematische Olympiade 2010vraagt

Nadere informatie

1 Delers 1. 3 Grootste gemene deler en kleinste gemene veelvoud 12

1 Delers 1. 3 Grootste gemene deler en kleinste gemene veelvoud 12 Katern 2 Getaltheorie Inhoudsopgave 1 Delers 1 2 Deelbaarheid door 2, 3, 5, 9 en 11 6 3 Grootste gemene deler en kleinste gemene veelvoud 12 1 Delers In Katern 1 heb je geleerd wat een deler van een getal

Nadere informatie

. Dan geldt P(B) = a. 1 4. d. 3 8

. Dan geldt P(B) = a. 1 4. d. 3 8 Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 10 Donderdag 14 Oktober 1 / 71 1 Kansrekening Indeling: Bayesiaans leren 2 / 71 Bayesiaans leren 3 / 71 Bayesiaans leren: spelletje Vb. Twee enveloppen met kralen, waarvan

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2S27), dinsdag 14 juni 25, 9. - 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

Week 1 20-02-2013. Hier vind je uitwerkingen van enkele opgaven uit het dictaat Grafen: Kleuren en Routeren.

Week 1 20-02-2013. Hier vind je uitwerkingen van enkele opgaven uit het dictaat Grafen: Kleuren en Routeren. Combinatorische Optimalisatie, 2013 Week 1 20-02-2013 Hier vind je uitwerkingen van enkele opgaven uit het dictaat Grafen: Kleuren en Routeren. Opgave 1.16 Bewijs dat elke graaf een even aantal punten

Nadere informatie

Statistiek voor A.I. College 10. Dinsdag 16 Oktober

Statistiek voor A.I. College 10. Dinsdag 16 Oktober Statistiek voor A.I. College 10 Dinsdag 16 Oktober 1 / 30 Jullie - onderzoek Geert-Jan, Joris, Brechje Horizontaal: lengte Verticaal: lengte tussen topjes middelvingers met gestrekte armen. DIII 170 175

Nadere informatie

De partitieformule van Euler

De partitieformule van Euler De partitieformule van Euler Een kennismaking met zuivere wiskunde J.H. Aalberts-Bakker 29 augustus 2008 Doctoraalscriptie wiskunde, variant Communicatie en Educatie Afstudeerdocent: Dr. H. Finkelnberg

Nadere informatie

Uitleg significantieniveau en toetsen van hypothesen

Uitleg significantieniveau en toetsen van hypothesen Uitleg significantieniveau en toetsen van hypothesen Het significantieniveau (meestal aangegeven met de letter α) stelt de kans voor, dat H 0 gelijk heeft, maar H 1 gelijk krijgt. Je trekt dus een foute

Nadere informatie

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. 3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. Absolute verandering = Aantal 2004 Aantal 1994 = 1625 3070 = -1445 Relatieve verandering = Nieuw Oud Aantal

Nadere informatie

Statistiek voor A.I. College 10. Donderdag 18 Oktober

Statistiek voor A.I. College 10. Donderdag 18 Oktober Statistiek voor A.I. College 10 Donderdag 18 Oktober 1 / 28 Huffington Post poll verkiezingen VS - 12 Oktober 2012 2 / 28 Gallup poll verkiezingen VS - 15 Oktober 2012 3 / 28 Jullie - onderzoek Kimberly,

Nadere informatie

Statistiek voor A.I. College 6. Donderdag 27 September

Statistiek voor A.I. College 6. Donderdag 27 September Statistiek voor A.I. College 6 Donderdag 27 September 1 / 1 2 Deductieve statistiek Kansrekening 2 / 1 Vraag: Afghanistan In het leger wordt uit een groep van 6 vrouwelijke en 14 mannelijke soldaten een

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2WS4, dinsdag 17 juni 28, van 9. 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

In de Theorie worden de begrippen toevalsvariabele, kansverdeling en verwachtingswaarde toegelicht.

In de Theorie worden de begrippen toevalsvariabele, kansverdeling en verwachtingswaarde toegelicht. Toevalsvariabelen Verkennen www.mathall.nl MAThADORE-basic HAVO/VWO /5/6 VWO wi-a Kansrekening Toevalsvariabelen Inleiding Verkennen Beantwoord de vragen bij Verkennen. Uitleg www.mathall.nl MAThADORE-basic

Nadere informatie

Zomercursus Wiskunde. Module 4 Limieten en asymptoten van rationale functies (versie 22 augustus 2011)

Zomercursus Wiskunde. Module 4 Limieten en asymptoten van rationale functies (versie 22 augustus 2011) Katholieke Universiteit Leuven September 20 Module 4 Limieten en asymptoten van rationale functies (versie 22 augustus 20) Inhoudsopgave Rationale functies. Inleiding....................................2

Nadere informatie

Lesbrief hypothesetoetsen

Lesbrief hypothesetoetsen Lesbrief hypothesetoetsen 00 "Je gaat het pas zien als je het door hebt" Johan Cruijff Willem van Ravenstein Inhoudsopgave Inhoudsopgave... Hoofdstuk - voorkennis... Hoofdstuk - mens erger je niet... 3

Nadere informatie

Statistiek I Samenvatting. Prof. dr. Carette

Statistiek I Samenvatting. Prof. dr. Carette Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De

Nadere informatie

Meervoudig hypothesen toetsen Toegepast op microarrays Multiple testing Applied to microarrays

Meervoudig hypothesen toetsen Toegepast op microarrays Multiple testing Applied to microarrays Technische Universiteit Delft Faculteit Elektrotechniek, Wiskunde en Informatica Delft Institute of Applied Mathematics Meervoudig hypothesen toetsen Toegepast op microarrays Multiple testing Applied to

Nadere informatie

Tentamen Inleiding Kansrekening wi juni 2010, uur

Tentamen Inleiding Kansrekening wi juni 2010, uur Technische Universiteit Delft Mekelweg Faculteit Electrotechniek, Wiskunde en Informatica 8 CD Delft Tentamen Inleiding Kansrekening wi juni, 9.. uur Bij dit examen is het gebruik van een (evt. grafische

Nadere informatie

8. Analyseren van samenhang tussen categorische variabelen

8. Analyseren van samenhang tussen categorische variabelen 8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde

Nadere informatie

Voorbehouden voor de correctoren Vraag 1 Vraag 2 Vraag 3 Vraag 4 Vraag 5 Totaal. Toets Kansrekenen I. 28 maart 2014

Voorbehouden voor de correctoren Vraag 1 Vraag 2 Vraag 3 Vraag 4 Vraag 5 Totaal. Toets Kansrekenen I. 28 maart 2014 Voorbehouden voor de correctoren Vraag 1 Vraag 2 Vraag 3 Vraag 4 Vraag 5 Totaal Toets Kansrekenen I 28 maart 2014 Naam : Richting : Lees volgende aanwijzingen alvorens aan het examen te beginnen Wie de

Nadere informatie

5.0 Voorkennis. Voorbeeld 1: In een vaas zitten 10 rode, 5 witte en 6 blauwe knikkers. Er worden 9 knikkers uit de vaas gepakt.

5.0 Voorkennis. Voorbeeld 1: In een vaas zitten 10 rode, 5 witte en 6 blauwe knikkers. Er worden 9 knikkers uit de vaas gepakt. 5.0 Voorkennis Voorbeeld 1: In een vaas zitten 10 rode, 5 witte en 6 blauwe knikkers. Er worden 9 knikkers uit de vaas gepakt. a) Bereken de kans op minstens 7 rode knikkers: P(minstens 7 rood) = P(7 rood)

Nadere informatie

1. Een van mijn collega s, liet een mooi verhaal zien: De opgave was: Los op ln(x + 2) ln(x + 1) = 1.

1. Een van mijn collega s, liet een mooi verhaal zien: De opgave was: Los op ln(x + 2) ln(x + 1) = 1. Tentamen-wiskunde?. De basiswiskunde. Een van mijn collega s, liet een mooi verhaal zien: De opgave was: Los op ln(x + 2) ln(x + ) =. Oplossing : ln(x + 2) = + ln(x + ) x + 2 = ln + x + 3 = ln dus x =

Nadere informatie

Examen HAVO. wiskunde A1,2. tijdvak 2 woensdag 20 juni 13.30-16.30 uur. Bij dit examen hoort een uitwerkbijlage.

Examen HAVO. wiskunde A1,2. tijdvak 2 woensdag 20 juni 13.30-16.30 uur. Bij dit examen hoort een uitwerkbijlage. Examen HAVO 2007 tijdvak 2 woensdag 20 juni 13.30-16.30 uur wiskunde A1,2 Bij dit examen hoort een uitwerkbijlage. Dit examen bestaat uit 22 vragen. Voor dit examen zijn maximaal 80 punten te behalen.

Nadere informatie

Omnibusenquête 2015. deelrapport. Studentenhuisvesting

Omnibusenquête 2015. deelrapport. Studentenhuisvesting Omnibusenquête 2015 deelrapport Studentenhuisvesting Omnibusenquête 2015 deelrapport Studentenhuisvesting OMNIBUSENQUÊTE 2015 deelrapport STUDENTENHUISVESTING Zoetermeer, 9 december 2015 Gemeente Zoetermeer

Nadere informatie

vwo: Het maken van een natuurkunde-verslag vs 21062011

vwo: Het maken van een natuurkunde-verslag vs 21062011 Het maken van een verslag voor natuurkunde, vwo versie Deze tekst vind je op www.agtijmensen.nl: Een voorbeeld van een verslag Daar vind je ook een po of pws verslag dat wat uitgebreider is. Gebruik volledige

Nadere informatie

Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode

Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode Rik Lopuhaä TU Delft 30 januari, 2015 Rik Lopuhaä (TU Delft) Schatten van de Duitse oorlogsproductie 30 januari,

Nadere informatie

Statistiek voor A.I. College 5. Dinsdag 25 September 2012

Statistiek voor A.I. College 5. Dinsdag 25 September 2012 Statistiek voor A.I. College 5 Dinsdag 25 September 2012 1 / 34 2 Deductieve statistiek Kansrekening 2 / 34 Percentages 3 / 34 Vragen: blikkie Kinderen worden slanker als ze anderhalf jaar lang limonade

Nadere informatie

Tentamen Inleiding Kansrekening 12 augustus 2010, 10.00 13.00 uur Docent: F. den Hollander

Tentamen Inleiding Kansrekening 12 augustus 2010, 10.00 13.00 uur Docent: F. den Hollander Universiteit Leiden Niels Bohrweg Mathematisch Instituut 333 CA Leiden Tentamen Inleiding Kansrekening augustus,. 3. uur Docent: F. den Hollander Bij dit tentamen is het gebruik van een (grafische) rekenmachine

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 2 Donderdag 15 September 1 / 42 1 Kansrekening Vandaag: Vragen Eigenschappen van kansen Oneindige discrete uitkomstenruimtes Continue uitkomstenruimtes Continue stochasten

Nadere informatie

HOVO statistiek November 2011 1

HOVO statistiek November 2011 1 Principale Componentenanalyse en hockeystick-short centring Principale Componentenanalyse bedacht door Karl Pearson in 1901 Peter Grünwald HOVO 31-10 2011 Stel we hebben een grote hoeveelheid data. Elk

Nadere informatie

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Oefentoets 1 1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Conditie = experimenteel Conditie = controle Sekse = Vrouw 23 33 Sekse = Man 20 36 Van

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De

Nadere informatie

Zomercursus Wiskunde. Katholieke Universiteit Leuven Groep Wetenschap & Technologie. September 2008

Zomercursus Wiskunde. Katholieke Universiteit Leuven Groep Wetenschap & Technologie. September 2008 Katholieke Universiteit Leuven September 2008 Limieten en asymptoten van rationale functies (versie juli 2008) Rationale functies. Inleiding Functies als f : 5 5, f 2 : 2 3 + 2 f 3 : 32 + 7 4 en f 4 :

Nadere informatie

Netwerkdiagram voor een project. AON: Activities On Nodes - activiteiten op knooppunten

Netwerkdiagram voor een project. AON: Activities On Nodes - activiteiten op knooppunten Netwerkdiagram voor een project. AON: Activities On Nodes - activiteiten op knooppunten Opmerking vooraf. Een netwerk is een structuur die is opgebouwd met pijlen en knooppunten. Bij het opstellen van

Nadere informatie

11.1 Kansberekeningen [1]

11.1 Kansberekeningen [1] 11.1 Kansberekeningen [1] Kansdefinitie van Laplace: P(gebeurtenis) = Aantal gunstige uitkomsten/aantal mogelijke uitkomsten Voorbeeld 1: Wat is de kans om minstens 16 te gooien, als je met 3 dobbelstenen

Nadere informatie

Kanker. Inleiding. 1. Wat is kanker eigenlijk? 2. Verschillende soorten kanker

Kanker. Inleiding. 1. Wat is kanker eigenlijk? 2. Verschillende soorten kanker Kanker Inleiding Mijn spreekbeurt gaat over kanker patiënten. Ik hou mijn spreekbeurt hier over omdat er veel kinderen zijn die niet precies weten wat kanker nou eigenlijk is en omdat kanker heel veel

Nadere informatie

Voorbeelden van gebruik van 5 VUSTAT-apps

Voorbeelden van gebruik van 5 VUSTAT-apps Voorbeelden van gebruik van 5 VUSTAT-apps Piet van Blokland Begrijpen van statistiek door simulaties en visualisaties Hoe kun je deze apps gebruiken bij het statistiek onderwijs? De apps van VUSTAT zijn

Nadere informatie

Techniekkaart: Het houden van een interview

Techniekkaart: Het houden van een interview WAT IS EEN INTERVIEW? Een interview is een vraaggesprek. Wat een interview speciaal maakt, is dat je met een interview aan informatie kunt komen, die je niet uit boeken kunt halen. Als je de specifieke

Nadere informatie

Normering en schaallengte

Normering en schaallengte Bron: www.citogroep.nl Welk cijfer krijg ik met mijn score? Als je weet welke score je ongeveer hebt gehaald, weet je nog niet welk cijfer je hebt. Voor het merendeel van de scores wordt het cijfer bepaald

Nadere informatie

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Learning the Mechanics 6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. De random variabele x wordt tweemaal waargenomen. Ga na dat, indien de waarnemingen

Nadere informatie

Kraak de geest van de DJ

Kraak de geest van de DJ Kraak de geest van de DJ Een observatie Door Nicky van Veen Inleiding Hoe komt het dat creatievelingen zo goed kunnen performen en zo creatief kunnen zijn op het moment dat ze moeten schitteren. Om dit

Nadere informatie

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

1. De wereld van de kansmodellen.

1. De wereld van de kansmodellen. STATISTIEK 3 DE GRAAD.. De wereld van de kansmodellen... Kansmodellen X kansmodel Discreet model Continu model Kansverdeling Vaas Staafdiagram Dichtheidsfunctie f(x) GraJiek van f Definitie: Een kansmodel

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten Hoofdstuk 8 Betrouwbaarheidsintervallen In het vorige hoofdstuk lieten we zien hoe het mogelijk is om over een ongekende karakteristiek van een populatie hypothesen te formuleren. Een andere manier van

Nadere informatie

Hoofdstuk 5: Steekproevendistributies

Hoofdstuk 5: Steekproevendistributies Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel

Nadere informatie

We zullen in deze les kijken hoe we netwerken kunnen analyseren, om bijvoorbeeld de volgende vragen te kunnen beantwoorden:

We zullen in deze les kijken hoe we netwerken kunnen analyseren, om bijvoorbeeld de volgende vragen te kunnen beantwoorden: Wiskunde voor kunstmatige intelligentie, 24 Les 5 Proces analyse Veel processen laten zich door netwerken beschrijven, waarin een aantal knopen acties aangeeft en opdrachten langs verbindingen tussen de

Nadere informatie

Machten, exponenten en logaritmen

Machten, exponenten en logaritmen Machten, eponenten en logaritmen Machten, eponenten en logaritmen Macht, eponent en grondtal Eponenten en logaritmen hebben alles met machtsverheffen te maken. Een macht als 4 is niets anders dan de herhaalde

Nadere informatie

S n = tijdstip van de n-de gebeurtenis, T n = S n S n 1 = tijd tussen n-de en (n 1)-de gebeurtenis.

S n = tijdstip van de n-de gebeurtenis, T n = S n S n 1 = tijd tussen n-de en (n 1)-de gebeurtenis. VERNIEUWINGSPROCESSEN In hoofdstuk 6 hebben we gezien wat een Poisson proces is. Definitie van een Poisson proces: Een Poisson proces met intensiteit λ (notatie P P (λ)) is een stochastisch proces {N(t),

Nadere informatie

Feedback proefexamen Statistiek I 2009 2010

Feedback proefexamen Statistiek I 2009 2010 Feedback proefexamen Statistiek I 2009 2010 Het correcte antwoord wordt aangeduid door een sterretje. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Een derde van de mannen is

Nadere informatie

WISKUNDE A HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

WISKUNDE A HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 WISKUNDE A HAVO VAKINFORMATIE STAATSEAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de

Nadere informatie

Examen VWO. Wiskunde A1,2 (nieuwe stijl)

Examen VWO. Wiskunde A1,2 (nieuwe stijl) Wiskunde A1,2 (nieuwe stijl) Examen VWO Voorbereidend Wetenschappelijk Onderwijs Tijdvak 2 Woensdag 18 juni 13.3 16.3 uur 2 3 Voor dit examen zijn maximaal zijn 88 punten te behalen; het examen bestaat

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Workshop voorbereiden Authentieke instructiemodel

Workshop voorbereiden Authentieke instructiemodel Workshop voorbereiden Authentieke instructiemodel Workshop voorbereiden Uitleg Start De workshop start met een echte, herkenbare en uitdagende situatie. (v.b. het is een probleem, een prestatie, het heeft

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 1 Dinsdag 14 September 1 / 34 Literatuur http://www.phil.uu.nl/ iemhoff Applied Statistics for the Behavioral Sciences - 5th edition, Dennis E. Hinkle, William Wiersma,

Nadere informatie

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31 Tentamen Statistische methoden 45STAMEY april, 9: : Studienummers: Vult u alstublieft op het MC formulier uw Delftse studienummer in; en op het open vragen formulier graag beide, naar volgend voorbeeld:

Nadere informatie

Les 1: Waarschijnlijkheidrekening

Les 1: Waarschijnlijkheidrekening Les 1: Waarschijnlijkheidrekening A Men neemt een steekproef van 1000 appelen. Deze worden ingedeeld volgens gewicht en volgens symptomen van een bepaalde schimmel: geen, mild, gematigd of ernstig. Het

Nadere informatie

en-splitsingen: een aantal alternatieven worden parallel toegepast, of-splitsingen: van een aantal alternatieven wordt er één toegepast,

en-splitsingen: een aantal alternatieven worden parallel toegepast, of-splitsingen: van een aantal alternatieven wordt er één toegepast, Kansrekening voor Informatiekunde, 25 Les 8 Proces analyse Veel processen laten zich door netwerken beschrijven, waarin knopen acties aangeven en opdrachten langs verbindingen tussen de knopen verwerkt

Nadere informatie

Examen Data Analyse II - Deel 2

Examen Data Analyse II - Deel 2 Examen Data Analyse II - Deel 2 Tweede Bachelor Biomedische Wetenschappen 10 januari 2011 Naam....................................... 1. De systolische bloeddruk (in mmhg) van 21 mannen is weergegeven

Nadere informatie

Verklarende Statistiek: Toetsen. Zat ik nou in dat kritische gebied of niet?

Verklarende Statistiek: Toetsen. Zat ik nou in dat kritische gebied of niet? Verklarende Statistiek: Toetsen Zat ik nou in dat kritische gebied of niet? Toetsen, Overzicht Nulhypothese - Alternatieve hypothese (voorbeeld: toets voor p = p o in binomiale steekproef) Betrouwbaarheid

Nadere informatie

Netwerkdiagram voor een project. AOA: Activities On Arrows - activiteiten op de pijlen.

Netwerkdiagram voor een project. AOA: Activities On Arrows - activiteiten op de pijlen. Netwerkdiagram voor een project. AOA: Activities On Arrows - activiteiten op de pijlen. Opmerking vooraf. Een netwerk is een structuur die is opgebouwd met pijlen en knooppunten. Bij het opstellen van

Nadere informatie