Kansrekening en Statistiek



Vergelijkbare documenten
Kansrekening en Statistiek

Statistiek voor A.I. College 7. Dinsdag 2 Oktober

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Overzicht. Statistiek voor Informatica Hoofdstuk 2: Voorwaardelijke kansen. Voorwaardelijke kans. Voorbeeld: Probabilistisch redeneren

Kansrekening en Statistiek

Statistiek voor A.I. College 6. Donderdag 27 September

Combinatoriek en rekenregels

Kansrekening en Statistiek

Kansrekening en Statistiek

Statistiek voor A.I.

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Statistiek voor A.I. College 14. Dinsdag 30 Oktober

Kansrekening en Statistiek

college 4: Kansrekening

Laplace Experimenteel Intuïtie Axiomatisch. Het kansbegrip. W. Oele. 27 januari W. Oele Het kansbegrip

Bij het oplossen van een telprobleem zijn de volgende 2 dingen belangrijk: Is de volgorde van de gekozen dingen van belang?

Kansrekening en Statistiek

Kansrekenen: Beliefs & Bayes

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

De enveloppenparadox

Statistiek = leuk + zinvol

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Kansrekening en Statistiek

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

Medische Statistiek Kansrekening

Logisch denken over kansen

Examen Kansrekening en Wiskundige Statistiek: oplossingen

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

Laat men ook transversalen toe buiten de driehoek, dan behoren bij één waarde van v 1 telkens twee transversalen l 1 en l 2. Men kan ze onderscheiden

DEEL 3 INDUCTIEVE STATISTIEK INLEIDING TOT DE INDUCTIEVE STATISTIEK 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE

Data analyse Inleiding statistiek

Kansrekening en stochastische processen 2DE18

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

Algemeen overzicht inleiding kansrekening en statistiek

WAARSCHIJNLIJKHEID (EN) MODELLEREN

a. Identificeer de uitkomsten in de gebeurtenissen A, B, A B, A B, en A c.

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Wiskunde. Verzamelingen, functies en relaties. College 6. Donderdag 7 Januari

waar of niet waar vrouwen doen beter rijexamen dan mannen

Statistische paradoxen in de rechtszaal - theorie, voorbeelden en antwoorden

Tentamen Inleiding Kansrekening 9 juni 2016, 10:00 13:00 Docent: Prof. dr. F. den Hollander

Examen VWO wiskunde C. tijdvak 2 woensdag 17 juni uur. Bij dit examen hoort een uitwerkbijlage.

Hoofdstuk 1. Afspraken en notaties

Hoofdstuk 4 Kansrekening

bijspijkercursus wiskunde voor psychologiestudenten bijeenkomst 8 [PW] appendix D.1: kansrekening extra stof

Eindexamen wiskunde A1-2 vwo 2007-II

X.3 Wet van totale kans en wet van Bayes. Base rate neglect. Base rate neglect X.3 Wet van totale kans en Bayes 1 / 10

Vakbijlage - De reeks waarschijnlijkheidstermen van het NFI en het Bayesiaanse model voor interpretatie van bewijs

Forensische Statistiek

Opgaven hoofdstuk 3. I Basistechnieken

Kansrekenen en statistiek. Daniël Slenders Faculteit Ingenieurswetenschappen Katholieke Universiteit Leuven

3 Kansen vermenigvuldigen

Terug naar regels. Redeneren met onzekerheid III. Voorbeeld. Kies een geschikte theorie Vind een invulling voor de combinatiefuncties f and, f or,

Eindexamen wiskunde A1-2 vwo 2004-I

Examen VWO. wiskunde A1,2. tijdvak 2 woensdag 20 juni uur. Bij dit examen hoort een uitwerkbijlage.

Tentamen Kansrekening (NB004B)

Inleiding Kansrekening en Statistiek

Samenvatting Statistiek

11.1 Kansberekeningen [1]

Transcriptie:

Kansrekening en Statistiek College 9 Dinsdag 12 Oktober 1 / 21

1 Kansrekening Indeling: Stelling van Bayes Bayesiaans leren 2 / 21

Vraag: test Een test op HIV is 90% betrouwbaar: als een persoon HIV heeft is de kans op een positieve uitslag 0.9, en als een persoon geen HIV heeft is de kans op een positieve uitslag 0.1. De kans op HIV is 0.05. Een dame ondergaat de test en de uitslag is positief. Wat is de kans dat zij HIV heeft? 3 / 21

Vraag: spam De kans dat een email spam is, is 99%. Een spamfilter is 98% betrouwbaar: 98% van alle spam wordt als spam geclassificeerd en 2% van niet-spam wordt als spam geclassificeerd. Een email wordt als spam geclassificeerd. Hoeveel is de kans dat het daadwerkelijk spam is toegenomen door deze informatie? 4 / 21

Vraag: onderzoek Uit genetisch onderzoek blijkt dat de werking van een medicijn 1% of 10% moet zijn. Het eerste percentage is waarschijnlijker: de kans dat 1% het correcte percentage is, is 0.55, en voor 10% is dat dus 0.45. Er wordt een steekproef genomen en de werking van het medicijn in de steekproef is 11%. Welke werking is op grond van de steekproef het meest waarschijnlijk: 1% of 10%? 5 / 21

Stelling van Bayes 6 / 21

Stelling van Bayes Merk op: Uit volgt dat P(A B) = P(A B) P(B) P(B A) = P(A B) P(A) P(A B) = P(A B)P(B) = P(B A)P(A). 7 / 21

Stelling van Bayes Vb. De kans dat een zekere kerncentrale oververhit raakt (O) is 1 10 7, de kans dat er een lek (L) ontstaat is 1 10 8, maar als er eenmaal een lek is, is de kans groot dat de centrale oververhit raakt: 0.1. Wat is de kans dat de centrale gaat lekken als hij oververhit raakt? Dus P(L O) = P(L O) P(O) = P(O L)P(L). P(O) 0.1 1 10 8 P(L O) = 1 10 7 = 1 10 9 = 0.01. 1 10 7 8 / 21

Stelling van Bayes St. (Speciaal geval van de Stelling van Bayes) Als H en E twee gebeurtenissen zijn, dan geldt: Bew. Omdat P(E H)P(H) P(H E) = P(E H)P(H) + P(E H)P(H) P(H E) = P(E H)P(H) P(E H)P(H) + P(E H)P(H). P(H E) = P(H E), P(E) volgt de stelling uit de volgende twee obesevaties: P(E) = P(E H) + P(E H) = P(E H)P(H) + P(E H)P(H). Het bewijs voor H is analoog. Merk op: P(H E) + P(H E) = 1. P(H E) = P(E H)P(H). 9 / 21

Stelling van Bayes Vb. De kans dat een boek gekocht op internet illegaal is, is 0.00001. De kans dat een boek dat gedrukt wordt bij een uitgeverij een bladzijde mist is 0.0001. De kans dat een illegale kopie een bladzijde mist is 0.02. Wat is de kans dat een gekocht boek dat een bladzijde mist een illegale kopie is? H: het boek is illegaal, H: het boek is legaal. E: het boek mist een bladzijde. De kans dat een boek dat een bladzijde mist een illegale kopie is: P(H E) = P(E H)P(H) P(E H)P(H) + P(E H)P(H) = 0.02 0.00001 0.02 0.00001 + 0.0001 0.99999 = 0.002. 10 / 21

Antwoord op een vraag: spam Vb. De kans dat een email spam is, is 99%. Een spamfilter is 98% betrouwbaar: 98% van alle spam wordt als spam geclassificeerd en 2% van niet-spam wordt als spam geclassificeerd. Een email wordt als spam geclassificeerd. Wat is de kans dat het spam is? H: de email is spam. H: de email is geen spam. E: de email is als spam geclassificeerd. P(H E) = P(E H)P(H) P(E H)P(H) + P(E H)P(H) = 0.98 0.99 0.98 0.99 + 0.02 0.01 = 0.9998. De kans dat het spam is is met 0.0098 toegenomen door deze informatie, een toename van ongeveer 1%. Als het filter slechts 49% betrouwbaar is neemt de kans dat een als spam geclassificeerde email spam is zelfs af: P(H E) = 0.49 0.99 0.49 0.99 + 0.51 0.01 = 0.9896. 11 / 21

Antwoord op een vraag: test Een test op HIV is 90% betrouwbaar: als een persoon HIV heeft is de kans op een positieve uitslag 0.9, en als een persoon geen HIV heeft is de kans op een positieve uitslag 0.1. De kans op HIV is 0.05. Een dame ondergaat de test en de uitslag is positief. Wat is de kans dat zij HIV heeft? De gevraagde kans is P(HIV POS). In de notatie van de Stelling van Bayes wordt dat H = HIV en E = POS. Met de Stelling van Bayes: P(HIV POS) = P(POS HIV )P(HIV ) P(POS HIV )P(HIV ) + P(POS HIV )P(HIV ). Daarmee P(HIV POS) = 0.9 0.05 0.9 0.05 + 0.1 0.95 = 0.32. 12 / 21

Antwoord op een vraag: onderzoek Vb. Uit genetisch onderzoek blijkt dat de werking van een medicijn 1% of 10% moet zijn. Het eerste percentage is waarschijnlijker: de kans dat 1% het correcte percentage is, is 0.55, en voor 10% is dat dus 0.45. Er wordt een steekproef van 100 zieken genomen en de werking van het medicijn in de steekproef is 11%. Welke werking is op grond van de steekproef het waarschijnlijkste: 1% of 10%? H: de werking is 1%. H: de werking is 10%, E: de werking in de steekproef is 11%. `100 11 P(H E) = P(E H)P(H) P(E H)P(H) + P(E H)P(H) = `100 (0.01) 11 11 (0.99) 89 0.55 (0.1) 11 (0.9) 89 0.45 = 6 10 8. (0.01) 11 (0.99) 89 0.55 + `100 11 Dus P(H E) = (1 6 10 8 ) > 6 10 8, en de hypothese dat 10% het correcte percentage is, is dus het meest waarschijnlijk. 13 / 21

Antwoord op een vraag: onderzoek Vb. Hetzelfde voorbeeld als op de vorige zijde, behalve dat de werking van het medicijn in de steekproef nu 6% is en de kans dat 1% het correcte percentage is, 0.995 is. Voor 10% is dat dus 0.005. Welk percentage is nu het waarschijnlijkste? H: de werking is 1%. H: de werking is 10%, E: de werking in de steekproef is 6%. `100 6 P(E H)P(H) P(H E) = P(E H)P(H) + P(E H)P(H) = `100 (0.01) 6 6 (0.99) 94 0.995 (0.01) 6 (0.99) 94 0.995 + `100 (0.1) 6 6 (0.9) 94 0.005 = 0.6. Dus P(H E) = 0.4, en de hypothese dat 1% het correcte percentage is, is het meest waarschijnlijk. Hoewel de uitkomst van de steekproef meer in overeenstemming is met 10%, doet het feit dat die hypothese veel onwaarschijnlijker wordt geacht dat effect weer teniet. 14 / 21

Stelling van Bayes: gelijke kansen St. Als H en E twee gebeurtenissen zijn en de kans op H en op H zijn gelijk, dan geldt: P(E H) P(H E) = P(E H) + P(E H) P(H E) = P(E H) P(E H) + P(E H). Bew. Het speciale geval van de Stelling van Bayes heeft de vorm: P(E H)P(H) P(H E) = P(E H)P(H) + P(E H)P(H) P(H E) = P(E H)P(H) P(E H)P(H) + P(E H)P(H). Als P(H) = P(H) kunnen de factoren P(H) en P(H) tegen elkaar weggestreept worden. 15 / 21

Stelling van Bayes: gelijke kansen Vb. Twee enveloppen met kralen, waarvan 1 tevens e100 bevat: e100 Iemand kiest willekeurig een envelop en biedt die te koop aan. Hoeveel zou je moeten betalen? e50. Stel dat je eerst een willekeurige kraal uit de gekozen envelop mag nemen. Als die kraal rose is, hoevel zou je dan moeten betalen? e60. Als die kraal grijs is, hoevel zou je dan moeten betalen? e 300 7 43. De kans dat het de i e envelop is gegeven dat de kraal rose (r) is: P(i r) = P(r i) P(r 1) + P(r 2). 16 / 21

Stelling van Bayes St. (Stelling van Bayes) Als H 1,..., H n een partitie van de uitkomstenruimte is en E een gebeurtenis, dan geldt voor elke i n: P(H i E) = P(E H i )P(H i ) P n j=1 P(E H j )P(H j ). Bew. Merk op dat voor elke j n geldt: P(E H j ) = P(E H j ) P(H j ) P(E H j ) = P(E H j )P(H j ). Omdat H 1,..., H n een partitie van de uitkomstenruimte is geldt Daarom P(E) = nx P(E H j ) = j=1 P(H i E) = P(E H i ) P(E) nx P(E H j )P(H j ). j=1 = P(E H i )P(H i ) P n j=1 P(E H j ) = P(E H i )P(H i ) P n j=1 P(E H j )P(H j ). 17 / 21

Stelling van Bayes Vb. Een restaurant schenkt Bordeaux, Beaujolais en Merlot. Wanneer een gast geen keuze kan maken kiest de ober, kans 0.6 dat hij Bordeaux, 0.3 dat hij Beaujolais en 0.1 dat hij Merlot kiest. Bij elk van deze wijnen zijn er gasten die het niet smaakt. Stel dat de kans daarop voor Bordeaux, Beaujolais en Merlot respectievelijk 0.01, 0.04 en 0.2 is. Een gast krijgt een door de ober gekozen wijn en vindt die niet lekker. Wat is de kans dat het Bordeaux is? H 1 : de wijn is Bordeaux, H 2 : de wijn is Beaujolais, H 3 : de wijn is Merlot. E: de gast vindt de wijn niet lekker. P(H 1 E) = P(E H 1 )P(H 1 ) P 3 j=1 P(E H j )P(H j ) = 0.01 0.6 0.01 0.6 + 0.04 0.3 + 0.2 0.1 = 0.1578947. Wat is de kans dat het Beaujolais is? P(H 2 E) = P(E H 2 )P(H 2 ) P 3 j=1 P(E H j )P(H j ) = 0.04 0.3 0.01 0.6 + 0.04 0.3 + 0.2 0.1 = 0.3157895. Wat is de kans dat het Merlot is? P(H 3 E) = P(E H 3 )P(H 3 ) P 3 j=1 P(E H j )P(H j ) = 0.2 0.1 0.01 0.6 + 0.04 0.3 + 0.2 0.1 = 0.5263158. Merk op: P(H 1 E) + P(H 2 E) + P(H 3 E) = 1. 18 / 21

Bayesiaans leren 19 / 21

Bayesiaans leren Def. Bayesiaans leren heeft (in essentie) de volgende vorm: Er zijn een aantal hypotheses H 1,..., H n die samen de uitkomstenruimte vormen. De hypotheses zijn meer of minder waarschijnlijk: de (initiële) bijbehorende verdeling is de a-priori verdeling, de kansen P(H i ) zijn de a-priori kansen. Na het verkrijgen van nieuwe informatie/data/gebeurtenis E worden de kansen van de hypotheses aangepast volgens de stelling van Bayes: P(H i E) = P(E H i )P(H i ) P n j=1 P(E H j )P(H j ). De kansen P(H i E) zijn de a-posteriori kansen. De kansen P(E H i ) zijn de likelihoods van E. Leren: Op grond van telkens nieuwe data E 1, E 2,... wordt de verdeling van de hypotheses voortdurend aangepast, P 0, P 1, P 2,... : P 0 is de a-priori verdeling, waarbij P 0 (H i ) = P(H i ). Na het verkrijgen van data E 1 wordt de nieuwe verdeling P 1, waarbij P 1 (H i ) = P 0 (H i E 1 ). Na het verkrijgen van data E 2 wordt de nieuwe verdeling P 2, waarbij P 2 (H i ) = P 1 (H i E 2 ). Etc. 20 / 21

Finis 21 / 21