Kansrekening en Statistiek College 10 Donderdag 14 Oktober 1 / 71
1 Kansrekening Indeling: Bayesiaans leren 2 / 71
Bayesiaans leren 3 / 71
Bayesiaans leren: spelletje Vb. Twee enveloppen met kralen, waarvan 1 tevens e100 bevat: e100 Iemand kiest willekeurig een envelop en biedt die te koop aan. Hoeveel zou je moeten betalen? e50. Stel dat je eerst een willekeurige kraal uit de gekozen envelop mag nemen. Als die kraal rose is, hoevel zou je dan moeten betalen? e60. Als die kraal grijs is, hoevel zou je dan moeten betalen? e 300 7 43. De kans dat het de i e envelop is gegeven dat de kraal rose (r) is: P(i r) = P(r i) P(r 1) + P(r 2). 4 / 71
Bayesiaans leren Def. Bayesiaans leren heeft (in essentie) de volgende vorm: Er zijn een aantal hypotheses H 1,..., H n die samen de uitkomstenruimte vormen. De hypotheses zijn meer of minder waarschijnlijk: de (initiële) bijbehorende verdeling is de a-priori verdeling, de kansen P(H i ) zijn de a-priori kansen. Na het verkrijgen van nieuwe informatie/data/gebeurtenis E worden de kansen van de hypotheses aangepast volgens de stelling van Bayes: P(H i E) = P(E H i )P(H i ) P n j=1 P(E H j )P(H j ). De kansen P(H i E) zijn de a-posteriori kansen. De kansen P(E H i ) zijn de likelihoods van E. Leren: Op grond van telkens nieuwe data E 1, E 2,... wordt de verdeling van de hypotheses voortdurend aangepast, P 0, P 1, P 2,... : P 0 is de a-priori verdeling, waarbij P 0 (H i ) = P(H i ). Na het verkrijgen van data E 1 wordt de nieuwe verdeling P 1, waarbij P 1 (H i ) = P 0 (H i E 1 ). Na het verkrijgen van data E 2 wordt de nieuwe verdeling P 2, waarbij P 2 (H i ) = P 1 (H i E 2 ). Etc. 5 / 71
Bayesiaans leren: bias Om de a-posteriori kansen P(H i E) te berekenen moeten de a-priori kansen P(H i ) en de likelihoods P(E H i ) bekend zijn. Def. De a-priori kansen geven de bias bij aanvang weer: Bij P(H i ) > P(H j ) wordt H i waarschijnlijker geacht dan H j. Bij P(H i ) = P(H j ) worden beide hypotheses even waarschijnlijk geacht. Na een update op grond van informatie E is de werkhypothese doorgaans een hypothese die op dat moment de hoogste waarschijnlijkheid heeft, dat wil zeggen een hypothese H i waarvoor P(H i E) het grootste is. Een hypothese wordt verworpen als de a-posteriori kans op de hypothese 0 is. 6 / 71
Bayesiaans leren Vb. Een vaas bevat 3 ballen: 1 rode en 1 witte en van de derde bal is alleen bekend dat die wit of rood is. X is het aantal rode ballen. Beide waardes van X worden even waarschijnlijk geacht: P(X = 1) = P(X = 2) = 1 2. Er wordt een bal uit de vaas getrokken, die rood blijkt te zijn. Wat is de waarschijnlijkheid dat X = 2? En dat X = 1? In de notatie van de Stelling van Bayes: Gebeurtenis E: de getrokken bal is rood. Gebeurtenis H: X = 1. Gebeurtenis H: X = 2. Omdat P(X = 1) = P(X = 2): P(X = 2 E) = Dus P(X = 1 E) = 1 2 3 = 1 3. P(E X = 2)P(X = 2) P(E X = 2)P(X = 2) + P(E X = 1)P(X = 1) = 2 P(E X = 2) P(E X = 2) + P(E X = 1) = 3 2 3 + 1 = 2 3. 3 Op grond van gebeurtenis E is X = 2 dus waarschijnlijker. 7 / 71
Bayesiaans leren Vb. Gegeven is een valse munt waarvan bekend is dat de kans p op K 0.42 of 0.43 is. Beide mogelijkheden worden even waarschijnlijk geacht: P(p = 0.42) = P(p = 0.43) = 0.5. De munt wordt 7 maal geworpen, X is het aantal maal K. Stel dat X = 3. Welke hypothese is op grond van deze informatie het waarschijnlijkste? P(X = 3 p = 0.42) P(p = 0.42 X = 3) = P(X = 3 p = 0.42) + P(X = 3 p = 0.43) = `7 (0.42) 3 3 (0.58) 4 `7 (0.42) 3 3 (0.58) 4 + `7 (0.43) 3 3 (0.57) = 0.4997. 4 Dus P(p = 0.43 X = 3) = 1 0.4997 = 0.5003 > 0.4997, en daarmee is p = 0.43 de meest waarschijnlijke hypothese op grond van de data 3 maal K bij 7 worpen. 8 / 71
Bayesiaans leren Vb. Gegeven is een valse munt waarvan bekend is dat de kans p op K 0.42 of 0.43 is. Op grond van de verkregen informatie dat er bij het 7 maal werpen van de munt 3 maal K is gegooid (zie vorige slide), is de (nieuwe) verdeling van p: P(p = 0.42) = 0.4997 en P(p = 0.43) = 0.5003. De munt wordt nog eens 11 maal gegooid, Y is het aantal maal K. Stel dat Y = 4. Welke hypothese is op grond van deze informatie het waarschijnlijkste? P(p = 0.42 Y = 4) = = P(Y = 4 p = 0.42)P(p = 0.42) P(Y = 4 p = 0.42)P(p = 0.42) + P(Y = 4 p = 0.43)P(p = 0.43) `11 (0.42) 4 4 (0.58) 7 (0.4997) `11 (0.42) 4 4 (0.58) 7 (0.4997) + `11 (0.43) 4 4 (0.57) 7 (0.5003) = 0.51. Dus P(p = 0.43 X = 3) = 1 0.51 = 0.49 < 0.51, en daarmee is p = 0.42 de meest waarschijnlijke hypothese op grond van de laatste data 4 maal K bij 11 worpen. Merk op: Hoewel de bias voor p = 0.42 (P(p = 0.42) = 0.4997) lager is dan die voor p = 0.43 (P(p = 0.43) = 0.5003) is de nieuwe informatie 4 maal K bij 11 worpen zodanig dat daarna p = 0.42 toch het meest waarschijnijk is. 9 / 71
Bayesiaans leren Vb. Voor een spamfilter is c het percentage spam van alle emails die het woord VIAGRA bevatten. Stel dat het filter aanneemt dat c 80% of 90% is, en aanvankelijk beide waardes voor even waarschijnlijk houdt: P(c = 80%) = P(C = 90%) = 0.5. Hierbij wordt aangenomen dat de verdeling van spam/niet-spam binomiaal is: als de kans op spam p is, dan is de kans dat van n emails er k spam zijn `n k pk (1 p) n k. Jij bent het spamfilter aan het trainen en van de 100 emails die het woord VIAGRA bevatten geef je aan dat er 98 spam zijn. Noem deze data/gebeurtenis E. Welke hypothese, c = 80% of c = 90%, is op grond van deze data de waarschijnlijkste? P(E c = 90%) P(c = 90% E) = P(E c = 90%) + P(E c = 80%) = `100 (0.9) 98 98 (0.1) 2 `100 (0.8) 98 98 (0.2) 2 + `100 (0.9) 98 98 (0.1) = 0.9999612. 2 Daarmee is P(c = 80% E) = 1 0.9999612 < P(c = 90% E), en zoals verwacht is P(c = 90% E) de meest waarschijnlijke hypothese. 10 / 71
Bayesiaans leren St. Als H 1,..., H n een partitie van de uitkomstenruimte is en de a-priori kansen van de hypotheses zijn uniform verdeld, dan geldt voor elke gebeurtenis E: P(H i E) P(H j E) = P(E H i ) P(E H j ). Bew. Bij een uniforme verdeling van de a-priori kansen (P(H i ) = P(H j ) voor alle i, j n) wordt de Stelling van Bayes (zie College 9): P(H i E) = P(E H i ) P n h=1 P(E H h). Dus P(H i E) P(H j E) = P(E H i ) P nh=1 P(E H h ) P(E H j ) P nh=1 P(E H h ) = P(E H i ) P(E H j ). 11 / 71
2 Statistiek 12 / 71
Statistiek? Bevordert luieren de fantasie? Psychologie Werkt paracetamol? Geneeskunde Welk van de twee betekenissen van bank komt het meeste voor? Linguïstiek 13 / 71
Statistiek Doel: Op grond van data verkregen uit een steekproef een uitspraak doen over de populatie. Beschrijvende statistiek: data verkrijgen en classificeren. Deductieve statistiek: uit data conclusies trekken. 14 / 71
Vragen: peilingen In hoeverre komt de verkiezingsuitslag overeen met de peilingen? 15 / 71
Vragen: lengte Van 1000 Nederlanders wordt de lengte opgemeten. Het gemiddelde is 1.70m. Wat is de kans dat de gemiddelde lengte van Nederlanders 1.70m is? 16 / 71
Vragen: meten Uit: Hoe kan het vermoeden dat makelaars voor hun klanten niet altijd de beste prijs voor hun huis krijgen gemeten worden? Door de prijzen waarvoor makelaars hun eigen huis verkopen te vergelijken met die waarvoor ze de huizen van klanten verkopen: 3% hoger. 17 / 71
Vragen: suggestie Zelfde informatie? y y 4 4 3 3 2 2 1 1 0 1 2 3 4 x 0 2 4 6 8 x 18 / 71
Zelfde informatie? Vragen:suggestie 19 / 71
Vragen: steekproef Op initiatief van onderzoeksbureau Trendbox, Miss Etam en communicatiebureau BSUR werd er onderzoek gedaan naar de Nederlandse vrouw en haar zelfbeeld. Zij vindt zichzelf (in %): Betrouwbaar 62 Eerlijk 50 Sociaal 46 Vriendelijk 46 Trouw 46 Vrolijk 32 Serieus 25 Onzeker 15 Impulsief 14 Sterk 12 Wat voor steekproef werd voor dit onderzoek gebruikt? 20 / 71
2 Statistiek Vandaag: Populatie en steekproef Schaal Score en frequentie Grafieken 21 / 71
Populatie en steekproef 22 / 71
Populatie en steekproef Def. Een populatie bevat alle elementen van een bepaalde groep. Een parameter is een eigenschap van de populatie. Een steekproef is een deelverzameling van de groep. Een statistiek is een eigenschap van de steekproef. Een constante is een eigenschap die hetzelfde is voor alle elementen van de populatie. Een variabele is een eigenschap die verschillende waardes kan aannemen voor verschillende elementen van de populatie. 23 / 71
Populatie en steekproef Vb. Populatie: Nederlanders. Steekproef: een groep Nederlanders. Parameter: de gemiddelde lengte van alle Nederlanders. Statistiek: de gemiddelde lengte van een groep Nederlanders. Constante: de eigenschap Nederlander. Variabele: de eigenschap vrouw. Populatie: alle moleculen is een gegeven glas water. Steekproef: alle moleculen in een slok water uit dat glas. Parameter: het gemiddelde aantal waterstofmoleculen in het glas. Statistiek: het gemiddelde aantal waterstofmoleculen in de slok. Constante: de eigenschap molecuul. Variabele: de eigenschap zuurstofmolecuul. 24 / 71
Schaal 25 / 71
Schaal Def. Data kunnen op de volgende wijze geclassificeerd worden: nominale schaal: classiferen zonder ordening. ordinale schaal: classiferen in geordende categoriën. intervalschaal: een ordinale schaal waarbij elke schaal uit evenveel eenheden bestaat. ratioschaal: een intervalschaal waarbij er een werkelijk nulpunt is. 26 / 71
Nominale schaal Vb. Het aantal verkochte ijsjes in een ijskraam per smaak per dag: vanille pistache straciatelle 100 180 110 De categorieën zijn ongeordend. 27 / 71
Ordinale schaal Vb. De indeling van ziekenhuizen in de provincie Utrecht naar hygiëne: onvoldoende voldoende goed zeer goed 3 6 7 4 De categorieën zijn geordend: onvoldoende < voldoende < goed < zeer goed. 28 / 71
Intervalschaal Vb. De verdeling van de cijfers bij een wiskunde tentamen zijn: 1 2 3 4 5 6 7 8 9 10 0 1 2 7 1 5 8 4 2 2 De categorieën zijn geordend en bestaan elk uit evenveel eenheden. Bijvoorbeeld, het verschil tussen een categorie en de eerstvolgende categorie is voor elke categorie 1. 29 / 71
Ratioschaal Vb. De aanwezigheid van een giftige stof (in mg.) in laboranten: 0 1 2 3 4 5 6 5 10 8 4 3 2 0 De categorieën zijn geordend, bestaan elk uit evenveel eenheden en er is een werkelijk nulpunt. Dit is de enige schaal waarin de ratio van twee categorieën bestaat. Bijvoorbeeld, een laborant uit categorie 2 bevat half zoveel gif als een laborant uit categorie 4: mg. gif in categorie 2 mg. gif in categorie 4 = 0.5. 30 / 71
Score en frequentie 31 / 71
Score en frequentie Def. De score of waarde is de waarde van een waarneming. Vb. Het aantal biertjes dat verkocht wordt per avond in de cafe s X, Y, Z: De scores zijn 70, 100 en 180. X Y Z 100 70 180 Vb. Het aantal kinderen per persoon van 5 personen A, B, C, D, E: De scores zijn 0, 0, 1, 2 en 3. A B C D E 0 2 1 0 3 32 / 71
Score en frequentie Vb. Armoede in Zuid-Afrika: Er zijn 9 scores: 2%, 4%, 4%, 9%, 9%, 11%, 16%, 22%, 23%. De frequentie van score 4 is 2, van score 9 ook, en de frequentie van de overige scores is 1. 33 / 71
Score en frequentie Def. Een frequentie distributie geeft per categorie het aantal scores in die categorie weer. Def. Een cumulatieve frequentie distributie geeft per categorie het aantal scores in die categorie en in de categorieën beneden die categorie weer. 34 / 71
Score en frequentie Vb. Het aantal computers per gezin in een bepaald dorp: aantal computers 0 1 2 3 4 5 6 7 8 9 10 11 frequentie 4 3 7 10 15 20 11 9 10 6 4 1 35 / 71
Score en frequentie De representatie van data kan op twee manieren: De categorieën zijn de elementen waaraan waargenomen wordt, en elk bevat de waarde van die waarneming (de score). De categorieën zijn de waardes van de waarnemingen (de scores), en elk bevat het aantal voorkomens van die score (de frequentie). Uit de eerste representatie kan de tweede afgelezen worden, maar niet vice versa. 36 / 71
Score en frequentie Vb. Het aantal computers per huis in een dorp met 9 huizen, waarbij de categorieën de scores bevatten: huizen H1 H2 H3 H4 H5 H6 H7 H8 H9 aantal computers 2 3 0 2 5 2 3 1 7 Het aantal computers per huis in hetzelfde dorp, waarbij de categorieën de scores zijn en hun inhoud de frequentie van het voorkomen van die score: aantal computers 0 1 2 3 4 5 6 7 aantal huizen 1 1 3 2 0 1 0 1 37 / 71
Score en frequentie: klassenintervallen Def. Verschillende categorieën kunnen samen een klasse vormen en de frequentie distributie geeft dan het aantal voorkomens in de verschillende klassen weer. Het aantal categorieën in een klasse is de klassenbreedte van een groep. Het is het beste om de klassenbreedte oneven te kiezen, zodat het middelpunt geen breuk is. 38 / 71
Score en frequentie: klassenintervallen Vb. Het aantal computers per gezin in een bepaald dorp geclassificeerd met klassenbreedte 3: aantal computers 0-2 3-5 6-8 9-11 frequentie 14 45 30 11 39 / 71
Score en frequentie: klassenintervallen Def. Wanneer de categorieën als continu beschouwd kunnen worden vallen de elementen van een categorie eigenlijk alleen binnen zekere grenzen, de exacte klassengrenzen. Meestal zijn de exacte klassengrenzen een halve eenheid onder en boven de klassengrenzen. Er wordt aangenomen dat de scores in een klasseninterval uniform verdeeld zijn over het interval en adequaat gerepresenteerd worden door het middelpunt. 40 / 71
Score en frequentie: klassenintervallen Vb. De lengtes van een groep studenten in centimers: klassenintervallen frequentie exacte grenzen middelpunt 151-160 4 150.5-160.5 155 161-170 10 160.5-170.5 165 171-180 9 170.5-180.5 175 181-190 8 180.5-190.5 185 191-200 2 190.5-200.5 195 41 / 71
Grafieken Huiswerk: pagina s 26-37. 42 / 71
Finis 43 / 71