Kansrekening en Statistiek

Vergelijkbare documenten

Kansrekening en Statistiek

Kansrekening en Statistiek

Statistiek voor A.I. College 1. Dinsdag 11 September 2012

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek. Overzicht Kansrekening

Kansrekening en Statistiek

Statistiek voor A.I. College 7. Dinsdag 2 Oktober

Statistiek voor A.I. College 6. Donderdag 27 September

Kansrekening en Statistiek

Statistiek voor A.I. College 9. Donderdag 11 Oktober

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Statistiek voor A.I. College 4. Donderdag 20 September 2012

Kansrekening en Statistiek

Statistiek voor A.I. College 3. Dinsdag 18 September 2012

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Statistiek voor A.I. College 10. Dinsdag 16 Oktober

Data analyse Inleiding statistiek

Kansrekening en Statistiek

Overzicht. Statistiek voor Informatica Hoofdstuk 2: Voorwaardelijke kansen. Voorwaardelijke kans. Voorbeeld: Probabilistisch redeneren

Statistiek voor A.I. College 5. Dinsdag 25 September 2012

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

A. Week 1: Introductie in de statistiek.

Combinatoriek en rekenregels

Statistiek I Samenvatting. Prof. dr. Carette

Kansrekening en Statistiek

Statistiek voor A.I. College 2. Donderdag 13 September 2012

Kansrekening en Statistiek

Kansrekening en Statistiek

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Statistiek voor A.I.

Kansrekening en Statistiek

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Feedback proefexamen Statistiek I

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

Populaties beschrijven met kansmodellen

Kansrekening en Statistiek

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Lesbrief hypothesetoetsen

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Inleiding tot de meettheorie

In de Theorie worden de begrippen toevalsvariabele, kansverdeling en verwachtingswaarde toegelicht.

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van uur.

Binomiale verdelingen

Examen Statistiek I Feedback

Les 1: Waarschijnlijkheidrekening

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

Samenvatting Statistiek

Wiskundige Analyse II

lengte aantal sportende broers/zussen

2 Data en datasets verwerken

Wiskundige Analyse II

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

Statistische variabelen. formuleblad

DEEL 3 INDUCTIEVE STATISTIEK INLEIDING TOT DE INDUCTIEVE STATISTIEK 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE

Onderzoeksmethodiek LE: 2

Statistiek. Beschrijvend statistiek

Hoofdstuk 6 Discrete distributies

Examen HAVO. Wiskunde A1,2

1. De wereld van de kansmodellen.

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

Opgaven voor Kansrekening

Toegepaste Statistiek, Week 6 1

Klantonderzoek: vraagstelling!

Klantonderzoek: statistiek!

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Statistiek voor A.I. College 10. Donderdag 18 Oktober

Laplace Experimenteel Intuïtie Axiomatisch. Het kansbegrip. W. Oele. 27 januari W. Oele Het kansbegrip

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

5,1. Samenvatting door een scholier 1647 woorden 18 oktober keer beoordeeld. Wiskunde A

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

IJkingstoets burgerlijk ingenieur-architect september 2018: feedback deel wiskunde

IJkingstoets burgerlijk ingenieur-architect september 2018: feedback deel wiskunde

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

voorbeeldexamenopgaven statistiek wiskunde A havo

2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht?

Occasions bij Ben de Beun

WISKUNDE 5 PERIODEN. DATUM : 5 juni 2008 ( s morgens) Niet-programmeerbare, niet-grafische rekenmachine

Oefeningen statistiek

Transcriptie:

Kansrekening en Statistiek College 10 Donderdag 14 Oktober 1 / 71

1 Kansrekening Indeling: Bayesiaans leren 2 / 71

Bayesiaans leren 3 / 71

Bayesiaans leren: spelletje Vb. Twee enveloppen met kralen, waarvan 1 tevens e100 bevat: e100 Iemand kiest willekeurig een envelop en biedt die te koop aan. Hoeveel zou je moeten betalen? e50. Stel dat je eerst een willekeurige kraal uit de gekozen envelop mag nemen. Als die kraal rose is, hoevel zou je dan moeten betalen? e60. Als die kraal grijs is, hoevel zou je dan moeten betalen? e 300 7 43. De kans dat het de i e envelop is gegeven dat de kraal rose (r) is: P(i r) = P(r i) P(r 1) + P(r 2). 4 / 71

Bayesiaans leren Def. Bayesiaans leren heeft (in essentie) de volgende vorm: Er zijn een aantal hypotheses H 1,..., H n die samen de uitkomstenruimte vormen. De hypotheses zijn meer of minder waarschijnlijk: de (initiële) bijbehorende verdeling is de a-priori verdeling, de kansen P(H i ) zijn de a-priori kansen. Na het verkrijgen van nieuwe informatie/data/gebeurtenis E worden de kansen van de hypotheses aangepast volgens de stelling van Bayes: P(H i E) = P(E H i )P(H i ) P n j=1 P(E H j )P(H j ). De kansen P(H i E) zijn de a-posteriori kansen. De kansen P(E H i ) zijn de likelihoods van E. Leren: Op grond van telkens nieuwe data E 1, E 2,... wordt de verdeling van de hypotheses voortdurend aangepast, P 0, P 1, P 2,... : P 0 is de a-priori verdeling, waarbij P 0 (H i ) = P(H i ). Na het verkrijgen van data E 1 wordt de nieuwe verdeling P 1, waarbij P 1 (H i ) = P 0 (H i E 1 ). Na het verkrijgen van data E 2 wordt de nieuwe verdeling P 2, waarbij P 2 (H i ) = P 1 (H i E 2 ). Etc. 5 / 71

Bayesiaans leren: bias Om de a-posteriori kansen P(H i E) te berekenen moeten de a-priori kansen P(H i ) en de likelihoods P(E H i ) bekend zijn. Def. De a-priori kansen geven de bias bij aanvang weer: Bij P(H i ) > P(H j ) wordt H i waarschijnlijker geacht dan H j. Bij P(H i ) = P(H j ) worden beide hypotheses even waarschijnlijk geacht. Na een update op grond van informatie E is de werkhypothese doorgaans een hypothese die op dat moment de hoogste waarschijnlijkheid heeft, dat wil zeggen een hypothese H i waarvoor P(H i E) het grootste is. Een hypothese wordt verworpen als de a-posteriori kans op de hypothese 0 is. 6 / 71

Bayesiaans leren Vb. Een vaas bevat 3 ballen: 1 rode en 1 witte en van de derde bal is alleen bekend dat die wit of rood is. X is het aantal rode ballen. Beide waardes van X worden even waarschijnlijk geacht: P(X = 1) = P(X = 2) = 1 2. Er wordt een bal uit de vaas getrokken, die rood blijkt te zijn. Wat is de waarschijnlijkheid dat X = 2? En dat X = 1? In de notatie van de Stelling van Bayes: Gebeurtenis E: de getrokken bal is rood. Gebeurtenis H: X = 1. Gebeurtenis H: X = 2. Omdat P(X = 1) = P(X = 2): P(X = 2 E) = Dus P(X = 1 E) = 1 2 3 = 1 3. P(E X = 2)P(X = 2) P(E X = 2)P(X = 2) + P(E X = 1)P(X = 1) = 2 P(E X = 2) P(E X = 2) + P(E X = 1) = 3 2 3 + 1 = 2 3. 3 Op grond van gebeurtenis E is X = 2 dus waarschijnlijker. 7 / 71

Bayesiaans leren Vb. Gegeven is een valse munt waarvan bekend is dat de kans p op K 0.42 of 0.43 is. Beide mogelijkheden worden even waarschijnlijk geacht: P(p = 0.42) = P(p = 0.43) = 0.5. De munt wordt 7 maal geworpen, X is het aantal maal K. Stel dat X = 3. Welke hypothese is op grond van deze informatie het waarschijnlijkste? P(X = 3 p = 0.42) P(p = 0.42 X = 3) = P(X = 3 p = 0.42) + P(X = 3 p = 0.43) = `7 (0.42) 3 3 (0.58) 4 `7 (0.42) 3 3 (0.58) 4 + `7 (0.43) 3 3 (0.57) = 0.4997. 4 Dus P(p = 0.43 X = 3) = 1 0.4997 = 0.5003 > 0.4997, en daarmee is p = 0.43 de meest waarschijnlijke hypothese op grond van de data 3 maal K bij 7 worpen. 8 / 71

Bayesiaans leren Vb. Gegeven is een valse munt waarvan bekend is dat de kans p op K 0.42 of 0.43 is. Op grond van de verkregen informatie dat er bij het 7 maal werpen van de munt 3 maal K is gegooid (zie vorige slide), is de (nieuwe) verdeling van p: P(p = 0.42) = 0.4997 en P(p = 0.43) = 0.5003. De munt wordt nog eens 11 maal gegooid, Y is het aantal maal K. Stel dat Y = 4. Welke hypothese is op grond van deze informatie het waarschijnlijkste? P(p = 0.42 Y = 4) = = P(Y = 4 p = 0.42)P(p = 0.42) P(Y = 4 p = 0.42)P(p = 0.42) + P(Y = 4 p = 0.43)P(p = 0.43) `11 (0.42) 4 4 (0.58) 7 (0.4997) `11 (0.42) 4 4 (0.58) 7 (0.4997) + `11 (0.43) 4 4 (0.57) 7 (0.5003) = 0.51. Dus P(p = 0.43 X = 3) = 1 0.51 = 0.49 < 0.51, en daarmee is p = 0.42 de meest waarschijnlijke hypothese op grond van de laatste data 4 maal K bij 11 worpen. Merk op: Hoewel de bias voor p = 0.42 (P(p = 0.42) = 0.4997) lager is dan die voor p = 0.43 (P(p = 0.43) = 0.5003) is de nieuwe informatie 4 maal K bij 11 worpen zodanig dat daarna p = 0.42 toch het meest waarschijnijk is. 9 / 71

Bayesiaans leren Vb. Voor een spamfilter is c het percentage spam van alle emails die het woord VIAGRA bevatten. Stel dat het filter aanneemt dat c 80% of 90% is, en aanvankelijk beide waardes voor even waarschijnlijk houdt: P(c = 80%) = P(C = 90%) = 0.5. Hierbij wordt aangenomen dat de verdeling van spam/niet-spam binomiaal is: als de kans op spam p is, dan is de kans dat van n emails er k spam zijn `n k pk (1 p) n k. Jij bent het spamfilter aan het trainen en van de 100 emails die het woord VIAGRA bevatten geef je aan dat er 98 spam zijn. Noem deze data/gebeurtenis E. Welke hypothese, c = 80% of c = 90%, is op grond van deze data de waarschijnlijkste? P(E c = 90%) P(c = 90% E) = P(E c = 90%) + P(E c = 80%) = `100 (0.9) 98 98 (0.1) 2 `100 (0.8) 98 98 (0.2) 2 + `100 (0.9) 98 98 (0.1) = 0.9999612. 2 Daarmee is P(c = 80% E) = 1 0.9999612 < P(c = 90% E), en zoals verwacht is P(c = 90% E) de meest waarschijnlijke hypothese. 10 / 71

Bayesiaans leren St. Als H 1,..., H n een partitie van de uitkomstenruimte is en de a-priori kansen van de hypotheses zijn uniform verdeld, dan geldt voor elke gebeurtenis E: P(H i E) P(H j E) = P(E H i ) P(E H j ). Bew. Bij een uniforme verdeling van de a-priori kansen (P(H i ) = P(H j ) voor alle i, j n) wordt de Stelling van Bayes (zie College 9): P(H i E) = P(E H i ) P n h=1 P(E H h). Dus P(H i E) P(H j E) = P(E H i ) P nh=1 P(E H h ) P(E H j ) P nh=1 P(E H h ) = P(E H i ) P(E H j ). 11 / 71

2 Statistiek 12 / 71

Statistiek? Bevordert luieren de fantasie? Psychologie Werkt paracetamol? Geneeskunde Welk van de twee betekenissen van bank komt het meeste voor? Linguïstiek 13 / 71

Statistiek Doel: Op grond van data verkregen uit een steekproef een uitspraak doen over de populatie. Beschrijvende statistiek: data verkrijgen en classificeren. Deductieve statistiek: uit data conclusies trekken. 14 / 71

Vragen: peilingen In hoeverre komt de verkiezingsuitslag overeen met de peilingen? 15 / 71

Vragen: lengte Van 1000 Nederlanders wordt de lengte opgemeten. Het gemiddelde is 1.70m. Wat is de kans dat de gemiddelde lengte van Nederlanders 1.70m is? 16 / 71

Vragen: meten Uit: Hoe kan het vermoeden dat makelaars voor hun klanten niet altijd de beste prijs voor hun huis krijgen gemeten worden? Door de prijzen waarvoor makelaars hun eigen huis verkopen te vergelijken met die waarvoor ze de huizen van klanten verkopen: 3% hoger. 17 / 71

Vragen: suggestie Zelfde informatie? y y 4 4 3 3 2 2 1 1 0 1 2 3 4 x 0 2 4 6 8 x 18 / 71

Zelfde informatie? Vragen:suggestie 19 / 71

Vragen: steekproef Op initiatief van onderzoeksbureau Trendbox, Miss Etam en communicatiebureau BSUR werd er onderzoek gedaan naar de Nederlandse vrouw en haar zelfbeeld. Zij vindt zichzelf (in %): Betrouwbaar 62 Eerlijk 50 Sociaal 46 Vriendelijk 46 Trouw 46 Vrolijk 32 Serieus 25 Onzeker 15 Impulsief 14 Sterk 12 Wat voor steekproef werd voor dit onderzoek gebruikt? 20 / 71

2 Statistiek Vandaag: Populatie en steekproef Schaal Score en frequentie Grafieken 21 / 71

Populatie en steekproef 22 / 71

Populatie en steekproef Def. Een populatie bevat alle elementen van een bepaalde groep. Een parameter is een eigenschap van de populatie. Een steekproef is een deelverzameling van de groep. Een statistiek is een eigenschap van de steekproef. Een constante is een eigenschap die hetzelfde is voor alle elementen van de populatie. Een variabele is een eigenschap die verschillende waardes kan aannemen voor verschillende elementen van de populatie. 23 / 71

Populatie en steekproef Vb. Populatie: Nederlanders. Steekproef: een groep Nederlanders. Parameter: de gemiddelde lengte van alle Nederlanders. Statistiek: de gemiddelde lengte van een groep Nederlanders. Constante: de eigenschap Nederlander. Variabele: de eigenschap vrouw. Populatie: alle moleculen is een gegeven glas water. Steekproef: alle moleculen in een slok water uit dat glas. Parameter: het gemiddelde aantal waterstofmoleculen in het glas. Statistiek: het gemiddelde aantal waterstofmoleculen in de slok. Constante: de eigenschap molecuul. Variabele: de eigenschap zuurstofmolecuul. 24 / 71

Schaal 25 / 71

Schaal Def. Data kunnen op de volgende wijze geclassificeerd worden: nominale schaal: classiferen zonder ordening. ordinale schaal: classiferen in geordende categoriën. intervalschaal: een ordinale schaal waarbij elke schaal uit evenveel eenheden bestaat. ratioschaal: een intervalschaal waarbij er een werkelijk nulpunt is. 26 / 71

Nominale schaal Vb. Het aantal verkochte ijsjes in een ijskraam per smaak per dag: vanille pistache straciatelle 100 180 110 De categorieën zijn ongeordend. 27 / 71

Ordinale schaal Vb. De indeling van ziekenhuizen in de provincie Utrecht naar hygiëne: onvoldoende voldoende goed zeer goed 3 6 7 4 De categorieën zijn geordend: onvoldoende < voldoende < goed < zeer goed. 28 / 71

Intervalschaal Vb. De verdeling van de cijfers bij een wiskunde tentamen zijn: 1 2 3 4 5 6 7 8 9 10 0 1 2 7 1 5 8 4 2 2 De categorieën zijn geordend en bestaan elk uit evenveel eenheden. Bijvoorbeeld, het verschil tussen een categorie en de eerstvolgende categorie is voor elke categorie 1. 29 / 71

Ratioschaal Vb. De aanwezigheid van een giftige stof (in mg.) in laboranten: 0 1 2 3 4 5 6 5 10 8 4 3 2 0 De categorieën zijn geordend, bestaan elk uit evenveel eenheden en er is een werkelijk nulpunt. Dit is de enige schaal waarin de ratio van twee categorieën bestaat. Bijvoorbeeld, een laborant uit categorie 2 bevat half zoveel gif als een laborant uit categorie 4: mg. gif in categorie 2 mg. gif in categorie 4 = 0.5. 30 / 71

Score en frequentie 31 / 71

Score en frequentie Def. De score of waarde is de waarde van een waarneming. Vb. Het aantal biertjes dat verkocht wordt per avond in de cafe s X, Y, Z: De scores zijn 70, 100 en 180. X Y Z 100 70 180 Vb. Het aantal kinderen per persoon van 5 personen A, B, C, D, E: De scores zijn 0, 0, 1, 2 en 3. A B C D E 0 2 1 0 3 32 / 71

Score en frequentie Vb. Armoede in Zuid-Afrika: Er zijn 9 scores: 2%, 4%, 4%, 9%, 9%, 11%, 16%, 22%, 23%. De frequentie van score 4 is 2, van score 9 ook, en de frequentie van de overige scores is 1. 33 / 71

Score en frequentie Def. Een frequentie distributie geeft per categorie het aantal scores in die categorie weer. Def. Een cumulatieve frequentie distributie geeft per categorie het aantal scores in die categorie en in de categorieën beneden die categorie weer. 34 / 71

Score en frequentie Vb. Het aantal computers per gezin in een bepaald dorp: aantal computers 0 1 2 3 4 5 6 7 8 9 10 11 frequentie 4 3 7 10 15 20 11 9 10 6 4 1 35 / 71

Score en frequentie De representatie van data kan op twee manieren: De categorieën zijn de elementen waaraan waargenomen wordt, en elk bevat de waarde van die waarneming (de score). De categorieën zijn de waardes van de waarnemingen (de scores), en elk bevat het aantal voorkomens van die score (de frequentie). Uit de eerste representatie kan de tweede afgelezen worden, maar niet vice versa. 36 / 71

Score en frequentie Vb. Het aantal computers per huis in een dorp met 9 huizen, waarbij de categorieën de scores bevatten: huizen H1 H2 H3 H4 H5 H6 H7 H8 H9 aantal computers 2 3 0 2 5 2 3 1 7 Het aantal computers per huis in hetzelfde dorp, waarbij de categorieën de scores zijn en hun inhoud de frequentie van het voorkomen van die score: aantal computers 0 1 2 3 4 5 6 7 aantal huizen 1 1 3 2 0 1 0 1 37 / 71

Score en frequentie: klassenintervallen Def. Verschillende categorieën kunnen samen een klasse vormen en de frequentie distributie geeft dan het aantal voorkomens in de verschillende klassen weer. Het aantal categorieën in een klasse is de klassenbreedte van een groep. Het is het beste om de klassenbreedte oneven te kiezen, zodat het middelpunt geen breuk is. 38 / 71

Score en frequentie: klassenintervallen Vb. Het aantal computers per gezin in een bepaald dorp geclassificeerd met klassenbreedte 3: aantal computers 0-2 3-5 6-8 9-11 frequentie 14 45 30 11 39 / 71

Score en frequentie: klassenintervallen Def. Wanneer de categorieën als continu beschouwd kunnen worden vallen de elementen van een categorie eigenlijk alleen binnen zekere grenzen, de exacte klassengrenzen. Meestal zijn de exacte klassengrenzen een halve eenheid onder en boven de klassengrenzen. Er wordt aangenomen dat de scores in een klasseninterval uniform verdeeld zijn over het interval en adequaat gerepresenteerd worden door het middelpunt. 40 / 71

Score en frequentie: klassenintervallen Vb. De lengtes van een groep studenten in centimers: klassenintervallen frequentie exacte grenzen middelpunt 151-160 4 150.5-160.5 155 161-170 10 160.5-170.5 165 171-180 9 170.5-180.5 175 181-190 8 180.5-190.5 185 191-200 2 190.5-200.5 195 41 / 71

Grafieken Huiswerk: pagina s 26-37. 42 / 71

Finis 43 / 71