Statistiek voor A.I. College 10. Donderdag 18 Oktober

Vergelijkbare documenten
Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Kansrekening en Statistiek

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

Statistiek voor A.I.

Kansrekening en Statistiek

Kansrekening en Statistiek

Statistiek voor A.I. College 10. Dinsdag 16 Oktober

Kansrekening en Statistiek

Kansrekening en Statistiek

Statistiek voor A.I. College 14. Dinsdag 30 Oktober

Kansrekening en Statistiek

11.0 Voorkennis. Wanneer je met binomcdf werkt, werk je dus altijd met een kans van de vorm P(X k)

Statistiek voor A.I. College 6. Donderdag 27 September

Kansrekening en Statistiek

Statistiek voor A.I. College 9. Donderdag 11 Oktober

Kansrekening en Statistiek

15.1 Beslissen op grond van een steekproef [1]

Hoofdstuk 3 Statistiek: het toetsen

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Hoofdstuk 6 Twee populaties: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen

Verklarende Statistiek: Toetsen. Zat ik nou in dat kritische gebied of niet?

Toetsen van Hypothesen. Het vaststellen van de hypothese

Statistiek voor A.I. College 2. Donderdag 13 September 2012

. Dan geldt P(B) = a d. 3 8

Toetsen van hypothesen

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Lesbrief hypothesetoetsen

SOCIALE STATISTIEK (deel 2)

Examen Statistiek I Feedback

Antwoorden bij 4 - De normale verdeling vwo A/C (aug 2012)

13.1 Kansberekeningen [1]

4.1 Eigenschappen van de normale verdeling [1]

Statistiek voor A.I. College 4. Donderdag 20 September 2012

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Kansrekening en Statistiek

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

Kansrekening en Statistiek

Kansrekening en Statistiek

Inleiding Statistiek

Tentamen Statistische methoden MST-STM 8 april 2010, 9:00 12:00

Radboud Universiteit Nijmegen Heyendaalse weg 135

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor A.I. College 7. Dinsdag 2 Oktober

Hoofdstuk 8: Het Toetsen van Hypothesen (Extra Oefeningen)

Hoofdstuk 12: Eenweg ANOVA

14.1 Kansberekeningen [1]

Inleiding Applicatie Software - Statgraphics

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Voorbeeldtentamen Statistiek voor Psychologie

Les 2: Toetsen van één gemiddelde

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, uur.

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Statistiek voor A.I. College 5. Dinsdag 25 September 2012

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

Tentamen Voortgezette Kansrekening (WB006C)

Lesbrief de normale verdeling

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

werkcollege 6 - D&P10: Hypothesis testing using a single sample

Sheets K&S voor INF HC 10: Hoofdstuk 12

Hoofdstuk 6 Hypothesen toetsen

b) Uit Bayes volgt, gebruik makend van onderdeel a) P (T V )P (V ) P (T ) = (0.09)(0.07)

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Samenvatting Statistiek

Voorbeeld 1: kansverdeling discrete stochast discrete kansverdeling

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Hoofdstuk 5: Steekproevendistributies

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

Eindexamen wiskunde C vwo II

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

Statistiek voor A.I. College 3. Dinsdag 18 September 2012

Tentamen Inleiding Kansrekening 9 juni 2016, 10:00 13:00 Docent: Prof. dr. F. den Hollander

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Data analyse Inleiding statistiek

Examen Kansrekening en Wiskundige Statistiek: oplossingen

werkcollege 7 - D&P10: Hypothesis testing using a single sample

10. De simultane kansverdeling van twee stochasten X en Y is gegeven door de volgende (onvolledige) tabel: X / /4 1. d. 0 e.

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

Het tentamen heeft 25 onderdelen. Met ieder onderdeel kan maximaal 2 punten verdiend worden.

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Toegepaste Statistiek, Week 6 1

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

Uitleg significantieniveau en toetsen van hypothesen

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Transcriptie:

Statistiek voor A.I. College 10 Donderdag 18 Oktober 1 / 28

Huffington Post poll verkiezingen VS - 12 Oktober 2012 2 / 28

Gallup poll verkiezingen VS - 15 Oktober 2012 3 / 28

Jullie - onderzoek Kimberly, Josca en Niels Hoe mannelijk/vrouwelijk schat je jezelf? (1 = zeer mannelijk, 10 = zeer vrouwelijk) Steekproef bevat 9 vrouwen en 9 mannen. Histogram of FI Frequency 0 1 2 3 4 5 1 2 3 4 5 6 7 8 FI 4 / 28

Hoe lang is je haar (in cm)? Jullie - onderzoek Kimberly, Josca en Niels Histogram of FII Frequency 0 1 2 3 4 0 10 20 30 40 50 FII 5 / 28

Jullie - onderzoek Kimberly, Josca en Niels Horizontaal: Hoe lang is je haar (in cm)? Verticaal: Hoe mannelijk/vrouwelijk schat je jezelf? FI 1 2 3 4 5 6 7 8 0 10 20 30 40 50 FII Correlatiecoëfficiënt: 0.77 6 / 28

Jullie - onderzoek Kimberly, Josca en Niels Horizontaal: Hoe lang is je haar (in cm)? Verticaal: Hoe mannelijk/vrouwelijk schat je jezelf? groepfm$i 1.0 1.5 2.0 2.5 3.0 3.5 4.0 groepfv$i 6.0 6.5 7.0 7.5 8.0 5 10 15 20 25 groepfm$ii 20 25 30 35 40 45 50 55 groepfv$ii Links: mannen, correlatiecoëfficiënt: 0.55. Rechts: vrouwen, correlatiecoëfficiënt: -0.38. 7 / 28

Jullie - onderzoek Peter, Huub en Rens Horizontaal: Gemiddeld aantal glazen bier per week. Verticaal: Aantal ECTS behaald vorig jaar. GI 0 20 40 60 80 100 0 5 10 15 20 GIII Correlatiecoëfficiënt: -0.21. 8 / 28

Jullie - onderzoek Peter, Huub en Rens Horizontaal: Gemiddeld aantal koppen koffie per week. Verticaal: Gemiddeld aantal glazen bier per week. GIII 0 5 10 15 20 0 10 20 30 40 GII Correlatiecoëfficiënt: 0.45. 9 / 28

2 Deductieve statistiek Vandaag : Wet van de Grote Getallen Centrale Limietstelling Hypothese toetsen 10 / 28

Wet van de Grote Getallen: de Chebyshev ongelijkheid Stelling (Chebyshev Ongelijkheid) Voor elk getal t > 0 geldt: P( X E(X ) t) Var(X ) t 2. Bewijs Laat Y de stochast (X E(X )) 2 zijn. Dan zijn alle waarden van Y positief en E(Y ) = Var(X ). Uit de Markov ongelijkheid volgt: P( X E(X ) t) = P(Y t 2 ) E(Y ) t 2 = Var(X ) t 2. Stelling Voor elk getal t > 0 geldt: P( X E(X ) < t) 1 Var(X ) t 2. 11 / 28

Wet van de Grote Getallen: gevolg van Chebyshev ongelijkheid Stelling Zij X een stochast met waarden in R en gemiddelde µ en variantie σ 2. Dan geldt voor elke ɛ > 0: P( X n µ ɛ) σ2 nɛ 2 P( X n µ < ɛ) 1 σ2 nɛ 2. Bewijs Eerder werd aangetoond: Dus volgt uit Chebyshev: E(X n) = µ Var(X n) = σ2 n. Omdat volgt ook P( X n µ ɛ) σ2 nɛ 2. P( X n µ < ɛ) = 1 P( X n µ ɛ), P( X n µ < ɛ) 1 σ2 nɛ 2. Merk op: in de gevallen nɛ 2 σ 2 geeft de stelling geen informatie. 12 / 28

Wet van de Grote Getallen Stelling (Wet van de Grote Getallen) Voor een stochast X met verwachtingswaarde µ geldt voor elke ɛ > 0: lim P( X n µ < ɛ) = 1. n Bij toenemende n neemt de waarschijnlijkheid dat X n dicht bij µ ligt toe. Bewijs Dit volgt uit de laatste stelling op de vorige stelling en het feit dat lim n σ 2 nɛ 2 = 0. 13 / 28

Wet van de Grote Getallen: munt Voorbeeld Kan door vaak een munt te gooien de waarschijnlijkheid dat het gemiddelde aantal keren dat kop gegooid wordt meer dan 0.3 afwijkt van 0.5, kleiner dan 0.01 worden? X n is het steekproefgemiddelde bij het n maal gooien van de munt. Gevraagd wordt naar n waarvoor P( X n 0.5 0.3) 0.01. Met Chebyshev: P( X n 0.5 0.3) 0.25 n(0.3) 2. Dus P( X n 0.5 0.3) 0.01 voor n 0.25 0.01(0.3) 2 = 2500 9. Voor een duizendmaal zo grote nauwkeurigheid moet n duizendmaal zo groot 0.25 zijn: P( X n 0.5 0.3) 0.00001 voor n = 2500000. 0.00001(0.3) 2 9 14 / 28

Wet van de Grote Getallen: wijn Voorbeeld Een wijnboer verkoopt wijn per doos en wil dat de kans dat het percentage bedorven flessen in een doos meer dan 4% afwijkt van gemiddelde µ hoogstens 0.2 is. Hij weet µ niet en neemt voor de variantie 0.005. Hoeveel flessen wijn moeten de dozen minimaal bevatten? Met Chebyshev: P( X n µ 0.04) 0.005 n(0.04) 2. Dus P( X n µ 0.04) 0.2 voor n 0.005 0.2(0.04) 2 = 15.625. De dozen moeten minimaal 16 flessen bevatten. 15 / 28

Wet van de Grote Getallen Stelling Voor elke ɛ > 0 en 1 > δ > 0 kan door het kiezen van de juiste steekproefgrootte (door het experiment een voldoende aantal maal te herhalen) de waarschijnlijkheid dat het steekproefgemiddelde X n minder dan ɛ afwijkt van het ware gemiddelde µ, groter dan δ worden. Bewijs Gezocht wordt een n waarvoor P( X n µ < ɛ) δ. Met Chebyshev: P( X n µ < ɛ) 1 σ2 nɛ 2. Daarmee P( X n µ < ɛ) δ voor n waarvoor 1 σ2 δ. nɛ 2 Dat wil zeggen, voor σ 2 n ɛ 2 (1 δ). Merk op: voor een x maal zo grote nauwkeurigheid (ɛ x maal zo klein), moet n x 2 maal zo groot worden. 16 / 28

Wet van de Grote Getallen: Obama versus Romney Voorbeeld Gallup poll 15 Oktober 2012: Obama 46%. Hoe groot moet de steekproef minimaal zijn om met tenminste 0.9 waarschijnlijkheid tot op 1% nauwkeurigheid vast te stellen welk percentage van de bevolking op Obama stemt? µ is het werkelijke percentage Obama-stemmers. Zij X de stochast bij het wel of niet Obama stemmen van een persoon. X heeft een Bernouilli verdeling met variantie σ 2 = µ(1 µ), dus 0 σ 2 0.25. Gevraagd wordt naar de minimale n waarvoor De stelling op de vorige slide geeft n P( X n µ < 0.01) 0.9. σ 2 ɛ 2 (1 δ) = σ 2 (0.01) 2 (0.1) (0.25)2 (0.01) 2 (0.1) = 6250. Bij het werkelijke aantal n = 2700: minstens 0.9 waarschijnlijkheid is slechts te bereiken bij lagere nauwkeurigheid: P( X 2700 µ < ɛ) 0.9 ɛ 2 σ 2 2700(1 0.9) ɛ 0.015, en 1%-nauwkeurigheid is slechts te bereiken bij lagere waarschijnlijkheid: P( X 2700 µ < 0.01) δ δ 1 2700(0.01) 0.769. 2 17 / 28 σ 2

Centrale Limietstelling 18 / 28

Centrale Limietstelling Voorbeeld Benadering van een binomiale verdeling door de normale verdeling. 19 / 28

Centrale Limietstelling Stelling (Centrale Limietstelling) Voor een stochast X met verwachtingswaarde µ en standaardafwijking σ geldt voor elke a: lim P( X n µ σ a) = P n s(z a). n Bij toenemende n benadert X n de normale verdeling met gemiddelde µ en standaardafwijking σ n. De Centrale Limietstelling is een versterking en precisering van de Wet van de Grote Getallen. Definitie σ X = σ n is de standaardfout van het gemiddelde. 20 / 28

Centrale Limietstelling Voorbeeld Zij X een stochast met E(X ) = 3 en Var(X ) = 4 waarvoor de verdeling onbekend is of moeilijk te berekenen. Er wordt gevraagd naar de kans dat het steekproef gemiddelde van een willekeurige steekproef ter grootte n = 10.000 kleiner is dan 2.95. Aangenomen wordt dat n voldoende groot is om de verdeling van X = X 10.000 als een normale verdeling met verwachtingswaarde µ = 3 en standaardafwijking 4 = 0.02 te beschouwen. n = 2 100 Onder die aanname geldt: P(X 2.95) = P s( X 3 0.02 2.95 3 0.02 ) = Ps( X 3 0.02 0.05 0.02 ) = P s( X 3 0.02 2.25). Wegens de symmetrie van de standaard normale verdeling rond 0 geldt P s( X 3 0.02 2.25) = Ps( X 3 0.02 2.25). Uit tabel C.1 blijkt dat P s(z 2.25) = 0.0122. Dus P(X 2.95) = 0.0122. 21 / 28

Hypothese toetsen 22 / 28

23 / 28

Hypothese toetsen: toepassingen Voorbeeld Een medicijn wordt aan een groep patiënten toegediend en aan een controlegroep niet. Er moet besloten worden of het medicijn werkt of niet. Een fabriek laat een gedeelte van een lading geproduceerde auto s testen op een defect. Er moet besloten worden of de lading goed genoeg is om bij de leverancier af te leveren. De schedelgrootte van enkele Egyptenaren uit de oudheid is bekend. Op grond van deze data wil men vaststellen of de gemiddelde schedelgrootte van mensen in het oude Egypte gelijk is aan die van de huidige mens. 24 / 28

Hypothese toetsen: de hypotheses Definitie Bij hypothese toetsen wordt een hypothese H 0 getest tegen een hypothese H a. H 0 is de nulhypothese en H a is de alternatieve hypothese. H a wordt ook wel H 1 genoemd. De alternatieve hypothese is meestal de onderzoekshypothese, die alleen aangenomen (ondersteund) wordt door de nulhypothese te verwerpen. Vaak is de nulhypothese de hypothese van geen verschil of geen onderscheid of geen relatie, en de test dient om aan te tonen dat er wel een verschil, onderscheid of relatie is. 25 / 28

Hypothese toetsen: de zijde Definitie De hypotheses die we gaan beschouwen zijn meestal van de vorm: tweezijdig H 0 : µ = a H a : µ a linkszijdig H 0 : µ a H a : µ < a rechtszijdig H 0 : µ a H a : µ > a 26 / 28

Hypothese toetsen: criterium voor verwerpen H 0 Definitie H 0 en H a worden verworpen of aangenomen (niet verworpen). Als H 0 aangenomen wordt, wordt H a verworpen. Als H 0 verworpen wordt, wordt H a aangenomen. Definitie H 0 is waar en wordt aangenomen: correcte beslissing. H 0 is waar en wordt verworpen: fout van de 1 e soort. H a is waar en wordt aangenomen: correcte beslissing. H a is waar en wordt verworpen: fout van de 2 e soort. Criterium voor het verwerpen van de nulhypothese: Voor een zekere constante x k (of x l k en x r k) wordt op grond van een steekproef met gemiddelde X H 0 verworpen als X xk r of X xk l H 0 verworpen als X x k H 0 verworpen als X x k (tweezijdige toets) (rechtszijdige toets) (linkszijdige toets). 27 / 28

Finis 28 / 28