Inleiding Statistiek

Vergelijkbare documenten
Introductie in R.

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Verklarende Statistiek: Toetsen. Zat ik nou in dat kritische gebied of niet?

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Kansrekening en Statistiek

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Statistiek voor A.I. College 10. Donderdag 18 Oktober

Hoofdstuk 3 Statistiek: het toetsen

Examen Statistiek I Januari 2010 Feedback

ALGEMENE STATISTIEK VOOR BWI COMPUTEROPGAVEN 2009/2010. A.W. van der Vaart en F. Bijma

Samenvatting Statistiek

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

Toetsen van Hypothesen. Het vaststellen van de hypothese

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

Kansrekening en Statistiek

Kansrekening en Statistiek

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Hoofdstuk 6 Twee populaties: parametrische toetsen

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Hoofdstuk 5 Een populatie: parametrische toetsen

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Wiskunde B - Tentamen 2

Opdracht 2. Deadline maandag 28 september 2015, 24:00 uur.

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur

. Dan geldt P(B) = a d. 3 8

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31

Meetkunde en Lineaire Algebra

Kansrekening en stochastische processen 2S610

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

Examen Statistiek I Feedback

Aantekeningen over MATLAB

Kansrekening en Statistiek

Toegepaste Statistiek, Week 6 1

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

Tentamen Statistische methoden MST-STM 8 april 2010, 9:00 12:00

Korte handleiding Maple bij de cursus Meetkunde voor B

Project Dynamica: oefenopgaven met R

Meetkunde en Lineaire Algebra

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

Matlab-Introductie (les 1)

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, uur.

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Matlab introductie. Kees Vuik

1 Matlab: problemen oplossen binnen de lineaire algebra

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

DEEL 3 INDUCTIEVE STATISTIEK INLEIDING TOT DE INDUCTIEVE STATISTIEK 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Populaties beschrijven met kansmodellen

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

Lesbrief hypothesetoetsen

Tentamen Kansrekening en statistiek wi2105in 25 juni 2007, uur

Toegepaste Statistiek, Week 3 1

3de bach HI. Econometrie. Volledige samenvatting. uickprinter Koningstraat Antwerpen A 11,00

Inleiding MATLAB (2) november 2001

Data analyse Inleiding statistiek

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Set 3 Inleveropgaven Kansrekening (2WS20) Opgaven met sterretjes zijn lastiger dan opgaven zonder sterretje.

Examen G0N34 Statistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

11.0 Voorkennis. Wanneer je met binomcdf werkt, werk je dus altijd met een kans van de vorm P(X k)

Bijlage Bijlage 3. Statistische toetsing: werkwijze, toetsen, formules, toepassing

Statistiek voor A.I. College 10. Dinsdag 16 Oktober

Kansrekening en stochastische processen 2DE18

werkcollege 6 - D&P9: Estimation Using a Single Sample

Radboud Universiteit Nijmegen Heyendaalse weg 135

Tentamen Inleiding Kansrekening wi juni 2010, uur

Kansrekening en Statistiek

Tentamen Voortgezette Kansrekening (WB006C)

Les 2: Toetsen van één gemiddelde

Kansrekening en Statistiek

Uitwerking Tentamen Inleiding Kansrekening 11 juni 2015, uur Docent: Prof. dr. F. den Hollander

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Meten en experimenteren

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Feedback examen Statistiek II Juni 2011

Medische Statistiek Kansrekening

Toetsen van hypothesen

Oefenvragen bij Statistics for Business and Economics van Newbold

Hoofdstuk 5. Dobbelen, echt en virtueel. > Maak in SPSS een nieuwe data-verzameling (File > New > Data). We gaan hier de

Hoofdstuk 8: Het Toetsen van Hypothesen (Extra Oefeningen)

10. De simultane kansverdeling van twee stochasten X en Y is gegeven door de volgende (onvolledige) tabel: X / /4 1. d. 0 e.

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van uur.

Kwantummechanica Donderdag, 13 oktober 2016 OPGAVEN SET HOOFDSTUK 4. Bestudeer Appendix A, bladzijden van het dictaat.

FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Sheets K&S voor INF HC 10: Hoofdstuk 12

Korte handleiding Maple, bestemd voor gebruik bij de cursus Wiskunde

Tentamen Wiskunde A. Het gebruik van een mobiele telefoon of andere telecommunicatieapparatuur tijdens het tentamen

2. Het benaderen van nulpunten

Transcriptie:

Inleiding Statistiek Practicum 1 Op dit practicum herhalen we wat Matlab. Vervolgens illustreren we het schatten van een parameter en het toetsen van een hypothese met een klein simulatie experiment. Het is de bedoeling dat je de onderstaande commando s zelf intypt, of met copy-paste overbrengt, en kijkt wat er gebeurt. Maak een verslag van de antwoorden op de opgaven die in de tekst staan. 1 Matlab Start Matlab op. Je krijgt een window met een prompt >>. Hierkunjecommando stypen.zoals >> 2+4 6 of >> 3*5 >> 2^3 >> sqrt(9) >> sin(pi) % Matlab kent pi 1.2246e-16 % nou ja, eigenlijk 0! 1

Soms is het antwoord van een berekening WAAR of NIET WAAR >> 2>4 % is 2 groter dan 4? 0 % NIET WAAR = 0 andere voorbeelden: >> 3==3 % let op de dubbele == >> 3~=3 % ~= staat voor ongelijkheid >> (3>2)&(3>4) % & staat voor het logische "EN" >> (3>2) (3>4) % staat voor het logische "OF" 1.1 variabelen Het volgende commando maakt een variabele a met waarde 3.162. >> a = sqrt(10) We kunnen natuurlijk ook rekenen met variabelen. >> b = a+5 maakt een variabele b met waarde 8.162. Herhaal het bovenstaande commando, maar sluit af met een punt-komma. Wat valt je op? Een logische variabele neemt de waarde WAAR of NIET WAAR aan. Als je met logische variabelen rekent, correspondeert WAAR met 1 en NIET WAAR met 0. Toch is een logische variabele niet hetzelfde als een gewone variabele met de waarde 0 of 1. 2

>> c = (3<4); >> c c = 1 >> islogical(c) 1 % c is een logische variabele >> d=1; >> islogical(d) 0 % d is niet een logische variabele Logische variabelen zijn bijzonder belangrijk, zoals spoedig duidelijk zal worden. 1.2 vectoren Vectoren zijn het belangrijkste onderdeel van Matlab. Probeer de volgende voorbeelden een voor een uit >> x = [1 3 2 6 0] >> x = 3*ones(1,10) >> x = 1:20 >> x = 1:3:20 >> x = 20:-1:1 >> x = [] % een lege vector We kunnen ook rekenen met vectoren >> x = 1:10; >> y = 3*x - 12 y = -9-6 -3 0 3 6 9 12 15 18 >> z = (y<0) z = 1 1 1 0 0 0 0 0 0 0 3

opgave 1.1 Het commando x = unidrnd(10,1,10000) produceert een rij van tienduizend toevallig gekozen getallen tussen 1 en 10. Voer het commando uit, en tel hoeveel vijven er in de rij voorkomen. 1.3 subscripting Subscripting is het selecteren van elementen van een vector. >> y(3) >> y(3:5) We kunnen ook selecteren met behulp van een Boolese vector. We selecteren alle elementen van y die groter zijn dan 0 door >> y(y>0) Dit is een zo n belangrijk gebruik van logische variabelen waar we het eerder over hadden. We kunnen natuurlijk ook rekenen met vectoren >> x = 1:10; >> y = 1:2:20; >> x+y >> x.*y % puntsgewijze vermenigvuldiging >> x*y % inproduct (waarom werkt x*y niet?) 1.4 matrices We maken een matrix A (probeer de onderstaande commando s een voor een uit) >> A = ones(2,3) 4

>> A = eye(4) >> A = [1 2 3; 4 5 6; 7 8 9; 10 11 12] % punt-komma s scheiden de rijen. >> A = A % transpositie >> A = reshape(a,6,2) >> A = repmat(a,2,3) We kunnen natuurlijk elementen van de matrix selecteren >> A(1,2) >> A(1:2,2:3) >> A(2,:) % selecteer de tweede rij >> A(:,3) % selecteer de derde kolom opgave 1.2 Beschouw het volgende lineaire probleem 3x 1 +2x 2 + x 3 =39 2x 1 +3x 2 + x 3 =34 x 1 +2x 2 +3x 3 =26 Los dit probleem op met Matlab. Gebruik het commando inv() om de matrix te inverteren. 1.5 functies We hebben al een aantal functies gebruikt: sqrt, sin en inv. Matlabheeftbijzonderveelingebouwde functies. De uitleg van een functie is de vinden door >> help inv Hoe weet je nou of Matlab een ingebouwde functie heeft voor (bijvoorbeeld) de cosinus? De beste methode is proberen te raden 5

>> cosine(pi)??? Undefined command/function cosine. >> cos(pi) -1 % Aha! Je kunt ook nog altijd Google Matlab cosine proberen. Sommige functies hebben twee of meer outputs. >> x = [2 7 3 4 3 1 4]; >> sort(x) % de gesorteerde rij >> [y i]=sort(x) % de gesorteerde rij met indices >> x(i) % de gesorteerde rij (hoezo?!) opgave 1.3 Gebruik Matlab om de waarde tot op 3 decimalen te benaderen waar de functie sin(x) zijn maximum bereikt op het interval [0, 2π]. 1.6 plotten Je kunt de functies plot() gebruiken om plaatjes te maken. >> x = 0:0.1:2*pi; >> plot(x,sin(x)); of > plot(x,sin(x), r* ) Bekijk help plot voor alle mogelijkheden. Het commando hold on zorgt ervoor dat je iets aan een bestaand plaatje kunt toevoegen. Na het commando hold off wordt alles eerst gewist. opgave 1.4 Plot de functie f(x) =x 2 op het interval [ 5, 5]. Breng vervolgens de functie g(x) = 5x aan in je grafiek. 6

1.7 scripting Een script is een lijstje met commando s. Hier is een voorbeeld van een scriptje dat de kwadraten van de getallen 1 t/m 10 uitrekent. We gebruiken een for-lus. for i = 1:10 disp([i i^2]); end; Hier is een script dat de if-constructie demonstreert. for i = 1:10 disp([i i^2]); if (i == 5) disp( halverwege ); end; end; % sluit de if-constructie af % sluit de for-lus af opgave 1.5 Een for-lus is vaak niet nodig, en kost dan nodeloos veel rekentijd. Bepaal de kwadraten van de getallen 1 t/m 10 met behulp van een enkel commando. Als je zelf een script moet schrijven, is het handig om een editor te gebruiken. Geef het bestand een naam met een.m extensie, bijvoorbeel kwadraten.m. Als je nu bij de Matlab prompt het commando kwadraten geeft, wordt je script uitgevoerd. opgave 1.6 In de Fibonacci rij is ieder getal gelijk aan de som van de twee voorafgaande getallen: 1, 1, 2, 3, 5, 8, 13, 21,... Gebruik Matlab om de eerste 20 Fibonacci getallen te bepalen. 2 Schatten Stel we hebben een munt met onbekende kop-kans p. Wegooienn keer met deze munt, en noemen het aantal koppen X. Nu is X een stochastische grootheid met de binomiale kanseverdeling met 7

parameters n en (de onbekende) p. Ergeldt ( ) n P (X = k) = p k (1 p) n k, k k =0, 1,...,n. De meest voor de hand liggende schatter van p is natuurlijk ˆp = X/n. opgave 2.1 Hoezo ligt deze schatter voor de hand? Merk op dat ˆp een stochastische grootheid is met een eigen kansverdeling die weer van de onbekende p afhangt! ( ) n P (ˆp = k/n) = p k (1 p) n k, k =0, 1,...,n. k De verwachting van ˆp is en de variantie van ˆp is Var(ˆp) =Var E(ˆp) =E ( ) X = 1 np EX = n n n = p, ( ) X = 1 p) Var(X) =np(1 = n n2 n 2 p(1 p). n Hoe groter n, hoe kleiner deze variantie. Dus:hoe vaker we met de munt gooien hoe nauwkeuriger we p kunnen schatten. opgave 2.2 Doe 1000 trekkingen uit de binomiale verdeling met parameters n =10enp =0.6 en maak een histogram van de 1000 schatters. n = 10; p = 0.6; X = binornd(n,p,1,1000); hist(x/n,0:1/n:1); Kies n =3, 10, 20, 100, 10000. Begrijp je het? opgave 2.3 Voer de onderstaande commando s een aantal keer uit. 8

p = 0.6; X = binornd(1,p,1,1000); M = cumsum(x)./(1:1000); plot(m) Welke Stelling uit Kansrekening en Statistiek 1 zie je hier in actie? Wat heeft dat met schatten te maken? 3 Toetsen Gooi met een munt met kop-kans p. Als kop valt krijg je een euro, als munt valt ben je een euro kwijt. De meeste mensen zullen dit spel alleen willen spelen als p>1/2. Stel nu dat je eerst 10 keer met de munt mag gooien om vast te stellen of p groter dan 1/2 is. Zij X het aantal koppen in de eerste 10 worpen. Het ligt voor de hand om de volgende regel te hanteren: Kies een zekere K. AlsX>K,danzijnwebereidhetspeltespelen. Het is nu nog niet duidelijk hoe we K moeten kiezen, maar daar komen we later op terug. opgave 3.1 Waarom ligt deze regel voor de hand? In het jargon van de statistiek hebben we de volgende situatie. Stel X is verdeeld volgens de Binomiale verdeling met parameters n = 10 en onbekende p. We toetsen de nulhypothese H 0 : p 1 2 versus het alternatief A : p> 1 2. We besluiten de nulhypothese te verwerpen als X > K. We noemen X de toetsingsgrootheid en K de kritieke waarde 9

De nulhypothese is de grondtoestand. We verwerpen de nulhypothese pas als we echt genoeg reden om eraan te twijfelen. Als het experiment geen duidelijke uitslag oplevert, dan krijgt de nulhypothese het voordeel van de twijfel. Nog een keer voor alle duidelijkheid: Als we de nulhypothese niet kunnen verwerpen, betekent dat niet dat de nulhypothese waar is. Het betekent alleen maar dat we (nog) niet genoeg reden hebben om aan de nulhypothese te twijfelen. opgave 3.2 A : p 1/2? Waarom toetsen we hier niet de nulhypothese H 0 : p>1/2 versushetalternatief Het volgende script genereert 1000 trekkingen uit de binomiaal(n = 10,p = 0.6) verdeling. In dit voorbeeld is de nul hypothese dus niet waar. Als het aantal koppen groter dan K =5is,verwerpen we de nulhypothese. p = 0.6; K = 5; X = binornd(10,p,1,1000); verwerp = (X>K); verwerp = num2str(sum(verwerp)); disp([ We verwerpen de nulhypothese in verwerp uit 1000 keer. ]); opgave 3.3 Voer het script uit. De nulhypothese is hier niet waar. Wordt deze dan ook altijd verworpen? Probeer K zo in te stellen dat de nulhypothese altijd wordt verworpen. opgave 3.4 Verander het script zodat p = 0.5 en K = 5. Nu is de nulhypothese wèl waar. Wordt deze dan ook nooit verworpen? Probeer K zo in te stellen dat de nulhypothese nooit wordt verworpen. Zoals je ziet, kun je twee soorten fouten maken bij het toetsen vaneenhypothese: 1. fout van de eerste soort: nulhypothese is waar, maar wordt toch verworpen. 2. fout van de tweede soort: nulhypothese is niet waar, maar wordt niet verworpen. 10

Door K aan te passen kunnen we de kans op een fout van de ene soort klein krijgen. Helaasgaat daardoor de kans op een fout van de andere soort omhoog. De algemeen geaccepteerde oplossing voor dit dilemma is van te voren vast te stellen hoe groot de kans op een fout van de eerste soort mag zijn. Dit heet het significantieniveau α. Met andere woorden, het significantie niveau is de kans dat de nulhypothese wordt verworpen, terwijl deze juist is. Gebruikelijke waarden voor α zijn 1% of 5%. opgave 3.5 Stel α=5%. Gebruik het simulatie script om K zo te kiezen dat de nulhypothese in ongeveer 5% van de gevallen wordt verworpen als p =1/2. Bij de vorige opgave vond je dat K =7eentoetsoplevertdieinongeveer5%vandegevallende nulhypothese verwerpt, wanneer deze in feite juist is. Met andere woorden P (X > 7) 0.05 als de kop-kans p =1/2. We hebben de functie binornd gebruikt voor het trekken van een steekproef uit de binomiale verdeling. De functies binopdf, binocdf en binoinv corresponderen met de kansmassafunctie, de verdelingsfunctie en de kwantielfunctie van de binomiale verdeling. Zie de help voor uitleg. opgave 3.6 Gebruik Matlab om P (X >7) te bepalen, onder de aanname dat p =1/2. Dit is het exacte significantie niveau van de toets. De zogeheten P -waarde lijkt erg op het significantie niveau, maar mag daarmee niet verward worden. De P -waarde is de kans, onder de nulhypothese, dat de toetsingsgrootheid een waarde aanneemt die tenminste zo onwaarschijnlijk is onder de nulhypothese als de geobserveerde waarde. Bijvoorbeeld: Stel dat we 9 koppen in 10 worpen waarnemen. De P -waarde is P (X 9) = 0.011. De P -waarde geeft aan hoe onwaarschijnlijk de observatie is, als denulhypothesewaarzouzijn. Een kleine P -waarde betekent dus dat de observatie erg onwaarschijnlijk isonderdenulhypothese reden om deze te verwerpen. Er geldt: De nulhypothese wordt verworpen dan en slechts dan als de P -waarde van de observatie kleiner is dan het significantie niveau. opgave 3.7 De P -waarde is de kans is dat de nulhypothese waar is. Is deze bewering juist of niet? 11