Steekproeven uit de halve cauchy verdeling

Vergelijkbare documenten
Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Examen G0N34 Statistiek

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

DEEL 3 INDUCTIEVE STATISTIEK INLEIDING TOT DE INDUCTIEVE STATISTIEK 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Kansrekening en Statistiek

OCBS Vereniging zonder winstoogmerk Ravensteinstraat 4 B 1000 BRUSSEL TRA 418 TOEPASSINGSREGLEMENT HERZIENING 1.

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

Hoofdstuk 3 Statistiek: het toetsen

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Kansrekening en Statistiek

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

Examen G0N34 Statistiek

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek (2S390) op maandag ,

Hierbij is het steekproefgemiddelde x_gemiddeld= en de steekproefstandaardafwijking

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

Voorbeeldtentamen Statistiek voor Psychologie

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

Inleiding Applicatie Software - Statgraphics

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

. Dan geldt P(B) = a d. 3 8

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Kansrekening en Statistiek

Hoofdstuk 5 Een populatie: parametrische toetsen

Kansrekening en Statistiek

Inhoudsopgave. Deel I Schatters en toetsen 1

Schatten en simuleren

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Cursus Statistiek Parametrische en non-parametrische testen. Fellowonderwijs Intensive Care UMC St Radboud

Inleiding Statistiek

Tentamen Voortgezette Kansrekening (WB006C)

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Oefenvragen bij Statistics for Business and Economics van Newbold

Statistiek voor A.I.

Set 3 Inleveropgaven Kansrekening (2WS20) Opgaven met sterretjes zijn lastiger dan opgaven zonder sterretje.


FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 22 februari 2013

Toegepaste Statistiek, Week 6 1

Wiskunde B - Tentamen 2

1 Meten en statistiek

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

Hoofdstuk 6 Twee populaties: parametrische toetsen

Examen Statistiek I Feedback

Samenvatting Statistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, uur.

Wetenschappelijk Instituut Volksgezondheid. Verwerking van gecensureerde waarden

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

Hoofdstuk 12: Eenweg ANOVA

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Hoofdstuk 5: Steekproevendistributies

Gezamenlijke kansverdeling van twee stochasten

Les 7-8: Parameter- en Vergelijkingstoetsen

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

Kansrekening en Statistiek

Kansrekening en stochastische processen 2DE18

Samenvatting Wiskunde A

Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

CHROMA STANDAARDREEKS

Les 1: Waarschijnlijkheidrekening

Tentamen Statistische methoden MST-STM 8 april 2010, 9:00 12:00

Kansrekening en Statistiek

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Inhoud. 1 Inleiding tot de beschrijvende statistiek Maatstaven voor ligging en spreiding Kansrekening 99

Statistiek in HBO scripties

Q-Q plots, goodness-of-fit toetsen, machtstransformaties

werkcollege 6 - D&P10: Hypothesis testing using a single sample

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Statistiek Casus Van het rechte pad

Les 1: Waarschijnlijkheidrekening

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek I voor B (2S410) op , uur.

Opdracht 2. Deadline maandag 28 september 2015, 24:00 uur.

Kansrekening en Statistiek

DH19 Bedrijfsstatistiek MC, 2e Bach Hir, Juni 2009

Tentamen Statistische methoden MST-STM 1 juli 2010, 9:00 12:00

SOCIALE STATISTIEK (deel 2)

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 7 februari 2011

Over het gebruik van continue normering Timo Bechger Bas Hemker Gunter Maris

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGES. Tentamen Inleiding Kansrekening 1 27 maart 2013

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

Transcriptie:

Steekproeven uit de halve cauchy verdeling door J. L. MIJNHEER * Summary Let xi,..., xn be a sample from a distribution with infinite expectation, then for n + 00 the sample average k,, tends to + co with probability 1 (see [4]). Sometimes 2, contains high jumps due to large observations. In this paper we consider samples from the absolute Cauchy distribution. In practice, on may consider the logarithm of the observations as a sample from a normal distribution. So we found in our simulation. After rejecting the log-normality assumption, one will be tempted to regard the extreme observations as outliers. It is shown that the discarding of the outlying observations gives an underestimation of the expectation, variance and 99 percentile of the actual distribution. 1. Inleiding Zij LC een stochastische variabele met verdelingsfunctie i2 - arctg x als x 2 0 F(x) = = 0 x < 0. Voor een steekproef &,,..., &, uit deze,,absolute Cauchy verdeling, ook we1 halve Cauchy verdeling genoemd, geldt: De stochastische variabele y met y = log& heeft verdelingsfunctie 2 G(y) = P(y < y ) = P(& < 8) = - arc tg 8 rt en verdelingsdichtheid Voor y geldt dan: 2 1 AY) = - rt ey+e-y (zie [4]). 1. Alle momenten zijn eindig. 2. Alle oneven momenten zijn nul. In het bijzonder tpy = 0. 3. d(y) = (7d2Y. Uit figuur 1 blijkt dat de verdeling van y grote overeenkomst vertoont met die van een N(0,(n12)2)-verdeelde stochastische variabele. In de praktijk zal men log sl,..., logg, dus kunnen aanzien voor een steekproef uit een normale verdeling. Dit betekent dat men bij verdere berekeningen doet alsof & een log-normale verdeling bezit en dus een eindige verwachting en variantie heeft. * Technische Hogeschool Twente. STATlSTICA NEERLANDICA 22 ( 1968) NR. 2 ALGEMEEN GEDEELTE 97

~ ~~ De log-normaliteit zal gebruikt worden voor het berekenen van de schatters voor verwachting, variantie en percentielen en het toetsen op uitschieters. normale verdelinn 5,> 7T I -I 75 95 Fig. 1 Verdelingsfuncties van de log-halve Cauchy verdeling en de N (0, (~/2)~)-verdeling uitgezet op waarschijnlij kheidspapier. 2. Numerieke resultaten Voor verschillende steekproefomvang zijn steeds lo0 steekproeven uit de halve Cauchy verdeling gesimuleerd. Voor de beschrijving van de simulatie zij verwezen naar [4]. De logaritmen van de waarnemingen uit elke steekproef zijn m.b.v. de toets van SHAPIRO en WILK (zie [5]> op normaliteit getoetst. De resultaten hiervan staan in tabel 2. Bij het toetsen is een onbetrouwbaarheidsdrempel a = 0,05 gebruikt. Tabel 2 n= 20 25 30 35 40 45 50 ~~~ I 85 84 81 76 80 72 80 I1 15 16 19 24 20 28 20 n = steekproefomvang I = aantal keren dat normaliteit niet wordt verworpen 11 = aantal keren dat norrnaliteit we1 wordt verworpen Verwerping van normaliteit kan een gevolg zijn van de aanwezigheid van uitschieters in de steekproef. Daarom zijn de steekproeven, die hiervoor in aanmerking kwamen, op de aanwezigheid van uitschieters getoetst met de toets van DOORNBOS (zie [2]). Daarbij blijken ook uitschieters naar beneden te kunnen optreden. In de steekproeven uit de halve Cauchy verdeling zijn dit kleine waarnemingen. Deze kleine waarnemingen hebben een minder opvallende invloed op het gedrag van het steekproefgemiddelde dan de grote waarnemingen, die de sprongen veroorzaken. Een toets voor zowel uitschieters naar boven als naar beneden wordt niet gegeven in [2]. Voor dergelijke situaties is de uitschietertoets tweemaal toegepast. STATISTICA NEERLANDICA 22 (1968) NR. 2 ALGEMEEN GEDEELTE 98

We kunnen de steekproeven nu in vier typen indelen. I: normaliteit van de hele steekproef wordt niet verworpen. I1 : idem; toch zijn er,,uitschieters in de steekproef. 111: in eerste instantie wordt de normaliteit voor de hele steekproef verworpen; na het weglaten van de,,uitschieters wordt de normaliteit van de overige waarnemingen in de steekproef niet meer verworpen. IV: blijvend niet normaal. In tabel 3 staan de aantallen van ieder type bij elke steekproefomvang vermeld. Bij het toetsen op uitschieters is ook een onbetrouwbaarheidsdrempel ct = 0,05 gebruikt. Ta be1 3 n= 20 25 30 35 40 45 50 I 71 73 75 72 74 60 69 I1 14 11 6 4 6 12 11 I11 12 13 16 21 17 21 18 IV 3 3 3 3 3 I 2 In de figuren 2 tlm 5 is van ieder type CCn steekproef op waarschijnlijkheidspapier uitgezet. In 3. worden deze figuren nader bekeken en de betekenis van de rechten gegeven. fype I I 81 21 d e : n d e r I. 95 uitschieter Fig. 2 Logaritmen van de waarnemingen uit een steekproef van de halve Cauchy verdeling uitgezet op waarschijnlijkheidspapier. Steekproef van type I. Fig. 3 Steekproef van type 11. Bezit &n uitschieter naar boven. 3. Effect van het weglaten van de uitschieters AITCHISON en BROWN geven in [I] verschillende methoden om de verwachting en variantie van de log-normale verdeling te schatten. Hiervan zijn er een paar gebruikt. a. Methode van de meest aannemelijke schatter Deze geeft voor de parameters van de bijbehorende normale verdeling de schatters STATISTICA NEERLANDICA 22 (1968) NR. 2 ALGEMEEN GEDEELTE 99

type 111 I 5. <. -5 Fig, 4 Steekproef van type 111. Bezit Ben uit- Fig. 5 Steekproef van type IV. schieter naar boven. J en 8;. Door substitutie van j en 8; in de formules voor de verwachting, variantie en het 99 percentiel van de log-normale verdeling krijgen we de meest aannemelijke schatters voor deze grootheden. Dit geeft: _a I = exp (I +is:>, b: = exp (2j+ $1 (exp sz- I), Pg9 = exp ( j + 2.33~~). b. Momentenmethode Alleen het steekproefgemiddelde = als schatter voor de verwachting is berekend. De momentenschatter voor de variantie is veel te onnauwkeurig. De schatters _a, en _b: zijn niet zuiver. FINNEY geeft in [3] een methode om zuivere schatters met minimale variantie te bepalen. In onze berekeningen verschillen deze schatters en de meest aannemelijke echter weinig. Het is duidelijk dat, na het weglaten van de uitschieters, $ een veel kleinere waarde krijgt terwijl j slechts weinig verandert. De schatters _al, -6; en Pg9 zijn monotoon stijgende functies van sf. Zij krijgen dus ook kleinere waarden. De schatter _az daarentegen is veel gevoeliger voor uitschieters naar boven dan voor die naar beneden. In de figuren 2 t/m 5 zijn de logaritmen van de geordende waarnemingen op waarschijnlijkheidspapier uitgezet. Voor steekproeven uit een log-normale verdeling liggen deze punten bij benadering op de rechte logx = av+p, waarbij v het quantiel in de N(0, Ibverdeling is. In de figuren zijn deze lijnen getekend, waarbij voor p en u de meest aannemelijke schatters zijn gebruikt. In de figuren 3 en 4 zijn de lijnen ook getekend na het weglaten van de uitschieters. Deze lijnen lopen minder steil en,,passen beter. Hierdoor zal men nog sterker de indruk van log-normaliteit krijgen. Deze procedure leidt echter tot verdere onderschatting. STATISTICA NEERLANDICA 22 (1968) NR. 2 ALGEMEEN GEDEELTE 100

4. Dankwoord Voor alle medewerking ben ik Prof. Dr. J. HEMELRIJK veel dank verschuldigd. 5. Literatuur [I] AITCHISON, J. and J. A. C. BROWN, The log-normal distribution. 1st ed., Cambridge, 1963. [2] DOORNBOS, R., Slippage tests (Akademisch Proefschrift), 1966. [3] FINNEY, D. J., On the distribution of a variate whose logarithm is normally distributed, Suppl. J.R. Statist. SOC. 7 (1941), p. 145. [4] MIJNHEER, J. L., The conduct of the sample average when the first moment is infinite. Statistica Neerlandica 22 (1968). pp. 37-41. [5] SHAPIRO, S. S. and M. B. WILK, An analysis of variance test for normality, Biometrika 52 (1965), pp. 591-61 1. STATISTICA NEERLANDICA 22 (1968) NR. 2 ALGEMEEN GEDEELTE 101