Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Vergelijkbare documenten
Inleiding Applicatie Software - Statgraphics

Data analyse Inleiding statistiek

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Kansrekening en Statistiek

Overzicht statistiek 5N4p

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Oefenvragen bij Statistics for Business and Economics van Newbold

Kansrekening en Statistiek

8.1 Centrum- en spreidingsmaten [1]

STATISTIEK. Een korte samenvatting over: Termen Tabellen Diagrammen

Formules Excel Bedrijfsstatistiek

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

College 4 Inspecteren van Data: Verdelingen

1. De wereld van de kansmodellen.

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

Kerstvakantiecursus. wiskunde A. Rekenregels voor vereenvoudigen. Voorbereidende opgaven HAVO kan niet korter

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

Opgeloste Oefeningen Hoofdstuk 6: Steekproeven en empirische distributies

VOOR HET SECUNDAIR ONDERWIJS

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Medische Statistiek Kansrekening

Populaties beschrijven met kansmodellen

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

Statistische variabelen. formuleblad

Y = ax + b, hiervan is a de richtingscoëfficiënt (1 naar rechts en a omhoog), en b is het snijpunt met de y-as (0,b)

Examen Statistiek I Feedback

Samenvatting Statistiek

Deel I : beschrijvende statistiek

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8

Onderzoeksmethodiek LE: 2

2 Data en datasets verwerken

Data analyse Inleiding statistiek

Statistiek voor A.I. College 6. Donderdag 27 September

werkcollege 6 - D&P9: Estimation Using a Single Sample

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Voorbeeld 1: kansverdeling discrete stochast discrete kansverdeling

Kansrekening en Statistiek

Kansrekening en stochastische processen 2S610

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

Paragraaf 5.1 : Frequentieverdelingen

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling

Eerst wordt ingegaan op de verschillende soorten data die we kunnen verzamelen en hoe datasets georganiseerd zijn.

Beschrijvende statistiek

Kansrekening en Statistiek

Les 2 / 3: Meetschalen en Parameters

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

4.1 Eigenschappen van de normale verdeling [1]

Levende Statistiek. Een module voor Wiskunde D VWO. Jacob van Eeghen en Liesbeth de Wreede

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....

SOCIALE STATISTIEK (deel 2)

9.1 Centrummaten en verdelingen[1]

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Statistiek voor A.I. College 2. Donderdag 13 September 2012

Statistiek voor A.I.

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

Kansrekening en Statistiek

Statistiek, gegevens en een kritische houding

Oplossingen hoofdstuk 8

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

Antwoorden bij 4 - De normale verdeling vwo A/C (aug 2012)

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

College Week 4 Inspecteren van Data: Verdelingen


Statistiek. Beschrijvend statistiek

Kansrekening en Statistiek

S1 STATISTIEK. Tabellen & diagrammen Centrummaten & Spreiding

Checklist Wiskunde A HAVO HML

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

VOOR HET SECUNDAIR ONDERWIJS. Exploratieve statistiek. Infoboekje. Prof. dr. Herman Callaert

Kansrekening en Statistiek

9.0 Voorkennis. Bij samengestelde kansexperimenten maak je gebruik van de productregel.

Een Bernoulli experiment is een experiment met slechts twee mogelijke uitkomsten, die we succes ( S ) en mislukking ( M ) noemen.

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

Les 1: Waarschijnlijkheidrekening

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1

Statistiek Casus Van het rechte pad

Zo geldt voor o.o. continue s.v.-en en X en Y dat de kansdichtheid van X + Y gegeven wordt door

Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 13-14

Kansrekening en stochastische processen 2DE18

Voorbeeldtentamen Statistiek voor Psychologie

Hoofdstuk 5. Toevalsveranderlijken en waarschijnlijkheidsdistributies. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

2.3 Frequentieverdelingen typeren

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 3 Statistiek: het toetsen

Transcriptie:

Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek

OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje en hij wil dat gaan beleggen. Omdat u lid bent van een beleggingsclub vraagt hij u om advies. U bent bekend met twee beleggingsstrategieën. Van beide strategieën heeft u in een bepaalde periode data verzameld (dat wil zeggen: winstpercentages die met deze strategieën zijn behaald). Geef op grond van deze data advies en leg de voor- en nadelen uit van beide strategieën uit. Populatie en steekproef KANSREKENING! Populatie Steekproef Aselect Beschrijvende statistiek Inferentiële statistiek Beschrijvende statistiek (numeriek) Locatiematen Gemiddelde Mediaan Modus Percentielen, kwartielen Spreidingsmaten Spreidingsbreedte, bereik, range Interkwartielafstand Variantie Standaardafwijking 1

Populatie-gemiddelde en steekproefgemiddelde Als de populatie eindig is (neem aan dat hij N elementen bevat), kan men spreken over het gemiddelde van de populatie µ = x 1 + x 2 + + x Ni=1 N x i = N N Bedenk dat een populatie ook oneindig kan zijn. Voorbeeld: men doet onderzoek naar een etsproces. Er wordt een steekproef genomen en er worden waarnemingen gedaan. In dit geval bestaat de populatie niet alleen uit het etsproces nu maar ook in de toekomst. Deze populatie bestaat dus niet echt. Het heet een HYPOTHETISCHE populatie. Ook als de populatie eindig is maar heel groot, wordt vaak gedaan als of het een oneindig grote populatie is. Populatie-gemiddelde en steekproef-gemiddelde Om zo n hypothetische populatie te beschrijven wordt een KANSMODEL gebruikt. Er wordt aangenomen dat de waarnemingen van de populatie zich gedragen volgens een bepaalde kansverdeling (bijvoorbeeld de normale verdeling). De verwachting van die kansverdeling heet dan de verwachte (gemiddelde) waarde van de populatie. Voor de verwachting wordt veel de Griekse letter µ gebruikt. Populatiegemiddelde of verwachting (mean; expected value) bij een discrete verdeling Voorbeeld: geometrische verdeling. Je doet een experiment met kans p op succes en je haalt het experiment net zo lang tot je succes hebt. De kans dat je de na i keer experimenteren succes hebt is gelijk aan P(i) = p (1 p) i 1. De verwachting of gemiddeld aantal dat je nodig zal hebben is dan gelijk aan E(X) = i P(i). i=1 Opmerking: de uitkomst hiervan is 1/ p. Als je bij een zuivere dobbelsteen dus net zo lang doorgooit tot je een 4 gooit is het verwachte aantal dat je nodig hebt 6. Populatiegemiddelde of verwachting (mean; expected value) bij een continue verdeling Voorbeeld: de temperatuur bij een chemisch proces kan zich gedragen volgens een bepaalde kansverdeling. Deze kansverdeling heet continu omdat de temperatuur alle waarden kan aannemen op een bepaald interval. Zo n kansverdeling wordt gemodelleerd met een kansdichtheid en de verwachting wordt uitgerekend met behulp van een integraal µ = E(X) = x f (x)dx. waarin f (x) de kansdichtheid is. Een veel gebruikte verdeling is de normale verdeling. 2

Populatie-variantie Als de populatie discreet is, wordt de variantie van de populatie (dat is een maat voor de spreiding) gedefinieerd als σ 2 = (i µ) 2 P(i). i=1 Als de populatie continu is, wordt de variantie van de populatie (dat is een maat voor de spreiding) gedefinieerd als σ 2 = Normale verdeling (x µ) 2 f (x)dx. De kansdichtheid van een normaal verdeelde stochast X is f X (x) = 1 σ (x µ) 2 2π e 2σ 2. Voor de verwachting geldt E(X) = µ. De variantie is gelijk aan Notatie V (X) = σ 2. X N(µ, σ 2 ). Standaard normale verdeling Een standaard normale verdeling is een normale verdeling met µ = 0 en σ = 1. Voor de kansdichtheid geldt dus f Z (z) = 1 2π e z2 2. Een stochast die standaard normaal verdeeld is wordt meestal aangeduid met de letter Z De kansdichtheid van een standaard normaal verdeelde stochast wordt genoteerd met de griekse letter φ: φ(z) = f Z (z). Standaardisatie Kansen met betrekking tot een normaal verdeelde stochast kunnen worden uitgerekend met behulp van de standaard normale verdeling. Laat X N(µ, σ 2 ). Dan geldt voor de kans P(X x) ( ) x µ P(X x) =. σ 3

Laat de stochast X normaal verdeeld zijn met µ = 10 en σ 2 = 16, X N(10, 16). Er geldt bijvoorbeeld Symmetrie ( X 10 P (X 17.4) = P 4 ) ( 17.4 10 = P Z 4 = P(Z 1.85) = (1.85) = 0.9678. ) 17.4 10 4 De normale kansdichtheid is symmetrisch rond µ. Er geldt voor alle a P(X µ a) = P(X µ + a). Meer in het bijzonder geldt dit ook voor de standaardnormale verdeling. Er geldt voor alle z P(Z z) = P(Z z). Of anders gezegd ( z) = 1 (z). Schatten van populatiegemiddelde met steekproef-gemiddelde Om de populatie te onderzoeken wordt een steekproef genomen. Als de waarnemingen uit de steekproef genoteerd worden met x 1, x 2,, x n, dan wordt x = x 1 + x 2 + + x ni=1 n x i = n n het steekproef-gemiddelde genoemd. Dit steekproef-gemiddelde zal gebruikt worden als schatting voor µ. Op grond van het steekproefgemiddelde kan men ook een intervalschatting geven voor het populatiegemiddelde. Zo n interval heet een betrouwbaarheidsinterval. Als men een 95% betrouwbaarheidsinterval voor het populatiegemiddelde geeft betekent het dat men in de 95% van de gevallen op deze manier een goede uitspraak doet (de echte waarde ligt in het interval). Schatten van populatie-variantie met steekproefvariantie De steekproef-variantie s 2 is gedefinieerd als s 2 = ni=1 (x i x) 2 n 1. Andere maten van spreiding Een andere maat voor de spreiding is het bereik r = max(x i ) min(x i ). Ook een maat is de InterKwartielRange (zie verder) 4

Beschrijvende statistiek (grafisch) Stengel-en-bladdiagram Histogram Boxplot Tijdreeksplot Normal Probability Plot Stengel-en-bladdiagram Bij een stengel en blad diagram probeert men de data weer te geven met een stengel en bladeren. 1. Knip elk getal in twee stukken: de stengel (de eerste cijfers van getal) en het blad (de overige cijfers van het getal). 2. Geef de stengel in een verticale kolom weer. 3. Geef elk blad weer naast de stengel. 4. Geef de eenheden. 5. Geef de aantallen bladeren Stengel-en-bladdiagram Data 140, 145, 160, 190, 155, 165, 150, 190, 195, 138, 160, 155, 153, 145, 170, 175, 175, 170, 180, 135 Het diagram wordt dan 13 58 14 055 15 0355 16 005 17 0055 18 0 19 005 Steekproef mediaan, percentielen, kwartielen, IQR De mediaan is die waarneming van de steekproef waarvoor geldt dat de helft van de waarnemingen groter is en de helft van de waarnemingen kleiner. Zet de getallen op volgorde van grootte. Deze worden genoteerd met dus Er geldt dus x (1), x (2),, x (n), x (1) < x (2) < < x (n). x (1) = min{x 1, x 2,, x n }, x (n) = max{x 1, x 2,, x n }. 5

Steekproef mediaan, percentielen, kwartielen, IQR Zet de getallen op volgorde van grootte. Deze worden genoteerd met x (1) < x (2) < < x (n). De mediaan is gelijk aan x ((n+1)/2) als n oneven is en gelijk aan [x (n/2) + x (n/2+1) ]/2 als n even is. Zo kunnen ook kwartielen gedefinieerd worden. Het eerste kwartiel is die waarneming van de steekproef waarvoor geldt dat een kwart van de waarnemingen kleiner is dan die waarde en driekwart van de waarnemingen groter. Het is dus waarneming x ((n+1)/4). Interpoleer weer indien (n + 1)/4 niet geheel is. Steekproef mediaan, percentielen, kwartielen, IQR Het eerste kwartiel (q 1 ) is die waarneming van de steekproef waarvoor geldt dat een kwart van de waarnemingen kleiner is dan die waarde en driekwart van de waarnemingen groter. Het is dus waarneming x ((n+1)/4). Interpoleer weer indien (n + 1)/4 niet geheel is. Het derde kwartiel (q 3 ) is die waarneming van de steekproef waarvoor geldt dat driekwart van de waarnemingen kleiner dan die waarde is en een kwart van de waarnemingen groter. Het is dus waarneming x (3(n+1)/4). Interpoleer weer indien 3(n + 1)/4 niet geheel is. In het algemeen kan men spreken van het 100k-e percentiel. Hiervoor geldt dat 100k% van de data kleiner dan die waarde is en 100(1 k)% groter. De interkwartiel range (IQR) is gelijk aan q 3 q 1. Frequentie verdeling Een frequentie verdeling is een meer compacte samenvatting van de data dan een blad en stengel diagram. Het bereik van de data wordt verdeeld in intervallen (liefst van gelijke breedte), ook wel cellen genoemd. Per cel wordt het aantal waarnemingen (de frequentie) gegeven. Het is ook inzichtelijk om de cumulatieve frequentie te geven. Een vuistregel voor het aantal cellen is n. Zoek naar het aantal cellen dat het meest inzichtelijke plaatje geeft. Soms zijn er intervallen van ongelijke breedte nodig. Voorbeeld: statgraphics Histogram Een histogram is een plaatje dat gekoppeld is aan de frequentie verdeling. Het wordt als volgt gemaakt 1. Zet horizontaal de cellen uit. 2. Zet verticaal de frequentie uit. 3. Teken een rechthoek boven de cel met als hoogte de betreffende frequentie. 4. Voorbeeld: statgraphics. 6

Ook een handig plaatje is de density trace. Zie statgraphics. Dit staat niet in het boek. De density trace is een functie die met behulp van de frequentie verdeling gemaakt is. Deze functie geeft een idee van de onderliggende kansdichtheid. Box-plots De doos bevat de helft van de waarnemingen (tussen het eerste kwartiel en het derde kwartiel). Bij de mediaan is een verticale lijn getekend. Aan de zijkanten van de doos zijn twee horizontale lijnen getekend. Aan de linkerkant is een lijn die van het eerste kwartiel loopt naar de kleinste waarde van de waarnemingen die nog binnen 1.5 keer de I Q R ligt. Aan de rechterkant is een lijn die van het derde kwartiel loopt naar de grootste waarneming die nog binnen 1.5 keer de I Q R ligt. Punten die nog kleiner zijn aan de linkerkant (of groter aan de rechterkant) maar wel binnen 3 maal de I Q R liggen heten uitschieters (outliers) en worden apart getekend in een Box-plot. Punten die NOG kleiner zijn aan de linkerkant (of groter aan de rechterkant) heten extreme uitschieters (outliers) en worden liefst met een ander symbool apart getekend in een Box-plot. Waarnemingen tegen de tijd Het kan nuttig zijn om de waarnemingen uit te zetten tegen de tijd (het tijdstip waarop de waarnemingen zijn gedaan moet dan wel bekend zijn uiteraard). Op de x-as staat tegen de tijd uitgezet. Op de y-as staat de waarde van de waarneming uitgezet. Zo kan een trend ontdekt worden (of seizoensinvloeden). Voorbeeld: statgraphics. Probability plot Probability plots zijn geschikt om te kijken of de waarnemingen uit een bepaalde kansverdeling komen. Een histogram kan al een idee geven, maar probability plots geven een beter beeld. De waarnemingen worden uitgezet tegen een speciale schaal. De schaal is zodanig dat de waarnemingen bij de betreffende verdeling op een rechte lijn moeten liggen. 7