Inleiding statistiek

Vergelijkbare documenten
Oplossingen hoofdstuk 8

Populaties beschrijven met kansmodellen

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

2 Data en datasets verwerken

2.3 Frequentieverdelingen typeren

Inleiding Applicatie Software - Statgraphics

Les 1: de normale distributie

TIP 10: ANALYSE VAN DE CIJFERS

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

Data analyse Inleiding statistiek

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

VOOR HET SECUNDAIR ONDERWIJS

Werkblad 1 Normale dichtheidsfunctie als benadering voor een klokvormig histogram

Statistiek I Samenvatting. Prof. dr. Carette

Meten en experimenteren

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

Examen Statistiek I Feedback

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO

Kansrekenen en statistiek. Daniël Slenders Faculteit Ingenieurswetenschappen Katholieke Universiteit Leuven

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Zin en onzin van normale benaderingen van binomiale verdelingen

Meten en experimenteren

4.1 Eigenschappen van de normale verdeling [1]

Overzicht statistiek 5N4p

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

STATISTIEK. Een korte samenvatting over: Termen Tabellen Diagrammen

Wiskunde D Online uitwerking 4 VWO blok 5 les 3

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

Hoofdstuk 5 Een populatie: parametrische toetsen

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Hoofdstuk 5: Steekproevendistributies

College 4 Inspecteren van Data: Verdelingen

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Statistiek: Vorm van de verdeling 1/4/2014. dr. Brenda Casteleyn

Voorbeeldtentamen Statistiek voor Psychologie

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Hoofdstuk 10: Regressie

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1

SOCIALE STATISTIEK (deel 2)

Statistiek: Herhaling en aanvulling

De eerste stappen met de TI-Nspire 2.1 voor de derde graad

Checklist Wiskunde A HAVO HML

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten

3 In een klas hebben de meisjes en de jongens gemeten hoe lang ze zijn. De resultaten staan in de tabel hieronder.

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Hoofdstuk 3 Statistiek: het toetsen

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

TI83-werkblad. Vergelijkingen bij de normale verdeling

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Statistiek voor A.I.

Eerst wordt ingegaan op de verschillende soorten data die we kunnen verzamelen en hoe datasets georganiseerd zijn.

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Kansrekening en Statistiek

Onderzoeksmethodiek LE: 2

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

College Week 4 Inspecteren van Data: Verdelingen

Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8

Kansrekening en Statistiek

Schatting voor het aantal tanks: is statistiek beter dan de geheime dienst?

4 Domein STATISTIEK - versie 1.2

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Havo 4 - Practicumwedstrijd Versnelling van een karretje

HOVO statistiek November

Hoofdstuk 5. Dobbelen, echt en virtueel. > Maak in SPSS een nieuwe data-verzameling (File > New > Data). We gaan hier de

werkcollege 6 - D&P9: Estimation Using a Single Sample

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

Opgeloste Oefeningen Hoofdstuk 6: Steekproeven en empirische distributies

Kansrekening en Statistiek

BETROUWBAARHEIDSINTERVALLEN VANUIT VERSCHILLENDE HOEKEN BELICHT. S.A.R. Bus

Voorbeelden van gebruik van 5 VUSTAT-apps

Beschrijvende statistiek

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke

Modelexamen Statistiek

bijspijkercursus wiskunde voor psychologiestudenten bijeenkomst 6 statistiek/gegevensverwerking los materiaal, niet uit boek [PW]

TECHNISCHE UNIVERSITEIT EINDHOVEN

Aardgasbaten. (b) Teken bij 1996 een cirkeldiagram (c) Teken bij de tabel een vlakdiagram

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

d. Maak een spreidingsdiagram van de gegevens. Plaats de x-waarden op de x-as en de z-waarden op de y-as.

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

2 Data en datasets verwerken

Antwoorden bij 4 - De normale verdeling vwo A/C (aug 2012)

EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot

Transcriptie:

Inleiding Statistiek Pagina 1 uit 8 Inleiding statistiek 1. Inleiding In deze oefeningensessie is het de bedoeling jullie vertrouwd te maken met een aantal basisbegrippen van de statistiek, meer bepaald met de manieren om een hoop data op een informatieve wijze samen te vatten in enkele getallen en om ze visueel voor te stellen. Waarom zou je dit willen doen? Stel, je bent medewerker aan het NIS (Nationaal Instituut voor de Statistiek) en je hebt juist de lijst gekregen met de leeftijd van alle inwoners van België. Laten we zeggen dat er 10 miljoen inwoners van België zijn, dat wil zeggen dat je enkele duizenden vellen papier voor je neus liggen hebt met allemaal getallen. Geraak jij daar wijs uit? Net daarom is het belangrijk van die data op een zo compact mogelijke wijze toch informatief voor te stellen. Dit kan grafisch, of aan de hand van enkele kengetallen. 2. Belangrijkste kengetallen Hier zullen enkele mogelijkheden besproken worden om data samen te vatten in enkele getallen. 2.a. Gemiddelde, variantie en standaarddeviatie De meest voorkomende manier om data samen te vatten is aan de hand van het empirisch (ofwel berekend) gemiddelde en de spreiding (variantie of standaarddeviatie). Schrijf drie programma s in MatLab die, gegeven een vector, respectievelijk het gemiddelde, de variantie en de standaarddeviatie. Test jullie programma s uit op een aantal vectoren naar keuze. Indien je van deze vectoren de gezochte waarden niet met de hand kan berekenen, gebruik dan de voorgedefinieerde commando s mean, var en std. Je kan deze dingen enkel nauwkeurig berekenen als je beschikking hebt over de data. Stel nu dat dat niet zo is, dat je enkel een plot krijgt in de volgende stijl:

Inleiding Statistiek Pagina 2 uit 8 1 2 3 4 5 6 7 8 0 100 200 300 400 500 600 700 800 Dit is niet zo n ongewone situatie. Stel dat je een versterker hebt die, naast het ingangssignaal te versterken, een ruiscomponent toevoegt aan het ingangssignaal. Stel ook dat je geïnteresserd bent in de eigenschappen van die ruiscomponent en dat je die ruis enkel op een oscilloscoop ( scope ) kan laten zien. Hoe kan je dan vanuit dat beeld op de scope toch zijn karakteristieken (gemiddelde en standaarddeviate) aflezen? Gelukkig voor ons volgt ruis doorgaans één bepaalde verdeling, namelijk een normaalverdeling. Waarom zal later duidelijk worden. Eén van de interessante eigenschappen van die verdeling is dat ze volledig gekarakteriseerd wordt door haar gemiddelde en standaarddeviatie. Met andere woorden, als we die twee kennen, weten we alles over de specifieke verdeling van het uitgeplotte ruissignaal. Het eerste dat je merkt is dat de data symmetrisch verdeeld lijken te zijn rond een bepaalde waarde. Probeer uit bovenstaande plot te schatten welke waarde dat is. Dit is een schatting voor het gemiddelde van de data. Hoe kan je nu de spreiding of de standaarddeviatie schatten? Daarvoor moet je gebruik maken van de eigenschap dat bij een normale verdeling ongeveer 96% van de data ligt in het interval gevormd door [ µ 2σ, µ + 2σ], waar µ en σ respectievelijk het gemiddelde en de standaarddeviatie van de verdeling zijn. Schat nu, op bovenstaande plot, tussen welke twee waarden 96% van de datapunten liggen. Als je dan de lengte van het bekomen interval deelt door 4, heb je een schatting van de spreiding van de data. Je hebt hierbij twee files gekregen, schat_op_zicht en oplossing. Als je de functie schat_op_zicht aanroept (zonder parameters), krijg je een plot in de stijl van hierboven. Probeer vanuit die plot het gemiddelde en de spreiding van de data te schatten.

Inleiding Statistiek Pagina 3 uit 8 Als je wil weten of je oplossing correct is, roep dan de functie oplossing aan (weeral zonder parameters). Doe dit een aantal keer tot je met een redelijke nauwkeurigheid die schattingen kan uitvoeren. Let wel op dat je deze schattingsmethode niet gebruikt als de verdeling van de data significant anders lijkt dan een normaalverdeling. 2.b. Schatten van ruis op signalen Je weet nu al hoe je de karakteristieken (gemiddelde en standaarddeviatie) van een zuiver (normaalverdeeld) ruis-signaal kan schatten, maar stel nu dat je over een signaal beschikt (bijvoorbeeld een sinusgolf) waarop een zekere hoeveelheid ruis zit, en je wil een schatting van de grootte van die ruis. Hoe kan je dan te werk gaan? Een mogelijkheid is, als je over de data beschikt, het signaal te scheiden van de ruis, maar dit is in de meeste gevallen een tamelijk ingewikkeld probleem en, wat nog belangrijker is, dit is volstrekt onmogelijk als je enkel over een plot van de data beschikt. Je moet dus op een andere manier proberen te bepalen hoe gestoord het signaal is. 2 1.5 1 0.5 0 0.5 1 1.5 2 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Inleiding Statistiek Pagina 4 uit 8 Hoe kan je de grootte (de standaarddeviatie) van de ruis op een signaal bepalen? Daarvoor ga je kijken in de punten waar je denkt dat het signaal vlak is. In het geval hierboven zijn dat de toppen. Op die punten ga je dan dezelfde truuk als hierboven toepassen om de standaarddeviatie te bepalen. Als je dit hier doet, zal je als schatting ongeveer 0.2 zijn. Je hebt drie files gekregen: experiment1, schat_op_zicht2 en oplossing2. De werking van de eerste file wordt later uitgelegd, de andere twee werken zoals verwacht. Het commando schat_op_zicht2 geeft je een gestoord sinus-signaal waarbij jij de standaarddeviatie van de ruis moet schatten. Als je wil weten of jouw schatting juist is, typ dan het commando in. Beredeneringsvraag oplossing2 Hoe zou je de standaarddeviatie van de ruis op het volgende signaal schatten? Doe dit. 16 14 12 10 8 6 4 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Inleiding Statistiek Pagina 5 uit 8 2.c. Andere kengetallen Naast de kengetallen die hierboven besproken werden, zijn er nog een aantal andere kengetallen die regelmatig opduiken. Om aan te geven in welke grootte-orde de data zich bevinden wordt regelmatig de mediaan gebruikt in plaats van het gemiddelde. Indien de data afkostig zijn van een verschijnsel met een symmetrische verdeling zal dit uiteraard weinig verschil maken. Indien de verdeling asymmetrisch is, kan er wel een wezenlijk verschil tussen gemiddelde en mediaan zijn. Schrijf een MatLab programma dat gegeven een vector, de mediaan van die vector berekent. Een derde, minder gebruikte manier om aan te duiden waar de data zich situeren is de modus, of de modale klasse. Meer hierover later. Voor aan te duiden in welke mate de data verspreid is wordt soms de interkwartielafstand (Inter Quartile Range) gebruikt in plaats van de variantie of de standaarddeviatie. (facultatief) Schrijf een MatLab programma dat gegeven een datavector, de interkwartielafstand van die vector teruggeeft. 3. Het histogram Het histogram is één van de vele manieren om een hele hoop data grafisch voor te stellen, en waarschijnlijk ook één van de meest informatieve. In essentie, wat je doet is de data opsplitsen in een aantal klassen en tellen hoeveel datapunten er in elke klasse zitten. Daarna maak je een staafdiagram waarbij de oppervlakte (!) van elke staaf aangeeft welk percentage van de datapunten er in de overeenkomstige klasse zit. Merk op dat MatLab zijn histogrammen anders opstelt. Daar is het de hoogte van de staaf die aangeeft welk percentage van de datapunten in de overeenkomstige klasse zit.

Inleiding Statistiek Pagina 6 uit 8 Nu is er één ding dat je je kan afvragen. Als je een histogram tekent (of beter, laat tekenen), op hoeveel klassen moet dat? Op die vraag bestaat er in principe geen juist antwoord. Neem je zeer weinig klassen, dan zal het histogram weinig informatief zijn omdat de structuur van de data verloren gaat. Neem je er teveel, dan is het histogram zodanig chaotisch dat je er ook niet veel wijzer uit wordt. Een stelregel die algemeen gebruikt wordt, en waarvan je later de reden zal zien, is dat je als aantal klassen ongeveer de vierkantswortel van het aantal elementen in de datavector neemt (met een plafond van 50 à 100, om het histogram overzichtelijk te houden). Enkele voorbeelden van histogrammen van data komende uit de belangrijkste verdelingen: Dit is een voorbeeld van een histogram van data komende uit een normale verdeling. Je ziet onmiddellijk de piek van het histogram rond het gemiddelde van de data, en de karakteristiek aflopende vorm naarmate je verder weg van het gemiddelde kijkt. Voor die reden wordt de normaalverdeling ook soms de verdeling met de klok-curve genoemd. Je kan op het histogram van een normaalverdeling tamelijk eenvoudig de standaarddeviatie van de verdeling schatten. Roep nu enkele keren de file schat_op_zicht op en maak een histogram van de data (je kan die vinden in de vector metingen). Schat nu aan de hand van het histogram het gemiddelde en de standaarddeviatie van de data.

Inleiding Statistiek Pagina 7 uit 8 Een ander karakteristiek histogram is dat van de uniforme verdeling. Zoals je kan zien zitten er in elke klasse ongeveer hetzelfde aantal elementen, daarom, uniform. Een derde verdeling die je gemakkelijk kan herkennen op een histogram is de binaire verdeling. Zoals je ziet, zijn er slechts twee mogelijke waarden voor de getallen: + 1 of 1, en kunnen ze met dezelfde kans optreden. 1 0 1 4. Opdrachten meetopstelling 4.a. De belangrijkste kerngetallen Je probeert in de eerst plaats te achterhalen uit hoeveel meetpunten een periode bestaat. Bereken de gemiddelde periode. Wat gebeurt er bij het verkeerd schatten van de lengte van 1 periode? Probeer volgende lengtes uit: 250, 299, 300 en 301 Scheid ruis van het signaal Bereken het gemiddelde van de gereconstrueerde sinus. Bereken het gemiddelde en de standaarddeviatie van de ruis voor de verschillende basisstations

Inleiding Statistiek Pagina 8 uit 8 4.b. Het histogram Teken een histogram van de ruis per basisstation.