Inleiding Statistiek Pagina 1 uit 8 Inleiding statistiek 1. Inleiding In deze oefeningensessie is het de bedoeling jullie vertrouwd te maken met een aantal basisbegrippen van de statistiek, meer bepaald met de manieren om een hoop data op een informatieve wijze samen te vatten in enkele getallen en om ze visueel voor te stellen. Waarom zou je dit willen doen? Stel, je bent medewerker aan het NIS (Nationaal Instituut voor de Statistiek) en je hebt juist de lijst gekregen met de leeftijd van alle inwoners van België. Laten we zeggen dat er 10 miljoen inwoners van België zijn, dat wil zeggen dat je enkele duizenden vellen papier voor je neus liggen hebt met allemaal getallen. Geraak jij daar wijs uit? Net daarom is het belangrijk van die data op een zo compact mogelijke wijze toch informatief voor te stellen. Dit kan grafisch, of aan de hand van enkele kengetallen. 2. Belangrijkste kengetallen Hier zullen enkele mogelijkheden besproken worden om data samen te vatten in enkele getallen. 2.a. Gemiddelde, variantie en standaarddeviatie De meest voorkomende manier om data samen te vatten is aan de hand van het empirisch (ofwel berekend) gemiddelde en de spreiding (variantie of standaarddeviatie). Schrijf drie programma s in MatLab die, gegeven een vector, respectievelijk het gemiddelde, de variantie en de standaarddeviatie. Test jullie programma s uit op een aantal vectoren naar keuze. Indien je van deze vectoren de gezochte waarden niet met de hand kan berekenen, gebruik dan de voorgedefinieerde commando s mean, var en std. Je kan deze dingen enkel nauwkeurig berekenen als je beschikking hebt over de data. Stel nu dat dat niet zo is, dat je enkel een plot krijgt in de volgende stijl:
Inleiding Statistiek Pagina 2 uit 8 1 2 3 4 5 6 7 8 0 100 200 300 400 500 600 700 800 Dit is niet zo n ongewone situatie. Stel dat je een versterker hebt die, naast het ingangssignaal te versterken, een ruiscomponent toevoegt aan het ingangssignaal. Stel ook dat je geïnteresserd bent in de eigenschappen van die ruiscomponent en dat je die ruis enkel op een oscilloscoop ( scope ) kan laten zien. Hoe kan je dan vanuit dat beeld op de scope toch zijn karakteristieken (gemiddelde en standaarddeviate) aflezen? Gelukkig voor ons volgt ruis doorgaans één bepaalde verdeling, namelijk een normaalverdeling. Waarom zal later duidelijk worden. Eén van de interessante eigenschappen van die verdeling is dat ze volledig gekarakteriseerd wordt door haar gemiddelde en standaarddeviatie. Met andere woorden, als we die twee kennen, weten we alles over de specifieke verdeling van het uitgeplotte ruissignaal. Het eerste dat je merkt is dat de data symmetrisch verdeeld lijken te zijn rond een bepaalde waarde. Probeer uit bovenstaande plot te schatten welke waarde dat is. Dit is een schatting voor het gemiddelde van de data. Hoe kan je nu de spreiding of de standaarddeviatie schatten? Daarvoor moet je gebruik maken van de eigenschap dat bij een normale verdeling ongeveer 96% van de data ligt in het interval gevormd door [ µ 2σ, µ + 2σ], waar µ en σ respectievelijk het gemiddelde en de standaarddeviatie van de verdeling zijn. Schat nu, op bovenstaande plot, tussen welke twee waarden 96% van de datapunten liggen. Als je dan de lengte van het bekomen interval deelt door 4, heb je een schatting van de spreiding van de data. Je hebt hierbij twee files gekregen, schat_op_zicht en oplossing. Als je de functie schat_op_zicht aanroept (zonder parameters), krijg je een plot in de stijl van hierboven. Probeer vanuit die plot het gemiddelde en de spreiding van de data te schatten.
Inleiding Statistiek Pagina 3 uit 8 Als je wil weten of je oplossing correct is, roep dan de functie oplossing aan (weeral zonder parameters). Doe dit een aantal keer tot je met een redelijke nauwkeurigheid die schattingen kan uitvoeren. Let wel op dat je deze schattingsmethode niet gebruikt als de verdeling van de data significant anders lijkt dan een normaalverdeling. 2.b. Schatten van ruis op signalen Je weet nu al hoe je de karakteristieken (gemiddelde en standaarddeviatie) van een zuiver (normaalverdeeld) ruis-signaal kan schatten, maar stel nu dat je over een signaal beschikt (bijvoorbeeld een sinusgolf) waarop een zekere hoeveelheid ruis zit, en je wil een schatting van de grootte van die ruis. Hoe kan je dan te werk gaan? Een mogelijkheid is, als je over de data beschikt, het signaal te scheiden van de ruis, maar dit is in de meeste gevallen een tamelijk ingewikkeld probleem en, wat nog belangrijker is, dit is volstrekt onmogelijk als je enkel over een plot van de data beschikt. Je moet dus op een andere manier proberen te bepalen hoe gestoord het signaal is. 2 1.5 1 0.5 0 0.5 1 1.5 2 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Inleiding Statistiek Pagina 4 uit 8 Hoe kan je de grootte (de standaarddeviatie) van de ruis op een signaal bepalen? Daarvoor ga je kijken in de punten waar je denkt dat het signaal vlak is. In het geval hierboven zijn dat de toppen. Op die punten ga je dan dezelfde truuk als hierboven toepassen om de standaarddeviatie te bepalen. Als je dit hier doet, zal je als schatting ongeveer 0.2 zijn. Je hebt drie files gekregen: experiment1, schat_op_zicht2 en oplossing2. De werking van de eerste file wordt later uitgelegd, de andere twee werken zoals verwacht. Het commando schat_op_zicht2 geeft je een gestoord sinus-signaal waarbij jij de standaarddeviatie van de ruis moet schatten. Als je wil weten of jouw schatting juist is, typ dan het commando in. Beredeneringsvraag oplossing2 Hoe zou je de standaarddeviatie van de ruis op het volgende signaal schatten? Doe dit. 16 14 12 10 8 6 4 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Inleiding Statistiek Pagina 5 uit 8 2.c. Andere kengetallen Naast de kengetallen die hierboven besproken werden, zijn er nog een aantal andere kengetallen die regelmatig opduiken. Om aan te geven in welke grootte-orde de data zich bevinden wordt regelmatig de mediaan gebruikt in plaats van het gemiddelde. Indien de data afkostig zijn van een verschijnsel met een symmetrische verdeling zal dit uiteraard weinig verschil maken. Indien de verdeling asymmetrisch is, kan er wel een wezenlijk verschil tussen gemiddelde en mediaan zijn. Schrijf een MatLab programma dat gegeven een vector, de mediaan van die vector berekent. Een derde, minder gebruikte manier om aan te duiden waar de data zich situeren is de modus, of de modale klasse. Meer hierover later. Voor aan te duiden in welke mate de data verspreid is wordt soms de interkwartielafstand (Inter Quartile Range) gebruikt in plaats van de variantie of de standaarddeviatie. (facultatief) Schrijf een MatLab programma dat gegeven een datavector, de interkwartielafstand van die vector teruggeeft. 3. Het histogram Het histogram is één van de vele manieren om een hele hoop data grafisch voor te stellen, en waarschijnlijk ook één van de meest informatieve. In essentie, wat je doet is de data opsplitsen in een aantal klassen en tellen hoeveel datapunten er in elke klasse zitten. Daarna maak je een staafdiagram waarbij de oppervlakte (!) van elke staaf aangeeft welk percentage van de datapunten er in de overeenkomstige klasse zit. Merk op dat MatLab zijn histogrammen anders opstelt. Daar is het de hoogte van de staaf die aangeeft welk percentage van de datapunten in de overeenkomstige klasse zit.
Inleiding Statistiek Pagina 6 uit 8 Nu is er één ding dat je je kan afvragen. Als je een histogram tekent (of beter, laat tekenen), op hoeveel klassen moet dat? Op die vraag bestaat er in principe geen juist antwoord. Neem je zeer weinig klassen, dan zal het histogram weinig informatief zijn omdat de structuur van de data verloren gaat. Neem je er teveel, dan is het histogram zodanig chaotisch dat je er ook niet veel wijzer uit wordt. Een stelregel die algemeen gebruikt wordt, en waarvan je later de reden zal zien, is dat je als aantal klassen ongeveer de vierkantswortel van het aantal elementen in de datavector neemt (met een plafond van 50 à 100, om het histogram overzichtelijk te houden). Enkele voorbeelden van histogrammen van data komende uit de belangrijkste verdelingen: Dit is een voorbeeld van een histogram van data komende uit een normale verdeling. Je ziet onmiddellijk de piek van het histogram rond het gemiddelde van de data, en de karakteristiek aflopende vorm naarmate je verder weg van het gemiddelde kijkt. Voor die reden wordt de normaalverdeling ook soms de verdeling met de klok-curve genoemd. Je kan op het histogram van een normaalverdeling tamelijk eenvoudig de standaarddeviatie van de verdeling schatten. Roep nu enkele keren de file schat_op_zicht op en maak een histogram van de data (je kan die vinden in de vector metingen). Schat nu aan de hand van het histogram het gemiddelde en de standaarddeviatie van de data.
Inleiding Statistiek Pagina 7 uit 8 Een ander karakteristiek histogram is dat van de uniforme verdeling. Zoals je kan zien zitten er in elke klasse ongeveer hetzelfde aantal elementen, daarom, uniform. Een derde verdeling die je gemakkelijk kan herkennen op een histogram is de binaire verdeling. Zoals je ziet, zijn er slechts twee mogelijke waarden voor de getallen: + 1 of 1, en kunnen ze met dezelfde kans optreden. 1 0 1 4. Opdrachten meetopstelling 4.a. De belangrijkste kerngetallen Je probeert in de eerst plaats te achterhalen uit hoeveel meetpunten een periode bestaat. Bereken de gemiddelde periode. Wat gebeurt er bij het verkeerd schatten van de lengte van 1 periode? Probeer volgende lengtes uit: 250, 299, 300 en 301 Scheid ruis van het signaal Bereken het gemiddelde van de gereconstrueerde sinus. Bereken het gemiddelde en de standaarddeviatie van de ruis voor de verschillende basisstations
Inleiding Statistiek Pagina 8 uit 8 4.b. Het histogram Teken een histogram van de ruis per basisstation.