A. Week 1: Introductie in de statistiek.

Vergelijkbare documenten
2 Data en datasets verwerken

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht?

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

datavisualisatie Stappen verzamelen en opschonen analyseren van data interpeteren hoorcollege 4 visualisatie representeren

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Data analyse Inleiding statistiek

Inleiding tot de meettheorie

Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren

TIP 10: ANALYSE VAN DE CIJFERS

Statistiek I Samenvatting. Prof. dr. Carette

College 4 Inspecteren van Data: Verdelingen

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

8. Analyseren van samenhang tussen categorische variabelen

Statistische variabelen. formuleblad

Statistiek: Herhaling en aanvulling

Onderzoeksmethodiek LE: 2

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....

Havo A deel 1 H2 Statistiek - Samenvatting

Onderzoek. B-cluster BBB-OND2B.2

Vendorrating: statistische presentatiemiddelen

Oefenvragen bij Statistics for Business and Economics van Newbold

9. Lineaire Regressie en Correlatie

Grafieken Cirkeldiagram

lengte aantal sportende broers/zussen

Inleiding Applicatie Software - Statgraphics

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

College Week 4 Inspecteren van Data: Verdelingen

1. De wereld van de kansmodellen.

DOEN! - Praktische Opdracht Statistiek 4 Havo Wiskunde A

Beschrijvende statistieken

Statistiek voor A.I. College 1. Dinsdag 11 September 2012

Kansrekening en Statistiek

Hoofdstuk 2: Verbanden

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

Occasions bij Ben de Beun

Hoofdstuk 7: De analyse en rapportering van jouw empirisch onderzoek

Kerstvakantiecursus. wiskunde A. Rekenregels voor vereenvoudigen. Voorbereidende opgaven HAVO kan niet korter

Oplossingen hoofdstuk 4

Netwerk, 4 Havo D, uitwerkingen Hoofdstuk 1, Statistische verwerking 1

Kansrekening en Statistiek

1 Inleiding Beelddiagram Wat is een beelddiagram Hoeveel heren en dames deden mee van Tata Steel en KLM?...

Eerst wordt ingegaan op de verschillende soorten data die we kunnen verzamelen en hoe datasets georganiseerd zijn.

b. Maak een histogram van de verdeling van het groeiseizoen. Kies eerst klassen en maak een geschikte frequentietabel.

2 Data en datasets verwerken

Overzicht statistiek 5N4p

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO

Statistiek. Beschrijvend statistiek

Statistiek voor A.I. College 2. Donderdag 13 September 2012

Kansrekening en Statistiek

Paragraaf 5.1 : Frequentieverdelingen

Samenvattingen 5HAVO Wiskunde A.

Examen Statistiek I Feedback

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Inleiding tot het opstellen van een elektronische enquête met LimeSurvey

DOS-oefening 2. lengte Aantal sportende broers/zussen

1. CTRL- en SHIFT-knop gebruiken om meerdere variabelen te selecteren

STATISTIEK. Een korte samenvatting over: Termen Tabellen Diagrammen

1.0 Voorkennis. Voorbeeld 1: Los op: 6x + 28 = 30 10x.

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14

2.3 Frequentieverdelingen typeren

Technologie: TI-Nspire CX CAS Niveau: beginner

WISKUNDE A HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

1. Introductie tot SPSS

VOOR HET SECUNDAIR ONDERWIJS

4.1 Procenten [1] In het linkerplaatje zijn 26 van de 100 vierkantjes rood gekleurd. 26 procent (26%) is nu rood. 26% betekent 26 van de 100.

2 Data en datasets verwerken

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Professionaliseringstraject onderzoeksvaardigheden voor docenten. prof. dr. Saskia Brand-Gruwel

Oplossingen hoofdstuk Het milieubesef

In de praktijk gaat men eerder werken met numerieke codes. Aan de hand van een codeboek wordt per variabele een nummer aan een waarde toegekend.

gegevens analyseren Welk onderzoekmodel gebruik je? Quasiexperiment ( 5.5) zonder controle achtergronden

(Voorlopige omschrijving.) Bedrag dat resteert nadat de exploitatiekosten betaald zijn.

Handleiding SPSS tabellen en kruistabellen. In een paar stappen van spss data naar bruikbare informatie.

SPSS. Statistiek : SPSS

11. Multipele Regressie en Correlatie

Praktische opdracht Wiskunde Statistiek

Effectief Rapporteren

Handleiding BreakEven Calculator Door Thomas Vulsma

Populaties beschrijven met kansmodellen

Onderzoeksmethoden: Statistiek 1

INLEIDING FUNCTIES 1. COÖRDINATEN

DATA-ANALYSEPLAN (20/6/2005)

Gemiddelde: Het gemiddelde van een rij getallen is de som van al die getallen gedeeld door het aantal getallen.

Uitwerkingen Mei Eindexamen VWO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Steelbladdiagram In een steelbladdiagram staan alle leerlingen genoemd. Je kunt precies zien waar Wouter staat.

Meten is weten, dat geldt ook voor het vakgebied natuurkunde. Om te meten gebruik je hulpmiddelen, zoals timers, thermometers, linialen en sensoren.

feb 2013 Instituut CMI SPSS les 2

Feedback proefexamen Statistiek I

NB. Een streepje (-) betekent: geen deelname aan statistiek of SPSS practicum.

Mini-theorie vooraf. Beelddiagram In een beelddiagram zijn de hoeveelheden aangegeven met figuurtjes

4.1 Cijfermateriaal. In dit getal komen zes nullen voor. Om deze reden geldt: = 10 6

Toelichting bij applicatie "betekenis geven aan cijfers"

Meten: algemene beginselen. Harry B.G. Ganzeboom ADEK UvS College 1 28 februari 2011

REKENEN TABELLEN LEZEN

Transcriptie:

A. Week 1: Introductie in de statistiek. Populatie en steekproef. In dit vak leren we de basis van de statistiek. In de statistiek probeert men erachter te komen hoe we de populatie het beste kunnen observeren. Dit doen we door verschillende stappen in de onderzoekscyclus te doorlopen. Wat we vaak in de statistiek doen is het benaderen van de populatie met behulp van een steekproef. Hierbij houdt de populatie een bepaalde groep van iets in. De populatie is de gehele groep waar we onderzoek naar doen en waar we een conclusie over willen trekken. Bijvoorbeeld, het is mogelijk dat we nieuwsgierig zijn naar de tentamencijfers die Nederlandse psychologiestudenten hebben behaald voor het vak Statistiek. Onze populatie is dan: Nederlandse psychologiestudenten. Een parameter zegt vervolgens iets over deze groep waar we onderzoek naar doen: het is een eigenschap van de populatie. Bijvoorbeeld, het gemiddelde cijfer dat Nederlandse psychologiestudenten op het vak Statistiek hebben behaald zou een parameter zijn van de populatie. Maar, het probleem is dat het onderzoeken van de gehele populatie behoorlijk wat werk kan vergen. We zouden namelijk elke case (ofwel persoon) in deze populatie moeten onderzoeken. Om deze reden maken we meestal gebruik van een steekproef. Een steekproef omvat een subset aan leden van de populatie die deze populatie representeren. Het is in het vorige voorbeeld dus een selectie van Nederlandse psychologiestudenten, die de gehele populatie aan Nederlandse psychologiestudenten representeren. Ook van deze steekproef kunnen we een eigenschap zoals het gemiddelde berekenen. In dat geval zouden we deze eigenschap niet een parameter, maar een statistic noemen. De data in je dataset wordt meestal op één van twee manieren benaderd. Het is mogelijk om beschrijvende statistiek uit te voeren (descriptive statistics). Hierbij wordt de dataset waar beschreven door middel van bijvoorbeeld tabellen, grafieken, gemiddelden, et cetera. Verder is het ook mogelijk om inferentiële statistiek (inferential statistics) uit te voeren op je dataset. Hierbij wordt de data getoetst om onder andere uitspraken te kunnen doen over de populatie. Introductie van statistische termen. Statistiek is de wetenschap waarbij we iets willen leren van data. We verzamelen een hoeveelheid aan data, die we vervolgens bestuderen en waar we uiteindelijk een conclusie over proberen te trekken. De statistiek is nodig omdat het een methode biedt om in bepaalde situaties op een juiste manier besluiten te vormen. Onder data verstaan we de beschrijvingen van de subjecten/personen die we willen bestuderen. Een statistische analyse begint met een set aan data. Een dataset zetten we op door eerst te bepalen welke cases (eenheden) we willen bestuderen. Cases zijn de objecten die worden omschreven door een set aan data. Dit kunnen klanten zijn, bedrijven, subjecten in een onderzoek, eenheden in een experiment, et cetera. Dit is de linkerkolom in de data view in SPSS: over één case/persoon heb je op meerdere variabelen één score. Een constante is een eigenschap van een case (waarbij het mogelijk gaat om personen) die voor elke case dezelfde waarde aanneemt. Een constante is voor elke case hetzelfde. Een variabele is ookeen eigenschap van een case. Dit wordt in SPSS vaak uitgedrukt in een afkorting van de werkelijke betekenis. Wanneer je bijvoorbeeld als variabele lengte in centimeters hebt, kies je er vaak voor om dit af te korten, bijvoorbeeld: length_cm. Variabelen zijn in SPSS terug te vinden in de rij boven de data in het data view scherm. Elke case heeft een waarde voor elke variabele. Een waarde is dat wat is ingevuld in één cel in het data view scherm in SPSS. Elke case heeft één waarde per variabele. Een label is een speciale variabele die in sommige data sets wordt gebruikt om de verschillende cases te onderscheiden.

Dit is bijvoorbeeld een identificatiecode voor een case. Een voorbeeld is een studentennummer. Het label is in SPSS vaak de eerste variabele die in data view wordt aangegeven. Categorische en kwantitatieve variabelen. Variabelen zijn op te delen in categorische en kwantitatieve variabelen. Een categorische variabele plaatst een case/persoon in één van meerdere groepen of categorieën. Een kwantitatieve variabele neemt numerieke waarden aan, waarmee gerekend kan worden. Je kunt deze waarden bij elkaar je kunt er bijvoorbeeld een gemiddelde van berekenen. Bij categorische variabelen (ook wel kwalitatieve variabelen genoemd) kun je niet rekenen met de waarden in je dataset. De waarden kunnen dus worden gezien als labels, of kunnen worden vervangen door labels. Bijvoorbeeld, je doet onderzoek naar welke studie iemand doet. De waarden die de categorische variabele studie aanneemt, zijn één, twee, drie, vier en vijf. Deze waarden kunnen worden vervangen door: 1 = bedrijfskunde, 2 = sociologie, 3 = psychologie, 4 = rechten en 5 = overig. Met deze waarden kun je niet rekenen: ze representeren een categorie van de studie die iemand volgt. Iedere persoon die meedoet aan het onderzoek, valt slechts in één categorie. De distributie van een categorische variabele benoemt de categorieën en geeft een telling of het percentage van cases/personen die in die categorie vallen. Wanneer een aantal personen niet in één van je categorieën vallen, kun je eventueel een categorie aanmaken met de naam overig (ofwel other), waar de overige personen in vallen. Hierbij moet je wel uitkijken dat je geen belangrijke informatie weggooit. Je gooit alles namelijk in één categorie waarbinnen geen onderscheid wordt gemaakt. Een dichotome variabele is een speciale variant van een categorische variabele. Bij een dichotome variabele kan de case maar één van twee mogelijke waarden aannemen. Wanneer er bijvoorbeeld sprake is van een variabele over het wel of niet behalen van een voldoende op je tentamen, dan kun je twee waarden aannemen: wel gehaald of niet gehaald. Vaak worden de getallen nul en één gebruikt om deze categorieën weer te geven. In het geval van dit voorbeeld zou het niet halen van een voldoende voor je tentamen worden weergegeven met een nul en het wel halen van je tentamen met een één. Wanneer je een kwantitatieve variabele in je onderzoek hebt, is het belangrijk dat alle waarden eerst naar één eenheid worden omgezet. Neem bijvoorbeeld de kwantitatieve variabele: lengte van een weg. Lengte kan gemeten worden in kilometers, meters, miles, et cetera. Het is belangrijk dat alle waarden eerst naar één eenheid worden omgezet, voordat je er berekeningen mee uitvoert. De lengte van een weg zou je bijvoorbeeld kunnen omzetten naar meters. We gebruiken de term meeteenheden om naar de meters of miles te verwijzen die ons vertellen over hoe de variabele lengte van een weg is gemeten. De meeteenheid de we in dit voorbeeld gebruiken, is dus meters. Maar als je bijvoorbeeld lengte van een liedje als variabele hebt, zou je als meeteenheid seconden of minuten kunnen gebruiken. Een kwantitatieve variabele kan discreet zijn of continu. Een discrete kwantitatieve variabele kan maar een beperkt aantal waarden aannemen. Het cijfer dat behaald kan worden op het tentamen statistiek kan bijvoorbeeld alleen de waarden één tot en met tien aannemen en kan dus niet negatief zijn. Verder neemt dit cijfer normaal gesproken ook maar één cijfer achter de komma aan. Een continue kwantitatieve variabele kan elke mogelijke waarde binnen een bepaald interval aannemen. Het hiervoor gegeven voorbeeld over de lente van een weg is een voorbeeld van een continue kwantitatieve variabele. Meetniveau s. Er zijn vier meetniveaus te onderscheiden waarop de scores van een persoon kunnen worden gemeten. Een score kan worden gemeten op het nominale niveau, het ordinale niveau, het interval niveau en het ratio niveau.

Scores worden op het nominale niveau gemeten wanneer deze scores kunnen worden gezien als niets meer dan labels. De scores dienen als labels die aangeven in welke categorie de score valt: wanneer een variabele op nominaal niveau wordt gemeten, dan is de variabele categorisch. Zelfs wanneer scores op dit niveau worden gegeven in de vorm van getallen, kan er niet mee worden gerekend. De hiervoor benoemde variabele studie is hier een voorbeeld van. Welke studie iemand doet is slechts een label en hier kan niet mee worden gerekend. Wanneer deze labels kunnen worden geordend, en er dus sprake is van een volgorde binnen de labels, spreken we van een meting op het ordinale niveau. Met scores op dit niveau kan nog steeds niet worden gerekend en zijn dus categorische/kwalitatieve variabelen: de labels geven aan in welke categorie de score valt. Het verschil met het nominale niveau is dus dat er op ordinaal niveau een volgorde is binnen de categorieën. Een voorbeeld hiervan is het opleidingsniveau dat iemand gevolgd op de middelbare school: MAVO, HAVO of VWO. De variabele opleidingsniveau is hier categorisch, maar daarnaast is er ook een volgorde in de categorieën: het opleidingsniveau MAVO is hier het laagst, HAVO is een stap hoger, en VWO is het hoogste opleidingsniveau. Er valt hier nog steeds niet te bepalen hoeveel hoger HAVO is dan MAVO, maar het is wel duidelijk dat HAVO hoger is dan MAVO. Wanneer een variabele op interval niveau of ratio niveau wordt gemeten is de variabele een kwantitatieve variabele: op beide niveaus kun je berekeningen uitvoeren met de scores die op de variabele worden behaald. Dit omdat wanneer een variabele op één van deze niveaus wordt gemeten, men er van uit gaat dat gelijke verschillen tussen scores ook inhoudelijk gelijke verschillen representeren. Het verschil tussen interval- en ratio-niveau blijkt in de praktijk nogal vaag te zijn. Voor statistische analyses maakt het vrij weinig uit welk niveau je kiest: ze zijn beide kwantitatief. Het verschil tussen deze twee niveaus is dat variabele op het interval niveau geen absoluut nulpunt heeft en de ratioschaal wel. Een voorbeeld om dit toe te lichten is het meten van temperatuur op een Fahrenheitschaal. Dit wordt gemeten op een interval schaal. Hierbij betekent het niet dat een score van nul op de Fahrenheitschaal er totaal geen warmte aanwezig is. Er kunnen wel berekeningen worden uitgevoerd met de scores die op deze schaal gehaald kunnen worden, maar een score van nul heeft geen speciale betekenis. Wanneer je moet kiezen tussen 2 of meer meetniveaus, kies dan altijd het hoogst mogelijke meetniveau, waarbij de meetniveaus van laag naar hoog als volgt zijn: nominaal, ordinaal, interval, ratio. Data weergeven in tabellen. In frequentietabellen kunnen data overzichtelijk worden weergegeven. Hierin kunnen de ruwe scores worden weergegeven: de scores in hun originele staat, zonder dat deze zijn bewerkt. In deze tabellen wordt ook verwerkt hoe vaak een bepaalde score in de dataset voorkomt. Dit wordt de frequentie van een bepaalde score genoemd. Verder wordt in deze frequentietabellen vaak ook de steekproefgrootte vermeld: dit is van hoeveel proefpersonen/cases er in een dataset scores zijn verwerkt. De steekproefgrootte wordt over het algemeen aangeduid met de letter n. Het is mogelijk om een ungrouped frequency distribution op te zetten of een grouped frequency distribution. in een ungrouped frequency distribution wordt per individuele score in de dataset aangegeven hoe vaak deze score terugkomt in de dataset. In een grouped frequency distribution worden de score in groepen gezet en wordt de frequentie van scores per groep weergegeven. Een voorbeeld is leeftijdscategorieën: het is mogelijk dat een aantal personen in je dataset een leeftijd van 10-18 hadden, anderen hadden een leeftijd van 19-28 en weer anderen hadden een leeftijd van 29-38. Vervolgens kun je de frequentie van het aantal scores dat in elke categorie valt weergeven. Een andere mogelijk is het opzetten van een cumulatieve frequentietabel. Hierbij is het belangrijk dat de ruwe scores in de tabel zijn georganiseerd van laag naar hoog.

Als dat het geval is kun je eerst de frequenties van deze ruwe scores noteren in een kolom van de frequentietabel. Daarna kun je een kolom opstellen voor de cumulatieve frequenties: hierin worden de frequenties van voorgaande scores bij elkaar opgeteld. Verder is een relatieve frequentietabel ook een optie. Hierbij wordt per ruwe score de frequentie daarvan gedeeld door de totale steekproefgrootte. Alle relatieve frequenties komen bij elkaar opgeteld uit op één. Ten slotte is het ook een optie om een cumulatieve relatieve frequentietabel op te zetten. Hierbij worden de voorgaande relatieve frequenties bij elke nieuwe relatieve frequentie in de tabel opgeteld. De hoogste ruwe score in de tabel zou dan een cumulatieve relatieve score hebben van één, want alle relatieve frequenties zijn hier bij elkaar opgeteld. Data weergeven in grafieken. Categorische variabelen worden over het algemeen vooral weergegeven in de vorm van een staafdiagram of een taartdiagram. Als je data van een categorische variabele wilt weergeven in een staafdiagram, geven de staven de categorieën weer. Een staafdiagram bij een categorische variabele die bestaat uit vier nominale groepen zou er als volgt uit kunnen zien: Figuur 1: Voorbeeld staafdiagram. De lengte van de staven geven de telling (of het percentage) weer van het aantal personen/objecten dat in die categorie valt. Wanneer de ene staaf hoger is dan de andere, betekent dat dat er in de ene categorie meer personen/objecten vallen dan in de andere categorie. Een taartdiagram zou er mogelijk als volgt uit kunnen zien:

Figuur 2: Voorbeeld van taartdiagram. Bij het maken van een taartdiagram, is het belangrijk dat je alle categorieën er aan toevoegt die het geheel vormen. Je kunt gebruik maken van een categorie genaamd overig, maar het is belangrijk dat alle categorieën samen 100% zijn. Deze beperking van een taartdiagram maakt het dat staafdiagrammen flexibeler zijn. Een taartdiagram is soms niet geschikt, omdat niet altijd alle categorieën mee zijn genomen in je onderzoek. Bijvoorbeeld: Je onderzoekt het aantal studenten die afstuderen in biologie, bedrijfskunde en psychologie. Een taartdiagram kan dit niet vergelijken, omdat niet alle studenten in één van deze drie studierichtingen vallen: er zijn genoeg studenten die een andere studierichting doen. Een staafdiagram is hier geschikter. Kwantitatieve variabelen kunnen op andere manier grafisch worden weergegeven, namelijk met behulp van stamdiagrammen histogrammen en frequentie polygonen. Een stamdiagram (ofwel stem-and-leaf-plot) schetst een plaatje in de vorm van een distributie, waarbij het ook de echte numerieke waarden in de grafiek weergeeft. Stamdiagrammen werken het best bij: Een klein aantal observatiegetallen; Observatiegetallen die groter zijn dan nul. Een stamdiagram maak je als volgt: Stap 1: scheid elke observatie/elke geobserveerde waarde in een stam (= alle getallen van deze waarde behalve het laatste getal) en een blad (= het laatste getal van die waarde); Stap 2: zet de stammen in een verticale kolom met het kleinste van deze getallen bovenaan, en trek rechts van deze kolom een verticale lijn; Stap 3: schrijf elk blad in de rij rechts van zijn stam. deze bladeren moeten vervolgens worden georganiseerd van laagste naar hoogste getal. Wanneer een geobserveerde waarde dus uit twee getallen bestaat, laten we zeggen 38, dan bestaat de stam maar uit één getal, namelijk drie (de stam hiervan is alle getallen van deze waarde behalve het laatste getal). Wanneer een geobserveerde waarde dus uit drie getallen bestaat, laten we zeggen 567, dan bestaat de stam uit twee getallen, namelijk 56. Het blad bestaat altijd uit maar één getal. Je kunt ook gebruik maken van een rug-aan-rug stamdiagram (back-to-back stemplot). Deze gebruik je wanneer je twee gerelateerde distributies wilt vergelijken.