A. Week 1: Introductie in de statistiek.

A. Week 1: Introductie in de statistiek. Populatie en steekproef. In dit vak leren we de basis van de statistiek. In de statistiek probeert men erachter te komen hoe we de populatie het beste kunnen observeren. Dit doen we door verschillende stappen in de onderzoekscyclus te doorlopen. Wat we vaak in de statistiek doen is het benaderen van de populatie met behulp van een steekproef. Hierbij houdt de populatie een bepaalde groep van iets in. De populatie is de gehele groep waar we onderzoek naar doen en waar we een conclusie over willen trekken. Bijvoorbeeld, het is mogelijk dat we nieuwsgierig zijn naar de tentamencijfers die Nederlandse psychologiestudenten hebben behaald voor het vak Statistiek. Onze populatie is dan: Nederlandse psychologiestudenten. Een parameter zegt vervolgens iets over deze groep waar we onderzoek naar doen: het is een eigenschap van de populatie. Bijvoorbeeld, het gemiddelde cijfer dat Nederlandse psychologiestudenten op het vak Statistiek hebben behaald zou een parameter zijn van de populatie. Maar, het probleem is dat het onderzoeken van de gehele populatie behoorlijk wat werk kan vergen. We zouden namelijk elke case (ofwel persoon) in deze populatie moeten onderzoeken. Om deze reden maken we meestal gebruik van een steekproef. Een steekproef omvat een subset aan leden van de populatie die deze populatie representeren. Het is in het vorige voorbeeld dus een selectie van Nederlandse psychologiestudenten, die de gehele populatie aan Nederlandse psychologiestudenten representeren. Ook van deze steekproef kunnen we een eigenschap zoals het gemiddelde berekenen. In dat geval zouden we deze eigenschap niet een parameter, maar een statistic noemen. De data in je dataset wordt meestal op één van twee manieren benaderd. Het is mogelijk om beschrijvende statistiek uit te voeren (descriptive statistics). Hierbij wordt de dataset waar beschreven door middel van bijvoorbeeld tabellen, grafieken, gemiddelden, et cetera. Verder is het ook mogelijk om inferentiële statistiek (inferential statistics) uit te voeren op je dataset. Hierbij wordt de data getoetst om onder andere uitspraken te kunnen doen over de populatie. Introductie van statistische termen. Statistiek is de wetenschap waarbij we iets willen leren van data. We verzamelen een hoeveelheid aan data, die we vervolgens bestuderen en waar we uiteindelijk een conclusie over proberen te trekken. De statistiek is nodig omdat het een methode biedt om in bepaalde situaties op een juiste manier besluiten te vormen. Onder data verstaan we de beschrijvingen van de subjecten/personen die we willen bestuderen. Een statistische analyse begint met een set aan data. Een dataset zetten we op door eerst te bepalen welke cases (eenheden) we willen bestuderen. Cases zijn de objecten die worden omschreven door een set aan data. Dit kunnen klanten zijn, bedrijven, subjecten in een onderzoek, eenheden in een experiment, et cetera. Dit is de linkerkolom in de data view in SPSS: over één case/persoon heb je op meerdere variabelen één score. Een constante is een eigenschap van een case (waarbij het mogelijk gaat om personen) die voor elke case dezelfde waarde aanneemt. Een constante is voor elke case hetzelfde. Een variabele is ookeen eigenschap van een case. Dit wordt in SPSS vaak uitgedrukt in een afkorting van de werkelijke betekenis. Wanneer je bijvoorbeeld als variabele lengte in centimeters hebt, kies je er vaak voor om dit af te korten, bijvoorbeeld: length_cm. Variabelen zijn in SPSS terug te vinden in de rij boven de data in het data view scherm. Elke case heeft een waarde voor elke variabele. Een waarde is dat wat is ingevuld in één cel in het data view scherm in SPSS. Elke case heeft één waarde per variabele. Een label is een speciale variabele die in sommige data sets wordt gebruikt om de verschillende cases te onderscheiden.

Dit is bijvoorbeeld een identificatiecode voor een case. Een voorbeeld is een studentennummer. Het label is in SPSS vaak de eerste variabele die in data view wordt aangegeven. Categorische en kwantitatieve variabelen. Variabelen zijn op te delen in categorische en kwantitatieve variabelen. Een categorische variabele plaatst een case/persoon in één van meerdere groepen of categorieën. Een kwantitatieve variabele neemt numerieke waarden aan, waarmee gerekend kan worden. Je kunt deze waarden bij elkaar je kunt er bijvoorbeeld een gemiddelde van berekenen. Bij categorische variabelen (ook wel kwalitatieve variabelen genoemd) kun je niet rekenen met de waarden in je dataset. De waarden kunnen dus worden gezien als labels, of kunnen worden vervangen door labels. Bijvoorbeeld, je doet onderzoek naar welke studie iemand doet. De waarden die de categorische variabele studie aanneemt, zijn één, twee, drie, vier en vijf. Deze waarden kunnen worden vervangen door: 1 = bedrijfskunde, 2 = sociologie, 3 = psychologie, 4 = rechten en 5 = overig. Met deze waarden kun je niet rekenen: ze representeren een categorie van de studie die iemand volgt. Iedere persoon die meedoet aan het onderzoek, valt slechts in één categorie. De distributie van een categorische variabele benoemt de categorieën en geeft een telling of het percentage van cases/personen die in die categorie vallen. Wanneer een aantal personen niet in één van je categorieën vallen, kun je eventueel een categorie aanmaken met de naam overig (ofwel other), waar de overige personen in vallen. Hierbij moet je wel uitkijken dat je geen belangrijke informatie weggooit. Je gooit alles namelijk in één categorie waarbinnen geen onderscheid wordt gemaakt. Een dichotome variabele is een speciale variant van een categorische variabele. Bij een dichotome variabele kan de case maar één van twee mogelijke waarden aannemen. Wanneer er bijvoorbeeld sprake is van een variabele over het wel of niet behalen van een voldoende op je tentamen, dan kun je twee waarden aannemen: wel gehaald of niet gehaald. Vaak worden de getallen nul en één gebruikt om deze categorieën weer te geven. In het geval van dit voorbeeld zou het niet halen van een voldoende voor je tentamen worden weergegeven met een nul en het wel halen van je tentamen met een één. Wanneer je een kwantitatieve variabele in je onderzoek hebt, is het belangrijk dat alle waarden eerst naar één eenheid worden omgezet. Neem bijvoorbeeld de kwantitatieve variabele: lengte van een weg. Lengte kan gemeten worden in kilometers, meters, miles, et cetera. Het is belangrijk dat alle waarden eerst naar één eenheid worden omgezet, voordat je er berekeningen mee uitvoert. De lengte van een weg zou je bijvoorbeeld kunnen omzetten naar meters. We gebruiken de term meeteenheden om naar de meters of miles te verwijzen die ons vertellen over hoe de variabele lengte van een weg is gemeten. De meeteenheid de we in dit voorbeeld gebruiken, is dus meters. Maar als je bijvoorbeeld lengte van een liedje als variabele hebt, zou je als meeteenheid seconden of minuten kunnen gebruiken. Een kwantitatieve variabele kan discreet zijn of continu. Een discrete kwantitatieve variabele kan maar een beperkt aantal waarden aannemen. Het cijfer dat behaald kan worden op het tentamen statistiek kan bijvoorbeeld alleen de waarden één tot en met tien aannemen en kan dus niet negatief zijn. Verder neemt dit cijfer normaal gesproken ook maar één cijfer achter de komma aan. Een continue kwantitatieve variabele kan elke mogelijke waarde binnen een bepaald interval aannemen. Het hiervoor gegeven voorbeeld over de lente van een weg is een voorbeeld van een continue kwantitatieve variabele. Meetniveau s. Er zijn vier meetniveaus te onderscheiden waarop de scores van een persoon kunnen worden gemeten. Een score kan worden gemeten op het nominale niveau, het ordinale niveau, het interval niveau en het ratio niveau.

Scores worden op het nominale niveau gemeten wanneer deze scores kunnen worden gezien als niets meer dan labels. De scores dienen als labels die aangeven in welke categorie de score valt: wanneer een variabele op nominaal niveau wordt gemeten, dan is de variabele categorisch. Zelfs wanneer scores op dit niveau worden gegeven in de vorm van getallen, kan er niet mee worden gerekend. De hiervoor benoemde variabele studie is hier een voorbeeld van. Welke studie iemand doet is slechts een label en hier kan niet mee worden gerekend. Wanneer deze labels kunnen worden geordend, en er dus sprake is van een volgorde binnen de labels, spreken we van een meting op het ordinale niveau. Met scores op dit niveau kan nog steeds niet worden gerekend en zijn dus categorische/kwalitatieve variabelen: de labels geven aan in welke categorie de score valt. Het verschil met het nominale niveau is dus dat er op ordinaal niveau een volgorde is binnen de categorieën. Een voorbeeld hiervan is het opleidingsniveau dat iemand gevolgd op de middelbare school: MAVO, HAVO of VWO. De variabele opleidingsniveau is hier categorisch, maar daarnaast is er ook een volgorde in de categorieën: het opleidingsniveau MAVO is hier het laagst, HAVO is een stap hoger, en VWO is het hoogste opleidingsniveau. Er valt hier nog steeds niet te bepalen hoeveel hoger HAVO is dan MAVO, maar het is wel duidelijk dat HAVO hoger is dan MAVO. Wanneer een variabele op interval niveau of ratio niveau wordt gemeten is de variabele een kwantitatieve variabele: op beide niveaus kun je berekeningen uitvoeren met de scores die op de variabele worden behaald. Dit omdat wanneer een variabele op één van deze niveaus wordt gemeten, men er van uit gaat dat gelijke verschillen tussen scores ook inhoudelijk gelijke verschillen representeren. Het verschil tussen interval- en ratio-niveau blijkt in de praktijk nogal vaag te zijn. Voor statistische analyses maakt het vrij weinig uit welk niveau je kiest: ze zijn beide kwantitatief. Het verschil tussen deze twee niveaus is dat variabele op het interval niveau geen absoluut nulpunt heeft en de ratioschaal wel. Een voorbeeld om dit toe te lichten is het meten van temperatuur op een Fahrenheitschaal. Dit wordt gemeten op een interval schaal. Hierbij betekent het niet dat een score van nul op de Fahrenheitschaal er totaal geen warmte aanwezig is. Er kunnen wel berekeningen worden uitgevoerd met de scores die op deze schaal gehaald kunnen worden, maar een score van nul heeft geen speciale betekenis. Wanneer je moet kiezen tussen 2 of meer meetniveaus, kies dan altijd het hoogst mogelijke meetniveau, waarbij de meetniveaus van laag naar hoog als volgt zijn: nominaal, ordinaal, interval, ratio. Data weergeven in tabellen. In frequentietabellen kunnen data overzichtelijk worden weergegeven. Hierin kunnen de ruwe scores worden weergegeven: de scores in hun originele staat, zonder dat deze zijn bewerkt. In deze tabellen wordt ook verwerkt hoe vaak een bepaalde score in de dataset voorkomt. Dit wordt de frequentie van een bepaalde score genoemd. Verder wordt in deze frequentietabellen vaak ook de steekproefgrootte vermeld: dit is van hoeveel proefpersonen/cases er in een dataset scores zijn verwerkt. De steekproefgrootte wordt over het algemeen aangeduid met de letter n. Het is mogelijk om een ungrouped frequency distribution op te zetten of een grouped frequency distribution. in een ungrouped frequency distribution wordt per individuele score in de dataset aangegeven hoe vaak deze score terugkomt in de dataset. In een grouped frequency distribution worden de score in groepen gezet en wordt de frequentie van scores per groep weergegeven. Een voorbeeld is leeftijdscategorieën: het is mogelijk dat een aantal personen in je dataset een leeftijd van 10-18 hadden, anderen hadden een leeftijd van 19-28 en weer anderen hadden een leeftijd van 29-38. Vervolgens kun je de frequentie van het aantal scores dat in elke categorie valt weergeven. Een andere mogelijk is het opzetten van een cumulatieve frequentietabel. Hierbij is het belangrijk dat de ruwe scores in de tabel zijn georganiseerd van laag naar hoog.

Als dat het geval is kun je eerst de frequenties van deze ruwe scores noteren in een kolom van de frequentietabel. Daarna kun je een kolom opstellen voor de cumulatieve frequenties: hierin worden de frequenties van voorgaande scores bij elkaar opgeteld. Verder is een relatieve frequentietabel ook een optie. Hierbij wordt per ruwe score de frequentie daarvan gedeeld door de totale steekproefgrootte. Alle relatieve frequenties komen bij elkaar opgeteld uit op één. Ten slotte is het ook een optie om een cumulatieve relatieve frequentietabel op te zetten. Hierbij worden de voorgaande relatieve frequenties bij elke nieuwe relatieve frequentie in de tabel opgeteld. De hoogste ruwe score in de tabel zou dan een cumulatieve relatieve score hebben van één, want alle relatieve frequenties zijn hier bij elkaar opgeteld. Data weergeven in grafieken. Categorische variabelen worden over het algemeen vooral weergegeven in de vorm van een staafdiagram of een taartdiagram. Als je data van een categorische variabele wilt weergeven in een staafdiagram, geven de staven de categorieën weer. Een staafdiagram bij een categorische variabele die bestaat uit vier nominale groepen zou er als volgt uit kunnen zien: Figuur 1: Voorbeeld staafdiagram. De lengte van de staven geven de telling (of het percentage) weer van het aantal personen/objecten dat in die categorie valt. Wanneer de ene staaf hoger is dan de andere, betekent dat dat er in de ene categorie meer personen/objecten vallen dan in de andere categorie. Een taartdiagram zou er mogelijk als volgt uit kunnen zien:

Figuur 2: Voorbeeld van taartdiagram. Bij het maken van een taartdiagram, is het belangrijk dat je alle categorieën er aan toevoegt die het geheel vormen. Je kunt gebruik maken van een categorie genaamd overig, maar het is belangrijk dat alle categorieën samen 100% zijn. Deze beperking van een taartdiagram maakt het dat staafdiagrammen flexibeler zijn. Een taartdiagram is soms niet geschikt, omdat niet altijd alle categorieën mee zijn genomen in je onderzoek. Bijvoorbeeld: Je onderzoekt het aantal studenten die afstuderen in biologie, bedrijfskunde en psychologie. Een taartdiagram kan dit niet vergelijken, omdat niet alle studenten in één van deze drie studierichtingen vallen: er zijn genoeg studenten die een andere studierichting doen. Een staafdiagram is hier geschikter. Kwantitatieve variabelen kunnen op andere manier grafisch worden weergegeven, namelijk met behulp van stamdiagrammen histogrammen en frequentie polygonen. Een stamdiagram (ofwel stem-and-leaf-plot) schetst een plaatje in de vorm van een distributie, waarbij het ook de echte numerieke waarden in de grafiek weergeeft. Stamdiagrammen werken het best bij: Een klein aantal observatiegetallen; Observatiegetallen die groter zijn dan nul. Een stamdiagram maak je als volgt: Stap 1: scheid elke observatie/elke geobserveerde waarde in een stam (= alle getallen van deze waarde behalve het laatste getal) en een blad (= het laatste getal van die waarde); Stap 2: zet de stammen in een verticale kolom met het kleinste van deze getallen bovenaan, en trek rechts van deze kolom een verticale lijn; Stap 3: schrijf elk blad in de rij rechts van zijn stam. deze bladeren moeten vervolgens worden georganiseerd van laagste naar hoogste getal. Wanneer een geobserveerde waarde dus uit twee getallen bestaat, laten we zeggen 38, dan bestaat de stam maar uit één getal, namelijk drie (de stam hiervan is alle getallen van deze waarde behalve het laatste getal). Wanneer een geobserveerde waarde dus uit drie getallen bestaat, laten we zeggen 567, dan bestaat de stam uit twee getallen, namelijk 56. Het blad bestaat altijd uit maar één getal. Je kunt ook gebruik maken van een rug-aan-rug stamdiagram (back-to-back stemplot). Deze gebruik je wanneer je twee gerelateerde distributies wilt vergelijken.