Handleiding. Practicum Statistiek ( ) Gerrit Bloothooft

Transcriptie

1 Handleiding Practicum Statistiek ( ) Gerrit Bloothooft Gebaseerd op een document van Hugo Quené opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht Cursus

2 Hoofdstuk 1 Inleiding Deze handleiding dient als ondersteuning bij het practicum van de cursus Statistiek ( ). Je vindt hier concrete uitleg bij SPSS, een computerprogramma 1 voor statistische analyse. Deze handleiding is bedoeld als ondersteuning bij het gebruik van SPSS for Windows. Het vormt een aanvulling op (dus geen vervanging voor) het Basishandboek SPSS 16 dat we ook zullen gebruiken (De Vocht, 2008). Deze handleiding geeft nadere uitleg bij de pacticumopdrachten van onze cursus. We zullen ons hier baseren op het CIM geïnstalleerde versie van SPSS for Windows, versie 16. De instructies gelden wel ongeveer, maar niet exact voor andere versies van SPSS for Windows. SPSS is ook beschikbaar voor andere platforms (Unix, Mac, enz.). We zullen ook aannemen dat je SPSS gebruikt op de computers in de computerleerzalen van het CIM (Kromme Nieuwegracht 80), of dat je de opdrachten thuis uitvoert met je eigen installatie van SPSS. SPSS kan goedkoop worden aangeschaft via (kies dan versie 16, of een versie voor de Mac). Je krijgt dan een CD met software thuisgestuurd. Kijk voor latere verlenging van de licentiecode (na een jaar) op 1 Naast SPSS zijn er diverse andere soortgelijke programma s: het meest bekend zijn S-Plus (waarvoor de UU een campuslicentie heeft), SAS, en MiniTab. Daarnaast is R een interessant open-source alternatief ( Al deze programma s mag je ook gebruiken, maar alleen voor SPSS is ondersteuning mogelijk in deze cursus. SPSS wordt het meest gebruikt in sociaal-wetenschappelijk onderzoek, hoewel het eerlijkheidshalve niet het beste programma is. Een belangrijk nadeel van SPSS is dat de precieze werking van de statistische analyses een goed bewaard bedrijfsgeheim is, waardoor je niet zeker weet of de uitvoer correct en betrouwbaar is. 2

3 1.1 notatie In het begeleidende Basishandboek (De Vocht, 2008) worden geneste menu-opties aangegeven met een puntkomma, als A; SubA; SubSubA. In deze handleiding volgen we de conventie om dit aan te geven als A > SubA > SubSubA. Verwijzingen naar hoofdstukken en paragrafen uit dat boek staan tussen vierkante haken als [dv 3.2]. Verwijzingen naar corresponderende passage in het boek van Peck and Devore (6 E 2008, 7 E 2011) worden vermeld als P&D 4.2. Opdrachten zullen meestal wel duidelijk zijn, maar om er speciaal de nadruk op te vestigen staat er ook vaak > voor de paragraaf. De termen map, folder, directory zijn synoniem. Bij sommige commando s staat een verwijzingsnummer, tussen haakjes, in gewoon lettertype, tegen de rechter kantlijn. Deze nummers en haakjes maken géén deel uit van het commando, en je hoeft ze dus niet over te nemen. 1.2 SPSS opstarten In de computerleerzalen draait SPSS alleen onder MS Windows XP. Je kunt SPSS aanroepen via het Start-menu: Start > Programs > Standard Applications > Applications L-Z > SPSS 16. 3

4 Hoofdstuk Vensters van SPSS [dv 1.9] Na het opstarten opent SPSS met een venster van de Data Editor. De anatomie van dit venster wordt uitgelegd in het Basishandboek sectie 1.3 t/m 1.5. > Lees deze paragrafen goed door en onderzoek de werking van de verschillende opties en knoppen. Een historische achtergrond over programmabesturing De werking van de vensters in SPSS is niet geheel vanzelfsprekend. In feite is SPSS een ouderwets programma uit de jaren 70, toen er nog geen Windows bestond, en zelfs geen Microsoft. De gebruiker typte een SPSS commando in (op een zwart/wit terminal) zoals het volgende (de betekenis ervan hoef je nu niet te begrijpen!): (2.1) CROSSTABS VARIABLES= GESLACHT(1,2) STUDIE(0,3) / CELLS= COUNT COL / STATISTICS= CHISQ / TABLES= GESLACHT BY STUDIE. Na enige tijd verscheen de uitvoer op het beeldscherm van de terminal 2. De verwerking gebeurde door de SPSS Engine, een programma dat commando s accepteerde en tekstuele uitvoer produceerde. Hoewel het niet meer zo eruit ziet, is de situatie feitelijk nog steeds zo. Er is nog steeds een SPSS Engine op de achtergrond. De vensters hebben vooral tot doel om de invoer van data en van commando s te vergemakkelijken, en de resultaten beter te kunnen bekijken, bewerken en afdrukken. 2 In de elektronische oudheid, zo n 40 jaar geleden, waren er zelfs geen terminals. Invoer ging via ponskaarten en uitvoer via printers. De gebruiker typte de commando s in op ponskaarten, gaf de stapel ponskaarten dan af aan de balie van het computercentrum, en ging koffie drinken. Enige tijd later werd de geprinte, papieren uitvoer in een postvakje gelegd. Er bleek dan natuurlijk ergens een typefout te zitten waardoor het hele proces opnieuw moest beginnen... 4

5 In de primitiefste vorm van SPSS heb je slechts twee soorten vensters nodig: het Syntax venster voor invoer-commando s, en een Output (ook genaamd Viewer) venster voor resultaten. Opdrachten en gegevens voer je in via het Syntax venster, en de resultaten ervan zie je in het Output venster. Kinderlijk eenvoudig, al moet je wel precies weten welke opdrachten je wilt opgeven. De eigenlijke gegevens (data) kun je ook beter op een andere wijze invoeren of importeren. Maar het kan ook via het Syntax venster. In de minder primitieve vorm gebruik je de menukeuzes en invulschermen om een SPSS commando op te bouwen. Klikken in plaats van typen, muis in plaats van toetsenbord. Voor het bovenstaande commando (2.1) kies je dan Analyze > Descriptive Statistics > Crosstabs... gevolgd door de nodige subopdrachten 3. In plaats van 124 tekens te typen in het Syntax venster, heb je dan zo n 15 keer geklikt, 3 invulschermen afgewerkt, en een aardige afstand afgelegd met de muis. De ergonomische winst van Windows is hier niet zo groot; een belangrijk voordeel van deze tweede werkwijze is wel dat je de onderliggende commando s niet hoeft te kennen. 2.2 Het syntax venster De werkwijze via Syntax vensters heeft als belangrijk voordeel, dat je het Syntax venster ook kunt bewaren. Dat is om twee redenen handig. Ten eerste voor je verslaglegging; je kunt precies nakijken welke analyses je hebt gedaan, met welke opties. Ten tweede voor herhaling van je analyses. Bewaarde Syntax vensters kun je weer openen, en de commando s opnieuw doen uitvoeren. Dat werkt vaak veel makkelijker dan hetzelfde commando weer op te bouwen via menukeuzes en invulschermen. We zullen zien dat er een ideale combinatie van beide werkwijzen is: commando s interactief opbouwen met de muis, en dan het resulterende, onderliggende commando wegschrijven naar een Syntax venster (in SSPS-jargon wordt deze handeling aangeduid met het werkwoord paste ). Je ziet een knop Paste hiervoor in het primaire invulscherm van een commando, meestal vlak bij de knop OK die het commando doorgeeft aan de SPSS engine. 3 Deze submenu-optie brengt je bij een invulscherm (keuzes met puntje-puntje-puntje leiden je altijd naar een invulscherm). Je kiest dan STUDIE als Row en GESLACHT als Column, met de pijltjes rechts van de variabelen-lijst. Je kiest de knop Statistics... en op het invulscherm moet je dan Chi-square aanvinken, en dan Continue kiezen. Je kiest dan ook de knop Cells... en op het invulscherm moet je dan Counts aanvinken, en dan Continue kiezen. Tenslotte kies je de knop OK om het opgebouwde commando daadwerkelijk aan te bieden aan de SPSS Engine. 5

6 2. 3 Het outputvenster Enfin, SPSS begint dus doorgaans met slechts één venster, een Data Editor venster. Dit venster toont de gegevens waarop de statistische analyse plaatsvindt. Later zullen we er verder naar kijken. We hebben nu twee soorten vensters besproken: Data Editor en Syntax. Je krijgt ook te maken met een derde type, het Output venster. Dat is aanvankelijk nog niet zichtbaar, omdat het pas wordt aangemaakt als er uitvoer is na het eerste echte commando. Om het ingewikkeld te maken zijn er tweesoorten uitvoervensters. Standaard worden de uitkomsten en uitvoer weergegeven in het SPSS Viewer of Output venster (dv, p.18). Dat is een venster waarin je makkelijk kan navigeren, via de inhoudsopgave aan de linkerkant, en geschikt voor grafieken en figuren. Uitvoer kan ook worden weergegeven in een Draft Viewer ofwel Draft Output venster (dv, p.18). Dat is ongeveer hetzelfde maar dan simpeler, zonder inhoudsopgave voor navigatie en bewerking, en zonder grafische weergave 4. Tip: Je kunt de commando s van je invoer laten weergeven in je Output of Draft Output. Dat is meestal default (dwz het gebeurt al zonder dat je er iets voor hoeft te doen). Mocht dat niet zo zijn, dan is de instelling daarvoor te vinden onder Edit > Options > Viewer of Edit > Options > Draft Viewer. Zorg dat de optie Display commands in the log aangevinkt is. > Ga nu eerst naar het hoofdmenu van het Data Editor venster, en kies daar Help > Tutorial. Bestudeer dit tutorial wat betreft de opzet (je hoeft niet meteen alles te leren en te begrijpen!). Het is van belang dat je weet wat het tutorial je te bieden heeft als je ergens niet uitkomt. Weest niet bang om dingen te proberen! Maak zo nodig ook aantekeningen. 4 De Draft Output heeft als voordeel dat relevante stukjes uitvoer iets makkelijker zijn over te nemen naar andere bestanden, documenten, of . 6

7 Hoofdstuk Data invoeren en definiëren Het Data Editor venster is het hart van SPSS. Het bevat de gegevens die beschreven en geanalyseerd zijn of worden. Als je dat venster sluit, dan wordt ook het programma SPSS helemaal afgesloten. SPSS (Statistical Package for the Social Sciences) is ontwikkeld voor de sociale wetenschappen, en de data-organisatie draagt daar nog sporen van. De basisobservatie is een case of observatieeenheid (een regel voor iedere eenheid); meestal wordt daarbij aan een persoon gedacht. Voor iedere case zijn één of meer variabelen geobserveerd (een Kolom voor iedere variabele). Laten we eerst eens kijken naar een simpel voorbeeld: gegevens uit een lijst van studenten uit de Faculteit Geesteswetenschappen, die zich opgegeven hebben als proefpersoon voor een experiment. De gegevens staan in gecodeerde vorm in een bestand genaamd vb01.dat op de webstek van deze cursus staat. > Haal dat bestand op met een webbrowser, en kopieer het naar je cursusdirectory op je U:schijf. Maak zo n directory (/statistiek) als je dat nog niet had gedaan! Hier zie je het begin van dat bestand: Het is buitengewoon verstandig om vast te leggen hoe je de gegevens in dit bestand hebt gedefinieerd. Data-analisten noemen dat het codebook. Dat is een document waarin je vastlegt welke variabele in welke kolom staat, en wat de gebruikte codes betekenen. In dit geval ziet het codebook er ongeveer uit als volgt: 7

8 codebook van: U:/statistiek/vb01.dat Var (kol) Naam, meetniveau codes, meeteenheden 1 (1) Geslacht, nominaal 0=onbekend, 1=man, 2=vrouw 2 (3-4) Studie, nominaal EERSTE studie; 1=TCS, 2=Ned, 3=Eng, 0=Overig, 99=nietLett; 3 (6) Voorkeurshand nominaal 1=rechts, 2=links; (zoals zelf opgegeven) Je kunt de gegevens uit dit bestand op twee manieren invoeren in SPSS. NB: Géén van beide methoden wordt uitgelegd in het Basishandboek! Daar gaat de auteur er vrolijk van uit dat de gegevens al ingevoerd zijn, maar dat gebeurt in werkelijkheid helaas niet. Je zal het zelf moeten doen. Je moet dus gegevens gaan importeren in SPSS. In deze handleiding word aangenomen dat er al een bestand is, op je harde schijf, dat de eigenlijke gegevens bevat. Ook heb je een codebook waarin de codering van de gegevens beschreven ligt. 3.2 Gegevens definiëeren via menu > Kies in het hoofdmenu van het Data Editor venster File > Read Text Data. [Je kunt hetzelfde bereiken via File > Open > Data]. Geef het juiste pad en de juiste bestandsnaam op, en klik op Open. Dan verschijnt de zgn Text Import Wizard die je helpt met het opbouwen van het juiste commando om je data te definiëren. Je ziet een preview van het opgegeven bestand in beeld, en nu moet je wat vragen beantwoorden. Je kunt met de knoppen Back en Next navigeren tussen de verschillende pagina s met vragen. In dit geval zijn de juiste antwoorden voor pagina s 1 t/m 3 als volgt: NO predefined format FIXED width NO variable names at top of file first case starts on line 1 1 line per case read ALL cases Op pagina 5 van de Text Import Wizard zie je niet meer een preview van je databestand, maar een preview van het gegevensbestand in SPSS. Er zijn nu drie variabelen; SPSS heeft ze voorlopig V1, V2, en V3 genoemd. Dat kun je wijzigen door een kolom in de preview aan 8

9 te klikken, en vervolgens de naam voor deze variabele in te typen in het bovenste invoerveld. Je moet hier ook opgeven of de variabele een getal, letterreeks of datum is. Meestal hebben we te maken met getallen. NB: Ook nominale en ordinale variabelen worden hier met numerieke codes aangeduid, dus met getallen! Herhaal dit voor alle drie de variabelen, voordat je doorgaat met Next. Je kunt het opgegeven import-formaat bewaren voor later, als je verwacht nog eens gegevens met precies dezelfde layout te zullen importeren. Je kunt ook het interactief opgebouwde commando om je data te definiëren paste n naar het Syntax venster. > Zet deze optie aan! Dan merk je meteen hoe het Syntax venster werkt. Als je op OK of Finish klikt, dan wordt het import-commando doorgegeven naar de SPSS Engine, en de data worden ingevoerd in SPSS. Dat gebeurt echter NIET als je hebt opgegeven dat het commando in het Syntax venster terecht moet komen (en dat heb je dus gedaan). In dat geval moet je het complete commando in het Syntax venster activeren. Dat doe je in het Syntax venster via run > all. Merk op dat het ook mogelijk is een deel van de commando s in het syntax venster te selecteren met je muis en alleen die via run > selection te activeren. Zo kun je specifieke opdrachten laten uitvoeren. Sla tenslotte de SPSS datafile op als vb01.sav (via Save as). Als je wat meer zou weten van de manier waarop commando s aan SPSS gegeven worden dan zou je ook direct de opdrachten in het syntax venster kunnen schrijven en laten uitvoeren. > Dat gaan we ook proberen. Voor ons voorbeeld is het commando als onderstaand (3.1). Neem dat over in het syntax venster dat al open is (onder de commando s die er al staan), uiteraard met je eigen bestandspad: (3.1) DATA LIST FILE="U:/Statistiek/vb01.dat" FIXED / Geslacht 1 Studie 3-4 Hand 6. EXECUTE. Ieder commando moet worden afgesloten met een punt. Merk op dat de precieze locatie van het bestand, compleet met drive en alle mappen, moet worden opgegeven. 9

10 Je ziet dat dit nogal lijkt op het codebook! Met dit commando wordt aangegeven dat er drie variabelen zijn voor iedere eenheid (respondent, persoon). De optie FIXED geeft aan dat de waarden voor iedere variabele steeds in dezelfde kolom van het bestand staan, voor iedere eenheid (regel). Geslacht is gecodeerd in één kolom (kolom 1), Studierichting in twee kolommen (nl. kolom 3 t/m 4), Voorkeurshand weer in één kolom (kolom 6). De drie variabelen bevatten getallen, die codes vormen voor de mogelijke waarden (bv. Geslacht: 1=Man,2=Vrouw). Merk op dat de opdracht nu een stuk korter is dan de eerste, automatische versie, maar er gebeurt hetzelfde. Merk op dat het wel nodig is om EXECUTE erbij te zetten, pas dan zal SPPS ook echt in actie komen. Selecteer deze commandoregels en doe Run > Selection. Je zult zien dat er een nieuw venster van de Data Editor wordt geopend, met daarin de gegevens. De variabelen hebben nu al meteen de namen Geslacht, Studie en Hand. Het bestand wat je nu gemaakt hebt, is bijna identiek aan het eerste bestand. Je hoeft dit bestand daarom niet te bewaren. Bestudeer sectie uit het Basishandboek om nader kennis te maken met het Data Editor venster van SPSS. Terzijde: Opletten op het decimaal symbool! NB: Let goed op dat in het databestand hetzelfde decimale symbool (punt of komma) wordt gebruikt dat ook in Windows gedefinieerd is als decimaal symbool! In de computerleerzalen van het CIM is Windows ingesteld op een Nederlandse werkomgeving, met de komma als decimaal symbool. Dat gaat dus verkeerd als je een Amerikaans databestand gebruikt (van de book companion site van Peck and Devore (2008)) met de punt als decimaal symbool. Er zijn twee oplossingen: (1) In het Amerikaanse databestand de punten in komma s veranderen (bijvoorbeeld in Word met Edit > Replace). (2) Je kunt de Windows-instellingen wijzigen via Windows Start > Settings > Control Panel > Regional and Language Options. Kies dan voor Nederlands, en wijzig het decimaal symbool (Customize > Numbers > Decimal Symbol). Je kunt ook voor English (US) kiezen; dan wordt automatisch de punt gebruik als decimaal symbool. Het onder Windows ingestelde decimale symbool wordt ook gebruikt in de uitvoer van SPSS. Let op dat je het decimaal symbool in Windows moet wijzigen voordat je SPSS opstart. Als je dit doet, dan hoef je niet in de databestanden zelf aan de gang, maar realiseer je dat nu je computerinstellingen zijn 10

11 veranderd, wat ook doorwerkt in andere programma s die je gebruikt. 3.3 labels voor variabelen: Variable View Ga eerst weer naar de data editor met vb01.sav. Daarin staan de variabelen onder Variable View (tab onderaan de pagina) beschreven. Ze heten hier nog V1, V2 en V3 (tenzij je ze bij het inlezen al een naam hebt gegeven). > Dat kun je nu bijvoorbeeld veranderen in Geslacht, Studie, Hand. Namen van variabelen mogen in SPSS geen spaties bevatten 5. Wel kun je de underscore (_) gebruiken zoals bijvoorbeeld in var_1. Je kunt een langere woordreeks (met spaties) toekennen als variabele label. > Doe dat via de Variable View en maak voor Studie het label eerste studierichting en voor Hand voorkeurshand. Dat laatste had je ook weer doen via het Syntax venster: VARIABLE LABELS Studie eerste studierichting Hand voorkeurshand. (3.2) Merk op dat je labels voor meerdere variabelen kunt opgeven in één commando. Ieder commando moet worden afgesloten met een punt. Voer het commando uit, en bekijk het resultaat in de Variable View. 3.4 Gegevens bewaren Voor gebruikers van MS Windows is het een fluitje van een cent om de inhoud van het Data Editor venster te bewaren in een bestand (met extensie.sav). Dat gaat uiteraard via het File menu van dit venster: File > Save As... Doe dat ook voor de syntax file (met de extensie.sps). 5 In eerdere versies van SPSS kon een variabele niet langer zijn dan 8 tekens (een byte). Alles erna werd genegeerd. Dat is nu niet meer het geval. 11

12 Als je de gegevens verder wilt verwerken op een niet-windows-computer, bewaar ze dan liever in SPSS Portable formaat, met extensie *.por. 3.5 Proefpersoongegevens inlezen In het voorbeeld hierboven zag je dat personen de analyse-eenheden vormden (een regel per persoon); dat is het standaard gedrag van SPSS. Maar in veel gedragsonderzoek zijn niet de personen, maar de metingen binnen personen de eigenlijke eenheid van analyse. We zullen daar later op terugkomen. Het is in zo n geval handiger om iedere analyse-eenheid, dus iedere responsie of meting van een persoon, voor te stellen als een afzonderlijke case of regel. Je moet dan (het nummer van) de proefpersoon als variabele bij deze case opnemen. Deze omkering van case en variabele is aanvankelijk misschien onlogisch en tegen-intuïtief, maar biedt in de praktijk grote voordelen bij het werken in SPSS. Deze opdracht geeft daarvan een voorbeeld. Resultaten van een fonetisch onderzoekje staan in gecodeerde vorm in een bestand genaamd vb02.dat, dat je kunt vinden op de webstek van deze cursus. Het onderzoekje ging over de herkenning van gesproken 3-lettergrepige woorden als kolibrie, bacterie, en naar het effect van de klemtoonpositie op de snelheid van herkenning. Haal het bestand vb02.dat op met een webbrowser, en plaats het in je cursus-directory. Het codebook van deze onderzoeksgegevens ziet er uit als volgt: codebook van: U:/Statistiek/vb02.dat var (pos) Naam (nivo) codes, meeteenheden 1 (1-2) PrPers (nom) nummer van proefpersoon 2 (4) Klemtoon (nom) klemtoonpositie: 1=1e, 2=2e lettergreep 3 (6) UniPt (nom) uniekheidspunt: 1=1e, 2=2e, 3=3e lettergreep 4 (8-11) RT (ratio) reactietijd, in ms 5 (13-14) dummy (nom) deze variabele gaan we negeren! > Importeer de gegevens uit dit bestand in SPSS. Voeg zinnige labels toe. 3.6 Ontbrekende observaties [dv 5.3] Helaas is een gegevensverzameling zelden compleet. Proefpersonen antwoorden of reageren niet, apparatuur laat het afweten, enz., enz. Je moet daar in je codebook goed rekening mee houden. Reserveer aparte codes voor zulk soort antwoorden, bv. 0 = geen responsie. 12

13 > Nu moet je SPSS vertellen dat de waarde 0 (nul) geen echt getal is, maar de aanduiding voor een missing value. Je kunt dat zowel in de Data Editor als in het Syntax venster doen. [Data Editor] Kies het tabblad Variable View, kolom Missing. Geef daar één of meer discrete waarden op, of een bereik van waarden, die niet mogen meedoen bij de eigenlijke statistische analyse. [Syntax venster] Met het commando: (3.3) MISSING VALUES RT (-1,0). Met deze opdracht wordt aangegeven dat bij de variabele RT twee responsies uitgesloten worden van verdere verwerking, nl. de waarden -1 en commentaar In een Syntax venster kun je ook commentaar opnemen. Dat is handig om de definities en analyses toe te lichten. Commentaar is in SPSS ook een commando, en wel het sterretje *. Dit geeft aan dat het vervolg geen SPSS-commando is, maar commentaar. (3.4) * Ook commentaar moet je afsluiten met een punt. > schrijf commentaar bij de opdrachten in je syntax file, bv opdrachtnr, datum, korte toelichting. 3.8 gegevens bewaren Bewaar de inhoud van het Data Editor venster, d.w.z. de gegevens uit vb02.dat met bijbehorende definities, onder de bestandsnaam vb02.sav in je cursus-directory. Bewaar ook de syntaxfile. 3.7 gegevens ophalen Gegevens en definities uit een SPSS gegevensbestand ophalen is tamelijk eenvoudig: kies File > Open (>Data of > Syntax of > Output) in het hoofdmenu van SPSS, selecteer het gewenste bestand, en je bent er. 13

14 Hoofdstuk 4 Beschrijvende statistiek Alle commando s voor statistische berekeningen en analyse bevinden zich onder de optie Analyze in het hoofdmenu. Hieronder worden de verschillende commando s besproken die je doorgaans nodig hebt bij statistische analyses. Dit document is echter géén volledige handleiding in SPSS. Voor precieze informatie over de besproken commando s moet je dan ook het Basishandboek SPSS raadplegen. De informatie in deze handleiding is alleen bedoeld om je op weg te helpen. De volgorde waarin de opdrachten hier worden besproken is min of meer vanzelfsprekend. NB: We nemen aan dat de SPSS file (vb02.sav) geopend is met de gegevens uit bestand vb02.dat. Lees desnoods deze gegevens opnieuw in volgens de procedures die in hoofdstuk 3 beschreven zijn. Terzijde: De opgaven uit het boek (Peck and Devore, 2008/2011) kun je ook met SPSS oplossen. Het is dan handig om de data in te lezen vanaf de book companion site (zie link op cursuswebsite; let op: deze optie is alleen voor de 6 E beschikbaar, maar op de cursuswebsite staat de overeenkomst van opgaven uit de 6 E en 7 E edities). Download onder Datasets > SPSS de zipfile. Sla die op en pak uit, bijvoorbeeld onder /statistiek/p&ddata. Kies dan de dataset (in SPSS data-formaat, sav) die hoort bij je opgave. 4.1 Beschrijvende statistiek voor één variabele Allereerst moeten we een globale indruk krijgen van onze variabelen, en kijken of alles goed is gegaan met het importeren en definiëren van de gegevens. Klopt het aantal cases met het aantal observaties? Zo niet, dan zijn er wellicht fouten gemaakt bij de data-invoer. Zijn waarden zoals gemiddelde, range en spreiding realistisch, gezien onze kennis van een variabele? Dergelijke vragen kunnen we beantwoorden met zgn. beschrijvende statistiek. Hierbij worden kengetallen van de steekproef bepaald, zoals de frequentieverdeling (histogram), gemiddelde, variantie, enz. 14

15 4.2 nominaal, ordinaal: FREQUENCIES [dv 26] Voor variabelen van nominaal of ordinaal meetnivo, zoals de variabele Studie in bestand vb01.dat kunnen we beschrijvende statistiek bedrijven met het commando FREQUENCIES. [Data Editor] Kies Analyze > Descriptive Statistics > Frequencies... [Syntax venster] Met het commando: FREQUENCIES / VARIABLES Studie. (4.1) Hierbij kunnen allerlei opties opgegeven worden, bv. /HISTOGRAM om histogrammen af te drukken, en /STATISTICS om allerlei statistische maten te berekenen. Denk hier aan dat de punt achter Studie aangeeft dat het commando FREQUENCIES is afgelopen. Je wilt bij het commando FREQUENCIES een histogram en extra statistieken. Sluit derhalve het commando FREQUENCIES pas af met de punt nadat je /HISTOGRAM en /STATISTICS heb opgegeven. [Data Editor] Uiteraard kan deze opdracht óók uitgevoerd worden voor variabelen van interval- of ratio-meetnivo [SPSS: scale], zoals de variabele RT in vb02.dat. Dat is handig als je percentielen wilt bepalen (P&D 4.2, 4.4). Via het menu (onder optie Analyze > Descriptive Statistics > Frequencies...) kun je dat opgeven met behulp van de knop Statistics... Je kunt hier o.a. kiezen voor Quartiles, d.w.z. de 25%, 50% en 75% percentielen 6. [Syntax venster] Op te geven met /NTILES=4. [Data Editor] Je kunt ook zelfgekozen percentielen opgeven, onder het kop je Percentiles: vul hier bv. in 68 en dan knop Add. [Syntax venster] Op te geven met /PERCENTILES=68. De resulterende waarde van het percentiel (672 ms) is de grens tussen de onderste of kleinste 68% en de rest van de (actieve) observaties. Bij variabelen van interval- of ratio-meetnivo wordt de frequentieverdeling meestal onprettig groot. Het is handiger om die tabeluitvoer te onderdrukken. 6 Het 50% percentiel is per definitie gelijk aan de mediaan. In 4.4 wordt uitgelegd hoe je die terugziet in een boxplot. 15

16 [Data Editor] Dat doe je door het vinkje bij Display frequency tables te verwijderen. [Syntax venster] Geef de optie /FORMAT NOTABLE op. Je krijgt dan wel de opgegeven statistische kenmerken te zien, maar geen frequentietabel. Als je een histogram hebt gemaakt (met FREQUENCIES of een ander commando), dan kun je daar nog van alles aan veranderen. Beweeg de muis over het histogram, dubbelklik met de linker muisknop. Dan kom je in de Chart Editor. Als je hier een element rechts aanklikt en de properties window optie kiest (of op de properties icon klikt) dan kom je in een sub-menu waar je allerlei instellingen kunt wijzigen. Zoals het aantal bins (class intervals, paaltjes) [via binning] voor het histogram, de kleur, de teksten langs assen, enz. > Probeer maar en bedenk hierbij met de vuistregel hieronder hoeveel bins handig zijn! Een goede vuistregel voor het aantal bins is N, naar boven afgerond (P&D 3.3). Als N = 20 dan zijn 5 bins dus meestal voldoende. 4.3 interval, ratio [scale]: DESCRIPTIVES [dv 28] Voor variabelen van het interval- of ratio-meetnivo (P&D 3.3, 4.1, 4.2) kunnen we beschrijvende statistische maten verkrijgen met het commando DESCRIPTIVES. Dit levert wat compactere uitvoer op, zonder frequentie-verdeling. [Data Editor] Kies Analyze > Descriptive Statistics > Descriptives... [Syntax venster] Met het commando: (4.2) DESCRIPTIVES / VARIABLES RT. Soms is het handig om de opgegeven variabele om te rekenen naar gestandaardiseerde scores, oftewel Z-scores (Devore and Peck, 6 E p173, 7 E p172, 4.4). Je moet daarvoor de optie Save standardized values as variables aanvinken in het menu, of in het Syntax venster /SAVE opgeven. Je kunt ook andere aspecten van de berekeningen aanpassen. > Voer de twee commando s FREQUENCIES en DESCRIPTIVES uit op de variabele RT in de active file. Je mag de commando s opgeven via menu s of via het Syntax venster. Controleer of het aantal observaties overeenkomt met de omvang van het gegevensbestand vb02.dat. Komt het minimum en maximum ook overeen met je verwachting? Zijn er uitbijters (outliers, extremes) die misschien berusten op fouten van de apparatuur, meting, registratie, datainvoer? 16

17 4.4 gegevens inspecteren met Explore, EXAMINE [dv 30] SPSS heeft bovendien een commando dat specifiek ontworpen is om variabelen te inspecteren: het commando EXAMINE. [Data Editor] Kies Analyze > Descriptive Statistics > Explore... [Syntax venster] Met het commando: EXAMINE / VARIABLES RT / STATISTICS DESCRIPTIVES. (4.3) Deze opdracht levert beschrijvende statistiek over de variabele RT, net als in 4.3. Enkele kengetallen die in eerdere uitvoer ontbraken zijn: - de zgn. 5% Trim (P&D 4.1), d.w.z. het gemiddelde nadat de meest extreme 5% van de data aan beide zijden zijn verwijderd (dwz in totaal 10% gegevens minder). Als dit veel verschilt van de gewone mean, dan is de verdeling vermoedelijk niet normaal (bv. niet symmetrisch maar scheef). SPSS rekent trouwens geen andere percentages trimmed mean uit. - de zgn. IQR of InterQuartile Range (P&D 4.2), dat is de afstand tussen het 25% percentiel en het 75% percentiel, oftewel het gebied waarbinnen de centrale 50% van de data ligt. > Voer het hierboven gegeven commando uit. Noteer hoeveel observaties meetellen bij de berekeningen. Is de verdeling symmetrisch? Waarom wel of niet? Hoeveel observaties hebben de onwaarschijnlijk snelle reactietijd van 0 ms? Lees in het Basishandboek wat de uitvoer voorstelt, en hoe je de resulterende boxplot moet interpreteren. Waar liggen de onder- en bovengrens van de box? Waar ligt de mediaan? Hoe kun je zien of de verdeling symmetrisch danwel scheef is? Als je een boxplot hebt gemaakt, dan kun je daar nog van alles aan veranderen. Beweeg de muis over de boxplot, dubbelklik met de linker muisknop. Dan kom je in de Chart Editor. Als je hier een element rechts aanklikt en de properties window optie kiest (of op de properties icon klikt) dan kom je in een sub-menu waar je allerlei instellingen kunt wijzigen, teksten toevoegen, enz. Je kunt hier ook de oriëntatie (staande of liggende balken) van de boxplot wijzigen, met de optie Transpose Chart. Het is conventie om de afhankelijke variabele langs de Y-as te plotten, resulterend in verticale balken in de boxplot. Een observatie wordt aangeduid als outlier (uitbijter, P&D 4.3) indien zijn afstand tot het dichtstbijzijnde kwartiel (P25 of P75, ondergrens of bovengrens van de box) ligt tussen 17

18 1.5 IQR en 3.0 IQR; nòg verder verwijderde observaties worden aangeduid als extreme (extreem). > Laat de observaties met RT=0 niet meetellen (zie missing data in Hoofdstuk 3). Herhaal het commando. Inspecteer opnieuw de resultaten. 4.5 Beschrijvende statistiek voor twee variabelen Meestal ben je niet alleen geïnteresseerd in beschrijvende statistiek van één variabele over de gehele steekproef. In ons onderzoek hebben we doorgaans niet alleen een afhankelijke variabele, maar ook een (of meer) onafhankelijke variabele, die correspondeert met de verschillende condities. Het is uiteraard interessant om te kijken naar de afhankelijke variabele in de afzonderlijke condities. In statistische termen kijken we dan naar het verband tussen twee variabelen; doorgaans (maar niet noodzakelijkerwijs) zijn dat de onafhankelijke en afhankelijke variabelen. 4.6 Een nominaal-ordinaal, een interval-ratio: MEANS [dv 29] Als één van de twee variabelen van nominaal of ordinaal meetnivo is, en de ander van het interval- of ratio-nivo, dan kun je het verband onderzoeken met het commando MEANS. Dit geeft je eenvoudige statistische kengetallen van de steekproef, opgedeeld naar categorieën van de (onafhankelijke) variabele(n). [Data Editor] Kies Analyze > Compare Means > Means... Kies het uniekheidspunt als onafhankelijke variabele. [Syntax venster] Met het commando: (4.6) MEANS / TABLES RT BY UniPt. > Open (opnieuw) het SPSS databestand vb02.sav. Definieer de missing data NIET! Bekijk ook nog even het bijbehorende codebook. Voer daarna het hierboven gegeven commando uit. In welke condities van het uniekheidspunt komen de observaties voor met RT = 0 (zie opdracht in 4.4)? Noteer voor de drie condities van het uniekheidspunt ook het gemiddelde en de standaarddeviaties, met afronding tot op hele ms. Wat valt je op? Welke extra informatie heb je nu, die je nog niet had bij de vorige opdrachten? 18

19 4.7 Beide interval-ratio: SCATTERPLOT [dv 20.2] In veel onderzoeken spelen twee numerieke variabelen een rol (P&D 5.1), bv. als zowel de afhankelijke als de onafhankelijke variabelen numeriek zijn, d.w.z. van interval- of ratiomeetniveau. De eerste stap van de analyse is om het verband tussen deze variabelen informeel te onderzoeken, met een zgn. scatterplot. Dit levert een afbeelding op waarbij iedere observatie correspondeert met één punt in een plat (2D) vlak, bepaald door de twee variabelen. Later zullen we ook zien welke toetsende statistiek mogelijk is met dergelijke data. > Voer dit eens uit voor reactietijden en score in vb02.sav. [Data Editor] Kies Graph > Legacy Dialogs > Scatterplot kies dan Simple Scatter en vul de gewenste numerieke variabelen in bij Y-axis en X-axis. [Syntax venster] Met het commando: (4.7) GRAPH / SCATTERPLOT(BIVAR)=X WITH Y. vul uiteraard voor X en Y de namen van de variabelen in die je geplot wilt hebben. Echt mooie scatterplaatjes krijg je met deze data niet, maar je zult het idee wel vatten. 19

20 Hoofdstuk 5 Dobbelen, echt en virtueel 5.1 dobbelen In dit hoofdstukje gaan we de variabiliteit in een steekproef onderzoeken. Daarbij maken we gebruik van een beproefd stochastisch proces, nl het gooien met dobbelstenen. We nemen aan dat de uitslag van zo n worp alleen door het toeval wordt bepaald. > Maak in SPSS een nieuwe data-verzameling (File > New > Data). We gaan hier de resultaten van n = 50 worpen met 2 dobbelstenen in opslaan. Ga naar het nieuwe Data Editor venster, tabblad Data View, regel 1. Goed dan, aan de slag. Ga naar waar je met twee virtuele dobbelstenen aan de gang kunt. Werp de dobbelstenen, en noteer de geworpen punten voor de eerste dobbelsteen in de eerste kolom, en die voor de tweede dobbelsteen in de tweede kolom. Ga naar een nieuwe regel, werp opnieuw, en ga zo door tot je 50 worpen (regels) hebt, elk met 2 kolommen. > Noem de twee variabelen (kolommen) worp1 en worp2. Zorg ook voor het correcte aantal decimalen bij deze variabelen. Sla de gegevens op in een bestand dobbel.sav. > Als de dobbelstenen helemaal eerlijk zouden zijn, wat is dan het verwachte gemiddelde van worp1? En van worp2? Als de dobbelstenen helemaal eerlijk zouden zijn, dan volgen de variabelen worp1 en worp2 een zgn. uniforme kansverdeling, waarbij iedere uitkomst een even grote kans van voorkomen heeft. Een dobbelsteen heeft 6 vlakken, en ieder vlak heeft een kans van 1/6 om boven te liggen. > Wat is je verwachting van de gemiddelde waarde van een worp. Kun je de te verwachten standaarddeviatie ook exact uitrekenen? Doen! > Controleer of de werkelijke gemiddelden ongeveer overeenkomen met je verwachtingen. Hebben beide variabelen dezelfde minima, maxima, variantie? 20

21 > Iedere variabele heeft 6 mogelijke uitkomsten. Zijn deze mogelijke uitkomsten even vaak voorgekomen in jouw experiment, m.a.w. heb je wel eerlijke dobbelstenen gebruikt? Baseer je antwoorden op grafieken zoals besproken in Peck and Devore, Chapter 3. [Een meer formele toets om te onderzoeken of de dobbelsteen eerlijk is, d.w.z. een uniforme verdeling volgt, kun je uitvoeren met de zgn. Kolmogorov-Smirnov-toets. Deze is te vinden via Analyze > Nonparametric > 1-Sample KS > Uniform. Dat hoef je nu nog niet te doen!] 5.2 COMPUTE [dv 15] Je kunt in SPSS ook eenvoudige berekeningen uitvoeren met je variabelen (P&D 5.4, 7.4) Dat is vooral handig als je nieuwe variabelen wilt uitrekenen, op basis van je bestaande variabelen. > Maak een nieuwe variabele genaamd wsom die de som is van de twee worpen met de dobbelstenen. Daarvoor gebruiken we het commando COMPUTE. [Data Editor] Kies Transform > Compute... Er verschijnt dan een invulscherm waarin je linksboven de naam van de nieuw te berekenen variabele opgeeft (wsom), en rechtsboven de formule voor die nieuwe variabele. Die formule kun je rechtstreeks intypen (worp1+worp2) of interactief opbouwen met losse elementen van het invulscherm. Het opgebouwde commando kun je doorsturen naar de SPSS Engine(knop OK) of naar een Syntax venster (knop Paste). De nieuwe variabele komt rechts naast de reeds gedefinieerde variabelen in je data-verzameling. [Syntax venster] Met het commando: (5.1) COMPUTE wsom = worp1+worp2. > Maak nog een nieuwe variabele genaamd wversch die het verschil bevat van de twee worpen met de dobbelstenen. Zorg weer voor het correcte aantal decimalen bij deze nieuwe variabelen. Sla alle gegevens op in hetzelfde bestand dobbel.sav dat je zo juist hebt bewaard. > Als de dobbelstenen helemaal eerlijk zouden zijn, wat is het verwachte gemiddelde van wsom? En van wversch? Verwacht je voor beide nieuwe variabelen dezelfde minima, maxima, variantie? Motiveer je antwoorden! 21

22 > Controleer of de werkelijke gemiddelden, minima, maxima en varianties ongeveer overeenkomen met je verwachting. Bespreek eventuele opmerkelijke afwijkingen van je verwachtingen. 5.3 simuleren Het dobbelen in de vorige opdracht kunnen we ook door de computer laten doen. We spreken dan van simulatie (P&D 6.3). Simulaties zijn handig omdat we veel statistische vragen kunnen reduceren tot een vraag die we met simulatie kunnen beantwoorden. We hoeven dan geen dobbelstenen te gooien, gewassen te oogsten, doodsoorzaken te bepalen, of klinkerduren te meten lekker makkellijk dus. Bovendien kunnen we makkelijk what-if - spelletjes spelen, door parameters van de simulatie anders in te stellen. Dat is makkelijker dan dobbelstenen verzwaren, kunstmest strooien, behandelingsmethoden wijzigen, of spreekomstandigheden aanpassen. > Maak een nieuwe variabele genaamd simu1, die een computer-simulatie is van de eerste dobbelsteen. Daarvoor gebruiken we weer het commando COMPUTE. Doe dit via het Syntax venster; als je menu s gebruikt kies dan voor de knop Paste en niet voor OK. De formule die je opgeeft moet gebruik maken van de voorgedefinieerde functie RV.UNIFORM(min,max) die een random variabele met een continue uniforme verdeling tussen min en max oplevert. RV.UNIFORM behoort tot de functie groep: Random numbers. Welke waarden moet je invullen voor min,max? Denk eraan dat elk dobbelsteengetal een gelijke kans moet krijgen! Het resultaat van de functie RV.UNIFORM moet je nog wel afronden met behulp van de functie RND(). Zorg dat je als argument tussen de haakjes de complete functie voor het random number invult. Je wilt tenslotte datgene wat uit het algoritme RV.UNIFORM komt afronden, dus let op waar je haakjes staan en wat dit betekent voor het eindresultaat simu1. > Doe hetzelfde voor een tweede nieuwe variabele simu2 voor de tweede virtuele dobbelsteen. Bereken ook weer de som (ssom) en het verschil(sversch). Zorg weer voor het correcte aantal decimalen bij alle nieuwe variabelen. Sla de uitgebreide data-verzameling weer op in hetzelfde bestand dobbel.sav dat je eerder hebt bewaard. 22

23 > Inspecteer de overeenkomsten en verschillen tussen de echte en virtuele worpen met de eerste dobbelsteen, en idem met de tweede dobbelsteen. Doe hetzelfde met de echte en virtuele som- en verschil-variabelen. Zijn er opmerkelijke verschillen in frequentieverdeling, histogram, gemiddelde, interquartile range, minima, maxima, gemiddelde, variantie? > Welke variabelen liggen dichter bij de verwachtingen die je eerder hebt geformuleerd, die van de echte dobbelstenen of van de virtuele? Bespreek! 5.4 meer simuleren Je hebt vermoedelijk gemerkt dat het werpen van de echte dobbelstenen, en invoeren van de uitkomsten meer tijd heeft gekost dan het simuleren met virtuele dobbelstenen. Als je eenmaal de commando s voor de simulatie in het Syntax venster hebt staan, dan hoef je alleen maar die commando s door te geven aan de SPSS Engine. Je ziet dat om iets te simuleren, computers handiger zijn dan de echte wereld. > Noteer eerst het gemiddelde voor de variabele sversch dat je vond bij de vorige opdracht:.... Mooi. Nu gaan we de hele simulatie herhalen! We concentreren ons voorlopig op de variabele sversch. Nu blijkt het handig te zijn dat we de vorige opdracht via het Syntax venster hebben uitgevoerd. Selecteer de juiste commando s in het Syntax venster: als het goed is heb je drie COMPUTE commando s, plus een DESCRIPTIVES commando 7. Kies dan Run > Selection in dat venster. Denk eraan dat COMPUTE bestaande variabelen overschrijft zonder te vragen of je dat wel echt wilt. Maar in het Outputvenster wordt wel steeds het gemiddelde en standaarddeviatie van sversch neergezet en bewaard, waar je dan verder mee kunt werken. Uiteraard kun je ook steeds nieuwe variabelen maken in je Syntax venster, maar voor ons doel is dat eigenlijk niet nodig. > Noteer het gemiddelde voor de nieuw berekende variabele sversch:.... Mooi. Op dit punt hebben we een experiment waarin 2 dobbelstenen 50 worden geworpen, en het gemiddelde verschil bepaald tussen de twee uitkomsten, al tweemaal gesimuleerd. En met minder moeite dan het echte dobbelen. Dit zouden we een groot aantal keer kunnen herhalen, maar dat doen we niet. Verzamel gewoon alle waarden die gevonden zijn in de klas voor sversch. [Dit kost te veel tijd, ga door naar het volgende hoofdstuk] 7 Eventueel kun je tekst in het Syntax venster verplaatsen en bewerken; dat gaat ongeveer hetzelfde als in een standaard Windows editor. 23

24 > Kun je eerst bedenken wat het verwachte gemiddelde zal zijn over alle gemiddelden van sversch die zijn gesimuleerd>? (dwz het gemiddeld van het gemiddelde verschil!) Heb je verwachtingen over de variantie of standaarddeviatie hiervan, noteer die dan ook, en schrijf je motivaties voor deze verwachtingen uit bij je aantekeningen. > Voer de in de klas verzamelde gegevens weer in SPSS in. Geef de variabele een zinnige naam. Sla de gegevens op in SPSS formaat, in bestand simutotaal.sav in je cursus-directory. Inspecteer de variabele, met behulp van de grafische en numerieke technieken die we eerder behandeld hebben. Maak histogrammen met verschillende intervallen langs de horizontale as. Wat valt je op aan de frequentie-verdeling en/of histogram? Bekijk of de variabele normaal verdeeld is. Komt het gemiddelde ongeveer overeen met de verwachte waarde? Zijn de virtuele dobbelstenen nu eerlijk gebleken, of niet? Waarom is de zekerheid van deze uitspraak nu toegenomen ten opzichte van de opdracht in 5.3? Eigenlijk heb jullie nu samen één experiment gedaan waarin je n x 50 simulaties hebt gedaan. Je nieuwe dataverzameling is even accuraat als één experiment waarin je n x 50 maal met twee dobbelstenen hebt gegooit. Een normale verdeling is gebaseerd op een oneindig aantal worpen en je zal gezien hebben met hoe vaker je gooit hoe nauwkeuriger de resultaten op een normale verdeling lijken en de gemiddelden gaan lijken op die je wiskundig gezien verwacht. 24

25 Hoofdstuk 6 De normale verdeling 6.1 Normal plots met Explore, EXAMINE [dv 30.8] Veel statistische analyses hebben als voorwaarde/aanname dat de afhankelijke variabele normaal verdeeld is. Statistische tests kijken vaak naar de gemiddelden van verschillende experimentele groepen. Daarbij wordt in het bijzonder gekeken naar de onzekerheid in de gemiddelden ten opzichte van het verschil tussen de gemiddelden. Nu weet je al dat bij een scheve verdeling het gemiddelde niet de ideale maat is om een groep waarnemingen samen te vatten. Toch gaan statistische toetsen daar wel vaak vanuit. Daarom is het van belang dat je als onderzoeker in staat bent om kritisch naar de verdeling van de gebruikte variabelen te kijken, om eventueel een andere test of oplossing te zoeken. Open weer je bestand VB02.sav. Zorg dat de missende data (RT=0) als zodanig gemarkeerd worden. Met het commando EXAMINE kan ook nog een ander soort uitvoer geproduceerd worden. Je kunt de geobserveerde verdeling van een variabele afzetten tegen een normale verdeling (P&D 7.4: let op dat daar, anders dan in SPSS, de geobserveerde waarde verticaal staat). [Data Editor] Kies Analyze > Descriptive Statistics > Explore..., dan knop Plots.. Je komt in een invulscherm waar je de optie Normality plots with tests moet aanvinken. [Syntax venster] Met het commando: (6.1) EXAMINE / VARIABLES RT / PLOT= NPPLOT. Dit commando levert twee figuren op. In de eerste plot (Normal Q-Q Plot) staat iedere geobserveerde waarde (horizontaal) uit tegen de waarde die je zou verwachten als de reactietijden RT precies normaal verdeeld zou zijn (in Z-scores, vertikaal). Q-Q slaat op quantile-quantile plot, wat erop duidt dat gekeken wordt naar het cumulatieve percentage waarnemingen dat je op een punt gehad hebt en wat je volgens de normale verdeling gehad zou moeten hebben. In geval van normaliteit moeten bijvoorbeeld de mediaan en het gemiddelde samenvallen. Nu is de mediaan van de reactietijden 571 ms en het gemiddelde 698 ms (dus rechts scheef, of 25

26 positively skewed). Dat voorspelt niet veel goeds. Omdat we bij RT=571 al 50% van de gegevens hebben gehad, zouden we volgens een normale verdeling op het gemiddelde van 698 ms moeten zitten (denk daarover na!). Bij een echte normale verdeling zouden de punten in de Normal Q-Q Plot op de getekende rechte lijn liggen. Die lijn snijdt bij x gem =698 ms de lijn z = 0, omdat bij een echte normale verdeling het gemiddelde bij z=0 ligt. De helling van de lijn wordt bepaald door s=307 ms (ontleend aan de steekproef, n = 93). Voor ons bestand is de lijn echter gekromd. Ons bestand heeft al bij 571 ms de 50% bereikt die met z=0 correspondeert. > Welke percentages van de gegevens verwacht je te vinden bij plus of min een standaarddeviatie? En welke RT waarden verwacht je bij normaal verdeelde gegevens daar dan bij te vinden bij? Lees dat bij benadering af uit de Q-Q plot. We gaan kijken wat er echt gevonden wordt in de tabel met de cumulatieve verdeling: [Data editor] Analyze > Descriptive Statistics > Frequencies en dan Display frequency tables aanvinken (je krijgt veel meer dan alleen de cumulatieve frequentie verdeling). [Syntax venster] FREQUENCIES / VARIABLES=RT /ORDER=ANALYSIS. (6.2) > Kun je deze datapunten in de Normal Q-Q Plot aanwijzen? De variabele RT is dus vermoedelijk niet normaal verdeeld. Ben je het hier mee eens? Dit kan je bestuderen door andere bronnen van informatie te gebruiken. Het kan bijvoorbeeld ook blijken uit de boxplot en het histogram die je ook kunt opvragen met EXPLORE/EXAMINE. De afwijking van ieder punt t.o.v. de verwachte rechte lijn in de Normal Q-Q plot wordt weergegeven in de tweede plot, de Detrended Normal Probability Q-Q Plot. Als de reactietijden RT precies normaal verdeeld zou zijn, dan moeten de punten random verspreid liggen rond een horizontale lijn met Y = 0. In dit geval is de spreiding rond die nullijn echter helemaal niet random, maar vertoont een golfpatroon. De variabele RT lijkt dus niet normaal verdeeld. De statistische maten die SPSS bij de plots geeft, toetsen of de verdeling van RT afwijkt van de normaalverdeling (Kolmogorov-Smirnov-toets (KS-toets), met Lilliefors significantie-nivo). Dat is hier inderdaad het geval: de variabele RT is niet normaal verdeeld omdat uit de significantie niveaus [Sig.] blijkt dat de kans dat RT wel normaal is verdeeld kleiner is dan 26

27 0,001. In het algemeen als de kans kleiner is dan 0,05 dan mag je aannemen dat de verdeling niet normaal is. Maar we lopen hier eigenlijk vooruit. Een manier om een verdeling die rechts scheef is te normaliseren is het toepassen van een logaritmische transformatie. Als we voor de logaritme bijvoorbeeld het gebruikelijke grondtal 10 nemen, dan is 10 log(1000) = 3, 10 log(100) = 2, 10 log(10) = 1 en 10 log(1) = 0. Je ziet dat de verschillen in de uitkomst van de logaritme veel kleiner zijn (van 3 tot 0, waar de oorspronkelijke waarden van 1000 tot 1 varieerden). De hoge uitschieters die kenmerkend zijn voor een rechts scheve verdeling worden er door de logaritmische transformatie beter bij getrokken. Je kunt deze transformatie (met Arithmetic > Lg10) doen via Transform>Compute Variable. Binnen het venster dat opent zorg je ervoor dat je een goede nieuwe naam kiest voor de nieuwe variabele bijvoorbeeld: LogRT. > Wat zijn de descriptives van LogRT? Controleer LogRT ook op normaliteit. Kijk goed naar de plots van EXPLORE of de verdeling erop vooruit is gegaan. In plaats van de 10 log kun je ook de natuurlijke logaritme (LN) nemen, die heeft als grondtal e = 2,718. Een transformatie met de wortelfunctie (SQRT) heeft eenzelfde soort effect als een logaritmische transformatie. Verklaar dat. 6.2 De standaard-normale verdeling in SPSS Je kunt de kansen uit de kansverdeling van de standaard-normaalverdeling bepalen met behulp van de tabellen in het boek. Maar het kan ook in SPSS, met de functies CDF.NORMAL(z,mean,sd) (Cumulative Density Function) en IDF.NORMAL(p,mean,sd) (Inverse Density Function), die je aanroept via het commando COMPUTE. De uitvoer van deze functie moet je dan bewaren in een nieuwe variabele (kolom). Je kunt bijvoorbeeld in Vb02.sav op basis van RT een nieuwe variabele PRT maken waarin je de kans zet op een waarde kleiner of gelijk aan RT (als RT normaal verdeeld zou zijn!). [Data editor] Transform > Compute en kies dan de juiste functies en vul in. [Syntax venster] (6.3) COMPUTE PRT = CDF.NORMAL(RT,698,308). > Welke waarde van PRT krijg je bij RT = 474 ms? En welk percentage vond je eerder in de cumulatieve frequentie verdeling van RT bij 474? Klopt dat met de grafiek van de Normal Q-Q plot? 27

28 De inverse functie werkt precies andersom, probeer nu maar eens IDF.NORMAL(PRT,698,308) uit. [optioneel] Zou je kunnen bedenken wat er uit de opdrachten in dit hoofdstuk zou komen wanneer we waren uitgegaan van een verdeling die links scheef was? 28

29 Hoofdstuk 7 Correlatie en regressie In dit hoofdstuk behandelen we commando s om het verband te onderzoeken tussen twee variabelen, beide van interval- of ratio-meetnivo. De analyses in dit hoofdstuk veronderstellen dat beide variabelen normaal verdeeld zijn, eventueel na transformatie. We kunnen dan proberen de ene (afhankelijke) variabele te voorspellen, op basis van de andere (predictor) variabele 8. Naarmate de voorspelling beter is, kunnen we meer variantie van de afhankelijke variabele verklaren, of voorspellen, op grond van onze kennis van de predictor. De eerste stap in een correlatie-analyse is om de twee variabelen tegen elkaar uit te zetten in een grafiek, een zgn. scatterplot (zie 4.7, p.19). We willen dan graag een lineair verband zien, maar als dat niet zo is (bv een kwadratisch of logaritmisch verband) dan laat zo n grafiek meestal duidelijk zien of er een data-transformatie nodig is. De tweede stap is om de optimale regressie-vergelijking vast te stellen tussen de (al dan niet getransformeerde) afhankelijke variabele en de predictor. De derde stap is om vast te stellen hoe sterk het lineaire verband is, in termen van verklaarde variantie en/of correlatie. 7.1 opdracht 17: scatterplot [dv 35.1] > Kopieer de bestanden television.sps en television.dat vanaf de cursuswebsite naar je cursus-directory. Open de eerstgenoemde file in een Syntax venster, en pas de naam aan van het databestand (de naam moet verwijzen naar de locatie waar je dat databestand zojuist hebt opgeslagen). Voer dan de commando s uit in het Syntax venster (run all). Gebruik deze syntax file, want deze zorgt er voor dat alle variabelen die je gaat gebruiken de goede naam krijgen. Deze commando s definiëren een active file, waarin van 40 landen (cases) een aantal variabelen zijn geobserveerd: LifeExp (levensverwachting, in jaren, bij geboorte), PPTele (aantal personen per televisietoestel) en PPPhys (aantal personen per arts). 8 In dit practicum houden we het simpel, en gebruiken we slechts één predictor. De commando s in SPSS zijn echter ook bruikbaar voor complexere analyses met meerdere predictoren. 29

Nog meer weergeven