Handleiding Practicum Statistiek (200300427) Gerrit Bloothooft Gebaseerd op een document van Hugo Quené opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht Cursus 2011-2012 1
Hoofdstuk 1 Inleiding Deze handleiding dient als ondersteuning bij het practicum van de cursus Statistiek (200300427). Je vindt hier concrete uitleg bij SPSS, een computerprogramma 1 voor statistische analyse. Deze handleiding is bedoeld als ondersteuning bij het gebruik van SPSS for Windows. Het vormt een aanvulling op (dus geen vervanging voor) het Basishandboek SPSS 20 dat we ook zullen gebruiken (De Vocht, 2012). Deze handleiding geeft nadere uitleg bij de practicumopdrachten van onze cursus. We zullen ons hier baseren op de op het CIM geïnstalleerde versie van SPSS for Windows, versie 20. De instructies gelden wel ongeveer, maar niet exact voor andere versies van SPSS for Windows. SPSS is ook beschikbaar voor andere platforms (Unix, Mac, enz.). We zullen ook aannemen dat je SPSS gebruikt op de computers in de computerleerzalen van het CIM (Kromme Nieuwegracht 80), of dat je de opdrachten thuis uitvoert met je eigen installatie van SPSS. SPSS kan goedkoop worden aangeschaft via www.surfspot.nl (kies dan versie 20, voor Windows of voor Mac). Je krijgt dan een DVD met software thuisgestuurd. Kijk voor latere verlenging van de licentiecode (na een jaar) op http://www.uu.nl/ict-servicecentrum. 1 Naast SPSS zijn er diverse andere soortgelijke programma s: het meest bekend zijn S-Plus (waarvoor de UU een campuslicentie heeft), SAS, en MiniTab. Daarnaast is R een interessant open-source alternatief (www.r-project.org). Al deze programma s mag je ook gebruiken, maar alleen voor SPSS is ondersteuning mogelijk in deze cursus. SPSS wordt het meest gebruikt in sociaal-wetenschappelijk onderzoek, hoewel het eerlijkheidshalve niet het beste programma is. Een belangrijk nadeel van SPSS is dat de precieze werking van de statistische analyses een goed bewaard bedrijfsgeheim is, waardoor je niet zeker weet of de uitvoer correct en betrouwbaar is. 2
1.1 notatie In het begeleidende Basishandboek (De Vocht, 2012) worden geneste menu-opties aangegeven met een puntkomma, als A; SubA; SubSubA. In deze handleiding volgen we de conventie om dit aan te geven als A > SubA > SubSubA. Verwijzingen naar hoofdstukken en paragrafen uit dat boek staan tussen vierkante haken als [dv 3.2]. Verwijzingen naar corresponderende passage in het boek van Peck and Devore (7 E 2011) worden vermeld als P&D 4.2. Opdrachten zullen meestal wel duidelijk zijn, maar om er speciaal de nadruk op te vestigen staat er ook vaak > voor de paragraaf. De termen map, folder, directory zijn synoniem. Bij sommige commando s staat een verwijzingsnummer, tussen haakjes, in gewoon lettertype, tegen de rechter kantlijn. Deze nummers en haakjes maken géén deel uit van het commando, en je hoeft ze dus niet over te nemen. SPSS gebruikt een aantal vensters om gegevens te tonen, opdrachten te geven en uitvoer weer te geven. Opdrachten worden meestal uitgevoerd via het menu. Maar het kan ook via het zogenaamde syntax venster. In deze handleiding behandelen we dit syntax venster optioneel. Dat staat erbij, en de tekst heeft een lichtgrijze achtergrond. 1.2 SPSS opstarten In de computerleerzalen draait SPSS alleen onder MS Windows XP. Je kunt SPSS aanroepen via het Start-menu: Start > Programs > Standard Applications > Applications L-Z > SPSS 20 (map) 3
Hoofdstuk 2 2.1 Vensters van SPSS [dv 1.9] Na het opstarten opent SPSS met een venster van de Data Editor. De anatomie van dit venster wordt uitgelegd in het Basishandboek sectie 1.3 t/m 1.5. > Lees deze paragrafen goed door en onderzoek de werking van de verschillende opties en knoppen. > Ga nu eerst naar het hoofdmenu van het Data Editor venster, en kies daar Help > Tutorial. Bestudeer dit tutorial wat betreft de opzet (je hoeft niet meteen alles te lezen en te begrijpen!). Het is van belang dat je weet wat het tutorial je te bieden heeft als je ergens niet uitkomt. Weest niet bang om dingen te proberen! Maak zo nodig ook aantekeningen. Een historische achtergrond over programmabesturing (achtergrondinformatie, optioneel) De werking van de vensters in SPSS is niet geheel vanzelfsprekend. In feite is SPSS een ouderwets programma uit de jaren 70, toen er nog geen Windows bestond, en zelfs geen Microsoft. De gebruiker typte een SPSS commando in (op een zwart/wit terminal) zoals het volgende (de betekenis ervan hoef je nu niet te begrijpen!): (2.1) CROSSTABS VARIABLES= GESLACHT(1,2) STUDIE(0,3) / CELLS= COUNT COL / STATISTICS= CHISQ / TABLES= GESLACHT BY STUDIE. Na enige tijd verscheen de uitvoer op het beeldscherm van de terminal 2. De verwerking gebeurde door de SPSS Engine, een programma dat commando s accepteerde en tekstuele 2 In de elektronische oudheid, zo n 40 jaar geleden, waren er zelfs geen terminals. Invoer ging via ponskaarten en uitvoer via printers. De gebruiker typte de commando s in op ponskaarten, gaf de stapel ponskaarten dan af aan de balie van het computercentrum, en ging koffie drinken. Enige tijd later werd de geprinte, papieren uitvoer in een postvakje gelegd. Er bleek dan natuurlijk ergens een typefout te zitten waardoor het hele proces opnieuw moest beginnen... 4
uitvoer produceerde. Hoewel het niet meer zo eruit ziet, is de situatie feitelijk nog steeds zo. Er is nog steeds een SPSS Engine op de achtergrond. De vensters hebben vooral tot doel om de invoer van data en van commando s te vergemakkelijken, en de resultaten beter te kunnen bekijken, bewerken en afdrukken. In de primitiefste vorm van SPSS heb je slechts twee soorten vensters nodig: het Syntax venster voor invoer-commando s, en een Output (ook genaamd Viewer) venster voor resultaten. Opdrachten en gegevens voer je in via het Syntax venster, en de resultaten ervan zie je in het Output venster. Kinderlijk eenvoudig, al moet je wel precies weten welke opdrachten je wilt opgeven. De eigenlijke gegevens (data) kun je ook beter op een andere wijze invoeren of importeren. Maar het kan ook via het Syntax venster. Meestal gebruik je nu de menukeuzes en invulschermen om een SPSS commando op te bouwen. Voor het bovenstaande commando (2.1) kies je dan Analyze > Descriptive Statistics > Crosstabs... gevolgd door de nodige subopdrachten 3. In plaats van 124 tekens te typen in het Syntax venster, heb je dan zo n 15 keer geklikt, 3 invulschermen afgewerkt, en een aardige afstand afgelegd met de muis. De ergonomische winst van Windows is hier niet zo groot; een belangrijk voordeel van deze tweede werkwijze is wel dat je de onderliggende commando s niet hoeft te kennen. Het syntax venster De werkwijze via Syntax vensters heeft als belangrijk voordeel, dat je het Syntax venster ook kunt bewaren. Dat is om twee redenen handig. Ten eerste voor je verslaglegging; je kunt precies nakijken welke analyses je hebt gedaan, met welke opties. Ten tweede voor herhaling van je analyses. Bewaarde Syntax vensters kun je weer openen, en de commando s opnieuw doen uitvoeren. Dat werkt vaak veel makkelijker dan hetzelfde commando weer op te bouwen via menukeuzes en invulschermen. 3 Deze submenu-optie brengt je bij een invulscherm (keuzes met puntje-puntje-puntje leiden je altijd naar een invulscherm). Je kiest dan STUDIE als Row en GESLACHT als Column, met de pijltjes rechts van de variabelen-lijst. Je kiest de knop Statistics... en op het invulscherm moet je dan Chi-square aanvinken, en dan Continue kiezen. Je kiest dan ook de knop Cells... en op het invulscherm moet je dan Counts aanvinken, en dan Continue kiezen. Tenslotte kies je de knop OK om het opgebouwde commando daadwerkelijk aan te bieden aan de SPSS Engine. 5
We zullen zien dat er een ideale combinatie van beide werkwijzen is: commando s interactief opbouwen met de muis, en dan het resulterende, onderliggende commando wegschrijven naar een Syntax venster (in SSPS-jargon wordt deze handeling aangeduid met het werkwoord paste ). Je ziet een knop Paste hiervoor in het primaire invulscherm van een commando, meestal vlak bij de knop OK die het commando doorgeeft aan de SPSS engine. In deze cursus is het gebruik van het syntax venster niet verplicht, maar het wordt wel aangeraden er mee te oefenen. Alle delen waar [Syntax] voorstaat zijn optioneel in deze handleiding. SPSS begint doorgaans met slechts één venster, een Data Editor venster. Dit venster toont de gegevens waarop de statistische analyse plaatsvindt. Later zullen we er verder naar kijken. Je krijgt ook te maken met een derde type, het Output venster. Dat is aanvankelijk nog niet zichtbaar, omdat het pas wordt aangemaakt als er uitvoer is na het eerste echte commando. Om het ingewikkeld te maken zijn er tweesoorten uitvoervensters. Standaard worden de uitkomsten en uitvoer weergegeven in het SPSS Viewer of Output venster (dv, p.14). Dat is een venster waarin je makkelijk kan navigeren, via de inhoudsopgave aan de linkerkant, en geschikt voor grafieken en figuren. Tip: Je kunt de commando s van je invoer laten weergeven in je Output. Dat is meestal default (dwz het gebeurt al zonder dat je er iets voor hoeft te doen). Mocht dat niet zo zijn, dan is de instelling daarvoor te vinden onder Edit > Options > Viewer. Zorg dat de optie Display commands in the log aangevinkt is. 6
Hoofdstuk 3 3.1 Data invoeren en definiëren Het Data Editor venster is het hart van SPSS. Het bevat de gegevens die beschreven en geanalyseerd zijn of worden. Als je dat venster sluit, dan wordt ook het programma SPSS helemaal afgesloten. SPSS (Statistical Package for the Social Sciences) is ontwikkeld voor de sociale wetenschappen, en de data-organisatie draagt daar nog sporen van. De basisobservatie is een case of observatieeenheid (een regel voor iedere eenheid); meestal wordt daarbij aan een persoon gedacht. Voor iedere case zijn één of meer variabelen geobserveerd (een Kolom voor iedere variabele). Laten we eerst eens kijken naar een simpel voorbeeld: gegevens uit een lijst van studenten uit de Faculteit Geesteswetenschappen, die zich opgegeven hebben als proefpersoon voor een experiment. De gegevens staan in gecodeerde vorm in een bestand genaamd vb01.dat op de webstek van deze cursus staat. > Haal dat bestand op met een webbrowser, en kopieer het naar je cursusdirectory op je U:schijf. Maak zo n directory (/statistiek) als je dat nog niet had gedaan! Hier zie je het begin van dat bestand: 2 02 1 1 02 2 2 03 1 2 00 1... Het is buitengewoon verstandig om vast te leggen hoe je de gegevens in dit bestand hebt gedefinieerd. Data-analisten noemen dat het codebook. Dat is een document waarin je vastlegt welke variabele in welke kolom staat en wat de gebruikte codes betekenen. Een kolom kan maar een enkel cijfer of letter bevatten, daarom zijn er voor sommige variabelen meerdere kolommen nodig. In dit geval ziet het codebook er ongeveer uit als volgt: 7
codebook van: U:/statistiek/vb01.dat Var (kol) Naam, meetniveau codes, meeteenheden 1 (1) Geslacht, nominaal 0=onbekend, 1=man, 2=vrouw 2 (3-4) Studie, nominaal EERSTE studie; 1=TCS, 2=Ned, 3=Eng, 0=Overig, 99=nietLett; 3 (6) Voorkeurshand nominaal 1=rechts, 2=links; (zoals zelf opgegeven) Merk op dat kolommen 2 en 5 geen gegevens bevatten, en dat je voor de derde variabele twee kolommen nodig hebt in verband met de mogelijke waarde 99. Je kunt de gegevens uit dit bestand op twee manieren invoeren in SPSS. NB: Géén van beide methoden wordt uitgelegd in het Basishandboek! Daar gaat de auteur er vrolijk van uit dat de gegevens al ingevoerd zijn, maar dat gebeurt in werkelijkheid helaas niet. Je zal het zelf moeten doen. Je moet dus gegevens gaan importeren in SPSS. In deze handleiding word aangenomen dat er al een bestand is, op je harde schijf, dat de eigenlijke gegevens bevat. Ook heb je een codebook waarin de codering van de gegevens beschreven ligt. 3.2 Gegevens definiëeren via menu > Kies in het hoofdmenu van het Data Editor venster File > Read Text Data. [Je kunt hetzelfde bereiken via File > Open > Data]. Geef het juiste pad en de juiste bestandsnaam op, en klik op Open. Dan verschijnt de zgn Text Import Wizard die je helpt met het opbouwen van het juiste commando om je data te definiëren. Je ziet een preview van het opgegeven bestand in beeld, en nu moet je wat vragen beantwoorden. Je kunt met de knoppen Back en Next navigeren tussen de verschillende pagina s met vragen. In dit geval zijn de juiste antwoorden voor pagina s 1 t/m 3 als volgt: NO predefined format FIXED width NO variable names at top of file first case starts on line 1 1 line per case read ALL cases 8
Op pagina 5 van de Text Import Wizard zie je niet meer een preview van je databestand, maar een preview van het gegevensbestand in SPSS. Er zijn nu drie variabelen; SPSS heeft ze voorlopig V1, V2, en V3 genoemd. Dat kun je wijzigen door een kolom in de preview aan te klikken, en vervolgens de naam voor deze variabele in te typen in het bovenste invoerveld. Je moet hier ook opgeven of de variabele een getal, letterreeks of datum is. Meestal hebben we te maken met getallen. NB: Ook nominale en ordinale variabelen worden hier met numerieke codes aangeduid, dus met getallen! Herhaal dit voor alle drie de variabelen, voordat je doorgaat met Next. Je kunt het opgegeven import-formaat bewaren voor later, als je verwacht nog eens gegevens met precies dezelfde layout te zullen importeren. [Syntax] Je kunt ook het interactief opgebouwde commando om je data te definiëren paste n naar het Syntax venster. > Zet deze optie aan! Dan merk je meteen hoe het Syntax venster werkt Als je op OK of Finish klikt, dan wordt het import-commando doorgegeven naar de SPSS Engine, en de data worden ingevoerd in SPSS. [Syntax] Dat gebeurt echter NIET als je hebt opgegeven dat het commando in het Syntax venster terecht moet komen (en dat heb je dus gedaan). In dat geval moet je het complete commando in het Syntax venster activeren. Dat doe je in het Syntax venster via run > all. Merk op dat het ook mogelijk is een deel van de commando s in het syntax venster te selecteren met je muis en alleen die via run > selection te activeren. Zo kun je specifieke opdrachten laten uitvoeren. Sla tenslotte de SPSS datafile op als vb01.sav (via Save as). [Syntax] Als je wat meer zou weten van de manier waarop commando s aan SPSS gegeven worden dan zou je ook direct de opdrachten in het syntax venster kunnen schrijven en laten uitvoeren. > Dat gaan we ook proberen Voor ons voorbeeld is het commando als onderstaand (3.1). Neem dat over in het syntax venster dat al open is (onder de commando s die er al staan), uiteraard met je eigen bestandspad: (3.1) 9
DATA LIST FILE="U:/Statistiek/vb01.dat" FIXED / Geslacht 1 Studie 3-4 Hand 6. EXECUTE. Ieder commando moet worden afgesloten met een punt. Merk op dat de precieze locatie van het bestand, compleet met drive en alle mappen, moet worden opgegeven. Je ziet dat dit nogal lijkt op het codebook! Met dit commando wordt aangegeven dat er drie variabelen zijn voor iedere eenheid (respondent, persoon). De optie FIXED geeft aan dat de waarden voor iedere variabele steeds in dezelfde kolom van het bestand staan, voor iedere eenheid (regel). Geslacht is gecodeerd in één kolom (kolom 1), Studierichting in twee kolommen (nl. kolom 3 t/m 4), Voorkeurshand weer in één kolom (kolom 6). De drie variabelen bevatten getallen, die codes vormen voor de mogelijke waarden (bv. Geslacht: 1=Man,2=Vrouw). Merk op dat de opdracht nu een stuk korter is dan de eerste, automatische versie, maar er gebeurt hetzelfde. Merk op dat het wel nodig is om EXECUTE erbij te zetten, pas dan zal SPPS ook echt in actie komen. Selecteer deze commandoregels en doe Run > Selection. Je zult zien dat er een nieuw venster van de Data Editor wordt geopend, met daarin de gegevens. De variabelen hebben nu al meteen de namen Geslacht, Studie en Hand. Het bestand wat je nu gemaakt hebt, is bijna identiek aan het eerste bestand. Je hoeft dit bestand daarom niet te bewaren. Bestudeer sectie 1.3-1.5 uit het Basishandboek om nader kennis te maken met het Data Editor venster van SPSS. Terzijde: Opletten op het decimaal symbool! NB: Let goed op dat in het databestand hetzelfde decimale symbool (punt of komma) wordt gebruikt dat ook in Windows gedefinieerd is als decimaal symbool! In de computerleerzalen van het CIM is Windows ingesteld op een Nederlandse werkomgeving, met de komma als decimaal symbool. Dat gaat dus verkeerd als je een Amerikaans databestand gebruikt (van de book companion site van Peck and Devore (2008/2011)) met de punt als decimaal symbool. Er zijn twee oplossingen: (1) In het Amerikaanse databestand de punten in komma s veranderen (bijvoorbeeld in Word met Edit > Replace). (2) Je kunt de Windows-instellingen wijzigen via Windows Start > Settings > Control 10
Panel > Regional and Language Options. Kies dan voor Nederlands, en wijzig het decimaal symbool (Customize > Numbers > Decimal Symbol). Je kunt ook voor English (US) kiezen; dan wordt automatisch de punt gebruik als decimaal symbool. Het onder Windows ingestelde decimale symbool wordt ook gebruikt in de uitvoer van SPSS. Let op dat je het decimaal symbool in Windows moet wijzigen voordat je SPSS opstart. Als je dit doet, dan hoef je niet in de databestanden zelf aan de gang, maar realiseer je dat nu je computerinstellingen zijn veranderd, wat ook doorwerkt in andere programma s die je gebruikt. 3.3 labels voor variabelen: Variable View Ga eerst weer naar de data editor met vb01.sav. Daarin staan de variabelen onder Variable View (tab onderaan de pagina) beschreven. Ze heten hier nog V1, V2 en V3 (tenzij je ze bij het inlezen al een naam hebt gegeven). > Dat kun je nu bijvoorbeeld veranderen in Geslacht, Studie, Hand. Namen van variabelen mogen in SPSS geen spaties bevatten 4. Wel kun je de underscore (_) gebruiken zoals bijvoorbeeld in var_1. Je kunt een langere woordreeks (met spaties) toekennen als variabele label. > Doe dat via de Variable View en maak voor Studie het label eerste studierichting en voor Hand voorkeurshand. [Syntax] Dat laatste had je ook weer doen via het Syntax venster: VARIABLE LABELS Studie eerste studierichting Hand voorkeurshand. (3.2) Merk op dat je labels voor meerdere variabelen kunt opgeven in één commando. Ieder commando moet worden afgesloten met een punt. Voer het commando uit, en bekijk het resultaat in de Variable View. 4 In eerdere versies van SPSS kon een variabele niet langer zijn dan 8 tekens (een byte). Alles erna werd genegeerd. Dat is nu niet meer het geval. 11
3.4 Gegevens bewaren Voor gebruikers van MS Windows is het een fluitje van een cent om de inhoud van het Data Editor venster te bewaren in een bestand (met extensie.sav). Dat gaat uiteraard via het File menu van dit venster: File > Save As... Doe dat ook voor de syntax file (met de extensie.sps). Als je de gegevens verder wilt verwerken op een niet-windows-computer, bewaar ze dan liever in SPSS Portable formaat, met extensie *.por. 3.5 Proefpersoongegevens inlezen In het voorbeeld hierboven zag je dat personen de analyse-eenheden vormden (een regel per persoon); dat is het standaard gedrag van SPSS. Maar in veel gedragsonderzoek zijn niet de personen, maar de metingen binnen personen de eigenlijke eenheid van analyse. We zullen daar later op terugkomen. Het is in zo n geval handiger om iedere analyse-eenheid, dus iedere responsie of meting van een persoon, voor te stellen als een afzonderlijke case of regel. Je moet dan (het nummer van) de proefpersoon als variabele bij deze case opnemen. Deze omkering van case en variabele is aanvankelijk misschien onlogisch en tegen-intuïtief, maar biedt in de praktijk grote voordelen bij het werken in SPSS. Deze opdracht geeft daarvan een voorbeeld. Resultaten van een fonetisch onderzoekje staan in gecodeerde vorm in een bestand genaamd vb02.dat, dat je kunt vinden op de webstek van deze cursus. Het onderzoekje ging over de herkenning van gesproken 3-lettergrepige woorden als kolibrie, bacterie, en naar het effect van de klemtoonpositie op de snelheid van herkenning. Haal het bestand vb02.dat op met een webbrowser, en plaats het in je cursus-directory. Het codebook van deze onderzoeksgegevens ziet er uit als volgt: codebook van: U:/Statistiek/vb02.dat var (kol) Naam (nivo) codes, meeteenheden 1 (1-2) PrPers (nom) nummer van proefpersoon 2 (4) Klemtoon (nom) klemtoonpositie: 1=1e, 2=2e lettergreep 3 (6) UniPt (nom) uniekheidspunt: 1=1e, 2=2e, 3=3e lettergreep 4 (8-11) RT (ratio) reactietijd, in ms 5 (13-14) dummy (nom) deze variabele gaan we negeren! > Importeer de gegevens uit dit bestand in SPSS. Voeg zinnige labels toe. 12
3.6 Ontbrekende observaties [dv 7.8] Helaas is een gegevensverzameling zelden compleet. Proefpersonen antwoorden of reageren niet, apparatuur laat het afweten, enz., enz. Je moet daar in je codebook goed rekening mee houden. Reserveer aparte codes voor zulk soort antwoorden, bv. 0 = geen responsie. > Nu moet je SPSS vertellen dat de waarde 0 (nul) geen echt getal is, maar de aanduiding voor een missing value. [Data Editor] Kies het tabblad Variable View, kolom Missing. Geef daar één of meer discrete waarden op, of een bereik van waarden, die niet mogen meedoen bij de eigenlijke statistische analyse. [Syntax] MISSING VALUES RT (-1,0). (3.3) Met deze opdracht wordt aangegeven dat bij de variabele RT twee responsies uitgesloten worden van verdere verwerking, nl. de waarden -1 en 0. 3. 7 commentaar (optioneel) [Syntax] In een Syntax venster kun je ook commentaar opnemen. Dat is handig om de definities en analyses toe te lichten. Commentaar is in SPSS ook een commando, en wel het sterretje *. Dit geeft aan dat het vervolg geen SPSS-commando is, maar commentaar. (3.4) * Ook commentaar moet je afsluiten met een punt. > schrijf commentaar bij de opdrachten in je syntax file, bv opdrachtnr, datum, korte toelichting. 3.8 gegevens bewaren Bewaar de inhoud van het Data Editor venster, d.w.z. de gegevens uit vb02.dat met bijbehorende definities, onder de bestandsnaam vb02.sav in je cursus-directory. Bewaar ook de syntaxfile. 13
3.7 gegevens ophalen Gegevens en definities uit een SPSS gegevensbestand ophalen is tamelijk eenvoudig: kies File > Open (>Data of > Syntax of > Output) in het hoofdmenu van SPSS, selecteer het gewenste bestand, en je bent er. 14