Hoofdstuk 8. Toetsende statistiek. 8.1 Associatie van categoriale data: CROSSTABS [dv 32.2]



Vergelijkbare documenten
Analyse van kruistabellen

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Hoofdstuk 4. Beschrijvende statistiek. 4.1 Beschrijvende statistiek voor één variabele

APPENDIX B: Statistische analyses

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

Bestaat er een betekenisvol verband tussen het geslacht en het voorkomen van dyslexie? Gebruik de Chi-kwadraattoets voor kruistabellen.

De data worden ingevoerd in twee variabelen, omdat we te maken hebben met herhaalde metingen:

Basishandleiding SPSS

Verband tussen twee variabelen

Beschrijvende statistiek

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Oplossingen hoofdstuk 9

Het gebruik van SPSS voor statistische analyses. Een beknopte handleiding.

M M M M M M M M M M M M M M La La La La La La La Mid Mid Mid Mid Mid Mid Mid

Vergelijken van twee groepen (SPSS)

Deze menu-aansturingen zijn van toepassing op versies 14.0 en 15.0 van SPSS.

De primaire link op gemeentelijke websites, Bijlagen. over efficiëntie, effectiviteit en gebruiksvriendelijkheid

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

SPSS VOOR DUMMIES+ Werken met de NSE: enkele handige basisbeginselen. Gebaseerd op SPSS21.0 & Benchmarkbestand NSE 2014

Open het databestand in SPSS en kies Analyze > Correlate > Bivariate. Vul vervolgens het dialoogvenster in als volgt:

a. Wanneer kan men in plaats van de Pearson correlatie coefficient beter de Spearman rangcorrelatie coefficient berekenen?

Voer de gegevens in in een tabel. Definieer de drie kolommen van de tabel en kies als kolomnamen groep, vooraf en achteraf.

gemiddelde politieke interesse van hoger opgeleide mensen)

Handleiding SPSS tabellen en kruistabellen. In een paar stappen van spss data naar bruikbare informatie.

Beschrijvende statistieken

Fasen in het onderzoeksproces

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

toetskeuze schema verschillen in gemiddelden

Menu aansturing van SPSS voorbeeld in paragraaf 6.5 van hoofdstuk 6 over multipele regressie analyses van recidive bij jongens

Statistiek ( ) eindtentamen

Oplossingen hoofdstuk Het milieubesef

duidelijk. Welke groepen verschillen wel/niet van elkaar?wat zijn je hypothesen?

Deze menu-aansturingen zijn van toepassing op versies 14.0 en 15.0 van SPSS.

Onderzoek. B-cluster BBB-OND2B.2

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie?

Meerderheid Zeeland voor snelle bouw brede school i.p.v. bouw MFC Grote bereidheid om de enquête van Progressief Landerd in te vullen.

Oplossingen hoofdstuk 4

[aanvullend hoofdstuk, behorend bij Grotenhuis, M. te & Matthijssen, A. (2006). Basiscursus SPSS, versie 10-14, Assen: Van Gorcum]

Tabel 2: Stemgedrag van respondenten bij de TK verkiezingen in 2010 VVD xx % PvdA PVV CDA SP D66 CU PvdD SGP GL Te jong om te stemmen Niet gestemd

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

Opdracht 5a Kruistabellen

Betrouwbaarheid, validiteit en overeenstemming

TECHNISCHE UNIVERSITEIT EINDHOVEN

Statistiek Hoorcollege 5. Χ 2 toets 10/7/2009. De Collegereeks Statistiek. Deze week. Vandaag. Keuze voor een toets

Nominaal Ordinaal Interval (ratio) Nominaal - Kwalitatief - Laagste niveau - Categorieën niet ordenen - Geslacht

Beknopte handleiding SPSS versie van 28

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Workshop Qualtrics & SPSS

1. CTRL- en SHIFT-knop gebruiken om meerdere variabelen te selecteren

Handleiding. Practicum Statistiek ( ) Gerrit Bloothooft. Gebaseerd op een document van Hugo Quené

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

Statistiek 2 deel A 30 minuten over statistisch toetsen

Technische uitwerkingen voor het SPSS practicum Toetsende Statistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op donderdag ,

SPSS. Statistiek : SPSS

feb 2013 Instituut CMI SPSS les 2

Voer de gegevens in in een tabel. Definieer de drie kolommen van de tabel en kies als kolomnamen gewest, tetra en freq.

Hoofdstuk 5. Dobbelen, echt en virtueel. > Maak in SPSS een nieuwe data-verzameling (File > New > Data). We gaan hier de

Meervoudige variantieanalyse

Handleiding SPSS. 1) Maak je bestand

College 7 Tweeweg Variantie-Analyse

College 3 Meervoudige Lineaire Regressie

Verdelingsvrije statistiek

χ 2 -toets voor homogeniteit χ 2 -toets voor goodness-of-fit ten slotte

Vademecum rapporteren

Hoofdstuk 5 Een populatie: parametrische toetsen

Correlatie = statistische samenhang Meest gebruikt = Spearman s rang correlatie Ordinaal geschaalde variabelen -1 <= r s <= +1 waarbij:

Pilot vragenlijst communicatieve redzaamheid

Kruis per vraag slechts één vakje aan op het antwoordformulier.

Antwoordvel Versie A

Vandaag. Onderzoeksmethoden: Statistiek 4. Recap: Hypothese toetsen. Recap: One-sample t-toets

College 6 Eenweg Variantie-Analyse

Hierbij is het steekproefgemiddelde x_gemiddeld= en de steekproefstandaardafwijking

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Menu aansturing van SPSS voorbeeld in hoofdstuk 7 over Kaplan-Meier en Cox regressie survival analyses van recidive bij meisjes

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag ,

1. Introductie tot SPSS

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek II voor TeMa (2S195) op maandag ,

Hoofdstuk 10: Regressie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Verklarende Statistiek: Toetsen. Zat ik nou in dat kritische gebied of niet?

Interim Toegepaste Biostatistiek deel 1 14 december 2009 Versie A ANTWOORDEN

Handleiding Practicum Statistiek ( )

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

Voorbeeld regressie-analyse

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding.

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Dit jaar gaan we MULTIVARIAAT TOETSEN. Bijvoorbeeld: We willen zien of de scores op taal en rekenen van kinderen afwijken in de populatie.

Transcriptie:

Hoofdstuk 8 Toetsende statistiek Meestal zijn we niet alleen geïnteresseerd in beschrijvende statistiek (over de steekproef), maar ook in toetsende statistiek. Het doel hiervan is om hypothesen te toetsen, en daarmee inzicht te verkrijgen in relaties tussen variabelen in de onderzochte populatie. Essentieel bij deze analyses is dat er gegeneraliseerd wordt naar de populatie waaruit de steekproef afkomstig is. Ook in het vorige hoofdstuk kwam zulke generalisatie overigens al aan bod. Pearson s correlatie-coëfficiënt r is een schatting (gebaseerd op de steekproef) van de populatieparameter ρ, en de regressie-coëfficiënt b is een schatting (gebaseerd op de steekproef) van de populatie-parameter ß. 8.1 Associatie van categoriale data: CROSSTABS [dv 32.2] Als twee variabelen beide van nominaal of ordinaal meetnivo zijn, kunnen we het verband tussen deze variabelen onderzoeken met het commando CROSSTABS. Dit levert een zgn. kruistabel op, waarop ook statistische associatiematen berekend kunnen worden. Het onderstaande voorbeeld maakt gebruik van de eerder besproken enquête-gegevens over proefpersonen (uit bestand vb01.dat). [Data Editor] Kies Analyze > Descriptive Statistics > Crosstabs... Kies de knop Statistics... en vink de optie Chi-square aan, en ga door met Continue... [Syntax] Met de commando s: CROSSTABS / CELLS= COUNT COL / STATISTICS = CHISQ / TABLES= GESLACHT BY STUDIE. (8.1) De uitvoer van dit commando is weergegeven in Figuur 8.1. Het commando in 8.1 geeft aan, dat we alleen kijken naar bepaalde waarden van de variabelen Geslacht en Studie. De 33

kruistabel is bepaald door de waarden van Geslacht voor rijen, en die van Studie als kolommen. In de cellen van de tabel staat niet alleen het ruwe aantal observaties ( count ) in de combinatie van Geslacht en Studie, maar ook de kolom-percentages ( col ). Bovendien wordt de statistische maat Χ 2 berekend over het verband. In dit voorbeeld wordt daarmee in feite onderzocht, of de verdeling tussen mannelijke en vrouwelijke proefpersonen gelijk is voor de 5 categorieën van Studie. De Χ 2 wordt op drie manieren berekend. Bij toetsing van Χ 2 luidt de H 0 dat er géén verband is: Χ 2 = 0. De p-waarden bij de berekende waarden laat zien dat H 0 niet verworpen kan worden bij α =.05. Je mag dan aannemen, dat er relatief gezien evenveel mannen en vrouwen uit elke studierichting komen. > Onderzoek welke instellingen zijn gebruikt om tot het onderstaand resultaat te komen. Case Processing Summary Cases Valid Missing Total N Percent N Percent N Percent geslacht * studie 111 100,0% 0,0% 111 100,0% geslacht * studie Crosstabulation geslacht Total 1 2 studie 0 1 2 3 99 Total Count 1 7 2 1 3 14 Expected Count 2,1 6,1 2,6 1,4 1,8 14,0 Count 16 41 19 10 11 97 Expected Count 14,9 41,9 18,4 9,6 12,2 97,0 Count 17 48 21 11 14 111 Expected Count 17,0 48,0 21,0 11,0 14,0 111,0 Chi-Square Tests Value df Asymp. Sig. (2-sided) Pearson Chi-Square 2,161(a) 4,706 Likelihood Ratio 2,183 4,702 Linear-by-Linear Association 1,120 1,290 N of Valid Cases 111 a. 4 cells (40,0%) have expected count less than 5. The minimum expected count is 1,39. Figuur 8.1: Uitvoer van CROSSTABS: Kruistabel met associatie-maten. 34

8.2 Verschillen tussen twee of meer gemiddelden Wetenschappelijke onderzoekers zijn geïnteresseerd in verbanden tussen variabelen. Vaak gaat het dan om een verband tussen een factor (onafhankelijke variabele, van nominaal of ordinaal meetnivo) en een responsie (afhankelijke variabele, van interval- of ratio-nivo). Het verband binnen de steekproef kun je dan onderzoeken met de menu-optie of commando MEANS. Dat hebben we al behandeld in 4.6 (p.19). Je kunt hier per experimentele conditie zoeken wat het gemiddelde van een groep is. Het doel van de volgende paragrafen is het bekijken of deze gemiddelden werkelijk significant van elkaar verschillen. Voor de opdrachten in dit hoofdstuk gebruiken we de gegevens over de studenten in deze cursus in het studiejaar 2008 (enq2008.sav). Je vindt deze gegevens (in SPSS formaat) op de web-pagina van de cursus. Plaats deze bestanden in je cursus-directory. 8.3 De t-toets [dv 35] De t-toets is een eenvoudige toets om te kijken of een variabele verschilt tussen twee condities van een factor. Voor onze doeleinden beschouwen we het jaar van studie (eerstejaars, tweedejaars, enz) hier als afhankelijke variabele, en wel van het ratio-meetnivo. Alhoewel de waarden van de variabele <jaar> rechtsscheef zijn, mag je ze voor het practicum toch als normaalverdeeld beschouwen. In onze cursus is er geen factor die de groep duidelijk in tweeën splitst; geslacht en voorkeurshand zijn beide nogal ongelijk verdeeld. We zullen daarom zelf een nieuwe factor init aanmaken, die is gebaseerd op de beginletter van ieders voornaam. Studenten met een beginletter uit de eerste helft van het alfabet (A t/m L) krijgen de waarde init=1; studenten met een beginletter uit de tweede helft van het alfabet (M t/m Z) krijgen de waarde init=2. [Data editor] Je maakt een nieuwe variabel init met Transform > Compute variable en geeft die de waarde 1, maar onderaan moet je wel if aanvinken om de conditie in te stellen. In het volgende scherm moet je if case satisfies condition kiezen. De voorwaarde is Letter < M Voer dat uit, en doe het nog een keer met init=2 voor Letter >= M 35

[Syntax] De commando s om de nieuwe variabele te construeren zie je in (8.2). Neem deze commando s over in een Syntax venster, inclusief de punt na ieder commando (8.2) IF ( Letter < "M") init = 1. IF ( Letter >= "M") init = 2. EXECUTE. Het gebruikte commando IF is een variant van het commando COMPUTE (zie 5.2, p.22), met als extra kenmerk dat het laatste deel van het commando (na de haken) alleen wordt uitgevoerd indien de voorwaarde in het eerste deel (tussen buitenste haken) is vervuld. De voorwaarde heeft hier betrekking op de beginletter van de roepnaam. Voer de IF-commando s uit (denk aan het gebruik van het commando EXECUTE) via de opties Run > All in het Syntax venster. De nieuwe factor init definiëert twee groepen, die je hier groepsgewijs met elkaar moet vergelijken (/GROUPS). We kijken dus of de groep met init=1 significant verschilt van de groep met init=2, voor wat betreft de afhankelijke variabele Jaar. Dit wordt ook independent, onafhankelijk, genoemd. Dit is dus een test voor gemiddelden van metingen die onafhankelijk van elkaar zijn. De geobserveerde data komen van één proefpersoon uit één van de condities. Eigenlijk creëren we hier condities gebaseerd op de eerste letter van de naam van de betrokkenen. Het kan hier dus nooit zijn dat één proefpersoon in beide condities zit. > Bedenk van te voren wat je H 0 en H a hypothesen zijn. Vind je het aannemelijk dat hier een van de groepen een hoger gemiddelde heeft? Je kunt het commando voor deze t-toets aanroepen via het Data Editor venster, kies Analyze > Compare Means > Independent-Samples T Test... Kies hierin voor de juiste testvariabele/afhankelijke variabele. Zorg er voor dat je bij Grouping Variable de juiste nominale variabele selecteert. Standaard weet SPSS niet welke waarden daarin staan. Klik op define groups en definieer de juiste waarden van je factor. [Syntax] Je kunt het ook weer doen in het Syntax venster, met een commando als volgt: T-TEST / GROUPS = init(1,2) / VARIABLES Jaar. (8.3) Voor andere data-verzamelingen (maar niet voor onze gegevens over studentenkenmerken) is het ook mogelijk om de twee condities van een factor niet groepsgewijs, maar paarsgewijs te vergelijken (kies Analyze > Compare Means > Paired-Samples T Test... of het Syntax 36

commando T-TEST /PAIRS). Voor ieder paar van observaties wordt dan een verschil berekend; vervolgens wordt getoetst H: D = 0. Deze methode wordt ook wel aangeduid als related, matched, pairwise ; een t-test voor afhankelijke groepen. Deze methode is alleen toegestaan als de observaties inderdaad in paren zijn gedaan, bv voor twee benen van een voetballer, twee leden van een tweeling, enz. Als een observatie ontbreekt voor één lid van het paar, dan wordt het gehele paar verwijderd uit de berekeningen. (De paarsgewijze methode is dus niet toegestaan voor de huidige data-verzameling, met onafhankelijke observaties in de twee groepen). Bij deze metingen zie je juist wel vaak dat van één proefpersoon dezelfde meting tweemaal wordt gedaan. Neem hierbij bijvoorbeeld dat een proefpersoon een keer een geheugen test doet met een placebo en een andere keer met een echt medicijn. > Is het verschil in studievoortgang tussen de twee groepen studenten in onze cursus wel of niet significant? Op grond van welke uitkomsten trek je deze conclusie? Let op: de gerapporteerde p-waarde of significantie-nivo 9 geeft aan hoe groot de kans is om deze waarde voor t te vinden, indien H 0 waar is. H 0 zegt dat er géén verschil is tussen de groepen: H 0 : µ 1,gem µ 2,gem =0. 8.4 ONEWAY [dv 36.2] Als we willen weten of een variabele verschilt tussen meer dan twee condities (m.a.w. als een factor meer dan 2 waarden kan aannemen), dan is een herhaalde t-toets op alle combinaties van 2 condities ongeschikt. In dit geval moeten we een variantie-analyse uitvoeren. Hiervoor zijn in SPSS drie commando s beschikbaar: ONEWAY, ANOVA en MANOVA (in oplopende complexiteit). Met ONEWAY kun je alleen een variantie-analyse uitvoeren met één factor. Het effect van deze factor wordt dan uiteraard getoetst tegen de within-cell-variantie. Je kunt het commando voor deze toets aanroepen via het Data Editor venster, kies Analyze > Compare Means > Oneway ANOVA... [Syntax] Je kunt het ook weer doen in het Syntax venster, met het commando ONEWAY. Met de optie Post Hoc kun je verschillende soorten van post-hoc vergelijkingen tussen condities uitvoeren. Dit mag (en hoef) je niet doen als de ANOVA geen significante verschillen 9 In de uitvoer van SPSS wordt de p-waarde meestal aangeduid met Sig. 37

vindt tussen condities. Als er wel significante verschillen bestaan, dan laten de resultaten van de post hoc testen precies zien welke condities significant van elkaar verschillen. Hierbij is echter wel voorzichtigheid geboden, omdat de post-hoc toetsen relatief grote kansen hebben op Type-I en Type-II fouten. Dit komt doordat je minimaal 3 maal een soort t-toets doet en dat je dan het risico loopt op wat wel kanskapitalisatie wordt genoemd. > Onderzoek of de factor Opleiding een significant effect heeft op Jaar. Onderscheid daarbij alleen de vier groepen TCS, TLW+TW, Pre+Mas, en overige opleidingen. Tip: maak een nieuwe variabele voor deze groepen, of pas <code opleiding> aan. Een nieuwe variabele kun je met Transform > Compute variable maken, met als if-conditie dan Opleiding = TCS or Opleiding = TLW+TW or Opleiding = Pre+Mas Op grond van welke uitkomsten trek je je conclusie? 8.5 ANOVA [dv 36.5] Met het commando ANOVA kun je ook een variantie-analyse uitvoeren met meer dan één factor. Standaard worden ook interacties tussen de factoren onderzocht. SPSS neemt aan dat het een factorieel design betreft, waarbij alle condities van alle factoren met elkaar gecombineerd zijn. Dat wordt ook een volledig gekruist design genoemd. Het commando ANOVA toetst alle hoofdeffecten en interactie-effecten tegen de within-cell-variantie. We gaan dit doen voor een gegevensverzameling van IQ waarden van 1000 personen die onderverdeeld zijn in groepen met verschillende psychische aandoeningen (inclusief controlegroep), waarbij ook een onderscheid wordt gemaakt tussen mannen en vrouwen. Het bestand staat op de website als IQ.txt op de website. Voer een variantie-analyse uit met IQ als afhankelijke variabele, en met de fixed factoren groep en geslacht, en met hun interactie. Je kunt het commando hiervoor aanroepen via het Data Editor venster, kies Analyze > General Linear Model > Univariate... 10 Let op: Je moet twee standaard-instellingen van de berekening aanpassen. Deze opties kun je instellen via de knop Model in het menu; onderaan zie je twee instellingen. Kies voor de optie Sums of Squares: Type I en zet het vinkje uit bij de optie Include intercept. Deze instellingen 10 Dit is een univariate analyse omdat er slechts één afhankelijke variabele is, hoewel er wel meerdere onafhankelijke variabelen zijn. 38

leiden tot de meest conventionele wijze van berekenen van Sums of Squares, overeenkomstig de uitleg in het boek 11. Voer ook een posthoc test uit. > Welke effecten zijn significant? Op grond van welke uitkomsten trek je deze conclusies? Merk op dat inderdaad SS Tot = SS groep + SS geslacht + SS interactie + SS E, zoals besproken tijdens college. Hoeveel van de totale Sums of Squares (variantie) wordt verklaard door de (fixed) factoren? 8.6 complexe analyses: MANOVA Tenslotte kun je complexe variantie-analyses uitvoeren met het commando MANOVA. Dit wordt niet meer behandeld in het Basishandboek (De Vocht, 2012), en ook niet in deze cursus. Het commando is alleen beschikbaar via een Syntax venster, en niet via menu s. MANOVA moet je gebruiken bij een zgn. Multivariate ANOVA, je kijkt dan naar het effect van een factor op twee afhankelijke variabelen. Het kan zijn dat je geen effect vindt op één van de afzonderlijke afhankelijke variabelen, maar als je ze gezamenlijk bestudeerd juist wel. In deze cursus gaan we er niet verder op in. Bibliografie Devore, Jay and Roxy Peck (7 th ed. 2011) Statistics: The Exploration and Analysis of Data, Duxbury, Pacific Grove, CA. De Vocht, Alphons (2012) Basishandboek SPSS 20 voor Windows, Bijleveld, Utrecht. 11 Andere opties zijn soms handiger als er veel observaties ontbreken. 39