De steekproefgrootte bepalen Foeke van der Zee (Hulp bij onderzoek, Groningen, versie 1, september 2014) www.boeken- over- onderzoek.nl
Voorwoord Dit white paper maakt deel uit van een reeks white papers. Hierin behandel ik een aantal onderwerpen die te maken hebben met het doen van onderzoek. Op deze manier kan ik de onderwerpen uitgebreider bespreken dan op de site. De papers zijn ontstaan als blogartikel of ter voorbereiding van een nog uit te geven of reeds uitgegeven publicatie. Het staat je vrij om dit paper te printen voor eigen gebruik. Je mag het ook doorsturen naar anderen, als die behoefte hebben aan deze informatie. Je mag de inhoud van dit paper echter niet gebruiken voor publicatie in deze of een andere vorm, en in welk medium dan ook, zonder mijn schriftelijke toestemming. Wil je in je thesis of verslag refereren naar dit white paper, doe dat dan op de officiële manier, zoals dat in jouw vakgebied gebruikelijk is. Alle informatie staat op de voorkant. Heb je een probleem met onderzoek? Neem dan gerust contact met me op. Ik help je graag! Foeke van der Zee Andere publicaties van Foeke van der Zee Kennisverwerving in de empirische wetenschappen (2004) Een introductie in de filosofie van Foeke van der Zee over onderzoek en wat je ermee kunt De enquête (2007) Dit boekje gaat over enquêtes voor schriftelijke en/of online afname Online enquêteren (2008) In dit boekje staan de do s en don ts van online onderzoek Methodologie voor onderzoek in economie en bedrijfskunde (2010) Studieboek met handleiding voor het opzetten en uitvoeren van onderzoek Methodologie voor onderzoek in de sociale wetenschappen (2010) Studieboek met handleiding voor het opzetten en uitvoeren van onderzoek Methodologie voor onderzoek in de gezondheidszorg (2010) Studieboek met handleiding voor het opzetten en uitvoeren van onderzoek Methodologie voor onderzoek in de verpleegkunde (2010) Studieboek met handleiding voor het opzetten en uitvoeren van onderzoek Statistiek; alles wat een onderzoeker moet weten om zijn gegevens te analyseren (in voorbereiding; vermoedelijk voorjaar 2015 klaar) Kijk voor meer informatie op www.boeken- over- onderzoek.nl
1. Inleiding Docenten en opdrachtgevers willen graag weten hoe groot de steekproef moet zijn die je wilt trekken. Als je een te klein aantal noemt, denken ze dat het onderzoek niets voorstelt, maar als je een te groot aantal noemt, vinden ze het te duur en niet realistisch. Als je een goed antwoord weet te geven, verhoogt dat jouw aanzien als onderzoeker en krijg je hun vertrouwen dat het wel goed komt met het onderzoek. Om geloofwaardig te zijn moet je je antwoord natuurlijk wel kunnen onderbouwen. Ook voor jezelf is het belangrijk om vooraf de steekproefgrootte aan te geven, want daarmee kun je bepalen welke kosten verbonden zijn aan het verzamelen van de data en hoeveel werk het zal zijn om de gegevens te verzamelen en te bewerken. Er is overigens wel een groot verschil tussen de steekproefgrootte en de uiteindelijke respons. Sommigen duiden de respons aan als de nettosteekproef. Als ik het heb over het bepalen van de steekproefgrootte, praat ik over het bepalen van de respons, oftewel over de netto- steekproef. Als je bijvoorbeeld een respons wilt hebben van honderd personen en je verwacht dat slechts één op de tien aangeschreven personen zal reageren, moet je duizend personen benaderen. Stel dat je honderd personen zou hebben aangeschreven dan krijg je een respons van tien. Dat is te weinig.!"#$%&'() *'))+#,")-+&.), *'))+#,")- /)0#"10!"##$%&'()*$% +$&+$,)%)*)$ -$./0$%&%)$* */*&+$&1/1(#"*)$ 6)7%&)%8/00$8* 2$''$%&3$$%&3/$+$ 3$3$4$%5&""%3$#$4$0+ 2. Overzicht van de methoden Er zijn verschillende methoden om de steekproefgrootte vast te stellen. Deze kun je indelen in drie groepen: 1. Methoden gebaseerd op ervaring en gevoel 2. Methoden gebaseerd op statistische significantie 3. Methoden gebaseerd op statistische power 2.1 Methoden gebaseerd op ervaring en gevoel Deze methoden zijn gebaseerd op het arbitrair vaststellen van een getal. De opdrachtgever of een andere onderzoeker heeft bijvoorbeeld altijd gewerkt met vijfhonderd respondenten, dus moet dat aantal ook dit keer weer gerealiseerd worden. Waarop het getal van vijfhonderd is gebaseerd, wordt meestal niet onderbouwd. Het is 1
ooit bepaald op basis van fingerspitzengefühl en dat houdt men dan maar aan. Als de opdrachtgever per se dit aantal wil, moet je de begroting en het tijdsschema daarop aanpassen. Je kunt proberen om het genoemde aantal te onderbouwen met een logische redenering. Stel dat het in je onderzoek gaat om het vinden van een percentage; je wilt bijvoorbeeld antwoord geven op de vraag hoeveel procent van de inwoners van Nederland woont in een huurwoning? Als je een representatieve steekproef hebt getrokken, maakt een procentje meer of minder meestal niet zoveel uit. Het gaat immers om het maken van een schatting en dan mag je er iets naast zitten. Als van honderd respondenten één in de andere groep valt, levert dat een verschil op van 1 procent. Bij tweehonderd respondenten is dat 0,5 procent en bij vierhonderd respondenten is dat 0,25 procent. De opdrachtgever zal het niet veel uitmaken of je er een half procentje of zo naast zit. Maar noem je een te klein aantal bijvoorbeeld een steekproefgrootte van tien dan betekent één respondent in de andere groep dat je er meteen 10 procent naast zit met je schatting, en dat is nogal veel. Mijn ervaring is dat je aan honderdvijftig tot tweehonderd respondenten meestal wel voldoende hebt om een goede schatting te maken van een percentage. Als het gaat om een verschil, moet je anders redeneren. Voor een t- toets heb je naar mijn ervaring dertig tot vijftig respondenten per groep nodig om statistische verschillen te kunnen vinden. Neem je te weinig respondenten, dan is bijna niets statistisch significant. Neem je er echter te veel en dan moet je denken aan duizend respondenten dan wordt alles statistisch significant. Voor variantieanalyses geldt iets soortgelijks. Het hangt af van het aantal groepen dat wordt onderscheiden. Per groep kun je het best minimaal dertig respondenten aanhouden. Als het gaat om een MANOVA met meerdere cellen, moet je minimaal dertig per cel aanhouden. Bij regressieanalyses zijn over het algemeen minder respondenten nodig om enigszins betrouwbare resultaten te vinden. Voor kruistabellen daarentegen veel meer. Daarom geef ik het advies om alles zo veel mogelijk op intervalniveau te meten. Dan heb je minder respondenten nodig om toch statistisch significante resultaten te vinden. Om een lang verhaal kort te maken: voor de meeste statistische analyses zit je met tussen de honderd en driehonderdvijftig respondenten wel goed. Bij hogere aantallen kun je ook analyses op subgroepen maken, in plaats van alleen maar op het totaal. Dat is wel iets om rekening mee te houden. 2.2 Methoden gebaseerd op statistische nauwkeurigheid Je kunt de steekproefomvang ook bepalen door een getal te noemen dat is gebaseerd op een statistische analyse die je gaat toepassen. Volgens de meeste statistiekboeken is er slechts één mogelijkheid, namelijk de toets voor het maken van een puntschatting van een percentage. Soms wordt een tweede genoemd: het vergelijken van twee gemiddelden. In 2004 heb ik daar in het boek Kennisverwerving in de empirische wetenschappen drie aan toegevoegd, namelijk de chikwadraattoets voor een reeks, de chikwadraattoets voor een kruistabel en de toets voor productmomentcorrelaties. 2
Het kenmerkende van deze methoden is dat ze gebaseerd zijn op het toetstheorema van Fisher, waarbij je een alfawaarde vaststelt en vervolgens nagaat of het toetsresultaat statistisch significant is. Met deze methoden bereken je het omslagpunt waarin iets statistisch significant wordt. Neem je een kleiner aantal, dan kun je op voorhand aangeven dat je geen statistisch significant resultaat zult vinden. Omdat je dat vaak juist wel wilt, moet je een groter aantal nemen. Het vervelende van al deze methoden is dat je aannames moet doen en dat die aannames soms niet kloppen. Maar laten we eerst de methoden bespreken en ze daarna pas bekritiseren. De puntschatting voor een percentage Soms moet je op basis van je onderzoek een schatting maken van een percentage. Bijvoorbeeld: hoeveel mannen dragen dagelijks een stropdas? of hoeveel Nederlanders roken sigaretten? Je kunt in plaats van een afwijking van een percentage uitgaan van het betrouwbaarheidsinterval. Voor het berekenen van het interval rondom een percentage gebruiken we de volgende formule: waarin: π = de verwachte proportie in de populatie (de boven- en ondergrens worden berekend) p = de gevonden proportie in de steekproef z α/2 = het betrouwbaarheidsinterval n = het aantal respondenten Als we de formule aanpassen zodat de n voor het =- teken komt te staan en de rest daarachter, dan krijg je: waarin: n = het aantal respondenten z α/2 = het betrouwbaarheidsinterval (een- of tweezijdig) p = de verwachte proportie (in procenten) D = de afwijking van de proportie (eenzijdig; in procenten) Voor het berekenen van een optimale n dat wil zeggen: de respons moet je een inschatting maken van de p- waarde en de afwijking daarvan. Stel dat je aanneemt dat 20 procent van de Nederlanders rookt en dat je er maximaal 5 procent naast wilt zitten. Je uitkomst moet dan liggen tussen 15 en 25 procent. Dat kun je invullen in de formule. Het enige wat je verder nog moet weten, is de z- waarde. We toetsen in de statistiek bijna alles tweezijdig met een betrouwbaarheidsniveau van 95 procent (α =.05). Daarom zet je de z- waarde op 1,96. Je krijgt dan: 3
Je hebt dus 246 respondenten nodig (altijd naar boven afronden) om statistisch aan te tonen dat het percentage rokers tussen 15 en 25 procent ligt. Dat is wat meer dan de schatting uit de losse pols van 150 waarbij je er een procentpunt naast mag zitten. Kun je geen inschatting maken, kies dan voor een p- waarde van 50 procent en een D- waarde van 5 procent. Dit voorbeeld zie je in ieder statistiekboek als de optimale steekproef en daar komt altijd 384,2 uit. Je kunt de berekeningen ook doen met de steek- proefcalculator op de site. Deze calculator gaat uit van tweezijdig toetsen, dus moet je voor een alfa van.05 kijken bij 97,5 procent. Deze calculator heeft nog een voordeel. Als je weet hoe groot de respons moet zijn, kun je meteen laten uitrekenen hoeveel personen je moet benaderen om deze responsaantallen te krijgen. Het verschil tussen twee gemiddelden Dit is volgens de oprechte statistici niet mogelijk. Formeel hebben ze gelijk, maar met enige goede wil is er wel een mouw aan te passen. De formule voor de toets voor het verschil tussen twee gemiddelden is deze: waarin: t = de te berekenen toetswaarde, = het gemiddelde van x respectievelijk y nx, ny = het aantal cases van groep x respectievelijk groep y sx, sy = de standaarddeviatie van groep x respectievelijk y Veronderstel dat de standaarddeviaties van beide groepen en de aantallen in de groepen gelijk zijn; dit zijn overigens ook de twee voorwaarden om bovenstaande formule te mogen gebruiken. Ga er verder van uit dat we het verschil tussen beide gemiddelden kunnen aanduiden met een D (van difference, verschil). De formule wordt dan: 4
Het probleem is nu alleen nog dat de t- waarde afhankelijk is van het aantal vrijheidsgraden. Het aantal vrijheidsgraden is gelijk aan nx+y- 2 en als je de t- waarde naar de andere kant van het =- teken brengt, staat er een n voor en na het =- teken.. Hoe lossen we dat op? Dat is op te lossen door in plaats van een t- waarde de z- waarde in te vullen. De t- verdeling lijkt op de standaardnormaalverdeling. Bij een oneindig aantal vrijheidsgraden is de t- verdeling hetzelfde als de standaardnormaalverdeling, maar vaak hoef je zover niet te gaan. Vanaf honderdtwintig vrijheidsgraden is de t- waarde bijna hetzelfde als de z- waarde, en vanaf dertig vrijheidsgraden is het verschil al beperkt tot meestal één of twee respondenten. Omdat het maar zo n klein verschil oplevert, vervangen we de t- waarde door de z- waarde, en de s door een sigma. Dat levert de volgende formule op: Nu kun je de formule omwerken naar: Je hoeft alleen nog maar een schatting te maken van het vermoedelijke verschil tussen beide gemiddelden en de standaarddeviatie. De berekeningen kun je doen met behulp van de steekproefcalculator op de site van Hulp bij onderzoek. Dan hoef je je ook niet meer druk te maken over de vraag of je het wel goed doet. De formule is ook goed te gebruiken voor het bepalen van een afwijking van een norm, oftewel de one sample t- test. Bijvoorbeeld: normaal gesproken haalt iedereen een 7 voor een toets statistiek. Hoe groot moet een steekproef zijn om aan te tonen dat het gemiddelde 8 afwijkt van deze norm? Je vult de formule in met als schatting voor de standaarddeviatie het getal 1,5. Dat blijkt niet eens zo n hoog aantal op te leveren (achttien cursisten). Je kunt hiermee spelen door de standaard op 6,5 te zetten en/of de standaarddeviatie kleiner of groter te maken. Chikwadraattoets voor een reeks In onze video over de chikwadraattoets voor een reeks is verteld dat die analyse heel geschikt is om na te gaan of de steekproef representatief is. Het gaat dan om de afwijking ten opzichte van een bepaalde normverdeling. Je kunt de vraagstelling ook omdraaien: in welke mate mag een verdeling afwijken van de normverdeling voordat hij statistisch significant wordt? 5
De te gebruiken formule voor het bepalen van de steekproefomvang is: waarin: = de chikwadraatwaarde (behorende bij een vast te stellen α) = het verschil tussen verwacht en norm (per cel in het kwadraat) = het aantal cellen In het boek Kennisverwerving in de empirische wetenschappen leg ik uit hoe ik aan deze formule gekomen ben. Misschien snap je niks van deze formule, maar in het gebruik valt hij erg mee. Ook hier moet je het een en ander veronderstellen. Het komt erop neer dat je een normverdeling en een uitkomsten- verdeling moet poneren. Stel dat je een tevredenheid hebt gemeten op een vijfpunts Likertschaal. Je kunt dan bijvoorbeeld als norm stellen: 10-60 - 20-8 - 2. De verwachte verdeling zet je daartegen af, bijvoorbeeld: 8-63 - 19-7 - 3. Je moet er wel voor zorgen dat het totaal 100 procent is. De is dan te berekenen als 10-8 in het kwadraat, 60-63 in het kwadraat, et cetera. Dat vermenigvuldig je elke keer met het aantal cellen; in dit geval is dat vijf. De chikwadraatwaarde haal je uit je tabellenboek. Je moet kijken bij vier vrijheidsgraden, want je hebt vijf cellen. Bij een alfa van 5 procent vind je de waarde 9,4877. De uitkomst is nu te berekenen: = 7,7 (afgerond 8) Er komt een belachelijk getal uit (namelijk acht respondenten); daarmee kun je de cellen niet eens fatsoenlijk vullen. Dat komt omdat de normverdeling zeer sterk afwijkt van de verwachte verdeling. Als je de verwachte verdeling realistischer maakt (bijvoorbeeld: 10-60 - 20-8 - 2), krijg je een realistischer schatting van de te trekken steekproefgrootte: = 774,5 (afgerond 775) Foeke van der Zee 6 White paper: De steekproefgrootte bepalen
Uiteraard kun je dit ook uitrekenen met de steekproefcalculator op de site Hulp bij onderzoek. Je kunt daar de gegevens invullen. Nadat je hebt geklikt op Reken uit, krijg je de uitkomst voor je minimale steekproefgrootte. Chikwadraattoets voor een kruistabel Voor een kruistabel kun je precies dezelfde formule gebruiken. Het grote verschil is dat je in dit geval geen norm of verwachting hoeft te geven. In kruistabellen worden die namelijk berekend uit de randtotalen. Als je niet meer weet hoe dat gaat, bekijk dan de video over dit onderwerp bij de Online video s over statistiek. De berekeningen hoef je niet handmatig uit te voeren. In de steekproefcalculator op de site Hulp bij onderzoek staan de meest gangbare kruistabellen. Daar kun jij je gegevens invoeren. De grootte van de minimale steekproefomvang wordt dan weer snel uitgerekend voor diverse waarden van betrouwbaarheid. De productmomentcorrelatie De productmomentcorrelatiecoëfficiënt wordt getoetst met deze formule: waarin: t = de te berekenen kritieke t-waarde r = de berekende productmomentcorrelatiecoëfficiënt n = het aantal combinaties van x i en y i Je kunt de n eruit halen, zodat die voor het =- teken komt te staan. Je krijgt dan: waarin: n = het aantal cases r = de geschatte productmomentcorrelatiecoëfficiënt t = de kritieke t-waarde Het probleem is ook hier de t- waarde, want die hangt af van het aantal vrijheidsgraden. Als je een t- waarde kiest van 1,70 bij een betrouwbaarheid van 95 procent, van 2,05 bij een betrouwbaarheid van 97,5 procent of van 2,46 bij een betrouwbaarheid van 99 procent, kun je er niet ver naast zitten wat betreft het minimale aantal respondenten. 7
Als je een hoge correlatie verwacht zeg.60 dan blijk je aan zeven respondenten al genoeg te hebben om statistisch significante resultaten te krijgen. Bij een correlatie van.30 heb je aan tweeëndertig respondenten genoeg. Correlaties lager dan.30 zijn meestal niet zo interessant. Kortom: het berekenen van het benodigde aantal respondenten voor correlaties is niet zo zinvol, omdat je redelijk snel statistisch significante resultaten vindt. Bovendien veronderstelt kwantitatief onderzoek dat er minimaal dertig onderzoekseenheden zijn. Als de samenhang substantieel is, is die dus ook vrijwel altijd statistisch significant. Overige statistische toetsen Hoe zit het met regressie, ANOVA, MANOVA en ANCOVA? Zijn daar geen formules voor? Regressieanalyse is gebaseerd op correlatieanalyse, dus zou je ook daar het minimale aantal van dertig kunnen aanhouden. Dat geldt dan wel voor de univariate variant met één afhankelijke en één voorspellende variabele. Voor multipele regressie hanteert men de duimregel: 15 + 15 * het aantal variabelen in de analyse. En voor ANOVA, MANOVA en ANCOVA? Helemaal niks. Dus vallen we terug op onze ervaring van minimaal vijftien, liever dertig en het liefst vijftig per cel. 2. 3 Methoden gebaseerd op de power Er zijn ook methoden die gebaseerd zijn op de power van een toets. De power of het onderscheidend vermogen wordt meestal pas bekeken aan het eind van de analyses. Eerst wordt gekeken of de analyse een statistisch significant verschil oplevert, en pas daarna of dat verschil ook steekhoudend is. Ook in de Online cursus statistiek wordt bijna nergens over de power gesproken. Toch een paar korte opmerkingen. De power van een toets is gebaseerd op het toetstheorema van Neijman- Pearson. In dat theorema ga je na hoe groot de kans is op een verkeerde beslissing. Dat kun je uitzetten in een tabel en uitgaande van een normaalverdeling kun je van de statistische uitkomsten een grafiek maken. Deze grafiek maakt twee dingen duidelijk: dat de kans op een verkeerde beslissing (β) aan de andere kant van de kritieke waarde ligt; dat je nog meer veronderstellingen moet doen dan bij de toetsen uit de vorige sectie. Met name dat laatste vind ik een groot bezwaar, want het wordt steeds moeilijker om al die veronderstellingen aannemelijk te maken. Je kunt wel veronderstellen dat Nederlanders 1 meter 86 lang zijn, met als alternatief 1,87 meter, maar je had net zo goed 1,85 meter of 1,8822334 meter kunnen 8
veronderstellen. Dat maakt het er allemaal niet gemakkelijker op. Daarom wordt deze methode in de meeste wetenschappen niet gebruikt. Een uitzondering is de geneeskunde. Dat heeft te maken met het feit dat een verkeerde beslissing in deze wetenschap heel nare gevolgen kan hebben. Je zult maar iemands been afzetten terwijl dat niet nodig is, of iemand geen medicijnen voorschrijven terwijl diegene dat juist wel nodig heeft. Het nemen van een verkeerde beslissing kan in de geneeskunde desastreus zijn; daarom is het in deze wetenschap belangrijk om ook de power van de analyses te bepalen. Het hebben van een voldoende grote steekproef is daarvoor heel belangrijk. Wil je een schatting maken van de steekproefgrootte op basis van de power, dan raad ik je aan het programma g- power te downloaden. Dit programma van de Universiteit van Düsseldorf is gratis te downloaden en te installeren. Ga naar www.gpower.hhu.de. Daar vind je de manual en onderaan de downloadlink. 2.4 Slotopmerkingen Misschien had je verwacht dat je in dit white paper het verlossende antwoord zou vinden op de prangende vraag hoe groot jouw steekproef moet zijn. Het ultieme antwoord op die vraag bestaat echter niet. In dit paper is wel een aantal strategieën besproken die tot een acceptabel antwoord leiden. Aan jou de taak om de juiste te kiezen. Overigens, met het kiezen van een bepaalde strategie ben je er nog niet. Onderzoek bestaat vaak uit meerdere deelvragen en voor iedere deelvraag kun je een andere methode gebruiken, wat kan leiden tot heel tegenstrijdige antwoorden. Bij een onderzoek naar vijf soorten koekjes kun je bijvoorbeeld vragen wat de respondent zou willen betalen voor een heel pak, en welk van de vijf koekjes de respondent het lekkerst vindt. De eerste vraag naar de prijs betreft een variabele op intervalniveau. Daarvoor zou een steekproefgrootte van zestig personen voldoende kunnen zijn. De tweede vraag is gemeten op een Likertschaal (zeer smakelijk ß à zeer onsmakelijk). Dat betreft een ordinale variabele en daarvoor is een steekproefgrootte gewenst van driehonderd respondenten. Hoe groot moet je steekproef nu zijn: zestig of driehonderd? Kies je voor zestig, dan zal de tweede vraag nooit een significant resultaat kunnen opleveren. Kies je voor driehonderd, dan kun je bijna met zekerheid stellen dat de eerste vraag een statistisch significant resultaat zal gaan opleveren. Dit maakt statistiek zo verdraaid lastig. Je kunt je door statistiek laten leiden, maar je kunt er ook onder lijden. In de Online cursus statistiek leg ik uit hoe je statistiek moet gebruiken. Statistiek is overigens heel simpel als je het principe snapt. Ik zou het je graag willen leren, zodat jij je weerbaar kunt opstellen tegen mensen die beweren dat iets waar is omdat het statistisch is aangetoond. Maar dan moet je de hele cursus volgen en niet alleen een white paper lezen. Ik wens je heel veel succes met je onderzoek. Foeke van der Zee 9
OVERZICHT VAN DE LESSEN IN DE ONLINE CURSUS STATISTIEK Algemene basiskennis voor het kunnen verrichten van statistische analyses Kenmerken van variabelen Les 1 Populatie en steekproef Les 2 De toetsprocedure van Fisher Les 3 Statistische tabellen Les 4 Het maken van een keuze voor de juiste toets Les 5 Verschil tussen groepen De t- toets om de gemiddelden van twee groepen met elkaar te vergelijken twee groepen Les 6 afhankelijke variabele is gemeten op intervalniveau Variantieanalyse om de gemiddelden van meer dan twee groepen met elkaar te vergelijken meer dan twee groepen Les 7 afhankelijke variabele is gemeten op intervalniveau De Mann- Whitneytoets twee groepen Les 8 afhankelijke variabele is gemeten op ordinaal niveau De Kruskal- Wallistoets meer dan twee groepen Les 9 afhankelijke variabele is gemeten op ordinaal niveau Verschil tussen kenmerken De t- toets om het gemiddelde uit een steekproef te vergelijken met een standaard De t- toets om de gemiddelden van twee kenmerken met elkaar te vergelijken één variabele op interval- Les 10 één standaard twee kenmerken op interval- Les 11 Variantieanalyse voor herhaalde metingen meer dan twee kenmerken op interval- Les 12 De Wilcoxontoets twee kenmerken op ordinaal niveau Les 13 De Friedmantoets De chikwadraattoets voor een kruistabel De chikwadraattoets voor een reeks meer dan twee kenmerken op ordinaal niveau twee kenmerken op nominaal/categoraal niveau kenmerken op nominaal/categoraal niveau één standaard die je zelf mag opstellen Les 14 Les 15 Les 16 Foeke van der Zee 10
Samenhang tussen kenmerken De productmomentcorrelatie van Pearson twee variabelen op interval- Les 17 De rangcorrelatie van Spearman twee variabelen op ordinaal niveau Les 18 De rangcorrelatie van Kendall twee variabelen op ordinaal niveau Les 19 Phi en Cramérs V twee variabelen op nominaal/categoraal niveau Les 20 Test- en schaalconstructie Factoranalyse Cronbachs alfa Regressie Lineaire regressie Multipele regressie Regressie met dummy s meer dan twee variabelen op ordinaal niveau meer dan twee variabelen op ordinaal niveau alle variabelen op interval- alle variabelen op interval- afhankelijke variabele op interval- minimaal één variabele op interval- minimaal één variabele als een dichotomie Les 21 Les 22 Les 23 Les 24 Les 25 Moderatie specifieke vorm van regressieanalyse Les 26 Mediatie specifieke vorm van regressieanalyse Les 27 Meervoudige variantie MANOVA Varia ANCOVA afhankelijke variabele op interval- twee of meer variabelen op nominaal niveau afhankelijke variabele op interval- minimaal één variabele op nominaal/categoraal niveau minimaal één variabele op interval- Les 28 Les 29 Steekproefgrootte bepalen Les 30 Foeke van der Zee 11
OVERZICHT VAN DE LESSEN IN DE ONLINE CURSUS SPSS Gegevens invoeren Data in Excel Aanmaken in Excel en inlezen in SPSS Les 1 Basisvaardigheden SPSS Het codeboek De datafile van SPSS Les 2 Hercoderen en berekeningen De opdrachten Compute en Recode Les 3 maken Dataselectie De opdrachten Select Cases en Split File Les 4 De SPSS- files De data- output en syntaxfiles Les 5 Files samenvoegen en aggregeren Les 6 Beschrijvende statistiek Frequenties en gemiddelden Frequencies Les 7 Kruistabellen Crosstabs Les 8 Correlaties Correlate Les 9 Grafieken Graphs Les 10 Test- en schaalconstructie Factoranalyse De opdracht Scale Les 11 Cronbachs alfa De opdracht Reliability Les 12 Variantieanalyses t- test Independent samples t- test Les 13 Means, ANOVA en GLM Drie vormen voor het uitvoeren van een ANOVA Les 14 MW- toets en KW- toets Gepaarde metingen Non- parametrische alternatieven voor een ANOVA t- toets voor paren, herhaalde metingen ANOVA, de Wilcoxon- en de Friedmantoets Les 15 Les 16 MANOVA Meervoudige indelingen en covariaten Les 17 Regressieanalyses Lineaire regressie Univariate, multipele en hiërarchische regressieanalyse Les 18 Dummy s Zin en onzin over dummy s Les 19 Interactie Voorkom fouten, moderatie en mediatie Les 20 Foeke van der Zee 12