Ook voor Hersenen & Gedrag zijn er samenvattingen beschikbaar. Kijk op onze site voor meer informatie en om ze te bestellen.

Transcriptie

1 Voorwoord Dit is het overzicht van de hoorcollegestof Methoden, technieken en statistiek 1 voor psychologen. De stof die tijdens de hoorcolleges is behandeld, wordt samengevat in dit verslag. Ook voor Hersenen & Gedrag zijn er samenvattingen beschikbaar. Kijk op onze site voor meer informatie en om ze te bestellen. Om op de hoogte te blijven van alle data en acties kun je lid worden van onze Facebookgroep 'Slimstuderen Psychologie UU'. Dit overzicht is geschreven naar eigen inzicht van de auteur. Bij het maken van deze overzichten wordt geprobeerd de kwaliteit zo veel mogelijk te waarborgen. SlimStuderen.nl kan echter geen verantwoordelijkheid aanvaarden voor het gebruik ervan. Dit overzicht dient als aanvulling/hulpmiddel en niet ter vervanging van de verplichte leerstof. Uiteraard is nadruk verboden. Als je wilt dat wij in staat blijven de verslagen aan jullie aan te bieden, geef dit verslag dan niet aan derden. Laat hen zelf een exemplaar aanschaffen! SlimMededelingen: Kwaliteit Om de kwaliteit van de verslagen op een hoog niveau te houden, zijn wij onder andere afhankelijk van jullie feedback. Heb je opmerkingen, tips of verbeterpunten? Mail ze dan naar info@slimstuderen.nl, dan kunnen we met deze feedback onze verslagen verder verbeteren. Auteurs SlimStuderen is altijd op zoek naar auteurs! Stuur je motivatie en cv naar info@slimstuderen.nl als je interesse hebt! Bestellen Omdat er nog vaak vragen zijn over de levertijd en bestelprocedure, zullen we deze hier uiteenzetten: Bestel je middels een éénmalige machtiging, en doe je dit voor 19:00 uur, dan worden de verslagen dezelfde dag verzonden. In principe ontvang je de verslagen dan de volgende dag, afhankelijk van de bezorging via PostNL. Het bedrag wordt achteraf éénmalig van je rekening afgeschreven. Bestel je middels een overschrijving, dan worden de verslagen eenmaal per week verzonden. Je dient dus zelf het geld over te maken op ons IBAN (NL81 ABNA ). Wanneer je gebruik maakt van deze methode, heb je de verslagen binnen 6 tot 8 werkdagen in huis nadat het geld op onze rekening staat. Social media Bezoek ook eens om op de hoogte te blijven van het verschijnen van nieuwe verslagen en/of supplementen! Succes met de tentamens! SlimStuderen.nl 1

2 Inhoudsopgave VOORWOORD... 1 INHOUDSOPGAVE... 2 HC 7. METHODEN: METEN IN DE SOCIALE WETENSCHAPPEN HC 8. STATISTIEK: TOETSEN VAN HYPOTHESEN... 7 HC 9. METHODEN: STEEKPROEVEN HC 10. STATISTIEK: T-TOETS VOOR EEN GEMIDDELDE EN GEMIDDELD VERSCHIL

3 HC 7. Methoden: Meten in de sociale wetenschappen 2 Understanding research, W.L. Neuman, Hoofdstuk 5 Dit is de stof van het hoorcollege van 29 september Het college gaat verder met een nieuw onderdeel in de empirische cyclus. In het vorige college zijn hypothesen behandeld. Nu gaat het over operationaliseren en dataverzameling. Operationaliseren wordt toegespitst op meten. Men meet om een theorie te toetsen en specifiek om hypothesen te falsifiëren. Het doel van onderzoek is dus om terug te koppelen naar de hypothese. Een meting is zinloos als hij niets meet van de onderzoeksvraag. In dit college wordt behandeld wat men meet, hoe men meet, en hoe men weet of hij goed meet. Hierbij worden de begrippen betrouwbaarheid en validiteit behandeld. Wat meet men? Hoe een meetinstrument in elkaar zit, heeft gevolgen voor de uitkomst van wat gemeten is. Dit geldt voor alle metingen. Daarom is het belangrijk voor onderzoekers om na te denken welk meetinstrument en hoe ze het gebruiken. Er zijn standaard meetinstrumenten waarvan men weet hoe ze werken en hoe goed ze zijn. Deze staan beschreven in de COTAN. Voordat men gaat meten moet men een definitie maken van het onderwerp. Eerst wordt de conceptuele definitie gevormd: een definitie die een omschrijving geeft van het onderwerp. Deze definitie wordt verder uitgewerkt in de operationele definitie, omdat een omschrijving van de concepten niet genoeg is om mee aan het werk te gaan. Er moet ook een omschrijving zijn van de manier waarop de constructen gemeten moeten worden. De operationele definitie moet functioneel zijn. Het mag geen vage omschrijving zijn. In deze cursus wordt het onderscheid tussen conceptuele definitie en operationele definitie niet echt gemaakt. In de sociale wetenschappen wordt alles gemeten wat met mensen te maken heeft. Dit is heel breed, want het gaat onder andere over kenmerken, vaardigheid en kennis, gedrag, attitudes en opinies. Een meting begint met een construct. Een construct is vaag en breed en niet direct meetbaar, bijvoorbeeld IQ. Constructen worden opgesplitst in subconstructen: dimensies om het construct concreter te maken. De subconstructen zijn echter nog steeds abstract en niet direct meetbaar. Wel geven ze een concreter idee van waar men naar op zoek is. Een subconstruct is bijvoorbeeld verbaal en ruimtelijk IQ. Dit is iets specifieker dan alleen IQ. De subconstructen worden weer onderverdeeld in indicatoren (variabelen). Indicatoren zijn wel direct meetbaar. Het zijn bijvoorbeeld specifieke vragen op een IQ-test. Van een abstract construct moet men dus een hele set van concrete variabelen formuleren. Alle kenmerken van het construct moeten worden meegenomen. Bij ieder onderdeel dat men meet, past een bepaalde methode van dataverzameling. Wanneer onderzoekers gedrag onderzoeken, kunnen zij het beste observeren. Vragen naar gedrag werkt vaak niet, omdat mensen zich niet bewust zijn van wat ze doen. Een nadeel aan observatie is dat gedrag dat niet vaak voorkomt, lastig is te observeren. Dan stellen onderzoekers wel vragen. Dit is niet vaak de beste manier, maar wel soms de enige manier. Wanneer onderzoekers meningen, gevoelens of kennis onderzoeken, kunnen zij wel het beste vragen stellen. Bij onderzoek naar gevoelens of ideeën is analyse van teksten of geluid het beste. Hierbij gaat het bijvoorbeeld om brieven of dagboeken. Hierin kan men ideeën van mensen ontdekken. 3

4 Bij kwalitatief onderzoek hoort vaak participerende observatie, inhoudsanalyse en een open vragenlijst. Bij kwantitatief onderzoek hoort meestal een gesloten vragenlijst. Hoe meet men? Bij observatie moet men heel specifiek het gedrag van deelnemers beoordelen, zodat alle deelnemers op dezelfde manier worden geïnterpreteerd. Dit heet coderen. Coderen kan men doen met een codeerschema. Bij open vragen stellen moet men ook coderen, maar dan betekent coderen dat de antwoorden moeten worden samengevat in codes. Het antwoord is de meting waarmee men aan het werk gaat. Alle codes samen vormen dan de data. Coderen in kwalitatieve data-analyse is structuur aanbrengen en overzicht geven. Voor veel constructen worden meerdere vragen gebruikt om het construct te meten. Redenen hiervoor zijn dat het soms onmogelijk of moeilijk is om een construct met één vraag te meten (IQ kan men niet meten met één vraag), of dat meerdere vragen helpen om meetfouten te verminderen. Meerdere vragen zijn te omvatten in een schaaltechniek. Er zijn meerdere schaaltechnieken: Likert schaal: Deze schaal wordt veel gebruikt in de sociale wetenschappen. Het is vaak een antwoordschaal met de antwoorden mee eens tot eens. Meestal is het een vijfpuntsantwoordschaal, maar het kan ook meer of minder zijn. Waar men bij deze schaal over na moet denken is of de deelnemers keuze hebben tot een neutraal antwoord in het midden of niet. Met andere woorden, wil men de deelnemers in een bepaalde richting duwen? Rosenberg s self-esteem scale: Op deze schaal geven deelnemers hun mening over uitspraken over hun zelfvertrouwen. Ze geven dan bijvoorbeeld aan: strongly disagree, disagree, agree of strongly agree. Deze antwoorden worden omgerekend naar cijfers. Na het invullen van alle uitspraken moet men nadenken wat de uitslagen betekenen. Hierbij moet men naar de inhoud van de stellingen kijken, want bij de ene uitspraak betekent agree het tegenovergestelde van bij de andere uitspraak. In dat geval moeten de scores worden aangepast. De score moet namelijk bij iedere uitspraak hetzelfde betekenen. Na het aanpassen van de scores, worden alle scores bij elkaar opgeteld. De eindscore moet men nog interpreteren. Het interpreteren gebeurt op een schaal, die vaak ook nog gemaakt en gekeurd is in apart onderzoek. Sociale afstand schaal: Deze schaal is ontwikkeld door Emory Bogardus om sociale afstand tot groepen mensen te meten. De opbouw is specifiek omdat hij geordend is van grote sociale afstand tot kleine sociale afstand. De opbouw is cumulatief. De sociale afstand schaal is een Guttman schaal. Dit is een soort schaal waarbij men een bepaald antwoordpatroon kan verwachten, omdat er een opbouw is. Dit is niet het geval bij de Likert schaal. Als het patroon niet klopt, is er iets mis. Het is erg lastig om vragenlijsten op een Guttman schaal goed te maken, maar er bestaan standaard vragenlijsten. Semantische differentiaalschaal: Deze schaal wordt gebruikt om iemands gevoel of mening over een product te meten. Aan deelnemers wordt gevraagd om een gevoel te geven bij tegenpolen van kenmerken. Er zijn drie categorieën die worden gemeten: evaluatie, potentieel en activiteit. Bij evaluatie wordt bijvoorbeeld gevraagd naar positief versus negatief. Bij potentieel kan worden gevraagd naar sterk versus zwak, en bij activiteit naar actief versus passief. Dit onderzoek wordt vaak door marketingonderzoekers gedaan. 4

5 Hoe weet men hoe hij goed meet? Hoe men weet of hij goed meet, hangt af van de metingen en de meetfouten die daarbij kunnen optreden. Dit is lastig omdat men nooit echt weet of de meting goed of fout is. Er zijn wel technieken om de meting te controleren. Een meting bevat drie componenten: de ware score, de systematische fout en de willekeurige fout. Score = ware score + systematische fout + willekeurige fout. De ware score is de score die men wil weten en meten. Er is echter altijd een systematische en willekeurige fout waar men rekening mee moet houden. Een systematische fout is een vertekening van alle metingen. Het is een fout in het ontwerp van het onderzoek. Dit kan zijn in het onderwerp of in de onderzoeksopzet. Een systematische fout heeft te maken met invaliditeit. Een willekeurige fout is een toevallige fout door toevalligheden of omstandigheden, die niet voor iedereen hetzelfde is. Dit heeft te maken met onbetrouwbaarheid. Om de ware score te weten, moet men dus de fouten van de score aftrekken. Een onderzoek is valide als er geen systematische fouten zijn. Een onderzoek is betrouwbaar als er geen willekeurige fouten zijn. Onderzoek kan betrouwbaar zijn, maar niet valide. Andersom kan niet: een onderzoek kan niet onbetrouwbaar zijn en wel valide. Betrouwbaarheid is een voorwaarde voor validiteit. (Westeneng, college 7, 2015, slide 28) Betrouwbaarheid Betrouwbaarheid is herhaalbaarheid. Een onderzoek waarin vragen worden gesteld is betrouwbaar als men bij verschillende onderzoeken of omstandigheden dezelfde antwoorden krijgt. Bij observaties is een onderzoek betrouwbaar als men telkens tot dezelfde metingen komt. Manieren om betrouwbaarheid te vergroten: Men moet een heldere operationele definitie hebben. Voor iedereen moet een definitie hetzelfde zijn. Het moet duidelijk zijn waar het over gaat. Er moeten meerdere vragen gesteld worden over een onderwerp, zodat men op meerdere onderdelen kan focussen. Er moeten meerdere observatoren zijn, die op dezelfde manier meten. 5

6 Manieren om betrouwbaarheid te bepalen: Test-hertest: Hiermee doet men dezelfde meting meerdere keren en kijkt men of er dezelfde resultaten zijn. Dit kan lastig zijn omdat mensen na een vragenlijst ervan leren en de volgende vragenlijst anders reageren. Split-halfbetrouwbaarheid: Hiermee wordt de vragenlijst in twee delen gesplitst en wordt gekeken of de antwoorden hetzelfde zijn. Het is belangrijk dat het splitsen niet willekeurig gebeurt, maar dat de items in de delen juist verdeeld zijn. Interne consistentie: Dit is de meest gebruikte manier. Hiermee gaat men met behulp van de statistische maat Cronbach s alpha de samenhang bepalen tussen antwoorden die een deelnemer geeft. Hoe hoger de Cronbach s alpha, hoe beter de betrouwbaarheid. Validiteit Validiteit wordt in drie onderdelen gesplitst. Constructvaliditeit: Deze validiteit bepaalt of men meet wat hij wil meten. Deze valt uiteen in: Indruksvaliditeit (face validity): wat vinden experts van de validiteit? Dit geeft een globale indruk. Inhoudsvaliditeit (concent validity): worden alle aspecten van een construct gemeten? Het is belangrijk om geen belangrijke onderwerpen of kenmerken van een construct te missen. Criteriumvaliditeit (criterior validity): het maken van vergelijkingen om een nieuw meetinstrument op te stellen. Dit valt uiteen in convergente validiteit (is er een verband tussen andere meetinstrumenten met hetzelfde construct?) en predictieve validiteit (hangt een construct samen met een uitkomstmaat?). Interne validiteit: Deze validiteit heeft te maken met de logica van onderzoek. Hierbij stelt men zichzelf de vraag of de gekozen methoden echt antwoord geven op de onderzoeksvraag. Externe validiteit: Deze validiteit kijkt naar de mate waarin resultaten uit een onderzoek gegeneraliseerd kunnen worden naar de populatie. Men stelt zichzelf de vraag of de gegevens van een steekproef representatief zijn voor de populatie en of een uitspraak over de populatie gedaan kan worden. 6

7 HC 8. Statistiek: Toetsen van hypothesen Statistics for the Behavioral Sciences, F.J. Gravetter & L.B. Wallnau, Hoofdstuk 8 Dit is de stof van het hoorcollege van 30 september In dit college wordt uitgelegd hoe met de inductieve of toetsende statistiek een uitspraak gedaan kan worden over een populatie aan de hand van een steekproef. Het steekproefgemiddelde is echter niet altijd precies gelijk aan het populatiegemiddelde, waardoor het lastig is om iets over de populatie te zeggen. Aan de hand van de steekproevenverdeling kan men alsnog iets zeggen over de populatie. Het toetsen van hypothesen gebeurt in vier stappen. In dit college worden de stappen behandeld aan de hand van een voorbeeld (Westeneng, college 8, 2015, slide 7 en 8): Een onderzoeker is geïnteresseerd in hoe goed verpleegkundigen emoties kunnen inschatten. Uit eerder onderzoek is gebleken dat mensen op een test naar emoties gemiddeld 76 punten (met een standaardafwijking van 14 punten) halen. De testscores zijn normaal verdeeld. De onderzoeker neemt een steekproef van 25 verpleegkundigen. Ze krijgen een aantal foto s te zien en moeten een aantal vragen beantwoorden over de emoties van de mensen op de foto s. De verpleegkundigen halen gemiddeld 82 punten. Moet de onderzoeker concluderen dat verpleegkundigen echt beter emoties kunnen inschatten? De vraag die dus beantwoord moet worden is of een steekproefgemiddelde van 82 duidt op een ander populatiegemiddelde dan 76, of dat het duidt op een toevallige variatie in een populatie met gemiddelde van 76. Daarnaast zal dit college bepaalde problemen van hypothese toetsen behandelen en oplossen met Cohen s d en power. Stap 1: Hypothese bepalen en significantieniveau kiezen De eerste stelling is de nulhypothese (H 0 ). Dit is een vaststelling van een situatie, waarbij geen verschil of samenhang is tussen twee groepen. Alles blijft zoals het is. De tweede stelling is de alternatieve hypothese (H 1 ). Hierbij is wel sprake van verandering van een situatie, een verschil tussen groepen, of een effect van een behandeling. Bij het toetsen van hypothesen is de nulhypothese altijd het uitgangspunt. Men gaat uit van de nulhypothese tot hij het idee heeft dat de alternatieve hypothese beter is. De alternatieve hypothese is meestal wat de onderzoeker verwacht te onderzoeken of waar zijn interesse ligt. Voor het voorbeeld geldt: H 0 : μ = 76. Het gemiddelde van de steekproef is gelijk aan het populatiegemiddelde. H 1 : μ 76. Het gemiddelde van de steekproef is niet gelijk aan het populatiegemiddelde. Hypothesen hebben bepaalde kenmerken. Omdat het bij hypothesen toetsen altijd over de populatie gaat, worden Griekse letters gebruikt. In de nulhypothese staat altijd het teken =. In de alternatieve hypothese staan de tekens <, > of. Welke van deze tekens men moet kiezen, hangt af van de theorie. Als men verwacht dat het steekproefgemiddelde groter of kleiner zal zijn dan het populatiegemiddelde, gebruikt met < of >. Er is dan dus sprake van een bepaalde richting (eenzijdige toetsing). Als men deze richting niet in eerdere literatuur vindt, is men alleen op zoek naar een andere situatie en wordt gebruikt. Dan is er sprake van tweezijdige toetsing. Een ander kenmerk is dat het getal dat in de nulhypothese en alternatieve hypothese gebruikt wordt, hetzelfde moet zijn. Dit is van belang, omdat men anders geen goede keuze kan maken tussen de twee hypothesen. De ene moet de andere kunnen uitsluiten. 7

8 Men maakt de keuze tussen de hypothesen op basis van waarschijnlijkheid. Men gaat niet op zoek naar bewijs, maar naar het meest waarschijnlijke. Stap 2: Kritieke waarden bepalen Om te bepalen waar de grens ligt van het waarschijnlijke, gebruikt men de steekproevenverdeling. Die ziet er voor het voorbeeld als volgt uit: (Westeneng, college 8, 2015, slide 12) Wat men weet over deze verdeling is dat waarden die veel voorkomen tussen twee standaardafwijkingen onder en boven het gemiddelde liggen. In de twee gebieden hieronder en hierboven, de staarten, liggen waarden die niet veel voorkomen. Dit principe wordt gebruikt om te bepalen waar de nulhypothese het meest waarschijnlijk is en waar de alternatieve hypothese het meest waarschijnlijk is. Men moet hiervoor een grens bepalen. De grens van het kritieke gebied geeft aan welke hypothese het meest waarschijnlijk is. Vindt men een steekproefresultaat in het kritieke gebied, in het buitenste deel van de verdeling, is dit gemiddelde zo ver van wat men heeft verwacht op basis van de nulhypothese, dat die verworpen wordt. De alternatieve hypothese wordt dan aangenomen. De kritieke waarden worden bepaald op basis van het significantieniveau. Hiervoor wordt de letter α gebruikt en deze wordt uitgedrukt in proportie of percentage. De waarde van α hoeven studenten niet zelf te bepalen. Deze wordt gegeven en is vaak 1 of 5 procent. 8

9 Het grijze gedeelte in de grafiek (Westeneng, college 8, 2015, slide 16) is het kritieke gebied. Wanneer men hier zijn resultaat vindt, is de alternatieve hypothese het meest waarschijnlijk. De nulhypothese moet dan verworpen worden. Het is dan namelijk zo ver van het populatiegemiddelde, dat het duidt op een ander populatiegemiddelde. Het verschil kan dan niet te wijten zijn aan een variatie van het steekproefgemiddelde. Wanneer het resultaat binnen de kritieke grenzen ligt, moet men de nulhypothese niet verwerpen. Die is dan het meest waarschijnlijk en het verschil is te wijten aan variatie. Stel: het significantieniveau is 0,05 of 5% en er wordt, zoals in het voorbeeld, tweezijdig getoetst. De 5% moet dan verdeeld worden over twee staarten. Dus iedere staart bevat 2,5% van de verdeling. In de z-tabel kan worden opgezocht welke z-scores hierbij horen. Deze z-scores zijn en Dit zijn de grenzen waar het kritieke gebied begint. Wanneer in de tabel twee waarden mogelijk zijn, bijvoorbeeld 1.64 en 1.65, dan wordt de waarde gebruikt. Wanneer de uitkomst precies op de kritieke grens ligt, is ook de alternatieve hypothese het meest waarschijnlijk. De kritieke grens is namelijk de eerste waarde van het kritieke gebied. Bij een eenzijdige toets ligt het kritieke gebied maar aan één kant van de verdeling. De staart heeft dan de omvang van het totale significantieniveau. Het gevaar van eenzijdig toetsen is dat men een resultaat kan vinden dat totaal niet verwacht is, aan de andere kant van de verdeling. Dan mag men alsnog niet de nulhypothese verwerpen, omdat in eerste instantie gekozen is voor eenzijdig toetsen. Daarom moet men alleen eenzijdig toetsen als in de literatuur een duidelijke richting is te vinden. Stap 3: Nulhypothese uitgangspunt en z-score berekenen Nu moet berekend worden waar het steekproefgemiddelde ligt op basis van de nulhypothese. Ligt 82 dicht of juist ver van 76 af? De formule voor de z-score is: z-score = (M μ / s) Voor het voorbeeld geldt dat de z-score = / 2.8 =

10 Dit houdt in dat het steekproefgemiddelde van standaardafwijkingen boven het gemiddelde ligt. Stap 4: Beslissing nemen over nulhypothese Nu moet men zich afvragen waar 2.14 in de steekproevenverdeling ligt. De kritieke grenzen waren en Dit betekent dat 2.14 in het kritieke gebied ligt, want het is hoger dan De nulhypothese moet dus verworpen worden. Het steekproefgemiddelde van 82 is gezien het populatiegemiddelde van 76 niet te wijten aan variatie, maar het gaat om een ander populatiegemiddelde. Om een beslissing te nemen over de nulhypothese, kan men het significantieniveau en de z-score vergelijken, zoals hierboven gedaan. De beslissing kan ook genomen worden op basis van de p-waarde: de proportie of het percentage onder de verdeling. Deze kan men dan ook vergelijken met het significantieniveau. Dit gebeurt vaker bij het gebruik van SPSS dan het vergelijken van significantieniveau met z-score. Het resultaat is hetzelfde. Als p groter is dan α, weet men dat het steekproefgemiddelde niet in het kritieke gebied ligt, omdat het staartgedeelte groter is dan het significantieniveau. Als p kleiner is dan α, weet men dat het steekproefgemiddelde wel in het kritieke gebied ligt, omdat het staartgedeelte in het kritieke gebied ligt. Dit geldt voor een eenzijdige toets. Wanneer de p-waarde bij een tweezijdige toets wordt berekend, ligt het kritieke gebied in de twee staarten. Ook de p-waarde ligt dan in twee staarten. De p-waarde is dan P(z 2.14) + P(z -2.14) bij een z-score van Dit betekent dat p = = Omdat dit kleiner is dan 0.05 moet de nulhypothese verworpen worden. Cohen s d Wat men nu weet, is of een verschil significant is of niet. Wat men niet weet, is hoe groot het verschil is. Dit kan belangrijk zijn wanneer voor twee resultaten men het meest significante resultaat moet weten. De grootte van het significantieverschil, of de effectgrootte kan men berekenen met Cohen s d. d = verschil in gemiddelde n / standaardafwijking populatie = (M μ) / σ. De richtlijnen voor de uitkomst zijn: d = 0,2 = klein effect d = 0,5 = medium effect d = 0,8 = groot effect Voor het voorbeeld geldt dat d = / 14 = Dit noemt men een klein tot medium effect. Issues Fouten Het is mogelijk dat men een fout maakt tijdens het toetsen van hypothesen, omdat men een keuze maakt op basis van wat het meest waarschijnlijk is en niet op basis van een bewijs. Zo is het mogelijk dat men de nulhypothese verwerpt, terwijl dat niet zou moeten. Dit is een type I fout. Het wordt aangeduid met α. De kans op dit type fout is even groot als het significantieniveau. 10

11 Het kan ook dat de nulhypothese niet wordt verworpen, terwijl dit wel zou moeten. Dit is een type II fout. Het wordt aangeduid met β. Dit is niet makkelijk te berekenen en dit hoeven studenten niet te kunnen. (Westeneng, college 8, 2015, slide 29 In bovenstaande tabel is te zien hoe de type fouten werken voor het voorbeeld. De verpleegkundigen hadden een significant ander gemiddelde dan het populatiegemiddelde. De juiste conclusie was dus dat er een verschil was. Wanneer de conclusie geen verschil zou zijn, zou er sprake zijn van een type II fout: de nylhypothese zou verworpen moeten worden. Power Power is de kans dat de nulhypothese wordt verworpen wanneer de alternatieve hypothese waar is. Dan is dus de juiste beslissing genomen. Deze kans kan berekend worden. Studenten hoeven dit niet te kunnen. Wel is het belangrijk om te weten welke factoren invloed hebben op de power: Keuze van significantieniveau: Hoe groter het significantieniveau, hoe groter de kans dat de nulhypothese wordt verworpen. Het significantieniveau mag echter niet te groot zijn want dan is de kans op een type I fout groter. Er moet dus een balans zijn. Een acceptabele kans waarbij de power groot genoeg is om de nulhypothese te verwerpen als de alternatieve hypothese waar is, is Dus hoe groter het significantieniveau, hoe groter de power. Verwachte effect (verschil tussen gemiddelde H 0 en H 1 ): Wanneer het verschil tussen de nulhypothese en de werkelijke situatie groter is, is er een grotere kans dat men een groot verschil vindt in de steekproef. De beslissing is dan makkelijker te nemen. De power is dus groter bij een groter verschil. Grootte n: Bij een grotere steekproef kan men een grotere zekerheid inbouwen, omdat men zekerder is dat een steekproefgemiddelde in de buurt ligt van het populatiegemiddelde. Bij een grotere steekproef is de standaardfout namelijk kleiner, waardoor de z-score groter wordt. Het steekproefgemiddelde valt dan eerder in het kritieke gebied. Hoe groter de steekproef, hoe groter de power. Een- of tweezijdig toetsen: Bij eenzijdig toetsen ligt het kritieke gebied aan één kant. Bij tweezijdig toetsen ligt het aan twee kanten. Het significantieniveau wordt dan verdeeld over twee staarten. Bij eenzijdig toetsen begint het kritieke gebied eerder bij tweezijdig toetsen. Daarom is de power groter bij eenzijdig toetsen. 11

12 HC 9. Methoden: Steekproeven Understanding research, W.L. Neuman, Hoofdstuk 4 Dit is de stof van het hoorcollege van 6 oktober Het college gaat net als het vorige methodencollege over de stap operationaliseren. Eerder ging het over inductieve statistiek: van de steekproef naar de populatie. Nu gaat het over sampling: van de populatie naar de steekproef. Oftewel: hoe neemt men uit een populatie een steekproef? Een steekproef is nodig om een uitspraak te doen over de populatie zonder de hele populatie te onderzoeken. Het voorbeeld dat in dit college wordt gebruikt is de onderzoeksvraag: Wat is het effect van ADHD op de sociale ontwikkeling van kinderen? Deze onderzoeksvraag heeft een aantal constructen. Deze abstracte begrippen moeten nog verder geoperationaliseerd worden omdat er niet direct onderzoek naar gedaan kan worden. De constructen zijn ADHD en sociale ontwikkeling. Men moet zich afvragen wat deze constructen zijn en hoe ze gemeten kunnen worden. Tijdens operationaliseren kiest men voor kwalitatief of kwantitatief onderzoek. Aan de hand van deze onderscheiding worden in dit college verschillende steekproeven besproken. Belangrijke termen De populatie is de groep waarnaar de resultaten uit de steekproef gegeneraliseerd worden. Neuman gebruikt de term universe. Dit is geen gebruikelijke term. De doelpopulatie is de groep waaruit een steekproef wordt getrokken. Neuman noemt dit target population of population. Ook dit zijn geen gebruikelijke termen. Bij een hele grote populatie kan het soms moeilijk zijn, te veel geld of te veel tijd kosten om een steekproef te trekken. Daarom wordt dan een doelpopulatie gekozen. Dat is een deel uit de populatie dat vergelijkbaar is met de hele populatie. Dit is belangrijk, want alleen dan kan het onderzoek gegeneraliseerd worden. Deze doelpopulatie kleiner en makkelijker om mee te werken. De steekproef is de groep die feitelijk wordt uitgenodigd voor het onderzoek. Neuman gebruikt hiervoor de term sample, die wel gangbaar is. Elementen zijn de eenheden waarover een uitspraak gedaan wordt. Dit zijn bij sociale wetenschap vaak mensen, maar ze kunnen ook groepen mensen zijn. Een census is een onderzoek onder de hele populatie. Dit soort onderzoek is alleen mogelijk als de populatie niet te groot is en het mogelijk is om de hele populatie te bereiken. De steekproef is de populatie, dus men hoeft niet na te denken of de gegevens gegeneraliseerd kunnen worden. Dit kan namelijk sowieso. Steekproeven bij kwantitatief onderzoek Voor het voorbeeld geldt dat kwantitatief het beste onderzoek is als: Men de sociale ontwikkeling van kinderen met ADHD wil vaststellen. Men de kinderen met ADHD wil vergelijken met kinderen zonder ADHD op hun sociale ontwikkeling. 12

13 Aselecte steekproeven Aselecte steekproeven bij kwantitatief onderzoek zijn: Enkelvoudige aselecte steekproef: Bij deze steekproef heeft men een lijst nodig met alle elementen in de populatie. Vervolgens trekt men een steekproef van een bepaalde grootte op basis van volledige willekeurigheid. Er wordt dus niet gekeken naar kenmerken van mensen. De mensen die willekeurig voor de steekproef zijn getrokken zijn de elementen. Voor het voorbeeld geldt dat deze steekproef niet kan, omdat er geen lijst is van alle kinderen met ADHD. Systematische steekproef: Deze steekproef lijkt op de eenvoudige aselecte steekproef, maar hierbij wordt niet volledig willekeurig getrokken. Er wordt een begincijfer bepaald, bijvoorbeeld 1, en aan de hand daarvan worden andere cijfers bepaald: 11, 21, 31, 41, et cetera. Dit werd vroeger veel gebruikt, toen er nog geen methoden waren om een willekeurige steekproef met de computer te trekken. Tegenwoordig is deze steekproef niet meer relevant. Gestratificeerde aselecte steekproef: Voor deze steekproef is ook een lijst nodig, maar hieruit wordt niet direct een steekproef getrokken. Eerst wordt de populatie verdeeld in subpopulaties (strata). Een stratum is een deel van de populatie. Uit deze strata worden steekproeven van dezelfde grootte getrokken. Dit is bijvoorbeeld van belang wanneer men wil dat mensen uit een kleine stratum een even grote kans hebben om in de steekproef te komen als mensen uit een grote stratum. Ook dit is niet mogelijk voor het voorbeeld, omdat er geen lijst beschikbaar is van alle kinderen met ADHD. Cluster steekproef: Dit is een steekproef waarbij een lijst wordt gemaakt van alle elementen in bepaalde groepen, bijvoorbeeld op basis van een geografisch gebied. Deze groepen kunnen ook een school of bedrijf zijn. Deze groepen of clusters zijn verzamelingen van elementen, waaruit een steekproef wordt getrokken. Dataverzameling is praktischer bij clusters dan bij een grote populatie. Men kan bijvoorbeeld vijf gemeenten selecteren, die geografisch gezien Nederland vertegenwoordigen. Getrapte steekproef: Een cluster steekproef is niet altijd een werkbare situatie. De gemeente Amsterdam is bijvoorbeeld nog steeds erg groot. Een getrapte steekproef is een extra stap na de cluster steekproef, waarbij nog meer stappen worden genomen. Dan wordt bijvoorbeeld een wijk in een stad genomen om te onderzoeken, of een straat in een wijk. Voor het voorbeeld is dit wel mogelijk. Men kan dan bijvoorbeeld van aselect geselecteerde dorpen en steden aselect gekozen scholen voor basisonderwijs kiezen. Dan kan men kinderen met ADHD op deze scholen onderzoeken. Niet-aselecte steekproeven Niet-aselecte steekproeven bij kwantitatief onderzoek maken geen gebruik van een lijst met elementen. Deze steekproefdesigns zijn niet goed, maar wel erg makkelijk. Dit zijn: Gemakssteekproef (convenience sample): Bij deze steekproef probeert men zoveel mogelijk vrijwilligers te verzamelen. Men onderzoekt dan iedereen die wil deelnemen aan het onderzoek. Quotasteekproef: Deze steekproef is een uitbreiding van de gemakssteekproef, waarbij men let op een aantal kenmerken. Technische aspecten bij het trekken van een steekproef op basis van een lijst Men kan een steekproef trekken met of zonder teruglegging. Het lijkt raar om steekproeven met teruglegging te trekken bij steekproeven met mensen, omdat een 13

14 persoon niet twee keer in de steekproef kan voorkomen. Bij statistiek wordt wel uitgegaan van het trekken met teruglegging in plaats van zonder teruglegging. Dit komt omdat alleen dan voor iedereen in de populatie de precieze kansen berekend kunnen worden om in de steekproef terecht te komen. Wanneer de populatie heel groot is, is het verschil tussen met en zonder teruglegging echter heel klein voor de kansen. Een aselecte steekproef is beter dan een niet-aselecte steekproef omdat willekeurigheid de beste kans oplevert dat kenmerken van een populatie terugkomen in de steekproef. Dit is van belang, omdat alleen uit een willekeurige steekproef conclusies getrokken kunnen worden voor de populatie. Een aselecte steekproef is geen garantie voor het terugkomen van kenmerken van de populatie in de steekproef. Wel biedt het de beste kans. Een lijst met elementen kan gevonden worden in bijvoorbeeld een telefoonboek (werkt nu niet meer, want niet iedereen staat hierin), gemeenteregisters, leerlinglijsten, postadressen, et cetera. Deze lijsten kan men niet zomaar opvragen zonder goede onderzoeksopzet. Een steekproef kan willekeurig getrokken worden met een random number generator. Dit is een digitaal programma waarin men onderzoeksgegevens kunt invullen. Het programma geeft dan willekeurig nummers. Steekproeven bij kwalitatief onderzoek Voor het voorbeeld geldt dat kwalitatief het beste onderzoek is als: Men wil weten hoe kinderen die ADHD hebben dat beleven. Men wil weten hoe ouders en broers of zussen dat beleven. Men je het sociale gedrag van kinderen met ADHD op een open manier wil observeren. Bij het trekken van een steekproef bij kwalitatief onderzoek wordt nauwelijks gebruik gemaakt van aselecte steekproeven. Doelgerichte steekproef (purposive sample): Bij deze steekproef kiest men die mensen die specifieke kenmerken hebben die belangrijk zijn voor het onderzoek. Voor het voorbeeld geldt dat bij deze steekproef bijvoorbeeld ouders worden gekozen die actief zijn op en internetforum, zodat men weet dat zij verstand van het onderwerp hebben. Sneeuwbal steekproef: Deze steekproef vraagt mensen die aan het onderzoek meedoen of zij nog meer mensen kennen die kunnen meedoen. Dit is handig wanneer een bepaalde groep moeilijk op te sporen is. Als men gewoon een lijst kan opvragen, is dit niet nodig. Het verschil tussen kwantitatieve en kwalitatieve steekproeven Bij kwantitatieve steekproeven ligt de focus op het hebben van een goede, representatieve steekproef, zodat de resultaten gegeneraliseerd kunnen worden naar de populatie en de onderzoeksvraag valide beantwoord kan worden. Een grote externe validiteit is belangrijk. Dit is de mate waarin resultaten uit een steekproef gegeneraliseerd kunnen worden naar de populatie. Men weet eigenlijk nooit of een steekproef representatief is, maar een aselecte steekproef is de beste methode. 14

15 Bij een kwalitatieve steekproef ligt de focus niet op de externe validiteit. Dit soort onderzoek is geïnteresseerd in specifieke mensen, met specifieke kenmerken. Er is sprake van een case study van een kleinere groep mensen. Er is dus een kleinere steekproef. De conclusies gelden eigenlijk voor de hele groep mensen bij wie data is verzameld. Generaliseren is dus niet van belang. Bij kwalitatieve steekproeven verzamelt men net zo lang data tot hij genoeg heeft. Representativiteit Een steekproef zelf is nooit representatief, want het is de groep mensen die men uitnodigt om mee te doen. Uiteindelijk worden de conclusies gebaseerd op alleen de mensen bij wie men data heeft verzameld. Soms doen mensen uit de steekproef niet mee aan het onderzoek. Onderzoekers moeten dus niet alleen een goede steekproef trekken, maar ook mensen overhalen om mee te doen aan het onderzoek. Dit kan door middel van een betaling of beloning, of een kans op beloning (loting). Problemen die kunnen optreden wat betreft representativiteit: Dekkingsfout: Bij deze fout trekt men een steekproef uit een beperkt deel van de populatie. Een voorbeeld is het trekken van een steekproef uit een telefoonboek. Niet iedereen in Nederland staat in het telefoonboek, dus de populatie komt niet overeen met de doelpopulatie. De dekkingsfout is groot bij een gemakssteekproef. Steekproeffout: Bij deze fout klopt dat wat uit de steekproef komt niet met dat wat in de populatie te vinden is. Hierbij klopt de steekproef gewoon niet. Men kan dit nooit helemaal voorkomen, want verschillende steekproeven leveren verschillende gemiddelden op en kunnen weleens niet kloppen. Men kan wel de variatie, de standaardfout, verkleinen door een grotere steekproef te nemen. Bij een grotere steekproef is er een grotere kans op juiste gegevens, omdat er minder kans is op extremen die beïnvloeden. Nonresponsfout: Bij deze fout is er een goede steekproef, maar willen niet veel mensen uit de steekproef meedoen aan het onderzoek. De groep die wel heeft gereageerd kan andere kenmerken hebben dan de groep die niet heeft gereageerd. Men kan bij deze fout toch gegevens verzamelen van mensen die niet hebben gereageerd. Door de belangrijkste achtergrondkenmerken van de twee groepen te vergelijken, kan men bepalen of de twee groepen voor deze kenmerken gelijk zijn of verschillen. Als ze verschillen kan men de conclusies niet baseren op de groep die wel heeft gereageerd. 15

16 HC 10. verschil Statistiek: T-toets voor één gemiddelde en gemiddeld Statistics for the Behavioral Sciences, F.J. Gravetter & L.B. Wallnau, Hoofdstuk 9 & 11 Dit is de stof van het hoorcollege van 7 oktober In het vorige college is het hypothese toetsen aan de hand van de z-score uitgelegd. Hierbij werden de volgende stappen gebruikt: Stap 1: hypotheses bepalen en significantieniveau kiezen Stap 2: kritieke waarden bepalen Stap 3: H0 uitgangspunt en de toetsingsgrootheid uitrekenen Stap 4: beslissing nemen over H 0 In dit college zullen twee nieuwe vormen van hypothese toetsen worden uitgelegd, aan de hand van dezelfde stappen. Deze vormen zijn de t-toets en de t-toets bij afhankelijke groepen. Het voorbeeld dat in dit college wordt gebruikt is: Een onderzoeker wil de mate van angst meten van meiden tussen 12 en 18 jaar die in de 6 maanden daarvoor een ernstig ongeluk hebben meegemaakt. Uit eerder onderzoek is gebleken dat de mate van angst van meiden tussen 12 en 18 jaar gemiddeld 30 is. De onderzoeker vraagt zich af of meiden die een ernstig ongeluk hebben meegemaakt een andere mate van angst hebben (Westeneng, college 10, 2015, slide 4). De onderzoeksvraag hierbij is: Wijkt de gemiddelde mate van angst van meiden die een ernstig ongeluk hebben meegemaakt significant af van 30? De t-toets Bij het berekenen van de toetsingsgrootheid met de formule z-score = (M μ / σ), zoals in het vorige college is gedaan, is de standaardafwijking van de populatie nodig. Als deze niet bekend is en men deze niet kan overnemen uit een andere populatie of eerder onderzoek, kan men de t-toets gebruiken om de hypothese te toetsen. Stap 1 Eerst moet men de nulhypothese en de alternatieve hypothese formuleren, net zoals bij het hypothese toetsen met de z-score. Voor het voorbeeld moet men zich afvragen of het gemiddelde significant afwijkt van 30. Hiervoor geldt: H 0 : μ = 30 H 1 : μ 30 Het significantieniveau is α: Stap 2 Deze stap is anders dan bij het hypothese toetsen met de z-score. In plaats van de standaardafwijking van de populatie (σ) gebruikt men de standaardafwijking van de steekproef (s). De kritieke waarden worden bepaald in de t-verdeling. Er is dus niet meer een standaardnormaalverdeling, maar een t-verdeling. Deze verdeling ziet er als volgt uit (Westeneng, college 10, 2015, slide 8): 16

17 De dikgedrukte lijn is de standaardnormaalverdeling. De gestippelde lijn en de gestreepte lijn zijn beide t-verdelingen. Ze zijn ook symmetrisch en klokvormig, maar hebben een grotere spreiding. De extremere scores komen vaker voor dan in een standaardnormaalverdeling. Daarnaast zijn er meerdere t-verdelingen mogelijk. Wat bepaalt welke t-verdeling je nodig hebt zijn de degrees of freedom (df), ofwel het aantal vrijheidsgraden. Dit aantal is de grootte van de steekproef 1. df = n 1 De t-verdeling is afhankelijk van de grootte van de steekproef. In de grafiek staat de hoeveelheid vrijheidsgraden tussen haakjes. Hoe meer vrijheidsgraden er zijn, hoe meer de t-verdeling lijkt op een standaardnormaalverdeling. Dit komt omdat bij een kleinere steekproef er een kleinere kans is dat de resultaten uit de steekproef lijken op de resultaten uit de populatie. Bij een grotere steekproef lijkt de t-verdeling meer op een standaardnormaalverdeling, en dus op een verdeling zoals men die bij de z-toets zou gebruiken. Bij het bepalen van de kritieke waarden moet men eerst de juiste t-verdeling kiezen. Hiervoor is een tabel achterin Statistics for the Behavioral Sciences of in het formuleboekje. Eerst moet men het aantal vrijheidsgraden bepalen. Deze staan in kolom 1. Daarna moet men de juiste kolom kiezen: eenzijdig of tweezijdig toetsen. Hiervoor moet men in de alternatieve hypothese kijken. Dan moet ook in de tabel worden gekozen voor het juiste significantieniveau. Men zit vast aan de significantieniveaus van de tabel en kan niet zelf kiezen. Dan kunnen de kritieke waarden in de tabel afgelezen worden. Helemaal onderaan in de tabel staan de kritieke waarden die horen bij hypothese toetsen met een z-score. Hoe meer vrijheidsgraden er zijn, hoe lager de kritieke waarden in de tabel liggen, en hoe dichter de kritieke waarden bij de kritieke waarden van de z-score komen te liggen. Stap 3 Nu moet de toetsingsgrootheid worden berekend. Voor het voorbeeld geldt: De onderzoeker heeft bij 35 meiden die een ernstig ongeluk hebben meegemaakt hun mate van angst gemeten (Westeneng, college 10, 2015, slide 10). Het aantal vrijheidsgraden = n - 1 = 35 1 = 34. Voor deze waarde is geen rij in de tabel, dus moet men het kleinere aantal vrijheidswaarden kiezen. Men kiest dus niet het getal dat het dichtstbij ligt, maar het kleinste getal. Dit is rij 30 in plaats van rij 40. Ook bij df = 38, zou rij 30 17

18 gekozen moeten worden. Het significantieniveau is 0.05 en de hypothese is tweezijdig getoetst, dus uit de tabel blijken de kritieke waarden en In de steekproef van 35 meiden is de gemiddelde mate van angst met een standaardafwijking van (Westeneng, college 10, 2015, slide 11). t-waarde = (M μ) / (s / n) = ( ) / (9.768 / 35) = Het populatiegemiddelde haalt men uit de nulhypothese en is in dit geval dus 30. Het enige verschil van deze formule met de z-toets is dat bij die laatste de standaardafwijking van de populatie wordt gebruikt en hier de standaardafwijking van de steekproef. Stap 4 In de laatste stap wordt een beslissing over de nulhypothese genomen. De kritieke waarden waren en De toetsingsgrootheid is groter dan deze waarden en ligt dus in het kritieke gebied. Daarom wordt de nulhypothese verworpen. Deze beslissing is hetzelfde als bij toetsen met de z-score. Ligt de toetsingsgrootheid niet in het kritieke gebied, dan wordt de nulhypothese niet verworpen. Dit betekent voor het voorbeeld dat de gemiddelde mate van angst van meiden die een ernstig ongeluk hebben meegemaakt significant anders is dan 30. Voor de effectgrootte wordt niet Cohen s d berekend, maar de geschatte Cohen s d. Het enige verschil is dat de standaardafwijking van de steekproef wordt gebruikt in plaats van de standaardafwijking van de populatie. d = (M μ) / s = ( ) / = wordt geïnterpreteerd als een middelmatig effect, omdat het dicht bij 0.5 ligt. De richtlijnen hiervoor zijn dezelfde als bij Cohen s d. Sommige onderzoekers zouden echter kunnen zeggen dat de effectgrootte klein tot middelmatig is. SPSS output De analyse zou ook in SPSS uitgevoerd kunnen worden. De tabellen zien er als volgt uit (Westeneng, college 10, 2015, slide 14): In de bovenste tabel staan de steekproefresultaten. In de onderste tabel staan de toetsresultaten. T is de toetsingsgrootheid. De p-waarden kon men bij de z-toets opzoeken in de tabel. Dit was dan het staartgedeelte. Bij de t-toets kan dit niet. SPSS geeft de p-waarden wel. Hiermee kan ook een uitspraak over de nulhypothese worden gedaan. Hiervoor is het wel belangrijk om te weten of men eenzijdig of tweezijdig toetst. SPSS geeft hier geen keuze voor; het geeft automatisch de tweezijdige toets (Sig. (2-18

19 tailed)). In het voorbeeld wordt een tweezijdige toets gebruikt, dus deze kan meteen vergeleken worden met het significantieniveau. SPSS geeft als p-waarde 0.009, wat kleiner is dan Ook dit geeft aan dat de nulhypothese verworpen moet worden, want als p kleiner is dan het significantieniveau, moet de nulhypothese verworpen worden. Bij een eenzijdige toets moet de p-waarde door 2 gedeeld worden, zodat de p-waarde maar in één staart van de verdeling ligt. Betrouwbaarheidsinterval De hypothese toets laat zien of er sprake is van een statistisch significant resultaat (de alternatieve hypothese wordt aangenomen). De gemiddelde angstscore van meiden die een ernstig ongeluk hebben meegemaakt is hoger dan 30. De hypothesetoets laat alleen zien welke hypothese waarschijnlijk is, maar laat niet het nieuwe populatiegemiddelde zien. Om te weten wat het nieuwe populatiegemiddelde is, kan men kan kijken naar de steekproef, waarin M = 34.60, en zeggen dat het nieuwe populatiegemiddelde is. Dit is een puntschatting, want men neemt een punt en zegt daarvan dat dat het nieuwe populatiegemiddelde is. Er is echter variatie tussen steekproeven; iedere steekproef heeft een ander gemiddelde. Hierdoor is de puntschatting vaak niet helemaal correct. Met andere woorden: het steekproefgemiddelde is geen garantie dat het populatiegemiddelde hetzelfde is. Hierom wordt voor de inschatting van een nieuw populatiegemiddelde een interval gebruikt. Dan zegt men dat het populatiegemiddelde zal liggen tussen twee waarden. De ruimte tussen deze twee waarden wordt het betrouwbaarheidsinterval genoemd. Gebruikt men het betrouwbaarheidsinterval, dan zit hij vaak goed en altijd beter dan bij een puntschatting. Het kan wel zo zijn dat er een extreme steekproef is met een extreem steekproefgemiddelde. Het interval is dus geen garantie dat het juiste wordt gedaan. De ondergrens en bovengrens van het betrouwbaarheidsinterval worden berekend aan de hand van het steekproefgemiddelde, de spreiding in de steekproevenverdeling (de geschatte standaardfout) en het niveau van de betrouwbaarheid. Deze laatste kan men zelf kiezen, maar de meest voorkomende zijn 90%, 95% en 99%. Een betrouwbaarheidsniveau van 95% houdt bijvoorbeeld in dat bij 100 steekproeven, 95 keer het populatiegemiddelde in het interval ligt. Dit niveau wordt omgezet in de t- waarde, die opgezocht kan worden in de tabel. De ondergrens = M t s M De bovengrens = M + t s M Het betrouwbaarheidsinterval van 95% voor de gemiddelde angstscore van meiden die een ernstig ongeluk hebben meegemaakt is: M ± (plus of min) t s M = ± (9.768 / 35) = 34 ± = [31.23 ; 37.97) De t-waarde in bovenstaande formule komt uit de tabel, bij tweezijdig toetsen en een significantieniveau van 95% (0.05). Dit is toevallig ook de t-waarde van de hypothese toets, omdat daarbij ook significantieniveau 0.05 werd gebruikt, maar het hoeft niet dezelfde te zijn. Het betrouwbaarheidsniveau kan men kiezen zoals hij wil. Hoe hoger het betrouwbaarheidsniveau, hoe vaker men de juiste beslissing neemt. Hij mag echter niet te hoog liggen, want dan wordt het interval te breed. Men heeft dan niets aan het betrouwbaarheidsinterval. De t-toets voor afhankelijke groepen De onderzoeker wil weten of het zelfvertrouwen van meiden die een ernstig ongeluk hebben meegemaakt vergroot kan worden met een training. De meiden volgen een 19

20 training van 6 maanden. De onderzoeksvraag is: Is het zelfvertrouwen na 6 maanden training groter? Men moet hiervoor twee metingen doen: een voormeting en een nameting. Dit past niet in de t-toets zoals hierboven is uitgevoerd, want daarbij was er één gemiddelde en één meting. Nu neemt men het verschil tussen de voormeting en nameting. Het maakt niet uit of men de voormeting van de nameting aftrekt of andersom. He gaat erom dat de verschilscore een handige score is om mee te rekenen. De interpretatie is voor het voorbeeld makkelijker als men de voormeting van de nameting aftrekt, omdat een grotere score in de nameting wordt verwacht. De verschilscores zijn de scores waarop de berekeningen van het gemiddelde en de standaardafwijking worden uitgevoerd. Voor de data geldt (Westeneng, college 10, 2015, slide 23): (D = difference) M D = S D = Het doen van een t-toets van afhankelijke groepen of gepaarde waarnemingen werkt hetzelfde als de normale t-toets. Men gebruikt dit wanneer twee scores van eenzelfde individu komen, zoals in het voorbeeld, of wanneer de scores op een andere manier afhankelijk van elkaar zijn. Dit kan bijvoorbeeld zijn wanneer twee personen die iets met elkaar gemeen hebben een vragenlijst over hetzelfde invullen. Stap 1 In het voorbeeld wordt gevraagd of de nameting hoger is dan de voormeting. H 0 : μ D = 0 H 1 : μ D > 0 De manier waarop de verschilscores worden berekend, moet aansluiten op de manier waarop men de alternatieve hypothese formuleert. Als men de nameting van de voormeting had afgetrokken, had in de alternatieve hypothese niet >, maar < gestaan. Significantieniveau: α = Stap 2 df = n-1 = 34. Er wordt eenzijdig getoetst. In de tabel kan men aflezen dat t kritiek = Hier gaat het alleen om de positieve waarde, omdat er eenzijdig positief wordt getoetst. Dit hangt af van de alternatieve hypothese. Stap 3 t-waarde = (M D μ D ) / (S D / n) = ( ) / (4.627 / 35) = In veel gevallen zal μ D 0 zijn, maar niet altijd. Stap 4 Het kritieke gebied begint bij en t is groter dan deze waarde. De nulhypothese moet dus verworpen worden. Dit betekent dat het zelfvertrouwen van de meiden op de nameting significant hoger is dan op de voormeting. Ook hierbij kan men de geschatte Cohen s d berekenen: d = (M D μ D ) / (S D ) = ( ) / = 0.94 Dit is een groot effect. Het betrouwbaarheidsinterval geeft de waarden 2.75 en 5.9, want ± (0,782) = ±

21 Een extra maat voor de effectgrootte is r 2. Deze berekent men door de toetsingsgrootheid te kwadrateren en te delen door dit getal plus het aantal vrijheidswaarden: r 2 = t 2 / (t 2 + fd) Richtlijnen hierbij zijn: r 2 = 0.01 = klein effect r 2 = 0.09 = medium effect r 2 = 0.25 = groot effect Bij t-toetsen is het gebruikelijk om de geschatte Cohen s d als effectgrootte te gebruiken. r 2 wordt meestal niet in wetenschappelijke publicaties gerapporteerd. Deze wordt gebruikt bij andere hypothese toetsen, bijvoorbeeld wanneer men samenhang wil berekenen. SPSS output Ook voor de t-toets bij afhankelijke groepen kan SPSS data berekenen. SPSS geeft de steekproefgegevens (bovenste tabel) en de gegevens van de verschilscores (onderste tabel) (Westeneng, college 10, 2015, slide 31). De steekproefgegevens worden nauwelijks gebruikt. Wederom geeft SPSS bij de p-waarde standaard de gegevens voor een tweezijdige toetsing. In het voorbeeld is eenzijdig getoetst, dus moet men het getal Sig. (2-tailed) nog delen door 2. In dit geval is dat / 2, wat geen betekenis heeft. In andere gevallen maakt dit wel uit. APA Over statistische resultaten wordt gerapporteerd volgens bepaalde regels van de American Psychological Association (APA). Voor getallen die groter dan 1 kunnen worden (het gemiddelde, de standaardafwijking, t-toets, effectgrootte), rapporteert men 2 decimalen. Voor getallen die niet groter dan 1 kunnen worden (p, want een proportie), zijn dit 3 decimalen. Voor het voorbeeld zegt men in APA stijl: Het zelfvertrouwen van meiden die een ernstig ongeluk hebben meegemaakt is na een training van 6 maanden gemiddeld significant hoger dan voorde training, (M D = 4.34, s = 4.63), t (34) = 5.55, p <.001, d = 0.94 (Westeneng, college 10, 2015, slide 32). Hierbij zijn t, p en d schuingedrukt. De enige uitzondering waarbij men een proportie niet met 3 decimalen mag rapporteren is bij p = (wat hier het geval is). Dan zegt men: p < Het betrouwbaarheidsinterval zou ook nog gerapporteerd kunnen worden. 21