Tabel Sleutel voor de goede antwoorden van de data op de eerste blz.

Maat: px
Weergave met pagina beginnen:

Download "Tabel Sleutel voor de goede antwoorden van de data op de eerste blz."

Transcriptie

1 10. ITEMGEGEVENS EN BETROUWBAARHEID Inleiding De eerste bladzijde van Deel II van de syllabus bevat een zogenaamde datamatrix. Daarin zijn nemen we even aan de resultaten weergegeven van een tentamen. Daaraan hebben 10 studenten deelgenomen (de verticale rij cijfers) en het tentamen bestond uit 10 meerkeuze vragen. Elke student heeft iedere vraag beantwoord. In de matrix zijn alle antwoorden weergegeven. Om iets te kunnen zeggen over de items (en de kennis van de studenten) moeten we alle items hercoderen, zodat een goed antwoord met een 1 aangegeven wordt en een fout antwoord met een 0. In Tabel 10.1 is voor alle tien vragen aangegeven wat het goede antwoord is. Tabel Sleutel voor de goede antwoorden van de data op de eerste blz. Vraag G_A Vraag G_A Vraag G_A Vraag G_A Vraag G_A Dat doe je als volgt: ga naar TRANSFORM -> RECODE INTO SAME VARIABLE. Dan krijg je het schermpje hiernaast. Je brengt eerst vraag1 naar rechts; dat is de eerste variabele die je gaat hercoderen. Klik op Old and New Values. Dan kom je in een tweede scherm, waar je aangeeft dat je antwoord 1 (de zogenaamde Old Value ) wilt hercoderen naar 1 (de zogenaamde New Value ). Vervolgens klik je op Add. Nu zijn alle enen bij vraag1 omgezet naar enen (er is dus de facto niet veel gebeurd). Maar we moeten ook aangeven dat alle andere waarden (All other values) naar 0 gecodeerd moeten worden (klik op: All other values en op ADD. Daarna kun je op CONTINUE en OK klikken. Als je nu naar de data kijkt, zie je dat bij vraag1 alleen nog de codes 1 (goed antwoord) en 0 (fout antwoord) voorkomen. Dit moet je ook doen voor de resterende vragen.

2 170 Als je het goed gedaan hebt, ziet je data-file er als volgt uit. Wanneer een vraag goed is beantwoord, staat in de matrix nu een 1. Een fout antwoord staat met een 0 aangegeven. De eerste student heeft het eerste twee items goed, het derde fout en het vierde en de volgende items goed. Je ziet dat student -6- vraag 7 goed heeft beantwoord. We zullen in het vervolg zo'n tentamen een test noemen. De vragen waaruit een tentamen bestaat noemen we items en de keuzen per item alternatieven. Tenslotte zullen we de studenten verder proefpersonen of respondenten noemen. In dit hoofdstuk zullen we een aantal technieken introduceren die je behulpzaam kunnen zijn bij het beantwoorden van verschillende vragen naar aanleiding van de datamatrix. Realiseer je goed dat het ook in dit hoofdstuk weer gaat om datareductie. Het hoeft je daarom niet te verbazen dat weer centrum, spreidings- en correlatiematen aan de orde komen. In dit hoofdstuk zullen we echter wat dieper ingaan op de vragen die je door middel van het afnemen van een test wilt beantwoorden, welke informatie je dus uit zo'n datamatrix wilt halen en welke vormen van datareductie in dat licht zinvol zijn. In deze inleiding zullen we een paar van die vragen aan de orde stellen. Waarom worden testen afgenomen? Het antwoord is: om onderscheid te kunnen maken tussen proefpersonen. Stel dat het eerder genoemde tentamen de afsluiting is van een bepaalde cursus. Het tentamen wordt nu afgenomen om te weten te komen welke studenten veel van de cursusstof weten en welke weinig. Met het toekennen van cijfers voor een tentamen maakt de docent die het tentamen afneemt kenbaar wat die verschillen tussen de studenten zijn. Een 10 verschilt van een 6 en dat verschil representeert een bepaalde betekenis: het verschil in kennis van de cursusstof.

3 HOOFDSTUK 10: ITEMGEGEVENS EN BETROUWBAARHEID Twee kwesties zijn nu van belang. Allereerst: hoe kom je aan die cijfers en ten tweede: in hoeverre geven de verschillen in cijfers verschillen in kennis van de cursusstof weer? De eerste vraag laten we rusten. Die is eerder aan de orde geweest (zie het eerste deel van deze syllabus). De tweede vraag niet. Deze vraag behandelen we nu; vooral omdat deze betrekking heeft op de interpretatie van de gegevens en het belang dat aan de gegevens gehecht kan worden. Wat houdt dat in: geven de verschillen in cijfers verschillen in kennis van de cursusstof weer? Zoals gezegd wordt een test afgenomen om onderscheid te kunnen maken tussen proefpersonen. We veronderstellen derhalve dat er van een reëel bestaand onderscheid sprake is. We verwachten bijvoorbeeld meer zessen dan enen of tienen. We verwachten derhalve dat de verdeling van cijfers op de één of andere manier een reflectie is van een bestaande verdeling in de kennis die het tentamen beoogt te meten. Net zo verwachten we van een intelligentietest dat die bestaande verschillen in intelligentie reflecteert bij proefpersonen die de test afleggen. Als bijvoorbeeld een intelligentietest bij een aselecte steekproef afgenomen wordt en er zou blijken dat alle respondenten dezelfde score hebben dan zouden we de conclusie moeten trekken dat al de respondenten even intelligent zijn. Dat is natuurlijk een hoogst onwaarschijnlijk resultaat aangezien er grote verschillen zijn tussen mensen. Op grond van zo'n resultaat zou je geneigd moeten zijn te twijfelen aan de kwaliteit van de ontworpen intelligentietest. Nu is het zeker niet op voorhand zo dat een test die bestaande verschillen altijd correct reflecteert. Iedere docent heeft wel eens meegemaakt dat 98% van de studenten een voldoende haalde voor een tentamen of juist een onvoldoende. Dat tentamen differentieert dus zeer slecht tussen studenten. Deze studenten verschillen echter wel in kennis en vaardigheden met betrekking tot de getentamineerde stof. Het tentamen kan deze verschillen echter niet zichtbaar maken; de verschillen in kennis en vaardigheden worden niet gereflecteerd in verschillen in cijfers. Dit tentamen is derhalve niet zo'n goed tentamen; het is in ieder geval voor selectiedoeleinden minder geschikt. Door de geringe correspondentie tussen de geobserveerde scores en de (veronderstelde) verschillen in kennis en vaardigheden kan dit tentamen als onbetrouwbaar gekenschetst worden. We breiden de zaak nog wat uit. Niet alleen moet de test de bestaande verschillen correct reflecteren maar ook moet de test meten wat je wilt dat die meet. Dus wanneer je met een bepaalde cursus beoogt een bepaalde kenniscomponent X aan te brengen bij proefpersonen dan moet je test ook van dien aard zijn dat de resultaten ervan weergeven in welke mate kenniscomponent X bij de proefpersonen aanwezig is. Gechargeerd: wanneer je verschillen in schrijfvaardigheid wilt vaststel-

4 172 len bij een groep proefpersonen, heeft het zo op het eerste gezicht weinig zin om hun lengte te gaan meten. De test (lengte-meting) zegt in zo'n geval niets over wat je wilt weten (de (verschillen in) schrijfvaardigheid). Het betreft hier natuurlijk een validiteitsprobleem. Nu is de betrouwbaarheid een noodzakelijke maar niet voldoende voorwaarde voor de validiteit. Pas als een meting van vaardigheid X betrouwbaar is, heeft het zin om in te gaan op de aspecten met betrekking tot de validiteit. Een volledig onbetrouwbare meting is dan ook een invalide meting. Anders gezegd: de betrouwbaarheid geeft de bovengrens aan van de validiteit. Dit onderstreept het belang van de betrouwbaarheid voor de interpretatie van geobserveerde scores. Er is echter nog een tweede punt waarmee we het belang van de betrouwbaarheid kunnen onderstrepen. Eigenlijk is het onmogelijk een uitspraak te doen over de validiteit van een meting. De validiteit van een toets is niet te berekenen. Uitspraken over de validiteit komen in principe neer op een uitspraak als: deze toets lijkt mij een valide meting, of: ik vind deze toets valide en anderen vinden dat ook. Validering is dikwijls een poging tot geloofsberedenatie, een vorm van wat we wel gezichts- of indruksvaliditeit noemen (of face validity in het Engels). Wat derhalve de gangbare praktijk is, is dat we een schatting maken van de betrouwbaarheid van een toets, want dat kan wel. En deze schatting gebruiken we vervolgens als een indicatie voor de validiteit van de meting. Daar is op zich niets op tegen zolang we ons bedenken dat het een enigszins optimistische schatting betreft. Terzijde zij opgemerkt dat we deze link tussen validiteit en betrouwbaarheid natuurlijk alleen kunnen leggen als er niet duidelijk iets mis is met de meting. Als we zoals in het bovenstaande voorbeeld de lengte gebruiken als indicatie voor de schrijfvaardigheid zal natuurlijk niemand geneigd zijn deze link tussen betrouwbaarheid en validiteit te maken. Dat gebeurt alleen indien er ook de indruk bestaat dat de meting valide is. Deze en dergelijke vragen (die je eenvoudig kunt afleiden uit een aantal eisen omtrent validiteit en betrouwbaarheid die aan tests gesteld worden) kun je aan de hand van een aantal technieken beantwoorden. In de volgende hoofdstukken gaan we daar dieper op in Databewerking Nu we weten waarom een test wordt afgenomen moeten we een volgende vraag gaan stellen: wat hebben al die enen en nullen ons te vertellen? Simpel gesteld: als we er niks mee doen en gewoon dom ernaar blijven staren gebeurt er niets. Om er chocola van te maken moeten we de enen en nullen, onze data dus, gaan bewerken. Alle enen en nullen zijn op te vatten als onze waarnemingen aan een populatie; waarnemingen van een steekproef van items aan een steekproef van studenten. We gaan nu op zoek naar de aard en de mate van samenhang tussen al die

5 HOOFDSTUK 10: ITEMGEGEVENS EN BETROUWBAARHEID waarnemingen. Dat houdt in dat we een aantal vragen stellen naar aanleiding van de verzamelde scores. Als je deze data in SPSS hebt ingevoerd, ziet het er ongeveer als volgt uit: De eerste bewerking die je kunt bedenken, houdt in dat je van alle studenten de verzamelde scores optelt. Het gaat hier om tien items dus dan krijg je voor een bepaalde student bijvoorbeeld als uitkomst: 9 goed (en dus 1 fout; de eerste respondent in de datamatrix). Wanneer we dit voor alle 10 studenten doen, hebben we de totale set van 10 X 10 = 100 gegevens tot het behapbare aantal van 10 teruggebracht. We moeten SPSS dan de opdracht geven de score op alle 10 items bij elkaar op te tellen. SPSS moet dus de somscore van alle 10 items berekenen. Ga naar TRANSFORM en dan naar COMPUTE. Je komt dan in het onderstaande scherm, waar je eerst (linksboven) de naam van de nieuwe, te creëren variabele moet intypen (hier is die variabele som) genoemd, en vervolgens (rechtsboven) moet aangeven dat die nieuwe variabele v1+v2+v3+v4+v5... is. Tot slot druk je op OK en kijkt of het programma inderdaad de opdracht uitgevoerd heeft. Nu is er nog een tweede manier om de somscore te creëren. In feite komt de somscore neer op het tellen van het aantal enen per student. Dat is, door de codering

6 174 in termen van nullen (fout) en enen (goed) exact hetzelfde als de vorige bewerking waar alle items bij elkaar opgeteld werden. In veel gevallen is deze tweede manier, via de procedure veel makkelijker (dat wil zeggen: minder typewerk). Het gaat als volgt, ga via ANALYZE naar COUNT. Klik op COUNT, en je komt in het volgende schermpje. In dit schermpje moet je (wederom) aangeven hoe de nieuwe variabele heet (som) en daarna moet je aangeven voor welke variabele je een telling (count) wil uitvoeren (v1, v2, tot en met v10). Ook heb je bij Count de mogelijkheid om een label aan de variabele toe te voegen (bijvoorbeeld: aantal goed beantwoorde vragen). Nu moeten we nog aangeven welke waarden geteld moeten worden. Dus we klikken op DEFINE VALUES waar we aan kunnen geven dat we geïnteresseerd zijn in het aantal enen per student. In bovenstaand scherm dat dan verschijnt, typ je een één bij Value, en klikt op Add. Waarna CONTINUE en OK de rest doen. Je hebt nu (weer) een som gemaakt, die je in de data-file gewoon kunt bekijken. Je ziet dan dat de eerste student 9 vragen correct beantwoord heeft, de tweede ook 9 en de derde 10 vragen goed heeft. Dat is op het eerste gezicht winst, want we hebben de 10 * 10 = 100 scores nu samengevat tot 10 scores. Maar wat zegt ons nu dat een student 9 van de 10 vragen correct beantwoord heeft en dus ook 1 vraag fout beantwoord heeft? Beheerst deze student de vaardigheid nu voor 90%? Nee. Dat zegt helemaal niets. De interpretatie van dit percentage is namelijk volledig afhankelijk van de scores van de andere studenten. Immers, we meten (hoogstens) op een intervalschaal en op een intervalschaal is geen absoluut referentiepunt (nulpunt) aanwezig. Dit in tegenstelling tot een meting op een ratioschaal (zie: Deel I). Een voorbeeld: we willen een uitspraak doen over jullie rekenvaardigheid. We leggen daarom één item aan jullie voor met de opdracht dit in twintig seconden te beantwoorden. Hoeveel is: 2 20? Niemand heeft binnen de gestelde tijdslimiet het correcte antwoord gevonden ( ). We kunnen nu natuurlijk niet de conclusie trekken dat niemand kan rekenen. Met dit item kan alleen een onderscheid gemaakt worden tussen extreem goede hoofdrekenaars en de rest. Het item deugt niet voor het maken van een onderscheid tussen respondenten die normaal tot goed kunnen rekenen. Daarvoor heb je een makkelijker item nodig. Het onderscheid dat we tussen respondenten kunnen maken is dus afhankelijk van de mate

7 HOOFDSTUK 10: ITEMGEGEVENS EN BETROUWBAARHEID waarin de moeilijkheid van de items aansluit bij de vaardigheid van de respondenten. Dit geldt mutatis mutandis ook voor een item als: hoeveel is 2 + 2? Terug naar het tentamen. We moeten de waarde die dat getal 9 uitdrukt op een schaal dus afleiden en interpreteren. Dat kan alleen wanneer we meer weten over de aard en mate van samenhang tussen de verschillende items van onze test en de scores van de andere studenten. Daarover gaat dan ook de rest van dit hoofdstuk. Houdt bij het bestuderen ervan dus voortdurend voor ogen waarom we ons zo uitputtend met die items gaan bezighouden: we willen weten wat de scores ervan te zeggen hebben over hetgeen waarnaar onze interesse uitgaat: de aanwezige kennis en/of vaardigheden die we met de test hebben willen bepalen! In de paragrafen die nu volgen, gaan we op een systematische wijze goochelen met getallen. Zodra je daarbij de draad van het verhaal kwijt bent, keer dan terug naar deze paragraaf. Fris je geheugen op door je constant af te vragen: waar is het voor nodig? Wat wil ik kunnen zeggen naar aanleiding van die data? Dit hoofdstuk zit als volgt in elkaar. Eerst zullen we laten zien hoe je met behulp van vier eenvoudige maten de data-set kunt reduceren. Dan zullen we twee maten herintroduceren waarmee we onze set data tot behapbare en dus interpreteerbare brokken terugbrengen. We zullen de data dus reduceren ofwel: we gaan aan datareductie doen. Dat doen we door een afgeleide maat voor score-variantie en de daaruit afgeleide standaardafwijking aan de orde te stellen en door weer de z- scores of standaardscores aan de orde te stellen. Deze twee maten hebben we nodig om drie soorten vragen te beantwoorden die betrekking hebben op de aard en de mate van samenhang tussen de scores. We willen weten hoe bijvoorbeeld de score op een bepaald item samenhangt met de scores op de overige items. Verder willen we weten hoe de score op een bepaald item samenhangt met de score op elk ander item. En we willen ook weten hoe de score op een bepaald item samenhangt met de score op de hele toets. Je zult inzien dat we dus verschillende correlatiematen gaan bepalen om die aard en mate van samenhang tussen items te kunnen bepalen P-waarden, Q-waarden, p-waarden en q-waarden Datareductie vangt aan met optellen en delen, dus dat zal geen problemen opleveren. Let er wel goed op dat we voortdurend over items spreken (dus niet over proefpersonen en hun scores op de items). Kijk eens in de datamatrix naar de scores op item 5 (verticaal dus). Je ziet dat dit item in totaal 7 keer goed en 3 keer fout is beantwoord. Die getallen -7- en -3- zijn

8 176 absolute getallen. We zeggen nu dat item 5 een absolute goedfrequentie heeft van 7 en een absolute foutfrequentie van 3. De absolute goed-frequentie van een item is het aantal keer dat een item goed is beantwoord. Deze geven we aan met de hoofdletter P. Dus voor dit item geldt: P = 7. De absolute fout-frequentie van een item is het aantal keer dat een item fout is beantwoord. Deze geven we aan met de hoofdletter Q. Dus voor item 5 geldt: Q = 3. Je ziet dat we met deze twee frequenties het totaal aantal data (10) al tot twee data hebben teruggebracht. En dat het totaal aantal respondenten gelijk is aan P + Q. Het totaal aantal respondenten geven we meestal aan met N. Behalve de absolute frequenties berekenen we ook de relatieve frequenties zowel voor de goed- als de fout-scores. Die berekening is heel eenvoudig. De relatieve goed-frequentie bereken je door de absolute goedfrequentie te delen door het totaal aantal scores. In ons geval: 7/10. De relatieve fout-frequentie wordt dan - uiteraard- 3/10. De relatieve goed-frequentie van een item is het aantal keer dat een goed is beantwoord gedeeld door het totaal aantal scores op dat item: p = P / N= 7/10 = 0.7; De relatieve fout-frequentie van een item is het aantal keer dat een fout is beantwoord gedeeld door het totaal aantal scores op dat item: q = Q /N = 3/10 = 0.3. Het zal natuurlijk duidelijk zijn dat altijd geldt dat p + q gelijk is aan één. Immers: P Q P+Q N p+q= + = = =1 N N N N De vraag die je je wellicht zult hebben gesteld is waarom worden p- en q-waarden berekend als extra's ten opzichte van de P- en Q-waarden? Het antwoord is gelegen in generalisatie. Als je een item afneemt bij 10 respondenten en de P-waarde is 0.7 dan geldt dat alleen voor die 10 respondenten. Je zult een ongeveer gelijke P- waarde vinden als je hetzelfde item weer afneemt bij een vergelijkbare groep van 10 respondenten. Maar als deze tweede groep nu 55 respondenten telt dan vind je een andere P-waarde (om en nabij de 39). Echter, in beide gevallen blijft de p- waarde (ongeveer) gelijk; namelijk 0.7.

9 HOOFDSTUK 10: ITEMGEGEVENS EN BETROUWBAARHEID Tenslotte willen we nog even ingaan op de Q- en q-waarden. We kunnen namelijk ook nog gedetailleerder naar deze waarden kijken. Kijk maar eens naar de volgende zeskeuzevraag: Hoeveel is 5 x 3? a. -15 b. 8 c. -8 d. 15 e. 2 f. -2 We nemen dit item af bij 50 proefpersonen. N is dus 50. Stel je voor dat de verdeling zó is: a. 14 b. 1 c. 2 d. 31 e. 2 f. 0 Dus: P = 31 en Q = ( ) = 19, of Q = N - P = = 19. Je ziet dat p = P/N = 31/50 =.62. Verder is q = Q/N = 19 / 50 =.38. Of, q = 1 - p = =.38. Over Q en q valt meer te zeggen. Te zien is dat je Q kunt opdelen over de verschillende alternatieven en dat je per alternatief ook de relatieve frequenties kunt aangeven. Die relatieve frequenties heten de a-waarden. Deze waarden zijn van belang wanneer je van een test met meerdere alternatieven per item op het spoor wilt komen van zogenaamde afleiders. Te zien is in het voorbeelditem dat alternatief A duidelijk als zo'n afleider heeft gewerkt (de a-waarde ervan is 14/50 =.28). Duidelijk zal zijn dat de som der a-waarden gelijk is aan q Variantie en Standaardscores: itemvariantie In 9.3 is de variantie aan de orde gesteld. Daar is gesteld dat de variantie een indicatie is van de afwijking van scores ten opzichte van het gemiddelde. Dat is informatief, omdat het je inzicht geeft in de spreiding van de scores ten opzichte van het gemiddelde. De variantie is dus een spreidingsmaat. Het symbool voor de variantie was S 2. En de variantie in een steekproef kan berekend worden als: Variantie= s i= N 2 i= 1 = N 1 ( x X) i (10.1) We zullen nu laten zien dat voor een test als waarover het hier gaat die vergelijking aanzienlijk vereenvoudigd kan worden. Dat kan omdat items maar twee waarden kunnen aannemen. Items zijn dichotoom. In de nu volgende afleiding converteren we de standaardgedaante van de vergelijking (zie: 9.3) naar de vergelijking:

10 178 i= N ( x X) Variantie= N 1 * *( ) *( ) 2 i i= 1 s = = p q = p 1 p = q 1 q (10.2) Het is goed je te realiseren dat de variantie van een dichotoom item een maximale waarde kan hebben en wel één van.25 (waarom is dat zo?). De itemvariantie is derhalve maximaal wanneer een bepaald item door de helft van de proefpersonen goed (en dus ook fout) is beantwoord. Dat komt overeen met onze intuïties dat de spreiding het grootst is wanneer p (en dus ook q) naar.5 tendeert. Verder zie je dat de itemvarianties voor iedere gelijke p of q-waarde gelijk is. Dus de variantie voor p =.8 is gelijk aan die voor q =.8. Ook dat komt met intuïties overeen. De spreiding neemt af naarmate een bepaald alternatief bij dichotome items vaker is gescoord. Tot zover de itemvariantie. Zoals we al eerder zeiden is deze waarde een belangrijke input voor later te berekenen correlaties die ons nog meer over de aard en mate van samenhang tussen de variabelen vertellen. Overigens heb je de itemvariantie ook nodig bij het bepalen van de standaardscores of z-scores. Merk op dat de standaarddeviatie gedefinieerd is als de wortel uit de variantie. Je kunt dus heel makkelijk de standaarddeviatie van een item uitrekenen als: S = S 2 = p * q. Dus als p =.6, dan geldt dat S 2 =.6 *.4 =.24, en S =.24 = Item-testcorrelatie en item-restcorrelatie De eerste correlatiemaat die we gaan berekenen is de zogenaamde item-test correlatie. Deze maat drukt een verband uit tussen de scores op één afzonderlijk item met de scores voor alle items (vandaar de naam item-testcorrelatie). We berekenen eenvoudigweg de correlatie tussen de scores op een item en de scores op de test. Hiervoor gebruiken we de formule voor de productmomentcorrelatie (zie: Hoofdstuk 9): r xy z z * = x N y, (10.3) waarbij we met x de score op het item aangeven van een respondent en met y de testscore van deze respondent. In woorden komt Formule 10.3 op het volgende neer: bepaal voor elke respondent het product van de z-score van zijn itemscore en zijn testscore. Tel deze resultaten op en deel het verkregen getal door het aantal respondenten. Een voorbeeld: in Tabel 10.2 zijn de scores van tien respondenten op vraag 1 en hun testscore weergegeven.

11 HOOFDSTUK 10: ITEMGEGEVENS EN BETROUWBAARHEID De p-waarde van dit item 1 is 9 / 10 =.9. De variantie is derhalve p * q =.9 *.1 =.09. De standaarddeviatie is de wortel uit.09, wat gelijk is aan.3. Het gemiddelde van de testscore is 7.6. De standaarddeviatie is 2.2 We hebben nu alle ingrediënten om de rit te kunnen berekenen. Tabel De z-scores voor de berekening van rit op de gegevens uit Tabel Respondent Vraag1 Som z i _vraag1 z i _som z i *z i Gemiddelde Σ z = 5.2 Sd Rit = 5.2/10 =.52 De item-testcorrelatie (rit) is dus.52. Hoe kunnen we dit getal interpreteren? Kan de item-testcorrelatie gewoon geïnterpreteerd worden als een correlatiecoëfficiënt die een maximum heeft van 1 (een maximaal positief verband) en een minimum van -1 (een maximaal negatief verband)? In principe is dit natuurlijk wel het geval. In de praktijk is het echter iets anders. Het is bijzonder moeilijk items te maken die zo hoog correleren met de testscore. Vandaar dat in het algemeen tussen de nul en de.1 wordt gesproken van een zwak verband. Tussen de.1 en de.25 van een redelijk verband en bij een rit-waarde groter dan.25 van een sterk verband. De consequentie hiervan is dat items met een rit kleiner dan.1 eigenlijk beschouwd moeten worden als minder goede items. De rit heeft dus een iets andere interpretatie dan de gewone product-moment of Pearsoncorrelaties. Merk op dat we helemaal geen betekenis gehecht hebben aan een negatieve item-testcorrelatie. Dat is eigenlijk een heel gek verschijnsel. Dat zou betekenen dat de respondenten die het item fout beantwoord hebben overwegend een hoge testscore hebben en vice versa. Dit kan duiden op een coderingsfout of dat het item een andere vaardigheid meet. Dergelijke items dienen uit de test verwijderd te worden daar zij de betrouwbaarheid schaden. We hebben nu heel wat moeten rekenen om de rit van één item te krijgen. Het kan natuurlijk ook via SPSS. En, dat is veel makkelijker. Bereken de productmomentcorrelatie tussen de score op een item (bijvoorbeeld: Vraag1) en de somscore. Als je dit doet zie je dat de correlatie tussen de scores op vraag1 en de som 0.58 is; iets hoger dan de 0.52 die we met de hand berekend hebben. Dat verschil wordt veroorzaakt door afrondingsfouten.

12 180 Aan de item-testcorrelatie is echter één belangrijk nadeel verbonden. De score op elk item wordt namelijk voor een gedeelte met zichzelf gecorreleerd. De testscore bestaat immers uit de som van de scores op alle items. Hierdoor wordt eigenlijk een overschatting verkregen van de samenhang. Dit effect is natuurlijk sterker naarmate de test uit minder items bestaat. Om dit te verhelpen wordt gebruikgemaakt van de zogenaamde itemrestcorrelatie. Met deze maat druk je dus een verband uit tussen de score op een bepaald item en de rest van de testscore (dus niet met die van de gehele test, maar op met die van de test zonder het betreffende item). Hiermee voorkom je het eerder gesignaleerde verschijnsel dat de score op een bepaald item deels met zichzelf wordt gecorreleerd. De formule voor de berekening van item-restcorrelatie lijkt (uiteraard) veel op die van de item-testcorrelatie met dien verstande dat nu niet z t, maar z r wordt gebruikt. We doen de berekening een keer voor aan de hand van eerder gegeven voorbeeld. Tabel De z-scores voor de berekening van rir op de gegevens uit Tabel Respondent Vraag1 Som Restscore z i_1 z i _rest z i *z t = = = = = = = = = = Gemiddelde Σ z = 4.3 Sd Rir = 4.3/10 =.43 Je ziet dat bij alle respondenten van de testscore de itemscore is afgetrokken (uiteraard blijft de testscore voor respondenten 10 gelijk, want die had dit item fout). De itemgegevens (gemiddelde, standaarddeviatie en z-score) blijven natuurlijk gelijk aan de gegevens van de voorgaande analyse. Dat geldt niet voor de gegevens van de restscore. We zijn nu immers niet geïnteresseerd in het gemiddelde, de standaarddeviatie en de z-score van de test, maar van de rest. Het gemiddelde en de standaarddeviatie zijn respectievelijk: 6.7 en 2.0. Met deze gegevens kunnen we weer formule 10.4 toepassen (bereken z-scores; vermenigvuldig die, bereken de som en deel door het aantal respondenten). Zoals blijkt is de item-testcorrelatie iets hoger dan de item-restcorrelatie. Dit is logisch. (Weet je waarom?) Aan het gebruik van de item-restcorrelatie is echter ook een nadeel verbonden. Elk item wordt namelijk gecorreleerd met een iets andere

13 HOOFDSTUK 10: ITEMGEGEVENS EN BETROUWBAARHEID test (waarom is dat zo?). De verkregen rir's kunnen daarom soms moeilijk vergeleken worden. Dit effect is natuurlijk kleiner naarmate de test langer is (meer items bevat). Het gebruik van item-rest- dan wel item-testcorrelaties berust dan ook goeddeels op de voorkeur van de onderzoeker; zij het dat bij korte tests het vaak de voorkeur verdient beide indices te berekenen. Conclusies kunnen pas getrokken worden als beide indices in dezelfde richting wijzen. Net zoals de item-testcorrelatie (rit) kan ook de item-restcorrelatie (rir) makkelijk met SPSS berekend worden. Je kunt natuurlijk een somscore maken voor alle items behalve item1 (som-1), een somscore voor alle items minus item 2 (som-2), een somscore voor alle items minus item 3 (som-3), etc. tot je alle items gehad hebt. Deze somscores kun je correleren met de betreffende items, dat wil zeggen: som-1 met item 1, som-2 met item 2, som-3 met item 3, etc. Dat is echter erg veel werk. En, spss bevat een speciale routine waarop we later (zie paragraaf 10.11) terug zullen komen Item-itemcorrelatie In de voorgaande paragraaf werd duidelijk hoe je de positie van één bepaald item ten opzichte van alle overige items kunt bepalen. Om verder inzicht te krijgen in de aard en mate van samenhang tussen itemscores zal het ook nodig zijn om inzicht te hebben in de wijze waarop een item zich verhoudt ten opzichte van een bepaald ander item of ten aanzien van een aantal andere items. De item-itemcorrelatie representeert dus een maat voor het verband tussen twee items. Waarom zou je in dat verband geïnteresseerd kunnen zijn? We roepen nogmaals het tentamen uit paragraaf 10.1 in je herinnering. De aanname die aan de meting (dat doet een tentamen) ten grondslag lag, was dat er één bepaald complex van variabelen is gemeten, te weten de kennis van de cursusstof. Wat betekent dat nou, zo'n aanname? Stel dat je uitgaat van de hypothese dat de test zo is geconstrueerd dat hij ook metterdaad dat éne complex van variabelen meet. Dan verwacht je en dit is van groot belang ook dat de correlatie tussen de afzonderlijke items positief is (waarom is dat zo?). Om een en ander wat inzichtelijker te maken geven we hieronder een schemaatje: Error! Reference source not found. Het in het geding zijnde complex van variabelen noemen we een construct. Laten we er eens van uitgaan dat we weten dat getracht is dat construct te meten met zes items. De scores op de items worden bepaald door het construct. Hoe meer iemand van dit construct bezit, hoe hoger zijn itemscores (N.B., itemscores hoeven natuurlijk niet dichotoom te zijn). Stel dat de scores op item 1, 3, 4 en 5 positief samenhangen. Dat is conform de verwachting, want ons idee is dat de score be-

14 182 paald wordt door het construct. De scores op item 2 en 6 hangen negatief samen met de scores op de items 1, 3, 4 en 5, maar zijn onderling positief gecorreleerd. Kennelijk meten de items 2 en 6 dus iets anders (of er is sprake van een coderingsfout). De inter-itemcorrelaties geven dus aanwijzingen omtrent de mate waarin de items van een test eenzelfde construct vertegenwoordigen. Ofwel de scores op de items 2 en 6 worden niet op dezelfde wijze door het construct bepaald als die op 1, 3, 4 en 5 (coderingsfouten daargelaten). Na dit rijkelijk abstracte verhaal is je hopelijk duidelijk waarom het een zinnige onderneming is om correlaties tussen items te berekenen. We zullen nu een voorbeeldberekening laten zien. In principe zijn er twee methodes om de correlatie tussen items te berekenen. Je kunt de pmc (of Pearsoncorrelatie) berekenen of r phi. Beide zullen we demonstreren. Tabel 10.5 toont de gegevens van twee items. Tabel Gegevens van twee items voor de berekening van r phi. Item B Goed Fout Totaal Goed Item A Fout Totaal Uit Tabel 10.5 blijkt dat 60 van de 200 respondenten item A en B goed beantwoord hebben, 90 hebben A en B fout beantwoord, 10 hebben A fout en B goed en 40 hebben A goed en B fout. r phi is derhalve (zie: Hoofdstuk 9 voor de formule van r phi ): 60 * * 40 / (100 * 100 * 70 * 130) = 5000 / = De samenhang tussen de beide items is dus hoog te noemen. De scores op beide items zouden dus door hetzelfde construct bepaald kunnen zijn. Voorbeeld 2: berekening van de product-moment- of Pearsoncorrelatie. In Tabel 10.6 zijn de scores van zes respondenten op twee items weergegeven. Tabel Gegevens van twee items van zes respondenten en de berekening van de product-momentcorrelatie. Respondent Item A Item B z A z B z A * z B

15 HOOFDSTUK 10: ITEMGEGEVENS EN BETROUWBAARHEID De correlatie tussen de beide items bedraagt in dit geval 1.46 / 6 =.24; een redelijk verband Samenvatting Halverwege dit lange hoofdstuk is het verstandig nog een keer te verwoorden wat er aan de orde is geweest en waarom. In de empirische onderzoekscyclus komt steeds het moment dat we observaties moeten verrichten aan de objecten waarover we uitspraken willen doen; we voeren daartoe een test uit. In dit hoofdstuk hebben we ons gemakshalve geconcentreerd op tests die worden afgenomen aan menselijke objecten (proefpersonen, examenkandidaten, et cetera) maar die beperking is niet principieel (zie: Hoofdstuk 8). Met een test willen we steeds meten of een object een bepaalde eigenschap bezit en dikwijls ook in welke mate; we willen de waarde van de afhankelijke variabele bepalen. Na afname van de test is het op zich eenvoudig de waarde vast te stellen: kijk hoe het object door de test is gekomen ofwel bereken de testscore. Dan komt echter de vraag: wat is de betekenis van deze testscore? In de eerste plaats hebben we vastgesteld dat de betekenis gewoonlijk slechts is vast te stellen in relatie tot de testscores van de andere objecten. Is de spreiding groot, dan zegt een bepaalde afwijking van het gemiddelde veel minder dan wanneer de spreiding klein is. Om deze reden hebben we het begrip standaardscore geherintroduceerd In de tweede plaats hebben we de begrippen item-testcorrelatie, itemrestcorrelatie en inter-itemcorrelatie geïntroduceerd. Deze maten zijn natuurlijk alleen aan de orde bij tests die uit meer dan één item bestaan. Men gebruikt ze om vast te stellen welke items vooral verantwoordelijk zijn voor een eventuele lage betrouwbaarheid van een test (zie voor het vaststellen van de betrouwbaarheid hoofdstuk 4 en paragraaf 10.8). Wanneer dit blijkt tijdens instrumentatieonderzoek zou de onderzoeker kunnen besluiten deze items te vervangen. De betrouwbaarheid van de test als geheel gaat dan omhoog. De gedachte achter deze drie maten is echter dieper. Een test, bestaande uit meerdere items, is bedoeld om één bepaald concept te meten. Dat betekent dat we verwachten dat elk item op zich in behoorlijke mate hetzelfde concept meet. Dat betekent dat we ook op grond van validiteitsoverwegingen verwachten dat de items in behoorlijke mate correleren en zeker dat een bepaald item in behoorlijke mate samenhangt met de test- en restscore. Is dat niet het geval dan is er reden om te vermoeden dat het betreffende item een andere concept meet. Nu moet je een licht opgaan. In hoofdstuk 4 zijn in het kader van de constructvaliditeit de begrippen convergente en divergente validiteit aan de orde geweest. Wanneer we de items van een test opvatten als evenzoveel operationaliseringen van het begrip zoals bedoeld (het te meten concept) dan vormen de begrippen item-

16 184 testcorrelatie, item-restcorrelatie en inter-itemcorrelatie instrumenten om na te gaan hoe het met deze door de onderzoeker verwachte convergente validiteit is gesteld Betrouwbaarheid Als onderdeel van het Nederlands Normalisatie Instituut is in Delft het ijkwezen gevestigd. De taak van de medewerkers van het ijkwezen is het beheren van een aantal standaardmaten die in ons dagelijks leven van immens belang zijn, zoals de meter en de kilo. Deze maten zijn op een bepaalde manier gedefinieerd, en we zullen die bepaalde wijze niet gaan problematiseren (de kilo is dus een axioma). De kilo is gedefinieerd als het gewicht van een bepaalde klomp goud, bij een bepaalde temperatuur die zich op een bepaalde plaats in Parijs bevindt. Dat dat juist goud is, is geen toeval. Goud is een edelmetaal dat als één van zijn prettige eigenschappen heeft dat het nauwelijks aangetast wordt door atmosferische fluctuaties. Gegeven die temperatuur, weegt die klomp nu evenveel als over duizend jaar (hoe je nu temperatuur weer over die periode constant houdt, dat wil zeggen hoe je ervan zeker kunt zijn dat 30 C in 1991 evenveel is als 30 C in 2991, is een probleem dat we verder aan de medewerkers van het ijkwezen overlaten...). Eens per jaar gaan de medewerkers van het ijkwezen met onze kilo (ook een blok metaal) naar Parijs en vergelijken het gewicht ervan met die van de klomp goud (waarom denk je dat dit niet gebeurt met een geschaalde weegschaal?). Dit vergelijken heet ijken. Blijkt dat de klomp goud wat minder weegt, dan schaaft men wat af van onze kilo enzovoorts. Hiermee zit het werk voor de medewerkers van het ijkwezen er nog niet op. Tevreden keren ze uit Parijs terug om vervolgens steekproefsgewijs langs te gaan bij Nederlandse middenstanders. Daar leggen ze hun kilo op de weegschaal en bezien of die ook daadwerkelijk 1 kilo aanwijst (wederom, we gaan even voorbij aan de problematiek van bijvoorbeeld het vaststellen van het nulpunt op de betreffende weegschaal). Deze hele onderneming is om jou ervan te verzekeren dat het gebruikelijke ietsje meer als je bij de slager een ons ham bestelt, ook inderdaad ietsje meer is. Waarom al die moeite? Zul je je wellicht afvragen. Uitgaande van de goede trouw van middenstanders (ze hebben dus niet geknoeid aan hun weegschaal), getroost men zich die inspanning omdat de opvatting bestaat dat een bepaald meetinstrument wel eens niet precies meet wat het beoogt te meten. De weegschaal wijst bijvoorbeeld een ons ham aan, terwijl het in werkelijkheid om net iets meer of juist net iets minder gaat. Meetinstrumenten meten met andere woorden op zodanige wijze dat je rekening moet houden met een bepaalde meetfout. Het is natuurlijk erg belangrijk om die meetfout de waarde -0- te geven (en vandaar de medewerkers van het ijkwezen), maar bij erg veel meetinstrumenten is dat illusoir. Wanneer er van zo'n omstandigheid sprake is, is men uiteraard geïnteresseerd in

17 HOOFDSTUK 10: ITEMGEGEVENS EN BETROUWBAARHEID de grootte van die meetfout. Daar is men in geïnteresseerd omdat die grootte een maat is voor het bepalen van de betrouwbaarheid van het meetinstrument. Nagaan wat de betrouwbaarheid is van een bepaald meetinstrument (en andere zaken zoals de validiteit ervan) is bij uitstek het domein van een wetenschappelijke discipline die als de testtheorie bekend staat. In dit hoofdstuk zullen we je met de testtheorie nader kennis laten maken. We zullen het niet meer hebben over kilo's en weegschalen of meters en meetlinten, maar over tests zoals je die in voorgaande hoofdstukken al hebt leren kennen. Dus tentamens, intelligentietests, schrijfvaardigheidsopdrachten, enquêtes et cetera. De fouten waarover we tot nu toe spraken, waren namelijk fouten die inherent waren aan het instrument waarmee hierboven gemeten werd. Daarmee zijn het systematische fouten. Dat kun je eenvoudig inzien wanneer je je bedenkt dat een niet zuivere weegschaal (ééntje die 100' gram aangeeft wanneer er maar 90 gram ham op de schaal ligt) dezelfde meetfout consequent maken zal; het betreft hier dus in feite een betrouwbare meting, zij het één die een systematische vertekening van de werkelijkheid geeft. Het probleem is daarmee eigenlijk een (construct)validiteitsprobleem. Wanneer we echter in het kader van de klassieke testtheorie spreken over meetfouten, bedoelen we niet-systematische meetfouten, en dat zijn meetfouten die niet samenhangen met het instrument waarmee we meten, maar met de meetprocedure. Om voort te borduren op ons weegschaalvoorbeeld, betreft het bijvoorbeeld fouten die te maken hebben met het aflezen van het gewicht: de ene keer wordt iets te veel afgelezen omdat de slager iets links van de weegschaal staat; de andere keer wordt juist iets te veel afgelezen omdat de goede man rechts van de weegschaal staat. Zo'n vertekening is niet systematisch. De meetprocedure is dus een soort vergaarbak van allerlei zaken die mis kunnen gaan als je iets meet. We zullen dat met nog een voorbeeldje verduidelijken. Wanneer Leo Visser en Johan Olav Koss, twee schaatshelden uit een ver verleden, tijdens de WK all-round schaatsen de tien kilometer rijden, dan meten we hun tijden (met een chronometer) omdat we zijn geïnteresseerd wie van beiden die afstand het snelst aflegt. Wanneer we nu een verschil in eindtijden meten, dan willen we dat verschil graag kunnen interpreteren in termen van een verschil in -laten we zeggen- het schaatsvermogen op die afstand tussen beide topschaatsers. In vroeger tijden was het zo dat wanneer de starter zijn pistool liet afgaan (en de rijders hun 10 kilometer begonnen) er een official was die zijn chronometer indrukte. En wanneer de rijders na hun laatste ronde uitgeput over de finishlijn zoefden, drukte diezelfde official weer af. Stel nu eens dat we tussen Leo Visser en Johan Olav Koss inderdaad een verschil in gemeten tijd vaststellen, en wel van 0.3 seconden. We willen dat verschil nu graag toeschrijven aan het schaatsvermogen van beide schaatsers, maar kunnen we er ook zeker van zijn dat dat kan?

18 186 Allereerst; strikt genomen doet het er niets toe of de gehanteerde chronometer de verstreken tijd tussen het startschot en de passage over de finishlijn correct meet. Gesteld dat dit niet zo is; de chronometer loopt een fractie te langzaam, dan meet hij immers voor beide schaatsers een ietwat geflatteerde tijd (we zien even af van de theoretische mogelijkheid dat de chronometer fluctuaties vertoont). Dus het verschil in tijd tussen beide schaatsers is onafhankelijk van eventuele systematische meetfouten. Gelukkig is dat zo, want we hebben nauwelijks middelen tot onze beschikking om de effecten van systematische meetfouten te bepalen. Dat kunnen alleen de medewerkers van het ijkwezen die een arbitraire (of: axiomatische) standaard gekozen hebben, iets wat in geval van een toets onmogelijk is. Ons probleem betreft bij gevolg de niet-systematische meetfouten. We denken nog even door op de ingeslagen weg, en halen er het onderscheid tussen betrouwbaarheid en validiteit erbij. We kunnen een schatting maken van de betrouwbaarheid van de metingen. Dat wil zeggen: een schatting van de betrouwbaarheid inclusief alle systematische meetfouten. Een goede aanduiding voor de validiteit zou echter zijn: een schatting zonder alle systematische meetfouten. Een schatting van de betrouwbaarheid zal derhalve altijd een bovengrensschatting zijn van de validiteit. De validiteit zelf is met behulp van welke statistische methode dan ook niet bepaalbaar. Terug naar Visser en Koss. Ervan uitgaande dat gemeten verschillen onafhankelijk zijn van systematische meetfouten, kunnen we er dan op aan dat die.3 seconde verschil inderdaad het verschil weerspiegelt in schaatsvermogen? Nee. De zwakke schakel in onze manier van meten is gelegen in de meetprocedure, en om preciezer te zijn: in het reactievermogen van de official die de chronometer bedient, en alles wat dat vermogen niet structureel beïnvloedt. Meten we nu de tijden van twee schaatsers, dan kan er op drie momenten iets verkeerd gaan in onze procedure (bij het aanzetten, bij het stopzetten, en bij het aflezen) wat de uiteindelijke meetresultaten kan beïnvloeden. Dat wil zeggen: het is inherent aan de procedure dat we een verschil in tijd meten dat niet is toe te schrijven aan het schaatsvermogen van Visser dan wel Koss. Wanneer onze brave official ook maar één van de vier keer even z'n gedachten bij iets anders had en bijgevolg ietsje te laat indrukte, dan kan dat al een goed deel van die.3 seconde verschil verklaren. En daar we niet in zijn reactievermogen zijn geïnteresseerd (maar in het schaatsvermogen van schaatsers) moeten we bij meten juist wel rekening houden met fluctuaties in dat reactievermogen. Preciezer gezegd: met de mogelijke invloed daarvan op de scores zoals we die meten. Dat rekening houden met betekent volgens de klassieke testtheorie dat we ons afvragen hoe betrouwbaar ons meetinstrument meet en hoe gevoelig de gehanteerde meetprocedure is voor niet-systematische fouten. We stappen nu over nu naar het soort tests waarover het in deze syllabus doorgaans gaat. In het algemeen geldt: een test meet deels wat die moet meten, maar deels ook iets anders. In de testtheorie heet dat een test een deel ware score en

19 HOOFDSTUK 10: ITEMGEGEVENS EN BETROUWBAARHEID deel foutenscore meet. Stel dat een bepaalde proefpersoon een test met vierkeuze-items moet maken. Dikke kans dat hij van tijd tot tijd het antwoord niet kent op een bepaald item, maar dat item wel beantwoordt (dus wel een alternatief aankruist). Er bestaat nu een kans van.25 dat hij toevallig het goede alternatief aankruist. Een naïeve waarnemer van de testresultaten zou er nu van uit kunnen gaan dat het betreffende goed beantwoorde item dus een aanwezige kenniscomponent vaststelt bij de betreffende proefpersoon. Wij weten nu dat dit niet zo is. Hoe je die gedachte kunt verdisconteren bij de interpretatie van testscores is het onderwerp van dit hoofdstuk. We zullen het hebben over de betrouwbaarheid van tests, en de wijze waarop die kan worden geschat. Daartoe zullen we in paragraaf 10.9 enkele uitgangspunten van de klassieke testtheorie aan de orde stellen waarvan we verderop in het hoofdstuk veel gebruik maken. In paragraaf stellen we de eerste van een drietal formules voor testbetrouwbaarheid aan de orde: de Spearman-Brown-formule. Deze formule gaat uit van zogenaamde parallelleltests, en definieert testbetrouwbaarheid als de mate waarin de score op die test correleert met die op een paralleltest. Hoe je paralleltests kunt construeren, is tevens het onderwerp van paragraaf In paragraaf gaan we in op nog twee betrouwbaarheidsschatters, en wel die zijn ontwikkeld door Kuder en Richardson, de zogenaamde KR-20 en de KR-21. We besluiten het hoofdstuk met terug te komen op meetfouten wanneer we de zogenaamde standaardmeetfout in aan de orde stellen Uitgangspunten van de klassieke testtheorie Een verhandeling over de betrouwbaarheid van een test vangt aan bij de klassieke testtheorie. Hoewel we ons beperken tot een test, willen wij niet nalaten op te merken dat de uitgangspunten van de klassieke testtheorie altijd --bij welke meetprocedure dan ook-- gelden; al zou je bij wijze van spreken grassprietjes op de binnenplaats van de Trans gaan tellen. Eerder (zie: Deel I van deze syllabus) is gesteld dat voor iedere test moet gelden dat het begrip zoals bedoeld correct moet zijn vertaald in het begrip zoals bepaald. Deze eis betreft de begrips- of constructvaliditeit van een test. Dat vertalen hebben we in het eerste deel van deze syllabus operationaliseren genoemd. Voor veel tests is die operationalisering voor de testgebruiker onbekend. Zo meten veel Nederlanders onbekommerd de temperatuur in een kamer, of hun eigen lichaamsgewicht zonder ook maar een idee te hebben van de theoretische overwegingen die aan deze stap van begrip zoals bedoeld naar begrip zoals bepaald ten grondslag liggen. Begripsvaliditeit is in een hoge mate theoretische kwestie (en bovendien één waarover men nooit uitgepraat raakt). Aan een intelligentietest ligt een theorie van wat intelligentie is ten grondslag, en de test is als het goed is, een vertaling van die theorie. Je begrijpt dat een test op slag invalide is, wanneer de eraan ten grondslag liggende theorie inadequaat blijkt te zijn. Hoe belangrijk deze kwestie

20 188 ook is, we zullen constructvaliditeit hier verder niet problematiseren, en die gegeven een bepaalde test aanwezig veronderstellen. We kunnen nu stellen dat de score op een bepaalde test van een willekeurige proefpersoon i bepaald wordt door twee componenten: een ware score en een foutscore. Dus stel dat je in het echt 72 kilo weegt, en een bepaalde weegschaal geeft 73.6 aan (of 70.4), dan vertegenwoordigt 73.6 (of 70.4) de totaalscore. 72 is de ware score en uiteraard 1.6 de error-score. In formule: x = i t + i ei (10.4) Te zien is dat de score X i deels bestaat uit een component t i en deels uit een component e i. Die t-component representeert de ware score (true score) voor respondent i, en de e-component representeert de foutscore (error score). Een belangrijke aanname binnen de testtheorie is nu dat naarmate er sprake is van grote aantallen scores die onder- of overschattingen (dus de errorcomponenten) elkaar neutraliseren; de errorcomponenten worden door het toeval nietsystematische zaken bepaald. We gaan er daarom van uit dat de errorscores normaal verdeeld zijn, een gemiddelde van 0 hebben en een populatievariantie σ 2 hebben. In formule: e N (0, S 2 ) (10.5) Wat betekent dat nu; de error-scores zijn normaal verdeeld, en ze neutraliseren elkaar? Het is van groot belang (zoals zal blijken) je dat goed te realiseren. We hebben te maken met niet-systematische meetfouten. Dus zoals het eerder gegeven voorbeeldje van het wegen van lichaamsgewicht te zien gaf, de totale score geeft soms een overschatting, en dan weer een onderschatting van de ware score. De gedachte is verder dat de mate waarin er wordt over- en onderschat, ook willekeurig is want door het toeval bepaald. Grote afwijkingen, extremen, zullen minder vaak voorkomen dan waarden die dicht bij de ware scores liggen. Dus de weegschaal zal er vaker een gram dan een kilo naast zitten. Anders gezegd, de errorscores kennen een normaalverdeling. Verder zal de errorcomponent per saldo nul zijn. Juist omdat de meetfout niet systematisch is, zul je zien dat de onder- en overschattingen elkaar opheffen. Dus wanneer wij honderd mensen wegen, en we weten dat ze gemiddeld 82.5 kilo wegen, dan zullen alle scores op de weegschaal gedeeld door 100 ook een score 82.5 opleveren. Anders gezegd, de gemiddelde errorscore is nul. Verder zijn de errorscores op een bepaalde manier rond dit gemiddelde (0) verdeeld, waarbij kleine afwijkingen vaker voor zullen komen dan grote afwijkingen. Anders gezegd, de errorscores zijn normaal verdeeld, met een populatievariantie van σ 2 en een steekproevenvariantie van S 2.

21 HOOFDSTUK 10: ITEMGEGEVENS EN BETROUWBAARHEID Dan moeten we nog iets zeggen over het verband tussen de ware scores en de errorscores, en wel dit. De klassieke testtheorie gaat er vanuit dat er tussen die twee scorecomponenten geen verband bestaat. Met andere woorden: de toevalligheden die zich bij het meten voordoen en ons zicht op de ware scores ietwat vertroebelen, onderhouden geen systematisch verband met die ware scores. Als de eerder ten tonele gevoerde official bij het schaatsen z'n stopwatch iets te laat indrukt, heeft dat dus niets te maken met de ware schaatsvaardigheid van Leo Visser. Anders gezegd: de correlatie tussen ware scores en errorscores is nul: r (t, e) = 0 (10.6) Tenslotte nog een belangrijke formule af waaruit blijkt dat de totale-scorevariantie gelijk is aan de warescorevariantie plus de errorscorevariantie 1. S 2 Totaal = S 2 True + S 2 error (10.7) Of, in woorden: testvariantie is warescorevariantie plus errorscorevariantie. Aan het slot van deze paragraaf definiëren we de betrouwbaarheid als: de proportie warescorevariantie van de totale waargenomen scorevariantie, waarbij de ware variantie gelijk is aan het verschil tussen de totale waargenomen scorevariantie en de foutenvariantie (p.m.: de formulering proportie X van Y wil gewoon zeggen X/Y): r tt = S 2 True 2 S x (10.8) Nu zou je je af kunnen vragen: als het mogelijk is om aan de hand van de variantiematen voor de ware en de totale scores (of die van de errorscores en de totale scores) de betrouwbaarheid van een test te berekenen, waarom dan nog aandacht besteden aan de Spearman-Brown en de KR-20 en KR-21? Dat is niet zo'n gekke gedachte. Het probleem is alleen dat je niet weet wat die ware-variantie en errorvariantie zijn! Je weet alleen dat de totale variantie bepaald is door de ware en de errorvariantie, maar je kent niet het aandeel van die twee variantiematen aan de totale variantie. Kortom, je hebt één vergelijking met twee onbekenden. Daarom is het nodig dat we kunnen beschikken over benaderingen of schatters van testbetrouwbaarheid die onafhankelijk van die maten zijn. En dat is nu het kenmerk van de Spearman-Brown en de KR-20 en KR Deze formule is redelijk makkelijk af te leiden, maar het is wel even rekenen, en het leidt alleen maar af van waar het om gaat.

22 190 Voordat we echter ingaan op de drie genoemde berekeningswijzen lijkt het zinvol om eerst even stil te staan bij twee interpretaties van betrouwbaarheidsschattingen. Ten eerste kan de betrouwbaarheid geïnterpreteerd worden als de proportie warescorevariantie (zie: Formule 10.8). Dat wil zeggen: de proportie systematische variantie. Dit is vanzelfsprekend nog lang niet hetzelfde als de proportie variantie ten gevolge van het begrip zoals bedoeld (i.e. valide variantie). De variantie ten gevolge van het begrip zoals bedoeld representeert ook systematische verschillen tussen respondenten, en maakt dus deel uit van de proportie warescorevariantie. Echter, er kunnen nog tal van andere zaken systematisch van invloed zijn op de scores van de respondenten. Denk maar aan verschillen in testwijsheid, om maar één mogelijk systematische invloed te noemen. Vandaar dat een betrouwbaarheidsschatting altijd de bovengrens vormt van de validiteit. Als we de validiteit van een toets zouden uitdrukken in een coëfficiënt, die net zoals de betrouwbaarheidscoëfficiënten, een waarde aan kan nemen tussen de nul en de één, dan is de validiteitscoëfficiënt maximaal gelijk aan de betrouwbaarheidscoëfficiënt. In verreweg de meeste gevallen zal de eerste echter kleiner zijn dan de tweede. Een tweede interpretatie blijkt na enig algebraïsch gepuzzel (wat we hier niet zullen demonstreren). Formule 10.8 kan namelijk zó herschreven worden dat duidelijk wordt dat de betrouwbaarheid de verwachte correlatie is tussen de scores op de toets bij vele malen herhaald afnemen van die toets. Hierbij moeten we echter wel de aanname maken dat geheugen en vermoeidheidseffecten bij de tweede en latere afnamen geen rol spelen. Deze interpretatie an sich is dus een louter theoretische, want beide aannamen zijn onrealistisch. Desalniettemin is het een nuttige interpretatie, omdat deze inzicht geeft in de (verwachte) samenhang tussen scores bij meer afnamen van dezelfde toets. We kunnen de betrouwbaarheidscoëfficiënt dan ook interpreteren als een (soort) product-momentcorrelatie (zie: Hoofdstuk 9) Spearman-Brown: parallele tekstverlenging We beginnen met een intuïtieve uiteenzetting van een betrouwbaarheidsschatting. Betrouwbaarheid --wij herhalen het nogmaals-- is een maat die aangeeft in hoeverre je van de scores op aan kunt. Stel nu eens dat je twee exact dezelfde tests afneemt aan dezelfde groep respondenten. De correlatie tussen beide groepen scores kan nu beschouwd worden als een maat voor de betrouwbaarheid van de test. Immers, je meet twee keer hetzelfde, op dezelfde manier, bij dezelfde groep. Fluctuaties kunnen alleen worden toegeschreven aan fouten; het gaat hier dus om toevallige (random) fluctuaties. Hoe hoger nu de scores op de test correleren, hoe betrouwbaarder die heeft gemeten. Helaas; het is onmogelijk om twee keer dezelfde test af te nemen aan dezelfde groep respondenten. Je meet dan namelijk niet twee keer hetzelfde. Immers, de respondenten zullen hun antwoorden deels onthouden hebben, nagepraat hebben over de opdrachten enzovoorts. En omdat de test niet twee keer hetzelfde heeft gemeten, is een uitspraak over de betrouwbaarheid ervan niet meer te formuleren.

23 HOOFDSTUK 10: ITEMGEGEVENS EN BETROUWBAARHEID Wat we ook kunnen doen --en wat ons probleem van hierboven lijkt op te lossen-- is: twee zogenaamde paralleltests afnemen. Paralleltests zijn tests die: hetzelfde meten; eenzelfde gemiddelde score hebben; eenzelfde variantie hebben; een gelijke betrouwbaarheid hebben. Het eerste punt, hetzelfde meten, is niet meer of minder dan een aanname die we niet kunnen controleren. Het geeft onze indruk weer (het is een validiteitskwestie). De overige kenmerken zijn eigenlijk de eisen die je stelt om van paralleltests te mogen spreken, en deze zijn wél controleerbaar. Als we de correlatie weten tussen de scores op twee paralleltests, dan kunnen we een schatting krijgen van de betrouwbaarheid van de tests. Wederom, helaas. We beschikken bijna nooit over twee paralleltests, dat wil zeggen twee tests die exact voldoen aan de bovengenoemde eisen. Daarom lost ook dit voorstel ons probleem niet op. Hoe zou je nu toch een schatting kunnen krijgen van de betrouwbaarheid? De procedure komt er in feite op neer dat we één bestaande test afnemen die we -- om de betrouwbaarheid van de meting te kunnen schatten-- vervolgens in twee stukken kappen. Stel, we hebben een tekstbegriptoets, een tentamen, een schrijfvaardigheidsopdracht of een enquête afgenomen. We delen nu de items van de betreffende toets nu op in twee gelijke delen. Bij voorbeeld: alle even items in de ene helft, alle oneven in de andere helft (je kunt natuurlijk meer methoden bedenken om twee helften te verkrijgen). We berekenen nu de correlatie tussen de scores op beide helften (de pmc uiteraard) en dat levert ons alvast één van de ingredienten van de betrouwbaarheidsschatting: de correlatiecoëfficiënt. Om een betrouwbare meting te krijgen -- zodat de verschillen in geobserveerde scores verschillen in ware scores weerspiegelen -- is het uiteraard verstandig om meerdere items in een toets op te nemen. Een toets bestaat dus bij voorkeur uit meer items. In het algemeen geldt dat als een toets uit meer (gelijksoortige) items bestaat, we een betrouwbaardere meting verkrijgen. Nu zitten we nog wel met een probleem. Als we een toets opdelen in twee stukken, schatten we de betrouwbaarheid ervan op basis van een maar half zo lange toets. Daarom moeten we de verkregen correlatiecoëfficiënt corrigeren voor de testlengte (van halve naar hele toets). Hiervoor is de formule bedoeld van Spearman-Brown. De formule van Spearman-Brown voor parallelle testverlenging, zoals die officieel heet, ziet er zo uit: k*r = 1+(k-1)*r r (10.9) tt

24 192 In deze formule is - k - de factor waarmee de test verlengd wordt (dus het aantal paralleltests), en r de correlatie tussen de scores op de paralleltests. In het geval we over twee parallelle testhelften beschikken, is k gelijk aan 2. Als we een correlatie vinden van.5, dan is de betrouwbaarheid --gecorrigeerd voor testlengte-- te schatten als: k*r 2 * 0.5 = (k-1)*r 1 + (2 1) * 0.5 r = = tt De betrouwbaarheid van de gehele test schatten we derhalve op.67. Dat is duidelijk hoger dan de betrouwbaarheidsschatting van de half zo lange testhelften. Nu kunnen we met die.67 tevreden zijn, maar we kunnen dat ook niet zijn. We stellen bij voorbeeld aan onze test als minimum eis dat de betrouwbaarheid.8 moet zijn, tachtig procent van de geobserveerde verschillen zijn toe te schrijven aan verschillen in ware score. Immers, de betrouwbaarheid is gedefinieerd als de ratio van de warescorevariantie en de geobserveerde scorevariantie. Nu stelt de formule van Spearman-Brown ons in staat de factor te berekenen waarmee we onze bestaande test moeten verlengen om een betrouwbaarheid van.8 te verwezenlijken (uiteraard betreft dat een verlenging met gelijksoortige items!). k* k 0.67k 0.8= = = 1+(k-1)*0.67 (1+0.67k-0.67) k 0.8*( k)=0.67k k=0.67k.26=.13k.26 k= =2.13 Dit resultaat betekent dus dat we onze test twee keer zo lang moeten maken om de verlangde betrouwbaarheid van.8 te verkrijgen. We moeten dus nog eens zoveel items construeren! Met behulp van de formule van Spearman-Brown wordt een adequate betrouwbaarheidsschatting verkregen onder de aanname van parallelle tests! Als de tests niet parallel zijn, wordt een onderschatting van de werkelijke betrouwbaarheid verkregen. Het schenden van deze aanname resulteert derhalve in een ongunstig beeld van de kwaliteit van de test. Het eerder genoemde indelingscriterium voor de constructie van twee paralleltests -- even versus oneven items -- maakt het onwaarschijnlijk dat de tests exact parallel zijn. Het zou een kwestie van toeval zijn als dat wel zo zou zijn. Zaken die we in eigen hand hebben, laten we natuurlijk liever niet aan het toeval over. En we kunnen de vorming van parallelle testhelften in eigen hand nemen. We passen een trucje

25 HOOFDSTUK 10: ITEMGEGEVENS EN BETROUWBAARHEID toe. Herinner je uit paragraaf 10.3 dat de p-waarde van een item een aanduiding is voor de gemiddelde score op dat item. Tevens is de p-waarde het belangrijkste ingrediënt bij de bepaling van de variantie van het item (p * q). We kunnen nu op basis van de p-waarde al zorgen voor twee testhelften die een gelijk gemiddelde, en een gelijke variantie hebben (vergelijk dat nog eens met de eerder gepostuleerde eisen om van parallelliteit). Immers, door items met een (nagenoeg) gelijke p- waarde afwisselend aan de éne dan wel aan de andere testhelft toe te wijzen, zorgen we voor helften met een gelijk gemiddelde en gelijke variantie. We moeten nu alleen nog zorgen dat de (onbekende) betrouwbaarheid van beide testhelften gelijk is. Ook dat is niet moeilijk. We kunnen namelijk de in hoofdstuk drie geïntroduceerde item-testcorrelatie opvatten als een betrouwbaarheidsschatting voor ieder afzonderlijk item. We kunnen dus items selecteren met een (nagenoeg) gelijke p- waarde én met een (nagenoeg) gelijke rit. Door van elk aldus gevormd itempaar er telkens één aan de éne testhelft, en één aan de andere testhelft toe te wijzen, zorgen we voor maximaal parallelle testhelften (gegeven de items uit de test). Hierna kan met recht de formule van Spearman-Brown gebruikt worden. Deze methode voor het toewijzen van items aan testhelften staat bekend als de methode van Matched Rondom Subtests De KR-20 en KR-21 Er zijn naast de formule van Spearman-Brown nog andere methoden om een schatting te verkrijgen van de betrouwbaarheid van een test. De hier behandelde methodes zijn methodes die minder rekenwerk vergen, en niet principieel afwijken van de Spearman-Brown-methode. In feite is het uitgangspunt van de KR-20 en de KR-21 het idee dat elk item opgevat kan worden als een minitest. De totale test bestaat dus uit net zoveel minitests als er items zijn. We kunnen dus de betrouwbaarheid van de test schatten op basis van de correlatie tussen items en deze corrigeren voor testverlenging. Dat zou echter een enorme hoeveelheid rekenwerk met zich mee brengen. Stel je voor: je berekent de correlatie tussen item 1 en 2, en corrigeert die -- onder aanname van parallelliteit -- voor testlengte. Je hebt dan de betrouwbaarheid van de toets bestaande uit de items 1 en 2. Je berekent de som van deze test, en correleert die met de scores op item 3. Hierna corrigeer je deze correlatie weer voor testverlenging (welke factor?). Deze procedure herhaal je net zo vaak tot je geen items meer over hebt. Dat wil zeggen: drie kladblokken en tig rekenfouten verder. Geen doen dus. Gelukkig kan met de KR-20 of KR-21 veel makkelijker een adequate betrouwbaarheidsschatting verkregen worden. We zullen je niet vermoeien met de afleiding van de beide formules, maar volstaan met de uitkomsten daarvan: r KR-20: = tt (S 2-2 x Sk) 2 (k-1) Sx

26 194 Deze betrouwbaarheidsschatting wordt de KR-20, of Cronbach s α, genoemd. In deze formule wordt met k het aantal items aangegeven, met S X 2 de variantie van de totale test, Σ k S k 2 de som van alle itemvarianties. Voor de KR-21 geldt de volgende formule: r KR 21: = tt 2 ( S k[ p* q] ) x 2 ( k 1) S x Let wel: de hier bedoelde p en q-waarden, zijn de gemiddelden voor alle items. De variantie van dichotome items is natuurlijk gelijk aan p * q. En dus is p*q de variantie in het gemiddelde scoringsgedrag over alle items. Nu zie je het verschil tussen de KR-20 en de KR-21. In de KR-20 berekenen we per item de variantie en tellen deze varianties op (k getallen). In de KR-21 berekenen we de gemiddelde p en q- waarden, berekenen daarover de variantie en vermenigvuldigen deze met k. De KR- 21 is dus een rekentechnische vereenvoudiging van de KR-20. Wanneer van een test alle items een gelijke variantie hebben, is de KR-20 gelijk aan de KR-21 (waarom is dat zo?). In alle andere gevallen levert de KR-21 een onderschatting van de KR-20. Verder zie je dat de KR-21 alleen in het geval van dichotome items gebruikt kan worden, terwijl de KR-20 ook bij andersoortige items kan worden berekend (bij dichotome items is S 2 k gelijk aan p k * q k, en bij niet-dichotome items moet de standaard formule voor de variantie gebruikt worden; formule 9.3). Tot slot zij vermeld dat de KR-20 ook wel Cronbach's alfa of kortweg alfa wordt genoemd. De KR-20 en de KR-21 zijn eenvoudig te berekenen als we de beschikking hebben over de scores op de items van de respondenten. We zullen dit voor doen aan de hand van de scores van zes respondenten op een toets met vijf items zoals ze zijn weergegeven in Tabel Tabel De scores van zes respondenten op vijf items (1: goed; 0: fout) Item Respondent Totaal A B C D E F p-waarde

27 HOOFDSTUK 10: ITEMGEGEVENS EN BETROUWBAARHEID S In Tabel 10.7 staan in principe alle gegevens die nodig zijn om de KR-20 en de KR-21 als indicatie van de betrouwbaarheid te kunnen berekenen. Laten we beginnen met de KR-20. Voor de teller van de KR-20 moeten we de toetsvariantie verminderen met de som van de itemvarianties en het verkregen getal vermenigvuldigen met het aantal items. Op grond van de gegevens in Tabel 10.7 krijgen we: 5*[1.22-( )] 2.05 KR-20= = =0.42 = 2.05 (5-1)* De waarde van de KR-20 voor deze toets is dus Dus: de betrouwbaarheidsschatting of homogeniteitsschating met behulp van de KR-20 bedraagt.42, ofwel: 42 % van de verschillen in geobserveerde scores zijn systematische verschillen. Of, nog anders gezegd: de verwachte gemiddelde correlatie tussen de scores bij vele malen herhaalde afname van dezelfde toets bij dezelfde proefpersonen (met uitschakeling van geheugen en vermoeidheidseffecten e.d.) wordt geschat op.42. Om enkele verschillende interpretaties die aan deze coëfficiënt te geven. Als algehele evaluatie aan het getal.42 kunnen we stellen dat dit laag is. Echter, afhankelijk van de situatie waarin de toets fungeert moeten we een ander criterium voor de waardering van de hoogte hanteren. Als een toets gebruikt wordt voor selectie doeleinden (tentamens, eindexamens et cetera) dan moet de betrouwbaarheid tenminste.80 zijn, hoewel sommigen zelfs de eis van.90 hanteren als ondergrens van toetsen ontwikkeld voor selectiedoeleinden. Anders is de kans te groot dat men op grond van niet-systematische invloeden tot verkeerde conclusies komt betreffende het al dan niet selecteren van een individu (c.q. de zak/slaagbeslissing). Voor onderzoeksdoeleinden behoeven niet zulke strenge eisen gesteld te worden. In dat geval is een betrouwbaarheid van minimaal.60 toch echt wel de ondergrens, want vergeet niet: de betrouwbaarheid is de bovengrens van de validiteit. Is de betrouwbaarheid lager dan heeft het in veel gevallen geen zin de scores uitgebreid te analyseren; men analyseert verschillen ten gevolge van de error-component (e). Nu de KR-21. Voor de teller van de KR-21 rekenen we eerst de gemiddelde p- en q- waarden uit, vermenigvuldigen we deze met het aantal items, trekken het verkregen verschil af van de toetsvariantie en vermenigvuldigen dit getal tenslotte met het aantal items: 5*[1.22-5*(0.53*0.47) -.15 KR-21= = =-0.03 (5-1)* De waarde voor de KR-21 is dus De betrouwbaarheidschatting of homogeniteitsschatting met behulp van de KR-21 bedraagt Nu kan de betrouwbaarheid

28 196 nooit negatief zijn (omdat deze gedefinieerd is als de verhouding van twee positieve getallen). We hebben hier dus duidelijk te maken met een onderschatting van de werkelijke betrouwbaarheid. In feite kunnen we -0.3 gelijk stellen aan 0.0. Dus: 0 % van de verschillen in geobserveerde scores zijn systematische verschillen. Of, nog anders gezegd: de verwachte gemiddelde correlatie tussen de scores bij vele malen herhaalde afname van dezelfde toets bij dezelfde proefpersonen (met uitschakeling van geheugen en vermoeidheidseffecten e.d.) wordt geschat op 0.0. Om enkele verschillende interpretaties die aan deze coëfficiënt te geven. De KR-21 valt in dit voorbeeld (dramatisch) veel lager uit dan de KR-20. Dat is het gevolg van de gedane aanname dat we toekunnen met de gemiddelde p- en q- waarde. Naarmate de verschillen in p-waarden (en dus q-waarden) van de items in een toets groter zijn, nemen de verschillen tussen de KR-20 en de KR-21 toe. En wel zo dat de KR-21 steeds lager wordt. Alleen in het geval alle p-waarden van de items in een toets exact gelijk zijn, leveren de KR-20 en de KR-21 identieke schattingen voor de homogeniteit / betrouwbaarheid van een toets. Een aardig probleem doet zich voor wanneer de toetsvariantie gelijk is aan nul (i.e. alle respondenten hebben dezelfde score). Volgens de formules voor de KR-20 en de KR-21 moet je dan een getal delen door 0, en delen door nul is niet gedefinieerd. Echter, betrouwbaarheid is gedefinieerd als de proportie warescorevariantie; dat deel van de variantie dat toe te schrijven is aan systematische verschillen tussen respondenten. Als er geen verschillen zijn, dan is de variantie nul, en zijn ook de verschillen ten gevolge van systematische verschillen nul. Ergo, de betrouwbaarheid is nul. Betrouwbaarheid van een meting bestaat alleen bij de gratie van verschillen. Als de betrouwbaarheid gelijk is aan nul, dan weet je ook hoe het zit met de validiteit. Naast de drie behandelde betrouwbaarheidsschattingen worden in de onderzoeksliteratuur nog vele andere genoemd en gebruikt. Wij laten deze echter voor wat zij zijn. Enerzijds omdat deze betrouwbaarheidsschattingen vaak duidelijk minder inzichtelijk zijn dan de hier behandelde, en anderzijds, omdat zij een dusdanig beroep doen op kennis van wiskunde (met name matrix algebra), dat met behandeling van deze maten licht het doel van deze cursus voorbij geschoten zou worden. De formule voor Spearman-Brown, de KR-20 en de KR-21 zijn verreweg de meest gebruikte wijzen om de betrouwbaarheid te schatten, hetgeen onder andere blijkt uit het gegeven dat deze betrouwbaarheidsschattingen in vrijwel alle standaard statistische software-pakketten opgenomen zijn. Dat wil echter niet zeggen dat het altijd de beste betrouwbaarheidsschattingen zijn. Met name de aanname van parallelliteit heeft als consequentie dat schattingen optimaal zijn als de items/toetsdelen ook echt parallel zijn. In alle andere gevallen wordt met de drie behandelde betrouwbaarheidsschattingen de werkelijke betrouwbaarheid enigszins onderschat.

29 HOOFDSTUK 10: ITEMGEGEVENS EN BETROUWBAARHEID Betrouwbaarheid in SPSS De KR-20 is veel meer rekenwerk dan de KR-21. Dat was vroeger, voordat de pc zijn intrede deed, van groot belang. Nu gebruiken we voornamelijk de KR-20, of Alfa. We nemen de gegevens van het voorblad van dit deel van de syllabus als uitgangspunt; we hebben dus een datafile ingevoerd met 10 cases (studenten) die ieder 10 items beantwoord hebben. Om de betrouwbaarheid te laten uitrekenen gaan we via ANALYZE naar SCALE en kiezen daar RELIABILITY ANALYSIS (zie plaatje). Als je dat gedaan hebt, kom je in een schermpje van het bekende type waarin links alle variabelen uit de data-file onder elkaar staan, en door die te verhuizen naar het rechterdeel geef je aan welke variabelen je in de onderhavige analyse wil betrekken. Wij zijn geïnteresseerd in de betrouwbaarheid van de toets als geheel. We moeten dus alle 10 vragen uit het linkerdeel overhevelen naar het rechterdeel. Daarna even op OK klikken, en de was is al gedaan. In de onderstaande Tabel is de output zoals SPSS die geeft weergegeven. Reliability Statistics Cronbach's Alpha N of Items De betrouwbaarheid van dit tentamen is dus Nu kan spss ook meteen de rit uitrekenen. Daarvoor moet je in het schermpje hierboven op STATISTICS klikken en

1. Gegeven zijn de itemsores van 8 personen op een test van 3 items

1. Gegeven zijn de itemsores van 8 personen op een test van 3 items 1. Gegeven zijn de itemsores van 8 personen op een test van 3 items item Persoon 1 2 3 1 1 0 0 2 1 1 0 3 1 0 0 4 0 1 1 5 1 0 1 6 1 1 1 7 0 0 0 8 1 1 0 Er geldt: (a) de p-waarden van item 1 en item 2 zijn

Nadere informatie

College Week 3 Kwaliteit meetinstrumenten; Inleiding SPSS

College Week 3 Kwaliteit meetinstrumenten; Inleiding SPSS College Week 3 Kwaliteit meetinstrumenten; Inleiding SPSS Inleiding in de Methoden & Technieken 2013 2014 Hemmo Smit Overzicht van dit college Kwaliteit van een meetinstrument Inleiding SPSS Hiervoor lezen:

Nadere informatie

Rekenen aan wortels Werkblad =

Rekenen aan wortels Werkblad = Rekenen aan wortels Werkblad 546121 = Vooraf De vragen en opdrachten in dit werkblad die vooraf gegaan worden door, moeten schriftelijk worden beantwoord. Daarbij moet altijd duidelijk zijn hoe de antwoorden

Nadere informatie

8. Analyseren van samenhang tussen categorische variabelen

8. Analyseren van samenhang tussen categorische variabelen 8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren: INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 4 1. Toets met behulp van SPSS de hypothese van Evelien in verband met de baardlengte van metalfans. Ga na of je dezelfde conclusies

Nadere informatie

Klantonderzoek: statistiek!

Klantonderzoek: statistiek! Klantonderzoek: statistiek! Statistiek bij klantonderzoek Om de resultaten van klantonderzoek juist te interpreteren is het belangrijk de juiste analyses uit te voeren. Vaak worden de mogelijkheden van

Nadere informatie

Oplossingen hoofdstuk Het milieubesef

Oplossingen hoofdstuk Het milieubesef Oplossingen hoofdstuk 3 1. Het milieubesef Eerst het hercoderen van item 3 en 5, via het commando Transform, Recode into different variables, nadien verschijnt het dialoogvenster Recode into Different

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

Elementaire rekenvaardigheden

Elementaire rekenvaardigheden Hoofdstuk 1 Elementaire rekenvaardigheden De dingen die je niet durft te vragen, maar toch echt moet weten Je moet kunnen optellen en aftrekken om de gegevens van de patiënt nauwkeurig bij te kunnen houden.

Nadere informatie

Vragen oefententamen Psychometrie

Vragen oefententamen Psychometrie Vragen oefententamen Psychometrie 1. Hoe wordt betrouwbaarheid in de klassieke testtheorie gedefinieerd? a) De variantie van de error scores gedeeld door die van de geobserveerde scores. b) De variantie

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

Operationaliseren van variabelen (abstracte begrippen)

Operationaliseren van variabelen (abstracte begrippen) Operationaliseren van variabelen (abstracte begrippen) Tabel 1, schematisch overzicht van abstracte begrippen, variabelen, dimensies, indicatoren en items. (Voorbeeld is ontleend aan de masterscriptie

Nadere informatie

Toelichting bij applicatie "betekenis geven aan cijfers"

Toelichting bij applicatie betekenis geven aan cijfers Toelichting bij applicatie "betekenis geven aan cijfers" De toelichting op deze applicatie bestaat uit twee onderdelen: een praktische handleiding voor het gebruik van de applicatie; uitleg over de informatie

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages. MARGES EN SIGNIFICANTIE BIJ STEEKPROEFRESULTATEN. De marges van percentages Metingen via een steekproef leveren een schatting van de werkelijkheid. Het toevalskarakter van de steekproef heeft als consequentie,

Nadere informatie

Toetsanalyse. Leidraad Digitaal Toetsen FGw

Toetsanalyse. Leidraad Digitaal Toetsen FGw Toetsanalyse Leidraad Digitaal Toetsen FGw Inhoudsopgave INHOUDSOPGAVE 2 1 TOETSANALYSE 3 1.1 P-waarde 3 1.2 Betrouwbaarheid Alpha/KR-20 3 2 ITEMANALYSE 5 2.1 P-waarde 5 2.2 A-waarde 5 2.3 Rit en Rir-waarde

Nadere informatie

Meten: algemene beginselen. Harry B.G. Ganzeboom ADEK UvS College 1 28 februari 2011

Meten: algemene beginselen. Harry B.G. Ganzeboom ADEK UvS College 1 28 februari 2011 Meten: algemene Harry B.G. Ganzeboom ADEK UvS College 1 28 februari 2011 OPZET College 1: Algemene College 2: Meting van attitudes (ISSP) College 3: Meting van achtergrondvariabelen via MTMM College 4:

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

8. VAN WAARNEMING NAAR GETAL. 8.1 Inleiding

8. VAN WAARNEMING NAAR GETAL. 8.1 Inleiding 8. VAN WAARNEMING NAAR GETAL 8.1 Inleiding Het doen van empirisch onderzoek betekent het doen van waarnemingen. Deze waarnemingen kunnen van diverse aard zijn: het gedrag van mensen kan geobserveerd worden,

Nadere informatie

Feedback proefexamen Statistiek I 2009 2010

Feedback proefexamen Statistiek I 2009 2010 Feedback proefexamen Statistiek I 2009 2010 Het correcte antwoord wordt aangeduid door een sterretje. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Een derde van de mannen is

Nadere informatie

Antwoorden bij Testtheorie. Inleiding in de theorie van de psychologische test en zijn toepassingen, door P. J. D. Drenth en K.

Antwoorden bij Testtheorie. Inleiding in de theorie van de psychologische test en zijn toepassingen, door P. J. D. Drenth en K. Antwoorden bij Testtheorie. Inleiding in de theorie van de psychologische test en zijn toepassingen, door P. J. D. Drenth en K. Sijtsma Opmerking vooraf: Enkele docenten hebben ons laten weten dat zij

Nadere informatie

Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren

Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren Hoofdstuk 18 Verbanden tussen variabelen vaststellen en interpreteren Analyse van verbanden Analyse van verbanden: bij de analyse van verbanden stel je vast of er een stabiel verband bestaat tussen twee

Nadere informatie

Hoofdstuk 5: Steekproevendistributies

Hoofdstuk 5: Steekproevendistributies Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

HTS Report. d2-r. Aandachts- en concentratietest. David-Jan Punt ID 255-4 Datum 10.11.2015. Standaard. Hogrefe Uitgevers BV, Amsterdam

HTS Report. d2-r. Aandachts- en concentratietest. David-Jan Punt ID 255-4 Datum 10.11.2015. Standaard. Hogrefe Uitgevers BV, Amsterdam d2-r Aandachts- en concentratietest HTS Report ID 255-4 Datum 10.11.2015 Standaard d2-r Inleiding 2 / 14 INLEIDING De d2-r is een instrument voor het meten van de visuele selectieve aandacht, snelheid

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

HTS Report. d2-r. Aandachts- en concentratietest. Jeroen de Vries ID Datum Standaard. Hogrefe Uitgevers BV, Amsterdam

HTS Report. d2-r. Aandachts- en concentratietest. Jeroen de Vries ID Datum Standaard. Hogrefe Uitgevers BV, Amsterdam d2-r Aandachts- en concentratietest HTS Report ID 5107-7038 Datum 18.07.2017 Standaard d2-r Inleiding 2 / 16 INLEIDING De d2-r is een instrument voor het meten van de visuele selectieve aandacht, snelheid

Nadere informatie

3,3. Praktische-opdracht door een scholier 2249 woorden 27 maart keer beoordeeld. Wiskunde A. Intelligentiequotiënt (IQ)

3,3. Praktische-opdracht door een scholier 2249 woorden 27 maart keer beoordeeld. Wiskunde A. Intelligentiequotiënt (IQ) Praktische-opdracht door een scholier 2249 woorden 27 maart 2012 3,3 2 keer beoordeeld Vak Wiskunde A Intelligentiequotiënt (IQ) Voorwoord Ik heb in deze praktische opdracht voor het onderwerp intelligentie

Nadere informatie

Combinatoriek groep 1 & 2: Recursie

Combinatoriek groep 1 & 2: Recursie Combinatoriek groep 1 & : Recursie Trainingsweek juni 008 Inleiding Bij een recursieve definitie van een rij wordt elke volgende term berekend uit de vorige. Een voorbeeld van zo n recursieve definitie

Nadere informatie

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16 modulus strepen: uitkomst > 0 Hiermee rekenen we de testwaarde van t uit: n 10 ttest ( x ) 105 101 3,16 n-1 4 t test > t kritisch want 3,16 >,6, dus 105 valt buiten het BI. De cola bevat niet significant

Nadere informatie

A. Week 1: Introductie in de statistiek.

A. Week 1: Introductie in de statistiek. A. Week 1: Introductie in de statistiek. Populatie en steekproef. In dit vak leren we de basis van de statistiek. In de statistiek probeert men erachter te komen hoe we de populatie het beste kunnen observeren.

Nadere informatie

Zelfstudiefiches M&T: Deel 2 (H6-7)

Zelfstudiefiches M&T: Deel 2 (H6-7) Zelfstudiefiches M&T: Deel 2 (H6-7) Hoofdstuk 6 1. Bekijk figuur 6.2. Het meetproces (p. 133 cursus). Dit schema en bijhorende tekst moet je heel goed begrijpen, heel vaak komen tijdens de colleges termen

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De

Nadere informatie

Netwerkdiagram voor een project. AON: Activities On Nodes - activiteiten op knooppunten

Netwerkdiagram voor een project. AON: Activities On Nodes - activiteiten op knooppunten Netwerkdiagram voor een project. AON: Activities On Nodes - activiteiten op knooppunten Opmerking vooraf. Een netwerk is een structuur die is opgebouwd met pijlen en knooppunten. Bij het opstellen van

Nadere informatie

3. Structuren in de taal

3. Structuren in de taal 3. Structuren in de taal In dit hoofdstuk behandelen we de belangrijkst econtrolestructuren die in de algoritmiek gebruikt worden. Dit zijn o.a. de opeenvolging, selectie en lussen (herhaling). Vóór we

Nadere informatie

Les 1: Waarschijnlijkheidrekening

Les 1: Waarschijnlijkheidrekening Les 1: Waarschijnlijkheidrekening A Men neemt een steekproef van 1000 appelen. Deze worden ingedeeld volgens gewicht en volgens symptomen van een bepaalde schimmel: geen, mild, gematigd of ernstig. Het

Nadere informatie

Hoofdstuk 6 Twee populaties: parametrische toetsen

Hoofdstuk 6 Twee populaties: parametrische toetsen Hoofdstuk 6 Twee populaties: parametrische toetsen 6.1 De t-toets voor het verschil tussen twee gemiddelden: In veel onderzoekssituaties zijn we vooral in de verschillen tussen twee populaties geïnteresseerd.

Nadere informatie

1 Sociaalwetenschappelijk onderzoek

1 Sociaalwetenschappelijk onderzoek Noordhoff Uitgevers bv 3 Sociaalwetenschappelijk onderzoek. Causale conclusie en generalisatie.2 Interne validiteit.3 Externe validiteit Samenvatting Opgaven Het doel van veel onderzoek is om op basis

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

Kenmerk ontheffing in de Bijstands Uitkeringen Statistiek 2009 Versie 2

Kenmerk ontheffing in de Bijstands Uitkeringen Statistiek 2009 Versie 2 Centraal Bureau voor de Statistiek Divisie sociale en regionale statistieken (SRS) Sector statistische analyse voorburg (SAV) Postbus 24500 2490 HA Den Haag Kenmerk ontheffing in de Bijstands Uitkeringen

Nadere informatie

Kwantitatieve modellen. Harry B.G. Ganzeboom 18 april 2016 College 1: Meetkwaliteit

Kwantitatieve modellen. Harry B.G. Ganzeboom 18 april 2016 College 1: Meetkwaliteit Kwantitatieve modellen voor BCO PMC Harry B.G. Ganzeboom 18 april 2016 College 1: Meetkwaliteit Drie colleges Validiteits- en betrouwbaarheidsanalyse Causale analyse met confounding en mediatie Causale

Nadere informatie

3.1 Itemanalyse De resultaten worden eerst op itemniveau bekeken. De volgende drie aspecten dienen bekeken te worden:

3.1 Itemanalyse De resultaten worden eerst op itemniveau bekeken. De volgende drie aspecten dienen bekeken te worden: Werkinstructie Psychometrische analyse Versie: 1.0 Datum: 01-04-2014 Code: WIS 04.02 Eigenaar: Eekholt 4 1112 XH Diemen Postbus 320 1110 AH Diemen www.zorginstituutnederland.nl T +31 (0)20 797 89 59 1

Nadere informatie

College 3 Interne consistentie; Beschrijvend onderzoek

College 3 Interne consistentie; Beschrijvend onderzoek College 3 Interne consistentie; Beschrijvend onderzoek Inleiding M&T 2012 2013 Hemmo Smit Overzicht van dit college Kwaliteit van een meetinstrument (herhaling) Interne consistentie: Cronbach s alpha Voorbeeld:

Nadere informatie

Excel voor de beginner (4) Handleiding van Helpmij.nl

Excel voor de beginner (4) Handleiding van Helpmij.nl Excel voor de beginner (4) Handleiding van Auteur: CorVerm Juni 2008 Excel voor beginners deel 4. Zoals we in deel drie hebben beloofd gaan we het in deze ronde hebben over het geven van namen aan (een)

Nadere informatie

Wetenschappelijk Instituut Volksgezondheid. Verwerking van gecensureerde waarden

Wetenschappelijk Instituut Volksgezondheid. Verwerking van gecensureerde waarden Wetenschappelijk Instituut Volksgezondheid Dienst Kwaliteit van medische laboratoria Verwerking van gecensureerde waarden 1 ste versie Pr. Albert (februari 2002) 2 de versie Aangepast door WIV (toepassingsdatum:

Nadere informatie

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen. Herkansing Inleiding Intelligente Data Analyse Datum: 3-3-2003 Tijd: 14.00-17.00, BBL 508 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

Summary in Dutch 179

Summary in Dutch 179 Samenvatting Een belangrijke reden voor het uitvoeren van marktonderzoek is het proberen te achterhalen wat de wensen en ideeën van consumenten zijn met betrekking tot een produkt. De conjuncte analyse

Nadere informatie

Les 1: Waarschijnlijkheidrekening

Les 1: Waarschijnlijkheidrekening Les 1: Waarschijnlijkheidrekening A Men neemt een steekproef van 1000 appelen. Deze worden ingedeeld volgens gewicht en volgens symptomen van een bepaalde schimmel: geen, mild, gematigd of ernstig. Het

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

TOETSEN EN TOETSVRAGEN ANALYSEREN. E-merge Digitaal toetsen 2 november 2016

TOETSEN EN TOETSVRAGEN ANALYSEREN. E-merge Digitaal toetsen 2 november 2016 TOETSEN EN TOETSVRAGEN ANALYSEREN E-merge Digitaal toetsen 2 november 2016 INTRODUCTIE Sander Schenk Hogeschool Rotterdam sinds 1999 Instituut voor Financieel Management Docent manager beleidsadviseur

Nadere informatie

Aantekeningenbundel te gebruiken bij het onderdeel testtheorie van Grondslagen psychologische diagnostiek en testtheorie.

Aantekeningenbundel te gebruiken bij het onderdeel testtheorie van Grondslagen psychologische diagnostiek en testtheorie. Aantekeningenbundel te gebruiken bij het onderdeel testtheorie van Grondslagen psychologische diagnostiek en testtheorie. College: Betrouwbaarheid Betrouwbaarheid kan je op verschillende manieren schatten:

Nadere informatie

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen Lesbrief: Correlatie en Regressie Leerlingmateriaal Je leert nu: -een correlatiecoëfficient gebruiken als maat voor het statistische verband tussen beide variabelen -een regressielijn te tekenen die een

Nadere informatie

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten Hoofdstuk 8 Betrouwbaarheidsintervallen In het vorige hoofdstuk lieten we zien hoe het mogelijk is om over een ongekende karakteristiek van een populatie hypothesen te formuleren. Een andere manier van

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

Sterrenkunde Praktikum 1 Fouten en fitten

Sterrenkunde Praktikum 1 Fouten en fitten Sterrenkunde Praktikum 1 Fouten en fitten Paul van der Werf 12 februari 2008 1 Inleiding In de sterrenkunde werken we vaak met zwakke signalen, of met grote hoeveelheden metingen van verschillende nauwkeurigheid.

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

Opdrachten Toeval Opdrachten Toeval Opdracht 1.1 (Bestaat toeval) Opdracht 1.2(toeval in de natuur)

Opdrachten Toeval Opdrachten Toeval Opdracht 1.1 (Bestaat toeval) Opdracht 1.2(toeval in de natuur) Opdrachten Toeval 1 1 Opdrachten Toeval Opdracht 1.1 (Bestaat toeval) a) Bestaat toeval volgens jou? b) Wat is toeval volgens jou? c) Vraag aan je ouders of zij in hun leven ooit iets heel onwaarschijnlijks

Nadere informatie

HTS Report. d2-r. Aandachts- en concentratietest. Jan Janssen ID 15890-10 Datum 02.05.2016. Standaard. Hogrefe Uitgevers BV, Amsterdam

HTS Report. d2-r. Aandachts- en concentratietest. Jan Janssen ID 15890-10 Datum 02.05.2016. Standaard. Hogrefe Uitgevers BV, Amsterdam d2-r Aandachts- en concentratietest HTS Report ID 15890-10 Datum 02.05.2016 Standaard d2-r Interpretatie 2 / 13 ALGEMENE TOELICHTING Informatie over de d2-r De d2-r is een instrument voor het meten van

Nadere informatie

Opzetten medewerker tevredenheid onderzoek

Opzetten medewerker tevredenheid onderzoek Opzetten medewerker tevredenheid onderzoek E: info@malvee.com T: +31 (0)76 7002012 Het opzetten en uitvoeren van een medewerker tevredenheid onderzoek is relatief eenvoudig zolang de te nemen stappen bekend

Nadere informatie

Projectieve Vlakken en Codes

Projectieve Vlakken en Codes Projectieve Vlakken en Codes 1. De Fanocode Foutdetecterende en foutverbeterende codes. Anna en Bart doen mee aan een spelprogramma voor koppels. De ene helft van de deelnemers krijgt elk een kaart waarop

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

Voorbeelden van gebruik van 5 VUSTAT-apps

Voorbeelden van gebruik van 5 VUSTAT-apps Voorbeelden van gebruik van 5 VUSTAT-apps Piet van Blokland Begrijpen van statistiek door simulaties en visualisaties Hoe kun je deze apps gebruiken bij het statistiek onderwijs? De apps van VUSTAT zijn

Nadere informatie

Samenvatting Maatschappijwetenschappen Onderzoek doen

Samenvatting Maatschappijwetenschappen Onderzoek doen Samenvatting Maatschappijwetenschappen Onderzoek doen Samenvatting door Lotte 2060 woorden 2 jaar geleden 0 keer beoordeeld Vak Maatschappijwetenschappen Maatschappijwetenschappen: onderzoek doen Hoofdstuk

Nadere informatie

HTS Report. Positiviteitstest. Jeroen de Vries ID Datum Zelfrapportage. Hogrefe Uitgevers BV, Amsterdam

HTS Report. Positiviteitstest. Jeroen de Vries ID Datum Zelfrapportage. Hogrefe Uitgevers BV, Amsterdam PT Positiviteitstest HTS Report ID 15890-3155 Datum 18.07.2017 Zelfrapportage PT Inleiding 2 / 8 INLEIDING De Positiviteitstest is een vragenlijst die op basis van zelfrapportage in kaart brengt in hoeverre

Nadere informatie

2. In de klassen 2A en 2B is een proefwerk gemaakt. Je ziet de resultaten in de frequentietabel. 2A 2B

2. In de klassen 2A en 2B is een proefwerk gemaakt. Je ziet de resultaten in de frequentietabel. 2A 2B 1. (a) Bereken het gemiddelde salaris van de werknemers in de tabel hiernaast. (b) Bereken ook het mediale salaris. (c) Hoe groot is het modale salaris hier? salaris in euro s aantal werknemers 15000 1

Nadere informatie

A. Business en Management Onderzoek

A. Business en Management Onderzoek A. Business en Management Onderzoek Concepten definiëren Een concept (concept) is een algemeen geaccepteerde verzameling van betekenissen of kenmerken die geassocieerd worden met gebeurtenissen, situaties

Nadere informatie

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

DEZE PAGINA NIET vóór 8.30u OMSLAAN! STTISTIEK 1 VERSIE MT15303 1308 1 WGENINGEN UNIVERSITEIT LEERSTOELGROEP MT Tentamen Statistiek 1 (MT-15303) 5 augustus 2013, 8.30-10.30 uur EZE PGIN NIET vóór 8.30u OMSLN! STRT MET INVULLEN VN NM, REGISTRTIENUMMER,

Nadere informatie

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y 1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld

Nadere informatie

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R 14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten

Nadere informatie

Inleiding tot de natuurkunde

Inleiding tot de natuurkunde OBC Inleiding tot de Natuurkunde 01-08-2010 W.Tomassen Pagina 1 Hoofdstuk 1 : Hoe haal ik hoge cijfers. 1. Maak van elke paragraaf een samenvatting. (Titels, vet/schuin gedrukte tekst, opsommingen en plaatsjes.)

Nadere informatie

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Meervoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel

Nadere informatie

Meten is weten, dat geldt ook voor het vakgebied natuurkunde. Om te meten gebruik je hulpmiddelen, zoals timers, thermometers, linialen en sensoren.

Meten is weten, dat geldt ook voor het vakgebied natuurkunde. Om te meten gebruik je hulpmiddelen, zoals timers, thermometers, linialen en sensoren. 1 Meten en verwerken 1.1 Meten Meten is weten, dat geldt ook voor het vakgebied natuurkunde. Om te meten gebruik je hulpmiddelen, zoals timers, thermometers, linialen en sensoren. Grootheden/eenheden Een

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN

TECHNISCHE UNIVERSITEIT EINDHOVEN TECHNISCHE UNIVERSITEIT EINDHOVEN Tentamen Biostatistiek voor BMT (2S390) op 17-11-2003 U mag alleen gebruik maken van een onbeschreven Statistisch Compendium (dikt. nr. 2218) en van een zakrekenmachine.

Nadere informatie

Inleiding statistiek

Inleiding statistiek Inleiding Statistiek Pagina 1 uit 8 Inleiding statistiek 1. Inleiding In deze oefeningensessie is het de bedoeling jullie vertrouwd te maken met een aantal basisbegrippen van de statistiek, meer bepaald

Nadere informatie

VRAAGVORMEN OPTIMAAL GEBRUIKEN INSTRUCTIE VOOR VRAAGONTWIKKELAARS TESTVISION ONLINE

VRAAGVORMEN OPTIMAAL GEBRUIKEN INSTRUCTIE VOOR VRAAGONTWIKKELAARS TESTVISION ONLINE VRAAGVORMEN OPTIMAAL GEBRUIKEN INSTRUCTIE VOOR VRAAGONTWIKKELAARS TESTVISION ONLINE VERSIE: 4 DATUM: MEI 2014 INHOUDSOPGAVE Inleiding... 2 1. Eén-uit-meervraag... 3 1.1 Belangrijkste kenmerken... 3 1.2

Nadere informatie

Kengetallen. E-5 MPR-Kwaliteit. Inleiding. MPR 24 uur. 4 Betekenis van MPR 24 uur

Kengetallen. E-5 MPR-Kwaliteit. Inleiding. MPR 24 uur. 4 Betekenis van MPR 24 uur Kengetallen E-5 MPR-Kwaliteit Inleiding Via Melkproductieregistratie (MPR) worden gegevens over de melk-, vet en eiwitproductie van de veestapel verzameld. Deze gegevens zijn de basis van managementinformatie

Nadere informatie

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Basistechnieken 6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. x 0 2 4 6 p(x) ¼ ¼ ¼ ¼ a. Schrijf alle mogelijke verschillende steekproeven van n =

Nadere informatie

Voorbeeldtentamen Statistiek voor Psychologie

Voorbeeldtentamen Statistiek voor Psychologie Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij

Nadere informatie

Schriftelijk tentamen - UITWERKINGEN

Schriftelijk tentamen - UITWERKINGEN Business Administration / Bedrijfskunde Schriftelijk tentamen - UITWERKINGEN Algemeen Vak : Statistische Methoden Groep : niet van toepassing en Technieken Vakcode : BKB0019t Soort tentamen : gesloten

Nadere informatie

Tools voor itemanalyse

Tools voor itemanalyse Tools voor itemanalyse Wido La Heij Cognitieve Psychologie laheij@fsw.leidenuniv.nl Klazine Verdonschot ICT en Onderwijscoach kverdonschot@fsw.leidenuniv.nl De weg naar het Grade Center Menu van de toetskolom

Nadere informatie

Correctievoorschrift VWO. Wiskunde A1 (nieuwe stijl)

Correctievoorschrift VWO. Wiskunde A1 (nieuwe stijl) Wiskunde A (nieuwe stijl) Correctievoorschrift VWO Voorbereidend Wetenschappelijk Onderwijs 20 02 Tijdvak 2 Inzenden scores Uiterlijk op 2 juni de scores van de alfabetisch eerste vijf kandidaten per school

Nadere informatie

Eigenschap (Principe van welordening) Elke niet-lege deelverzameling V N bevat een kleinste element.

Eigenschap (Principe van welordening) Elke niet-lege deelverzameling V N bevat een kleinste element. Hoofdstuk 2 De regels van het spel 2.1 De gehele getallen Grof gezegd kunnen we de (elementaire) getaltheorie omschrijven als de wiskunde van de getallen 1, 2, 3, 4,... die we ook de natuurlijke getallen

Nadere informatie

Kenmerk ontheffing in de Bijstands Uitkeringen Statistiek

Kenmerk ontheffing in de Bijstands Uitkeringen Statistiek Centraal Bureau voor de Statistiek Divisie sociale en regionale statistieken (SRS) Sector statistische analyse voorburg (SAV) Postbus 24500 2490 HA Den Haag Kenmerk ontheffing in de Bijstands Uitkeringen

Nadere informatie

HandOut 5a MC PLUS ontwerp - constructie afname beoordelen - evalueren Centrum voor Onderwijs en Leren

HandOut 5a MC PLUS ontwerp - constructie afname beoordelen - evalueren Centrum voor Onderwijs en Leren 5a. Toetsanalyse Introductie Na het afnemen van het tentamen en het analyseren van de scores komt het vaststellen van de uitslag. Dat gaat eerst globaal, daarna wordt een diepgaandere analyse uitgevoerd

Nadere informatie

A. Business en Management Onderzoek

A. Business en Management Onderzoek A. Business en Management Onderzoek Concepten definiëren Een concept (concept) is een algemeen geaccepteerde verzameling van betekenissen of kenmerken die geassocieerd worden met gebeurtenissen, situaties

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008 Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer

Nadere informatie

BEGRIP VAN BEWIJS. vrije Universiteit amsterdam. Instituut voor Didactiek en Onderwijspraktijk. Vragenlijst. Herman Schalk

BEGRIP VAN BEWIJS. vrije Universiteit amsterdam. Instituut voor Didactiek en Onderwijspraktijk. Vragenlijst. Herman Schalk Instituut voor Didactiek en Onderwijspraktijk BEGRIP VAN BEWIJS Herman Schalk Vragenlijst Toelichting bij de vragenlijst p. 3 Vragen bij de elementen van begrip van bewijs p. 4 vrije Universiteit amsterdam

Nadere informatie

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn Statistiek: Spreiding en dispersie 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Met spreiding willen we in één getal uitdrukken hoe verspreid de gegevens zijn: in hoeveel

Nadere informatie

Een onderzoek naar visuele en verbale denkvoorkeuren en vaardigheden bij leerlingen van groep 6 en 7

Een onderzoek naar visuele en verbale denkvoorkeuren en vaardigheden bij leerlingen van groep 6 en 7 Beelddenken: Een onderzoek naar visuele en verbale denkvoorkeuren en vaardigheden bij leerlingen van groep 6 en 7 Een samenvatting van het wetenschappelijk onderzoek naar beelddenken Inhoudsopgave Inleiding

Nadere informatie

11. Multipele Regressie en Correlatie

11. Multipele Regressie en Correlatie 11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in

Nadere informatie

EMPO voor Ouders en Jongeren versie 2.0

EMPO voor Ouders en Jongeren versie 2.0 EMPO voor Ouders en Jongeren versie 2.0 2011 Praktikon BV Nijmegen: Harm Damen 1. Wat is de EMPO? De EMPO 2.0 is een lijst voor zelfevaluatie om de empowerment bij ouders (EMPO Ouders 2.0) en jongeren

Nadere informatie