Psychometrische analyses Psychometrische analyses zijn kwantitatieve analyses waarbij een aantal indicatoren berekend worden die iets zeggen over de kwaliteit van de toets. Wanneer de toets is afgenomen kan de psychometrische analyse plaatsvinden. Het doel ervan is docenten op basis van de toetsscores inzicht te geven in de kwaliteit van de toetsvragen en van de toets als geheel. Wij stellen een instrument ter beschikking om de psychometrische analyse uit te voeren. Het instrument voor psychometrische analyses is gebaseerd op een instrument dat al eerder ontwikkeld werd door Désirée Joosten-Ten Brink 1. Kader - Analyseniveau: toets - Toetsfase: analyseren - Kwaliteitscriterium: betrouwbaarheid - Toetsvormen: open en/of gesloten vragen Stappenplan Het uitvoeren van psychometrische analyses op toetsresultaten is geen doel op zich. Het is belangrijk dat de verkregen resultaten nauwkeurig worden bestudeerd en op basis hiervan al dan niet verbeteracties worden geformuleerd en ondernomen. Tijdens het proces van psychometrische analyses kunnen dan ook verscheidene stappen onderscheiden worden. We hier kort iedere stap bondig beschrijven. Bij de paragraaf gebruiksaanwijzing worden de meeste stappen nog meer in detail besproken. 1. Invoeren van de data Alvorens psychometrische analyses kunnen uitgevoerd worden, moet een elektronisch bestand aangemaakt worden. Hierin kunnen dan de resultaten van de studenten op al de vragen ingevoerd worden. Bij een toets bestaande uit een deel gesloten en een deel open vragen moeten twee verschillende analyses uitgevoerd worden. Het is namelijk mogelijk dat de beide delen niet hetzelfde meten. Voor de analyse van beide delen zijn er dan ook twee versies van de spreadsheet psychometrische analyses: Psychometrische analyses voor open vragen Psychometrische analyses voor gesloten vragen Het verschil in beide instrumenten zit in het invoeren van de gegevens. De analyses achteraf zijn identiek en de interpretatie van de data is vergelijkbaar. Beide spreadsheets kunnen gebruikt worden voor maximaal 200 studenten en maximaal 100 (sub)vragen. 1 Doctor Désirée Joosten-Ten Brink promoveerde op het onderwerp Assessment of Prior Learning aan de Open Universiteit Nederland. OOF-project Toetskoffer: startbagage voor toetscommissies 2012-2014 1
2. Analyseren van de data Wanneer de gegevens van de studenten, ofwel voor open vragen ofwel voor gesloten vragen, correct worden ingegeven, worden de data automatisch geanalyseerd. Deze analyses geven docenten inzicht in de psychometrische kwaliteit van hun toets of examen. 3. Interpreteren van de data Om inzicht te vergaren in en conclusies te kunnen trekken met betrekking tot de psychometrische kwaliteit van de toets of het examen, dienen de analyseresultaten in de vorm van kwaliteitsparameters grondig bestudeerd en geïnterpreteerd te worden. Twee soorten parameters kunnen onderscheiden worden, m.n. parameters op vraagniveau en parameters op toetsniveau. De parameters op vraagniveau (R it en p-waarde) informeren over het functioneren van de vraag in de toets. De parameters op toetsniveau (Cronbach s α, mediaan, gemiddelde, variantie en standaardafwijking) geven een indicatie van de kwaliteit van de toets in zijn geheel. In de paragraaf Gebruiksaanwijzing wordt dieper ingegaan op de afzonderlijke betekenis van al deze parameters. 4. Verbeteracties formuleren Na de psychometrische analyses heb je een beter beeld van de kwaliteit van uw examen/toets. Nu doelen we met het instrument niet enkel op het informeren over de kwaliteit, maar ook op het ondernemen van actie wanneer sommige parameters wijzen op een mindere kwaliteit. In deze tabel geven we per parameter aan wat er kan ondernomen worden om de kwaliteit te verbeteren. Resultaat analyse p-waarde is lager dan of gelijk aan de gokkans p-waarde is (bijna) 1 R it is negatief of 0 R it is positief, maar lager dan 0,15 Cronbach s α is lager dan 0,70 Cronbach s α is hoger dan 0,70 maar lager dan 0,80 Mogelijks te ondernemen acties Is de verbetersleutel bij de vraag correct? - Zo niet, wijzig de verbetersleutel en voer de analyse opnieuw uit. - Zo ja, vraag uit de toets verwijderen en analyse opnieuw uitvoeren. De vraag handhaven. Is de verbetersleutel bij de vraag correct? - Zo niet, wijzig de verbetersleutel en voer de analyse opnieuw uit. - Zo ja, vraag uit de toets verwijderen en analyse opnieuw uitvoeren. Indien de p-waarde eveneens laag is, de vraag uit de toets verwijderen en de analyse opnieuw uitvoeren. Toetsuitslag uitsluitend als formatief beschouwen. Indien de toets kan worden gecompenseerd met andere toetsen, is deze uitkomst niet verontrustend. 5. Rapporteren Om de kwaliteit van uw toetsing aan te tonen, is het aan te raden een rapportage te maken van de resultaten van de psychometrische analyses. Daarvoor kan je het sjabloon rapportage psychometrische analyses gebruiken. OOF-project Toetskoffer: startbagage voor toetscommissies 2012-2014 2
Tips & tricks - Psychometrische normen zijn nuttig om signalen te geven. Je mag op basis van deze analyses geen kwalitatieve uitspraken doen over de toets, omdat het om een kwantitatieve analyse gaat en er aan iedere norm een onzekerheidsmarge vast zit. - Leg de resultaten van je psychometrische analyse naast je toetsmatrijs (zie sjabloon en fiche toetsmatrijs)om een volledig beeld te krijgen van de kwaliteit van je toets. - Gebruik psychometrische analyses enkel voor toetsvormen met meerkeuzevragen en/of met open vragen. - Doe enkel psychometrische analyses bij grote groepen studenten. Een analyse op basis van een klein aantal studenten levert geen betrouwbare resultaten op. - Je kan digitaal toetsen via Toledo. In Toledo kan je vervolgens de analyses gemakkelijk uitvoeren. Indien je niet digitaal toetst, kan je gebruik maken van de sjablonen psychometrische analyses in Toetskoffer. Gebruiksaanwijzing Het instrument voor psychometrische analyses is toegankelijk via de website toetskoffer. Er bestaan 2 versies van de spreadsheet psychometrische analyses: 1. Psychometrische analyses voor open vragen 2. Psychometrische analyses voor gesloten vragen Afhankelijk van welk vraagtype in de toets wordt gebruikt, kies je één van beide spreadsheets. Het is ook mogelijk dat je in een toets beide vraagtypes hanteert. Het is dan aangewezen om voor beide vraagtypes afzonderlijke analyses uit te voeren. Het gebruik van het instrument wordt verder geïllustreerd aan de hand van een concrete gebruiksaanwijzing. Al de stappen dienen doorlopen te worden voor het uitvoeren van psychometrische analyses op uw toets/examen. 1. Invoeren van de data Het invoeren van de data voor open en gesloten vragen is verschillend. Voor beide vraagtypes wordt de werkwijze voor het invoeren van data uitgelegd. 1.1 Invoeren van data open vragen Bij het invoeren van de resultaten op open vragen, worden de resultaten per vraag ingegeven in het tabblad toetsresultaten. (1) Bovenaan wordt eerst het echte vraagnummer in de toets genoteerd. Het kan zijn dat het echte vraagnummer overeenstemt met het vraagnummer in het instrument (bv. vraag 1 is in de toets ook echt de eerste vraag). Echter, het kan ook zijn dat je toets is opgebouwd uit een mix van open en gesloten vragen. Het is dan mogelijk dat de derde open vraag in de toets eigenlijk de vraagnummer 5 heeft, als er twee gesloten tussenkomen (bv. open vraag 3 heeft dan eigenlijk als echte vraagnummer 5 in de toets). OPGELET: het is belangrijk dat het echte vraagnummer wordt ingevuld. Indien je dit niet doet, worden de vraaganalyses in het tabblad toetsanalyse niet automatisch uitgevoerd. OOF-project Toetskoffer: startbagage voor toetscommissies 2012-2014 3
(2) Vervolgens wordt voor iedere kolom de maximaal te behalen score per vraag (norm) genoteerd. (3) Daarna geef je de behaalde score van iedere student op elke vraag in. Indien een student voor een vraag geen punten heeft behaald, wordt de waarde 0 ingevuld. (4) Uiterst rechts in het tabblad vind je voor iedere student de totale score op de toets (4a). Deze gegevens zorgen ervoor dat je de totaalscore van de student niet nogmaals handmatig moet uitrekenen. Daarenboven wordt voor iedere student ook aangegeven wat zijn totaalscore zou zijn als telkens een bepaalde vraag wordt weggelaten (4b). (1) (2) (3) (4a) (4b) 1.2 Invoeren van data gesloten vragen Bij het invoeren van de gesloten vragen, worden de data ingevoerd op het tabblad MC-keuzes. De waarden in de andere tabbladen zullen automatisch verschijnen. (1) Bovenaan wordt eerst, net als bij het invoeren van data van open vragen, het echte vraagnummer in de toets genoteerd. Het kan zijn dat het echte vraagnummer overeenstemt met het vraagnummer in het instrument (bv. vraag 1 is in de toets ook echt de eerste vraag). Echter, het kan ook zijn dat je toets is opgebouwd uit een mix van open en gesloten vragen. Het is dan mogelijk dat de derde gesloten vraag in de toets eigenlijk de vraagnummer 5 heeft, als er twee open vragen tussenkomen (bv. gesloten vraag 3 heeft dan eigenlijk als echte vraagnummer 5 in de toets). OOF-project Toetskoffer: startbagage voor toetscommissies 2012-2014 4
OPGELET: het is belangrijk dat het echte vraagnummer wordt ingevuld. Indien je dit niet doet, worden de vraaganalyses in het tabblad toetsanalyse niet automatisch uitgevoerd. (2) Daarna dienen bij antwoordmogelijkheden al de mogelijke antwoord keuzes ingevuld te worden (bv. a, b, c, d en e). (3) Verder wordt bij iedere gesloten vraag aangegeven welk de juiste antwoordmogelijkheid is (bv. b). (4) Nadien geef je per student aan welke antwoordmogelijkheden hij/zij heeft gekozen bij iedere vraag (bv. c). (5) Onderaan het tabblad komt automatisch het overzicht van het aantal gekozen keuzemogelijkheden. Het aantal juiste keuzes wordt in het groen weergegeven. (1) (3) (2) (4) (5) (6) Wanneer het bovenstaande allemaal correct is uitgevoerd, worden de tabbladen toetsresultaten en toetsanalyses automatisch ingevuld. In het tabblad toetsresultaten verschijnt automatisch de puntenverdeling van de studenten; waarbij 1 verwijst naar het OOF-project Toetskoffer: startbagage voor toetscommissies 2012-2014 5
kiezen van de correcte keuzemogelijkheid en 0 naar het kiezen van een foute keuzemogelijkheid. (7) Uiterst rechts in het tabblad toetsresultaten tref je voor iedere student de totale score aan (7a). Deze gegevens zorgen ervoor dat je de totaalscore van de student niet nogmaals handmatig moet uitrekenen. Daarenboven wordt voor iedere student ook aangegeven wat zijn totaalscore zou zijn als telkens een bepaalde vraag wordt weggelaten (7b). (6) (7a) (7b) 2. Analyse van de data Wanneer de gegevens van de studenten, ofwel voor open vragen ofwel voor gesloten vragen, correct worden ingegeven volgens de boven vernoemde procedure, worden deze data automatisch geanalyseerd. De resultaten van deze analyses worden weergegeven in het tabblad toetsanalyse. 3. Interpretatie van de data In het tabblad toetsanalyse vindt u voor elke deelnemende student zijn of haar cijfer voor het examen berekend op 20. Verder vindt u van de behaalde cijfers: het percentage voldoendes, het gemiddelde cijfer, de mediaan, de steekproefvariantie en de steekproefstandaardafwijking. Daarenboven vindt u op dit OOF-project Toetskoffer: startbagage voor toetscommissies 2012-2014 6
tabblad ook, per vraag, de p-waarde, de variantie en de rit. Deze waarden worden hier achtereenvolgens uitgelegd. OPGELET: belangrijk om te weten is wel dat de cesuur in het tabblad toetsanalyse nog handmatig dient ingevuld te worden. Voor verdere informatie over het bepalen van de cesuur kan u de fiche cesuur raadplegen. p-waarde: moeilijkheid van de vraag (op vraagniveau) De p-waarde geeft de moeilijkheid van de vraag weer. Een p-waarde van 1 betekent dat iedereen de vraag helemaal goed had. Bij een p-waarde van 0 heeft niemand punten gehaald voor de vraag. Als de moeilijkheid stijgt, dan daalt de p-waarde. Een goede vraag in een summatieve toets heeft een p- waarde die in het midden ligt tussen de maximale en de minimale p-waarde (0,5). Let op: de stabiliteit van de p-waarde is afhankelijk van het aantal deelnemers aan de toets. Indien de groep studenten klein is (<25), zal men minder waarde kunnen hechten aan de gevonden p-waarde dan indien er meer dan 100 studenten de toets hebben gemaakt. Een vraag met een p-waarde van 1,00 mag om die reden achteraf niet zomaar uit de toets worden verwijderd. Een kwalitatieve analyse moet hierover meer duidelijkheid scheppen. Kijk onder 4. Actie ondernemen wat je dan precies kan doen. p-waarde bij open vragen De p-waarde staat voor proportie of relatieve frequentie, wat wijst op de verhouding van de frequentie van een bepaalde uitkomst en het totaal aantal te maken waarnemingen. Specifiek voor open vragen representeert deze p-waarde de verhouding van het aantal punten dat de deelnemende studenten samen gehaald hebben voor een vraag ten opzichte van het totaal aantal punten dat die studenten konden halen. p-waarde = Bijvoorbeeld: indien studenten op een open toetsvraag maximaal 5 punten kunnen behalen, zal de score waarden kunnen aannemen die lopen van 0 tot en met 5. Stel, de gemiddelde score op een vraag is 2,7 en de maximale score 5, dan is de p-waarde 2,7/5 = 0,54. De norm voor de p-waarde bij open vragen is 0,50. Wanneer geen enkele student een open vraag correct heeft beantwoord (p = 0), is het raadzaam deze vraag achteraf uit de toets te verwijderen. Indien de p-waarde tussen 0 en 0,50 ligt, geeft dit aan dat het om een moeilijke vraag gaat. Dit is op zich geen reen om een vraag te schrappen. Je kijkt dan best naar het discriminerend effect van de vraag. p-waarde bij gesloten vragen Specifiek voor gesloten vragen representeert de p-waarde de verhouding tussen hoeveel studenten de vraag correct beantwoord hebben en het totaal aantal studenten die deelnemen aan de toets. p-waarde = OOF-project Toetskoffer: startbagage voor toetscommissies 2012-2014 7
Bijvoorbeeld: als de vraag door 80 studenten is gemaakt en 60 studenten hebben de vraag correct beantwoord, is de p-waarde 60/80 = 0,75. De norm voor de p-waarde bij gesloten vragen is afhankelijk van het aantal antwoordalternatieven, omdat hierbij rekening wordt gehouden met de gokkans. Een p-waarde die gelijk of lager is aan de gokkans, geeft geen zinvolle informatie over het kennisniveau van de studenten. de beste p-waarde ligt daarom in het midden tussen de maximale p-waarde (1,00) en de gokkans. Indien het een vijfkeuzevraag betreft, waar de gokkans dus 1,00/5 = 0,20 is, is de beste p-waarde (1,00+0,20)/2 = 0,60. Aantal alternatieven Norm voor de p-waarde 2 alternatieven 0,75 3 alternatieven 0,68 4 alternatieven 0,63 5 alternatieven 0,60 R it-waarde: onderscheidingsvermogen van de vraag (op vraagniveau) Elke toetsvraag moet zo goed mogelijk onderscheid maken discrimineren tussen studenten met een hoge en lage eindscore. Een noodzakelijke voorwaarde om te kunnen discrimineren, is dat niet alle studenten een vraag correct of incorrect beantwoorden. Het onderscheidingsvermogen wordt bepaald door de score op de betreffende vraag (i = item) te relateren (R = correlatie) aan de eindscore (t = total score) op de toets (R it = item-testcorrelatie ). De R it heeft een maximale waarde van +1,00 en een minimale waarde van -1,00. Een R it -waarde van +1,00 betekent dat alle studenten die hoog scoorden op de toets, de betreffende vraag correct hebben beantwoord. Een waarde van -1,00 betekent dat alle studenten die laag scoorden op de toets, de betreffende vraag correct hebben beantwoord. In de praktijk zal de R it -waarde ergens tussen -1,00 en +1,00 liggen. Hoe hoger het onderscheidingsvermogen van de vraag, hoe hoger de psychometrische kwaliteit. Gevonden waarde voor R it Vanaf 0,35 Van 0,25 tot 0,35 Van 0,15 tot 0,25 Minder dan 0,15 Kwalificatie Goed tot zeer goed Voldoende tot goed Middelmatig tot voldoende Slecht tot middelmatig Indien er minder dan 50 studenten zijn, dient de betekenis aan de R it voorzichtig te worden geïnterpreteerd. Een goed discriminerende vraag heeft een positieve R it waarde. Dat betekent dat de hoogscoorders de vraag beter beantwoord hebben dan de laagscoorders. Indien een vraag een negatieve R it -waarde heeft, hebben vooral de hoogscoorders deze vraag foutief beantwoord. De meest voor de hand liggende verklaring hiervoor is bij gesloten toetsvragen een verkeerde antwoordsleutel. Indien dit het geval is, moet er meteen gecorrigeerd worden waarna de analyses opnieuw worden uitgevoerd. Bij open vragen zijn er verschillende verklaringen mogelijk: een tikfout of een onduidelijke formulering heeft studenten misschien in verwarring gebracht. OOF-project Toetskoffer: startbagage voor toetscommissies 2012-2014 8
Mediaan, gemiddelde, variantie en standaardafwijking (SD) (op toetsniveau) De mediaan is de middelste score als je alle eindscores op volgorde van klein naar groot zet. Het gemiddelde geeft de gemiddelde score van de studenten weer op de toets. De variantie en de standaardafwijking zijn beide een maat voor de spreiding van de resultaten. Hoe hoger deze waarden zijn, hoe groter de spreiding van de resultaten en hoe beter de toets in staat is geweest om verschillen tussen de studenten aan te tonen. Een waarde nul geeft aan dat er geen spreiding is: alle studenten hebben dezelfde scores gehaald. Cronbach s alpha: interne consistentie van de toets (op toetsniveau) Om te weten of een toets betrouwbaar is en of de meting iets te betekenen heeft, zou direct na de toets een vergelijkbare toets moeten worden afgenomen onder dezelfde studenten. Omdat dit in de praktijk niet haalbaar is, geeft de betrouwbaarheidscoëfficiënt Cronbach s alpha weer hoe betrouwbaar de toets is. Hoe hoger deze waarde, hoe beter de toets. Gezien de berekening van deze coëfficiënt complex is en best via software berekend wordt, gaan we hier niet dieper op in. Wel zullen we dieper ingaan op de mogelijke waarden van de parameter en de betekenis van deze waarden. Alpha kan enkel waarden aannemen die liggen tussen 0 (niet betrouwbaar) 1 (maximaal betrouwbaar). Wanneer een toets niet betrouwbaar is, kan men geen enkele betekenis hechten aan de toetsuitslag. Wanneer een toets 100% betrouwbaar is, heeft de toetsuitslag iets te betekenen. Of het ook een zinvolle betekenis is, staat los van de betrouwbaarheid. Dat moet blijken uit de bestudering van de inhoudsvaliditeit van de toets (zie toetsmatrijs). Betrouwbaarheid is wel een voorwaarde voor inhoudsvaliditeit. Een toets die onbetrouwbaar is, is ook niet inhoudsvalide. De normen voor de betrouwbaarheid van summatieve toetsen worden weergegeven in onderstaande tabel: Gevonden waarde voor Cronbach s α Vanaf 0,90 Van 0,80 tot 0,90 Van 0,70 tot 0,80 Minder dan 0,70 Kwalificatie Goed tot zeer goed Voldoende tot goed Middelmatig tot voldoende Slecht tot middelmatig OOF-project Toetskoffer: startbagage voor toetscommissies 2012-2014 9
P-waarde of moeilijkheidsgraad R it of onderscheidingsvermogen Mediaan Gemiddelde Variantie Standaardafwijking Eindscore op 20 van student Cesuur of zak-/slaaggrens (handmatig te bepalen) Cronbach s α of betrouwbaarheidsparameter Meer weten en doen? Berkel, H. J. M. van (1996). Zicht op toetsen. Assen, Nederland: Van Gorcum. Berkel, H. J. M. van, & Bax, A. E. (red) 2006. Toetsen in het hoger onderwijs. Houten, Nederland: Bohn Stafleu van Loghum. Vandenbosch, N. (2010). Digitale voortgangstoets: Van concept tot implementatie. Antwerpen- Apeldoorn, Nederland: Garant. OOF-project Toetskoffer: startbagage voor toetscommissies 2012-2014 10