De ontwikkeling van een beoordelingssysteem voor het beoordelen van computer based tests

Transcriptie

1 POK Memorandum De ontwikkeling van een beoordelingssysteem voor het beoordelen van computer based tests - Samenvatting, bijlage met CBT-beoordelingssysteem en literatuur - Jos Keuning Citogroep, Arnhem, maart 2004

2 Samenvatting Voor de beoordeling van tests wordt in Nederland momenteel het testbeoordelingssysteem van de Commissie Testaangelegenheden Nederland (COTAN) gebruikt. Het doel van deze beoordelingen is tweeledig. Ten eerste worden testgebruikers door middel van deze beoordelingen geïnformeerd over de kwaliteit van de tests waardoor zij misschien beter een keuze kunnen maken tussen de diverse tests. Ten tweede wordt aan testauteurs door middel van de beoordelingen feedback gegeven over de kwaliteit van de door hen ontwikkelde test. Tevens kan het beoordelingssysteem voor hen een leidraad zijn bij de ontwikkeling van een test en het schrijven van een handleiding. Het bovengenoemd beoordelingssysteem is met name ontwikkeld voor de beoordeling van Paper Based Tests (PBT) met een vaste lengte en een aantal vragen van een verschillende moeilijkheid. De laatste jaren vindt er een verschuiving plaats van de klassieke Paper Based Tests naar tests die aangeboden worden op de computer. Veelal worden deze tests aangeduid als Computer Based Tests (CBT). Doordat CBT s op bepaalde punten sterk afwijken van de traditionele PBT s is het beschikbare beoordelingssysteem minder geschikt voor de beoordeling van CBT s. Immers, bepaalde onderdelen uit het beschikbare beoordelingssysteem zijn niet van toepassing op CBT s en aspecten die specifiek bij CBT s horen, komen niet aan bod in het beoordelingssysteem. Daarom zou een beoordelingssysteem voor de beoordeling van CBT s bij zowel testbeoordelaars als testontwikkelaars aan een duidelijke behoefte voldoen. In opdracht van het Psychometrisch Onderzoeks- en Kenniscentrum van de Citogroep te Arnhem is een beoordelingssysteem voor het beoordelen van Computer Based Tests (CBT s) ontwikkeld. De ontwikkeling van een CBT-beoordelingssysteem is noodzakelijk omdat er in de literatuur geen beoordelingssystemen worden beschreven met behulp waarvan CBT s op alle relevante aspecten beoordeeld kunnen worden. Vanwege de reeds bewezen bruikbaarheid van het beoordelingssysteem van de COTAN is het CBT-beoordelingssysteem hierop gebaseerd. Het voorgaande betekent dat het CBT-beoordelingssysteem is ingedeeld volgens de criteria - uitgangspunten van de testconstructie, de kwaliteit van het testmateriaal en de handleiding, normen, betrouwbaarheid, begrips- en criteriumvaliditeit - die in het beoordelingssysteem van de COTAN gehanteerd worden. De vormgeving en de manier van beoordelen is daarentegen enigszins afwijkend van het beoordelingssysteem van de COTAN.

3 Het voorliggende verslag beschrijft het ontwerpproces dat gevolgd is bij de ontwikkeling van het CBT-beoordelingssysteem. De hoofdstukken drie tot en met zeven sluiten hierbij aan bij de vooraf gedefinieerde onderzoeksvragen: 1. Wat zijn relevante criteria waarop een CBT beoordeeld zou moeten worden? a) Welke aspecten uit het COTAN-beoordelingssysteem zijn te gebruiken in het CBTbeoordelingssysteem? b) Welke richtlijnen om een CBT te ontwikkelen (of te beoordelen) worden er beschreven in de literatuur? c) Welke aanvullingen zijn nodig om een CBT op alle relevante aspecten te beoordelen? 2. Hoe kunnen de diverse criteria verwerkt worden in een beoordelingssysteem dat leidt tot een betrouwbare beoordeling? Na beantwoording van de onderzoeksvragen is een concept versie van het CBTbeoordelingssysteem geëvalueerd (zie hoofdstuk 8) door een aantal leden van de COTAN een CBT (Nedcat) te laten beoordelen met behulp van het CBT-beoordelingssysteem. Uit de analyse van de beoordelingen is gebleken dat er sprake is van een redelijke overeenstemming over de afzonderlijke vragen en een geringe mate van overeenstemming over de zeven beoordelingscriteria. Derhalve kunnen er aanzienlijke verschillen bestaan in de eindbeoordelingen. Deze conclusie kan echter nog niet als definitief beschouwd worden omdat uitsluitend is onderzocht in hoeverre de beoordelingen op de Nedcat met elkaar overeenstemmen en omdat slechts twee beoordelaars hebben meegewerkt aan de evaluatie. Zie de bijlage voor de definitieve versie van het CBT-beoordelingssysteem.

4 Bijlage Een beoordelingssysteem voor het beoordelen van Computer Based Tests. Een bewerking van het door de Commissie Testaangelegenheden Nederland ontwikkelde beoordelingssysteem voor het beoordelen van psychodiagnostische instrumenten en studietoetsen.

5 1 Uitgangspunten van de testconstructie Testconstructie vergt een grondige voorbereiding. Men wil immers verantwoorde uitspraken doen over personen, verschillen binnen personen (zoals bij leerlingvolgssystemen, waarbij verschillen in tijd een rol spelen) of tussen personen (zoals bij personeelsselectie). Op grond van de informatie die de testauteur biedt moet de testgebruiker kunnen beoordelen of de test past bij het doel waarvoor hij/zij een test zoekt. Er moet derhalve een heldere omschrijving van de meetpretentie van de test worden gegeven en de keuze van de testinhoud en de wijze waarop het (de) begrip(pen) wordt(t)(en) gemeten moet omstandig worden verwoord. Bij dit criterium gaat het uitsluitend om de vraag of de uitgangspunten expliciet zijn gedefinieerd en niet om de kwaliteit van de onderzoeksopzet en uitvoering; deze komen elders aan de orde. Onvoldoende Voldoende Goed Gebruiksdoel 1.1. Is aangegeven welk(e) construct(en) de test beoogt te meten? 1.2. Is aangegeven wat de doelgroep(en) is (zijn) van de test? 1.3. Is aangegeven wat de functie is van de test? Testinhoud 1.4. Word(t)(en) het (de) te meten constructen gedefinieerd? 1.5. Wordt de relevantie van de testinhoud voor het (de) te meten construct(en) aannemelijk gemaakt?

6 Beoordelingsvoorschrift criterium 1 Het eindoordeel voor criterium 1 is hetzelfde als het laagst behaalde oordeel op één van beide subcriteria. Het vaststellen van de oordelen voor de subcriteria gebeurt door de scores bij elkaar op te tellen. Voor het oordeel bij gebruiksdoel geldt dat: 9 punten leidt tot het oordeel goed; 6 tot 8 punten leidt tot het oordeel voldoende; 3 tot 5 punten leidt tot het oordeel onvoldoende. Voor het oordeel bij testinhoud geldt dat: 5 of 6 punten leidt tot het oordeel goed; 4 punten leidt tot het oordeel voldoende; 2 of 3 punten leidt tot het oordeel onvoldoende. Aanwijzingen per vraag Ad 1.1. Is duidelijk welk(e) construct(en) met behulp van de test worden gemeten? Onder construct wordt verstaan welke vaardigheid of welk begrip (b.v. intelligentie, leesvaardigheid, interesse) de test meet. Ad 1.2. Onder de doelgroep worden diegenen verstaan voor wie de test bedoeld is. Voor welke leeftijd is de test bedoeld? Voor welk opleidingsniveau of voor welk beroep is de test bedoeld? Wat is relevante voorkennis? etc. Ad 1.3. Onder de functie van de test wordt verstaan datgene wat er met de testresultaten gedaan wordt. Wil men criteriumgedrag voorspellen? Is de test bedoeld voor voortgangscontrole of trainingsevaluatie? Gaat het om niveaubepaling ten behoeve van de plaatsing van leerlingen? Gaat het om diagnose ten behoeve van een behandelingsplan? Ad 1.4. Sluit de test aan bij een bestaande theorie of heeft de auteur een eigen theorie ontwikkeld? Wordt deze theorie voldoende beschreven? Wanneer de test een vertaling/bewerking is van een buitenlands instrument dan dient een beschrijving te worden gegeven van de achtergronden van dat instrument en kan niet worden volstaan met een simpele literatuurverwijzing. Ook (of juist) van tests die zijn bedoeld voor meting van algemeen bekende begrippen, zoals intelligentie, dient een omschrijving van het begrip te worden gegeven, zodat duidelijk wordt wat wel en wat niet tot het te meten domein wordt gerekend. Wanneer de test niet zozeer theoretisch maar eerder historisch is gefundeerd, dat wil zeggen aansluit bij een traditionele wijze van meten van een bepaald type begrippen dan dient duidelijk te worden gemaakt waarom juist de betreffende begrippen worden gemeten en wat de verschillen en overeenkomsten zijn met soortgelijke tests. Wanneer de test een variant is op reeds bestaande instrumenten of een bewerking is van een Paper Based Test, wordt dan aangegeven wat de meerwaarde is van het nieuwe instrument boven bestaande instrumenten?

7 Ad 1.5. Bij deze vraag gaat het om de stap die van meetpretentie naar operationalisatie wordt genomen. Is daartoe een zodanige omschrijving van het itemdomein beschikbaar dat duidelijk is of een willekeurig item wel of niet tot de test zou kunnen behoren? Word(t)(en) het (de) te meten construct(en) op zodanige wijze (bijvoorbeeld met behulp van facetanalyse) geanalyseerd dat duidelijk wordt welke aspecten binnen het (de) construct(en) kunnen worden onderscheiden? Worden eventueel, op grond van inhoudelijke of theoretische overwegingen, verschillende gewichten aan deze aspecten toegekend en wordt hiermee bij de selectie van de items rekening gehouden? Wanneer tijdens het construeren of bewerken van de test items zijn afgevallen of gewijzigd, wordt dan aangegeven wat de gevolgen hiervan zijn voor de meting van het oorspronkelijk bedoelde construct (dat wil zeggen is het inhoudsdomein nog volledig gedekt, vernauwd of verschoven)? Wordt bij adaptieve tests aangegeven hoe de testinhoud gegarandeerd wordt? Bij adaptieve tests krijgt elke kandidaat immers andere items gepresenteerd, waardoor het mogelijk is dat bepaalde onderwerpen onvoldoende in de test naar voren komen. Derhalve is het veelal noodzakelijk om een inhoudscontrole (bijvoorbeeld volgens de methode zoals voorgesteld door Kingsbury & Zara, 1991) uit te voeren zodat elke test overeenkomt met de specificatietabel.

8 2A De kwaliteit van het testmateriaal De kwaliteit van het materiaal is in verregaande mate bepalend voor de betrouwbaarheid en validiteit van een test. Daarom zal het testmateriaal altijd moeten voldoen aan een aantal kwaliteitseisen. De eisen die gesteld moeten worden aan het testmateriaal zijn te verdelen in drie subcriteria: de CBT software, de vormgeving van de gebruikersinterface en de item(s)(bank). Er is onderscheid gemaakt tussen de CBT software en de vormgeving van de gebruikersinterface vanwege het belang van beide aspecten. Onder CBT software wordt de functionele logica en de werking van de programmatuur verstaan. Denk hierbij aan de instructie die aan kandidaten gegeven wordt, aan de beveiliging van de test of de manier waarop resultaten gerapporteerd worden. Onder vormgeving van de gebruikersinterface wordt de visuele component van de CBT software verstaan. Is de tekst bijvoorbeeld leesbaar? Is de schermindeling overzichtelijk en consistent? Zijn filmfragmenten functioneel en van goede kwaliteit? Onder items worden de opgaven/vragen in de test verstaan. Zijn deze bijvoorbeeld wat betreft de moeilijkheid afgestemd op het niveau van de doelgroep en kunnen alleen degenen die het construct beheersen het item correct beantwoorden? Bij de beoordeling van de vragen die behoren bij dit criterium dient er rekening mee te worden gehouden dat de kwaliteit van het testmateriaal weliswaar van invloed is op de betrouwbaarheid en validiteit, maar dat er bij dit criterium niet gevraagd wordt om een expliciet oordeel te geven over de betrouwbaarheid en validiteit van de test. Er wordt bij dit criterium puur naar een beoordeling van de CBT software, de vormgeving van de gebruikersinterface en de kwaliteit van de items gevraagd. In enkele gevallen zijn vragen mogelijk niet van toepassing. In die gevallen kan de betreffende vraag overgeslagen worden. Dit geldt wanneer er geen itembank beschikbaar is (vraag tot en met 2.18.) of wanneer de itembank niet met behulp van een itemresponsmodel gekalibreerd is (vraag 2.14.; 2.15.; 2.16 en 2.17.). 8

9 Onvoldoende Voldoende Goed CBT software 2.1. Is de test gestandaardiseerd of worden bij adaptieve tests beslisregels geëxpliciteerd? 2.2. Is de instructie voor de geteste volledig en duidelijk? 2.3. Is de software zodanig ontworpen dat fouten door onjuist gebruik kunnen worden vermeden? 2.4. Is de test voldoende beveiligd? 2.5. Is er sprake van een geautomatiseerd of objectief scoringssysteem? 2.6. Zijn de computergegenereerde rapporten van de behaalde testscore(s) van voldoende kwaliteit? Vormgeving gebruikersinterface 2.7. Is de schermvormgeving consistent? 2.8. Is de schermindeling overzichtelijk? 2.9. Is de informatie op het scherm leesbaar? Is het kleurgebruik prettig en functioneel? Is het beelden geluidsmateriaal functioneel? Is de test geschikt voor gehandicapten? Item(s)(bank) Zijn de items van voldoende kwaliteit? Is de steekproef op grond waarvan de IRTitemparameters zijn geschat representatief? Zijn de IRT-itemparameters voldoende nauwkeurig geschat? Is het design op grond waarvan de IRTitemparameters op (dezelfde) schaal zijn gebracht adequaat? Past de schaal (het IRT-model) bij de data? Is de omvang van de itembank toereikend? 9

10 Beoordelingsvoorschrift criterium 2A Het eindoordeel voor criterium 2A is hetzelfde als het laagst behaalde oordeel op één van de drie subcriteria. Het vaststellen van de oordelen voor de subcriteria gebeurt door de scores bij elkaar op te tellen. Voor het oordeel bij CBT software geldt dat: 16 tot 18 punten leidt tot het oordeel goed; 12 tot 15 punten leidt tot het oordeel voldoende; 6 tot 11 punten leidt tot het oordeel onvoldoende. Voor het oordeel bij Vormgeving gebruikersinterface geldt dat: 16 tot 18 punten leidt tot het oordeel goed; 12 tot 15 punten leidt tot het oordeel voldoende; 6 tot 11 punten leidt tot het oordeel onvoldoende. Voor het oordeel bij Item(s)(bank) geldt dat: (vraag 2.14 tot en met niet van toepassing) 16 tot 18 (6) punten leidt tot het oordeel goed; 12 (4) tot 15 (5) punten leidt tot het oordeel voldoende; 6 (2) tot 11 (3) punten leidt tot het oordeel onvoldoende. Indien geen itembank beschikbaar is (vraag tot en met niet van toepassing) dan is het oordeel op dit subcriterium gelijk aan de beoordeling op vraag Aanwijzingen per vraag Ad 2.1. De test is gestandaardiseerd indien de test wat betreft inhoud en vorm voor iedereen hetzelfde is. Dit is belangrijk wil men scores kunnen interpreteren en vergelijken. Een uitzondering met betrekking tot standaardisatie dient gemaakt te worden voor adaptieve tests. Bij dit type tests dienen evenwel de beslisregels of de algoritmes voor de samenstelling van de test te zijn geëxpliciteerd. Hoe wordt de test gestart? Hoe wordt de keuze voor een volgend item gemaakt? En wanneer wordt de test beëindigd? Indien òf de startprocedure òf de selectieprocedure òf de stopprocedure niet is beschreven dan is het oordeel op deze vraag onvoldoende. Het oordeel goed kan alleen in die gevallen worden toegekend wanneer de keuze voor een algoritme is onderbouwd en de voor- en nadelen van de keuze uiteen zijn gezet. Ad 2.2. Een duidelijke en volledige instructie is belangrijk zodat degene die de test maakt geen fouten kan maken doordat hij of zij niet weet hoe de CBT software werkt. Van belang is dat er informatie wordt gegeven over de (on)mogelijkheden van de CBT software, over de beschikbare tijd, over het soort items en de gewenste responsmogelijkheden, over de manier van rapportage en indien het een adaptieve test betreft over het principe van adaptief testen. Van belang is tevens dat de geteste de mogelijkheid krijgt om voorafgaand aan de test te oefenen met een aantal voorbeelditems. Het is bij deze vraag niet belangrijk om te beoordelen of de manier waarop de instructie wordt aangeboden geschikt is, maar of er instructie wordt aangeboden. Een onduidelijke en onvolledige instructie of een te uitgebreide instructie (bijvoorbeeld wanneer er bij elk item instructie wordt gegeven over hoe het item beantwoord moet worden) leidt op deze vraag tot 10

11 het oordeel onvoldoende. Het oordeel goed kan alleen in die gevallen worden toegekend als ook tijdens het maken van de test, de instructie geraadpleegd kan worden. Ad 2.3. Het mag niet voorkomen dat testresultaten negatief beïnvloed worden doordat een kandidaat de CBT software onjuist gebruikt. Er zijn, naast het aanbieden van een begrijpelijke instructie, diverse manieren om fouten door onjuist gebruik van de CBT software te vermijden. Bij deze vraag is het van belang of er door de testauteur voldoende aan is gedaan om de kans op fouten door onjuist gebruik te minimaliseren. Hierbij kunnen diverse aspecten belangrijk zijn: Het uitschakelen van overbodige functies en sneltoetsen; Het onmogelijk maken om andere (niet bedoelde) software op te starten; Het moeilijk maken om de CBT software voortijdig of zonder opslaan te verlaten; De vormgeving van de interface is ook van invloed op de kans op fouten. Bij deze vraag wordt niet gevraagd om te beoordelen of de gebruikersinterface naar behoren is vormgegeven, maar de vormgeving mag wel in overweging genomen worden bij het beoordelen van deze vraag. Indien de gebruikersinterface dusdanig is vormgegeven (bijvoorbeeld extreem veel navigatiemogelijkheden, nagenoeg onleesbare teksten of een niet te begrijpen indeling) dan dient het oordeel onvoldoende toegekend te worden. Indien er bij het uittesten van de CBT software geen onoverkomelijke problemen optreden en indien de CBT software doorgaans reageert zoals verwacht dan dient het oordeel voldoende toegekend te worden. Het oordeel goed mag alleen toegekend worden indien het ook daadwerkelijk lastig is om andere (niet bedoelde) software op te starten of om de CBT software zonder opslaan te verlaten. Hierbij dient gecontroleerd te worden of de sneltoetsen waarmee dit kan (b.v. ALT+TAB, de start - knop of de functietoetsen) zijn uitgeschakeld. Ad 2.4. Een test is goed beveiligd indien de toegang tot de test, het testmateriaal en de testresultaten beveiligd zijn: De beveiliging van de toegang tot de test is van belang om zeker te weten dat degene die de test maakt ook degene is die de test zou moeten maken. Een vorm van legitimatie is daarom belangrijk. Mogelijkheden zijn onder andere het gebruik van passwords en usernames, een verplichte legitimatie door middel van een identiteitskaart of rijbewijs aan de testleider of het gebruik van webcams. De beveiliging van het testmateriaal is ten eerste belangrijk omdat het uit het oogpunt van de validiteit niet wenselijk is dat degenen die de test maken de mogelijkheid hebben om items, informatie over de algoritmes of scoringsvoorschriften te kopiëren naar een andere computer of printer. Ten tweede is het belangrijk dat er geen informatie over de items gemakkelijk te verkrijgen is en daarom zouden in het geval de items zijn opgenomen in een itembank alleen geautoriseerden toegang moeten kunnen krijgen tot de itembank. Bij adaptieve tests kunnen items ook bekend raken doordat het ene item misschien veel vaker in de test opgenomen wordt dan een ander item. Daarom is het in sommige gevallen belangrijk dat de testauteur een mechanisme (bijvoorbeeld volgens de Sympson-Hetter methode, 1985) inbouwt waardoor mogelijke over- of onderbenutting van de items gecontroleerd wordt. De beveiliging van de testresultaten is belangrijk om misbruik (bijvoorbeeld het ongeoorloofd aanbrengen van wijzigingen in de resultaten) te voorkomen en om de privacy en anonimiteit van de geteste voldoende te kunnen waarborgen.

12 Het oordeel op deze vraag is afhankelijk van de functie van de test. Indien op basis van de test kandidaten geselecteerd of gecertificeerd worden dan dient zowel de toegang tot de test als het testmateriaal als de testresultaten beveiligd te zijn voor het oordeel goed. Indien één aspect niet is beveiligd dan is het oordeel onvoldoende. Indien de test is bedoeld om de voortgang te controleren of indien de test is opgenomen in een reeks van testen dan dienen alleen de testresultaten beveiligd te zijn voor het oordeel voldoende Het oordeel goed kan worden toegekend indien naast de testresultaten ook het testmateriaal beveiligd is. In alle andere gevallen is het oordeel onvoldoende. Ad 2.5. Onder een objectief scoringssysteem wordt verstaan dat waarden die aan alle mogelijke antwoorden van personen worden toegekend bij voorbaat zodanig vastliggen, dat elke testleider, afgezien van administratieve fouten die bij de scoring kunnen worden gemaakt, tot dezelfde score zal komen. Indien de scoring volledig is geautomatiseerd dan is het scoringssysteem per definitie objectief. Het oordeel op deze vraag is in dit geval goed. Indien enkele of alle items handmatig gescoord worden dan dienen er bij tests met open items antwoordmodellen, scoringsvoorschriften en een beoordelaarsinstructie te worden meegeleverd. Hierdoor moet duidelijk worden wat er in een antwoord moet staan of welk gedrag moet zijn vertoond om bepaalde scores te kunnen toekennen. Bij een test met gesloten items is met name het scoringsvoorschrift belangrijk. Indien niets meegeleverd wordt dan is het oordeel op deze vraag onvoldoende. In andere gevallen ligt het met name aan de volledigheid en duidelijkheid van het meegeleverde materiaal of het oordeel voldoende of goed gegeven moet worden. Ad 2.6. Indien de computergegenereerde rapporten naast vermelding van de score of het niveau ook aanvullende informatie (feedback of informatie over de interpretatie van de score) geven, dan dient deze informatie te voldoen aan een aantal kwaliteitseisen: De interpretatie die gegeven wordt aan de testscore dient rechtvaardig te zijn gezien de standaardmeetfout; De informatie moet de inhoud van de test dekken; De informatie moet passen (bijvoorbeeld qua taalgebruik) bij de doelgroep; De informatie dient consistent te zijn bij een bepaalde score of een bepaald niveau; Indien geen onderzoek is verricht naar de kwaliteit van de informatie dan dient het oordeel onvoldoende te worden toegekend. Het oordeel goed mag alleen in die gevallen worden toegekend indien de testauteur aantoont dat de informatie voldoet aan alle genoemde kwaliteitseisen. Indien in het computergegenereerde rapport geen feedback of informatie over de interpretatie van de score wordt gegeven dan dient het oordeel goed te worden toegekend.

13 Ad 2.7. Er dienen verschillende aspecten consistent te zijn gebruikt voordat het oordeel goed toegekend mag worden: Symbolen dienen steeds dezelfde functie te hebben; Kleuren dienen consistent gebruikt te worden en dienen steeds dezelfde functie te hebben; Informatie (items, instructie, antwoordveld etc.) dient steeds op dezelfde locatie weergegeven te worden of er dient steeds op dezelfde manier onderscheid te zijn gemaakt tussen soorten informatie; Er dient consistent gebruik gemaakt te zijn van lettertypes en groottes. Indien twee of meer aspecten niet consistent zijn dan dient het oordeel onvoldoende toegekend te worden. In andere gevallen is het oordeel voldoende. Ad 2.8. De overzichtelijkheid van een scherm wordt bepaald door verschillende factoren: Zijn de verschillende typen informatie (instructie, item, antwoordveld etc.) duidelijk van elkaar te onderscheiden? Zijn de buttons duidelijk herkenbaar en is de functie van de buttons altijd duidelijk? (B.v. bij de button <afsluiten>: wordt in dit geval de test afgesloten of alleen de instructie?) Zijn de items en de instructie zonder scrollen leesbaar? Is bepaalde informatie (bijvoorbeeld instructie) gemakkelijk te vinden? Is altijd duidelijk waar men zich bevindt of welke handeling men moet verrichten om te komen waar men wil? Er dient bij deze vraag gecontroleerd te worden of de bediening van de test zo intuïtief is, dat iemand met geen enkele computerervaring toch in staat is om de test te maken zonder dat er bijvoorbeeld sprake is van testbias. Het oordeel goed mag alleen in die gevallen toegekend worden indien er geen enkele twijfel kan bestaan over de bediening van de software en de plaats waar bepaalde informatie te vinden is. Indien aan twee of meer van de bovengenoemde factoren niet is voldaan dan dient het oordeel onvoldoende toegekend te worden. Ad 2.9. De leesbaarheid wordt bevorderd indien: Niet meer dan twee lettertypes gebruikt worden; Niet meer dan drie puntgroottes gebruikt worden; Woorden niet cursief afgebeeld worden; Woorden niet onderstreept worden als er geen sprake is van een hyperlink. De lettertypen Arial of Verdana zijn geschikte lettertypes voor een beeldscherm, maar andere lettertypes (bijvoorbeeld Courier ) leveren veelal geen problemen op met betrekking tot de leesbaarheid. Om woorden of stukken tekst te benadrukken levert het vet maken of een iets afwijkende kleur geven aan de betreffende tekst, geen problemen op. Het oordeel onvoldoende dient toegekend te worden indien woorden meerdere malen cursief of onderstreept (geen hyperlink) zijn weergegeven of wanneer het lettertype niet consistent of moeilijk leesbaar is. Het oordeel goed dient toegekend te worden indien het gekozen lettertype gemakkelijk leesbaar is en is voldaan aan alle vier genoemde aspecten die de leesbaarheid bevorderen. In andere gevallen is het oordeel voldoende.

14 Ad Van belang is dat kleur op een dusdanige manier is toegepast dat het de overzichtelijkheid en leesbaarheid van het beeldscherm bevordert. Functioneel kleurgebruik betekent dat kleuren een bepaalde betekenis hebben of dat het scherm overzichtelijker wordt, door bijvoorbeeld de items of het antwoordveld een afwijkende kleur te geven. Het is zeker niet wenselijk om een groot aantal kleuren te gebruiken of om kleuren zonder enige reden toe te passen. Met prettig kleurgebruik wordt de keuze voor bepaalde kleurencombinaties of het contrast tussen kleurnuances bedoeld. Bepaalde kleurencombinaties en slecht contrasterende kleuren zijn bijvoorbeeld moeilijk te onderscheiden. Het is bij deze vraag van belang om te beoordelen of er niet te pas en te onpas gebruik is gemaakt van kleuren, of het contrast tussen kleuren voldoende is en of de gebruikte kleurencombinaties geen negatieve gevolgen hebben voor het leesgemak. Alleen indien deze drie aspecten positief beoordeeld worden dan mag op deze vraag het oordeel goed worden toegekend. Het oordeel onvoldoende dient alleen toegekend te worden indien teksten nagenoeg onleesbaar zijn door het kleurgebruik. In alle andere gevallen is het oordeel voldoende. Ad Onder beeldmateriaal wordt in dit verband al het mogelijke beeldmateriaal zoals animaties, filmfragmenten en statische afbeeldingen verstaan. Van belang is dat zowel het beeldmateriaal als de geluidsfragmenten een duidelijke functie hebben en dat ze niet zijn opgenomen om de CBT software te verfraaien. Hierbij dient aangetekend te worden dat de functionaliteit van het beeldmateriaal al in het geding is wanneer ze onleesbaar zijn of afleiden en bij geluidsfragmenten al wanneer stemmen niet te verstaan zijn Het oordeel onvoldoende dient toegekend te worden indien niet duidelijk is waarom bepaalde beelden of geluidsfragmenten zijn gebruikt of indien de kwaliteit zo slecht is dat stemmen onverstaanbaar zijn of dat beelden onleesbaar zijn. Het oordeel goed mag alleen toegekend worden indien de gebruikte beelden en geluiden een duidelijke meerwaarde hebben. In alle andere gevallen is het oordeel voldoende. Ad Onder de term gehandicapten valt in dit verband iedereen die om wat voor reden dan ook problemen kan ondervinden bij het maken van een test. Dit kunnen lichamelijk gehandicapten zijn, maar bijvoorbeeld ook mensen met dyslexie. Indien geen rekening is gehouden met gehandicapten dan dient het oordeel onvoldoende toegekend te worden. Het oordeel voldoende dient toegekend te worden indien de testauteur aantoont dat de test geschikt is bij veel voorkomende handicaps, zoals kleurenblindheid, dyslexie en slechtziendheid. Het oordeel goed dient toegekend te worden indien de testauteur aantoont dat de test geschikt is voor mensen met een zware lichamelijke handicap (bijvoorbeeld voor mensen die de computer bedienen door te spreken of teksten lezen met behulp van braille).

15 Ad Bij het beoordelen van de items dient ten eerste op de volgende aspecten, ontleend aan Erkens en Moelands (1992) en Moelands, Noijons en Rem (1992), gelet te worden: Open vragen Is het item grammaticaal juist geformuleerd? Bevat het item een te ingewikkelde zinsconstructie? Bevat het item onnodig moeilijke woorden? Bevat het item onnodige tussenvoegsels? Is het item onnodig negatief gesteld? Kan de formulering van het item aanleiding geven tot misverstanden? Bestaat er gevaar dat het item door klemtoonverschuiving duidelijk van betekenis verandert? Bevat het item voldoende informatie om het goede antwoord te kunnen geven? Geeft het item voldoende informatie over de gewenste lengte en vorm van het antwoord? Weet de kandidaat of een antwoord gemotiveerd moet worden? Zijn de informatie en de probleemstelling duidelijk te onderscheiden? Gesloten vragen Zijn er misschien meerdere goede antwoorden? Bevat het item onduidelijkheden? Bevatten de alternatieven onduidelijkheden? Bevat de stam een duidelijke vraag of opdracht? Bevat de stam voldoende informatie om het item te kunnen beantwoorden? Bevat de stam geen overbodige informatie? Is de stam precies, beknopt en grammaticaal juist geformuleerd? Bevat de stam geen dubbele ontkenning? Als de stam een ontkenning bevat, is dat dan duidelijk zichtbaar gemaakt? Hebben alle afleiders enige plausibiliteit? Wordt in het goede alternatief niet een term uit de stam herhaald? Staan er geen woorden als altijd of nooit in enkele afleiders? Ontstaat er geen dubbele ontkenning tussen de stam en één of meer alternatieven? Sluiten de alternatieven elkaar uit? Zijn de alternatieven ongeveer even lang? Sluiten de alternatieven grammaticaal en inhoudelijk goed aan op de stam? Bevatten de alternatieven geen herhalingen uit de stam of van elkaar? Zijn de alternatieven logisch gerangschikt? Zijn de alternatieven voldoende van elkaar te onderscheiden? Ten tweede dient gekeken te worden naar de psychometrische kwaliteit van de items. De belangrijkste statistische indices om de psychometrische kwaliteit van de items te beoordelen zijn de moeilijkheidsgraad (p-waarde) en de discriminatie-index (r it of r ir ). Voor het beoordelen van de moeilijkheidsgraad of de discriminatie-index gelden onderstaande normen: Moeilijkheidsgraad In de literatuur wordt nauwkeurig aangegeven wat de optimale moeilijkheidsgraad of p-waarde is. Crocker en Algina (1986) gaan er hierbij vanuit dat de optimale p-waarde halverwege de raadkans en 1.0 moet liggen. Feldt (1993) gaat uit van een p-waarde die ligt tussen de.57 en.67. Er blijkt echter dat het effect van de moeilijkheid van een item op de betrouwbaarheid zeer klein is, zelfs als de p-waarden variëren van.27 tot.79. Derhalve wordt hier als norm gesteld

16 dat de p-waarden moeten liggen tussen.27 en.79. Hierbij dient aangetekend te worden dat de gewenste p-waarden afhankelijk zijn van het doel van de test. Indien de test is bedoeld om iemands vaardigheid nauwkeurig te meten dan zullen de p-waarden het gehele interval (dus tussen de.27 en.79) moeten bestrijken. Indien de test is bedoeld om personen te classificeren dan zullen de p-waarden een veel kleiner interval (b.v. tussen de.40 en.60) moeten bestrijken. Naast de p-waarde kan ook naar de a-waarde gekeken worden. De a-waarde is de proportie kandidaten die bij een meerkeuze-item de desbetreffende afleider als antwoord koos. Het is hierbij belangrijk dat elke afleider door een kleine groep kandidaten gekozen wordt, zodat vastgesteld kan worden dat alle afleiders plausibel waren. Indien alle a-waarden hetzelfde zijn, dan kan dat wijzen op gokgedrag of wanneer de a-waarde groter is dan de p-waarde dan kan er iets schorten aan de formulering. Discriminatie-index De discriminatie-index geeft aan in hoeverre een item onderscheid maakt tussen personen met hoge testscores en personen met lage testscores. Een hoge r it -waarde betekent dat veel personen met een hoge testscore het item goed hebben beantwoord en veel personen met een lage testscore het item fout hebben beantwoord. Een hoge r it -waarde betekent ook dat het item relatief veel bijdraagt aan de betrouwbaarheid van de test. Voor het beoordelen van r it -waarden gelden onderstaande normen (Veldhuijzen, Goldebeld & Sanders, 1993). r it -waarde itembeoordeling 0,40 en hoger zeer goed 0,30 0,39 goed 0,20 0,29 twijfelachtig 0,19 en lager slecht Omdat de grootte van de r it -waarde onder andere afhankelijk is van het aantal items in een test, moet men strikt genomen bovenstaande normen alleen hanteren bij r it -waarden die gecorrigeerd zijn voor testlengte. De correctie kan uitgevoerd worden met de correctieformule van Henrysson (1963). Vanwege het geringe effect kan de correctie achterwege blijven indien de items afkomstig zijn uit tests met veertig of meer items (Veldhuijzen, Goldebeld & Sanders, 1993). Bij deze vraag is het de bedoeling om, in ieder geval met behulp van één van beide manieren, vast te stellen of de kwaliteit van de items voldoende is. Het beoordelen van de psychometrische kwaliteit verdient hierbij de voorkeur, al is het hierbij bijzonder belangrijk dat men zich er rekenschap van geeft hoe nauwkeurig die indices geschat zijn. Veldhuijzen, Goldebeld & Sanders (1993) hebben 95%-betrouwbaarheidsintervallen geconstrueerd voor de werkelijke p-waarden. Wanneer er bijvoorbeeld 100 personen een item gemaakt hebben en de p-waarde gelijk is aan.50, dan ligt de werkelijke p-waarde tussen de.40 en.60. Wanneer hetzelfde item gemaakt was door 500 personen, dan ligt de werkelijke p-waarde tussen de.46 en.55. Veldhuijzen, Goldebeld & Sanders hebben eveneens voor diverse waarden van de r it en n de 95%-betrouwbaarheidsintervallen voor de werkelijke waarden van de r it vermeld. Indien bijvoorbeeld bij een toetsen itemanalyse die gebaseerd is op 500 personen, de r it -waarde van een item.20 is, dan zijn de 95%-betrouwbaarheidsgrenzen van de werkelijke r it -waarde.12 en.28. Indien geen p-waarden en r it -waarden vermeld worden dan dient de kwaliteit van de items beoordeeld te worden met behulp van de aandachtspunten die Erkens en Moelands (1992) en Moelands, Noijons en Rem (1992) geformuleerd hebben. Hierbij mag het oordeel onvoldoende alleen in die gevallen worden toegekend indien bij een groot aantal items de kwaliteit van de items te wensen over laat.

17 Ad De itemparameters dienen te worden geschat aan de hand van de resultaten in een groep die overeenstemt met de doelgroep van de test. Derhalve dient de testauteur een adequate beschrijving te geven van de gebruikte steekproef en dient aangetoond te worden dat de steekproef overeenkomt met de doelgroep. Ad De steekproef dient voldoende groot te zijn teneinde te voorkomen dat de itemparameters onnauwkeurig geschat worden. Er zijn hiervoor geen eenduidige richtlijnen op te stellen om twee redenen. Ten eerste is de minimale benodigde grootte van de steekproef afhankelijk van het gekozen IRT-model en ten tweede worden er in de literatuur weinig aanwijzingen gedaan met betrekking tot de gewenste grootte van de steekproef. Het is vaak een kwestie van ervaring. Parshall et. al. (1998) hebben als één van de weinigen richtlijnen opgesteld voor een aantal IRT-modellen voor dichotome items: 1 parametermodel: N > parametermodel: N > parametermodel: N > 700 Deze aantallen kunnen hier als grove richtlijn worden aangehouden. Voor andere IRT-modellen worden er in de literatuur geen aanwijzingen gedaan met betrekking tot de steekproefgroottes, maar deze zullen voor bijvoorbeeld IRT-modellen voor polytome items groter moeten zijn dan voor IRT-modellen voor dichotome items. De nauwkeurigheid van de itemparameterschattingen kan in voorkomende gevallen ook beoordeeld worden door te kijken naar de relatie tussen de standaardfout van de moeilijkheidsparameter se(b i ) en de standaarddeviatie van de vaardigheidsverdeling van de kalibratiepopulatie sd(θ). Hierbij zou moeten gelden dat: se(b i ) < c*sd(θ), waarbij c een constante is. Er kan gesproken worden van een kleine standaardfout van se(b i ) indien c 0,2 ; van een matige standaardfout van se(b i ) indien 0,3 c 0,4 en van een onaanvaardbaar grote standaardfout van se(b i ) indien c 0,5. Omdat er geen eenduidige richtlijnen op te stellen zijn, is het belangrijk om enige voorzichtigheid te betrachten bij het beoordelen van deze vraag. Er dient hierbij op twee aspecten gelet te worden: Komt de steekproefgrootte overeen met de richtlijnen van Parshall et. al. of is de steekproefgrootte bij IRT-modellen voor polytome items groter dan bij IRT-modellen voor dichotome items? Geldt tenminste dat se(b i ) < 0,4*sd(θ)? Indien aan geen van beide aspecten is voldaan dan dient het oordeel onvoldoende toegekend te worden. Ad Indien niet alle items bij alle personen in de steekproef gepretest zijn, dan is er sprake van een onvolledig design. De itemparameters kunnen hierbij alleen op dezelfde schaal worden gebracht indien er iets gemeenschappelijks is tussen de volledige deeldesigns. De gemeenschappelijkheid kan liggen in de personen die verschillende items maken, dan wel in de items die door verschillende personen worden gemaakt. Voor deze zogenaamde ankering zijn verschillende mogelijkheden: ankeritemdesign, gedeeltelijk verbonden design, ankergroepdesign, kettingdesign etc. (Eggen, 1993) Het is belangrijk dat de testauteur het gehanteerde design vermeld zodat beoordeeld kan worden of het design adequaat is.

18 Ad Het is belangrijk dat de testauteur aantoont dat de schaal (het IRT-model) past bij de data omdat er bij het bepalen van de lokale betrouwbaarheid vanuit gegaan wordt dat het model past en een scorevergelijking op basis van verschillende items bij een adaptieve test is bijvoorbeeld ook alleen eerlijk is als het model past. Er zijn diverse manieren ontwikkeld om te toetsen of de schaal (het IRT-model) past bij de data. Voor een overzicht van een aantal modeltoetsen, zie Verhelst (1993). Ad Met het oog op de inhoudsvaliditeit is het van belang dat er voldoende items in de itembank opgenomen zijn. Wanneer de itembank onderverdeeld is in categorieën dan is van belang dat er voldoende items per categorie beschikbaar zijn. Het aantal minimaal noodzakelijke items is afhankelijk van het doel van de test. Voor tests bedoeld voor het nemen van belangrijke beslissingen op individueel niveau, zoals selectie, classificatie, plaatsing of certificering is de ervaring dat de itembank minimaal 12 keer zo groot dient te zijn als de grootste (adaptieve) test. Voor tests bedoeld voor het nemen van minder belangrijk beslissingen op individueel niveau, zoals het controleren van de voortgang is de ervaring dat de itembank minimaal 6 keer zo groot dient te zijn als de grootste (adaptieve) test.

19 2B De kwaliteit van de testhandleiding De testhandleiding is een belangrijke bron van informatie voor de (toekomstige) testgebruiker. In de testhandleiding dient tenminste informatie opgenomen te worden over het gebruik en de interpretatie van de test, over de werking van de CBT software en de benodigde hard- en software. Deze aspecten komen terug bij de subcriteria gebruikershandleiding en handleiding CBT software. Mogelijk zijn alle aspecten in één handleiding opgenomen, maar van belang is of de informatie voor de testgebruiker beschikbaar is. Indien geen gebruikershandleiding èn een beschrijving van de werking van de CBT software beschikbaar is, dan is het eindoordeel op dit criterium onvoldoende. Onvoldoende Voldoende Goed Gebruikershandleiding Wordt informatie gegeven over de gebruiksmogelijkheden en beperkingen van de test? Wordt informatie gegeven over de vereiste condities bij afname van de test? Wordt informatie gegeven over de mate van deskundigheid die vereist is voor afname en interpretatie van de test? Wordt informatie gegeven over de interpretatie van de testscores? Wordt in de handleiding een samenvatting van de onderzoeksresultaten gegeven? Handleiding CBT software Wordt informatie gegeven over de installatie van de CBT software? Wordt informatie gegeven over de bediening en mogelijkheden van de CBT software? Zijn er voldoende mogelijkheden voor technische ondersteuning?

20 Beoordelingsvoorschrift criterium 2B Het eindoordeel voor criterium 2B is hetzelfde als het laagst behaalde oordeel op één van beide subcriteria. Het vaststellen van de oordelen voor de subcriteria gebeurt door de scores bij elkaar op te tellen. Voor het oordeel bij Gebruikershandleiding geldt dat: 14 of 15 punten leidt tot het oordeel goed; 10 tot 13 punten leidt tot het oordeel voldoende; 5 tot 9 punten leidt tot het oordeel onvoldoende. Voor het oordeel bij Handleiding CBT software geldt dat: 8 of 9 punten leidt tot het oordeel goed; 6 of 7 punten leidt tot het oordeel voldoende; 3 tot 5 punten leidt tot het oordeel onvoldoende. Aanwijzingen per vraag Ad Een handleiding moet volledig, nauwkeurig en duidelijk zijn over de gebruiksmogelijkheden en beperkingen van de test. Derhalve dient voor de (toekomstige) testgebruiker duidelijk te zijn welk(e) construct(en) met behulp van de test worden gemeten, voor welke doelgroep de test is bedoeld en wat de functie (b.v. classificeren, selecteren etc.) is van de test. Daarnaast dient te zijn beschreven wat de beperkingen zijn van de test. Afhankelijk van de situatie waarvoor de test is bedoeld kan dit tot verschillende suggesties leiden. Wordt er in het geval van voortgangscontrole gewezen op de relatie tussen testscore en het verdere onderwijs/ leerproces? Wordt er bij tests bedoeld voor beroepskeuzebegeleiding op gewezen niet alléén op de testscores af te gaan bij het nemen van beslissingen? Wordt er bij tests bedoeld voor selectie aangegeven voor welk type functies de test is bedoeld en wat de kritieke functieinhoud is van deze functies? Indien zowel duidelijkheid is over de gebruiksmogelijkheden èn beperkingen van de test dan dient het oordeel goed te worden toegekend. Indien alleen duidelijkheid is over de gebruiksmogelijkheden van de test dan is het oordeel voldoende. In alle andere gevallen is het oordeel onvoldoende. Ad De aanwijzingen voor de testleider in de handleiding zijn van belang om ervoor te zorgen dat de testafname gestandaardiseerd plaatsvindt. Er moet zoveel mogelijk letterlijk zijn voorgeschreven wat de testleider wel en niet mag zeggen (zo is bijvoorbeeld de aanbeveling de testleider legt het doel van de test uit onvoldoende) en welke handelingen de testleider moet verrichten. Tevens moet worden voorgeschreven hoe op vragen moet worden ingegaan, welke hulpmiddelen de geteste mag gebruiken, over welke computervaardigheden de geteste moet beschikken om aan de test deel te kunnen nemen en onder welke omstandigheden de test afgenomen dient te worden. Met omstandigheden wordt bijvoorbeeld het gewenste comfort, de werkruimte, het licht, de computers en dergelijke bedoeld. Indien geen informatie wordt gegeven over de handelingen die de testleider voorafgaand, tijdens en na afloop van de test moet/mag verrichten òf indien geen informatie wordt gegeven over de vereiste werkplek dan is het oordeel onvoldoende.

Nog meer weergeven