Toets kwaliteit aan de UvA

@daptief Toetsen In het kader van het proeve project, dat als doel heeft het inventariseren van de mogelijkheden van digitaal toetsen binnen de UvA, is subsidie verstrekt voor het project @daptief toetsen. Dit project richt zich op het in kaart brengen van de mogelijkheden dat Question Mark Perception (QMP) biedt op het gebied van computer adaptief toetsen (CAT).

Inhoud opgave Inhoud opgave 2 Toets kwaliteit aan de UvA 3 CAT en IRT 4 QMP en CAT 6 Alternatieven CAT in QMP 8 QMP alternatieven 11 Etude 11 FastTest 11 Werken met QMP 13 Invoeren van externe bestanden 13 Adressen 15

Toets kwaliteit aan de UvA Om de kwaliteit van het onderwijs aan de UvA te verbeteren is het niet alleen noodzakelijk om te investeren in de didactische en professionele vaardigheden van onderwijzend personeel. Er zal ook gezocht moeten worden naar mogelijkheden om de toetsingsmethoden te professionaliseren. Een belangrijke stap in die richting is het aanleggen van item banken. Dit zijn verzamelingen van items over een bepaald onderwerp. Het is middels moderne test theorie mogelijk om de moeilijkheid van de items in deze pool te bepalen. Met behulp van voorgekalibreerde items is het eenvoudig om het criterium voor bepaalde vaardigheden vast te stellen. Het probleem met de huidige methode, waarbij docenten een tentamen opstellen en studenten slagen bij een eindcijfer hoger dan een 5,5, is het gebrek aan controle over de moeilijkheid van een tentamen. De moeilijkheid van het tentamen van vandaag hoeft niet het zelfde te zijn als de moeilijkheid van het tentamen van morgen. Daarbij is de verdeling van het cijfer altijd enkel gerelateerd aan de steekproef van tentaminanten. Het moeilijkheidsniveau van items worden in de moderne test theorie vast gesteld op basis van een pilot studie. Op basis van deze resultaten kunnen verschillende kenmerken, zoals moeilijkheid, van de vragen in kaart worden gebracht. Het wordt zo mogelijk om enkel kwalitatief goede items op te nemen in de itembank. Op basis van deze methode wordt het mogelijk om studenten enkel te laten slagen voor een vak als zij de gewenste vaardigheid bezitten. De HvA toetst middels deze methode de rekenvaardigheid van aspirant PABO studenten Eggen (2005). In samenwerking met CITO hebben zij een reken itembank opgesteld. Aspirant studenten worden bij aanvang van de studie getoetst. Mochten zij niet het vereiste criterium halen dan hebben zij in het propedeuse jaar de mogelijkheid om de rekenvaardigheid op niveau te krijgen. Aan het eind van het propedeuse jaar volgt nogmaals een toets met een bindend studie advies als gevolg. Om op nationaal en internationaal niveau te kunnen concurreren is de implementatie van moderne toets systemen zeker een voorwaarde. De UvA kan zich op deze wijze profileren als zeer vooruitstrevend op het gebied van toetsafname en toetskwaliteit.

CAT en IRT De interpretatie van adaptief toetsen blijkt erg uit een te lopen, vandaar dat een nadere definitie hier op zijn plaats is. Computer Adaptief Toetsen vloeit voort uit de moderne test theorie (Item Response Theory). In de klassieke test theorie waarbij de som score op een test een inzicht geeft in de vaardigheid van een persoon, is het erg lastig om de betrouwbaarheid en ook de moeilijkheid van een tentamen te vergelijken met andere tentamens die de zelfde vaardigheid beogen te meten. Deze methode heeft tot gevolg dat iedere docent zijn eigen tentamen maakt maar dat er geen mogelijkheid is tot het controleren van de moeilijkheid hiervan. De moderne test theorie maakt het mogelijk om de moeilijkheid van individuele vragen vast te stellen en deze op een continue moeilijkheids schaal te plaatsen. Met deze kwalitatieve ordening is het mogelijk tentamens met betrekking tot de moeilijkheid onderling met elkaar te vergelijken. Tevens wordt het hierdoor mogelijk om expliciete criteria met betrekking tot gewenste vaardigheden te definiëren. De vaardigheid van personen en de moeilijkheid van de vragen worden in de moderne test theorie op dezelfde continue schaal geplaatst. Met bekende moeilijkheden van de vragen is het dus mogelijk om de onbekende vaardigheden van personen te achterhalen. Het adaptieve karakter in de moderne test theorie maakt hier dan ook gebruik van. Door personen adaptief vragen voor te leggen met oplopende moeilijkheid is het mogelijk om wel vier keer sneller tot iemands vaardigheid te komen. Tentamens kunnen dus tot wel vier keer korter zijn dan normale tentamens zonder verlies van accuratesse in de meting. Figuur 1 De werking van Computer Adaptief Testen in het licht van de moderne test theorie is als volgt (zie figuur 1). Een student maakt een initieel makkelijke vraag. Bij het correct beantwoorden van die vraag wordt een moeilijkere vraag aangeboden. Dit proces zet zich voort totdat de student een vraag niet correct beantwoord. Bij een incorrect antwoord

wordt een makkelijkere vraag aangeboden. Als deze goed wordt beantwoord wordt er een iets moeilijkere vraag aangeboden. Dit proces van afstemmen levert uiteindelijk een moeilijkheid op die representatief is voor de vaardigheid van de student. De parameters waar de moderne test theorie mee werkt zijn dan ook de moeilijkheid van de vraag, het discriminatie vermogen (betrouwbaarheid) van de vraag en eventueel de gok kans bij de vraag. Computer adaptief toetsten biedt de volgende voordelen. Kortere toetslengte Onderling vergelijkbare toetsen Kwaliteit bewaking.

QMP en CAT Om computer adaptief te kunnen testen gelden er met betrekking tot de gebruikte software een tweetal voorwaarden. Men moet in staat zijn om de drie parameters van het te gebruiken IRT (Item Response Model) model per vraag te specificeren en het moet mogelijk zijn om selectie regels in te stellen. Zo moet men per vraag kunnen aangeven hoe moeilijk deze is, wat het discriminerend vermogen is en wat de gok kans is. Tevens moet het systeem weten welke regels er gevolgd moeten worden voor het kiezen van een nieuwe vraag. De drie parameters kunnen in QMP per vraag ingesteld worden door rechts op de vraag te klikken en voor Set Item Parameters of CTRL+I in te toetsen. Dit produceert een window waarin de IRT parameters: moeilijkheid van het item kan worden aangegeven bij IRT Parameter A, het discriminerend vermogen onder B en de gok kans onder C. Figuur 1 Figuur 1 levert echter de onderstaande melding. Please set item statistics below. These are recorded in the question database, but cannot yet be used to select items or report on them. QMP biedt op dit moment nog niet de functionaliteit tot het integreren van computer adaptieve test routines. Met betrekking tot de selectie regels zijn op dit moment nog geen voorzieningen in de software aanwezig om deze te specificeren.

Navraag bij QMP Nederland heeft tot op heden nog geen inzicht geboden in de mogelijke termijn waarop dit geïntegreerd zal gaan worden. Er is op dit moment nog niet bekent of de beschikbaarheid van CAT in versie 5 van QMP zal worden opgenomen.

Alternatieven CAT in QMP Hoewel het in QMP niet mogelijk blijkt te zijn om gebruik te maken van CAT routines, is er toch gekeken of er alternatieven mogelijk waren. Het blijkt bijvoorbeeld mogelijk om de moeilijkheids parameter toe te kennen aan een TAG. Hierbij is het bijvoorbeeld mogelijk om voorgekalibreerde items in verschillende moeilijkheids categorieën in te delen en deze items vervolgens te verzamelen in item pools van verschillende moeilijkheids graden (zie figuur 2). In QMP stop je alle items uit een categorie dan in een block. Vervolgens zou er middels block jumps in het jump control panel ingesteld kunnen worden wanneer er naar een moeilijker block gegaan zou moeten. Regels die hierbij gehanteerd zouden kunnen worden zijn bijvoorbeeld het kiezen van 4 random items uit een makkelijk blok. Bij 4 van de 4 correct ga naar een twee keer zo moeilijk block. Bij 3 van de 4 ga naar een 1 keer moeilijker block. Bij 2 van de 4 zou je in het zelfde Block moeten blijven en bij 1 of 0 van de 4 zou je naar makkelijkere blokken moeten gaan. In onderstaande voorbeelden is dit uitgewerkt. In QMP hebben we 4 mapjes met ieder 8 vragen: Vervolgens is voor de assement een blok met sprongen gedefinieerd op basis van de score voor dat blok. Op deze wijze wordt afhankelijk van de score in het desbetreffende blok naar een map makkelijker of moeilijker of naar dezelfde map gesprongen. Op deze wijze kan iemand eindeloos bezig zijn. Een manier om te stoppen als je dezelfde vragen al hebt gehad, hebben we niet gevonden.

Op basis van dit soort regels zou het mogelijk moeten zijn om semi computer adaptief te kunnen toetsen. Een van de lastige punten is hierbij dat elke jump apart gedefinieerd dient te worden. Dit levert dus een grote brei aan regels waar, bij het maken, snel fouten in zouden kunnen optreden. Voor elke toets van elk soort onderwijs zouden deze regels apart gedefinieerd moeten worden. Een ander nadelig effect van een dergelijke methode is dat men het doel van CAT voorbij schiet. We zouden nu juist graag kortere tests afnemen met behoudt van accuratesse en betrouwbaarheid. Bij het verplicht toedienen van meerdere items per Block loopt de hoeveelheid items op tot een niveau dat gelijkt licht aan niet CAT methoden.

Figuur 2 Algemeen sprongschema

QMP alternatieven Aangezien QMP niet de functionaliteit biedt die we in dit project graag hadden willen testen, zijn we op zoek gegaan naar software die deze wel biedt. Na een inventarisatie zijn de volgende pakketten naar voren gekomen. Etude Etude is een toetsmanagementsysteem, ontwikkeld door TU Delft, waarmee items (opgaven) en toetsen geconstrueerd en beheerd kunnen worden. Met Etude bouwt u een itembank op die u onder andere op trefwoord, moeilijkheidsgraad en leerdoel kunt rubriceren. Etude heeft diverse interaktieve mechanismen: feedback, hint, hoofd- en deelvragen, interaktief toetsen, adaptief toetsen. Deze zijn vooral van belang bij het formatieve gebruik van Etude. Etude is ontwikkeld door een team van software ontwikkelaars en onderwijskundigen. Etude is gemakkelijk te gebruiken. Het is geschikt om grote groepen studenten te tentamineren. Er is technische en onderwijskundige ondersteuning voorhanden. Etude is zoveel mogelijk aangepast aan het geheel van onderwijssupportsystemen. De ervaringen van docenten worden aangewend voor verdere verbetering van het pakket. URL: http://www.icto.tudelft.nl/support/etude-support/downloads/ FastTest Assessment System International levert de software FastTest. FastTEST Professional Testing System - Version 2.0 FastTEST Pro Version 2.0 is completely new and has been redesigned for maximum flexibility to make it easy and efficient for you to develop and implement a wide range of PC-based electronic tests. FastTEST Pro's new modular structure works in conjunction with the powerful FastTEST 2 Item Banking and Test Development System to deliver a wide variety of PC-based tests, surveys, and questionnaires. You can combine multiple instruction sequences with multiple tests, including conventional tests, randomized tests, complex branched tests, or fully adaptive tests based on item response theory. Follow any test with an optional review and/or a detailed or custom designed report that includes scores from one or multiple tests. Each question in your test can be designed according to your needs and can include multiple graphics, audios, and videos. FastTEST Pro's distributed computing design allows tests to be delivered on a network, on independent testing stations, from CDs or USB memory drives, or sent as email attachments and easily installed and delivered on remote computers.

URL: http://www.assess.com/xcart/home.php?cat=3

Werken met QMP Ten slotte willen we nog graag een uiteenzetting geven van onze bevindingen met het werken in QMP. Als start hebben wij een middag cursus gehad van een expert van Stoas. Daarna zijn we zelf aan de slag gegaan. We hebben niet heel erg veel vragen ingevoerd. Ook met het toetsen afnemen hebben we niet veel ervaring, daarmee is vooral getest. Naar toetsstatistieken is in het geheel niet gekeken. Onze ervaringen zijn dan ook beperkt. Ondanks dat zullen een aantal ervaringen worden beschreven. De schrijvers van dit stuk zijn redelijk geoefende computergebruikers. Invoeren van externe bestanden Onze eerste stap was het exporteren en importeren van vragen uit Blackboard, in QMP. Hiervoor zijn drie opties onderzocht: a. De online converter van Questionmark zelf (zie www.questionmark.com) b. Het programma Respondus c. Handmatig invoeren van de vragen Exporteren uit Blackboard: Ad a. Via de online converter van Questionmark werden twaalf objecten geconverteerd uit de SPSS cursus. De twaalf objecten, bestaande uit opdrachten, tentamens en evaluaties, bestonden uit 174 items. Daarvan werden er 150 geconverteerd, 24 items konden niet (automatisch) worden geconverteerd. Daarbij viel op dat met name de opdrachten lastig te converteren waren; de evaluaties werden foutloos geconverteerd. Wat opvalt is echter dat de juiste antwoorden niet worden meegenomen. Tevens blijkt bij inspectie van de opdrachten, dat in veel gevallen de vragen zelf niet mee worden genomen, enkel het antwoordveld is overgenomen. Conclusie: Voor evaluaties is deze vorm van conversie enigszins geschikt, voor tentamens en opdrachten gaat tijdens de conversie vrij veel informatie verloren. Ad b. Via het programma Respondus: Ook dit ging niet probleemloos. Veel opdrachten werden niet compleet ingelezen in QMP. Gezien de tijd die dit kostte hebben we niet uitgezocht wat er exact fout ging. Ad c. Het handmatig overnemen van de vragen uit Blackboard kost in eerste instantie de meeste tijd. Echter, het biedt ook de meeste mogelijkheden om een nieuwe structuur aan te nemen. Zodra er een ritme in zit moet het relatief eenvoudig zijn om via de wizards, dan wel handmatig, reeksen vragen in te voeren.

Invoeren van vragen en werken met QMP Als proef zijn een aantal vragen ingevoerd om te onderzoeken op welke wijze er gesprongen kan worden tussen vragenblokken in QMP. Wat direct opviel is dat QMP geen eenvoudig programma is om te gebruiken. De invoer van de vragen kan via de webversie of via de Authoring Manager. Mijn voorkeur gaat uit naar de webversie, die vind ik gebruiksvriendelijker. Als je de vragen hebt ingevoerd en van metatags voorzien, dan kan je gaan testen. Ook hier geldt dat hiervoor een aantal stappen moeten worden doorlopen. Je kan niet even je tentamen testen. Er moet een toetsmatrijs worden opgesteld en je moet aangeven wanneer een bepaalde toets kan worden gedaan. Daarna moet je naar een ander programma (webbrowser) en site om je toets te testen. Al met al veel werk voordat je een toets kan bekijken. Samenvattend De complexiteit van een en ander maakt dat ik niet snel een docent zou adviseren om dit systeem zelf te gebruiken. In samenwerking met een groep mensen die QMP beheren en invoeren, lijkt QMP wel goed bruikbaar. Qua toetsfunctionaliteit bevat QMP veel mogelijkheden.

Adressen QMP Netherlands Stoas Telephone (0317) 472 711 Fax (0317) 424 770 Postbus 78 6700 AB Wageningen Netherlands E-mail kle@stoas.nl Web www.stoas.nl Persoon die hier iets over weet is Leen Vechter