De ontwikkeling van een beoordelingssysteem voor het beoordelen van computer based tests

Save this PDF as:
 WORD  PNG  TXT  JPG

Maat: px
Weergave met pagina beginnen:

Download "De ontwikkeling van een beoordelingssysteem voor het beoordelen van computer based tests"

Transcriptie

1 POK Memorandum De ontwikkeling van een beoordelingssysteem voor het beoordelen van computer based tests - Samenvatting, bijlage met CBT-beoordelingssysteem en literatuur - Jos Keuning Citogroep, Arnhem, maart 2004

2 Samenvatting Voor de beoordeling van tests wordt in Nederland momenteel het testbeoordelingssysteem van de Commissie Testaangelegenheden Nederland (COTAN) gebruikt. Het doel van deze beoordelingen is tweeledig. Ten eerste worden testgebruikers door middel van deze beoordelingen geïnformeerd over de kwaliteit van de tests waardoor zij misschien beter een keuze kunnen maken tussen de diverse tests. Ten tweede wordt aan testauteurs door middel van de beoordelingen feedback gegeven over de kwaliteit van de door hen ontwikkelde test. Tevens kan het beoordelingssysteem voor hen een leidraad zijn bij de ontwikkeling van een test en het schrijven van een handleiding. Het bovengenoemd beoordelingssysteem is met name ontwikkeld voor de beoordeling van Paper Based Tests (PBT) met een vaste lengte en een aantal vragen van een verschillende moeilijkheid. De laatste jaren vindt er een verschuiving plaats van de klassieke Paper Based Tests naar tests die aangeboden worden op de computer. Veelal worden deze tests aangeduid als Computer Based Tests (CBT). Doordat CBT s op bepaalde punten sterk afwijken van de traditionele PBT s is het beschikbare beoordelingssysteem minder geschikt voor de beoordeling van CBT s. Immers, bepaalde onderdelen uit het beschikbare beoordelingssysteem zijn niet van toepassing op CBT s en aspecten die specifiek bij CBT s horen, komen niet aan bod in het beoordelingssysteem. Daarom zou een beoordelingssysteem voor de beoordeling van CBT s bij zowel testbeoordelaars als testontwikkelaars aan een duidelijke behoefte voldoen. In opdracht van het Psychometrisch Onderzoeks- en Kenniscentrum van de Citogroep te Arnhem is een beoordelingssysteem voor het beoordelen van Computer Based Tests (CBT s) ontwikkeld. De ontwikkeling van een CBT-beoordelingssysteem is noodzakelijk omdat er in de literatuur geen beoordelingssystemen worden beschreven met behulp waarvan CBT s op alle relevante aspecten beoordeeld kunnen worden. Vanwege de reeds bewezen bruikbaarheid van het beoordelingssysteem van de COTAN is het CBT-beoordelingssysteem hierop gebaseerd. Het voorgaande betekent dat het CBT-beoordelingssysteem is ingedeeld volgens de criteria - uitgangspunten van de testconstructie, de kwaliteit van het testmateriaal en de handleiding, normen, betrouwbaarheid, begrips- en criteriumvaliditeit - die in het beoordelingssysteem van de COTAN gehanteerd worden. De vormgeving en de manier van beoordelen is daarentegen enigszins afwijkend van het beoordelingssysteem van de COTAN.

3 Het voorliggende verslag beschrijft het ontwerpproces dat gevolgd is bij de ontwikkeling van het CBT-beoordelingssysteem. De hoofdstukken drie tot en met zeven sluiten hierbij aan bij de vooraf gedefinieerde onderzoeksvragen: 1. Wat zijn relevante criteria waarop een CBT beoordeeld zou moeten worden? a) Welke aspecten uit het COTAN-beoordelingssysteem zijn te gebruiken in het CBTbeoordelingssysteem? b) Welke richtlijnen om een CBT te ontwikkelen (of te beoordelen) worden er beschreven in de literatuur? c) Welke aanvullingen zijn nodig om een CBT op alle relevante aspecten te beoordelen? 2. Hoe kunnen de diverse criteria verwerkt worden in een beoordelingssysteem dat leidt tot een betrouwbare beoordeling? Na beantwoording van de onderzoeksvragen is een concept versie van het CBTbeoordelingssysteem geëvalueerd (zie hoofdstuk 8) door een aantal leden van de COTAN een CBT (Nedcat) te laten beoordelen met behulp van het CBT-beoordelingssysteem. Uit de analyse van de beoordelingen is gebleken dat er sprake is van een redelijke overeenstemming over de afzonderlijke vragen en een geringe mate van overeenstemming over de zeven beoordelingscriteria. Derhalve kunnen er aanzienlijke verschillen bestaan in de eindbeoordelingen. Deze conclusie kan echter nog niet als definitief beschouwd worden omdat uitsluitend is onderzocht in hoeverre de beoordelingen op de Nedcat met elkaar overeenstemmen en omdat slechts twee beoordelaars hebben meegewerkt aan de evaluatie. Zie de bijlage voor de definitieve versie van het CBT-beoordelingssysteem.

4 Bijlage Een beoordelingssysteem voor het beoordelen van Computer Based Tests. Een bewerking van het door de Commissie Testaangelegenheden Nederland ontwikkelde beoordelingssysteem voor het beoordelen van psychodiagnostische instrumenten en studietoetsen.

5 1 Uitgangspunten van de testconstructie Testconstructie vergt een grondige voorbereiding. Men wil immers verantwoorde uitspraken doen over personen, verschillen binnen personen (zoals bij leerlingvolgssystemen, waarbij verschillen in tijd een rol spelen) of tussen personen (zoals bij personeelsselectie). Op grond van de informatie die de testauteur biedt moet de testgebruiker kunnen beoordelen of de test past bij het doel waarvoor hij/zij een test zoekt. Er moet derhalve een heldere omschrijving van de meetpretentie van de test worden gegeven en de keuze van de testinhoud en de wijze waarop het (de) begrip(pen) wordt(t)(en) gemeten moet omstandig worden verwoord. Bij dit criterium gaat het uitsluitend om de vraag of de uitgangspunten expliciet zijn gedefinieerd en niet om de kwaliteit van de onderzoeksopzet en uitvoering; deze komen elders aan de orde. Onvoldoende Voldoende Goed Gebruiksdoel 1.1. Is aangegeven welk(e) construct(en) de test beoogt te meten? 1.2. Is aangegeven wat de doelgroep(en) is (zijn) van de test? 1.3. Is aangegeven wat de functie is van de test? Testinhoud 1.4. Word(t)(en) het (de) te meten constructen gedefinieerd? 1.5. Wordt de relevantie van de testinhoud voor het (de) te meten construct(en) aannemelijk gemaakt?

6 Beoordelingsvoorschrift criterium 1 Het eindoordeel voor criterium 1 is hetzelfde als het laagst behaalde oordeel op één van beide subcriteria. Het vaststellen van de oordelen voor de subcriteria gebeurt door de scores bij elkaar op te tellen. Voor het oordeel bij gebruiksdoel geldt dat: 9 punten leidt tot het oordeel goed; 6 tot 8 punten leidt tot het oordeel voldoende; 3 tot 5 punten leidt tot het oordeel onvoldoende. Voor het oordeel bij testinhoud geldt dat: 5 of 6 punten leidt tot het oordeel goed; 4 punten leidt tot het oordeel voldoende; 2 of 3 punten leidt tot het oordeel onvoldoende. Aanwijzingen per vraag Ad 1.1. Is duidelijk welk(e) construct(en) met behulp van de test worden gemeten? Onder construct wordt verstaan welke vaardigheid of welk begrip (b.v. intelligentie, leesvaardigheid, interesse) de test meet. Ad 1.2. Onder de doelgroep worden diegenen verstaan voor wie de test bedoeld is. Voor welke leeftijd is de test bedoeld? Voor welk opleidingsniveau of voor welk beroep is de test bedoeld? Wat is relevante voorkennis? etc. Ad 1.3. Onder de functie van de test wordt verstaan datgene wat er met de testresultaten gedaan wordt. Wil men criteriumgedrag voorspellen? Is de test bedoeld voor voortgangscontrole of trainingsevaluatie? Gaat het om niveaubepaling ten behoeve van de plaatsing van leerlingen? Gaat het om diagnose ten behoeve van een behandelingsplan? Ad 1.4. Sluit de test aan bij een bestaande theorie of heeft de auteur een eigen theorie ontwikkeld? Wordt deze theorie voldoende beschreven? Wanneer de test een vertaling/bewerking is van een buitenlands instrument dan dient een beschrijving te worden gegeven van de achtergronden van dat instrument en kan niet worden volstaan met een simpele literatuurverwijzing. Ook (of juist) van tests die zijn bedoeld voor meting van algemeen bekende begrippen, zoals intelligentie, dient een omschrijving van het begrip te worden gegeven, zodat duidelijk wordt wat wel en wat niet tot het te meten domein wordt gerekend. Wanneer de test niet zozeer theoretisch maar eerder historisch is gefundeerd, dat wil zeggen aansluit bij een traditionele wijze van meten van een bepaald type begrippen dan dient duidelijk te worden gemaakt waarom juist de betreffende begrippen worden gemeten en wat de verschillen en overeenkomsten zijn met soortgelijke tests. Wanneer de test een variant is op reeds bestaande instrumenten of een bewerking is van een Paper Based Test, wordt dan aangegeven wat de meerwaarde is van het nieuwe instrument boven bestaande instrumenten?

7 Ad 1.5. Bij deze vraag gaat het om de stap die van meetpretentie naar operationalisatie wordt genomen. Is daartoe een zodanige omschrijving van het itemdomein beschikbaar dat duidelijk is of een willekeurig item wel of niet tot de test zou kunnen behoren? Word(t)(en) het (de) te meten construct(en) op zodanige wijze (bijvoorbeeld met behulp van facetanalyse) geanalyseerd dat duidelijk wordt welke aspecten binnen het (de) construct(en) kunnen worden onderscheiden? Worden eventueel, op grond van inhoudelijke of theoretische overwegingen, verschillende gewichten aan deze aspecten toegekend en wordt hiermee bij de selectie van de items rekening gehouden? Wanneer tijdens het construeren of bewerken van de test items zijn afgevallen of gewijzigd, wordt dan aangegeven wat de gevolgen hiervan zijn voor de meting van het oorspronkelijk bedoelde construct (dat wil zeggen is het inhoudsdomein nog volledig gedekt, vernauwd of verschoven)? Wordt bij adaptieve tests aangegeven hoe de testinhoud gegarandeerd wordt? Bij adaptieve tests krijgt elke kandidaat immers andere items gepresenteerd, waardoor het mogelijk is dat bepaalde onderwerpen onvoldoende in de test naar voren komen. Derhalve is het veelal noodzakelijk om een inhoudscontrole (bijvoorbeeld volgens de methode zoals voorgesteld door Kingsbury & Zara, 1991) uit te voeren zodat elke test overeenkomt met de specificatietabel.

8 2A De kwaliteit van het testmateriaal De kwaliteit van het materiaal is in verregaande mate bepalend voor de betrouwbaarheid en validiteit van een test. Daarom zal het testmateriaal altijd moeten voldoen aan een aantal kwaliteitseisen. De eisen die gesteld moeten worden aan het testmateriaal zijn te verdelen in drie subcriteria: de CBT software, de vormgeving van de gebruikersinterface en de item(s)(bank). Er is onderscheid gemaakt tussen de CBT software en de vormgeving van de gebruikersinterface vanwege het belang van beide aspecten. Onder CBT software wordt de functionele logica en de werking van de programmatuur verstaan. Denk hierbij aan de instructie die aan kandidaten gegeven wordt, aan de beveiliging van de test of de manier waarop resultaten gerapporteerd worden. Onder vormgeving van de gebruikersinterface wordt de visuele component van de CBT software verstaan. Is de tekst bijvoorbeeld leesbaar? Is de schermindeling overzichtelijk en consistent? Zijn filmfragmenten functioneel en van goede kwaliteit? Onder items worden de opgaven/vragen in de test verstaan. Zijn deze bijvoorbeeld wat betreft de moeilijkheid afgestemd op het niveau van de doelgroep en kunnen alleen degenen die het construct beheersen het item correct beantwoorden? Bij de beoordeling van de vragen die behoren bij dit criterium dient er rekening mee te worden gehouden dat de kwaliteit van het testmateriaal weliswaar van invloed is op de betrouwbaarheid en validiteit, maar dat er bij dit criterium niet gevraagd wordt om een expliciet oordeel te geven over de betrouwbaarheid en validiteit van de test. Er wordt bij dit criterium puur naar een beoordeling van de CBT software, de vormgeving van de gebruikersinterface en de kwaliteit van de items gevraagd. In enkele gevallen zijn vragen mogelijk niet van toepassing. In die gevallen kan de betreffende vraag overgeslagen worden. Dit geldt wanneer er geen itembank beschikbaar is (vraag tot en met 2.18.) of wanneer de itembank niet met behulp van een itemresponsmodel gekalibreerd is (vraag 2.14.; 2.15.; 2.16 en 2.17.). 8

9 Onvoldoende Voldoende Goed CBT software 2.1. Is de test gestandaardiseerd of worden bij adaptieve tests beslisregels geëxpliciteerd? 2.2. Is de instructie voor de geteste volledig en duidelijk? 2.3. Is de software zodanig ontworpen dat fouten door onjuist gebruik kunnen worden vermeden? 2.4. Is de test voldoende beveiligd? 2.5. Is er sprake van een geautomatiseerd of objectief scoringssysteem? 2.6. Zijn de computergegenereerde rapporten van de behaalde testscore(s) van voldoende kwaliteit? Vormgeving gebruikersinterface 2.7. Is de schermvormgeving consistent? 2.8. Is de schermindeling overzichtelijk? 2.9. Is de informatie op het scherm leesbaar? Is het kleurgebruik prettig en functioneel? Is het beeld- en geluidsmateriaal functioneel? Is de test geschikt voor gehandicapten? Item(s)(bank) Zijn de items van voldoende kwaliteit? Is de steekproef op grond waarvan de IRTitemparameters zijn geschat representatief? Zijn de IRT-itemparameters voldoende nauwkeurig geschat? Is het design op grond waarvan de IRTitemparameters op (dezelfde) schaal zijn gebracht adequaat? Past de schaal (het IRT-model) bij de data? Is de omvang van de itembank toereikend? 9

10 Beoordelingsvoorschrift criterium 2A Het eindoordeel voor criterium 2A is hetzelfde als het laagst behaalde oordeel op één van de drie subcriteria. Het vaststellen van de oordelen voor de subcriteria gebeurt door de scores bij elkaar op te tellen. Voor het oordeel bij CBT software geldt dat: 16 tot 18 punten leidt tot het oordeel goed; 12 tot 15 punten leidt tot het oordeel voldoende; 6 tot 11 punten leidt tot het oordeel onvoldoende. Voor het oordeel bij Vormgeving gebruikersinterface geldt dat: 16 tot 18 punten leidt tot het oordeel goed; 12 tot 15 punten leidt tot het oordeel voldoende; 6 tot 11 punten leidt tot het oordeel onvoldoende. Voor het oordeel bij Item(s)(bank) geldt dat: (vraag 2.14 tot en met niet van toepassing) 16 tot 18 (6) punten leidt tot het oordeel goed; 12 (4) tot 15 (5) punten leidt tot het oordeel voldoende; 6 (2) tot 11 (3) punten leidt tot het oordeel onvoldoende. Indien geen itembank beschikbaar is (vraag tot en met niet van toepassing) dan is het oordeel op dit subcriterium gelijk aan de beoordeling op vraag Aanwijzingen per vraag Ad 2.1. De test is gestandaardiseerd indien de test wat betreft inhoud en vorm voor iedereen hetzelfde is. Dit is belangrijk wil men scores kunnen interpreteren en vergelijken. Een uitzondering met betrekking tot standaardisatie dient gemaakt te worden voor adaptieve tests. Bij dit type tests dienen evenwel de beslisregels of de algoritmes voor de samenstelling van de test te zijn geëxpliciteerd. Hoe wordt de test gestart? Hoe wordt de keuze voor een volgend item gemaakt? En wanneer wordt de test beëindigd? Indien òf de startprocedure òf de selectieprocedure òf de stopprocedure niet is beschreven dan is het oordeel op deze vraag onvoldoende. Het oordeel goed kan alleen in die gevallen worden toegekend wanneer de keuze voor een algoritme is onderbouwd en de voor- en nadelen van de keuze uiteen zijn gezet. Ad 2.2. Een duidelijke en volledige instructie is belangrijk zodat degene die de test maakt geen fouten kan maken doordat hij of zij niet weet hoe de CBT software werkt. Van belang is dat er informatie wordt gegeven over de (on)mogelijkheden van de CBT software, over de beschikbare tijd, over het soort items en de gewenste responsmogelijkheden, over de manier van rapportage en indien het een adaptieve test betreft over het principe van adaptief testen. Van belang is tevens dat de geteste de mogelijkheid krijgt om voorafgaand aan de test te oefenen met een aantal voorbeelditems. Het is bij deze vraag niet belangrijk om te beoordelen of de manier waarop de instructie wordt aangeboden geschikt is, maar of er instructie wordt aangeboden. Een onduidelijke en onvolledige instructie of een te uitgebreide instructie (bijvoorbeeld wanneer er bij elk item instructie wordt gegeven over hoe het item beantwoord moet worden) leidt op deze vraag tot 10

11 het oordeel onvoldoende. Het oordeel goed kan alleen in die gevallen worden toegekend als ook tijdens het maken van de test, de instructie geraadpleegd kan worden. Ad 2.3. Het mag niet voorkomen dat testresultaten negatief beïnvloed worden doordat een kandidaat de CBT software onjuist gebruikt. Er zijn, naast het aanbieden van een begrijpelijke instructie, diverse manieren om fouten door onjuist gebruik van de CBT software te vermijden. Bij deze vraag is het van belang of er door de testauteur voldoende aan is gedaan om de kans op fouten door onjuist gebruik te minimaliseren. Hierbij kunnen diverse aspecten belangrijk zijn: Het uitschakelen van overbodige functies en sneltoetsen; Het onmogelijk maken om andere (niet bedoelde) software op te starten; Het moeilijk maken om de CBT software voortijdig of zonder opslaan te verlaten; De vormgeving van de interface is ook van invloed op de kans op fouten. Bij deze vraag wordt niet gevraagd om te beoordelen of de gebruikersinterface naar behoren is vormgegeven, maar de vormgeving mag wel in overweging genomen worden bij het beoordelen van deze vraag. Indien de gebruikersinterface dusdanig is vormgegeven (bijvoorbeeld extreem veel navigatiemogelijkheden, nagenoeg onleesbare teksten of een niet te begrijpen indeling) dan dient het oordeel onvoldoende toegekend te worden. Indien er bij het uittesten van de CBT software geen onoverkomelijke problemen optreden en indien de CBT software doorgaans reageert zoals verwacht dan dient het oordeel voldoende toegekend te worden. Het oordeel goed mag alleen toegekend worden indien het ook daadwerkelijk lastig is om andere (niet bedoelde) software op te starten of om de CBT software zonder opslaan te verlaten. Hierbij dient gecontroleerd te worden of de sneltoetsen waarmee dit kan (b.v. ALT+TAB, de start - knop of de functietoetsen) zijn uitgeschakeld. Ad 2.4. Een test is goed beveiligd indien de toegang tot de test, het testmateriaal en de testresultaten beveiligd zijn: De beveiliging van de toegang tot de test is van belang om zeker te weten dat degene die de test maakt ook degene is die de test zou moeten maken. Een vorm van legitimatie is daarom belangrijk. Mogelijkheden zijn onder andere het gebruik van passwords en usernames, een verplichte legitimatie door middel van een identiteitskaart of rijbewijs aan de testleider of het gebruik van webcams. De beveiliging van het testmateriaal is ten eerste belangrijk omdat het uit het oogpunt van de validiteit niet wenselijk is dat degenen die de test maken de mogelijkheid hebben om items, informatie over de algoritmes of scoringsvoorschriften te kopiëren naar een andere computer of printer. Ten tweede is het belangrijk dat er geen informatie over de items gemakkelijk te verkrijgen is en daarom zouden in het geval de items zijn opgenomen in een itembank alleen geautoriseerden toegang moeten kunnen krijgen tot de itembank. Bij adaptieve tests kunnen items ook bekend raken doordat het ene item misschien veel vaker in de test opgenomen wordt dan een ander item. Daarom is het in sommige gevallen belangrijk dat de testauteur een mechanisme (bijvoorbeeld volgens de Sympson-Hetter methode, 1985) inbouwt waardoor mogelijke over- of onderbenutting van de items gecontroleerd wordt. De beveiliging van de testresultaten is belangrijk om misbruik (bijvoorbeeld het ongeoorloofd aanbrengen van wijzigingen in de resultaten) te voorkomen en om de privacy en anonimiteit van de geteste voldoende te kunnen waarborgen.

12 Het oordeel op deze vraag is afhankelijk van de functie van de test. Indien op basis van de test kandidaten geselecteerd of gecertificeerd worden dan dient zowel de toegang tot de test als het testmateriaal als de testresultaten beveiligd te zijn voor het oordeel goed. Indien één aspect niet is beveiligd dan is het oordeel onvoldoende. Indien de test is bedoeld om de voortgang te controleren of indien de test is opgenomen in een reeks van testen dan dienen alleen de testresultaten beveiligd te zijn voor het oordeel voldoende Het oordeel goed kan worden toegekend indien naast de testresultaten ook het testmateriaal beveiligd is. In alle andere gevallen is het oordeel onvoldoende. Ad 2.5. Onder een objectief scoringssysteem wordt verstaan dat waarden die aan alle mogelijke antwoorden van personen worden toegekend bij voorbaat zodanig vastliggen, dat elke testleider, afgezien van administratieve fouten die bij de scoring kunnen worden gemaakt, tot dezelfde score zal komen. Indien de scoring volledig is geautomatiseerd dan is het scoringssysteem per definitie objectief. Het oordeel op deze vraag is in dit geval goed. Indien enkele of alle items handmatig gescoord worden dan dienen er bij tests met open items antwoordmodellen, scoringsvoorschriften en een beoordelaarsinstructie te worden meegeleverd. Hierdoor moet duidelijk worden wat er in een antwoord moet staan of welk gedrag moet zijn vertoond om bepaalde scores te kunnen toekennen. Bij een test met gesloten items is met name het scoringsvoorschrift belangrijk. Indien niets meegeleverd wordt dan is het oordeel op deze vraag onvoldoende. In andere gevallen ligt het met name aan de volledigheid en duidelijkheid van het meegeleverde materiaal of het oordeel voldoende of goed gegeven moet worden. Ad 2.6. Indien de computergegenereerde rapporten naast vermelding van de score of het niveau ook aanvullende informatie (feedback of informatie over de interpretatie van de score) geven, dan dient deze informatie te voldoen aan een aantal kwaliteitseisen: De interpretatie die gegeven wordt aan de testscore dient rechtvaardig te zijn gezien de standaardmeetfout; De informatie moet de inhoud van de test dekken; De informatie moet passen (bijvoorbeeld qua taalgebruik) bij de doelgroep; De informatie dient consistent te zijn bij een bepaalde score of een bepaald niveau; Indien geen onderzoek is verricht naar de kwaliteit van de informatie dan dient het oordeel onvoldoende te worden toegekend. Het oordeel goed mag alleen in die gevallen worden toegekend indien de testauteur aantoont dat de informatie voldoet aan alle genoemde kwaliteitseisen. Indien in het computergegenereerde rapport geen feedback of informatie over de interpretatie van de score wordt gegeven dan dient het oordeel goed te worden toegekend.

13 Ad 2.7. Er dienen verschillende aspecten consistent te zijn gebruikt voordat het oordeel goed toegekend mag worden: Symbolen dienen steeds dezelfde functie te hebben; Kleuren dienen consistent gebruikt te worden en dienen steeds dezelfde functie te hebben; Informatie (items, instructie, antwoordveld etc.) dient steeds op dezelfde locatie weergegeven te worden of er dient steeds op dezelfde manier onderscheid te zijn gemaakt tussen soorten informatie; Er dient consistent gebruik gemaakt te zijn van lettertypes en groottes. Indien twee of meer aspecten niet consistent zijn dan dient het oordeel onvoldoende toegekend te worden. In andere gevallen is het oordeel voldoende. Ad 2.8. De overzichtelijkheid van een scherm wordt bepaald door verschillende factoren: Zijn de verschillende typen informatie (instructie, item, antwoordveld etc.) duidelijk van elkaar te onderscheiden? Zijn de buttons duidelijk herkenbaar en is de functie van de buttons altijd duidelijk? (B.v. bij de button <afsluiten>: wordt in dit geval de test afgesloten of alleen de instructie?) Zijn de items en de instructie zonder scrollen leesbaar? Is bepaalde informatie (bijvoorbeeld instructie) gemakkelijk te vinden? Is altijd duidelijk waar men zich bevindt of welke handeling men moet verrichten om te komen waar men wil? Er dient bij deze vraag gecontroleerd te worden of de bediening van de test zo intuïtief is, dat iemand met geen enkele computerervaring toch in staat is om de test te maken zonder dat er bijvoorbeeld sprake is van testbias. Het oordeel goed mag alleen in die gevallen toegekend worden indien er geen enkele twijfel kan bestaan over de bediening van de software en de plaats waar bepaalde informatie te vinden is. Indien aan twee of meer van de bovengenoemde factoren niet is voldaan dan dient het oordeel onvoldoende toegekend te worden. Ad 2.9. De leesbaarheid wordt bevorderd indien: Niet meer dan twee lettertypes gebruikt worden; Niet meer dan drie puntgroottes gebruikt worden; Woorden niet cursief afgebeeld worden; Woorden niet onderstreept worden als er geen sprake is van een hyperlink. De lettertypen Arial of Verdana zijn geschikte lettertypes voor een beeldscherm, maar andere lettertypes (bijvoorbeeld Courier ) leveren veelal geen problemen op met betrekking tot de leesbaarheid. Om woorden of stukken tekst te benadrukken levert het vet maken of een iets afwijkende kleur geven aan de betreffende tekst, geen problemen op. Het oordeel onvoldoende dient toegekend te worden indien woorden meerdere malen cursief of onderstreept (geen hyperlink) zijn weergegeven of wanneer het lettertype niet consistent of moeilijk leesbaar is. Het oordeel goed dient toegekend te worden indien het gekozen lettertype gemakkelijk leesbaar is en is voldaan aan alle vier genoemde aspecten die de leesbaarheid bevorderen. In andere gevallen is het oordeel voldoende.

14 Ad Van belang is dat kleur op een dusdanige manier is toegepast dat het de overzichtelijkheid en leesbaarheid van het beeldscherm bevordert. Functioneel kleurgebruik betekent dat kleuren een bepaalde betekenis hebben of dat het scherm overzichtelijker wordt, door bijvoorbeeld de items of het antwoordveld een afwijkende kleur te geven. Het is zeker niet wenselijk om een groot aantal kleuren te gebruiken of om kleuren zonder enige reden toe te passen. Met prettig kleurgebruik wordt de keuze voor bepaalde kleurencombinaties of het contrast tussen kleurnuances bedoeld. Bepaalde kleurencombinaties en slecht contrasterende kleuren zijn bijvoorbeeld moeilijk te onderscheiden. Het is bij deze vraag van belang om te beoordelen of er niet te pas en te onpas gebruik is gemaakt van kleuren, of het contrast tussen kleuren voldoende is en of de gebruikte kleurencombinaties geen negatieve gevolgen hebben voor het leesgemak. Alleen indien deze drie aspecten positief beoordeeld worden dan mag op deze vraag het oordeel goed worden toegekend. Het oordeel onvoldoende dient alleen toegekend te worden indien teksten nagenoeg onleesbaar zijn door het kleurgebruik. In alle andere gevallen is het oordeel voldoende. Ad Onder beeldmateriaal wordt in dit verband al het mogelijke beeldmateriaal zoals animaties, filmfragmenten en statische afbeeldingen verstaan. Van belang is dat zowel het beeldmateriaal als de geluidsfragmenten een duidelijke functie hebben en dat ze niet zijn opgenomen om de CBT software te verfraaien. Hierbij dient aangetekend te worden dat de functionaliteit van het beeldmateriaal al in het geding is wanneer ze onleesbaar zijn of afleiden en bij geluidsfragmenten al wanneer stemmen niet te verstaan zijn Het oordeel onvoldoende dient toegekend te worden indien niet duidelijk is waarom bepaalde beelden of geluidsfragmenten zijn gebruikt of indien de kwaliteit zo slecht is dat stemmen onverstaanbaar zijn of dat beelden onleesbaar zijn. Het oordeel goed mag alleen toegekend worden indien de gebruikte beelden en geluiden een duidelijke meerwaarde hebben. In alle andere gevallen is het oordeel voldoende. Ad Onder de term gehandicapten valt in dit verband iedereen die om wat voor reden dan ook problemen kan ondervinden bij het maken van een test. Dit kunnen lichamelijk gehandicapten zijn, maar bijvoorbeeld ook mensen met dyslexie. Indien geen rekening is gehouden met gehandicapten dan dient het oordeel onvoldoende toegekend te worden. Het oordeel voldoende dient toegekend te worden indien de testauteur aantoont dat de test geschikt is bij veel voorkomende handicaps, zoals kleurenblindheid, dyslexie en slechtziendheid. Het oordeel goed dient toegekend te worden indien de testauteur aantoont dat de test geschikt is voor mensen met een zware lichamelijke handicap (bijvoorbeeld voor mensen die de computer bedienen door te spreken of teksten lezen met behulp van braille).

15 Ad Bij het beoordelen van de items dient ten eerste op de volgende aspecten, ontleend aan Erkens en Moelands (1992) en Moelands, Noijons en Rem (1992), gelet te worden: Open vragen Is het item grammaticaal juist geformuleerd? Bevat het item een te ingewikkelde zinsconstructie? Bevat het item onnodig moeilijke woorden? Bevat het item onnodige tussenvoegsels? Is het item onnodig negatief gesteld? Kan de formulering van het item aanleiding geven tot misverstanden? Bestaat er gevaar dat het item door klemtoonverschuiving duidelijk van betekenis verandert? Bevat het item voldoende informatie om het goede antwoord te kunnen geven? Geeft het item voldoende informatie over de gewenste lengte en vorm van het antwoord? Weet de kandidaat of een antwoord gemotiveerd moet worden? Zijn de informatie en de probleemstelling duidelijk te onderscheiden? Gesloten vragen Zijn er misschien meerdere goede antwoorden? Bevat het item onduidelijkheden? Bevatten de alternatieven onduidelijkheden? Bevat de stam een duidelijke vraag of opdracht? Bevat de stam voldoende informatie om het item te kunnen beantwoorden? Bevat de stam geen overbodige informatie? Is de stam precies, beknopt en grammaticaal juist geformuleerd? Bevat de stam geen dubbele ontkenning? Als de stam een ontkenning bevat, is dat dan duidelijk zichtbaar gemaakt? Hebben alle afleiders enige plausibiliteit? Wordt in het goede alternatief niet een term uit de stam herhaald? Staan er geen woorden als altijd of nooit in enkele afleiders? Ontstaat er geen dubbele ontkenning tussen de stam en één of meer alternatieven? Sluiten de alternatieven elkaar uit? Zijn de alternatieven ongeveer even lang? Sluiten de alternatieven grammaticaal en inhoudelijk goed aan op de stam? Bevatten de alternatieven geen herhalingen uit de stam of van elkaar? Zijn de alternatieven logisch gerangschikt? Zijn de alternatieven voldoende van elkaar te onderscheiden? Ten tweede dient gekeken te worden naar de psychometrische kwaliteit van de items. De belangrijkste statistische indices om de psychometrische kwaliteit van de items te beoordelen zijn de moeilijkheidsgraad (p-waarde) en de discriminatie-index (r it of r ir ). Voor het beoordelen van de moeilijkheidsgraad of de discriminatie-index gelden onderstaande normen: Moeilijkheidsgraad In de literatuur wordt nauwkeurig aangegeven wat de optimale moeilijkheidsgraad of p-waarde is. Crocker en Algina (1986) gaan er hierbij vanuit dat de optimale p-waarde halverwege de raadkans en 1.0 moet liggen. Feldt (1993) gaat uit van een p-waarde die ligt tussen de.57 en.67. Er blijkt echter dat het effect van de moeilijkheid van een item op de betrouwbaarheid zeer klein is, zelfs als de p-waarden variëren van.27 tot.79. Derhalve wordt hier als norm gesteld

16 dat de p-waarden moeten liggen tussen.27 en.79. Hierbij dient aangetekend te worden dat de gewenste p-waarden afhankelijk zijn van het doel van de test. Indien de test is bedoeld om iemands vaardigheid nauwkeurig te meten dan zullen de p-waarden het gehele interval (dus tussen de.27 en.79) moeten bestrijken. Indien de test is bedoeld om personen te classificeren dan zullen de p-waarden een veel kleiner interval (b.v. tussen de.40 en.60) moeten bestrijken. Naast de p-waarde kan ook naar de a-waarde gekeken worden. De a-waarde is de proportie kandidaten die bij een meerkeuze-item de desbetreffende afleider als antwoord koos. Het is hierbij belangrijk dat elke afleider door een kleine groep kandidaten gekozen wordt, zodat vastgesteld kan worden dat alle afleiders plausibel waren. Indien alle a-waarden hetzelfde zijn, dan kan dat wijzen op gokgedrag of wanneer de a-waarde groter is dan de p-waarde dan kan er iets schorten aan de formulering. Discriminatie-index De discriminatie-index geeft aan in hoeverre een item onderscheid maakt tussen personen met hoge testscores en personen met lage testscores. Een hoge r it -waarde betekent dat veel personen met een hoge testscore het item goed hebben beantwoord en veel personen met een lage testscore het item fout hebben beantwoord. Een hoge r it -waarde betekent ook dat het item relatief veel bijdraagt aan de betrouwbaarheid van de test. Voor het beoordelen van r it -waarden gelden onderstaande normen (Veldhuijzen, Goldebeld & Sanders, 1993). r it -waarde itembeoordeling 0,40 en hoger zeer goed 0,30 0,39 goed 0,20 0,29 twijfelachtig 0,19 en lager slecht Omdat de grootte van de r it -waarde onder andere afhankelijk is van het aantal items in een test, moet men strikt genomen bovenstaande normen alleen hanteren bij r it -waarden die gecorrigeerd zijn voor testlengte. De correctie kan uitgevoerd worden met de correctieformule van Henrysson (1963). Vanwege het geringe effect kan de correctie achterwege blijven indien de items afkomstig zijn uit tests met veertig of meer items (Veldhuijzen, Goldebeld & Sanders, 1993). Bij deze vraag is het de bedoeling om, in ieder geval met behulp van één van beide manieren, vast te stellen of de kwaliteit van de items voldoende is. Het beoordelen van de psychometrische kwaliteit verdient hierbij de voorkeur, al is het hierbij bijzonder belangrijk dat men zich er rekenschap van geeft hoe nauwkeurig die indices geschat zijn. Veldhuijzen, Goldebeld & Sanders (1993) hebben 95%-betrouwbaarheidsintervallen geconstrueerd voor de werkelijke p-waarden. Wanneer er bijvoorbeeld 100 personen een item gemaakt hebben en de p-waarde gelijk is aan.50, dan ligt de werkelijke p-waarde tussen de.40 en.60. Wanneer hetzelfde item gemaakt was door 500 personen, dan ligt de werkelijke p-waarde tussen de.46 en.55. Veldhuijzen, Goldebeld & Sanders hebben eveneens voor diverse waarden van de r it en n de 95%-betrouwbaarheidsintervallen voor de werkelijke waarden van de r it vermeld. Indien bijvoorbeeld bij een toets- en itemanalyse die gebaseerd is op 500 personen, de r it -waarde van een item.20 is, dan zijn de 95%-betrouwbaarheidsgrenzen van de werkelijke r it -waarde.12 en.28. Indien geen p-waarden en r it -waarden vermeld worden dan dient de kwaliteit van de items beoordeeld te worden met behulp van de aandachtspunten die Erkens en Moelands (1992) en Moelands, Noijons en Rem (1992) geformuleerd hebben. Hierbij mag het oordeel onvoldoende alleen in die gevallen worden toegekend indien bij een groot aantal items de kwaliteit van de items te wensen over laat.

17 Ad De itemparameters dienen te worden geschat aan de hand van de resultaten in een groep die overeenstemt met de doelgroep van de test. Derhalve dient de testauteur een adequate beschrijving te geven van de gebruikte steekproef en dient aangetoond te worden dat de steekproef overeenkomt met de doelgroep. Ad De steekproef dient voldoende groot te zijn teneinde te voorkomen dat de itemparameters onnauwkeurig geschat worden. Er zijn hiervoor geen eenduidige richtlijnen op te stellen om twee redenen. Ten eerste is de minimale benodigde grootte van de steekproef afhankelijk van het gekozen IRT-model en ten tweede worden er in de literatuur weinig aanwijzingen gedaan met betrekking tot de gewenste grootte van de steekproef. Het is vaak een kwestie van ervaring. Parshall et. al. (1998) hebben als één van de weinigen richtlijnen opgesteld voor een aantal IRT-modellen voor dichotome items: 1 parametermodel: N > parametermodel: N > parametermodel: N > 700 Deze aantallen kunnen hier als grove richtlijn worden aangehouden. Voor andere IRT-modellen worden er in de literatuur geen aanwijzingen gedaan met betrekking tot de steekproefgroottes, maar deze zullen voor bijvoorbeeld IRT-modellen voor polytome items groter moeten zijn dan voor IRT-modellen voor dichotome items. De nauwkeurigheid van de itemparameterschattingen kan in voorkomende gevallen ook beoordeeld worden door te kijken naar de relatie tussen de standaardfout van de moeilijkheidsparameter se(b i ) en de standaarddeviatie van de vaardigheidsverdeling van de kalibratiepopulatie sd(θ). Hierbij zou moeten gelden dat: se(b i ) < c*sd(θ), waarbij c een constante is. Er kan gesproken worden van een kleine standaardfout van se(b i ) indien c 0,2 ; van een matige standaardfout van se(b i ) indien 0,3 c 0,4 en van een onaanvaardbaar grote standaardfout van se(b i ) indien c 0,5. Omdat er geen eenduidige richtlijnen op te stellen zijn, is het belangrijk om enige voorzichtigheid te betrachten bij het beoordelen van deze vraag. Er dient hierbij op twee aspecten gelet te worden: Komt de steekproefgrootte overeen met de richtlijnen van Parshall et. al. of is de steekproefgrootte bij IRT-modellen voor polytome items groter dan bij IRT-modellen voor dichotome items? Geldt tenminste dat se(b i ) < 0,4*sd(θ)? Indien aan geen van beide aspecten is voldaan dan dient het oordeel onvoldoende toegekend te worden. Ad Indien niet alle items bij alle personen in de steekproef gepretest zijn, dan is er sprake van een onvolledig design. De itemparameters kunnen hierbij alleen op dezelfde schaal worden gebracht indien er iets gemeenschappelijks is tussen de volledige deeldesigns. De gemeenschappelijkheid kan liggen in de personen die verschillende items maken, dan wel in de items die door verschillende personen worden gemaakt. Voor deze zogenaamde ankering zijn verschillende mogelijkheden: ankeritemdesign, gedeeltelijk verbonden design, ankergroepdesign, kettingdesign etc. (Eggen, 1993) Het is belangrijk dat de testauteur het gehanteerde design vermeld zodat beoordeeld kan worden of het design adequaat is.

18 Ad Het is belangrijk dat de testauteur aantoont dat de schaal (het IRT-model) past bij de data omdat er bij het bepalen van de lokale betrouwbaarheid vanuit gegaan wordt dat het model past en een scorevergelijking op basis van verschillende items bij een adaptieve test is bijvoorbeeld ook alleen eerlijk is als het model past. Er zijn diverse manieren ontwikkeld om te toetsen of de schaal (het IRT-model) past bij de data. Voor een overzicht van een aantal modeltoetsen, zie Verhelst (1993). Ad Met het oog op de inhoudsvaliditeit is het van belang dat er voldoende items in de itembank opgenomen zijn. Wanneer de itembank onderverdeeld is in categorieën dan is van belang dat er voldoende items per categorie beschikbaar zijn. Het aantal minimaal noodzakelijke items is afhankelijk van het doel van de test. Voor tests bedoeld voor het nemen van belangrijke beslissingen op individueel niveau, zoals selectie, classificatie, plaatsing of certificering is de ervaring dat de itembank minimaal 12 keer zo groot dient te zijn als de grootste (adaptieve) test. Voor tests bedoeld voor het nemen van minder belangrijk beslissingen op individueel niveau, zoals het controleren van de voortgang is de ervaring dat de itembank minimaal 6 keer zo groot dient te zijn als de grootste (adaptieve) test.

19 2B De kwaliteit van de testhandleiding De testhandleiding is een belangrijke bron van informatie voor de (toekomstige) testgebruiker. In de testhandleiding dient tenminste informatie opgenomen te worden over het gebruik en de interpretatie van de test, over de werking van de CBT software en de benodigde hard- en software. Deze aspecten komen terug bij de subcriteria gebruikershandleiding en handleiding CBT software. Mogelijk zijn alle aspecten in één handleiding opgenomen, maar van belang is of de informatie voor de testgebruiker beschikbaar is. Indien geen gebruikershandleiding èn een beschrijving van de werking van de CBT software beschikbaar is, dan is het eindoordeel op dit criterium onvoldoende. Onvoldoende Voldoende Goed Gebruikershandleiding Wordt informatie gegeven over de gebruiksmogelijkheden en beperkingen van de test? Wordt informatie gegeven over de vereiste condities bij afname van de test? Wordt informatie gegeven over de mate van deskundigheid die vereist is voor afname en interpretatie van de test? Wordt informatie gegeven over de interpretatie van de testscores? Wordt in de handleiding een samenvatting van de onderzoeksresultaten gegeven? Handleiding CBT software Wordt informatie gegeven over de installatie van de CBT software? Wordt informatie gegeven over de bediening en mogelijkheden van de CBT software? Zijn er voldoende mogelijkheden voor technische ondersteuning?

20 Beoordelingsvoorschrift criterium 2B Het eindoordeel voor criterium 2B is hetzelfde als het laagst behaalde oordeel op één van beide subcriteria. Het vaststellen van de oordelen voor de subcriteria gebeurt door de scores bij elkaar op te tellen. Voor het oordeel bij Gebruikershandleiding geldt dat: 14 of 15 punten leidt tot het oordeel goed; 10 tot 13 punten leidt tot het oordeel voldoende; 5 tot 9 punten leidt tot het oordeel onvoldoende. Voor het oordeel bij Handleiding CBT software geldt dat: 8 of 9 punten leidt tot het oordeel goed; 6 of 7 punten leidt tot het oordeel voldoende; 3 tot 5 punten leidt tot het oordeel onvoldoende. Aanwijzingen per vraag Ad Een handleiding moet volledig, nauwkeurig en duidelijk zijn over de gebruiksmogelijkheden en beperkingen van de test. Derhalve dient voor de (toekomstige) testgebruiker duidelijk te zijn welk(e) construct(en) met behulp van de test worden gemeten, voor welke doelgroep de test is bedoeld en wat de functie (b.v. classificeren, selecteren etc.) is van de test. Daarnaast dient te zijn beschreven wat de beperkingen zijn van de test. Afhankelijk van de situatie waarvoor de test is bedoeld kan dit tot verschillende suggesties leiden. Wordt er in het geval van voortgangscontrole gewezen op de relatie tussen testscore en het verdere onderwijs/ leerproces? Wordt er bij tests bedoeld voor beroepskeuzebegeleiding op gewezen niet alléén op de testscores af te gaan bij het nemen van beslissingen? Wordt er bij tests bedoeld voor selectie aangegeven voor welk type functies de test is bedoeld en wat de kritieke functieinhoud is van deze functies? Indien zowel duidelijkheid is over de gebruiksmogelijkheden èn beperkingen van de test dan dient het oordeel goed te worden toegekend. Indien alleen duidelijkheid is over de gebruiksmogelijkheden van de test dan is het oordeel voldoende. In alle andere gevallen is het oordeel onvoldoende. Ad De aanwijzingen voor de testleider in de handleiding zijn van belang om ervoor te zorgen dat de testafname gestandaardiseerd plaatsvindt. Er moet zoveel mogelijk letterlijk zijn voorgeschreven wat de testleider wel en niet mag zeggen (zo is bijvoorbeeld de aanbeveling de testleider legt het doel van de test uit onvoldoende) en welke handelingen de testleider moet verrichten. Tevens moet worden voorgeschreven hoe op vragen moet worden ingegaan, welke hulpmiddelen de geteste mag gebruiken, over welke computervaardigheden de geteste moet beschikken om aan de test deel te kunnen nemen en onder welke omstandigheden de test afgenomen dient te worden. Met omstandigheden wordt bijvoorbeeld het gewenste comfort, de werkruimte, het licht, de computers en dergelijke bedoeld. Indien geen informatie wordt gegeven over de handelingen die de testleider voorafgaand, tijdens en na afloop van de test moet/mag verrichten òf indien geen informatie wordt gegeven over de vereiste werkplek dan is het oordeel onvoldoende.

Beoordelingssysteem. voor de. Kwaliteit van Tests

Beoordelingssysteem. voor de. Kwaliteit van Tests Beoordelingssysteem voor de Kwaliteit van Tests Deel 1 * Ingekort en aangepast voor de opdracht Diagnostiek en Testtheorie COTAN, Commissie Testaangelegenheden Nederland van het Nederlands Instituut van

Nadere informatie

COTAN: kwaliteit van tests en testgebruik

COTAN: kwaliteit van tests en testgebruik COTAN: kwaliteit van tests en testgebruik dr. Iris J.L. Egberink Eindredacteur Testbeoordelingen, COTAN Universitair Docent, Psychometrie & Statistiek, Rijksuniversiteit Groningen VOCAP 35 jaar Academische

Nadere informatie

Q1000 Richtlijnen voor verantwoord testgebruik

Q1000 Richtlijnen voor verantwoord testgebruik Q1000 Richtlijnen voor verantwoord testgebruik Inleiding Tests vormen een belangrijk hulpmiddel bij het adviseren aan en het selecteren van personen. Voor de geteste personen kunnen de resultaten verstrekkende

Nadere informatie

Zelfevaluatie-instrument

Zelfevaluatie-instrument Zelfevaluatie-instrument voor het bepalen van de kwaliteit van een toets Faculteit Management en Bestuur Zoëzi Opleidingsadvies Drs. Hilde ter Horst Drs. Annemiek Metz Versie 4.0, 11 september 2008 1.

Nadere informatie

Woord vooraf. Arne Evers, Wouter Lucassen, Rob Meijer en Klaas Sijtsma April 2010

Woord vooraf. Arne Evers, Wouter Lucassen, Rob Meijer en Klaas Sijtsma April 2010 Woord vooraf Voor u ligt de herziene versie van het COTAN Beoordelingssysteem voor de Kwaliteit van Tests. Deze versie bouwt voort op eerdere versies van het systeem, zoals gepubliceerd in de Documentatie

Nadere informatie

Toelichting Ankeronderzoek met Referentiesets. Ankeronderzoek. Beschrijving ankeronderzoek. Saskia Wools & Anton Béguin, Cito 2014

Toelichting Ankeronderzoek met Referentiesets. Ankeronderzoek. Beschrijving ankeronderzoek. Saskia Wools & Anton Béguin, Cito 2014 Toelichting Saskia Wools & Anton Béguin, Cito 2014 Ankeronderzoek Deze handleiding bevat een korte beschrijving van ankeronderzoeken. In het algemeen geldt dat meer informatie te vinden is in het boek

Nadere informatie

Beoordelingscriteria scriptie Nemas HRM

Beoordelingscriteria scriptie Nemas HRM Beoordelingscriteria scriptie Nemas HRM Instructie Dit document hoort bij het beoordelingsformulier. Op het beoordelingsformulier kan de score per criterium worden ingevuld. Elk criterium kan op vijf niveaus

Nadere informatie

HTS Report. d2-r. Aandachts- en concentratietest. David-Jan Punt ID 255-4 Datum 10.11.2015. Standaard. Hogrefe Uitgevers BV, Amsterdam

HTS Report. d2-r. Aandachts- en concentratietest. David-Jan Punt ID 255-4 Datum 10.11.2015. Standaard. Hogrefe Uitgevers BV, Amsterdam d2-r Aandachts- en concentratietest HTS Report ID 255-4 Datum 10.11.2015 Standaard d2-r Inleiding 2 / 14 INLEIDING De d2-r is een instrument voor het meten van de visuele selectieve aandacht, snelheid

Nadere informatie

Beoordelingskader voor (reeksen van) toetsen uit leerlingvolgsystemen (LOVS).

Beoordelingskader voor (reeksen van) toetsen uit leerlingvolgsystemen (LOVS). Beoordelingskader voor (reeksen van) toetsen uit leerlingvolgsystemen (LOVS). Ontwikkeld door: Psychometrisch experts, Hans Vos Arnold Brouwer Bernard Veldkamp Piet Sanders SLO, Elvira Folmer Ria van de

Nadere informatie

NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland. Beoordeling van de AMN Eindtoets 2016

NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland. Beoordeling van de AMN Eindtoets 2016 NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland Beoordeling van de AMN Eindtoets 2016 Beoordeling 2015 onvoldoende* voldoende goed 1. Uitgangspunten x 2. Kwaliteit testmateriaal

Nadere informatie

TECHNISCHE HANDLEIDING IQ TEST

TECHNISCHE HANDLEIDING IQ TEST TECHNISCHE HANDLEIDING IQ TEST 12 December 2011 INHOUDSOPGAVE TESTOVERZICHT Meetpretentie Theoretische achtergrond Kenmerken Samenstelling Toepassingsgebied Voorbeelditems TESTKENMERKEN Vraag die voor

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN MUZIEK gltl EERSTE TIJDVAK 2016

TERUGBLIK CENTRAAL EXAMEN MUZIEK gltl EERSTE TIJDVAK 2016 TERUGBLIK CENTRAAL EXAMEN MUZIEK gltl EERSTE TIJDVAK 2016 Inleiding Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het centraal examen

Nadere informatie

HTS Report. d2-r. Aandachts- en concentratietest. Jan Janssen ID 15890-10 Datum 02.05.2016. Standaard. Hogrefe Uitgevers BV, Amsterdam

HTS Report. d2-r. Aandachts- en concentratietest. Jan Janssen ID 15890-10 Datum 02.05.2016. Standaard. Hogrefe Uitgevers BV, Amsterdam d2-r Aandachts- en concentratietest HTS Report ID 15890-10 Datum 02.05.2016 Standaard d2-r Interpretatie 2 / 13 ALGEMENE TOELICHTING Informatie over de d2-r De d2-r is een instrument voor het meten van

Nadere informatie

1. Gegeven zijn de itemsores van 8 personen op een test van 3 items

1. Gegeven zijn de itemsores van 8 personen op een test van 3 items 1. Gegeven zijn de itemsores van 8 personen op een test van 3 items item Persoon 1 2 3 1 1 0 0 2 1 1 0 3 1 0 0 4 0 1 1 5 1 0 1 6 1 1 1 7 0 0 0 8 1 1 0 Er geldt: (a) de p-waarden van item 1 en item 2 zijn

Nadere informatie

Stappen deelcijfer weging 10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 totaalcijfer 10,0 Spelregels:

Stappen deelcijfer weging 10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 totaalcijfer 10,0 Spelregels: Stappen deelcijfer weging 1 Onderzoeksvragen 10,0 6% 0,6 2 Hypothese 10,0 4% 0,4 3 Materiaal en methode 10,0 10% 1,0 4 Uitvoeren van het onderzoek en inleiding 10,0 30% 3,0 5 Verslaglegging 10,0 20% 2,0

Nadere informatie

TOETSONTWIKKELING. in de praktijk HOE MAAK IK GOEDE VRAGEN EN TOETSEN?

TOETSONTWIKKELING. in de praktijk HOE MAAK IK GOEDE VRAGEN EN TOETSEN? TOETSONTWIKKELING in de praktijk HOE MAAK IK GOEDE VRAGEN EN TOETSEN? Inhoudsopgave 1. Inleiding......................................................... 7 1.1 Doel en doelgroep......................................................

Nadere informatie

Stap 1: Bepalen van het doel

Stap 1: Bepalen van het doel Ontwerp van een onderzoeksproject Stap 1: Bepalen van het doel Eerst en vooral moet je weten wat je te weten wil komen en waarom. Het antwoord op deze vragen bepaalt Wat je zal moeten meten en hoe (doelvariabelen

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN NASK 1 VMBO EERSTE TIJDVAK 2013

TERUGBLIK CENTRAAL EXAMEN NASK 1 VMBO EERSTE TIJDVAK 2013 TERUGBLIK CENTRAAL EXAMEN NASK 1 VMBO EERSTE TIJDVAK 2013 Inleiding Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het centraal examen

Nadere informatie

10 De kwaliteit van toetsen en examens. 10 De kwaliteit van toetsen en examens

10 De kwaliteit van toetsen en examens. 10 De kwaliteit van toetsen en examens 10 De kwaliteit van toetsen en examens 10 De kwaliteit van toetsen en examens 10 De kwaliteit van toetsen en examens Piet Sanders en Bas Hemker In dit hoofdstuk over het beoordelen van de kwaliteit van

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN ECONOMIE VMBO GT EERSTE TIJDVAK 2017

TERUGBLIK CENTRAAL EXAMEN ECONOMIE VMBO GT EERSTE TIJDVAK 2017 TERUGBLIK CENTRAAL EXAMEN ECONOMIE VMBO GT EERSTE TIJDVAK 2017 Inleiding Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het centraal

Nadere informatie

WISCAT-pabo. In deze instructie komt aan de orde: Opgaven op een beeldscherm. De computer stelt de toets samen. Proces adaptieve toets

WISCAT-pabo. In deze instructie komt aan de orde: Opgaven op een beeldscherm. De computer stelt de toets samen. Proces adaptieve toets WISCAT-pabo Informatie voor de kandidaten. In deze instructie komt aan de orde: Informatie over beeldschermtoetsen in het algemeen en adaptieve toetsen in het bijzonder. Informatie over de WISCAT-pabo

Nadere informatie

Beoordelingscriteria scriptie CBC: instructie en uitwerking

Beoordelingscriteria scriptie CBC: instructie en uitwerking Nederlandse Associatie voor Examinering 1 Beoordelingscriteria scriptie CBC: instructie en uitwerking Met de scriptie voor Compensation & Benefits Consultant (CBC) toont de kandidaat een onderbouwd advies

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN GESCHIEDENIS VWO

TERUGBLIK CENTRAAL EXAMEN GESCHIEDENIS VWO TERUGBLIK CENTRAAL EXAMEN GESCHIEDENIS VWO EERSTE TIJDVAK 2011 1 Inleiding 1. Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het

Nadere informatie

Verantwoord testgebruik

Verantwoord testgebruik Verantwoord testgebruik Fairness in het Cotan beoordelingssysteem Dr. Remko van den Berg(NOA) r.vdberg@noa-vu.nl Dr. Bas Hemker (Cito) bas.hemker@cito.nl Dr. Jorg Huijding (EUR) huijding@fsw.eur.nl www.noa-vu.nl

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN WISKUNDE B VWO EERSTE TIJDVAK 2014

TERUGBLIK CENTRAAL EXAMEN WISKUNDE B VWO EERSTE TIJDVAK 2014 TERUGBLIK CENTRAAL EXAMEN WISKUNDE B VWO EERSTE TIJDVAK 2014 Inleiding Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het centraal

Nadere informatie

Formulier voor het beoordelen van de kwaliteit van een systematische review. Behorend bij: Evidence-based logopedie, hoofdstuk 2

Formulier voor het beoordelen van de kwaliteit van een systematische review. Behorend bij: Evidence-based logopedie, hoofdstuk 2 Formulier voor het beoordelen van de kwaliteit van een systematische review Behorend bij: Evidence-based logopedie, hoofdstuk 2 Toelichting bij de criteria voor het beoordelen van de kwaliteit van een

Nadere informatie

Uitgebreide toelichting van het meetinstrument. De Klepel. Review 1: E. Oosterlinck, N. Ramakers Review 2: M. Jungen Invoer: E.

Uitgebreide toelichting van het meetinstrument. De Klepel. Review 1: E. Oosterlinck, N. Ramakers Review 2: M. Jungen Invoer: E. Uitgebreide toelichting van het meetinstrument De Klepel 0 september 2011 Review 1: E. Oosterlinck, N. Ramakers Review 2: M. Jungen Invoer: E. van Engelen 1 Algemene gegevens Het meetinstrument heeft betrekking

Nadere informatie

Rapport 834 Oud, W., & Emmelot, Y. (2010). De visitatieprocedure cultuurprofielscholen. Amsterdam: Kohnstamm Instituut.

Rapport 834 Oud, W., & Emmelot, Y. (2010). De visitatieprocedure cultuurprofielscholen. Amsterdam: Kohnstamm Instituut. Samenvatting Rapport 834 Oud, W., & Emmelot, Y. (2010). De visitatieprocedure cultuurprofielscholen. Amsterdam: Kohnstamm Instituut. In 2007 is de Vereniging CultuurProfielScholen (VCPS) opgericht, het

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN ECONOMIE HAVO EERSTE TIJDVAK 2013

TERUGBLIK CENTRAAL EXAMEN ECONOMIE HAVO EERSTE TIJDVAK 2013 TERUGBLIK CENTRAAL EXAMEN ECONOMIE HAVO EERSTE TIJDVAK 2013 Inleiding Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het centraal

Nadere informatie

SECTORWERKSTUK 2013-2014

SECTORWERKSTUK 2013-2014 SECTORWERKSTUK 2013-2014 1 HET SECTORWERKSTUK Het sectorwerkstuk is een verplicht onderdeel voor alle leerlingen uit het Mavo. Het maken van een sectorwerkstuk is een manier waarop je, als eindexamenkandidaat,

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN SCHEIKUNDE VWO EERSTE TIJDVAK 2013

TERUGBLIK CENTRAAL EXAMEN SCHEIKUNDE VWO EERSTE TIJDVAK 2013 TERUGBLIK CENTRAAL EXAMEN SCHEIKUNDE VWO EERSTE TIJDVAK 2013 Inleiding Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het centraal

Nadere informatie

INhOud Voorwoord Inleiding Vooronderzoek en constructieonderzoek Beschrijving van de SON-R 6-40 Normering van de testscores

INhOud Voorwoord Inleiding Vooronderzoek en constructieonderzoek Beschrijving van de SON-R 6-40 Normering van de testscores Inhoud Voorwoord 9 1 Inleiding 13 1.1 Kenmerken van de SON-R 6-40 13 1.2 Geschiedenis van de SON-tests 14 1.3 Aanleiding voor de revisie van de SON-R 5V-17 17 1.4 De onderzoeksfasen 18 1.5 Indeling van

Nadere informatie

Informatiebrochure gebruik van de Flexibiliteits Index Test (FIT-60)

Informatiebrochure gebruik van de Flexibiliteits Index Test (FIT-60) Informatiebrochure gebruik van de Flexibiliteits Index Test (FIT-60) Auteurs: T. Batink, G. Jansen & H.R.A. De Mey. 1. Introductie De Flexibiliteits Index Test (FIT-60) is een zelfrapportage-vragenlijst

Nadere informatie

TERUGBLIK CENRAAL EXAMEN MAATSCHAPPIJLEER II VMBO GL/TL

TERUGBLIK CENRAAL EXAMEN MAATSCHAPPIJLEER II VMBO GL/TL TERUGBLIK CENRAAL EXAMEN MAATSCHAPPIJLEER II VMBO GL/TL EERSTE TIJDVAK 2011 1 Inleiding 1. Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN FRANS HAVO EERSTE TIJDVAK 2013

TERUGBLIK CENTRAAL EXAMEN FRANS HAVO EERSTE TIJDVAK 2013 TERUGBLIK CENTRAAL EXAMEN FRANS HAVO EERSTE TIJDVAK 2013 Inleiding Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het centraal examen

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN ENGELS VMBO GT/TL

TERUGBLIK CENTRAAL EXAMEN ENGELS VMBO GT/TL TERUGBLIK CENTRAAL EXAMEN ENGELS VMBO GT/TL EERSTE TIJDVAK 2011 1 Inleiding 1. Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN SPAANS VWO

TERUGBLIK CENTRAAL EXAMEN SPAANS VWO TERUGBLIK CENTRAAL EXAMEN SPAANS VWO EERSTE TIJDVAK 2011 1 Inleiding 1. Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het centraal

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN GESCHIEDENIS VWO EERSTE TIJDVAK 2015

TERUGBLIK CENTRAAL EXAMEN GESCHIEDENIS VWO EERSTE TIJDVAK 2015 TERUGBLIK CENTRAAL EXAMEN GESCHIEDENIS VWO EERSTE TIJDVAK 2015 Inleiding Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het centraal

Nadere informatie

Toelichting bij applicatie "betekenis geven aan cijfers"

Toelichting bij applicatie betekenis geven aan cijfers Toelichting bij applicatie "betekenis geven aan cijfers" De toelichting op deze applicatie bestaat uit twee onderdelen: een praktische handleiding voor het gebruik van de applicatie; uitleg over de informatie

Nadere informatie

Onze Online Assessment experts hebben de antwoorden op de meest gestelde vragen over Online Assessment.

Onze Online Assessment experts hebben de antwoorden op de meest gestelde vragen over Online Assessment. Alles wat de HR professional wil weten over Online Assessments Wilt u een kandidaat uitnodigen om deel te nemen aan een Online Assessment? Wilt u weten hoe een Online Assessment is samengesteld of welke

Nadere informatie

RCEC BEOORDELINGSSYSTEEM VOOR DE KWALITEIT VAN STUDIETOETSEN EN EXAMENS

RCEC BEOORDELINGSSYSTEEM VOOR DE KWALITEIT VAN STUDIETOETSEN EN EXAMENS RCEC BEOORDELINGSSYSTEEM VOOR DE KWALITEIT VAN STUDIETOETSEN EN EXAMENS RCEC Concept, juni 2015 Inleiding Voor de beoordeling van de kwaliteit van toetsen en examens worden in Nederland momenteel drie

Nadere informatie

Formulier voor het beoordelen van de kwaliteit van een artikel over een diagnostische test of screeningsinstrument.

Formulier voor het beoordelen van de kwaliteit van een artikel over een diagnostische test of screeningsinstrument. Formulier voor het beoordelen van de kwaliteit van een artikel over een diagnostische test of screeningsinstrument. Behorend bij: Evidence-based logopedie, hoofdstuk 3. Toelichting bij de criteria voor

Nadere informatie

HTS Report DESIGMA - A. Design a Matrix. Tom Billiet ID Datum Advanced 1. Editie. Hogrefe Uitgevers BV, Amsterdam

HTS Report DESIGMA - A. Design a Matrix. Tom Billiet ID Datum Advanced 1. Editie. Hogrefe Uitgevers BV, Amsterdam HTS Report DESIGMA - A Design a Matrix ID 5107-4177 Datum 31.01.2017 Advanced 1. Editie DESIGMA - A Inleiding 2 / 10 INLEIDING Structuur van dit rapport Interpretatie Profielformulier Schaalscores Schaalinformatie

Nadere informatie

Wat betekent het twee examens aan elkaar te equivaleren?

Wat betekent het twee examens aan elkaar te equivaleren? Wat betekent het twee examens aan elkaar te equivaleren? Op grond van de principes van eerlijkheid en transparantie van toetsing mogen kandidaten verwachten dat het examen waarvoor ze opgaan gelijkwaardig

Nadere informatie

Programma. - Construct-> dimensies -> indicatoren -> items vragenlijst. - Pilot met de vragenlijst. - Plannen van het onderzoek.

Programma. - Construct-> dimensies -> indicatoren -> items vragenlijst. - Pilot met de vragenlijst. - Plannen van het onderzoek. Bijeenkomst 3 1 Programma Mini-presentaties Vragenlijst maken Kwaliteit van de vragenlijst: betrouwbaarheid en validiteit Vooruitblik: analyse van je resultaten Aan de slag: - Construct-> dimensies ->

Nadere informatie

Traditionele tests die nu nog in hoofdzaak gebruikt worden schieten op deze aspecten te kort. De voordelen van de Connector Ability zijn:

Traditionele tests die nu nog in hoofdzaak gebruikt worden schieten op deze aspecten te kort. De voordelen van de Connector Ability zijn: P E O P L E I M P R O V E P E R F O R M A N C E Com puterw eg 1,3542 D P U trecht Postbus 1087,3600 BB Maarssen tel.0346-55 90 10 fax 0346-55 90 15 w w w.picom pany.nl servicedesk@ picom pany.nl Connector

Nadere informatie

VRAAGVORMEN OPTIMAAL GEBRUIKEN INSTRUCTIE VOOR VRAAGONTWIKKELAARS TESTVISION ONLINE

VRAAGVORMEN OPTIMAAL GEBRUIKEN INSTRUCTIE VOOR VRAAGONTWIKKELAARS TESTVISION ONLINE VRAAGVORMEN OPTIMAAL GEBRUIKEN INSTRUCTIE VOOR VRAAGONTWIKKELAARS TESTVISION ONLINE VERSIE: 4 DATUM: MEI 2014 INHOUDSOPGAVE Inleiding... 2 1. Eén-uit-meervraag... 3 1.1 Belangrijkste kenmerken... 3 1.2

Nadere informatie

Klantonderzoek: statistiek!

Klantonderzoek: statistiek! Klantonderzoek: statistiek! Statistiek bij klantonderzoek Om de resultaten van klantonderzoek juist te interpreteren is het belangrijk de juiste analyses uit te voeren. Vaak worden de mogelijkheden van

Nadere informatie

4 Werken met beoordelingsmodellen voor productieve vaardigheden

4 Werken met beoordelingsmodellen voor productieve vaardigheden 4 Werken met beoordelingsmodellen voor productieve vaardigheden Inleiding Voor het vak Nederlands in het mbo is het Referentiekader Nederlandse taal de basis vormt voor de examinering. Hieronder lichten

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN NEDERLANDS HAVO

TERUGBLIK CENTRAAL EXAMEN NEDERLANDS HAVO TERUGBLIK CENTRAAL EXAMEN NEDERLANDS HAVO EERSTE TIJDVAK 2012 1 Inleiding 1. Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het centraal

Nadere informatie

Uitgebreide toelichting van het meetinstrument. Een- Minuut-Test (EMT) 1 Algemene gegevens

Uitgebreide toelichting van het meetinstrument. Een- Minuut-Test (EMT) 1 Algemene gegevens Uitgebreide toelichting van het meetinstrument Een- Minuut-Test (EMT) 17 oktober 011 Review 1: E. Oosterlinck, N. Ramakers Review : M. Jungen Invoer: E. van Engelen 1 Algemene gegevens Lichaamsregi o Aandoening

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN ENGELS HAVO EERSTE TIJDVAK 2013

TERUGBLIK CENTRAAL EXAMEN ENGELS HAVO EERSTE TIJDVAK 2013 TERUGBLIK CENTRAAL EXAMEN ENGELS HAVO EERSTE TIJDVAK 2013 Inleiding Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het centraal examen

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN FRANS EERSTE TIJDVAK 2016

TERUGBLIK CENTRAAL EXAMEN FRANS EERSTE TIJDVAK 2016 TERUGBLIK CENTRAAL EXAMEN FRANS EERSTE TIJDVAK 2016 Inleiding Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het centraal examen

Nadere informatie

Diagnostiek van het handelend rekenen

Diagnostiek van het handelend rekenen Diagnostiek van het handelend rekenen Test Meten en Metend rekenen 2-6 D. Van De Steene Van De Steene I. Vervenne 1 Introductie Meten en metend rekenen in ons dagelijks leven Situering Domein meten en

Nadere informatie

Beoordelingsmodel scriptie De beoordelaars gaan niet over tot een eindbeoordeling indien een van de categorieën een onvoldoende is.

Beoordelingsmodel scriptie De beoordelaars gaan niet over tot een eindbeoordeling indien een van de categorieën een onvoldoende is. Beoordelingsmodel scriptie De beoordelaars gaan niet over tot een eindbeoordeling indien een van de categorieën een is. Plan van aanpak 1.aanleiding (10 punten) Er is geen duidelijk omschreven aanleiding

Nadere informatie

Handleiding Nederlandse Werkwaardentest

Handleiding Nederlandse Werkwaardentest Handleiding Nederlandse Werkwaardentest Versie 1.0 (c), mei 2008 Dr Edwin van Thiel Nederlandse werkwaardentest De Nederlandse werkwaardentest is eind 2006 ontwikkeld door 123test via een uitgebreid online

Nadere informatie

Samenvatting. Samenvatting

Samenvatting. Samenvatting Samenvatting Op grond van klinische ervaring en wetenschappelijk onderzoek, is bekend dat het gezamenlijk voorkomen van een pervasieve ontwikkelingsstoornis en een verstandelijke beperking tot veel bijkomende

Nadere informatie

beoordelingskader zorgvraagzwaarte

beoordelingskader zorgvraagzwaarte 1 beoordelingskader zorgvraagzwaarte In dit document geven we een beoordelingskader voor de beoordeling van de zorgvraagzwaarte-indicator. Dit beoordelingskader is gebaseerd op de resultaten van de besprekingen

Nadere informatie

Taal en Connector Ability

Taal en Connector Ability Taal en Connector Ability Nico Smid Taal en Intelligentie Het begrip intelligentie gedefinieerd als G ( de zogenaamde general factor) verwijst naar het algemene vermogen om nieuwe problemen in nieuwe situaties

Nadere informatie

TERUGBLIK CENTRAAL EXAMEN BIOLOGIE VWO

TERUGBLIK CENTRAAL EXAMEN BIOLOGIE VWO TERUGBLIK CENTRAAL EXAMEN BIOLOGIE VWO EERSTE TIJDVAK 2012 1 Inleiding 1. Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het centraal

Nadere informatie

Toetsbekwaamheid SKE november 2016

Toetsbekwaamheid SKE november 2016 Toetsbekwaamheid SKE november 2016 De SeniorKwalificatie Examinering heeft als doel de hbo-toetspraktijk te versterken. De SKE kwalificatie is bij voorkeur een teamgericht proces waarin individuele docenten

Nadere informatie

6 Valkuilen bij het maken van testvragen die eenvoudig zijn te ontwijken. Meer informatie? Bezoek ons op

6 Valkuilen bij het maken van testvragen die eenvoudig zijn te ontwijken. Meer informatie? Bezoek ons op 6 Valkuilen bij het maken van testvragen die eenvoudig zijn te ontwijken Veel hangt af van de formulering van een vraag in een test, quiz of enquête. Ook als je precies weet wat je wilt vragen beïnvloedt

Nadere informatie

Een Europees Referentiekader voor talenexamens. Een utopie?

Een Europees Referentiekader voor talenexamens. Een utopie? Een Europees Referentiekader voor talenexamens Een utopie? José Noijons VLoD 34. Jahreshochschultagung 07.11.2008 Stichting CITO Instituut voor Toetsontwikkeling 1 Europees Referentiekader (ERK) Ontwikkeld

Nadere informatie

Werkinstructies voor de CQI Gehandicaptenzorg Lichamelijk. Gehandicapten

Werkinstructies voor de CQI Gehandicaptenzorg Lichamelijk. Gehandicapten CQI zorg Werkinstructies voor de CQI zorg In de vernieuwde werkwijze kwaliteitskader zorg heeft pijler 2B betrekking op het meten van cliëntervaringen. De CQI zorg maakt geen deel uit van een instrumentenwaaier

Nadere informatie

Gerard J.J.M. Straetmans Symposium De Logica van Mondelinge Toetsing Zutphen, 21 september G.J.J.M. Straetmans

Gerard J.J.M. Straetmans Symposium De Logica van Mondelinge Toetsing Zutphen, 21 september G.J.J.M. Straetmans Gerard J.J.M. Straetmans Symposium De Logica van Mondelinge Toetsing Zutphen, 21 september 2012 G.J.J.M. Straetmans Beslissingen nemen over onderwijsdeelnemers onderwijs Beslissing over toelating en plaatsing

Nadere informatie

Format beoordelingsformulier FEM voor geschreven afstudeerwerk: de afstudeeropdracht Toelichting over het gebruik van het formulier:

Format beoordelingsformulier FEM voor geschreven afstudeerwerk: de afstudeeropdracht Toelichting over het gebruik van het formulier: Bijlage bij Andriessen, D. en Van der Marel, I. (2015) Beoordelingsmodel voor eindwerkstukken voor een Faculteit Economie & Manage-ment in het hbo. Tijdschrift voor Hoger Onderwijs, Jaargang 33, Nr. 2,

Nadere informatie

Rapportgegevens Nederlandse persoonlijkheidstest

Rapportgegevens Nederlandse persoonlijkheidstest Rapportgegevens Nederlandse persoonlijkheidstest Respondent: Johan den Doppelaar Email: info@123test.nl Geslacht: man Leeftijd: 37 Opleidingsniveau: hbo Vergelijkingsgroep: Nederlandse beroepsbevolking

Nadere informatie

Beoordelingskader onderwijskundige en organisatorische aspecten andere eindtoetsen

Beoordelingskader onderwijskundige en organisatorische aspecten andere eindtoetsen Beoordelingskader onderwijskundige en organisatorische aspecten andere eindtoetsen IDnummer 16.011 Naam Toets AMN Eindtoets Aanvrager AMN Beoordelaars Gea Spaans, Gert Gelderblom Datum beoordeling 12 september

Nadere informatie

NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland. Beoordeling van de SON-R 6-40, 2011.

NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland. Beoordeling van de SON-R 6-40, 2011. NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland Beoordeling van de SON-R 6-40, 2011 Beoordeling 2012 1. Uitgangspunten bij de testconstructie: Goed 2. Kwaliteit van het testmateriaal:

Nadere informatie

PILOTEXAMENS REKENEN MBO. 29 mei 2013 Jan Paul de Vries

PILOTEXAMENS REKENEN MBO. 29 mei 2013 Jan Paul de Vries PILOTEXAMENS REKENEN MBO 29 mei 2013 Jan Paul de Vries CONTOUREN BIJEENKOMST Voor wie: Docenten voor wie de pilotexamens rekenen mbo (relatief) nieuw zijn. Doel: Informeren over de huidige stand van zaken,

Nadere informatie

IST Standaard. Intelligentie Structuur Test. meneer 1

IST Standaard. Intelligentie Structuur Test. meneer 1 IST Standaard Intelligentie Structuur Test ID 4589-1031 Datum 25.03.2015 IST Inleiding 2 / 12 INLEIDING De Intelligentie Structuur Test (IST) is een veelzijdig inzetbare intelligentietest voor jongeren

Nadere informatie

Programma. Schaalconstructie. IRT: moeilijkheidsparameter. Intro: Het model achter het LOVS Mogelijkheden die het model biedt voor interpretatie

Programma. Schaalconstructie. IRT: moeilijkheidsparameter. Intro: Het model achter het LOVS Mogelijkheden die het model biedt voor interpretatie Programma LOVS Rekenen-Wiskunde Inhoud, rapportage en invloed van en Intro: Het model achter het LOVS Mogelijkheden die het model biedt voor interpretatie Marian Hickendorff Universiteit Leiden / Cito

Nadere informatie

Kandidaatbrochure met oefenvragen Opleidingsniveau: (V)MBO1-2-3

Kandidaatbrochure met oefenvragen Opleidingsniveau: (V)MBO1-2-3 P E O P L E I M P R O V E P E R F O R M A N C E Kandidaatbrochure met oefenvragen Opleidingsniveau: (V)MBO1-2-3 1 van 37 / PiCompany 2005iMedia 2005 www.picompany.nl tel. 0346-55 90 10 0346-55 90 15 www.picompany.nl

Nadere informatie

TERUGBLIK CENTRAAL SCHRIFTELIJK EXAMEN tekenen, handvaardigheid en textiele vormgeving VWO EERSTE TIJDVAK 2013

TERUGBLIK CENTRAAL SCHRIFTELIJK EXAMEN tekenen, handvaardigheid en textiele vormgeving VWO EERSTE TIJDVAK 2013 TERUGBLIK CENTRAAL SCHRIFTELIJK EXAMEN tekenen, handvaardigheid en textiele vormgeving VWO EERSTE TIJDVAK 2013 Inleiding Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag

Nadere informatie

TOETSEN EN TOETSVRAGEN ANALYSEREN. E-merge Digitaal toetsen 2 november 2016

TOETSEN EN TOETSVRAGEN ANALYSEREN. E-merge Digitaal toetsen 2 november 2016 TOETSEN EN TOETSVRAGEN ANALYSEREN E-merge Digitaal toetsen 2 november 2016 INTRODUCTIE Sander Schenk Hogeschool Rotterdam sinds 1999 Instituut voor Financieel Management Docent manager beleidsadviseur

Nadere informatie

Criterium: Borging deskundigheid Een opleiding scoort voldoende op dit criterium wanneer de examinering overeenkomt met het volgende portret.

Criterium: Borging deskundigheid Een opleiding scoort voldoende op dit criterium wanneer de examinering overeenkomt met het volgende portret. Bijlage (Behorend bij de `Regeling standaarden examenkwaliteit MBO, van 31 januari 2009, kenmerk BVE-STELSEL/2009-97923) Inleiding Onderstaand worden 7 standaarden voor de examenkwaliteit gegeven. Bij

Nadere informatie

3. Een norm voor valide examenproducten norm voor valide examenproducten cesuur exameninstrumentarium

3. Een norm voor valide examenproducten norm voor valide examenproducten cesuur exameninstrumentarium Dit document is een onderdeel uit het advies Drie routes naar een valide examenproduct van mei 2016. De uitwerking van het advies vindt plaats vanaf augustus 2016 door de hiervoor aangestelde kwartiermaker

Nadere informatie

Paper beschrijft het probleem (de wens) en motiveert de keuze hiervoor, zij het enigszins schetsmatig.

Paper beschrijft het probleem (de wens) en motiveert de keuze hiervoor, zij het enigszins schetsmatig. Paper 1 Ontwerpplan Criterium Onvoldoende Voldoende Ruim voldoende Excellent Probleembeschrijving Paper maakt niet duidelijk welk probleem (welke wens) centraal staat en om welke reden. Paper beschrijft

Nadere informatie

INHOUD. Woord vooraf. P.F. Sanders en T.J.H.M. Eggen 1 Inleiding 1. N.H. Veldhuijzen en F.G.M. Kleintjes 2 Dataverzameling 17

INHOUD. Woord vooraf. P.F. Sanders en T.J.H.M. Eggen 1 Inleiding 1. N.H. Veldhuijzen en F.G.M. Kleintjes 2 Dataverzameling 17 INHOUD Woord vooraf P.F. Sanders en T.J.H.M. Eggen 1 Inleiding 1 1.1 Testindelingen 1 1.2 Toetsconstructie 3 1.3 Het valideren van meetinstrumenten 9 1.4 Psychometrie in de praktijk 12 N.H. Veldhuijzen

Nadere informatie

Beoordelingsmodel Profielwerkstuk Lyceum Elst Deel 1: onderzoeksvoorstel (havo/vwo)

Beoordelingsmodel Profielwerkstuk Lyceum Elst Deel 1: onderzoeksvoorstel (havo/vwo) Beoordelingsmodel Profielwerkstuk Lyceum Elst 2016-2017. Deel 1: onderzoeksvoorstel (havo/vwo) Afspraken Om te worden beoordeeld, moet worden voldaan aan de volgende voorwaarden: 1) Het onderzoeksvoorstel

Nadere informatie

VRAGENLIJST FORMATIEF TOETSEN DOCENT

VRAGENLIJST FORMATIEF TOETSEN DOCENT VRAGENLIJST FORMATIEF TOETSEN VRAGENLIJST FORMATIEF TOETSEN DOCENT EEN FEEDBACK INSTRUMENT VOOR DOCENTEN EEN FEEDBACK INSTRUMENT VOOR DOCENTEN CHRISTEL WOLTERINCK C.H.D.WOLTERINCK@UTWENTE.NL CHRISTEL C.H.D.WOLTERINCK@UTWENTE.NL

Nadere informatie

SAMENVATTING HET ONDERZOEK. Ankeronderzoek Muiswerk Testsuite 7 Nederlands 1F-2F-3F-4F

SAMENVATTING HET ONDERZOEK. Ankeronderzoek Muiswerk Testsuite 7 Nederlands 1F-2F-3F-4F SAMENVATTING De testen uit Muiswerk Testsuite 7 Nederlands 1F-2F-3F-4F zijn genormeerd met behulp van de ankertesten van het Ministerie van Onderwijs, Cultuur en Wetenschap. Een groot aantal leerlingen

Nadere informatie

Operationaliseren van variabelen (abstracte begrippen)

Operationaliseren van variabelen (abstracte begrippen) Operationaliseren van variabelen (abstracte begrippen) Tabel 1, schematisch overzicht van abstracte begrippen, variabelen, dimensies, indicatoren en items. (Voorbeeld is ontleend aan de masterscriptie

Nadere informatie

De Programma-matrix. http://www.programmamatrix.be/ Functie van de Programma-matrix

De Programma-matrix. http://www.programmamatrix.be/ Functie van de Programma-matrix De Programma-matrix Informatie over educatieve programma's kunnen wij terugvinden op de Programma-matrix. De Programma-matrix is een elektronische databank gemaakt in samenwerking met Nederland. De nieuwe

Nadere informatie

Product Informatie Blad - Taaltoets

Product Informatie Blad - Taaltoets Product Informatie Blad - Taaltoets PIB150-2010-Taaltoets Context In opdracht van het Ministerie van Onderwijs, Cultuur en Wetenschap (OCW) heeft de Commissie Meijerink onderzoek gedaan naar wat leerlingen

Nadere informatie

9 Het beoordelen van toetsscores. 9 Het beoordelen van toetsscores

9 Het beoordelen van toetsscores. 9 Het beoordelen van toetsscores 9 Het beoordelen van toetsscores 9 Het beoordelen van toetsscores 9 Het beoordelen van toetsscores Piet Sanders en Huub Verstralen Voor het antwoord op een vraag of de uitvoering van een opdracht ontvangen

Nadere informatie

Kandidaatbrochure met instructie en voorbeeldvragen. Opleidingsniveau: (V)MBO1-2-3

Kandidaatbrochure met instructie en voorbeeldvragen. Opleidingsniveau: (V)MBO1-2-3 P E O P L E I M P R O V E P E R F O R M A N C E Kandidaatbrochure met instructie en voorbeeldvragen Opleidingsniveau: (V)MBO1-2-3 1 van 32 / PiCompany 2005iMedia 2005 www.picompany.nl tel. 0346-55 90 10

Nadere informatie

Bijlage 3. Beoordelingscriteria onderzoeksplan

Bijlage 3. Beoordelingscriteria onderzoeksplan Bijlage 3. Beoordelingscriteria onderzoeksplan Naam student: Joost den Hollander Naam afstudeerbegeleider: Ceciel Zandee Naam tweede beoordelaar: Winifred paulis Datum: 9-0-05 Voorlopige titel onderzoek

Nadere informatie

Toolkit Onderwijs en Arbeidsmarkt (TOA)

Toolkit Onderwijs en Arbeidsmarkt (TOA) een beknopte toelichting op de Toolkit Onderwijs en Arbeidsmarkt (TOA) voor vo-scholen Spirit4you, december 2013 Inhoudsopgave 1. Inleiding... 3 1.1. Doel van dit document... 3 1.2. Vragen... 3 2. Wat

Nadere informatie

Het meetinstrument heeft betrekking op de volgende categorieën Lichaamsregio Hoofd / hals Overige, ongespecificeerd

Het meetinstrument heeft betrekking op de volgende categorieën Lichaamsregio Hoofd / hals Overige, ongespecificeerd Uitgebreide toelichting van het meetinstrument ComVoor Voorlopers in communicatie 31 oktober 2011 Review M. Jungen Invoer: E. van Engelen 1 Algemene gegevens Het meetinstrument heeft betrekking op de volgende

Nadere informatie

Kandidaatbrochure met instructie en voorbeeldvragen. Opleidingsniveau: MBO4-BA-MA

Kandidaatbrochure met instructie en voorbeeldvragen. Opleidingsniveau: MBO4-BA-MA P E O P L E I M P R O V E P E R F O R M A N C E Kandidaatbrochure met instructie en voorbeeldvragen Opleidingsniveau: MBO4-BA-MA 1 van 35 / PiCompany 2005iMedia 2005 www.picompany.nl tel. 0346-55 90 10

Nadere informatie

Interfacultaire Lerarenopleidingen, Universiteit van Amsterdam

Interfacultaire Lerarenopleidingen, Universiteit van Amsterdam Paper 3: Onderzoeksinstrumenten Aantal woorden (exclusief bijlage, literatuur en samenvatting): 581 Jeffrey de Jonker Naam auteur(s) Vakgebied Titel Onderwerp Opleiding Jeffrey de Jonker Biologie Differentiëren

Nadere informatie

Normen en waarderingen bij toetsen van Taal actief 3

Normen en waarderingen bij toetsen van Taal actief 3 Normen en waarderingen bij toetsen van Taal actief 3 door Geert Peeters Inleiding Taal actief geeft duidelijke normen aan bij de beoordeling van de toetsresultaten voor taal en spelling, maar die beoordelingen

Nadere informatie

Succesvolle toepassing van 360 graden feedback: De keuze van het 360 instrument en de voorbereiding op het 360 traject

Succesvolle toepassing van 360 graden feedback: De keuze van het 360 instrument en de voorbereiding op het 360 traject Succesvolle toepassing van 360 graden feedback: De keuze van het 360 instrument en de voorbereiding op het 360 traject Augustus 2011 Waar werknemers onderdeel zijn van een organisatie, wordt beoordeeld.

Nadere informatie

Beoordelingssysteem. voor de. Kwaliteit van Tests

Beoordelingssysteem. voor de. Kwaliteit van Tests Beoordelingssysteem voor de Kwaliteit van Tests Deel 2 * Ingekort en aangepast voor de opdracht Diagnostiek en Testtheorie COTAN, Commissie Testaangelegenheden Nederland van het Nederlands Instituut van

Nadere informatie

WERKSTUK Taalexpert PRIMO 2015-2016

WERKSTUK Taalexpert PRIMO 2015-2016 HANDLEIDING VOOR HET SCHRIJVEN VAN EEN WERKSTUK Taalexpert PRIMO 2015-2016 VIA VINCI ACADEMY 2015-1 - In het portfolio worden per module* werkstukken opgeslagen, welke door de docent positief zijn beoordeeld.

Nadere informatie

Tijdschrift voor Didactiek der B-wetenschappen 7 (1989) nr.1 79

Tijdschrift voor Didactiek der B-wetenschappen 7 (1989) nr.1 79 Tijdschrift voor Didactiek der B-wetenschappen 7 (1989) nr.1 79 Boekbespreking Techniek in het natuurkunde-onderwijs M.J. de Vries, Uitg.: Technische Universiteit Eindhoven, 1988 Dissertatie, 278 p. De

Nadere informatie

Taken en competenties gecertificeerde secretarissen en coördinatoren

Taken en competenties gecertificeerde secretarissen en coördinatoren Taken en competenties gecertificeerde secretarissen en coördinatoren NVAO 17 augustus 2010 Inhoud 1 Certificering 3 2 Taken en competenties 3 2.1 Rapport 3 2.2 Procesgang 4 2.3 Vaardigheden 5 3 Gedragscode

Nadere informatie

Raad voor Accreditatie (RvA) Accreditatie van monsterneming

Raad voor Accreditatie (RvA) Accreditatie van monsterneming Raad voor Accreditatie (RvA) Accreditatie van monsterneming Documentcode: RvA-T021-NL Versie 3, 27-2-2015 Een RvA-Toelichting beschrijft het beleid en/of de werkwijze van de RvA met betrekking tot een

Nadere informatie

Het meetinstrument heeft betrekking op de volgende categorieën Lichaamsregio Hoofd/ hals Overig, ongespecificeerd. Communicatie, Mentale functies

Het meetinstrument heeft betrekking op de volgende categorieën Lichaamsregio Hoofd/ hals Overig, ongespecificeerd. Communicatie, Mentale functies Uitgebreide toelichting van het meetinstrument Nederlandstalige NonSpeech test (NNST) 4 november 2011 Review: M. Jungen Invoer: E. van Engelen 1 Algemene gegevens Het meetinstrument heeft betrekking op

Nadere informatie