RCEC BEOORDELINGSSYSTEEM VOOR DE KWALITEIT VAN STUDIETOETSEN EN EXAMENS



Vergelijkbare documenten
Criterium: Borging deskundigheid Een opleiding scoort voldoende op dit criterium wanneer de examinering overeenkomt met het volgende portret.

p/a Structuurbaan 2, 3439 MB Nieuwegein Let op: ook invullen in voettekst vanaf blz. 2. Let op: ook invullen in voettekst vanaf blz. 2.

DE EINDHOVENSE SCHOOL ONDERZOEK KWALITEITSVERBETERING EXAMINERING

Zelfevaluatie-instrument

MetaB-instrument exameninstrumenten, gebaseerd op de 'Normenbundel exameninstrumenten', versie januari 2014

TERUGBLIK CENTRAAL EXAMEN MUZIEK gltl EERSTE TIJDVAK 2016

3. Een norm voor valide examenproducten norm voor valide examenproducten cesuur exameninstrumentarium

Toetsbekwaamheid BKE november 2016

Officiële uitgave van het Koninkrijk der Nederlanden sinds 1814.

TERUGBLIK CENTRAAL EXAMEN WISKUNDE B VWO EERSTE TIJDVAK 2014

Toetsen voor de Moderne Vreemde Talen en het Nederlands

Inleiding. Bijlage 2: Meetlat Toetscyclus

TERUGBLIK CENTRAAL EXAMEN NASK 1 VMBO EERSTE TIJDVAK 2013

TERUGBLIK CENTRAAL EXAMEN ENGELS VMBO GT/TL

TERUGBLIK CENTRAAL EXAMEN BIOLOGIE VWO EERSTE TIJDVAK 2016

Naam Examenleverancier. Beoordeling audit examinering Rapportage inkoopaudit examenproducten en diensten op examinering

LANDSTEDE ONDERZOEK NAAR KWALITEITSVERBETERING EXAMINERING

De producteisen uit de norm voor valide exameninstrumenten

TERUGBLIK CENTRAAL EXAMEN ECONOMIE VMBO GT EERSTE TIJDVAK 2017

Naam Examenleverancier

Naam Examenleverancier

Naam Examenleverancier

Naam Examenleverancier

Naam Examenleverancier

Toetsing Organisatieaudit Product Dienst

Uitgeverij Deviant ONDERZOEK KWALITEIT EXAMENINSTRUMENTEN EXAMENLEVERANCIERS 2009

Naam Examenleverancier

Over werken met Examens Dienstverlening/ Vaststellingsformulier

TERUGBLIK CENTRAAL EXAMEN ECONOMIE HAVO EERSTE TIJDVAK 2013

Toetsing Organisatieaudit Product Dienst

Toetsing Organisatieaudit Product Dienst

Naam Examenleverancier

titel Examen Nederlands [vaardigheden en niveaus]

Toetsing Organisatieaudit Product Dienst

Toetsing Organisatieaudit Product Dienst

De producteisen uit de norm voor valide exameninstrumenten

Kwaliteitsonderzoek mbo Examinering en diplomering

4 Werken met beoordelingsmodellen voor productieve vaardigheden

Instructie Praktijkopleider of BPV Beoordelaar

STICHTING STC-GROUP BEOORDELING KWALITEIT EXAMINERING

Grafisch Lyceum Rotterdam ONDERZOEK KWALITEIT EXAMINERING 2009

Naam Examenleverancier

KWALITEITSONDERZOEK MBO. Instituut Memo te Amersfoort

TERUGBLIK CENTRAAL EXAMEN NATUURKUNDE VWO

Toetsing Organisatieaudit Product Dienst. Indien er sprake is van het toetsen van een product: Crebonummer : Is er sprake van een Kadertoets

Nederlands - vwo: vakspecifieke informatie centraal examen 2019

Best Alert ONDERZOEK KWALITEITSVERBETERING EXAMINERING

TERUGBLIK CENTRAAL EXAMEN SPAANS VWO

Naam Examenleverancier :

TERUGBLIK CENRAAL EXAMEN MAATSCHAPPIJLEER II VMBO GL/TL

Examenreglement. Da Vinci College

Het construeren van examenprojecten, een hele opgave

RAPPORT VAN BEVINDINGEN. Kwaliteitsonderzoek examinering en diplomering middelbaar beroepsonderwijs bij. Saba Comprehensive School

Ontwerpen van een instrument voor de collegiale screening van kennistoetsen

Naam Examenleverancier

Berechja College ONDERZOEK KWALITEIT EXAMINERING

Toetsing Organisatieaudit Product Dienst

TERUGBLIK CENTRAAL EXAMEN NEDERLANDS HAVO

Vaststellingsformulier beroepsspecifiek examen Bijlage 6

Stichting Examenservice MEI Workshop Construeren vanuit de ogen van de vaststeller

Toetsing Organisatieaudit Product Dienst

Toetsing Organisatieaudit Product Dienst. Indien er sprake is van het toetsen van een product: Crebonummer : Is er sprake van een Kadertoets

Kwaliteitseisen. 4.1 Praktijk Reflectie Kwaliteitseisen voor toetsing Portfolio 30

DOMEIN ZORG, WELZIJN, SPORT & BEWEGEN EN VEILIGHEID INSTRUCTIE VOOR ASSESSOREN VAN HET PRAKTIJKEXAMEN

TERUGBLIK CENTRAAL EXAMEN FRANS EERSTE TIJDVAK 2016

Examenprofiel mbo Schilderen en Onderhoud en Afbouw

Nederlands - havo: vakspecifieke informatie centraal examen 2019

Kwantitatieve analyse toetskwaliteit

Examenorganisatie SVPB ONDERZOEK KWALITEIT EXAMINERING

Liesbeth Baartman & Raymond Kloppenburg, Hogeschool Utrecht, januari 2013

TERUGBLIK CENTRAAL EXAMEN BIOLOGIE VWO

TERUGBLIK CENTRAAL EXAMEN GESCHIEDENIS VWO

Nederlands - vwo: vakspecifieke informatie centraal examen 2018

TERUGBLIK CENTRAAL EXAMEN BIOLOGIE HAVO EERSTE TIJDVAK 2015

5.1. Eindtermen, toetstermen en toetsmatrijs Basis competentieprofiel Inspecteur Elektrische Arbeidsmiddelen

Officiële uitgave van het Koninkrijk der Nederlanden sinds Gelet op artikel 2, vijfde lid, onderdeel c Wet College voor toetsen en examens;

Toetsreglement Nederlands Genootschap voor Sportmassage (NGS)

Toetsvormen. Onderwijsmiddag 14 februari 2012 Ferdi Engels & Gerrit Heil toetsadviescommissie

Examenreglement competentiegerichte opleidingen. Da Vinci College

Wat betekent het twee examens aan elkaar te equivaleren?

KIT Plus, borgingsinstrument voor examencommissies

TERUGBLIK CENTRAAL EXAMEN GESCHIEDENIS VWO EERSTE TIJDVAK 2015

WHITEPAPER GEBRUIKEN VAN BEOORDELINGSSCHALEN VOOR OPDRACHTEN BEOORDELINGSSCHALEN VOOR CHECKLISTS EN RUBRICS, 24 VOORBEELDEN HOE GEBRUIK JE ZE?

Beoordelingsvoorschift

COTAN: kwaliteit van tests en testgebruik

Stappenplan voor het vullen van een rubric

TERUGBLIK CENTRAAL EXAMEN SCHEIKUNDE VWO EERSTE TIJDVAK 2013

Toetskwaliteit is jouw verantwoordelijkheid. Bernard Veldkamp en Theo Eggen Conferentie Servicepunt examinering mbo Maart 2014

ROC Westerschelde ONDERZOEK KWALITEIT EXAMINERING

Mediacollege Amsterdam ONDERZOEK KWALITEIT EXAMINERING 2009

Onafhankelijke Partner in Kwaliteit

Rapport 834 Oud, W., & Emmelot, Y. (2010). De visitatieprocedure cultuurprofielscholen. Amsterdam: Kohnstamm Instituut.

EXAMENREGELEMENT Versie en ingangsdatum 19 maart 2015

TERUGBLIK CENTRAAL EXAMEN ENGELS HAVO EERSTE TIJDVAK 2013

ROC Eindhoven ONDERZOEK KWALITEIT EXAMINERING DIPLOMA-ROUTE GASTOUDERS 2010

Examenreglement MBO Utrecht

Model vastgesteld door de Algemene leden vergadering van NOC*NSF op 20 november 2007.

Model vastgesteld door de Algemene leden vergadering van NOC*NSF op 20 november 2007.

Examenreglement. Da Vinci College

Transcriptie:

RCEC BEOORDELINGSSYSTEEM VOOR DE KWALITEIT VAN STUDIETOETSEN EN EXAMENS RCEC Concept, juni 2015

Inleiding Voor de beoordeling van de kwaliteit van toetsen en examens worden in Nederland momenteel drie beoordelingssystemen gebruikt. Het eerste beoordelingssysteem is het Beoordelingssysteem voor de kwaliteit van tests van de Commissie Testaangelegenheden Nederland (COTAN). De COTAN gebruikt dit systeem om psychologische tests en studietoetsen te beoordelen die door testuitgeverijen op de markt worden gebracht. Het tweede beoordelingssysteem betreft de Regeling standaarden examenkwaliteit mbo 2012. De Inspectie van het Onderwijs beoordeelt hiermee de examens van het middelbaar beroepsonderwijs. Het derde beoordelingssysteem is het NVAO accreditatiekader. Hiermee wordt de toetsing en examinering in het hoger onderwijs beoordeeld. De resultaten van de beoordelingen met deze beoordelingssystemen hebben consequenties voor organisaties die toetsen en examens gebruiken. Zo mag doorverwijzing van kandidaten naar het leerwegondersteunende onderwijs en het praktijkonderwijs volgens voorschrijving van het Ministerie van OCW alleen gebeuren met behulp van toetsen die op door de COTAN onderscheiden zeven beoordelingscriteria als voldoende zijn beoordeeld. Voor het middelbaar beroepsonderwijs geldt dat opleidingen hun examenlicentie kunnen kwijtraken indien de examens van onvoldoende kwaliteit zijn volgens de standaarden die de Inspectie van het Onderwijs voor examenkwaliteit hanteert. Voor het hoger onderwijs geldt dat opleidingen hun accreditatie kunnen verliezen als de toetsing of examinering van onvoldoende kwaliteit is. Hoewel er grote overeenkomsten tussen toetsen en examens bestaan, zijn er ook verschillen. Die verschillen worden verwoord door de definities ontleend aan de Toetstechnische begrippenlijst van Cito. De definitie van (studie)toets luidt: Een toets is een instrument voor het meten van iemands kennis en vaardigheden (praktische vaardigheden en houdingen) die door middel van studie en/of onderwijs op een of ander vakgebied zijn verworven. Het is belangrijk op te merken dat met studietoetsen niet psychologische tests of beroepeninteressetests bedoeld worden. De definitie van examen luidt: Een examen is een door een daartoe bevoegde instantie ingesteld onderzoek naar kennis, inzicht, houding en vaardigheden van een kandidaat, die over een samenhangend geheel van leergebieden, aan de hand van hem verstrekte opdrachten een aantal prestaties moet leveren, op grond waarvan hem met inachtneming van bepaalde prestatie-eisen en beslissingsregels een bewijs kan worden uitgereikt waaraan bepaalde rechten of bevoegdheden kunnen worden ontleend. Het RCEC beoordelingssysteem voor de kwaliteit van studietoetsen en examens is ontwikkeld om zowel de kwaliteit van studietoetsen, examens als van praktijkexamens te kunnen beoordelen. RCEC staat voor Research Center voor Examinering en Certificering. Het RCEC beoordelingssysteem verschilt van het beoordelingssysteem van de COTAN dat bedoeld is voor het beoordelen van de kwaliteit van psychologische tests en studietoetsen, maar niet voor het beoordelen van de kwaliteit van examens. Het verschilt van de Regeling standaarden examenkwaliteit mbo 2012, omdat dat beoordelingssysteem specifiek ontwikkeld is voor het beoordelen van de kwaliteit van (praktijk)examens die afgenomen worden in het middelbaar beroepsonderwijs. Het verschilt ook van het NVAO accreditatiekader, omdat dat specifiek ontwikkeld is voor de beoordeling van toetsing en examinering in het hoger onderwijs. Het RCEC beoordelingssysteem sluit qua opzet en inhoud aan bij het beoordelingssysteem van de COTAN. Dit betekent dat ook het RCEC beoordelingssysteem een opzet heeft, waarbij onderscheiden beoordelingscriteria op basis van de antwoorden op vragen als goed, voldoende of onvoldoende beoordeeld worden. Wat betreft de inhoud geldt dat een aantal criteria en de bijbehorende aanwijzingen bij de vragen (soms nagenoeg letterlijk) zijn overgenomen. In de aanwijzingen bij deze vragen wordt echter in voorkomende gevallen ook ingegaan op zaken die met name bij examens een rol spelen. Het RCEC beoordelingssysteem is in de eerste plaats bedoeld om de kwaliteit van studietoetsen en examens te beoordelen met door het RCEC gecertificeerde auditoren. Daarnaast kan het RCEC beoordelingssysteem betrokkenen bij toetsing en examinering helpen bij het construeren van toetsen en examens die voldoen aan de eisen die aan studietoetsen en examens gesteld worden. Bovendien kan het gebruikers van studietoetsen en examens, zoals docenten, schoolorganisaties en examencommissies, helpen bij het beoordelen en selecteren van studietoetsen en examens die van goede kwaliteit zijn. 2

Het RCEC beoordelingssysteem hanteert zes criteria voor de beoordeling van de kwaliteit van een toets of examen: Criterium 1: Doel en gebruik. Criterium 2: Toets- en examenmateriaal. Criterium 3: Representativiteit. Criterium 4: Betrouwbaarheid. Criterium 5: Standaardbepaling en normhandhaving. Criterium 6: Afname en beveiliging. Elk criterium wordt beoordeeld door middel van (basis)vragen die als goed (score 3), voldoende (score 2) en onvoldoende (score 1) beoordeeld en gescoord worden. Op basis van de scores op de onderscheiden vragen wordt een criterium als goed, voldoende of onvoldoende beoordeeld. Een onvoldoende score op een basisvraag betekent dat het criterium als onvoldoende beoordeeld wordt en dat men de resterende vragen bij dit criterium kan overslaan. Wat betreft het gebruik van het RCEC beoordelingssysteem, is het RCEC van mening dat alleen door het RCEC gecertificeerde auditoren een verantwoord oordeel over de kwaliteit van toetsen en examens kunnen geven. De beoordelingsprocedure verloopt als volgt: twee onafhankelijk auditoren zullen met behulp van de ter beschikking gestelde documentatie een oordeel geven over de zes criteria uit het beoordelingssysteem. Per onderdeel zal een rapportage plaatsvinden met een eindoordeel op de criteria. Eventuele negatieve oordelen zullen worden gemotiveerd. De beoordeling is vervolgens vijf jaar geldig, mits de opzet van de toets of het examen niet verandert. De auteur van het RCEC beoordelingssysteem is Piet Sanders, werkzaam bij het RCEC. De oorspronkelijke tekst is door diverse personen voorzien van commentaar dat de auteur in de huidige tekst verwerkt heeft, met name Peter van Dijk, werkzaam bij ex:plain, Theo Eggen, Dorien den Otter en Bernard Veldkamp, werkzaam bij het RCEC. Opmerkingen over het beoordelingssysteem kunt u sturen naar het secretariaat van het RCEC, www.rcec.nl. Ontwikkelingen op het gebied van studietoetsen en examens gaan snel. Dit betekent dat het onderhavige beoordelingssysteem regelmatig aangepast zal en moet worden 3

1 DOEL EN GEBRUIK Bij dit criterium wordt beoordeeld of het doel en het gebruik van de toets is aangegeven. Met andere woorden, is duidelijk wat we toetsen en waarom we dat doen? Het doel van toetsen en examens is te beoordelen of kandidaten over de vereiste kennis, vaardigheden of houdingen beschikken. Het gebruik van toetsen en examens betreft de beslissingen die genomen worden op basis van de door de kandidaten behaalde resultaten op toetsen en examens. CRITERIUM 1: DOEL EN GEBRUIK O V G 1.1 Is aangegeven wat de doelgroep(en) van de toets of het 1 2 3 examen is (zijn)? Bij onvoldoende beoordeling kan men de twee andere vragen van dit criterium overslaan en doorgaan met criterium 2. 1.2 Is aangegeven wat het meetdoel van de toets of het 1 2 3 examen is? Bij onvoldoende beoordeling kan men basisvraag 3 van dit criterium overslaan en doorgaan met criterium 2. 1.3 Is aangegeven wat het gebruiksdoel van de toets of het examen is? 1 3 Aanwijzingen bij basisvraag 1.1: Is aangegeven wat de doelgroep(en) van de toets of het examen is (zijn)? Het aangeven van de doelgroep kan beperkt blijven tot het benoemen van de opleiding waarvoor de toets wordt ingezet. Daarnaast zal in voorkomende gevallen ook het aangeven van de leeftijd, het beroep, het opleidingsniveau of de relevante voorkennis van kandidaten van belang zijn om de doelgroep te definiëren. Deze informatie kan onder andere van belang zijn bij het beoordelen van de inhoud van de toets of het examen zoals het taalgebruik en de gehanteerde normen of cesuren. Beoordeling van basisvraag 1.1: De (opleiding van de) doelgroep is niet vermeld. De opleiding waarvoor de toets wordt ingezet, is vermeld. Naast de opleiding is ook andere mogelijk relevante informatie over de kandidaten vermeld zoals hun leeftijd, beroep, opleidingsniveau of relevante voorkennis. Aanwijzingen bij basisvraag 1.2: Is aangegeven wat het meetdoel van de toets of het examen is? Een toets of examen moet vaststellen wat kandidaten na afloop van een onderwijstraject of een EVCtraject wel en niet beheersen. Wat de kandidaten geacht worden te beheersen, kan onder andere aangegeven worden als: De beheersing van een bepaald construct (bijvoorbeeld leesvaardigheid ). De beheersing van een exameneenheid van een examenprogramma (bijvoorbeeld de exameneenheid havo-examen wiskunde ). De beheersing van een kerntaak, beroepstaak of werkproces (bijvoorbeeld uit een mbokwalificatiedossier). De beheersing van een competentie (bijvoorbeeld de competentie analyseren van een assistent-drogist). Bij deze vraag is het van belang dat de relevantie van de inhoud van de toets of het examen voor het beoogde meetdoel aannemelijk is gemaakt. Daarbij kan bijvoorbeeld een toetsmatrijs van de toets of het examen goede diensten bewijzen. 4

Beoordeling basisvraag 1.2: Het meetdoel is niet vermeld. Het meetdoel is vermeld. Het meetdoel is vermeld, waarbij zaken zoals een gedetailleerde beschrijving van constructen/ competenties /kerntaken/exameneenheden, een toetsmatrijs of een verwijzing naar relevante brondocumenten is toegevoegd. Aanwijzingen bij basisvraag 1.3: Is aangegeven wat het gebruiksdoel van de toets of het examen is? Een toets of examen kan gebruikt worden voor: Selectie: Afhankelijk van het toets- of examenresultaat wordt een leerling wel of niet toegelaten tot een opleiding. Classificatie: Afhankelijk van het toets- of examenresultaat volgen leerlingen verschillende onderwijsprogramma s die tot verschillende diploma s of certificaten leiden (bijvoorbeeld de Eindtoets voor het basisonderwijs van Cito). Plaatsing: Afhankelijk van het toets- of examenresultaat volgen leerlingen verschillende onderwijsprogramma s die tot hetzelfde certificaat of diploma leiden (bijvoorbeeld een zelfbeoordeling t.b.v. BOL- of BBL-leerweg bij het mbo-onderwijs). Certificering of diplomering: Afhankelijk van het toets- of examenresultaat wordt wel of niet een diploma of certificaat verstrekt. Een ander gebruiksdoel van toetsen dat in de onderwijskundige literatuur opgang doet, betreft de drie benaderingen van formatief assessment: data-based decision making (DBDM, in de Nederlandse literatuur opbrengstgericht werken (OWG) genoemd, assessment for learning (AfL; in de Nederlandse literatuur ook wel toetsing of evaluatie van het leren genoemd) en diagnostische toetsen (DT). Ook deze toetsen kunnen met het RCEC beoordelingsmodel beoordeeld worden. Voor meer informatie over formatief assessment, zie het proefschrift van Van der Kleij (2013). Dit proefschrift kan via de website van het RCEC gedownload worden (www.rcec.nl). Beoordeling basisvraag 1.3: Het gebruiksdoel is niet genoemd. Het gebruiksdoel is genoemd. EINDOORDEEL CRITERIUM 1: DOEL EN GEBRUIK Somscore basisvragen 1.1 t/m 1.3 = 8 of 9 Somscore basisvragen 1.1 t/m 1.3 = 7 Somscore basisvragen 1.1 t/m 1.3 6 * Score 1 voor één van de basisvragen is niet toegestaan. * 5

2 TOETS- OF EXAMENMATERIAAL Bij dit criterium gaat het om de kwaliteit van het toetsmateriaal: de opgaven of opdrachten, de instructies voor de kandidaten en beoordelaars en het beoordelaarsinstrumentarium. Voor een zinvolle interpretatie van de scores dient een toets zo afgenomen en gescoord te worden, dat er geen onbedoelde factoren invloed uitoefenen op de scores. Daarom moeten bijvoorbeeld de afname en instructie gestandaardiseerd zijn. Dit criterium heeft betrekking op schriftelijke en digitale toetsen met gesloten en/of open vragen en op (praktijk)opdrachten. Bij gesloten of (meervoudige) meerkeuzevragen moet de kandidaat het goede antwoord (of de goede antwoorden) selecteren, bij open vragen het goede antwoord (of de goede antwoorden) formuleren en bij een (praktijk)examen de praktijkopdrachten uitvoeren. Voor de beoordeling van een schriftelijke toets of examen, dient men te beginnen bij vraag 2.1. Voor de beoordeling van een computertoets of examen dient men te beginnen bij vraag 2.8. Indien er van de toets zowel een schriftelijke als digitale versie bestaat, dient de kwaliteit van het toetsmateriaal van beide versies te worden beoordeeld. In dat geval zijn de vragen en de instructies van beide versies identiek. Bij ongelijke vragen of instructies heeft men in feite met twee verschillende toetsen of examens te maken en dienen beide apart beoordeeld te worden. CRITERIUM 2: TOETS - OF EXAMENMATERIAAL O V G SCHRIFTELIJKE TOETS OF EXAMEN 2.1 Zijn de vragen of opdrachten gestandaardiseerd? 1 3 Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan en doorgaan met criterium 3. 2.2 a. Is er sprake van een geautomatiseerd of objectief scoringssysteem, en/of b. als de scoring door beoordelaars gebeurt, is dan het 1 1 2 2 3 3 beoordelingsvoorschrift volledig en duidelijk? Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan en doorgaan met criterium 3. 2.3 Zijn de vragen of praktijkopdrachten, het toets- of 1 3 examenboekje, de antwoordschalen en/of het antwoordformulier zodanig ontworpen dat fouten bij de invulling voorkomen worden? 2.4 Is het scoringssysteem zodanig ontworpen en beschreven 1 3 dat fouten bij de scoring voorkomen worden? 2.5 Is de instructie voor de kandidaat volledig en duidelijk? 1 2 3 2.6 Zijn de vragen of opdrachten correct geformuleerd? 1 2 3 2.7 Hoe is de kwaliteit van de lay-out en vormgeving van de toets of het examen? 1 2 3 CRITERIUM 2: TOETS - OF EXAMENMATERIAAL O V G COMPUTERTOETS OF COMPUTEREXAMEN 2.8 Zijn de vragen gestandaardiseerd? 1 3 Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan en doorgaan met criterium 3. 2.9 Is er sprake van een geautomatiseerd of objectief 1 2 3 scoringssysteem? Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan en doorgaan met criterium 3. 2.10 Is de software zodanig ontworpen dat fouten door onjuist 1 2 3 gebruik voorkomen worden? 2.11 Is de instructie voor de kandidaat volledig en duidelijk? 1 2 3 2.12 Zijn de vragen correct geformuleerd? 1 2 3 6

2.13 Hoe is de kwaliteit van de vormgeving van de gebruikersinterface? 1 3 AFNAME VIA SCHRIFTELIJK(E) TOETS/EXAMEN OF PRAKTIJKTOETS/EXAMEN Aanwijzingen bij basisvraag 2.1: Zijn de vragen of praktijkopdrachten gestandaardiseerd? Vragen of (praktijk)opdrachten zijn gestandaardiseerd wanneer de vragen of opdrachten voor wat betreft inhoud en vorm voor iedereen hetzelfde zijn. Dit is belangrijk om scores te interpreteren en te vergelijken. Daarom moet men bij meerkeuzevragen de volgorde van de alternatieven niet variëren. Uit onderzoek is namelijk gebleken dat dit invloed heeft op de scores van de kandidaten. Bij praktijktoetsen zal volledige standaardisatie van de opdrachten niet mogelijk zijn. In dergelijke gevallen is het van belang dat de randvoorwaarden duidelijk aangeven waaraan de opdrachten moeten voldoen zodat verschillen in complexiteit en inhoud van opdrachten worden voorkomen. Als in de toets gebruik wordt gemaakt van rolspelers moet de dialoog en/of interactie tussen kandidaat en rolspeler zo volledig en eenduidig als mogelijk zijn vastgelegd. Beoordeling basisvraag 2.1: De vragen zijn niet voor iedereen hetzelfde wat betreft vorm en inhoud. De vragen zijn voor iedereen hetzelfde wat betreft vorm en inhoud. Aanwijzingen bij basisvraag 2.2a: Is er sprake van een objectief scoringssysteem? Onder een scoringssysteem verstaan we het toekennen van scores aan de responsen (zoals antwoorden op vragen, resultaten van opdrachten en/of de getoonde attitude), het sommeren van de scores en het omzetten van deze somscores in waarderingen of cijfers. Bij een objectief scoringssysteem zijn de scores voor alle mogelijke responsen van kandidaten zodanig vastgelegd dat elke beoordelaar, afgezien van mogelijke administratieve fouten, tot dezelfde score zal komen. Het scoringssysteem is per definitie objectief indien de scoring volledig is geautomatiseerd. Voor een handmatige objectieve scoring is de aanwezigheid van een antwoordmodel, een scoringsvoorschrift, een beoordelaarsinstructie en een omzettingstabel van scores naar waarderingen of cijfers noodzakelijk. Voor objectieve scoring bij open vragen moet verder ook sprake zijn van eenduidige antwoorden en eenduidige informatie over de deelscores die aan gedeeltelijk goede antwoorden gegeven moeten worden. Om mogelijke fouten in de handmatige scoring te voorkomen, is het aan te raden om gebruik te maken van een apart antwoordformulier. Beoordeling basisvraag 2.2a: Er is geen sprake van een (objectief) scoringssysteem. Er is een (objectief) scoringssysteem aanwezig. Er is een (objectief) scoringssysteem aanwezig en een verantwoording van de verdeling van de toe te kennen scores is bijgevoegd. Aanwijzingen bij basisvraag 2.2b: Als de scoring door beoordelaars gebeurt, is dan het beoordelingsvoorschrift volledig en eenduidig? Indien er geen sprake is van een objectief scoringssysteem is een eenduidige beoordelingsprocedure noodzakelijk om de objectiviteit en standaardisatie van de beoordelingen te waarborgen. Dit is bijvoorbeeld het geval bij (praktijk)toetsen. Hier beoordeelt en scoort een beoordelaar de praktijkobservaties of de resultaten op opdrachten of essayvragen. De beoordelaars moeten beschikken over duidelijke beoordelingscriteria, beoordelaarsinstructies, modelantwoorden en bijbehorende scorings- en wegingsvoorschriften. Dit moet duidelijkheid verschaffen over de uitvoering van de beoordeling en over de score of waardering die een bepaalde respons krijgt. Daarnaast moet zijn vastgelegd hoe de waarderingen of scores op (deel)opdrachten 7

leiden tot een eindoordeel. Verder moet zijn aangegeven hoe met verschillen tussen beoordelaars wordt omgegaan indien de beoordeling door meer beoordelaars wordt uitgevoerd. Als objectieve beoordeling niet mogelijk is, zullen beoordelaars geselecteerd en getraind moeten worden. Vandaar dat voor een positieve beoordeling op dit aspect ook de selectiecriteria en de aard en de inhoud van de training voor de beoordelaars dient te zijn omschreven. Beoordeling basisvraag 2.2b: Er is geen sprake van een (objectief) scoringssysteem. Er is een (objectief) scoringssysteem aanwezig, waarbij (indien relevant) de beoordelingscriteria, de beoordelaarsinstructies, modelantwoorden, bijbehorende scorings- en wegingsvoorschriften en de procedure om te komen tot het eindoordeel zijn beschreven. Er is een (objectief) scoringssysteem aanwezig, waarbij (indien relevant) de beoordelingscriteria, de beoordelaarsinstructies, modelantwoorden, bijbehorende scorings- en wegingsvoorschriften en de procedure om te komen tot het eindoordeel zijn beschreven. Daarnaast is er omschreven hoe er wordt omgegaan met verschillen tussen beoordelaars en hoe de beoordelaars worden getraind. Aanwijzingen bij vraag 2.3: Zijn de vragen, het toets- of het examenboekje, de antwoordschalen en het antwoordformulier zodanig ontworpen dat fouten bij de invulling kunnen worden vermeden? Wanneer van aparte antwoordformulieren gebruik wordt gemaakt, dienen deze zo te zijn ontworpen dat vergissingen, zoals een vraag overslaan, worden voorkomen en snel door de kandidaat worden ontdekt. Beoordeling vraag 2.3: De vragen, het toets- of het examenboekje, de antwoordschalen of het antwoordformulier geven onduidelijkheid en kunnen snel tot fouten leiden. De vragen, het toets- of het examenboekje, de antwoordschalen en het antwoordformulier zijn helder. Fouten bij invulling worden vermeden. Aanwijzingen bij vraag 2.4: Is het scoringssysteem zodanig ontworpen en beschreven dat fouten bij de scoring voorkomen worden? Bij deze vraag moet onder andere worden gelet op de volgende punten: De scoringsprocedure dient duidelijk te zijn omschreven. Indien van scoringsmallen gebruik wordt gemaakt, moet zijn aangegeven hoe deze op de antwoordformulieren moeten worden gelegd. De mallen moeten bovendien goed passen op de antwoordformulieren. Indien van scoringsmallen gebruik wordt gemaakt, moet op de mallen zijn aangegeven bij welke versie van de toets of het examen ze horen. Vermeld moet worden welke score aan overgeslagen vragen of praktijkopdrachten moet worden toegekend. Indien de toets of het examen van beoordelaars gebruikmaakt, moet zijn aangegeven hoe men met verschillen tussen beoordelaars moet omgaan. De voorkeur gaat naar een apart antwoordformulier boven het scoren van verschillende bladzijden in een examenboekje. Een apart antwoordformulier voorkomt eerder mogelijke fouten in de scoring. Bij examens die schriftelijk worden afgenomen maar op een computer worden gescoord, dient de auditor de scoring te kunnen controleren (zie vraag 2.10). 8

Beoordeling vraag 2.4: Er is geen (volledige) beschrijving van de scoringsprocedure. Er is een beschrijving van de scoringsprocedure, waarin de relevante punten zijn vermeld. Aanwijzingen bij vraag 2.5: Is de instructie voor de kandidaat volledig en duidelijk? Instructie kan onderscheiden worden in instructie voor de kandidaat en instructie voor de surveillant (voor functieprofiel surveillant zie www.nvexamens.nl). De kwaliteit van de instructies voor de kandidaat wordt in deze vraag beoordeeld, over de kwaliteit van de instructies voor de surveillant wordt in vraag 6.1.a een oordeel gevraagd. De instructies of aanwijzingen voor de kandidaat zijn een onderdeel van het toets- of examenmateriaal en vormen in het algemeen de eerste bladzijde(n) van het toets- of examenboekje. De instructie dient te zijn gestandaardiseerd en in gangbaar Nederlands te zijn opgesteld. De volgende informatie dient minimaal in de instructie te zijn opgenomen: het aantal vragen of opdrachten; de wijze waarop antwoorden gegeven of genoteerd moeten worden en welke responses op (deel)opdrachten verwacht worden; de (deel)score per vraag of opdracht, de maximaal te behalen score en de cesuur; de toegestane en beschikbare hulpmiddelen; de beschikbare tijd en wat ingeleverd moet worden bij afronding van de toets of het examen; de beoordelingspunten bij open vragen of opdrachten; de uitvoerings- en beoordelingsprocedure bij praktijktoetsen. Beoordeling vraag 2.5: Er is geen (gestandaardiseerde) instructie voor de kandidaat. Er is een in gangbaar Nederlands opgestelde gestandaardiseerde instructie voor de kandidaat. De in gangbaar Nederlands opgestelde gestandaardiseerde instructie bevat alle onderstaande informatie: het aantal vragen of opdrachten de wijze waarop antwoorden gegeven of genoteerd moeten worden en welke responses op (deel)opdrachten verwacht worden de (deel)score per vraag of opdracht, de maximaal te behalen score en de cesuur de toegestane en beschikbare hulpmiddelen de beschikbare tijd en wat ingeleverd moet worden bij afronding van de toets of het examen de beoordelingspunten bij open vragen of opdrachten de uitvoerings- en beoordelingsprocedure bij praktijktoetsen Aanwijzingen bij vraag 2.6: Zijn de vragen of praktijkopdrachten correct geformuleerd? In de literatuur met betrekking tot de constructie van gesloten en open vragen treft men velerlei voorschriften aan voor de formulering van de vragen. De voorschriften voor open vragen gelden in het algemeen ook voor praktijkopdrachten die kandidaten veelal in schriftelijke vorm ontvangen. Hieronder volgt een - overigens niet-uitputtende - opsomming van regels waarop men bij de formulering van vragen dient te letten. Deze regels zijn grotendeels ontleend aan de hoofdstukken 6 en 7 uit Toetsen op School, zie www.toetsenopschool.nl. Waar van toepassing, gelden onderstaande voorschriften ook voor computerexamens - zie vraag 2.12. 9

Gesloten vragen De stam: bevat maar één vraag; bevat alle benodigde/relevante informatie voor beantwoording van de vraag; bevat geen overbodige informatie (behalve als selectie van informatie het doel is); is niet voor meerdere interpretaties vatbaar; bestaat niet uit meerdere stellingen; bevat geen dummyvraag of wat is juist vraag; bevat geen aanvulzin of invulzin (uitgezonderd bij bijvoorbeeld een cloze-toets); vraagt niet naar een mening (zoals Wat vind jij? of Wat zou je doen als? ); bevat geen strikvraag; is positief geformuleerd, eventuele ontkenningen zijn duidelijk gemarkeerd; bevat geen (taalkundige) aanwijzingen richting het goede antwoord; (of alternatieven) zijn vrij van racistische, etnocentrische, seksistische en voor bepaalde bevolkingsgroepen kwetsende inhoud; (of alternatieven) bevatten geen absolute of vage formuleringen (zoals altijd, nooit, soms ). De alternatieven: geven allemaal een antwoord op de vraag; één alternatief is duidelijk het juiste antwoord en de afleiders misleiden niet; bevatten geen dummy alternatieven (zoals alle of geen van bovenstaande alternatieven zijn juist ); overlappen elkaar niet en sluiten elkaar uit; zijn allemaal plausibel; sluiten qua grammatica en inhoud aan op de vraag uit de stam; zijn qua lengte en specificiteit ongeveer gelijk; zijn qua woordgebruik, grammaticale constructie en formulering onderling vergelijkbaar; zijn positief geformuleerd, eventuele ontkenningen zijn duidelijk gemarkeerd. staan in een logische volgorde; drie alternatieven hebben de voorkeur. Gesloten en open vragen/opdrachten Taalgebruik Het taalniveau is afgestemd op de doelgroep. De zinnen zijn grammaticaal juist met de juiste interpunctie en een correcte spelling. De zinnen zijn zo kort als mogelijk en tussenzinnen en samengestelde zinnen (hoofdzin + bijzin) zijn indien mogelijk vermeden. Eén aanspreektitel (u of je/jij) is consequent gebruikt. Niet vaak voorkomende woorden en formele taal zijn vermeden. Grappig bedoelde persoonsnamen, merk- of bedrijfsnamen zijn niet gebruikt. Afkortingen (behalve als het om relevant jargon gaat of algemeen bekende afkortingen) zijn niet gebruikt Open vragen De vraag: is vrij van racistische, etnocentrische, seksistische en voor bepaalde bevolkingsgroepen kwetsende inhoud; is duidelijk gesteld en leidt niet tot misverstanden; is niet negatief gesteld; bevat voldoende informatie om het goede antwoord te kunnen geven; geeft duidelijk aan of de kandidaat het antwoord moet motiveren; geeft, indien noodzakelijk, voldoende informatie over de gewenste lengte en vorm van het antwoord. Beoordeling vraag 2.6: Het merendeel van de vragen bevat incorrecte formuleringen. 10

Bijna alle vragen zijn correct geformuleerd. Alle vragen zijn correct geformuleerd. Aanwijzingen bij vraag 2.7: Hoe is de kwaliteit van de lay-out en vormgeving van de toets of het examen? Bij deze vraag gaat het om zaken die men niet bij een van de andere vragen van dit criterium kan beoordelen, zoals: Is de tekst goed leesbaar? Is het toets- of examenboekje overzichtelijk (niet teveel tekst en/of plaatjes, één lettertype)? Is duidelijk waar het antwoord gegeven moet worden? Zijn eventuele andere materialen (blokjes, apparaten, etc.) hanteerbaar en functioneel? Zijn kleuren of symbolen (indien van toepassing) goed van elkaar te onderscheiden (met name van belang voor kleurenblinden)? Is het kleurgebruik functioneel (zie vraag 2.13, vierde aandachtspunt?) Is het toets- of examenmateriaal duurzaam? Beoordeling vraag 2.7: Eén van de volgende punten is van toepassing: De tekst is niet goed leesbaar. Het boekje is niet overzichtelijk De andere materialen zijn moeilijk hanteerbaar en niet functioneel. De kleuren/symbolen zijn niet goed van elkaar te onderscheiden. De tekst is goed leesbaar, het boekje is overzichtelijk, de andere materialen zijn hanteerbaar en functioneel en de kleuren/symbolen zijn goed van elkaar te onderscheiden. In aanvulling op de voldoende scoring: Het kleurgebruik is functioneel en het toets-of examenmateriaal is duurzaam. AFNAME VIA COMPUTER Aanwijzingen bij basisvraag 2.8: Zijn de vragen gestandaardiseerd? Voor computertoetsen gelden nog een aantal extra aandachtspunten naast de genoemde eisen bij basisvraag 2.1. Zo verdient de standaardisatie van de afnametijd extra aandacht omdat het van belang is dat de beschikbare tijd voor een vraag of de gehele toets niet afhankelijk is van het systeem waarop de applicatie draait. Voor de eis van standaardisatie van iteminhoud en itemvolgorde wordt een uitzondering gemaakt voor toetsen die uit een vragenbank samengesteld worden. Om dit aspect te beoordelen moeten voor dergelijke toetsen wel de beslisregels of de algoritmes voor de samenstelling van de toetsen zijn geëxpliciteerd. Hier is bijvoorbeeld sprake van bij adaptieve toetsen of on the fly gegenereerde toetsen. Beoordeling basisvraag 2.8: De afnametijd, iteminhoud of itemvolgorde is niet gestandaardiseerd. De afnametijd, iteminhoud en itemvolgorde is gestandaardiseerd. Bij toetsen uit een vragenbank zijn de algoritmes of beslisregels vermeld en verantwoord. Aanwijzingen bij basisvraag 2.9: Is er sprake van een geautomatiseerd of objectief scoringssysteem? Onder een objectief scoringssysteem wordt verstaan dat waarden die aan alle mogelijke antwoorden van personen worden toegekend bij voorbaat zodanig vastliggen, dat elke examinator (zie 11

functieprofiel examinator op www.nvexamens.nl), afgezien van administratieve fouten die bij de scoring kunnen worden gemaakt, tot dezelfde score zal komen. Onder scoring wordt in dit geval verstaan: het toekennen van een score aan de vragen, het sommeren van de scores en het omzetten van deze somscores in beoordelingen of cijfers. Beoordeling basisvraag 2.9: Er is geen sprake van een scoringsvoorschrift of de automatisch gegenereerde scores zijn niet meegeleverd of opvraagbaar om de juistheid te controleren. Er is een scoringsvoorschrift beschikbaar of de automatisch gegenereerde scores zijn meegeleverd. Het scoringssysteem is volledig en eenduidig, dat wil zeggen dat er een algoritme voor de scoring is meegeleverd en dat dit algoritme is verantwoord. Bij handmatige scoring is het volgende meegeleverd: de antwoordmodellen, de beoordelaarsinstructie en het scoringsvoorschrift met daarin het toekennen van een score aan de vragen, het sommeren van de scores en het omzetten van de somscores in beoordelingen of cijfers. Aanwijzingen bij vraag 2.10: Is de software zodanig ontworpen dat fouten door onjuist gebruik kunnen worden vermeden? Het mag niet kunnen gebeuren dat toets- of examenresultaten (negatief) worden beïnvloed doordat een kandidaat de computersoftware onjuist gebruikt. Naast het aanbieden van een begrijpelijke instructie, zijn er diverse manieren om fouten door onjuist gebruik van de computersoftware te vermijden. De instantie/organisatie die de toets of het examen afneemt moet voldoende ondernemen om de kans op fouten door onjuist gebruik te minimaliseren. Hierbij kunnen diverse voorzorgsmaatregelen belangrijk zijn: het uitschakelen van overbodige functies en sneltoetsen; het afsluiten van de toegang tot de harde schijf of externe opslag media; het onmogelijk maken om andere (niet bedoelde) software op te starten; het moeilijk maken om de computersoftware voortijdig of zonder opslaan te verlaten. Bij toetsen of examens die via Internet worden afgenomen en waarbij gebruik gemaakt wordt van een browser (Internet Explorer, Firefox, Safari, etc.) die de vragen aanbiedt en de antwoorden doorgeeft aan de server, is het veelal niet mogelijk de computer van de kandidaat op bovengenoemde punten te beïnvloeden. In dat geval dient te zijn aangegeven welke voorzorgsmaatregelen genomen moeten worden door de instantie die de toets of het examen afneemt. De vormgeving van de interface is van invloed op de kans om fouten te maken. Bij deze vraag wordt niet gevraagd om te beoordelen of de gebruikersinterface naar behoren is vormgegeven, maar de vormgeving mag wel in overweging worden genomen. Bij een computertoets of examen, of dit nu een standalone-, een netwerk- of een internetapplicatie is, kan het overigens altijd voorkomen dat de afname van de toets of het examen wordt onderbroken door een technische oorzaak waar noch de kandidaat noch de computersoftware debet aan zijn. In een dergelijk geval moet een doorstart mogelijk zijn, waarbij de applicatie na een identificatie en een eventuele herhaling van de instructie het examen bij de juiste vraag vervolgt met, indien van toepassing, inachtneming van de nog beschikbare examentijd. Van de auditor van de toets of het examen wordt niet verwacht een uitputtende controle op bovenstaande aspecten uit te voeren. Wel dient de auditor te beoordelen of de instantie die de toets of het examen afneemt verantwoording heeft afgelegd over de getroffen voorzorgen en over de wijze waarop deze in de praktijk zijn getoetst. Voor de beoordeling van voorgaande zaken zou de auditor kunnen overwegen mystery guests in te zetten. Beoordeling vraag 2.10: 12

Eén van de volgende punten is van toepassing: Bij de toets (via het Internet) zijn geen voorzorgsmaatregelen beschreven die de instantie moet uitvoeren. Er is geen doorstart mogelijk na een technische storing. De vormgeving van de interface is zeer onduidelijk, d.w.z. extreem veel navigatiemogelijkheden, nagenoeg onleesbare teksten of een niet te begrijpen indeling. De volgende punten zijn van toepassing: Bij de toets (via het Internet) zijn voorzorgsmaatregelen beschreven die de instantie moet uitvoeren. Tijdens het testen treden er geen onoverkomelijke problemen op en de software reageert zoals verwacht. Er is een doorstart mogelijk na een technische storing, waarbij de applicatie na een identificatie en een eventuele herhaling van de instructie het examen bij de juiste vraag vervolgt met inachtneming van de nog beschikbare examentijd. De vormgeving van de interface is duidelijk, d.w.z. duidelijke navigatiemogelijkheden, leesbare teksten en een te begrijpen indeling. In aanvulling op de voldoende scoring: Het is niet mogelijk om andere (niet bedoelde) software op te starten, niet-bedoelde toetsen of toets combinaties te gebruiken of de computersoftware zonder opslaan te verlaten. Aanwijzingen bij vraag 2.11: Is de instructie voor de kandidaat volledig en duidelijk? Een duidelijke en volledige instructie is belangrijk, zodat de kandidaat geen fouten maakt door onbekendheid met de werking van de computersoftware. De volgende aspecten dienen in de instructie te zijn opgenomen: voorbeeldvragen; de werking van de software (waaronder de wijze van antwoord geven); de te volgen strategie bij het niet-weten van het goede antwoord of bij alternatieven die even (on)aantrekkelijk of in gelijke mate van toepassing zijn; de beschikbare tijd, per vraag of per toets of examen. Beoordeling vraag 2.11: Er is geen instructie voor de kandidaat of de instructie is onvolledig/onduidelijk, d.w.z. er missen een aantal van de genoemde onderdelen. Er is voor de kandidaat een in gangbaar Nederlands opgestelde, gestandaardiseerde instructie. De instructie is volledig, d.w.z. alle genoemde onderdelen worden vermeld. In aanvulling op de voldoende beoordeling: De instructie kan tijdens het maken van de toets door de kandidaten worden geraadpleegd. Aanwijzingen bij vraag 2.12: Zijn de vragen correct geformuleerd? De bij vraag 2.6 genoemde punten gelden ook voor de computertoetsen. Daarnaast is van belang op te merken dat ook voor computertoetsen of - examens geldt dat de auditor van de toets of het examen 13

alle vragen moet kunnen bekijken. Dit kan betekenen dat de instantie die de toets of het examen afneemt alleen ten behoeve van de beoordeling een overzicht van alle vragen dient aan te leveren. Beoordeling vraag 2.12: Er is geen overzicht van alle vragen meegeleverd of het merendeel van de vragen bevat incorrecte formuleringen. Het merendeel van de vragen bevat correcte formuleringen. Alle vragen zijn correct geformuleerd. Aanwijzingen bij vraag 2.13: Hoe is de kwaliteit van de gebruikersinterface? Hieronder worden aspecten genoemd waarop bij het beoordelen van de gebruikersinterface moet worden gelet. Deze aspecten moeten worden beoordeeld voor de aanbevolen standaardinstallatie en computeromgeving. beoordeling van één van de genoemde aspecten kan leiden tot het oordeel onvoldoende (score 1) op deze vraag. Is de informatie op het scherm leesbaar? De leesbaarheid wordt bevorderd indien: - niet meer dan twee lettertypes worden gebruikt; - niet meer dan drie puntgroottes worden gebruikt; - woorden niet cursief worden afgebeeld; - woorden niet worden onderstreept als er geen sprake is van een hyperlink. Is de schermindeling overzichtelijk? De overzichtelijkheid van een scherm wordt onder andere bepaald door: - het duidelijk van elkaar kunnen onderscheiden van de verschillende typen informatie (instructie, vraag, antwoordveld, etc.); - het duidelijk kunnen herkennen van de buttons en hun functie. Wordt bijvoorbeeld bij de button <afsluiten> de toets of het examen afgesloten of alleen de instructie? - de leesbaarheid van de vragen en de instructie zonder te scrollen; - het gemakkelijk kunnen vinden van bepaalde informatie (bijvoorbeeld instructie); - duidelijkheid van waar men zich bevindt of welke handeling men moet verrichten om te komen waar men wil. Er dient bij dit aspect te worden gecontroleerd of de bediening van de toets of het examen zo vanzelfsprekend is dat iemand met geen enkele computerervaring in staat is om de toets of het examen te maken. Is de schermvormgeving consistent? Het gaat om de volgende kenmerken van de schermomgeving: - symbolen dienen steeds dezelfde functie te hebben; - kleuren dienen consistent gebruikt te worden en dienen steeds dezelfde functie te hebben; - informatie (vragen, instructie, antwoordveld, etc.) dient steeds op dezelfde locatie weergegeven te worden of er dient steeds op dezelfde manier onderscheid te zijn gemaakt tussen soorten informatie; - er dient consistent gebruik te zijn gemaakt van lettertypes en groottes. Is het kleurgebruik prettig en functioneel? Van belang is dat kleur op een dusdanige manier is toegepast dat het de overzichtelijkheid en leesbaarheid van het beeldscherm bevordert. Functioneel kleurgebruik betekent dat kleuren een bepaalde betekenis hebben of dat het scherm overzichtelijker wordt, door bijvoorbeeld de vragen of het antwoordveld een afwijkende kleur te geven. Het is zeker niet wenselijk om een groot aantal kleuren te gebruiken of om kleuren zonder enige reden toe te passen. Met prettig kleurgebruik wordt de keuze voor bepaalde kleurencombinaties of het contrast tussen kleurnuances bedoeld. Bepaalde kleurencombinaties en slecht contrasterende kleuren zijn bijvoorbeeld moeilijk te onderscheiden. Bij het gebruik van kleuren dient er tevens rekening mee te zijn gehouden dat het examen in het algemeen ook geschikt moet zijn voor kleurenblinden en dat het kleurgebruik voor deze groep geen nadelige gevolgen mag opleveren. Is het beeld- en geluidsmateriaal functioneel? Onder beeldmateriaal wordt in dit verband al het mogelijke beeldmateriaal zoals animaties, filmfragmenten en statische afbeeldingen verstaan. Van belang is dat zowel het beeldmateriaal als de geluidsfragmenten een duidelijke functie hebben en dat ze niet zijn opgenomen om de computersoftware te verfraaien. Hierbij dient aangetekend te 14

worden dat de functionaliteit van het beeld- en geluidsmateriaal al in het geding is als het slecht leesbaar of verstaanbaar is. Beoordeling vraag 2.13: De informatie op het scherm is niet goed leesbaar, onoverzichtelijk en/of niet consistent. Aan alle bovengenoemde punten wordt voldaan. EINDOORDEEL CRITERIUM 2: TOETS- OF EXAMENMATERIAAL (SCHRIFTELIJKE TOETS/EXAMEN) Somscore basisvragen 2.1 en 2.2 = 6* Somscore 2.3 t/m 2.7 > 13 ** Somscore 2.3 t/m 2.7 = 13 ** Somscore basisvragen 2.1 en 2.2 = 5 Somscore 2.3 t/m 2.7 12 ** Somscore 2.3 t/m 2.7 < 12 Somscore basisvragen 2.1 en 2.2 4 * Bij basisvraag 2.2 kunnen beide subvragen van toepassing zijn; in dat geval geldt de laagste beoordeling ** Score 1 voor 2.3, 2.4, 2.5, 2.6 of 2.7 niet toegestaan EINDOORDEEL CRITERIUM 2: TOETS - OF EXAMENMATERIAAL (COMPUTERTOETS/EXAMEN) Somscore basisvragen 2.8 en 2.9 = 6* Somscore 2.10 t/m 2.13 10 * Somscore 2.10 t/m 2.13 = 9 * Somscore basisvragen 2.8 en 2.9 = 5 Somscore 2.10 t/m 2.13 9 * Somscore 2.10 t/m 2.13 < 9 Somscore basisvragen 2.8 en 2.9 4 * Score 1 voor 2.10, 2.11, 2.12 of 2.13 niet toegestaan 15

3 REPRESENTATIVITEIT Bij dit criterium wordt de representativiteit van de toets of het examen beoordeeld. Representativiteit heeft betrekking op zowel de inhoud, de samenstelling als de moeilijkheidsgraad van de toets of het examen. De inhoud van toetsen en examens is gebaseerd op wat een kandidaat wordt onderwezen. Deze leerdoelen worden, afhankelijk van de onderwijssector, geformuleerd als kerndoelen, eindtermen, basiskwalificaties, kerntaken of competenties. Omdat deze doelen nog te algemeen zijn om er toetsen of examens op te kunnen baseren, dienen ze uitgewerkt te worden tot toetsbare leerdoelen. Indelingsschema s of taxonomieën voor menselijk presteren, meestal aangeduid met toetsmatrijzen, vormen hierbij een nuttig hulpmiddel om de beoogde leerdoelen uit te werken tot toetsbare leerdoelen Zie hierover ook hoofdstuk 2 uit Toetsen op School, te downloaden via www.toetsenopschool.nl. Omdat de meeste toetsen en examens eerder directe metingen van menselijk gedrag zijn, dan metingen van constructen of competenties, wordt bij dit criterium prioriteit gegeven aan de inhoud van de toets of het examen. Mochten bij sommige toetsen of examens wel constructen of competenties worden gemeten en mochten hiervoor bewijzen worden aangevoerd, dan zal de auditor zijn beoordeling op die bewijzen baseren. Zie hierover ook hoofdstuk 4 van Toetsen op School, te downloaden via www.toetsenopschool.nl. Behalve dat de inhoud van de toets of het examen de leerdoelen dient te representeren, dient de moeilijkheidsgraad van de vragen of praktijkopdrachten, en dus de toets of het examen, ook afgestemd te zijn op de beoogde doelgroep. CRITERIUM 3: REPRESENTATIVITEIT O V G 3.1 Is de toetsmatrijs, het examenprogramma, examenplan, 1 2 3 competentieprofiel of de operationalisatie van het construct een adequate representatie van het meetdoel? Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan en doorgaan met criterium 4. 3.2 Is de moeilijkheidsgraad van de vragen of de praktijkopdrachten afgestemd op de beoogde doelgroep? 1 2 3 Aanwijzingen bij basisvraag 3.1: Is de toetsmatrijs, het examenprogramma, examenplan, competentieprofiel of de operationalisatie een adequate representatie van het meetdoel? Voor de centrale examens in het voortgezet onderwijs en middelbaar beroepsonderwijs draagt de minister van Onderwijs, Cultuur en Wetenschap de eindverantwoordelijkheid en stelt per vak de examenprogramma's vast. Daarin staat wat in het centraal examen en in het schoolexamen getoetst moet worden. De stof voor de examens is door het College voor Toetsen en Examens (www.hetcvte.nl) vastgelegd in syllabi. Cito ontvangt van het College voor Toetsen en Examens voor elk vak een constructieopdracht (examenmodel), waarin voor elk examen het volgende wordt vermeld: de lengte van het examen, de onderwerpen, het aantal vragen, de soort vragen (bijvoorbeeld gesloten of open vragen en de toegestane hulpmiddelen. Voor onderwijsinstellingen in het middelbaar beroepsonderwijs zijn kwalificatiedossiers opgesteld die goedgekeurd moeten worden door vertegenwoordigers van het onderwijs en het bedrijfsleven. Een kwalificatiedossier beschrijft het volgende voor een beroep of beroepsgroep: de inhoud van het beroep, de benodigde competenties voor een beginnende beroepsbeoefenaar en de benodigde kennis en vaardigheden voor een beginnende beroepsbeoefenaars. De kwalificatiedossiers geven de onderwijsinstellingen niet alleen informatie over wat zij moeten onderwijzen maar ook over wat zij moeten examineren. Het laatste wordt geoperationaliseerd in examenplannen met kerntaken, werkprocessen en competenties. Volgens de Regeling standaarden examenkwaliteit mbo 2012 geldt voor opleidingen gericht op de beroepsgerichte kwalificatiestructuur dat meer dan driekwart van de werkprocessen per kerntaak wordt geëxamineerd. Dit is voor eindtermgerichte opleidingen meer dan driekwart van de eindtermen per deelkwalificatie. Bij praktijkexamens moet de auditor bij de beoordeling van deze vraag uitdrukkelijk de authenticiteit van de praktijkexamens bij de beoordeling betrekken. Authenticiteit houdt in dat de werkomstandigheden en de sociale context van het praktijkexamen zo veel mogelijk lijken op die in 16

het toekomstig beroep en dat onderdelen van het praktijkexamen in de beroepspraktijk plaatsvinden. Voor een toelichting van authenticiteit wordt verwezen naar de publicatie Kwaliteit van beoordeling in de praktijk die men kan downloaden via www.rcec.nl. Bij de beoordeling van deze vraag spelen onder andere de volgende zaken een rol: Representeren de eind- en toetstermen het meetdoel? Sluiten de eind - en toetstermen aan op de inhoud en het vereiste beheersingsniveau (i.c. kennen, kunnen, toepassen, begrijpen e.d.) van het betreffende meetdoel? Om het beheersingsniveau aan te geven kan het gebruik van een taxonomie (bijvoorbeeld van Bloom of Romiszowsky) goede diensten bewijzen. Van belang is dat het werkwoordgebruik in de eind - en toetstermen eenduidig is en goed aansluit bij de taxonomie. Bevat de toetsmatrijs de volgende specificaties? o het aantal vragen of opdrachten met bijbehorende scorepunten; o toetsvorm en/of het soort vragen (bijvoorbeeld gesloten en/of open vragen of praktijkopdrachten in gesimuleerde context of de beroepspraktijk); o toegestane hulpmiddelen; o toetsduur. Geeft het aantal vragen en/of opdrachten een voldoende dekking van het meetdoel? Zijn de praktijkexamens voldoende authentiek? Beoordeling basisvraag 3.1: Eén van de volgende punten is van toepassing: Er is geen toetsmatrijs, examenprogramma, examenplan, competentieprofiel of een operationalisatie van het construct De toetsmatrijs, het examenprogramma, examenplan, competentieprofiel of de operationalisatie van het construct is geen adequate representatie van het meetdoel. De toetsmatrijs, het examenprogramma, examenplan, het competentieprofiel of de operationalisatie van het construct is een adequate representatie van het meetdoel. De toetsmatrijs, het examenprogramma, examenplan, het competentieprofiel of de operationalisatie van het construct is een adequate representatie van het meetdoel. Er is bovendien een gedetailleerde beschrijving beschikbaar van de relatie tussen het meetdoel en de toetsmatrijs, het examenprogramma, examenplan, het competentieprofiel of de operationalisatie van het construct. Aanwijzingen bij basisvraag 3.2: Is de moeilijkheidsgraad van de vragen of praktijkopdrachten afgestemd op de doelgroep? Met een kwalitatieve of kwantitatieve evaluatie kan men nagaan of de vragen of praktijkopdrachten afgestemd zijn op de doelgroep. Indien men de vragen of praktijkopdrachten kan pretesten, dan kan informatie over de moeilijkheidsgraad verkregen worden met een kwantitatieve evaluatie. Indien de vragen of praktijkopdrachten uit de toets juist zijn afgestemd op de doelgroep, dan zal het merendeel ( 90%) van de vragen of praktijkopdrachten niet te moeilijk (p-waarde < 0,20) of te makkelijk (p-waarde > 0,80) zijn. Als men voor de samenstelling van toetsen gebruik maakt van een vragenbank moet men er rekening mee houden dat de moeilijkheidsgraad in de loop van de tijd kan veranderen. Onderhoud is dus altijd nodig. 17

Indien men niet kan pretesten, kan men een kwalitatieve evaluatie uitvoeren. Dan worden voorafgaand aan de afname van de toets de vragen of praktijkopdrachten door deskundigen beoordeeld. Hierbij wordt aan een groot aantal inhoudelijk deskundigen gevraagd wat zij verwachten van de scores die honderd zesjeskandidaten op de betreffende vragen of praktijkopdrachten zullen krijgen. Indien uit de oordelen van de deskundigen blijkt dat te veel vragen of opdrachten van de bedoelde toets te moeilijk en/of te makkelijk zijn, kan men de vragen of praktijkopdrachten vervangen of eventueel aanpassen. Meer dan 20% van het aantal vragen of opdrachten is te makkelijk en/of te moeilijk. Meer dan 10%, maar minder dan 20% van het aantal vragen of opdrachten is te makkelijk en/of te moeilijk. Minder dan 10% van het aantal vragen of praktijkopdrachten is te makkelijk en/of te moeilijk, d.w.z. dat minimaal 90% de juiste moeilijkheid heeft. EINDOORDEEL CRITERIUM 3: REPRESENTATIVITEIT Somscore basisvragen 3.1 en 3.2 = 6 Somscore basisvragen 3.1 en 3.2 = 4 of 5 Somscore basisvragen 3.1 en 3.2 < 4 18

4 BETROUWBAARHEID Bij dit criterium wordt de betrouwbaarheid van (de scores van) een toets of examen beoordeeld. Bij betrouwbaarheid gaat het om de vraag of we vertrouwen kunnen hebben in de scores die kandidaten op een toets of examen behalen. De betrouwbaarheid is te kwantificeren met een betrouwbaarheidscoëfficiënt, het percentage misclassificaties en de standaardmeetfout. De betrouwbaarheidscoëfficiënt heeft een ondergrens van 0,0 en een bovengrens van 1,0. Een hoge betrouwbaarheidscoëfficiënt geeft aan dat we vertrouwen hebben in de betrouwbaarheid van het examen. We mogen dan verwachten dat indien de kandidaten twee keer hetzelfde examen zouden maken, een vergelijkbare score zouden behalen. Onder misclassificaties verstaan we het aantal kandidaten dat als gevolg van de onbetrouwbaarheid van de toets of het examen ten onrechte gezakt en ten onrechte geslaagd is. Bij een hoge betrouwbaarheid is het aantal misclassificaties gering. Met de standaardmeetfout kunnen we de vraag naar de betrouwbaarheid van de scores van individuele kandidaten beantwoorden, oftewel welke andere score had een kandidaat ook op de toets of het examen kunnen behalen. Bij een hoge betrouwbaarheid ligt de score van het eerste examen erg dicht bij de score op het tweede examen. Voor meer informatie over hoe de betrouwbaarheid van een examen berekend en geïnterpreteerd moet worden, zie hoofdstuk 3 van Toetsen op School, www.toetsenopschool.nl. CRITERIUM 4: BETROUWBAARHEID O V G 4.1 Zijn of worden betrouwbaarheidsgegevens verstrekt? 1 2 3 Bij onvoldoende beoordeling van deze vraag kan men doorgaan naar criterium 5. 4.2 Zijn of worden de betrouwbaarheidsgegevens correct 1 2 3 berekend? 4.3 Zijn de betrouwbaarheidsgegevens voldoende gezien de beslissingen die met de toets of het examen genomen worden? 1 2 3 Aanwijzingen bij basisvraag 4.1: Zijn of worden betrouwbaarheidgegevens verstrekt? Er kan hierbij gedacht worden aan de volgende soorten betrouwbaarheidsgegevens: Betrouwbaarheidscoëfficiënten zoals coëfficiënt alfa, Guttman s lambda2 en de GLB (greatest lower bound = grootste ondergrens). Generaliseerbaarheidscoëfficiënten. Informatiefuncties. Standaardmeetfouten. Misclassificaties. In bovenstaande opsomming ontbreekt de beoordelaarsbetrouwbaarheid (i.c. mate van consistentie van beoordelaars) en beoordelaarsovereenstemming (i.c. mate van overeenkomst tussen beoordelaars). Hoewel een hoge beoordelaarsbetrouwbaarheid en beoordelaarsovereenstemming wel noodzakelijke voorwaarden zijn voor een hoge betrouwbaarheid, zijn ze geen substituut voor de betrouwbaarheid van een toets. Bij toetsen waarbij een objectief scoringssysteem ontbreekt, dienen bij voorkeur twee of meer beoordelaars ingezet te worden. Indien de beoordelaarsovereenstemming zeer hoog is, zou in geval van veel vragen of opdrachten, volstaan kunnen worden met één beoordelaar. Beoordelaarsbetrouwbaarheid en beoordelaarsovereenstemming zijn overigens alleen relevant als er geen objectief scoringssysteem is (zie ook 2.2). Bij praktijktoetsen die van beoordelaars holistische oordelen verlangen, is het niet mogelijk om voornoemde betrouwbaarheidsgegevens te genereren. Bij dit soort toetsen of examens kan volstaan worden met het verstrekken van de beoordelaarsbetrouwbaarheid en beoordelaarsovereenstemming plus de gemiddelde scores en standaardafwijkingen van de beoordelaars. Idealiter zijn de betrouwbaarheidsgegevens voor afname van de toets bekend. Hoewel het niet de gewenste situatie is, worden de betrouwbaarheidsgegevens bij examens vaak na afname van het examen berekend. Dit betekent niet dat we voor de afname van het examen niets over dat examen zouden weten. Verwacht mag worden dat (praktijk)examens die elk jaar één of meerdere keren worden afgenomen qua inhoud en moeilijkheidsgraad vergelijkbaar zullen zijn. Ook mag verwacht 19

worden dat de capaciteiten van de kandidaten die aan de verschillende examens deelnemen niet wezenlijk zullen verschillen. Dit betekent dat verwacht mag worden dat ook de betrouwbaarheidsgegevens van de verschillende examens niet veel zullen verschillen. Indien we dus de betrouwbaarheidsgegevens van het eerste examen berekend hebben, mag verwacht worden dat de betrouwbaarheidsgegevens van het volgende examen vergelijkbaar zullen zijn. Dat we hiervoor vaak het werkwoord verwacht gebruiken, is om aan te geven dat het om verwachtingen gaat en dat altijd nog zal moeten blijken of de verwachtingen ook daadwerkelijk uitkomen. Beoordeling basisvraag 4.1: Er zijn geen betrouwbaarheidsgegevens voor of na het examen verstrekt. De betrouwbaarheidsgegevens worden niet altijd, maar wel ter controle op gezette tijden berekend. Er is een verwachte betrouwbaarheid gegeven op basis van voorgaande jaren en deze verwachting is beargumenteerd. De betrouwbaarheidsgegevens zijn voor of na het examen verstrekt. Aanwijzingen bij vraag 4.2: Zijn of worden de betrouwbaarheidsgegevens correct berekend? Behalve de aanwezigheid van betrouwbaarheidsgegevens is het ook van belang dat de procedures voor het berekenen van de betrouwbaarheid correct zijn uitgevoerd. Hierbij moet gedacht worden aan berekeningen op basis van minimaal 200 kandidaten (Feldt, 1965) en het correcte gebruik van de juiste psychometrische modellen. Zo wordt bij toetsen met open vragen of (praktijk)opdrachten vaak geen rekening gehouden met eventuele verschillen tussen beoordelaars waardoor de berekende betrouwbaarheid een overschatting is. In het laatste geval zou een juiste schatting van de betrouwbaarheid verkregen kunnen worden door het uitvoeren van een generaliseerbaarheidsstudie (zie Psychometrie in de Praktijk, H3). Is dat niet mogelijk dan kan een onderzoek naar de betrouwbaarheid of overeenstemming tussen beoordelaars een indicatie geven van hoe groot die overschatting is. Beoordeling vraag 4.2: De betrouwbaarheidsgegevens zijn niet correct berekend en/of er zijn minder dan 200 kandidaten voor de berekening gebruikt. Er zijn minimaal 200 kandidaten voor de berekening gebruikt en de berekening is correct uitgevoerd. Er is geen generaliseerbaarheidsstudie gedaan m.b.t. mogelijke overschatting. Er zijn minimaal 200 kandidaten voor de berekening gebruikt, de berekening is correct uitgevoerd en de resultaten van een generaliseerbaarheidsstudie geven de juiste schatting. Aanwijzingen bij vraag 4.3: Zijn de betrouwbaarheidsgegevens voldoende gezien de beslissingen die met de toets of het examen genomen worden? Over de gewenste hoogte van een betrouwbaarheidscoëfficiënt of vergelijkbare maten zoals genoemd bij vraag 4.1 kan geen algemene uitspraak worden gedaan. Voor examens waarmee belangrijke beslissingen over kandidaten genomen worden, heeft de COTAN de regels opgesteld zoals in het onderstaand schema zijn opgenomen. Aangeraden wordt om naast de betrouwbaarheidscoëfficiënt ook het aantal misclassificaties bij het oordeel te betrekken. Voor meer informatie hierover zie hoofdstuk 3 van Toetsen op School, te downloaden via www.toetsenopschool.nl. Beoordeling vraag 4.3: 20