Beoordelingskader voor (reeksen van) toetsen uit leerlingvolgsystemen (LOVS).

Vergelijkbare documenten
1. Uitgangspunten van de toetsconstructie

Besluit: Paragraaf 1 Algemene bepalingen

Beoordelingskader onderwijskundige en organisatorische aspecten andere eindtoetsen

1. Uitgangspunten van de toetsconstructie

1. Uitgangspunten van de toetsconstructie

Toelichting Ankeronderzoek met Referentiesets. Ankeronderzoek. Beschrijving ankeronderzoek. Saskia Wools & Anton Béguin, Cito 2014

1. Uitgangspunten van de toetsconstructie

lte JAARVERSLAG 2018 EXPERTGROEP TOETSEN PO Opgesteld: Utrecht, 3 januari 2019 (Paulyn Berding-Oldersma)

Toelichting Ankeronderzoek met Ankersets. Ankeronderzoek. Beschrijving ankeronderzoek

Beoordelingskader onderwijskundige en organisatorische aspecten andere eindtoetsen

1. Uitgangspunten van de toetsconstructie

Beoordelingskader onderwijskundige en organisatorische aspecten andere eindtoetsen

1. Uitgangspunten van de toetsconstructie

1. Uitgangspunten van de toetsconstructie

1. Uitgangspunten van de toetsconstructie

Verantwoording onderzoek werkgroep Meijer Meijer, Rob R.; Egberink, Iris; Albers, Casper; Tendeiro, Jorge; Niessen, Anna

De Voorzitter van de Tweede Kamer der Staten-Generaal Postbus EA DEN HAAG

1. Uitgangspunten van de toetsconstructie

Beoordeling van LOVS toets Spelling 3.0 groep 7 Cito B.V. 1. Uitgangspunten van de toetsconstructie

1. Uitgangspunten van de toetsconstructie

Onderbouwing. AMN Eindtoets: adaptief met terugbladerfunctie. Hoe zit dat?

Beoordelingskader onderwijskundige en organisatorische aspecten andere eindtoetsen

SCENARIO S VOOR IJKING VAN DE EINDTOETSEN OP DE REFERENTIENIVEAUS December C.A.W. Glas, W.H.M. Emons, P.K. Berding-Oldersma

Reglement werkwijze Expertgroep toetsen in het Primair Onderwijs Paragraaf 1 Algemeen Artikel 1 Begripsbepaling Artikel 2 Onafhankelijkheid

1. Uitgangspunten van de toetsconstructie

prof. dr. Rob R. Meijer dr. Iris J. L. Egberink dr. Casper J. Albers dr. Jorge N. Tendeiro A. Susan M. Niessen, MSc.

1. Uitgangspunten van de toetsconstructie

1. Uitgangspunten van de toetsconstructie

Beoordelingskader onderwijskundige en organisatorische aspecten andere eindtoetsen

Beoordelingskader Eindtoetsen

1. Uitgangspunten van de toetsconstructie

1. Uitgangspunten van de toetsconstructie

Kwaliteitsvol evalueren

1. Uitgangspunten van de toetsconstructie

Taal peilingen door de jaren heen

Reglement werkwijze Expertgroep toetsen. Paragraaf 1 Algemeen

NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland. Beoordeling van de AMN Eindtoets 2016

Beoordelingskader onderwijskundige en organisatorische aspecten andere eindtoetsen

Beoordelingskader onderwijskundige en organisatorische aspecten andere eindtoetsen

1. Uitgangspunten van de toetsconstructie

1. Uitgangspunten van de toetsconstructie

Beoordeling onderwijskundige en organisatorische aspecten andere eindtoetsen

1. Uitgangspunten van de toetsconstructie

Adaptief Toetsen. een oude oplossing voor nieuwe problemen. Theo Eggen

Beoordelingskader onderwijskundige en organisatorische aspecten andere eindtoetsen

Tweede Kamer der Staten-Generaal

Eerste Kamer der Staten-Generaal

1. Uitgangspunten van de toetsconstructie

1. Uitgangspunten van de toetsconstructie

1. Uitgangspunten van de toetsconstructie

1. Uitgangspunten van de toetsconstructie

Programma. Schaalconstructie. IRT: moeilijkheidsparameter. Intro: Het model achter het LOVS Mogelijkheden die het model biedt voor interpretatie

Op de voordracht van de Staatssecretaris van Onderwijs, Cultuur en Wetenschap, van xxx, nr. xxx, directie Wetgeving en Juridische Zaken;

1. Uitgangspunten van de toetsconstructie

CURSUS. Planmatig Opbrengstgericht Werken. Cursus planmatig opbrengstbewust werken

Gerard J.J.M. Straetmans Symposium De Logica van Mondelinge Toetsing Zutphen, 21 september G.J.J.M. Straetmans

Zelfevaluatie-instrument

Format bij Beoordelingskader Eindtoetsen

Test- en trainingscentrum Onderwijsadviesbureau TESTEN IS MEER DAN EEN UITKOMST

Brief van de minister voor Basis- en Voortgezet Onderwijs en Media. Aan de Voorzitter van de Tweede Kamer der Staten-Generaal

Staatsblad van het Koninkrijk der Nederlanden

Cito Volgsysteem jonge kind en Cito Volgsysteem primair en speciaal onderwijs

1. Uitgangspunten van de toetsconstructie

Beoordeling onderwijskundige en organisatorische aspecten andere eindtoetsen

1. Uitgangspunten van de toetsconstructie

Tweede Kamer der Staten-Generaal

1. Uitgangspunten van de toetsconstructie

1. Uitgangspunten van de toetsconstructie

Informatiebijeenkomsten Referentieniveaus Steunpunt PO

Toetskwaliteit is jouw verantwoordelijkheid. Bernard Veldkamp en Theo Eggen Conferentie Servicepunt examinering mbo Maart 2014

TECHNISCHE HANDLEIDING IQ TEST

Inhoud VOORWOORD 11 INLEIDING 13 DEEL 1 HANDLEIDING 15 1 OPBOUW HANDLEIDING 17

Expertgroep. ToetsenPO

Beoordelingskader onderwijskundige en organisatorische aspecten andere eindtoetsen

Bijlage 3. Beoordelingscriteria onderzoeksplan

Wat betekent het twee examens aan elkaar te equivaleren?

Kwantitatieve analyse toetskwaliteit

1. Uitgangspunten van de toetsconstructie

Over het gebruik van continue normering Timo Bechger Bas Hemker Gunter Maris

9 Het beoordelen van toetsscores. 9 Het beoordelen van toetsscores

DEFINITIEF RAPPORT ONDERZOEK IN HET KADER VAN HET VIERJAARLIJKS BEZOEK OP DE ARK

Beoordelingscriteria scriptie Nemas HRM

Rapportage Resultaten eindtoetsen 2018

De beoordeling van tests en toetsen door de COTAN: Meetinstrumenten de maat genomen Arne Evers

Tabellen tussenopbrengsten CITO LOVS versie: december 2017

Onderzoektechnische verantwoording. Opinieonderzoek Solidariteit

Toetsbekwaamheid BKE november 2016

Een Europees Referentiekader voor talenexamens. Een utopie?

PROMIS Een integraal systeem voor het meten van patientgeraporteerde

Bijeenkomst Taalweb Referentieniveaus

Op de voordracht van de Staatssecretaris van Onderwijs, Cultuur en Wetenschap, van xxx, nr. xxx, directie Wetgeving en Juridische Zaken;

Format bij Beoordelingskader Eindtoetsen

Beoordelingskader onderwijskundige en organisatorische aspecten andere eindtoetsen

NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland. Beoordeling van de IEP Eindtoets 2016

Evolutie wiskundeprestaties in het lager onderwijs

Het meetinstrument heeft betrekking op de volgende categorieën Lichaamsregio Hoofd / hals Overige, ongespecificeerd

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

Ontwerpen van een instrument voor de collegiale screening van kennistoetsen

HANDREIKING Advieswijzer voor plaatsing in het voortgezet onderwijs

Transcriptie:

Beoordelingskader voor (reeksen van) toetsen uit leerlingvolgsystemen (LOVS). Ontwikkeld door: Psychometrisch experts, Hans Vos Arnold Brouwer Bernard Veldkamp Piet Sanders SLO, Elvira Folmer Ria van de Vorle Expertgroep Toetsen PO, Cees van der Vleuten Cees Glas Desiree Joosten-Ten Brinke Laatst gewijzigd op: 26 februari 2016 Vastgesteld op: 26 februari 2016

Inhoud Inleiding 2 Kwaliteit van de dataverzameling 4 Normering 5 Betrouwbaarheid 5 Validiteit 6 Volg-aspect 6 Inzicht in leervorderingen 7 Achtergrondinformatie 7 1

Inleiding De Expertgroep Toetsen PO heeft op grond van artikel 8, lid 6 van de Wet op het primair onderwijs en artikel 2, lid 2b van haar Instellingsbesluit onder meer tot taak een eigenstandig kwaliteitsoordeel te geven over de inhoudelijke validiteit, betrouwbaarheid en deugdelijke normering van een tussentijdse toets of reeks van tussentijdse toetsen. Toetsen dienen, volgens artikel 11 van het Instellingsbesluit, uiterlijk binnen 13 weken te zijn beoordeeld door de Expertgroep. Criteria waaraan LOVS toetsen dienen te voldoen Volgens het Toetsbesluit PO geeft de Expertgroep Toetsen PO een kwaliteitsoordeel over de inhoudelijke validiteit, betrouwbaarheid en deugdelijke normering van de toetsen uit een leerling- en onderwijsvolgsysteem (LOVS). Bij dit kwaliteitsoordeel worden in ieder geval betrokken: a) de wijze waarop de leervorderingen van leerlingen systematisch worden gemeten; b) de mate waarin de toetsen de kennis en vaardigheden van de leerlingen meten op de gebieden, genoemd in artikel 8, tweede lid van de WPO of artikel 11, derde lid van de WEC: de emotionele en de verstandelijke ontwikkeling, het ontwikkelen van creativiteit, het verwerven van noodzakelijke kennis en/of sociale, culturele en lichamelijke vaardigheden; c) de wijze waarop de leervorderingen van leerlingen voor de ouders, voogden of verzorgers en docenten inzichtelijk worden gemaakt. Beoordeling van de onderwijskundige en psychometrische aspecten van LOVS toetsen De hierboven genoemde kwaliteitsaspecten worden opgedeeld in onderwijskundige en psychometrische kwaliteitsaspecten. De beoordeling van de onderwijskundige aspecten van de LOVS toetsen richt zich op de inhoudelijke validiteit en de hierboven genoemde punten b) en c). De beoordeling van de psychometrische aspecten van de LOVS toetsen richt zich op de onderbouwing van de betrouwbaarheid, de deugdelijkheid van de normering, psychometrische onderbouwing van de inhoudelijke validiteit en het hierboven benoemde punt a). De Expertgroep laat zich voor de beoordeling van de onderwijskundige en psychometrische aspecten bijstaan door een adviesgroep van externe onafhankelijke deskundigen, die geen banden hebben met de aanbieders. De namen van de externe deskundigen zijn openbaar, zonder dat ze gekoppeld kunnen worden aan concreet beoordeelde toetsen. 2

De procedure, inclusief het tijdpad, is conform de notitie Procesbeschrijving tussentijdse toetsen zoals die op de website van de Expertgroep (http://expertgroeptoetsenpo.nl/) gepubliceerd is. Beoordelingskader Het voorliggende document behelst een beoordelingskader voor de LOVS toetsen. De criteria in het kader zijn algemeen verwoord. Ze zijn gebaseerd op de beoordelingssystemen van het COTAN en het RCEC en het document Aanvullingen COTAN Beoordelingssysteem wat betreft volg-aspect van leerling- en onderwijsvolgsystemen. Voor zover een LOVS toets een adaptief aspect heeft, is ook Aanvullingen COTAN Beoordelingssysteem wat betreft normering referentieniveaus en computer adaptief toetsen van andere eindtoetsen van belang. Voor achtergrondinformatie met betrekking tot de criteria voor LOVS toetsen worden de toetsaanbieders verwezen naar genoemde documenten, zij het alleen voor aspecten die betrekking hebben op LOVS toetsen (voor de links naar deze documenten onderaan dit document). Het beoordelingskader richt zich op de aspecten normering, betrouwbaarheid, validiteit, het volg-aspect van LOVS toetsen en het inzicht in de leervordering. Voor de beoordeling van deze aspecten zijn enkele vragen opgesteld op basis waarvan de aspecten gescoord kunnen worden met een voldoende of onvoldoende. Naast deze wettelijk vastgelegde aspecten is het aspect Kwaliteit van de dataverzameling toegevoegd. De kwaliteit van de dataverzameling is onderliggend aan de kwaliteitsaspecten normering, betrouwbaarheid en het volg-aspect. Het is dus van belang dat de kwaliteit van de dataverzameling voldoende is. De uiteindelijke weging van de scores en de weging met de onderwijskundige aspecten wordt per geval bepaald door de Expertgroep, deze weging zal worden gemotiveerd in het kwaliteitsoordeel van de Expertgroep. 3

De kwaliteit van de dataverzameling S1.1 Is de steekproef representatief? S1.2 In geval van een onvolledig dataverzamelingsdesign: is het design adequaat? De kwaliteit van de normering van een toets en de betrouwbaarheid van de beslissingen die op basis van de genormeerde scores genomen worden, hangt vooral af van de kwaliteit van de dataverzameling waarop de normering en de batrouwbaarheidsgegevens gebaseerd zijn. Daarom behandelen we de kwaliteit van de dataverzameling eerst. Bij S1.1.: De steekproef moet representatief zijn voor de doelgroep (c.q. de populatie) in termen van het onderwijsniveau. De steekproef moet adequaat gestratificeerd zijn naar (tenminste) geslacht, regio en urbanisatiegraad, en er moet informatie geleverd worden over hoe de gerealiseerde steekproef zich verhoudt tot de populatie waarden m.b.t. geslacht, regio, urbanisatiegraad. M.b.t. tot regio minimaal de indeling Noord, Oost, West, en Zuid. De procedure voor het samenstellen van de steekproef moet onderbouwd zijn en de omstandigheden waaronder de data verzameld zijn moeten redelijk vergelijkbaar zijn met de omstandigheden waaronder de toets wordt afgenomen. Bij S1.2.: Vaak worden data verzameld in een onvolledig design, waarbij niet alle leerlingen alle items maken. Men spreekt vaak van een boekjesdesign. Vervolgens worden normering en betrouwbaarheid berekend met een Item Respons Theorie (IRT) model. Naast de vigerende eisen voor de betrouwbaarheid van schatting van IRT parameters, zijn er eisen aan het design. De boekjes in het kalibratiedesign moeten voldoende gelinked zijn, dat wil zeggen dat er voldoende overlap in observaties is tussen de verschillende items en boekjes. Het is niet doenlijk hier alle mogelijke designs te behandelen. Voor een ankeritem design geldt de eis dat het anker tenminste uit 15 ankeritems (items die het design linken) moet bestaan en dat de IRT parameters van de items representatief zijn voor alle items in het design. Voor andere designs geldt dat het design zodanig moet zijn dat de schattingsfouten vergelijkbaar zijn aan een ankeritem design met tenminste 15 items. Verder moeten de ankeritems voldoende representatief zijn voor het toetsdomein. Tenslotte moet er evidentie voor de passing van het IRT model worden gepresenteerd. Overigens zijn andere kalibratie-methoden (bijvoorbeeld kernel-equating van von Davier en Holland) ook toegestaan zolang de betrouwbaarheid analoog is aan de voor IRT geformuleerde eisen. 4

Normering Er is onderscheid te maken tussen absoluut en relatief normeren. Kenmerkend voor absoluut normeren is dat de normen van de toets voor de afname worden bepaald. De absolute norm is gebaseerd op een minimaal acceptabel beheersingsniveau van een nauwkeurig omschreven leerstofdomein. Bij relatief normeren wordt de norm aan de hand van toetsafnames bepaald. De relatieve norm is gebaseerd op een onderlinge vergelijking van de toetsprestaties van de kandidaten met de prestaties van een nauwkeurig omschreven referentiepopulatie. N1.1 ABSOLUTE NORMEN N1.1.1 Is de standaardbepalingsmethode gemotiveerd en op de juiste wijze uitgevoerd? N1.1.2 Zijn de beoordelaars/vakdeskundigen/experts naar behoren geselecteerd en getraind? N1.1.3 Is er voldoende overeenstemming tussen de beoordelaars? N1.2 RELATIEVE NORMEN N1.2.1 Zijn de normgroepen groot genoeg? N1.2.3 Zijn de normgroepen representatief? De eisen voor relatieve normering zijn in feite een combinatie van de eisen voor de dataverzameling en de betrouwbaarheid. Zo moet de steekproef representatief zijn en groot genoeg zijn om een betrouwbare schatting van de betrouwbaarheid te maken. Betrouwbaarheid B1.1 Zijn of worden de betrouwbaarheidsgegevens correct berekend? B1.2 Zijn de betrouwbaarheidsgegevens voldoende gezien de beslissingen die met de toets genomen worden? 5

Leerlingen worden naar aanleiding van een toets gecategoriseerd. Bij een examen gaat het meestal om de categorieën gezakt en geslaagd, bij een LOVS is er normaliter sprake van meer categorieën of van een relatieve categorisatie t.o.v. een referentiepopulatie. De betrouwbaarheid van een toets hangt samen met het percentage verwachte misclassificaties. Bij de te verstrekken betrouwbaarheidsgegevens hoort ook het percentage verwachte misclassificaties. Concreet betekent dit dat als de leerlingen gecategoriseerd worden in categorieën A, B, C, D en E (of 1, 2, 3, 4, en 5), aangegeven moet worden wat de kans is dat ze ook werkelijk in de genoemde categorie zitten en niet in een andere categorie. Hetzelfde geldt uiteraard ook voor ieder ander classificatiesysteem. Validiteit V1.1 Dragen de items in de toets bij aan de validiteit van de toets (hierbij gaat het om aspecten als relevantie, objectiviteit en efficiëntie van de items) Met betrekking tot de relevantie wordt gekeken of de items een representatieve afspiegeling zijn van de te toetsen doelen, vastgelegd in een toetsmatrijs. Het volg-aspect De aspecten De kwaliteit van de steekproef, betrouwbaarheid, normering en validiteit hebben betrekking op de beoordeling van een eigenstandige toets. Echter, het PO besluit stelt Om leervorderingen te kunnen meten, moeten de toetsscores van de leerling op een schaal te plaatsen zijn die de ontwikkeling van leerlingen zichtbaar maakt. Dit leidt tot twee criteria met betrekking tot de schaal waarop groei wordt uitgedrukt: de bouw van de schaal en het gebruik van de schaal. Va1.1 Is er een voldoende empirische onderbouwing van de schaal waarop de groei van een leerling wordt uitgedrukt. Wordt groei op een adequate manier gemeten? Va1.2. Worden er gegevens verstrekt over hoe groei geïnterpreteerd dient te worden? Wordt de betrouwbaarheid van de groei op die schaal adequaat weergegeven? 6

Bij Va1.1.: Alle overwegingen m.b.t. steekproeftrekking, betrouwbaarheid en normering gelden a-fortiori ook voor een reeks van twee of meer opeenvolgende toetsen. Dus beide steekproeven moeten representatief zijn en het design, dat in dit geval bijna per definitie onvolledig zal zijn, moet adequaat zijn in de termen die hierboven zijn gedefinieerd. Verder moet er empirische informatie zijn over de schaalbaarheid van opeenvolgende toetsen. Het hoeft niet het geval te zijn dat de schaal strikt uni-dimensioneel is in de zin van een uni-dimensioneel IRT model (hoewel dit wel de meest voor de hand liggende schaal is). Maar er dient in ieder geval betekenisvolle informatie gegeven te worden over de samenhang tussen de twee (of meer) meetmomenten. Essentieel is dat de schaal waarop de groei wordt weergegeven grondig is onderbouwd. Bij Va2.1.: De handleiding moet een beschrijving bevatten van hoe de gebruiker (docenten, ouders, etc.) de gegevens met betrekking tot de groei (en/of stagnatie) van een leerling inhoudelijk en relatief t.o.v. een referentiepopulatie dient te interpreteren. Daarbij is het ook van belang om een indicatie van de betrouwbaarheid van die gevolgtrekking. Vertaald naar een uni-dimensioneel IRT model betekent dit dat de schattingsfout van het verschil van de vaardigheid op twee tijdstippen geschat moet zijn. Voor percentielscores betekent dit dat de betrouwbaarheid van de verandering van de percentielscores geschat moet zijn. Inzicht in de leervorderingen I1.2 Levert de toetsaanbieder een format voor een geschreven toelichting bij de leervorderingen van de leerling die (ook) voor ouders, verzorgers, voogden en docenten begrijpelijk is? Achtergrondinformatie - COTAN Beoordelingssysteem (http://www.cotandocumentatie.nl/beoordelingssysteem.php) - RCEC Beoordelingssysteem (http://www.rcec.nl/beoordelingssysteem/) - Aanvullingen COTAN Beoordelingssysteem wat betreft volg-aspect van leerlingen onderwijsvolgsysteem (http://www.expertgroeptoetsenpo.nl) - Aanvullingen COTAN Beoordelingssysteem wat betreft normering referentieniveaus en computer adaptief toetsen van andere eindtoetsen 7