"Goed gedaan, maar kan nog beter "

Vergelijkbare documenten
Competenties kwaliteitsvol beoordelen

Competenties kwaliteitsvol beoordelen

Effectieve feedback op schrijfproducten

Een jaar na het winnen van de Prijs voor Examens. Marije Lesterhuis & Roos Van Gasse NVE congres 2019

De leerkansen die comparatief beoordelen biedt

Dit advies is tot stand gekomen met financiële ondersteuning door het College van Toetsen en Examens.

Een toepassing van D-PAC

Hypertekst schrijven en observerend leren als aanvullende didactiek 1

Het beoordelen van de kwaliteit van rubrics

WHITEPAPER GEBRUIKEN VAN BEOORDELINGSSCHALEN VOOR OPDRACHTEN BEOORDELINGSSCHALEN VOOR CHECKLISTS EN RUBRICS, 24 VOORBEELDEN HOE GEBRUIK JE ZE?

Plannen en schrijven met een elektronische outline-tool

Schrijven en schrijfonderwijs: inleiding op het themanummer

OPDRACHT FORMATIEF EVALUEREN: VAN CONTROLEREN NAAR INFORMEREN

Renske de Kleijn Module RUBRICS EMP OWK/PED 11-12

De kracht van paarsgewijs vergelijken voor het beoordelen van competenties. Prof. dr. L. Coertjens

Leerlingen beter leren schrijven

Creatief schrijven: een impuls voor je schrijfonderwijs. NEDwerk Conferentie Nederlands 3 april 2019 Clasine van Dorst

Meten we wat we willen meten?

De kansen die comparatief beoordelen biedt

Leren observeren en collegiale consultatie

Teksten beoordelen en schrijfontwikkeling volgen

SIG (Digitaal) Toetsen en Leren Integreren

Het Toetsen Tournée. Paul Drijvers Freudenthal Instituut Universiteit Utrecht

Diagnostische toetsing bij het schoolvak Nederlands

Leren schrijven met peer response en instructie in genrekennis

Ronde 6. Beter worden in schrijven gaat niet vanzelf. 1. Inleiding. 2. Het schrijfproces en de didactiek

Schrijven om te leren bij Nederlands, Geschiedenis en Science

Ik wist niet dat ik zo goed kon schrijven

Fabel Positieve feedback in het schrijfschrift zorgt ervoor dat kinderen leesbaar leren schrijven.

Beoordelen van leeruitkomsten en de rol van de werkplek daarbij. Projectteam HAN Werkplekleren 23 januari 2017

Geaccepteerd voorstel Onderwijs Research Dagen 28, 29 en 30 juni 2017 te Antwerpen

Ondersteuning en certificering van digitaal leren voor laagopgeleiden

Schrijflessen en zaakvakken verrijken met didactische richtlijnen

15/11/ 17. Peer assessment. Welke oplossingen biedt D-PAC. Maarten Goossens.

Beter schrijven door feedback en revisie: de student actief 1

Klik op een van onderstaande linken om direct naar het betreffende onderdeel te gaan:

Toetscyclus. 5.1 Praktijk Reflectie De toetscyclus Portfolio 39

Het weblog als instrument voor reflectie op leren en handelen: Een verkennende studie binnen de eerste- en tweedegraads lerarenopleiding 1

Kwaliteit van toetsing

TOETSTIP 10 NOVEMBER 2005

Goed, beter, best. Eenvoudig en betrouwbaar beoordelen met D-PAC

Vier in Balans-tool. Rapportage Teamlid

De bruikbaarheid van de schaalmethode om schrijfvaardigheid te beoordelen

Titel: Competenties kwaliteitsvol beoordelen: brengt een comparatieve aanpak soelaas?

Vier in Balans-tool. Teamrapportage

D-PAC feedback op organisatieniveau

Doel training. Programma Programma Voordelen voor de kandidaat. Uitgangspunten EVC. Assessoren en EVC-begeleiders training

Genres als uitgangspunt voor lezen en schrijven in de onderbouw

Online (automatische) feedback op schrijfopdrachten. AUHA Onderwijsdag 2019 Carola Strobl

Gerichte instructie in lezen en spellen voorkomt lees- en spellingproblemen bij (vrijwel) alle leerlingen op Het Kofschip

De complexe vaardigheid van formatief toetsen in de praktijk

Hoofdstuk 3. Het onderzoek van dyslectische leerlingen

Effectieve Feedback op Schrijfopdrachten

Vier in Balans-tool. Individuele Rapportage

Ten Geleide. Toetsen van schrijfvaardigheid: hoeveel beoordelaars, hoeveel taken? Renske Bouwer & Huub van den Bergh

Workshop Viewbrics: Kijken om vakoverstijgende (21e eeuwse) vaardigheden beter te beoordelen

11/8/2016. Academisch Schrijven in het curriculum. Opzet van deze bijeenkomst. Academisch schrijven. Toepassing in curriculum.

Als je als docent beslist om gebruik te maken van peer assessment doorloop je best enkele stappen:

Formatief en Digitaal Informatievaardigheden Meten (DIM) Caroline Timmers & Amber Walraven

ICALT. E-learning. Een gratis training in het gebruik van een lesobservatie-instrument

E-Portfolio inzet / programmatisch toetsen Master Diergeneeskunde SURF Seminar E-portfolio s in het hoger onderwijs 1 juni 2018 Dr. F.

Effectiveness of a self-regulated remedial program for handwriting difficulties

RAPPORT ONDERZOEK IN HET KADER VAN HET VIERJAARLIJKS BEZOEK OP BASISSCHOOL PATER VAN DER GELD

Leerwegonafhankelijke beoordeling

4 Werken met beoordelingsmodellen voor productieve vaardigheden

Doelen Praktijkonderzoek Hogeschool de Kempel

Het authentieke portfolio als instrument in het zelfsturend leren van professionals

Schrijfonderwijs op de basisschool: onderzoek naar nieuwe kansen voor de digitale schrijver

Academisch schrijven in voortgezet en hoger onderwijs: effectieve didactiek

Kris Verbeeck (KPC Groep) en Liesbeth Baartman (TU Eindhoven) Waarom samenhangend toetsbeleid?

Zelfbeoordeling bij schrijfvaardigheid Duits

LIESBETH BAARTMAN - KAARTSPEL KIT 2.0 CONGRUENTIE

RAPPORT VAN BEVINDINGEN KWALITEITSONDERZOEK. Het Baken International School VWO

TERUGBLIK CENTRAAL EXAMEN NEDERLANDS HAVO

cjcbejbv ejveneke nvknevm m

Christel Wolterinck (Marianum en Universiteit Twente), Kim Schildkamp (Universiteit Twente), Wilma Kippers (Universiteit Twente)

Samenvatting. Samenvatting

Op zoek naar nieuwe standaarden voor examinering van Competentie Gericht Onderwijs. Confrontatie tussen twee visies

Schrijfkwaliteit hoger met Proceskennis?

Nakijkwerk in uitvoering

VRAGENLIJST FORMATIEF TOETSEN DOCENT

KWALITEITSONDERZOEK IN HET KADER VAN DE STAAT VAN HET ONDERWIJS 2016/2017

Tool IC-2 Toetsen en beoordelen van onderzoekend leren

Feedback op schrijfopdrachten in het basisonderwijs

Ontwerpen van een instrument voor de collegiale screening van kennistoetsen

Feedback als sleutel tot succes. De rol van de docent in de verbetering van schrijfvaardigheid. Lotte Walstra. Universiteit Utrecht

3.1. Susan Beckers, Linda Verheijen: Logboek als middel voor professionalisering

TERUGBLIK CENTRAAL EXAMEN ENGELS VMBO GT/TL

RAPPORT ONDERZOEK IN HET KADER VAN HET VIERJAARLIJKS BEZOEK OP BASISSCHOOL PIUS X

Beter schrijven in de mens- en maatschappijvakken. Effecten van docentprofessionalisering

Feedback middels formatief toetsen

Beter schrijven in het basisonderwijs. Zwolle, Presentatie door Saskia Rietdijk


HOGESCHOOL WINDESHEIM

UNIVERSITY OF TWENTS MEESTERSCHAP 1/25/2017 FORMATIEF TOETSEN IN DE KLAS: TIPS VOOR IN DE LES

De complexe wereld van toetsing

Transcriptie:

"Goed gedaan, maar kan nog beter " Het ontwikkelingsgericht en betrouwbaar beoordelen van leerlingteksten Monica Koster, Tekster Eric Besselink & Eline Seinhorst, Iselinge Hogeschool Doetinchem Samenvatting Veel basisschoolleraren worstelen met de vraag hoe ze teksten van leerlingen betrouwbaar kunnen beoordelen. In de praktijk blijken de oordelen van verschillende beoordelaars over dezelfde teksten onderling behoorlijk te verschillen, wat een onwenselijke situatie is. In dit artikel bespreken we verschillende manieren om tot beoordeling van teksten te komen (holistisch en analytisch) en laten we zien dat aan beide beoordelingswijzen ernstige bezwaren kleven. In dit onderzoek is daarom gekeken of een andere oplossing, namelijk het gebruik van beoordelingsschalen met ankerteksten, voor leraren een bruikbaar alternatief is voor het effectief en betrouwbaar beoordelen van teksten van leerlingen in de bovenbouw van het basisonderwijs (groep 5 t/m 8, 3de t/m 6de leerjaar). We bespreken de procedure die we hebben gevolgd om tot beoordelingsschalen te komen en de vooren nadelen van het werken met de schalen. We verkennen hoe bruikbaar de ontwikkelde beoordelingsschalen zijn voor basisschoolleraren en hoe haalbaar het zelf ontwikkelen van beoordelingsschalen is. De in dit onderzoek ontwikkelde schalen kunnen bijdragen aan beter schrijfonderwijs: leraren die met de schalen werken, leren welke aspecten van de tekst in het bijzonder bijdragen aan tekst-kwaliteit. Hierdoor hebben zij een beter inzicht in de schrijf-prestaties van hun leerlingen, wat aanknopingspunten biedt voor betere schrijfinstructie en gerichtere feedback op de teksten van hun leerlingen. Omdat de schalen te gebruiken zijn in verschillende leerjaren, is het tevens mogelijk om de ontwikkeling van schrijfvaardigheid van leerlingen systematisch te volgen. Inleiding Kijkt u eens naar Figuur 1, een tekst geschreven door een leerling in de bovenbouw van de basisschool. Ze kreeg als opdracht een brief te schrijven aan de gemeente om te vragen of de gemeente wilde meewerken aan de aanleg van een skatebaan op het schoolplein. Figuur 1. Leerlingtekst. Tijdschrift voor Lerarenopleiders, 39(3) 2018 83

Stelt u zich voor: u bent de leraar van deze leerling en u moet deze prestatie beoordelen. Welk rapportcijfer op een schaal van 1 tot 10 zou u deze leerling geven? Een 8, omdat de tekst goed leesbaar is en Maud argumenten noemt die de gemeente kunnen overtuigen? Een 6, omdat de verschillende argumenten erg op elkaar lijken? Of misschien een 4, omdat Maud een ongepaste toon in haar brief hanteert (Hoi gemeenten en Liefe groetjes)? Onze ervaring leert dat als we deze tekst met dezelfde vraag voorleggen aan een groep leraren, er altijd een verschil van 3 tot 4 punten is tussen het hoogste en laagste oordeel. Dit betekent dat één en dezelfde tekst de kwalificatie onvoldoende/matig/voldoende/goed krijgt, afhankelijk van de beoordelaar, ook al zijn deze beoordelaars allemaal ervaren basisschoolleraren. Dit is opmerkelijk en toont aan dat individuele leraren verschillen in welke aspecten zij meenemen in hun beoordeling en welk gewicht zij hieraan toekennen. Het is natuurlijk ook een hoogst onwenselijke situatie, vooral als dit oordeel bepalend is voor een belangrijke beslissing: overgaan of blijven zitten, wel of geen extra begeleiding of advies over een vervolgopleiding. Zeker voor dit soort cruciale beslissingen is het belangrijk dat beoordelaars voldoende houvast krijgen om tot een betrouwbaar oordeel te komen. Beoordeling en toetsing nemen een belangrijke plek in in het basisonderwijs. Door middel van toetsen worden de prestaties van leerlingen gedurende hun schoolcarrière vastgelegd in leerlingvolgsystemen. Het hoofddoel van deze manier van toetsing is summatief: bepalen in hoeverre een leerling de gestelde onderwijsdoelen behaald heeft. De toetsing leidt dan tot een niveaubepaling, meestal uitgedrukt in een cijfer, en wordt gezien als een logische afronding van een leerproces. Summatieve oordelen vormen de basis voor belangrijke beslissingen over de toekomst van leerlingen. Daarom is het belangrijk dat deze oordelen op een betrouwbare manier tot stand zijn gekomen. Zoals hierboven al werd geschetst, ligt hier bij het beoordelen van schrijfvaardigheid een uitdaging. Summatieve oordelen zijn slechts een momentopname en hebben vaak weinig effect op de vervolgacties van de leraar, omdat ze weinig informatie verschaffen over hoe de prestatie tot stand is gekomen. Om meer informatie te krijgen over de ontwikkeling van een leerling en de effectiviteit van de gegeven instructie, kan beter gebruik gemaakt worden van formatieve beoordeling. Hierbij wordt gekeken waar de leerling nu staat, hoe hij daar gekomen is en wat hij nodig heeft voor de volgende stap in zijn ontwikkeling. De leraar beoordeelt een tekst dus niet alleen met het oogmerk de schrijfontwikkeling van de leerling goed vast te kunnen stellen, maar vooral om daarmee informatie te verkrijgen over hoe hij de schrijfontwikkeling van déze leerling in de komende periode het best kan stimuleren. Een interessante vernieuwende manier om teksten zowel summatief als formatief te beoordelen, is de beoordeling met behulp van een beoordelingsschaal met ankerteksten, waarmee in onderzoek al positieve ervaringen zijn opgedaan (Bouwer & Koster, 2016). Maar in hoeverre is dit beoordelingsinstrument bruikbaar voor de onderwijspraktijk? In dit artikel beschrijven wij de voor- en nadelen van het werken met beoordelingsschalen en beschrijven wij de procedure die wij hebben doorlopen om zelf beoordelingsschalen met ankerteksten te ontwikkelen. Tot slot zullen wij ingaan op de bruikbaarheid van de schalen voor de onderwijspraktijk, gebaseerd op de ervaringen die wij hebben opgedaan tijdens het ontwikkeltraject. 84 "Goed gedaan, maar kan nog beter " - ontwikkelingsgericht beoordelen van leerlingteksten

Beoordelingsprocedures: holistisch versus analytisch Grofweg zijn er twee grote stromingen te onderscheiden binnen de beoordelingsmethoden die gehanteerd worden bij het beoordelen van schrijfvaardigheid, namelijk het holistisch beoordelen, waarbij één globaal oordeel over de gehele tekst wordt gegeven, en het analytisch beoordelen, waarbij criterialijsten worden gehanteerd om tot een oordeel over de tekst te komen. Bij ons voorbeeld in het begin van het artikel hebben we een holistische beoordelingswijze gehanteerd. De voordelen van holistisch beoordelen zijn dat deze beoordelingsprocedure relatief weinig tijd kost en dat een holistische beoordeling recht doet aan de tekst als geheel (Sadler, 2009). Zoals we echter al hebben ondervonden, heeft holistisch beoordelen ook belangrijke nadelen. Het grootste nadeel is dat het lastig is om tot een betrouwbaar oordeel te komen omdat beoordelaars aanzienlijk kunnen verschillen in hun oordeel over dezelfde tekst (Wesdorp, 1981). Verschillende effecten kunnen hierbij een rol spelen (Rijlaarsdam et al., 2012). Ten eerste kunnen beoordelaars van mening verschillen over welke elementen zij bepalend vinden voor de kwaliteit van de tekst. Dit kan worden ondervangen door beoordelaars richtlijnen te verstrekken waarop ze moeten letten, maar ook dan kan hun oordeel vertroebeld worden door irrelevante aspecten van de tekst, zoals het handschrift van de leerling (het zgn. halo-effect), of door de volgorde waarin ze de teksten onder ogen krijgen. Het is een bekend gegeven dat beoordelaars van nature verschillen in strengheid, maar onbewust kan een beoordelaar tijdens het Onbewust kan de norm beoordelen de norm verschuiven en milder of juist strenger worden verschuiven: milder (Feenstra, 2014). Kortom, het is dus maar de vraag in hoeverre een of juist strenger holistisch oordeel een adequaat en betrouwbaar beeld geeft van de worden. kwaliteit van een tekst. Wat de validiteit betreft is het de vraag of beoordelaars kijken naar de belangrijkste elementen die de tekstkwaliteit bepalen. Hechten ze niet te veel waarde aan de lagere-orde-aspecten van de tekst, zoals taalverzorging en spelling, en te weinig waarde aan de hogere-orde-aspecten, zoals inhoud en organisatie? Een alternatief dat aan veel van de genoemde bezwaren tegemoet komt, is analytisch beoordelen. Hierbij wordt vooraf een lijst met criteria opgesteld en wordt de tekst vervolgens met behulp van deze lijst op deelaspecten gescoord. De uiteindelijke kwaliteit van de tekst is de som van de score van de deelaspecten, waarbij eventueel ook nog rekening gehouden wordt met een bepaalde weging (Barkaoui, 2011). Een voordeel is dat er bij deze manier van scoren uitgebreidere informatie beschikbaar komt over de schrijfprestatie. Verder wordt de interbeoordelaarsbetrouwbaarheid aanzienlijk vergroot omdat beoordelaars specifieke aanwijzingen krijgen waarop te letten tijdens het beoordelen (Breland, 1983). Maar ook aan analytisch beoordelen kleven belangrijke bezwaren. Een groot nadeel is dat, in vergelijking met holistisch beoordelen, analytisch beoordelen veel tijd kost: enerzijds doordat er uitgebreide scoringsvoorschriften moeten worden opgesteld, anderzijds doordat een tekst ook meerdere malen moet worden gelezen om alle aspecten goed te kunnen scoren (Feenstra, 2014). Verder is een analytisch beoordelingsmodel vaak in hoge mate taakspecifiek en zal er voor iedere opdracht een nieuwe criterialijst opgesteld moeten worden. Dit bemoeilijkt het vergelijken van de schrijfprestaties van leerlingen over taken heen waardoor het lastiger is om tot een algemene indruk van de schrijfvaardigheid van Tijdschrift voor Lerarenopleiders, 39(3) 2018 85

een leerling te komen (Bouwer & Koster, 2016). Tot slot is het de vraag of een complexe vaardigheid als schrijfvaardigheid zich überhaupt leent voor het opdelen in deelaspecten. Met andere woorden: geeft de optelsom van de deelscores een goede indruk van de kwaliteit van de tekst als geheel? Het is de vraag of alle relevante aspecten vooraf meegenomen kunnen worden in criterialijsten. Teksten kunnen onverwachte kwaliteiten bevatten die niet tot uitdrukking komen in deze vooraf opgestelde rubrieken en prestatieniveaus (Van Daal, Lesterhuis, Coertjens, Donche, & De Maeyer, 2016). Beoordelen met een schaal met ankerteksten In verschillende onderzoeken naar schrijfvaardigheid is gebruik gemaakt van een relatief nieuwe beoordelingsmethode, namelijk beoordelen met behulp van een beoordelingsschaal met ankerteksten (Bouwer & Koster, 2016; Pollmann, Prenger, & De Glopper, 2012). Zo'n beoordelingsschaal bestaat uit een reeks van vijf teksten die oplopen in kwaliteit (bijv. zwak/beneden gemiddeld/gemiddeld/boven gemiddeld/zeer goed), zie Figuur 2. Een beoordelaar komt vervolgens tot een oordeel over de kwaliteit van een tekst door de te beoordelen tekst na vergelijking met de gegeven voorbeeldteksten op de schaal te plaatsen. In een instructiefilmpje op internet (https://drive.google.com/file/d/1st9ylhvmfut2dx9f-fm-yahtpnra6lpw/view) is te zien hoe dit precies in zijn werk gaat. Het werken met een beoordelingsschaal is een effectieve manier om tot valide en betrouwbare oordelen te komen (Bouwer & Koster, 2016). Met een schaal met ankerteksten wordt een aantal beoordelingsproblemen ondervangen. Omdat er voor ieder niveau een voorbeeldtekst beschikbaar is, zullen volgorde-effecten geen rol meer spelen en zal er van het verschuiven van de norm geen sprake meer zijn. Verder is het beoordelen met een beoordelingsschaal efficiënt, omdat een beoordelaar de tekst maar één keer hoeft te lezen. Ook is de validiteit van de oordelen gewaarborgd, omdat er gekeken wordt naar de tekst als geheel. Figuur 2. Beoordelingsschaal voor betogende teksten. https://drive.google.com/file/d/1st9ylhvmfut2dx9f-fm-yahtpnra6lpw/view 86 "Goed gedaan, maar kan nog beter " - ontwikkelingsgericht beoordelen van leerlingteksten

Uit onderzoek is gebleken dat het niet nodig is om voor iedere te beoordelen schrijftaak een nieuwe schaal met ankerteksten te ontwikkelen: als een beoordelaar teksten van een andere taak moet beoordelen dan de ankers op de schaal, zijn de oordelen even betrouwbaar als wanneer de teksten van dezelfde taak zijn (Bouwer & Koster, 2016). Het is echter wel raadzaam om voor verschillende genres aparte beoordelingsschalen te ontwikkelen, omdat de ankerteksten iets minder houvast bieden bij de beoordeling van taken uit een ander genre (Bouwer & Koster, 2016). Het gebruik van een beoordelingsschaal voor verschillende taken biedt bovendien de mogelijkheid om de ontwikkeling van de schrijfvaardigheid van leerlingen te volgen over tijd, zelfs over leerjaren heen. In onderzoek hebben beoordelingsschalen met ankerteksten hun nut bewezen, de tijd lijkt rijp om de bruikbaarheid van dit type beoordelingsschalen te onderzoeken voor de onderwijspraktijk. Beoordelingsschalen in de praktijk: de proef op de som Op de Iselinge Hogeschool is al sinds 2011 het leernetwerk 'Schrijven kun je leren' actief: een groep bevlogen basisschoolleraren, studenten en pabo-docenten die zich bezighoudt met het verbeteren van het stelonderwijs op de basisschool. Binnen dit leernetwerk is in de afgelopen jaren lesmateriaal ontwikkeld voor het schrijven van verhalende en betogende teksten (Besselink & Seinhorst, 2016; Besselink, Seinhorst, & Snijders, 2017), maar er is tevens behoefte aan beoordelingsinstrumenten om de schrijfprestaties van leerlingen in kaart te brengen en de ontwikkeling van de schrijfvaardigheid te volgen. Beoordelingsschalen met ankerteksten lijken voor dit doel geschikt, maar zijn tot nu toe nog nauwelijks toegepast in de praktijk. Het leernetwerk heeft daarom in het schooljaar 2017-2018 de proef op de som genomen en heeft beoordelingsschalen ontwikkeld. Deze zijn vervolgens onderzocht op hun praktische toepasbaarheid. Het ontwikkelen van beoordelingsschalen Bij het ontwikkelde lesmateriaal voor het schrijven van verhalende en betogende teksten werden twee beoordelingsschalen met ankerteksten ontwikkeld: één voor betogende teksten en één voor verhalen. De basis voor de schaal zijn authentieke leerlingteksten, dus voordat een begin kan worden gemaakt met het construeren van een schaal, waren er eerst geschikte teksten nodig. In het begin van het schooljaar zijn er met dit doel twee schrijfopdrachten geformuleerd (Figuur 3 en 4; zie p. 88), die vervolgens zijn uitgezet op zeven scholen in groep 5 tot en met 8 (voor Vlaanderen leerjaar 3 t/m 6) (vanwege het tijdstip, begin van het schooljaar, is groep 4 (leerjaar 2) buiten beschouwing gelaten). De helft van de leerlingen van de deelnemende scholen werd gevraagd om de verhalende opdracht te schrijven, de andere helft van leerlingen heeft de betogende tekst geschreven. Voorafgaand aan het schrijven ontvingen ze een korte taaktoelichting en was er de gelegenheid om vragen te stellen, mochten er nog onduidelijkheden zijn. Leerlingen kregen geen instructie over de aanpak van de taak. De leerlingen moesten individueel en zelfstandig aan de taak werken en mochten niet overleggen. Er werden geen eisen gesteld aan omvang van de te schrijven tekst en er was geen tijdslimiet. Tijdschrift voor Lerarenopleiders, 39(3) 2018 87

Figuur 3. Schrijfopdracht verhalende tekst. Figuur 4. Schrijfopdracht betogende tekst.

In totaal werden door de leerlingen 233 verhalende teksten en 209 betogende teksten geschreven (zie Tabel 1). Om tot een gefundeerde en representatieve keuze van ankerteksten te komen, moesten deze leerlingteksten eerst worden beoordeeld. Dit is gedaan door middel van paarsgewijs beoordelen, met behulp van de digitale tool D-PAC (Digital Platform for the Assessment of Competence, ontwikkeld aan de Universiteit Antwerpen). De digitale tool laat een beoordelaar steeds twee teksten zien (zie Figuur 5), die met elkaar moeten worden vergeleken. Op de website van D-PAC (https://www.d-pac.be) is in een instructiefilmpje te zien hoe de tool werkt. Tabel 1 Aantal teksten per genre en groep GROEP GENRE 5 6 7 8 Totaal Verhalende teksten 74 60 54 45 233 Betogende teksten 44 71 45 49 209 Figuur 5. Screenshot van vergelijkend beoordelen in D-PAC. Beoordelaars geven bij elke vergelijking aan welke van de twee teksten zij het beste vinden. Het gaat hierbij om een holistisch oordeel over de tekst als geheel. De twee te beoordelen teksten worden random gekozen uit de totale verzameling leerlingteksten: het kan dus zijn dat twee teksten van leerlingen van dezelfde jaargroep worden vergeleken, maar het kan ook zijn dat twee teksten van leerlingen uit verschillende jaargroepen met elkaar vergeleken worden. Voordelen van het op deze manier paarsgewijs beoordelen zijn dat beoordelaars geen absolute scores hoeven toe te kennen en dat het dus niet uitmaakt of de ene beoordelaar strenger is in zijn oordeel dan de ander. Voor een hoge betrouwbaarheid (>.80) zijn 18 tot 20 vergelijkingen per tekst nodig en meerdere beoordelaars (Van Daal et al., 2016). Voor dit project hebben wij Tijdschrift voor Lerarenopleiders, 39(3) 2018 89

gewerkt met twintig beoordelaars: tien leraren uit het basisonderwijs, vijf pabo-docenten, drie pabo-studenten 1, één onderzoeker van de Open Universiteit en één expert-onderzoeker op het gebied van schrijfdidactiek. De beoordeling vond plaats in twee rondes: eerst de verhalende teksten, daarna de betogende teksten (zie Tabel 2). Tabel 2 Overzicht aantal beoordelaars, beoordelingen en betrouwbaarheid per genre Verhalende teksten Betogende teksten Aantal beoordeelde teksten 219 207 Totaal aantal beoordelaars 20 17 Totaal aantal beoordelingen 2206 1658 Betrouwbaarheid 0,88 0,82 Met D-PAC is het mogelijk om in relatief korte tijd een groot aantal vergelijkingen te maken en zodoende tot een betrouwbare rangorde te komen. Uiteindelijk biedt D-PAC een rangorde van alle vergeleken teksten: van de door de beoordelaars als meest zwak beoordeelde tot en met de meest sterk beoordeelde tekst. Omdat we een groot aantal teksten hebben, mogen we aannemen dat de scores normaal verdeeld zijn 2. We hebben vervolgens de rangordescores gestandaardiseerd 3 om te kunnen bepalen welke teksten het best geschikt zijn als voorbeeldtekst bij één van de ankerpunten van de schaal. Het gemiddelde is het middelpunt van de schaal, links hiervan zijn de ankerpunten bepaald op één en twee standaarddeviaties hieronder, rechts hiervan zijn de ankerpunten bepaald op één en twee standaarddeviaties boven het gemiddelde (Bouwer & Koster, 2016). Op deze manier geeft de beoordelingsschaal een goede representatie van de verschillende niveaus van tekstkwaliteit van de leerlingen uit onze doelgroep. Om dienst te De beoordelingsschaal geeft kunnen doen als ankerpunt, moet een tekst een score hebben die op of dichtbij één van de ankerpunten ligt (rond het gemiddelde, en een goede één en twee standaarddeviaties boven en onder het gemiddelde). representatie van Verder is het belangrijk dat het een tekst is waarover geen controverse is tussen beoordelaars: dit kunnen we bepalen aan de hand de verschillende niveaus van tekstkwaliteit. van de waarde van de standaardfout. De tekst met de kleinste standaardfout is degene waar beoordelaars het meest overeenstemmen in hun oordeel. Voor ieder ankerpunt werden op grond van deze informatie vijf teksten geselecteerd die potentieel geschikt waren om dienst te doen als ankerpunt op de schaal. Vervolgens heeft een expertpanel (bestaande uit twee pabo-docenten van de hogeschool, twee pabo-studenten 1. in Vlaanderen: professionele bachelor opleiding leraar lager onderwijs. 2. Bij een normale verdeling zijn de waarden verdeeld volgens een symmetrisch, klokvormig model, waarbij 68,27% van de waarden ligt tussen het gemiddelde min één keer de standaarddeviatie en plus één keer de standaarddeviatie, en 95,45% van de waarden tussen het gemiddelde min twee keer de standaarddeviatie en plus twee keer de standaarddeviatie. 3. Bij standaardiseren worden scores omgezet in z-scores. Een z-score geeft aan hoeveel standaarddeviaties een score van het gemiddelde af zit. Het is een verwachtingswaarde van een normale verdeling met een bekende standaardafwijking, uitgedrukt in eenheden van de standaardafwijking. Bij z-scores is het gemiddelde 0 en de standaarddeviatie 1. 90 "Goed gedaan, maar kan nog beter " - ontwikkelingsgericht beoordelen van leerlingteksten

en een wetenschappelijk onderzoeker) de teksten voor de ankerpunten vastgesteld. De leidende vragen voor deze laatste selectieronde waren: 1) is de tekst goed leesbaar, en 2) bevat de tekst niet te veel afleidende taal- en/of spellingfouten? Deze procedure is doorlopen voor zowel de beoordelingsschaal voor verhalende teksten als voor de beoordelingsschaal voor betogende teksten. In de bijlage zijn de beoordelingsschalen voor betogende en verhalende teksten opgenomen: zie p. 95 en 96. Tijdens een bijeenkomst van het schrijfleernetwerk werden door de leden van het netwerk (vier leraren uit het basisonderwijs, twee pabo-docenten, drie pabo-studenten van de hogeschool en een wetenschappelijk onderzoeker op het gebied van schrijfdidactiek) per ankertekst de plusen minpunten van elke tekst bepaald, die opgenomen zijn bij de toelichting op de schaal. Hierbij is gekeken naar (in volgorde van belangrijkheid): communicatieve effectiviteit, inhoud, structuur, taalgebruik/taalverzorging. De plus- en minpunten dienen als verantwoording van waarom de tekst deze plaats inneemt op de schaal. Verder bieden ze beoordelaars extra houvast bij het bepalen van een holistisch oordeel over de kwaliteit van een tekst, omdat ze concrete voorbeelden geven. De plus- en minpunten zijn nadrukkelijk niet bedoeld als criterialijsten die beoordelaars moeten afwerken. Het werken met beoordelingsschalen De ontwikkelde schalen zijn vervolgens getest in twee rondes (eerst de betogende teksten, daarna de verhalende teksten) tijdens een bijeenkomst van het leernetwerk. Hieraan namen alle leden van het leernetwerk deel, dit waren vier basisschooleraren, twee pabo-docenten, drie pabo-studenten en een wetenschappelijk onderzoeker. Om te beginnen werd aan deelnemers van het schrijfleernetwerk gevraagd zowel verhalende als betogende teksten holistisch te beoordelen met een rapportcijfer van 1 tot 10. Zoals verwacht, waren de verschillen tussen beoordelaars groot: 3 tot 4 rapportcijferpunten (verschil tussen het hoogste en laagste cijfer) in hun oordeel over dezelfde tekst. Hierna werd de schaal geïntroduceerd en kort toegelicht. Vervolgens werden dezelfde teksten nogmaals holistisch beoordeeld met de beoordelingsschaal. Vrijwel zonder uitzondering bereikten de deelnemers van het schrijfleernetwerk overeenstemming in de beoordeling van de teksten: alle aanwezige beoordelaars plaatsten de teksten om en nabij hetzelfde punt op de schaal, of in ieder geval tussen twee dezelfde ankerpunten. Dit gold zowel voor teksten die gelijk waren aan de opdracht van de teksten op de schaal, als voor teksten van hetzelfde genre, maar met een ander onderwerp. De oordelen lijken dus ook in de onderwijspraktijk toe te nemen in betrouwbaarheid, in lijn met wat in wetenschappelijk onderzoek is aangetoond (Bouwer & Koster, 2016). De basisschoolleraren uit het netwerk waren positief over deze manier van beoordelen. Zij gaven aan dat het beoordelen met een schaal minder tijd kost dan hun gebruikelijke manier van beoordelen en dat zij zich beter toegerust voelen om tot een oordeel te komen. Verder werd in een kleine case study bij één van de bij het leernetwerk betrokken opleidingsscholen door een student onderzocht of de beoordelingspraktijk van leraren zou verbeteren na een korte training in het werken met schalen. In dit kleinschalig onderzoek hebben vier basisschoolleraren een aantal teksten holistisch beoordeeld met een rapportcijfer. Daarna kregen ze een korte training (in totaal twee uur), waarin zij na een korte uitleg over het belang van beoordelen en het werken met de schalen dezelfde teksten nogmaals Tijdschrift voor Lerarenopleiders, 39(3) 2018 91

hebben beoordeeld. De resultaten van deze kleinschalige studie lieten zien dat het oordeel van leraren na een training in het werken met beoordelingsschalen inderdaad betrouwbaarder wordt: de standaardafwijking nam af van.76 naar.37. Ook gaven deelnemende leraren aan dat ze de beoordelingsschalen een praktisch bruikbaar instrument vinden waarmee ze zowel de teksten van leerlingen zouden willen beoordelen, als de ontwikkeling van leerlingen zouden willen volgen. Conclusie Uit onderzoek is gebleken dat beoordelingsschalen met ankerteksten een goed middel zijn voor het beoordelen van tekstkwaliteit (Bouwer & Koster, 2016). In een kort onderzoeksproject hebben wij de praktische toepasbaarheid van het werken met beoordelingsschalen nader bekeken. Het grote voordeel van het werken met deze manier van beoordelen is dat het makkelijk wordt om relatief snel tot een betrouwbaar summatief oordeel te komen over de schrijfprestaties van een leerling, waardoor belangrijke beslissingen over overgaan of zittenblijven, wel of geen extra ondersteuning, beter geïnformeerd kunnen worden genomen. Om de beoordelingschalen in te kunnen zetten voor summatieve oordelen, is grootschalig normeringsonderzoek nodig, om het niveau per leerjaar nauwkeurig te bepalen. In de huidige vorm zijn de beoordelingsschalen vooral geschikt voor formatieve beoordeling, om inzicht in de schrijfontwikkeling van leerlingen. Met behulp van de beoordelingsschaal krijgt een leraar informatie over de prestaties van zijn leerlingen, en daarmee waardevolle feedback over de effectiviteit van zijn schrijfinstructie. Verder geeft een beoordelingsschaal de mogelijkheid om de prestatie van individuele leerlingen met elkaar te vergelijken en met het gemiddelde van de klas. Bovendien bieden de schalen ook de mogelijkheid om met de leerling in gesprek te gaan over zijn tekst: waar zou hij zelf zijn tekst plaatsen en ziet hij wat er nodig is om een volgende stap op de schaal te kunnen maken? Het grootste nadeel van het werken met beoordelingsschalen is dat de ontwikkeling van dit type schalen erg veel tijd kost. Op basis van onze ervaringen hiermee lijkt het niet haalbaar voor leraren om zelf eigen schalen te ontwikkelen. Om scholen te faciliteren om deze manier van In de huidige vorm zijn de schalen vooral geschikt voor formatieve beoordeling. beoordelen te ervaren, zijn de schalen die wij in ons onderzoek hebben ontwikkeld en getest, gratis te downloaden (https://www.awonderwijs.nl/wp-content/uploads/2018/05/schaal-betogende-teksten-iselinge.pdf). Wij hopen dat de schalen op deze manier hun weg vinden naar de onderwijspraktijk, waardoor er meer informatie beschikbaar komt over de praktische toepasbaarheid van de beoordelingsschalen. Om hier echt iets over te kunnen zeggen, is meer onderzoek op grotere schaal en over langere tijd nodig. Hierbij moet ook worden gekeken of het noodzakelijk is om leraren te trainen in het werken met deze schalen, en hoe intensief deze training zou moeten zijn. Dit project heeft laten zien dat het mogelijk is om beoordelingsschalen te ontwikkelen voor groep 4 tot en met groep 8. Dit was een uitdaging, omdat eerdere schalen zich beperkten tot een kleinere doelgroep, zoals bijvoorbeeld groep 6 tot en met 8 (Bouwer & Koster, 2016) of klas 1 van 92 "Goed gedaan, maar kan nog beter " - ontwikkelingsgericht beoordelen van leerlingteksten

het voortgezet onderwijs (Pollman et al., 2012). Het voordeel van het kunnen plaatsen van alle leerjaren op dezelfde schaal, is dat het dan mogelijk wordt om de ontwikkeling van een leerling over de leerjaren heen te volgen. Bij adequate instructie en voldoende oefening schuift een leerling idealiter steeds verder naar rechts op de schaal. Blijft die ontwikkeling uit, dan is dat een indicatie dat hij behoefte heeft aan meer (of andere) ondersteuning. Op deze manier geeft de schaal de leraar behalve informatie over de individuele leerling, ook feedback over de effectiviteit van het gegeven schrijfonderwijs. Het is onze overtuiging dat het werken met beoordelingsschalen leraren helpt om te bepalen wat kwaliteitsbepalende factoren van een tekst zijn. Zodra zij daar meer inzicht in hebben, zal hun instructie en de feedback die zij op de teksten van hun leerlingen geven meer gericht zijn op de communicatieve functie van de tekst. Schrijven is, samen met lezen en rekenen, één van de belangrijkste basisvaardigheden van het basisschoolcurriculum en verdient daarom binnen de lerarenopleiding een prominente plaats in het taalcurriculum. Het is belangrijk dat aanstaande leraren tijdens hun opleiding goed leren op welke tekstaspecten zij hun feedback en beoordeling het beste kunnen richten. Het werken met beoordelingsschalen voorkomt dat zij eenzijdig op vormaspecten (taalverzorging en spelling) focussen. Om lerarenopleidingen te faciliteren die met beoordelingsschalen aan de slag willen gaan, hebben wij naast de beoordelingsschalen een beknopte handleiding ontwikkeld. Deze handleiding kan tevens worden gebruikt voor het vormgeven van trainingen. De handleiding is te downloaden op https://www.awonderwijs.nl/wp-content/uploads/2018/05/teksten-beoordelen-brochure-iselinge.pdf Referenties Barkaoui, K. (2011). Effects of marking method and rater experience on ESL essay scores and rater performance. Assessment in Education: Principles, policy & practice, 18(3), 279-293. Besselink, E., & Seinhorst, E. (2016). Mijn pen heeft iets te vertellen. Doetinchem: Iselinge Hogeschool. Besselink, E., Seinhorst, E., & Snijders, I (2017). Ik vind iets, en jij? Een wereld vol meningen. Doetinchem: Iselinge Hogeschool. Bouwer, R., & Koster, M. (2016). Bringing writing research into the classroom: The effectiveness of Tekster, a newly developed writing program for elementary students (Ongepubliceerd proefschrift). Utrecht: Universiteit Utrecht. Breland, H. M. (1983). The direct assessment of writing skill: A measurement review. ETS Research Report Series, 1983(2). New York: College Entrance Examination Board. Feenstra, H. (2014). Assessing writing ability in primary education: on the evaluation of textquality and text complexity. (Ongepubliceerd Proefschrift). Enschede: Universiteit Twente. Lesterhuis, M., Donche, V., De Maeyer S., Van Daal, T., Van Gasse, R., Coertjens, L., Verhavert, S.,Mortier, A., Coenen, T., Vlerick, P. (2015). Competenties kwaliteitsvol beoordelen: brengt een comparatieve aanpak soelaas? Tijdschrift voor hoger onderwijs, 33(2), 55-67. Pollmann, E., Prenger, J., & Glopper, K. D. (2012). Het beoordelen van leerlingteksten met behulp van een schaalmodel. Levende Talen Tijdschrift, 13(3), 15-24. Rijlaarsdam, G., Van den Bergh, H., Couzijn, M., Janssen, T., Braaksma, M., Van Steendam, E., & Raedts, M. (2012). Writing. In K.R. Harris, S. Graham & T. Urdan (Eds.), APA educational psychology handbook: Application to learning and teaching (Volume 3) (pp. 189-228). Washington D.C.: American Psychological Association. Sadler, D. R. (2009). Indeterminacy in the use of preset criteria for assessment and grading. Assessment & Evaluation in Higher Education,34(2), 159-179. Van Daal, T., Lesterhuis, M., Coertjens, L., Donche, V., & De Maeyer, S. (2016). Validity Tijdschrift voor Lerarenopleiders, 39(3) 2018 93

of comparative judgement to assess academic writing: examining implications of its holistic character and building on a shared consensus. Assessment in Education: Principles, Policy & Practice, 1-16. Wesdorp, H. (1981). Evaluatietechnieken voor het moedertaalonderwijs. 's Gravenhage: Staatsuitgeverij. 94 "Goed gedaan, maar kan nog beter " - ontwikkelingsgericht beoordelen van leerlingteksten