Een rondreis door het land van evalueren, toetsen en beoordelen. Prof. dr. Mien Segers Maastricht University
Kernthema s in assessment/evaluatie onderzoek sinds 2000
Overzichtsstudies Impact van evalueren op studenten Zgn. nieuwe evaluatievormen Peer assessment Self assessment Portfolio assessment Performance assessment en gebruik van rubrics
1. Impact van evalueren Even terug in de tijd Jouw studententijd Welke toets- /beoordelingservaring zal je nooit vergeten? Wat is er toen precies gebeurd?
Een stapje terug in de geschiedenis: 70 s and 80 s Hidden curriculum : wat en hoe wordt geëvalueerd is voor studenten de belangrijkste indicator van wat belangrijk is (Snyder,1971) systemic validity (Frederiksen et al, 1984,1998); consequential validity (Messick, 1989; Shephard, 1993, 1997) constructive alignment (Biggs, 1999) Washback of backwash effect van toetsing (Messick, 1996) Pre-, post, and pure assessment effect (Nevo, 1995)
Impact of assessment Eerste studies van Scouller & Prosser (1995, 1998); Tang (1994): studiestrategieën Bailey (1996) overzichtsstudie: washback concept bij evalueren in het talenonderwijs 2000-2015 review studies Harlen & Crick (2003), impact van evalueren op de motivatie van studenten Al-Kadri et al (2012), invloed van evalueren op studiestrategieën
Harlen & Crick (2003) Het verhogen van de consequenties van evaluaties leidt tot een verhoging van: examenvrees druk op de studenten om goed te presteren als gevolg van de aspiraties van ouders en leerkrachten teaching to the test praktijken, die veelal leiden tot transmissie aanpak in het onderwijs en studenten met sequentiële leerstijlen test prep activiteiten waarbij studenten zich richten op test-taking strategies ipv op de leerdoelen en vervallen in oppervlakkig studiegedrag
Evalueren en studiestrategieën Hoewel de resultaten van de eerdere studies directe relaties tussen evaluatiepraktijken en studiestrategieën indiceerden, toonden latere studies aan dat deze relatie vrij complex is Gielen, S., Dochy, F., & Dierick, S. (2003) Segers, M., Nijhuis, J., & Gijselaers, W. (2006) Segers, M., Gijbels, D., & Thurlings, M. (2008) Segers, M., Martens, R., & Van den Bossche, P. (2008) Gijbels, D., Segers, M., & Struyf, E (2008)
AL-KADRI, AL-MOAMARY, ROBERTS & VAN DER VLEUTEN (2012) Hoe belangrijker de consequenties van summatieve evaluaties, hoe meer impact op het studiegedrag. Formatieve evaluaties leiden tot meer diepgaand studiegedrag dan summatieve evaluaties Studenten swingen van de ene studiestrategie naar de andere
Studenten hebben opvattingen over wat de cognitieve vereisten zijn van bepaalde evaluatievormen en gedragen zich overeenkomstig; evaluatievormen waar men weinig ervaring mee heeft onzekerheid terugvallen op gedrag dat eerder tot succes leidde
Implicaties voor de evaluatiepraktijk Strategisch design van de evaluatiepraktijk op programmaniveau Kernvragen: wat is het beoogde uitstroomprofiel? Waar in het curriculum worden studenten ondersteund in het ontwikkelen van beoogde competenties? Wat zijn de relevante momenten om besluiten te nemen in de studievoortgang en welke informatie is dan meest relevant? Een duidelijke en consistent ingevoerde visie op evalueren vanaf dag 1 in het programma. Dialoog met studenten
2. Nieuwe vormen van evalueren Self assessment Peer assessment Portfolio assessment Performance assessment,
Wat heeft 15 jaar onderzoek ons geleerd?
(1) Self assessment There are three things extremely hard: steel, a diamond, and to know one s self (B. Franklin, 1750)
Self-assessment verwijst naar de betrokkenheid van studenten in het evalueren van hun leerproces en leeropbrengsten (Boud and Falchikov, 1989) Eerdere overzichtsstudies: Mabe and West, 1982 Alliger et al, 1997 Dochy et al, 1999
Sitzmann, Ely, Brown, & Bauer (2010) + Sterke samenhang tussen self-assessment scores en motivation en tevredenheid (2 affectieve opbrengstmaten) + Matige samenhang tussen self-assessment scores and scores op cognitieve testen/toetsen.
Focus op voortgang ipv uitkomsten Self assessment Condities voor het realiseren van meer overeenkomst tss student- en docentscores F2F instructie en blended vs webbased Gebruik van dezelfde evaluatiecriteria Cognitive Learning outcomes Inhoud van opleidingsonderdeel feedback Oefenen met & fb op SA vaardigheden
(2) Peer assessment Studenten evalueren de kwantiteit, kwaliteiten en opbrengsten van het leren van medestudenten van gelijke status. (Topping 1998) Reviews Topping, 1998 Dochy et al, 1999 Falchikov & Goldfinch, 2000 Speyer et al, 2011 Van Gennip et al, 2009 Li et al, 2016
Li, YXiong, Zang, Kornhaber, Lyu, Chung & Suen (2016) Veel aandacht voor de mate van overeenkomst tussen studentscores en docentscores Resultaten wijzen op vrij robuuste samenhang (.63) Samenhang is groter onder bepaalde condities (masterprogramma s, paperbased; niet-anoniem; vrijwillig; toelichting bij scores; criteria vaststellen in dialoog)
Opbrengsten van peer assessment? Condities? Van Gennip, Segers en Tillema, 2009
Sinds1990: 15 (refereed) empirische studies 11 studies: positieve effecten; 1 studie: geen verbeterde prestatie, welke positievere perceptie; 1 studie wijst op indirecte positieve effecten. De positieve leereffecten zijn niet gerelateerd aan hoe peer assessment wordt georganiseerd. Belang van psychologische veiligheid in de peer group en vertrouwen in de peer assessor (beperkt aantal studies). Belang van training in/ ervaringen met peer assessment
(3) Portfolio assessment Een doelgerichte verzameling van (voorbeelden van) leeropbrengsten Geeft een duidelijk inzicht in beheersingsniveau van de student voor beoogde competenties Heeft primair als doel competentieontwikkeling zichtbaar te maken Student is verantwoordelijk voor het verzamelen en rapporteren van de evidentie Bevat reflectie: wat wil ik bereiken? Waar sta ik nu? Wat zijn de volgende te nemen stappen? (Tillema, 2003)
Review studies Mc Mullan et al (2003): Portfolios and assessment of competence (nurse education) Buckley et al (2009): educational effects of portfolios on undergraduate student learning (health domain) Burner (2014): portfolio assessment in second and foreign language writing contexts
Buckley et al, 2009 Burner, 2014 Opbrengsten van portfolio assessment: Groei in kennis en inzicht; in kunnen integreren van theorie en praktijk; in schrijfvaardigheden (vreemde talenonderwijs) Meer bewustzijn van eigen kennen en kunnen; meer reflectie (kwaliteit reflectie?) Meer zelfregulatie en zelfverantwoordelijkheid Betere feedback naar studenten en meer informatie voor docenten over leerbehoeften van studenten
Medisch onderwijs: helpt studenten om te gaan met moeilijke professionele situaties; bereidt voor op postgraduaatopleidingen waarin reflective practice is vereist (Buckley et al) e-portfolios: vergeleken met paper-based portfolios meer mogelijkheden voor opslaan van verschillende types van evidentie en voor geven van schriftelijke feedback; nog steeds technische problemen (Burner) Nadeel: Tijdsinvestering voor studenten en docenten
(4) Performance assessment
Performance assessment Gebruik van opdrachten die van studenten vereisen dat ze hun kennis en vaardigheden tonen Vereisen van studenten higher-order thinking skills, zoals het beoordelen van de betrouwbaarheid van bronnen, synthetiseren van informatie om conclusies te trekken, inductief/deductief redeneren om een probleem op te lossen (Stanford school redesign network, 2008) Voorbeelden: vaardigheidstoetsen, projecten, opdrachten, stages,
Overzichtsstudies Redfern et al. (2002) Validity of performance assessments in nursing (observation of actual situated behavior, clinical portfolios, simulations such as the OSCE) Howley (2004)Validity, reliability and impact of technique of the standardized or simulated patient (SP) (medical education) Kogan et al. ( 2009) validity and effects of direct observation of medical trainees' clinical skills with actual patients by educational supervisors
Beoordeling van stages, projecten, Gebruik van rubrics
Een document dat duidelijk maakt wat de verwachtingen zijn bij een opdracht door het benoemen van de criteria en het beschrijven van de beheersingsniveau (excellent tot zwak).
Reddy, Y. M., & Andrade, H. (2010); Panadero, E., & Jonsson, A. (2013); Jonsson, A., & Svingby, G. (2007). Overzichtsstudies Gebruik van rubrics wordt meestal als positief ervaren door studenten en docenten Gezamenlijke ontwikkeling van rubrics resulteert in helderheid over wat wordt verwacht, faciliteert daardoor feedback en reflectie
Overzichtsstudies Gebruik leidt tot meer uniforme interpretatie van evaluatiecriteria Meer transparantie = minder stress, meer zelfregulatie, meer self-efficacy betere prestaties
Conclusies Evalueren heeft een grote en brede impact op motivatie en studiegedrag van studenten. Hoe zwaarder de consequenties van de evaluatie, hoe groter de impact. Consistent en transparante toetspraktijk op curriculumniveau draagt er toe bij dat evaluaties de gewenste impact hebben.
Conclusies Self-assessment and peer assessment: vooral onderzoek naar samenhang tss studentscores en docentscores. Bij gebruik van peer assessment, verbeteren de prestaties van studenten; belang van psychologische veiligheid, vertrouwen en training
Conclusies Portfolio assessment: cognitieve and metacognitieve opbrengsten (medische opleidingen en vreemdetalenonderwijs). Aandacht vereist voor mate van zelfsturing en reflectie & feedback Performance assessment en gebruik van rubrics: meer transparantie en daardoor minder stress, meer gerichte feedback; beiden dragen bij tot leerwinst.