Een toepassing van D-PAC

Vergelijkbare documenten
Competenties kwaliteitsvol beoordelen

Competenties kwaliteitsvol beoordelen

De leerkansen die comparatief beoordelen biedt

Een jaar na het winnen van de Prijs voor Examens. Marije Lesterhuis & Roos Van Gasse NVE congres 2019

De kansen die comparatief beoordelen biedt

Meten we wat we willen meten?

Comparatief beoordelen: (Hoe) werkt dat?

15/11/ 17. Peer assessment. Welke oplossingen biedt D-PAC. Maarten Goossens.

SIG (Digitaal) Toetsen en Leren Integreren

De kracht van paarsgewijs vergelijken voor het beoordelen van competenties. Prof. dr. L. Coertjens

D-PAC feedback op organisatieniveau

Teksten beoordelen met criterialijsten of via paarsgewijze vergelijking: een afweging van betrouwbaarheid en tijdsinvestering

D-PAC event 15 november 2017

D-PAC event 15 november 2017

Goed, beter, best. Eenvoudig en betrouwbaar beoordelen met D-PAC

Titel: Competenties kwaliteitsvol beoordelen: brengt een comparatieve aanpak soelaas?

Beoordelen van leeruitkomsten en de rol van de werkplek daarbij. Projectteam HAN Werkplekleren 23 januari 2017

SPOORBOEKJE. Introductie Rondleiden is een vak! Workshop gebruiken van instrumenten Ervaringen met instrumenten Vragen

E-Portfolio inzet / programmatisch toetsen Master Diergeneeskunde SURF Seminar E-portfolio s in het hoger onderwijs 1 juni 2018 Dr. F.

EXAMINERING IN DE BEROEPSPRAKTIJK: HET EFFECT VAN UITWISSELING. Liza Goos en Dagmar Blom-Korevaar

Een comparatieve aanpak voor peer assessment: leren door te vergelijken

"Organisatie op scherp"

"Goed gedaan, maar kan nog beter "

16/06/2014 CRITERIUMGERICHT INTERVIEW HET GEBRUIK VAN CRITERIUMGERICHT INTERVIEW IN EEN EVC-PROCEDURE

Leer Opdrachten ontwerpen voor Blended Learning

Innovatieve vormen van leren, wat betekent dat voor toetsen?

De rol van de schoolleider bij het systematisch gebruiken van data voor onderwijsverbetering

Leerwegonafhankelijke beoordeling

Een toetsprogramma om van te leren. Platform leren van toetsen 2 juni 2017 Wendy Peeters en Nienke Zijlstra

FiT. Mastering Financiality. In tien maanden tijd je circle of influence vergroten

Het authentieke portfolio als instrument in het zelfsturend leren van professionals

21ste-eeuwse vaardigheden:

Studenten maken de rubric zelf Comparative Judgement als methode om studenten succescriteria en standaarden te laten formuleren

Ingrediënten voor een innovatief datalab

Kwaliteitseisen. 4.1 Praktijk Reflectie Kwaliteitseisen voor toetsing Portfolio 30

Welkom! Peer feedback in online onderwijs. Over de mooie uitdaging van implementatie en verankering. 9 oktober

Voorwaarden voor effectieve formatieve toetsing

Stimuleer jouw strategieimplementatieproces

Beoordelen van Beoor co co--assistenten assistenten Praktijk ve Praktijk v rsus theorie Marjan Govaerts

Voorbereidingsopdrachten voor de bijeenkomsten van de basistraining

Voorstel workshop ETV.nl

Evidence Based Practice

Formatief en Digitaal Informatievaardigheden Meten (DIM) Caroline Timmers & Amber Walraven

BVNT Programma

Personeelsselectie: Van de theorie naar de praktijk

TWEEDETAALVERWERVING EN NT2-DIDACTIEK

Skillslab en programmatisch toetsen

KTWT module rekenen-wiskunde. Rekenen is leuker als je denkt

Leren Zichtbaar maken. Masterclass Simea congres Monique van der Knaap Annelies Baarends 7 april 2017

HOE STEM OPTIMAAL INZETTEN IN DE LERARENOPLEIDING?

Het Maastrichtse Model

Comparative Judgement als methode om studenten succescriteria en standaarden te laten formuleren

BEOORDELEN VAN GEÏNTEGREERDE WISKUNDIGE ACTIVITEITEN

Formatieve toetscompetenties: een systematische analyse van formatieve toetspraktijken in de klas

Planning opleiding

Evalueren bij afstuderen. OOF Bachelortoets

11/8/2016. Academisch Schrijven in het curriculum. Opzet van deze bijeenkomst. Academisch schrijven. Toepassing in curriculum.

Dialoogregels. Wees zo open mogelijk. Wees nieuwsgierig. Neem de tijd die je nodig hebt, maar niet meer dan dat. Je hoeft geen mensen te overtuigen.

Inclusief werken als oplossing. Hoe organisaties met het branchediploma WoonHulp mensen met een beperking een betaalde baan aan kunnen bieden.

Formatief evalueren: succescriteria, het ontwikkelen van een neus voor kwaliteit. Bas Trimbos Gerdineke van Silfhout

Zin in leren door de zin van het leren. (Luc Stevens)

Creatief onderzoekend leren

Scrum maakt leren zichtbaar

HELDER KRIJGEN VAN VRAAG EN BEHOEFTE VAN DOELGROEP

Leren van een assessment. Workshop IVG Scholingsdag Toetsing Eric Entken en Titia van Eijndhoven 12 november 2012

Nederlandse samenvatting

Dashboards in Google Analytics. Inhoud 1. KPI s voor dashboards... 2

FEEDBACK ALS INTEGRAAL ONDERDEEL VAN LEREN EN OPLEIDEN JORIK ARTS & MIEKE JASPERS 1 JUNI 2018

Opdracht. Voorkennis Basale kennis van het proces van formatief evalueren.

Kwaliteitsdashboard Amstelring

Preffi 2.0: Preventie Effectmanagement Instrument. Ontwikkeling,validiteit, betrouwbaarheid en bruikbaarheid

Feedback op Toetsen. Renske de Kleijn. Onderwijskundig onderzoeker en adviseur Centrum voor Onderwijs en Leren - UU. 5 april 2016

COMPETENTIETOETSEN DOMEIN APPLIED SCIENCE ANTOINETTE VAN BERKEL HOGESCHOOL VAN AMSTERDAM 23 MAART 2017

Portfoliobegeleidingsbijeenkomst. Centrale vraag. Hoe kan ik het leren op mijn werkplek zo. inrichten, dat ik mijn beroepscompetenties

2. Vertekeningen en heuristieken. 4. Drie manieren om te beslissen

DIGITAAL TOETSEN, CASUS AVANS. Eky Fioole / Jan Snijders Leer- en Innovatiecentrum. Eky Fioole en Jan Snijders

Portfoliobegeleidingsbijeenkomst. Welkom

Het activeren van voorkennis afhankelijk van de expertise van de student

Toetsing en examinering bij accreditaties. door Inge de Jong

Aan de slag met toetsgegevens: van valkuil naar stappenplan. Jan Vanhoof. SOK-studiedag 7 december 2012

Het Kompas. Iip Conferentie het Liemers college. Transform to the power of digital

SCALA: Efficiënt tussentijds feedback geven op schriftelijke werkstukken

Toetsen in de praktijk

[DIA MET TITEL+COVER HIER]

Programma. De datateam methode: Van boeiend onderzoek naar beter onderwijs. Opbrengstgericht werken Aan de slag met de Datateam methode

Partnerschap Academische Opleidingsschool. Anje Ros en Linda Keuvelaar FHKenE

Feedback middels formatief toetsen

Welkom! Durven leren van elkaar. Naar een feedbackcultuur in het hoger onderwijs. 7 juni. Festival Leren van Toetsen Fontys Lerarenopleiding Tilburg

VRAGENLIJST FORMATIEF TOETSEN DOCENT

TIPS & TO PS O F A SSESSM EN T. Radha Chierkoet & Milly Kock THINKFESTIVAL

Hoe rijk is een GP ervaring? Proeven en Opbrengst Gericht Werken: Hoe zit dat?

Onderzoek Module 10.3 Het empirisch onderzoek ontwerpen. Master Innovation & Leadership in Education

AANMELDING VOOR DE DECENTRALE SELECTIE OPLEIDING TOEGEPASTE PSYCHOLOGIE HOGESCHOOL VAN ARNHEM EN NIJMEGEN (HAN) STUDIEJAAR

Toelating Master Design!

De Competentiemeter: doelgericht evalueren

The football stadium as classroom. Exploring a program for at-risk students in secondary vocational education Door: Marieke Fix

Puberbrein als Innovatiekans. Beschrijving van de 4 basiscompetenties

REFLECTIEVERSLAG POP ANIO Afdeling Cardiologie

Julia Kasch & Peter van Rosmalen Welten conferentie 18 maart 2016

Transcriptie:

16-11-2017 Comparatief beoordelen binnen onderzoek en onderwijs Een toepassing van D-PAC Sven De Maeyer Renske Bouwer Tine van Daal San Verhavert Marije Lesterhuis Maarten Goossens Roos Van Gasse 1

2 Wat zijn jouw verwachtingen?

3 Overzicht Waarom comparatief beoordelen? Theoretische achtergrond Comparatief beoordelen in de praktijk Voorwaarden om een comparatief assessment op te zetten Hands-on: D-PAC try-out LUNCH Hands-on: resultaten en analyses

4 Waarom comparatief beoordelen? Theoretische achtergrond

5 So you think you can judge?! Danser 1 Danser 2 Danser 3 Danser 4 -> Criteria? Beoordelingsschaal? -> Moeilijkheden? Problemen?

6 Comparatief beoordelen... Wie is de beste danser????

7 Waarom comparatief beoordelen? Holistisch and relatief (Pollitt, 2012) Gedeelde consensus ~ groep van beoordelaars (van Daal et al., 2016) Gebruik van expertise (Pollitt, 2012; Jones et al., 2015) => Verhoogt validiteit! (Jones & Inglis, 2015; Pollitt & Crisp, 2004; Pollitt, 2012) Breed toepasbaar (e.g., Heldsinger & Humphry, 2010; Jones & Alcock, 2014; Pollitt, 2012): Competenties die moeilijk te vervatten zijn in criteria Verwachte verschillen in antwoorden Performances

8 Informatie uit comparatief beoordelen Bradley-Terry-Luce model: Kwaliteitsscores (in logits) met betrouwbaarheidsinterval Rangorde Scale Separation Reliability Geeft schatting van interbeoordelaars betrouwbaarheid (Verhavert, 2017) Misfit data voor beoordelaars Welke beoordelaars hebben een andere kijk (in vergelijking met de gedeelde consensus van beoordelaars?) Misfit data voor representaties Welke representatie(s) zijn moeilijk te beoordelen?

9 Rangorde met kwaliteitsscores

10 Misfit van beoordelaars

11 Geschiedenis van comparatief beoordelen Bramley 1927 2004 2009 2007 Thurstone Pollitt 2014-2017 Kimbell

12 Comparatief beoordelen in de praktijk...

13 Implementatie in de praktijk Comparatief beoordelen om complexe groepsbeslissingen te maken, monitoren of verbeteren Waarom? - Vergelijken is makkelijker en betrouwbaarder dan absoluut beoordelen (Laming, 2004; Thurstone, 1927) - De rangorde geeft de gedeelde consensus van beoordelaars weer (van Daal et al., 2017) - Geeft inzicht in de mate waarin beoordelaars of representaties afwijken van de groepsconsensus

14 Praktijkvoorbeelden van comparatief beoordelen - Summatieve beoordeling van competenties - Prioriteren van ideeën of agendapunten - Selectie van cv s, portfolio s, projectvoorstellen

15 Praktijkvoorbeelden van comparatief beoordelen Als tool om te leren: - Formatieve beoordeling & peer assessment - Professionalisering van beoordelaars

Taak 1: Bedenk een casus - Hoe zou jij comparatief beoordelen kunnen gebruiken in jouw (onderzoeks)context? Welke doelen & vragen heb je daarbij? - Waarmee dien je rekening te houden bij de implementatie van comparatief beoordelen in jouw (onderzoeks)context? Denk aan verschillende actoren, doelen, taken, etc. 16

17 Voorwaarden om een comparatief assessment op te zetten

18 Voorwaarden voor valide & betrouwbare resultaten Bij gebruik van random paarsgewijze vergelijking: - Aantal vergelijkingen? - Aantal en kenmerken van beoordelaars? Andere algoritmes voor selectie van paren: - Adaptief algoritme - Plaatsingsalgoritme - Equal views - Triplets

19 Hoeveel vergelijkingen voor betrouwbare resultaten? Verschillende assessments = andere resultaten

20 Meta-analyse van betrouwbaarheid 49 assessments in D-PAC gemiddelde betrouwbaarheid =.79 (.49 to.99) aantal representaties: 84 (6 to 1089) aantal beoordelaars: 29 (4 to 127) verschillende representaties en competenties in verschillende contexten (onderwijs, onderzoek, werkplek) Verhavert, Bouwer, De Maeyer, & Donche, in prep

21 Resultaten meta-analyse Effect van kenmerken van assessments op betrouwbaarheid: Aantal vergelijkingen per representatie Totaal aantal vergelijkingen Aantal beoordelaars Aantal vergelijkingen per beoordelaar Type representaties (tekst, video, audio, beelden) Type feedback (geen, comparatief, pros/cons) Expertise van beoordelaar (experts, novices, peers) Verhavert, Bouwer, De Maeyer, & Donche, in prep

22 Aantal vergelijkingen SSR 0.70: 8-12 vergelijkingen per representatie SSR 0.80: 16-20 vergelijkingen per representatie Verhavert, Bouwer, De Maeyer, & Donche, in prep

23 Aantal vergelijkingen per beoordelaar Voor een bijkomende toename van 0.01 in SSR: +20 vergelijkingen per beoordelaar Verhavert, Bouwer, De Maeyer, & Donche, in prep

24 Aantal en kenmerken van beoordelaar Geen effect van beoordelaar op betrouwbaarheid, maar Meer beoordelaars: - Verhogen de generaliseerbaarheid van de resultaten: groep consensus (Van Daal et al., 2017) - Verhogen de validiteit van de resultaten: verschillen tussen beoordelaars (Lesterhuis et al., 2017)

25 Focus van beoordelaars Beoordelaars vergelijken teksten op verschillende, maar relevante aspecten van schrijven Omdat meerdere beoordelaars de vergelijkingen maken, is de rangorde een weergave van de volledige competentie schrijfvaardigheid. Van Daal, Lesterhuis, Coertjens, Donche & De Maeyer, 2017

26 Kenmerken beoordelaars 1. Selectie 2. Training & instructie

27 Selectie beoordelaars: verschillen ze? Docenten, docenten in opleiding en docentenopleiders: - Aantal jaren ervaring niet relevant - Achtergrond niet relevant Lesterhuis, Bouwer, De Maeyer, & Donche, 2017

28 Selectie beoordelaars: is iedereen geschikt? ER-schema s - Studenten.73 - Docenten.77 r =.62 Moodboards - Studenten.81 &.73 - Docenten.71 r =.65 & r =.63 Zelfreflecties - Docenten.77 - Nitwits.73 r =.57

29 Effect van training en instructie Casus 1: geen instructie Teksten 18 & 27 aangepast met typische NT2 fouten Spruyt, 2017

30 Effect van training en instructie Casus 2: Informatieve teksten, niet taalconventies! 8 studenten 6 studenten 7 studenten Instructie Instructie Instructie Getypte teksten Getypte teksten Handgeschreven + spelfouten 225 vergelijkingen 225 vergelijking 225 vergelijkingen SSR=.86 (.80 met 6 studenten) SSR=.77 SSR=.82 30 minuten training R =.83 R =.78 R =.88 Bouwer, Lesterhuis, De Smedt, Van Keer, & De Maeyer, 2017

31 Effect van training en instructie Bouwer, Lesterhuis, De Smedt, Van Keer, & De Maeyer, 2017

32 Voorwaarden voor valide & betrouwbare resultaten Bij gebruik van random paarsgewijze vergelijking: - Aantal vergelijkingen? - Aantal en kenmerken van beoordelaars? Andere algoritmes voor selectie van paren: - Adaptief algoritme - Plaatsingsalgoritme - Equal views - Triplets

33 Adaptief algoritme Adaptieve versus random CB Paren worden samengesteld o.b.v. informatie (Pollitt, 2012) Efficiënter MAAR: Betrouwbaarheid is vertekend (zie Bramley, 2015)

34 Plaatsingsalgoritme: het beste van beiden? Een tweetraps aanpak in CB Fase 1: een betrouwbare schaal met random algoritme Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag: Hoe betrouwbaar moet de referentieschaal zijn en hoeveel vergelijkingen zijn nodig voor een accurate plaatsing van nieuwe representaties?

35 Plaatsingsalgoritme: in de praktijk CB sessie in samenwerking met International Baccalaureate 160 essays, 15 beoordelaars en 28 vergelijkingen per essay (SSR = 0.92) Vier referentiesets van 140 essays met variërende SSR-waarden:.50,.70,.80 en.92 Terugplaatsen van 20 essays o.b.v. het plaatsingsalgoritme (Maximum Fisher Information met verschillende stopcriteria: betrouwbaarheid van.70,.80, en na 10 vergelijkingen) Furlong, Verhavert, Bouwer, & De Maeyer, 2017

36 Resultaten van een tweetraps aanpak in CB Furlong, Verhavert, Bouwer, & De Maeyer, 2017

37 Een tweetraps aanpak in CB Wat kunnen we concluderen o.b.v. deze resultaten? Fase 1: creëer een referentieset met een minimale betrouwbaarheid van.80 Fase 2: plaats nieuwe representaties adaptief en gebruik een stopcriterium van.80 Furlong, Verhavert, Bouwer, & De Maeyer, 2017

38 Equal views Zijn er situaties waarin het gewenst (of noodzakelijk) is dat alle beoordelaars alle representaties zien tijdens het vergelijken?

39 Equal views Oplossing: Equal views algoritme

40 Triplets? 3 representaties rangschikken i.p.v. 2 vergelijken Efficiënter? En wat met de betrouwbaarheid?

41 Triplets?

42 Triplets? Correlatie van kwaliteitsschattingen

43 Triplets? Onderzoeken van...: Hoe implementeer je triplets in een tool? Hoe ervaren beoordelaars triplets? Wat als representaties zeer veel informatie bevatten?...

Taak 2: Pas wat je leerde toe op jouw casus - Pas wat je leerde toe op de casus die je ontwikkelde in taak 1 - Hoe zou je het CB assessment opzetten voor jouw specifieke cases? Wees zo specifiek mogelijk 44

45 Hands-on: D-PAC Try-out

46 D-PAC Try-out - Maak enkele vergelijkingen: Log in de tool: https://sandbox.d-pac.be Ga naar Beoordeel > D-PAC Event Posters - Bekijk de resultaten: Ga naar Results > D-PAC Event Posters

47? WELKE LUNCH KIES JE?

Taak 3: Brainstorm over de analyse - Welke (onderzoeks)vragen kunnen we onszelf stellen bij de D-PAC try-out? - Welke (bijkomende) analyses zijn nodig om die vragen te beantwoorden? 48

49 Hands-on: Jamovi / R analyses

50 Overzicht - Opzet van de CJanalyses module in Jamovi Importeren van de data Analyse van de betrouwbaarheid van het CJ assessment Enkele grafieken Misfits Aantal vergelijkingen / beoordelaar Aantal vergelijkingen / representatie Aantal beoordelaars / representatie Tijdsanalyses Evolutie van de betrouwbaarheid

Taak 4: Reflectie - Kijk terug naar jouw casus in taak 1: welke analyse moet je doen voor het beantwoorden van jouw vragen? - Kun je nog extra vragen bedenken bij jouw casus? Wat zijn de implicaties hiervan voor het opzetten en uitvoeren van het assessment? 51

www.d-pac.be d-pac@uantwerpen.be 52