16-11-2017 Comparatief beoordelen binnen onderzoek en onderwijs Een toepassing van D-PAC Sven De Maeyer Renske Bouwer Tine van Daal San Verhavert Marije Lesterhuis Maarten Goossens Roos Van Gasse 1
2 Wat zijn jouw verwachtingen?
3 Overzicht Waarom comparatief beoordelen? Theoretische achtergrond Comparatief beoordelen in de praktijk Voorwaarden om een comparatief assessment op te zetten Hands-on: D-PAC try-out LUNCH Hands-on: resultaten en analyses
4 Waarom comparatief beoordelen? Theoretische achtergrond
5 So you think you can judge?! Danser 1 Danser 2 Danser 3 Danser 4 -> Criteria? Beoordelingsschaal? -> Moeilijkheden? Problemen?
6 Comparatief beoordelen... Wie is de beste danser????
7 Waarom comparatief beoordelen? Holistisch and relatief (Pollitt, 2012) Gedeelde consensus ~ groep van beoordelaars (van Daal et al., 2016) Gebruik van expertise (Pollitt, 2012; Jones et al., 2015) => Verhoogt validiteit! (Jones & Inglis, 2015; Pollitt & Crisp, 2004; Pollitt, 2012) Breed toepasbaar (e.g., Heldsinger & Humphry, 2010; Jones & Alcock, 2014; Pollitt, 2012): Competenties die moeilijk te vervatten zijn in criteria Verwachte verschillen in antwoorden Performances
8 Informatie uit comparatief beoordelen Bradley-Terry-Luce model: Kwaliteitsscores (in logits) met betrouwbaarheidsinterval Rangorde Scale Separation Reliability Geeft schatting van interbeoordelaars betrouwbaarheid (Verhavert, 2017) Misfit data voor beoordelaars Welke beoordelaars hebben een andere kijk (in vergelijking met de gedeelde consensus van beoordelaars?) Misfit data voor representaties Welke representatie(s) zijn moeilijk te beoordelen?
9 Rangorde met kwaliteitsscores
10 Misfit van beoordelaars
11 Geschiedenis van comparatief beoordelen Bramley 1927 2004 2009 2007 Thurstone Pollitt 2014-2017 Kimbell
12 Comparatief beoordelen in de praktijk...
13 Implementatie in de praktijk Comparatief beoordelen om complexe groepsbeslissingen te maken, monitoren of verbeteren Waarom? - Vergelijken is makkelijker en betrouwbaarder dan absoluut beoordelen (Laming, 2004; Thurstone, 1927) - De rangorde geeft de gedeelde consensus van beoordelaars weer (van Daal et al., 2017) - Geeft inzicht in de mate waarin beoordelaars of representaties afwijken van de groepsconsensus
14 Praktijkvoorbeelden van comparatief beoordelen - Summatieve beoordeling van competenties - Prioriteren van ideeën of agendapunten - Selectie van cv s, portfolio s, projectvoorstellen
15 Praktijkvoorbeelden van comparatief beoordelen Als tool om te leren: - Formatieve beoordeling & peer assessment - Professionalisering van beoordelaars
Taak 1: Bedenk een casus - Hoe zou jij comparatief beoordelen kunnen gebruiken in jouw (onderzoeks)context? Welke doelen & vragen heb je daarbij? - Waarmee dien je rekening te houden bij de implementatie van comparatief beoordelen in jouw (onderzoeks)context? Denk aan verschillende actoren, doelen, taken, etc. 16
17 Voorwaarden om een comparatief assessment op te zetten
18 Voorwaarden voor valide & betrouwbare resultaten Bij gebruik van random paarsgewijze vergelijking: - Aantal vergelijkingen? - Aantal en kenmerken van beoordelaars? Andere algoritmes voor selectie van paren: - Adaptief algoritme - Plaatsingsalgoritme - Equal views - Triplets
19 Hoeveel vergelijkingen voor betrouwbare resultaten? Verschillende assessments = andere resultaten
20 Meta-analyse van betrouwbaarheid 49 assessments in D-PAC gemiddelde betrouwbaarheid =.79 (.49 to.99) aantal representaties: 84 (6 to 1089) aantal beoordelaars: 29 (4 to 127) verschillende representaties en competenties in verschillende contexten (onderwijs, onderzoek, werkplek) Verhavert, Bouwer, De Maeyer, & Donche, in prep
21 Resultaten meta-analyse Effect van kenmerken van assessments op betrouwbaarheid: Aantal vergelijkingen per representatie Totaal aantal vergelijkingen Aantal beoordelaars Aantal vergelijkingen per beoordelaar Type representaties (tekst, video, audio, beelden) Type feedback (geen, comparatief, pros/cons) Expertise van beoordelaar (experts, novices, peers) Verhavert, Bouwer, De Maeyer, & Donche, in prep
22 Aantal vergelijkingen SSR 0.70: 8-12 vergelijkingen per representatie SSR 0.80: 16-20 vergelijkingen per representatie Verhavert, Bouwer, De Maeyer, & Donche, in prep
23 Aantal vergelijkingen per beoordelaar Voor een bijkomende toename van 0.01 in SSR: +20 vergelijkingen per beoordelaar Verhavert, Bouwer, De Maeyer, & Donche, in prep
24 Aantal en kenmerken van beoordelaar Geen effect van beoordelaar op betrouwbaarheid, maar Meer beoordelaars: - Verhogen de generaliseerbaarheid van de resultaten: groep consensus (Van Daal et al., 2017) - Verhogen de validiteit van de resultaten: verschillen tussen beoordelaars (Lesterhuis et al., 2017)
25 Focus van beoordelaars Beoordelaars vergelijken teksten op verschillende, maar relevante aspecten van schrijven Omdat meerdere beoordelaars de vergelijkingen maken, is de rangorde een weergave van de volledige competentie schrijfvaardigheid. Van Daal, Lesterhuis, Coertjens, Donche & De Maeyer, 2017
26 Kenmerken beoordelaars 1. Selectie 2. Training & instructie
27 Selectie beoordelaars: verschillen ze? Docenten, docenten in opleiding en docentenopleiders: - Aantal jaren ervaring niet relevant - Achtergrond niet relevant Lesterhuis, Bouwer, De Maeyer, & Donche, 2017
28 Selectie beoordelaars: is iedereen geschikt? ER-schema s - Studenten.73 - Docenten.77 r =.62 Moodboards - Studenten.81 &.73 - Docenten.71 r =.65 & r =.63 Zelfreflecties - Docenten.77 - Nitwits.73 r =.57
29 Effect van training en instructie Casus 1: geen instructie Teksten 18 & 27 aangepast met typische NT2 fouten Spruyt, 2017
30 Effect van training en instructie Casus 2: Informatieve teksten, niet taalconventies! 8 studenten 6 studenten 7 studenten Instructie Instructie Instructie Getypte teksten Getypte teksten Handgeschreven + spelfouten 225 vergelijkingen 225 vergelijking 225 vergelijkingen SSR=.86 (.80 met 6 studenten) SSR=.77 SSR=.82 30 minuten training R =.83 R =.78 R =.88 Bouwer, Lesterhuis, De Smedt, Van Keer, & De Maeyer, 2017
31 Effect van training en instructie Bouwer, Lesterhuis, De Smedt, Van Keer, & De Maeyer, 2017
32 Voorwaarden voor valide & betrouwbare resultaten Bij gebruik van random paarsgewijze vergelijking: - Aantal vergelijkingen? - Aantal en kenmerken van beoordelaars? Andere algoritmes voor selectie van paren: - Adaptief algoritme - Plaatsingsalgoritme - Equal views - Triplets
33 Adaptief algoritme Adaptieve versus random CB Paren worden samengesteld o.b.v. informatie (Pollitt, 2012) Efficiënter MAAR: Betrouwbaarheid is vertekend (zie Bramley, 2015)
34 Plaatsingsalgoritme: het beste van beiden? Een tweetraps aanpak in CB Fase 1: een betrouwbare schaal met random algoritme Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag: Hoe betrouwbaar moet de referentieschaal zijn en hoeveel vergelijkingen zijn nodig voor een accurate plaatsing van nieuwe representaties?
35 Plaatsingsalgoritme: in de praktijk CB sessie in samenwerking met International Baccalaureate 160 essays, 15 beoordelaars en 28 vergelijkingen per essay (SSR = 0.92) Vier referentiesets van 140 essays met variërende SSR-waarden:.50,.70,.80 en.92 Terugplaatsen van 20 essays o.b.v. het plaatsingsalgoritme (Maximum Fisher Information met verschillende stopcriteria: betrouwbaarheid van.70,.80, en na 10 vergelijkingen) Furlong, Verhavert, Bouwer, & De Maeyer, 2017
36 Resultaten van een tweetraps aanpak in CB Furlong, Verhavert, Bouwer, & De Maeyer, 2017
37 Een tweetraps aanpak in CB Wat kunnen we concluderen o.b.v. deze resultaten? Fase 1: creëer een referentieset met een minimale betrouwbaarheid van.80 Fase 2: plaats nieuwe representaties adaptief en gebruik een stopcriterium van.80 Furlong, Verhavert, Bouwer, & De Maeyer, 2017
38 Equal views Zijn er situaties waarin het gewenst (of noodzakelijk) is dat alle beoordelaars alle representaties zien tijdens het vergelijken?
39 Equal views Oplossing: Equal views algoritme
40 Triplets? 3 representaties rangschikken i.p.v. 2 vergelijken Efficiënter? En wat met de betrouwbaarheid?
41 Triplets?
42 Triplets? Correlatie van kwaliteitsschattingen
43 Triplets? Onderzoeken van...: Hoe implementeer je triplets in een tool? Hoe ervaren beoordelaars triplets? Wat als representaties zeer veel informatie bevatten?...
Taak 2: Pas wat je leerde toe op jouw casus - Pas wat je leerde toe op de casus die je ontwikkelde in taak 1 - Hoe zou je het CB assessment opzetten voor jouw specifieke cases? Wees zo specifiek mogelijk 44
45 Hands-on: D-PAC Try-out
46 D-PAC Try-out - Maak enkele vergelijkingen: Log in de tool: https://sandbox.d-pac.be Ga naar Beoordeel > D-PAC Event Posters - Bekijk de resultaten: Ga naar Results > D-PAC Event Posters
47? WELKE LUNCH KIES JE?
Taak 3: Brainstorm over de analyse - Welke (onderzoeks)vragen kunnen we onszelf stellen bij de D-PAC try-out? - Welke (bijkomende) analyses zijn nodig om die vragen te beantwoorden? 48
49 Hands-on: Jamovi / R analyses
50 Overzicht - Opzet van de CJanalyses module in Jamovi Importeren van de data Analyse van de betrouwbaarheid van het CJ assessment Enkele grafieken Misfits Aantal vergelijkingen / beoordelaar Aantal vergelijkingen / representatie Aantal beoordelaars / representatie Tijdsanalyses Evolutie van de betrouwbaarheid
Taak 4: Reflectie - Kijk terug naar jouw casus in taak 1: welke analyse moet je doen voor het beantwoorden van jouw vragen? - Kun je nog extra vragen bedenken bij jouw casus? Wat zijn de implicaties hiervan voor het opzetten en uitvoeren van het assessment? 51
www.d-pac.be d-pac@uantwerpen.be 52