Koppeling Staatsexamens NT2 aan het Europees Raamwerk (ERK) De standaardisatiefase uitgelicht Laura van Hofwegen 2009-2010, uitgevoerd i.s.m. Henk Kuijper en Matthieu Brinkhuis
Inleiding Aan de orde komen: procesbeschrijving doel koppelingsonderzoek Staatsexamens NT2 specificatiefase (korte toelichting) standaardisatieprocedure resultaten & checks vragen
Fasen koppeling aan ERK Specificatie: inhoudelijke beschrijving aan de hand van illustratieve ERK-schalen en descriptoren Standaardisatie: experts koppelen ERKniveaus aan de examenopgaven Empirische validatie: psychometrische validatie van de gegevens uit de standaardisatieprocedure
Doel van de examens en het onderzoek Doel staatsexamens NT2 is niet: het ERK-niveau van kandidaten meten. Wel: meten taalbeheersing t.b.v. startkwalificatie studie of baan. Doelen onderzoek: Aantonen algemeen niveau examens Vergelijking huidige cesuren met cesuren gekoppeld aan ERK-niveaus Informatie verstrekken aan examencommissie en andere stakeholders
Specificatiefase Onderzoek naar dekking examens aan de hand van ERK-schalen. Uitkomsten: Gemiddeld: - Opgaven programma I -> B1 - Opgaven programma II -> B2 Programma II: aantoonbaar hoger niveau abstractie, grammaticale complexiteit en vocabulaire.
Standaardisatieprocedure: werkwijze Te nemen stappen in standaardisatiefase: 1. Familiarisatie: experts verder bekend maken met ERK 2. Training met voorbeeldopgaven 3. Standaardbepaling 4. Data-analyse ter validering van de standaarden
Standaardisatieprocedure: methode Mandjesmethode bij de volgende vraag: Welk ERK-niveau moet een kandidaat minimaal beheersen om deze opgave correct uit te voeren? Mandjes: A1 / A2 / B1 / B2 / C1 / C2 Iedere opgave -> mandje gerelateerd aan een van de ERK-niveaus Aanname: kandidaten met hoger niveau dan gekozen mandje dienen ook het goede antwoord te kunnen geven.
Samenstelling expertpanel Uitgangspunten: - afnemers examens in ruime mate vertegenwoordigd - goed bekend met ERK Twee panels: - 11 experts voor leesvaardigheid - 10 experts voor luistervaardigheid
Familiarisatie en training Korte introductie Bekendheid met ERK vergroten: - twee sorteeroefeningen - discussie over onderscheidende kenmerken van de diverse niveaus Training met voorbeeldopgaven plus discussie per opgave.
Het beoordelingsproces Stap 1: (individueel) niveaus toekennen aan opgaven. Stap 2: Discussie over opgaven met de laagste overeenstemming. Hierna kan iedere expert opnieuw een oordeel geven. Er is geen unaniem oordeel nodig.
Resultaten: niveaubepaling Beoordelaars (LEZEN) 1 2 3 4 5 6 7 8 9 10 11 G P I 3,2 3,2 3,4 3,2 3,1 3,5 3,5 3,4 3,6 3,1 3,2 3,3 P II 3,8 3,8 4,2 4,1 3,9 4,2 4,1 4,0 4,0 4,0 3,8 4,0 Beoordelaars (LUISTEREN) 1 2 3 4 5 6 7 8 9 10 G P I 3,0 3,0 3,2 3,1 3,4 3,3 3,4 3,4 3,0 3,4 3,2 P II 3,6 3,6 4,0 3,7 3,9 3,9 4,0 3,9 3,6 3,8 3,8
Grensscores bepalen Twee criteria ter bepaling van de grensscore voor niveau X: 100%-criterium: alle opgaven van niveau X en de onderliggende niveaus correct uitvoeren; 80%-criterium: alle opgaven van de onderliggende niveaus en 80% van niveau X.
Aantal goed te beantwoorden opgaven voor beheersing ERK-niveaus Beoordelaars Lezen programma I 1 2 3 4 5 6 7 8 9 10 11 G 80%-criterium A2 2 2 1 2 6 2 1 2 1 6 1 2 B1 25 24 19 25 24 16 19 20 14 27 24 22 B2 38 38 37 38 37 34 33 36 34 37 38 36 100%-criterium A2 3 2 1 2 7 2 1 2 1 8 1 3 B1 30 30 24 31 28 20 23 24 17 32 30 26 B2 40 40 40 40 39 37 36 39 38 38 40 39
Grensscores vergeleken met huidige cesuur voor Lezen LEZEN I grensscore ruwe score proportie geslaagd Bestaande cesuur 499/500 27/28 59% B1 grensscore 80% 478/479 21/22 86% B1 grensscore 100% 492/493 25/26 69% LEZEN II Bestaande cesuur 499/500 26/27 59% B2 grensscore 80% 510/511 28/29 46% B2 grensscore 100% 538/539 33/34 22%
Claim op koppeling beargumenteren m.b.v. resultaten en enkele checks Procedure beschrijven (transparantie) Vergelijking met specificatiefase Kwaliteit expertpanel ( checks ): - Omvang panel - Beoordelaarsovereenstemming - Beoordelaarsbetrouwbaarheid Variantie-analyse Resultaten relateren aan empirische gegevens
Vergelijking met specificatiefase Lezen Luisteren
Check: mate van overeenstemming tussen beoordelaars (Luisteren)
Check: beoordelaarsbetrouwbaarheid en -overeenstemming en variantie-analyse Lezen Beoordelaarsbetrouwbaarheid.95.92 Luisteren Beoordelaarsovereenstemming bij resp. 11 en 10 beoordelaars (Rho2) Geschatte bijdrage van variantiecomponenten.94.91 Opgaven 60% 50% Beoordelaars 4% 8% Residu (interactie, fout) 36% 43%
Check: analyse van de individuele beoordelaars (lezen) Beoordelaars 1 2 3 4 5 6 7 8 9 10 11 Totaal Gem. 3,49 3,51 3,79 3,61 3,50 3,86 3,79 3,66 3,80 3,53 3,54 3,64 Delta 0,16 0,13 0,14 0,03 0,14 0,22 0,14 0,02 0,16 0,12 0,11 0,12 Rbt 0,86 0,90 0,83 0,86 0,87 0,78 0,77 0,75 0,71 0,83 0,83 0,82
Check: benodigd aantal panelleden (lezen)
Relatie met empirische gegevens
Conclusies 1) De standaardisatieprocedure is nooit volledig objectief. 2) Vanwege de onzekerheden in het proces is het van belang transparantie te geven over de gevolgde werkwijze. 3) Door checks op de kwaliteit van de procedures van beoordelaarsgedrag en de relatie tussen de standaardbepaling en empirische data uit te voeren kan de claim op een relatie tussen examen en ERK worden versterkt.
Vragen?