Verantwoord testgebruik Fairness in het Cotan beoordelingssysteem Dr. Remko van den Berg(NOA) r.vdberg@noa-vu.nl Dr. Bas Hemker (Cito) bas.hemker@cito.nl Dr. Jorg Huijding (EUR) huijding@fsw.eur.nl www.noa-vu.nl
Inhoud presentatie Introductie Inleiding: wat cijfers en onderzoek Activiteiten NIP Internationale richtlijnen Cotan beoordelingssysteem Vragen/discussie NOA, www.noa-vu.nl
Dr. Bas Hemker Wetenschappelijk onderzoeker Cito Psychometrisch Onderzoeks- en Kenniscentrum (POK) Lid van de Commissie Testaangelegenheden Nederland (COTAN) van het NIP Onderzoek naar onderwijsniveau in Nederland, effect van motivatie op prestaties, en diverse psychometrische onderwerpen NOA, www.noa-vu.nl
Dr. Jorg Huijding Universitair docent Erasmus Universiteit Rotterdam sectie klinische psychologie Lid van de COTAN commissie Onderzoek naar informatieverwerkingsprocessen die een rol spelen bij het ontstaan en voortbestaan van angst(stoornissen) bij kinderen NOA, www.noa-vu.nl
Dr. Remko van den Berg Directeur NOA (psychologisch adviesbureau) Lid van de Commissie Testaangelegenheden Nederland (COTAN) van het NIP Ontwikkeling multicultureel toepasbare psychologische tests NOA, www.noa-vu.nl
Verantwoord testgebruik - Fairness Toepasbaarheid van tests bij verschillende groepen Persoonlijke kenmerken die niet van belang zijn voor de te meten eigenschap mogen geen invloed hebben op de resultaten Denk aan etniciteit, geslacht, leeftijd
Cijfers: Nederlandse situatie 16,5 miljoen inwoners 3,3 miljoen allochtonen (20%) 1.7 miljoen eerste generatie 1.6 miljoen tweede generatie 1,8 miljoen niet-westers allochtoon (11%)
Amsterdam: 50% allochtonen
Cijfers: verschillen in testscores Voorbeelden van persoonlijkheidstests www.noa-vu.nl
ABV verschillen autochtonen-1e generatie allochtonen 1,2 1 0,8 0,6 0,4 0,2 0-0,2-0,4-0,6 Antillianen Surinamers Marokkanen Turken NOA, www.noa-vu.nl
NPV Verschillen autochtonen, 1e generatie & 2e generatie niet-westerse allochtonen 1,20 1,00 0,80 0,60 0,40 d 0,20 0,00-0,20-0,40-0,60 2e generatie 1e generatie NOA, www.noa-vu.nl
Voorbeeld in een schoolsituatie Vaardigheid van leerlingen bij Taal: Spelling, Woordenschat en Begrijpend Lezen Rekenen: Getallen en bewerkingen, Breuken e.d., Meten e.a. Per thuis-taal-groep: NLs vs 4 andere
Gemiddelden op de vaardigheidsschalen
Effecten van een andere taal dan Nederlands (ongecorrigeerd)
Effecten van een andere taal dan Nederlands (gecorrigeerd 1)
Effecten van een andere taal dan Nederlands (gecorrigeerd 2/DS)
Niet alleen Herkomst of Thuistaal Kleurenblindheid Informatie uit plaatjes Linkshandig versus rechtshandig Reactietijden op de computer Geslacht Leeftijd www.noa-vu.nl
Vraag- of testpartijdigheid Wanneer verschillende groepen anders op een vraag of test reageren zonder dat deze groepen van elkaar verschillen op de eigenschap die wordt gemeten www.noa-vu.nl
Historie NIP - allochtonen 1990 LBR/NIP Commissie Hofstee Tests beperkt bruikbaar. 2001 LBR/NIP Deskundigen over het testen van etnische minderheden 2005 LBR/NIP Richtlijnen gebruik diagnostische instrumenten bij etnische minderheden www.noa-vu.nl
Conclusies In de afgelopen 20 jaar is er wel vooruitgang geboekt: verschillende proefschriften, nieuwe tests, richtlijnen, aandacht Echter: kennis in het veld nog vaak beperkt en bij veel tests geen onderzoek en gegevens beschikbaar
2011 Vraag vanuit NIP bestuur aan Cotan: Onderzoek of het Cotan beoordelingssysteem uitgebreid kan worden met een extra criterium gericht op fairness
Fairness bij psychologische tests Fairness houdt in dat constructirrelevante persoonlijke karakteristieken geen effect hebben op testresultaten of de interpretatie van deze resultaten (naar ETS, 2001)
Fairness - Verenigde Staten APA code: fairness belangrijkste aandachtspunt bij het beoordelen van de kwaliteit van tests Standards for educational and psychological testing: deel 2 (van 3) geheel gewijd aan fairness
Cotan - beoordelingssysteem Zeven beoordelingscriteria Uitgangspunten testconstructie Kwaliteit testmateriaal Kwaliteit handleiding Normen Betrouwbaarheid Begripsvaliditeit Criteriumvaliditeit
Cotan systeem - fairness Fairness aspecten komen bij de verschillende criteria naar voren (vergelijkbaar met standards) Echter: Niet goed zichtbaar Beoordeling Voldoende mogelijk bij ontbreken onderzoek fairness
Aanpassing gewenst? Vraag: hebben gebruikers (psychologen, opdrachtgevers, clienten) voldoende informatie om toepasbaarheid test te beoordelen?
Belanghebbenden Psychologen - testgebruikers Testontwikkelaars uitgevers Cliënten Opdrachtgevers
Hoe fairness beter zichtbaar maken? Opties: 1. Achtste beoordelingscriterium 2. Fairness keurmerk 3. Aanvullende beschrijving
Optie: Achtste criterium Voordelen Duidelijk Nadelen Systeem niet meer coherent (dubbele beoordelingen) Herbeoordeling bestaande tests Wanneer voldoende voor alle mogelijke diversiteitgroepen? Veel extra kostbaar onderzoek nodig
Achtste criterium Mogelijke consequentie bij veel tests onvoldoende voor fairness: Lopen we niet het risico dat tests dan helemaal niet meer gebruikt kunnen worden? Zie recente uitspraak College van Toezicht - NIP
Optie: Keurmerk Voordelen Specifiek voor bepaalde groepen mogelijk (allochtonen, dyslectici, doven etc.) Geen herbeoordeling nodig Positieve benadering Nadelen Vrijwillig Geen goede vergelijking mogelijk Welke groepen zinvol en mogelijk
Optie: Aanvullende beschrijving Voordelen Meer inzicht in uitgevoerd onderzoek Nadelen Beoordeling blijft achterwege Minder duidelijk Alleen bij nieuwe tests?
Vervolg Artikel in De Psycholoog Input van belanghebbenden Aanpassing Cotan beoordelingsysteem
Discussie Waarom naar deze workshop? Hoeveel in de praktijk te maken met Fairness? In hoeverre COTAN informatie al gebruikt? In welke vorm zou u geïnformeerd willen worden over de Fairness van een test?