46 de psycholoog / april 2012



Vergelijkbare documenten
Verantwoord testgebruik

COTAN: kwaliteit van tests en testgebruik

De beoordeling van tests en toetsen door de COTAN: Meetinstrumenten de maat genomen Arne Evers

Q1000 Richtlijnen voor verantwoord testgebruik

Personeelsselectie: Van de theorie naar de praktijk

21/09/2018 CULTUUR EN PSYCHODIAGNOSTIEK WIE INHOUD. Caroline Dejonghe

Deskundigen over het testen van etnische minderheden

Overzicht NIP-publicaties

Informatie over de deelnemers

Pesten onder Leerlingen met Autisme Spectrum Stoornissen op de Middelbare School: de Participantrollen en het Verband met de Theory of Mind.

TECHNISCHE HANDLEIDING IQ TEST

Vacature voor een opleidingsplaats GZ-psycholoog

Het Verband Tussen Persoonlijkheid, Stress en Coping. The Relation Between Personality, Stress and Coping

Citation for published version (APA): Egberink, I. J-A. L. (2010). Applications of item response theory to non-cognitive data Groningen: s.n.

Bedoeling van dit werkcollege:

Q1000 Persoonlijkheid

De Relatie tussen Angst en Psychologische Inflexibiliteit. The Relationship between Anxiety and Psychological Inflexibility.

Ondersteuning bij sollicitatie

Succesvolle toepassing van 360 graden feedback: De keuze van het 360 instrument en de voorbereiding op het 360 traject

De ontwikkeling van een video-

De Relatie Tussen Persoonskenmerken en Ervaren Lijden bij. Verslaafde Patiënten met PTSS

Wijzigingen opbrengstbeoordeling in het primair onderwijs Februari 2011

Postmaster opleiding systeemtherapeut

Psychologisch onderzoek

NIO & 10 jaar aanvullend intelligentieonderzoek. Dr. H. van Dijk

Gedragstrainer VGCt Hubert van der Kleij, directeur VGCt

Conferentie Studiesucces

Preffi 2.0: Preventie Effectmanagement Instrument. Ontwikkeling,validiteit, betrouwbaarheid en bruikbaarheid

Rapportgegevens Marketing en sales potentieel test

Cultuurfair beroepskeuze assessment. 2 november Edwin van den Akker.

Mondriaan. Mondriaan. in vogelvlucht. Mondriaan. voor geestelijke gezondheid

GEDRAGSMANAGEMENT. Inleiding. Het model. Poppe Persoonlijk Bas Poppe:

AANMELDING VOOR DE DECENTRALE SELECTIE OPLEIDING TOEGEPASTE PSYCHOLOGIE HOGESCHOOL VAN ARNHEM EN NIJMEGEN (HAN) STUDIEJAAR

VOORBEELDRAPPORT MARKETING EN SALES POTENTIEEL TEST

- Geplaatst in VISUS EBM IN DE OPTOMETRIE: HOE PAS JE HET TOE?

WORKSHOP: Wat zijn uw eigen competenties?

Samenvatting (Summary in Dutch)

Inhoudsopgave. Inleiding 13. Leeswijzer en website 23. Deel 1. Het diagnostisch proces. Inleiding deel I 33

omschrijven wat je ermee bedoelt. Dat geldt dus ook voor dom en de vraag of je dat met een IQ-test kunt meten. Dan naar een ander aspect van de

Samenvatting. Doet kunst goed? DE BETEKENIS VAN KUNST OP RECEPT IN NIEUWEGEIN. Maarten Kwakernaak Freek de Meere Maaike van Kapel

Rapport 834 Oud, W., & Emmelot, Y. (2010). De visitatieprocedure cultuurprofielscholen. Amsterdam: Kohnstamm Instituut.

De Invloed van Perceived Severity op Condoomgebruik en HIV-Testgedrag. The Influence of Perceived Severity on Condom Use and HIV-Testing Behavior

Relatie tussen Cyberpesten en Opvoeding. Relation between Cyberbullying and Parenting. D.J.A. Steggink. Eerste begeleider: Dr. F.

Ouderen migranten en (psycho)psychiatrie. Meten is weten?

BENELUX RESEARCH PROJECT.

De ins en outs van een assessment center programma

TOEPASBAARHEID VAN ENKELE PSYCHOLOGISCHE TESTS BIJ PERSONEELSBEOORDELING BIJ ETNISCHE MINDERHEDEN NIP. Intersector. sectie Interculturalisatie

Toetskwaliteit is jouw verantwoordelijkheid. Bernard Veldkamp en Theo Eggen Conferentie Servicepunt examinering mbo Maart 2014

Vrijstellingen-procedure Masteropleidingen Fysiotherapie Nederland

Welke vragenlijst voor mijn onderzoek?

Neuropsychologisch onderzoek bij kinderen Vakgebied dat de relatie bestudeert tussen het gedrag en de werking van de hersenen

Diagnostiek de Ambelt. Resultaat boeken. de Ambelt. Ons aanbod

Inschatting wilsbekwaamheid volgens KNMG richtlijn

Welkom. Neem contact op zodat wij aan de hand van uw situatie specifieker kunnen aangeven wat wij kunnen betekenen. Werkgever. Werknemer.

Nederlands Instituut van Psychologen inzagerecht testgegevens

Vaardighedentoets (Portfolio) gezondheidszorgpsycholoog diagnostiek en indicatiestelling (volwassenen en ouderen)

Hebben mannen en vrouwen gelijke kansen. bij selectieproeven met intelligentietests? Samenvatting

Werving Kernteam Psychologen

AUTISME CENTRAAL AUTISME CENTRAAL. Auti goed gevoel vragenlijst

De beste prijs-kwaliteit verhouding?

Q1000 Persoonlijkheid

WHITE PAPER. Top 6 meest zinvolle assessmomenten. talent assessment. 6. kans op contraproductief gedrag in de werkomgeving

De rol van de gedragskundige. LVB en Verslaving Workshopronde 1 Slotbijeenkomst Trimbos

Competenties in kaart

Validatie van de Depressie lijst (DL) en de Geriatric Depression Scale (GDS-30) bij Verpleeghuisbewoners

Rapportage voor Saffier De Residentiegroep. Lerende Evaluatie: De stand voor de transitie naar een nieuw woonzorgconcept

Relatie tussen Persoonlijkheid, Opleidingsniveau, Leeftijd, Geslacht en Korte- en Lange- Termijn Seksuele Strategieën

De diagnostische tussentijdse toets

Het meetinstrument heeft betrekking op de volgende categorieën Lichaamsregio Overige, ongespecificeerd

De medisch psycholoog

Factsheet persbericht. Helft allochtone stagiairs vermoedt discriminatie bij sollicitatie

Mentaal Weerbaar Blauw

HET ASSESSMENT INFORMATIE

Nederlandse samenvatting

Deze test moet in januari tot en met mei van groep 8 worden afgenomen.

Toekomstwijzer Sectie Neuropsychologie SPS-NIP

Predictieve validiteit van Cebirtests. Studie 1: criteriumvaliditeit in de bewakingsector

Postmaster opleiding diagnostiek en behandeling (SG)LVB

Ouderlijke Controle en Angst bij Kinderen, de Invloed van Psychologische Flexibiliteit

Woord vooraf. Arne Evers, Wouter Lucassen, Rob Meijer en Klaas Sijtsma April 2010

De Relatie tussen Betrokkenheid bij Pesten en Welbevinden en de Invloed van Sociale Steun en. Discrepantie

Inleiding. Johan Van der Heyden

10 tips voor begrijpelijke AWBZ-formulieren

Leerlingtevredenheidsonderzoek

Multiculturele sensitiviteit in selectieprocedures

Informatie Piet Roordakliniek. Tactus

Voor wie is Q1000 Drijfveren interessant?

Executief Functioneren en Agressie. bij Forensisch Psychiatrische Patiënten in PPC Den Haag. Executive Functioning and Aggression

Innovatieve dienstverlening. Een scenario-onderzoek onder de gebruikers van Loket.nl.

Een brede kijk op onderwijskwaliteit Samenvatting

Pijn-Coping-Inventarisatielijst (PCI) Kraaimaat, Bakker & Evers (1997)

het minder belangrijk om ergens bij te horen en belangrijker om elkaar te helpen en hulp te ontvangen, terwijl het omgekeerde patroon gevonden werd

Interculturele psychiatrie en jeugd-ggz

LICHTE COGNITIEVE STOORNISSEN

Inhoud. Ten geleide 7. Woorden vooraf 9 Een overzicht van de inhoud 10

Cultuursensitieve diagnostiek en therapie

Routebeschrijving Auto Als u met de auto komt, neem dan vanaf de A28 afslag Assen- Zuid en volg de borden Wilhelminaziekenhuis of GGZ Drenthe.

Zap-Q persoonlijkheidsvragenlijst

Taal en Connector Ability

Transcriptie:

46 de psycholoog / april 2012 De vraag of psychologische tests verantwoord en fair bij verschillende culturele groepen kunnen worden gebruikt, is al decennia oud. Hoe kunnen bias en fairness beter zichtbaar worden gemaakt in het cotan-beoordelingssysteem? Moet daar een apart criterium voor komen, naast de zeven criteria die er al zijn? Jorg Huijding, Bas Hemker en Remko van den Berg geven een voorzet die moet leiden tot een constructieve dialoog met het werkveld.

de psycholoog / april 2012 47 Verantwoord en fair testgebruik auteurs: jorg huijding, bas hemker en remko van den berg Welke rol heeft de cotan? Verantwoord en fair testgebruik De vraag of psychologische tests verantwoord en onpartijdig gebruikt kunnen worden bij verschillende groepen is al decennia oud. Zo komt regelmatig de vraag terug of intelligentietests de capaciteiten van personen met niet-westerse culturele achtergronden onderschatten. De kwestie van verantwoord testgebruik bij verschillende groepen reikt evenwel verder dan intercultureel testgebruik. Het gaat ook om vragen als: Kan ik deze test wel gebruiken bij mensen met dyslexie? Of: Meet deze test bij mannen en vrouwen wel hetzelfde? De afgelopen jaren is er veel aandacht uitgegaan naar mogelijke partijdigheid van psychologische tests voor etnische minderheidsgroepen. Begin jaren negentig van de vorige eeuw constateerden de testscreeningscommissie van het Landelijk Bureau ter Bestrijding van Rassendiscriminatie (lbr, nu Art.1, zie www.art1.nl) en het Nederlands Instituut voor Psychologen (nip) dat bijna alle psychologische tests in meer of mindere mate gekleurd zijn door de dominante cultuur, ten nadele van culturele minderheden (Hofstee et al., 1990). Omdat tevens testonderzoeksgegevens over de toepasbaarheid van psychologische tests bij etnische minderheden vrijwel ontbraken, was de conclusie dat veel psychologische tests beperkt toepasbaar waren bij etnische minderheden. De commissie-hofstee kwam daarom met de aanbevelingen om tests te herzien op etnocentrische inhoud en terughoudend te zijn met het toepassen van de beschikbare psychologische tests bij sollicitanten uit etnische minderheidsgroepen. Ook adviseerde de commissie meer onderzoek te doen naar testpartijdigheid om de ernstige achterstand op dit gebied te verminderen. Een inventarisatie van de mate waarin de aanbevelingen van de commissie-hofstee elf jaar later waren opgevolgd, leidde tot een teleurstellende conclusie. Behalve dat er sinds 1990 een aantal proefschriften over het thema toepasbaarheid van psychologische tests bij etnische minderheden zijn verschenen (Te Nijenhuis,1996; Van Leest, 1997; Van den Berg, 2001) en de Multiculturele Capaciteiten Test (Bleichrodt & Van den Berg, 1997) op de markt is gebracht, was de situatie niet noemenswaardig verbeterd. Er bleven duidelijke tekortkomingen bestaan in de beschikbare tests, voor wat betreft toepasbaarheid bij etnische minderheden (Bochhah, Kort, Seddik & Van de Vijver, 2001). Gegeven dit gebrek aan geschikte tests publiceerde het lbr/nip in 2005 een set praktische richtlijnen voor verantwoord gebruik van psychologische tests bij etnische minderheden in het kader van selectie en personeelsbeoordeling (Bochhah, Kort & Seddik, 2005a). In aanvulling hierop werd ook een overzicht van de toepasbaarheid van een aantal veelgebruikte psychologische tests bij personeelsbeoordeling bij etnische minderheden uitgebracht (Bochhah, Kort, & Seddik, 2005b). Beide rapporten zijn bedoeld voor alle gebruikers van

48 de psycholoog / april 2012 auteurs: jorg huijding e.a. Kennis over verantwoord testgebruik bij personen met verschillende culturele achtergronden lijkt binnen de eigen beroepsgroep beperkt psychologische tests, dus zowel voor opdrachtgevers, aanbieders en afnemers van de tests als voor de kandidaten zelf. Voor auteurs van met name vaardigheidstoetsen verscheen eerder een publicatie met richtlijnen voor het ontwikkelen van onpartijdige toetsen (Bügel & Sanders, 1998). Deze publicaties zullen in de context van selectie en personeelsbeoordeling hebben bijgedragen aan de bewustwording van de factoren die de testbeoordeling van personen met verschillende culturele achtergronden kunnen beïnvloeden (bijvoorbeeld moeilijkheidsgraad van gebruikte taal, verblijfsduur in Nederland, aantal jaar gevolgd Nederlands onderwijs). Vergelijkbare handvatten ontbreken echter voor testgebruik in andere contexten, zoals die van de klinische diagnostiek. Kennis over verantwoord testgebruik bij personen met verschillende culturele achtergronden lijkt dan ook beperkt, zelfs binnen de eigen beroepsgroep. De rol van de cotan Dat deze kennis beperkt is, blijkt onder meer uit de regelmaat waarmee de Commissie Testaangelegenheden Nederland (cotan) van het nip vragen krijgt over het gebruik van tests bij mensen met een nietwesterse culturele achtergrond. De cotan heeft als doel de kwaliteit van tests en testgebruik in Nederland te bevorderen. Hiertoe beoordeelt zij gevraagd en ongevraagd de kwaliteit van psychodiagnostische instrumenten op zeven criteria: theoretische achtergrond, kwaliteit van het testmateriaal, kwaliteit van de handleiding, normen, betrouwbaarheid, begripsvaliditeit en criteriumvaliditeit. Hoewel er binnen het cotan-beoordelingssysteem veel aandacht is voor de vraag of tests betrouwbaar gebruikt kunnen worden bij verschillende (sub)groepen, vormt deze beoordeling geen apart criterium (Evers, Lucassen, Meijer & Sijtsma, 2009). Een gevolg hiervan is dat het oordeel over dit aspect van een test niet direct zichtbaar is voor testgebruikers. Tegen deze achtergrond heeft de cotan besloten de mogelijkheid te onderzoeken om, naast de al bestaande criteria, een apart beoordelingscriterium te ontwikkelen voor het toetsen van de onpartijdigheid van psychologische tests. Hiertoe is binnen de cotan een fairness -commissie in het leven geroepen die tot doel heeft aanbevelingen te geven over of, en zo ja hoe, fairness beter zichtbaar gemaakt moet worden in het beoordelingssysteem. Deze commissie hecht er belang aan dat haar uiteindelijke aanbevelingen aansluiten bij de behoeften van het werkveld en dat eventuele aanpassingen redelijk zijn voor alle betrokken partijen (i.e., testgebruikers, testontwikkelaars en testbeoordelaars). Het doel van deze forumbijdrage is daarom een dialoog op gang te brengen tussen de cotan en het werkveld: hoe moet er in de cotan-beoordelingen al dan niet meer specifieke aandacht komen voor de aspecten fairness en bias (vertekening)? Deze vraag is niet alleen van belang voor testontwikkelaars en testbeoordelaars, maar ook voor testgebruikers. Verantwoord testgebruik brengt met zich mee dat de testgebruiker zich ook vooraf een oordeel heeft gevormd over de kwaliteit van een test op basis van het testmateriaal en de gegevens in de handleiding; de testgebruiker moet immers niet blind varen op het oordeel van anderen (zoals de cotan). Daarnaast kan het cotan-oordeel alleen op waarde geschat worden als de testgebruiker enig idee heeft waarop het oordeel is gebaseerd. Om deze redenen zullen we in deze bijdrage inzicht geven in de begrippen fairness en bias. Daarnaast beschrijven we hoe de bruikbaarheid van tests voor verschillende groepen in het huidige beoordelingssysteem reeds aan de orde komt. Ook schetsen we drie scenario s hoe de huidige

de psycholoog / april 2012 49 beoordeling kan worden aangepast om het oordeel over de geschiktheid van een test voor verschillende groepen meer zichtbaar te maken. Fairness en bias Hoewel de vraag naar de geschiktheid van een test voor verschillende groepen vooral voortkomt uit de discussie rondom de toepasbaarheid bij verschillende etnoculturele groepen, beperkt deze vraag zich niet daartoe. Fairness betreft de toepasbaarheid van psychologische tests bij verschillende groepen, onafhankelijk hoe die groepen gedefinieerd zijn. Persoonlijke kenmerken die niet van belang zijn voor de te meten eigenschap mogen geen invloed hebben op de testresultaten of op de interpretatie daarvan. Als een test voor bepaalde groepen vertekende resultaten geeft, dan wordt dat vaak aangeduid met de Engelse term bias. De onpartijdige toepassing van een test wordt gewoonlijk aangeduid met de term fairness. In de Verenigde Staten spelen beide termen al geruime tijd een zeer belangrijke rol in de testpraktijk. De American Psychological Association (apa) stelt in haar code voor het afnemen van tests in het onderwijs zelfs dat fairness het belangrijkste aandachtspunt is bij het toetsen en beoordelen van de kwaliteit van een test. In de gezamenlijke standaarden uit 1999 van de apa, de American Educational Research Association (aera) en de National Council on Measurement in Education (ncme) voor tests in het onderwijs en de psychologie neemt fairness een zeer prominente plaats in. In het cotan-beoordelingssysteem voor psychologische tests staat fairness niet op een vergelijkbare manier centraal, elementen die met bias en fairness samenhangen worden echter wel degelijk beoordeeld. Begripsvaliditeit en testbias Bij verantwoord en fair testgebruik moge het duidelijk zijn dat tests waarvan de inhoud voor de doelgroep kwetsend of aanstootgevend kan zijn, vermeden moeten worden. In zowel de Amerikaanse Standards als in het cotan-systeem worden tests hierop inhoudelijk beoordeeld. Onderzoek naar fairness kan verder in grote lijnen worden gezien als een onderzoek naar begripsvaliditeit (maakt de test de meetpretenties waar?). Het gaat daarbij om de vraag of de variatie in scores op een test of een item wordt veroorzaakt door variaties in het te meten construct, of door zaken die daar eigenlijk geen invloed op zouden mogen hebben. Een opmerkelijk verschil in resultaten tussen groepen kan een aanleiding zijn dit nader uit te zoeken. In de Standards wordt hier zowel op het niveau van de testscores als op het niveau van individuele testitems aandacht aan besteed. In het Nederlandse systeem wordt dit beoordeeld bij het criterium begripsvaliditeit van de test. Hier wordt onder andere gevraagd naar gegevens over mogelijke vraagpartijdigheid en de mate waarin de interne structuur van de test de factorstructuur gelijk is voor verschillende groepen. Er is sprake van vraagpartijdigheid wanneer verschillende groepen anders reageren op een bepaalde vraag zonder dat deze groepen van elkaar verschillen op de gemeten eigenschap. In dat geval meet de betreffende vraag dus iets anders dan de test beoogt. Een voorbeeld hiervan is een vraag in een test voor studievaardigheden waarbij gebruikgemaakt moet worden van informatie uit een kleurenplaatje. Is het kleurgebruik in dat plaatje zodanig dat leerlingen die kleurenblind zijn de relevante informatie er niet uit kunnen halen, dan zegt het antwoord op die vraag niets over de studievaardigheid van kinderen met kleurenblindheid. Er is in dit geval duidelijk sprake van vraagpartijdigheid. Dit fenomeen kan ook bij een hele test gevonden worden. Als een onderzoeker reactietijden wil meten met behulp van de computer en hij of zij laat linkshandigen met een rechtshandige muis werken, dan kan dat ook een vertekend beeld geven. In zo n geval is er sprake van testbias. Een manier om testbias te achterhalen is door de interne structuur van een test (de samenhang tussen de verschillende vragen) te onderzoeken. Als die interne structuur heel anders is voor verschillende groepen, dan kan dit een aanwijzing zijn voor testbias. Bij een intelligentietest mag men bijvoorbeeld verwachten dat antwoorden op vragen die het verbale iq meten sterker met elkaar samenhangen dan met antwoorden op vragen die het numerieke iq meten. Dit patroon zou voor alle beoogde groepen naar voren moeten komen. De cotan beoordeelt of er onderzoek wordt gerapporteerd over de gelijkheid van de interne structuur en vraagpartijdigheid van de test alsook wat dat onderzoek heeft opgeleverd. Wanneer uit onderzoek blijkt dat testscores een verschillende betekenis hebben voor verschillende subgroepen, dan moet dit duidelijk vermeld worden in de testhandleiding. Tevens moet worden gewezen op soorten informatie die bij de interpretatie van de testscores van belang kunnen zijn. Ook dit wordt met het cotan-beoordelingssysteem vastgesteld. Testbias komt in het cotan-beoordelingssysteem niet alleen aan de orde bij de begripsvaliditeit (meten we voor alle groepen wat we willen meten?) maar ook bij criteriumvaliditeit. Criteriumvaliditeit gaat over de vraag of variaties in

50 de psycholoog / april 2012 auteurs: jorg huijding e.a. testscores voorspellend zijn voor variaties in bepaald gedrag dat verondersteld mag worden samen te hangen met het construct dat de test beoogt te meten. Wanneer er aanwijzingen zijn dat testscores een verschillende betekenis hebben voor verschillende (sub)groepen, dan moet voor ieder van deze groepen apart onderzocht worden of de test bepaald gedrag adequaat voorspelt. Voorspelt een bepaalde score voor één groep bijvoorbeeld wel adequaat functioneren maar voor een andere groep niet, dan mag duidelijk zijn dat de scores geen eerlijke voorspelling geven voor de beide groepen als hiermee geen rekening wordt gehouden. In het beoordelingssysteem wordt daarom niet alleen nagegaan of er onderzoek naar de criteriumvaliditeit is verricht, maar tevens of dit adequaat is onderzocht voor alle doelgroepen van de test. Er moet dus duidelijk zijn aangegeven wat die doelgroepen zijn en er moet voldoende informatie zijn over de gebruiksmogelijkheden en beperkingen van de test. Het spreekt voor zich dat dit soort verschillen bij voorkeur op voorhand zoveel mogelijk vermeden moeten worden, of anders duidelijk moeten worden besproken in de handleiding. Noodzaak apart criterium voor bias en fairness Hoewel fairness en bias in de Standards een aparte en prominente plaats hebben, stelt de apa dat fairness geen geïsoleerd concept is. Fairness moet beschouwd worden in alle aspecten van een test. Dat is precies wat het huidige Invoering van een achtste criterium heeft een enorme impact op het huidige (en net vernieuwde) beoordelingssysteem cotan-beoordelingssysteem doet. Dat roept de vraag op of extra aandacht voor de beoordeling van fairness en bias nodig is, en zo ja, hoe dat het beste kan. Een belangrijke reden voor extra aandacht is dat beide aspecten in het huidige beoordelingssysteem onvoldoende uit de verf komen. De cotan publiceert op de zeven criteria alleen de eindbeoordelingen. Voor testgebruikers is niet te zien hoe een test scoort op de onderliggende aan fairness en bias gerelateerde items. In theorie is het zelfs mogelijk dat het oordeel op alle zeven criteria voldoende is, terwijl er toch sprake is van bias en de test een onvoldoende verdient qua fairness. Een andere reden waarom het beoordelingssysteem aangepast kan worden, is dat niet voor alle aan fairness en bias gerelateerde items in het huidige systeem expliciet duidelijk is dat deze items ook op die aspecten beoordeeld moeten worden. Een voorbeeld hiervan is de beoordeling van de criteriumvaliditeit; het ontbreken van onderzoek naar de voorspellende waarde bij verschillende groepen leidt niet tot een lagere beoordeling. Als dit wel explicieter wordt beoordeeld, dan stimuleert dit auteurs onderzoek naar verschillen in voorspellende waarde te verrichten. Om een goed oordeel over de fairness van een test te verkrijgen, zouden sommige van de huidige items die betrekking kunnen hebben op fairness en bias dus aangescherpt moeten worden. Drie scenario s Al met al zijn er goede redenen om bias en fairness meer zichtbaar te maken in het cotanbeoordelingssysteem, het is echter niet evident hoe dit het beste kan worden gedaan. Hieronder beschouwen we kort drie scenario s die als startpunt voor een discussie met het veld kunnen dienen. Scenario 1: Een apart beoordelingscriterium voor fairness en bias Het eerste scenario is het toevoegen van een (verplicht) achtste beoordelingscriterium, specifiek gewijd aan fairness en bias. Dit criterium krijgt een vergelijkbare vorm als de bestaande zeven criteria en moet leiden tot een eindbeoordeling onvoldoende, voldoende, of goed. Alle tests worden in dit scenario op fairness en bias beoordeeld en dat wordt ook duidelijk zichtbaar gemaakt voor testgebruikers. Daarnaast worden fairness en bias qua beroordelingsstatus gelijk gesteld aan de overige criteria, om zo meer recht te doen aan het belang van deze aspecten bij een test. Invoering van een achtste criterium zou echter een enorme impact op het

de psycholoog / april 2012 51 Het cotan-oordeel kan alleen op waarde geschat worden als de testgebruiker enig idee heeft waarop het oordeel is gebaseerd onderzoek aan de hand van vooraf opgestelde, transparante criteria. Is er bijvoorbeeld goed onderzoek naar fairness voor geslacht uitgevoerd, dan kan het keurmerk fair voor geslacht toegevoegd worden. Zo wordt meteen duidelijk in welk opzicht de toets fair is. Omdat het keurmerk wordt aangevraagd hoeven niet alle tests opnieuw beoordeeld te worden; testauteurs worden beloond voor verricht werk in plaats van gestraft voor het ontbreken van onderzoek (zoals in het eerste scenario). Dit laatste is van belang omdat het aantal variabelen waarmee onderzoek naar fairness kan worden gedaan zeer groot is. Een belangrijke vraag is of het aantal variabelen waarvoor het keurmerk kan worden verstrekt op voorhand wordt beperkt of dat dit per aanvraag wordt bezien. Het scenario moet namelijk wel werkbaar blijven voor de cotan-beoordelaars. huidige (en net vernieuwde) beoordelingssysteem hebben. Ook roept een dergelijke verandering de vraag op hoe om te gaan met eerder beoordeelde tests. Het lijkt niet realistisch om alle reeds beoordeelde tests opnieuw te beoordelen op dit achtste criterium. Scenario 2: Een keurmerk voor fairness Dit scenario stelt een keurmerk in voor fairness dat aangeeft voor welk aspect of welke aspecten een test fair is. Dat keurmerk kan op eenzelfde wijze functioneren als bijvoorbeeld op artikelen met het keurmerk voor fairtrade. Dat is gebaseerd op duidelijke beoordelingscriteria en heeft als zodanig een belangrijke informatieve meerwaarde, zonder verdere verplichting naar een testauteur (producent) of gebruiker (consument). Testauteurs kunnen zelf aangeven voor welke specifieke variabele(n) zij onderzoek naar fairness hebben verricht en waarvoor ze het keurmerk willen ontvangen. Dit onderzoek moet dan wel gericht zijn op variabelen die direct van belang zijn voor het gebruiksdoel en de beoogde doelgroep van een test. De cotan beoordeelt ook dit Scenario 3: Een aanvullende beschrijving van het onderzoek naar fairness Het derde scenario betreft het aanvullen van de standaardbeoordeling met een beschrijving van het uitgevoerde onderzoek naar fairness en de sterke en zwakke punten ervan. Door het beschrijvende karakter krijgt de testgebruiker op basis van de cotan-informatie meer inzicht in het uitgevoerde onderzoek naar fairness dan een door de cotan geveld oordeel over het onderzoek naar een bepaald aspect van fairness. De beoordeling van het onderzoek is echter wel minder analytisch en minder transparant, met als gevolg dat het subjectieve oordeel van de beoordelaar een grotere rol speelt. Wordt vervolgd Het bovenstaande maakt duidelijk dat het huidige cotan-beoordelingssysteem psychologische tests ook toetst op de mate waarin ze fair zijn en vrij van bias. In het systeem komen dezelfde aan bias en fairness gerelateerde punten voor als in de Amerikaanse teststandaarden. Het is voor testgebruikers echter onvoldoende zichtbaar in welke mate een test fair is en vrij van bias. Deze aspecten worden namelijk verspreid over zeven criteria beoordeeld en vormen geen apart criterium. Daarom zijn drie scenario s voor het vergroten van deze zichtbaarheid nader verkend: het invoeren van een nieuw beoordelingscriterium expliciet gericht op de aspecten fairness en bias, het invoeren van een keurmerk voor fairness en, als derde, het toevoegen van een beschrijving van het verrichte onderzoek naar fairness bij de reguliere beoordeling.

52 de psycholoog / april 2012 auteurs: jorg huijding e.a. Een manier om testbias te achterhalen is door de interne structuur van een test te onderzoeken Literatuur American Educational Research Association, American Psychological Association, & National Council on Measurement in Education (1999). Standards for educational and psychological testing. Washington, DC: American Educational Research Association. Berg, R. H. van den (2001). Psychologisch onderzoek in een multiculturele samenleving. Psychologische tests, interview- en functioneringsbeoordelingen (Academisch proefschrift). Amsterdam: NOA. Bleichrodt, N., & Berg, R. H. van den (1997, 2004). Handleiding MCT-M Multiculturele Capaciteiten Test Middelbaar niveau. Amsterdam: NOA. Bochhah, N., Kort W., Seddik, H., & Vijver, F. van de (2001). Deskundigen over het testen van etnische minderheden. Rotterdam: LBR. Bochhah, N., Kort, W., & Seddik, H. (2005a). Richtlijnen gebruik diagnostische instrumenten bij etnische minderheden. Utrecht: LBR/NIP. Bochhah, N., Kort, W., & Seddik, H. (2005b). Toepasbaarheid van enkele psychologische tests bij personeelsbeoordeling bij etnische minderheden. Utrecht: LBR/NIP. Bügel, K. en Sanders, P.F. (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito (downloadbaar). Evers, A., Lucassen, W., Meijer, R., & Sijtsma, K. (2010). COTAN Beoordelingssysteem voor de kwaliteit van tests. Amsterdam: NIP/ COTAN (downloadbaar). Hofstee, W. K. B., Campbell, W. H., Eppink, A., Joe, R. C., Koppel, J. M. H. van de, Zweers, H., Choenni, C. E. S., & Zwan, T. J. van der (1990). Toepasbaarheid van psychologische tests bij allochtonen. Utrecht: LBR. LBR-serie nr. 11. Leest, P. F. van (1997). Persoonlijkheidsmeting bij allochtonen. De gebruikswaarde van persoonlijkheidsvragenlijsten bij selectie van allochtonen. Lisse: Swets & Zeitlinger. Nijenhuis, J. te (1997). Comparability of test scores for immigrants and majority group members in the Netherlands. Academisch proefschrift, Vrije Universiteit Amsterdam. Een eerste analyse van de mogelijke voor- en nadelen van deze scenario s maakt duidelijk dat er ingrijpende gevolgen kunnen zijn voor het huidige beoordelingssysteem, de beoordeling van bestaande tests en voor testontwikkelaars en testgebruikers. Ongetwijfeld zijn er andere scenario s denkbaar of andere voor- en nadelen aan de beschreven scenario s toe te voegen. Om concrete aanbevelingen te formuleren hoe bias en fairness optimaal zichtbaar te maken, zullen de mogelijke gevolgen verder in kaart gebracht moeten worden. Idealiter gebeurt dit in dialoog met alle partijen voor wie deze ingreep gevolgen heeft. Deze forumbijdrage is mede bedoeld om deze dialoog te stimuleren. Om daar een verdere impuls aan te geven is een symposium in voorbereiding hoe fairness en bias beter zichtbaar te maken in de cotan-beoordelingen. Dhr. dr. J. Huijding is als universitair docent werkzaam bij de sectie Klinische Psychologie van het Instituut voor Psychologie van de Erasmus Universiteit Rotterdam. Postadres: Woudestein, T-13-39, Postbus 1738, 3000 DR Rotterdam. E-mail: Huijding@fsw.eur.nl. Dhr. dr. B. T. Hemker is A&O-psycholoog en psychometricus en is werkzaam als senioronderzoeker bij Cito, Amsterdamseweg 13, 6814 CM Arnhem. E-mail: bas.hemker@cito.nl. Dhr. dr. R.H. van den Berg is directeur van psychologisch adviesbureau NOA, Jollemanhof 14A, 1019 GW Amsterdam. E-mail: r.vdberg@noa-vu.nl. Summary Unbiased and fair use of psychological tests J. Huijding, B. Hemker, R. van den Berg The question whether psychological tests can be used in a fair and unbiased manner for different groups, for instance with different cultural backgrounds, is decades old. The Dutch Committee on Testing and Testing Affairs (cotan) of the Dutch Association of Psychologists (nip) frequently receives questions regarding this issue. For this reason, a committee was recently appointed to provide recommendations about whether and how fairness should be made more visible in the cotan evaluation system for test quality. In order to tune these recommendations with the needs of test users and developers a dialogue is important. In this article the committee takes a first step in order to start this dialogue.

GZ-psycholoog/coördinator (32-36 uur) Affiniteit met ouderenzorg. Voor heel IJsselheem. Woonzorgconcern IJsselheem wil excellente zorg leveren aan ouderen. Het welzijn van de cliënt staat altijd centraal. Hij of zij bepaalt welke zorg nodig is voor een hoge kwaliteit van leven. Om optimale zorg op maat te bieden werken we samen met andere specialismen, zoals ziekenhuizen. Het cluster Psychologie bestaat uit zes Psychologen, twee Psychologisch medewerkers en twee Consultatief Psychiatrisch Verpleegkundigen. We richten ons op ouderen met somatische, psychogeriatrische en psychiatrische problematiek. Deze ouderen wonen zelfstandig, in één van onze woonvormen of komen bij IJsselheem revalideren. We zijn een gedreven team dat zich vakinhoudelijk continu ontwikkelt. Ook aan het organisatiebeleid leveren we een bijdrage. Wat doe je? Je doet (neuro)psychologisch onderzoek en adviseert behandelaars, verpleging en verzorging. Ook behandel en begeleid je cliënten, zowel individueel als groepsgewijs. Je denkt graag mee over het vak en het beleid. Je hebt interesse om in dit laatste een coördinerende rol te vervullen. Wie ben je? Je bent geregistreerd als GZ-psycholoog, hebt minimaal vijf jaar werkervaring als psycholoog en kennis op het gebied van neuropsychologie en (gedrags)therapie. Bij voorkeur ook van gerontopsychiatrie en psychogeriatrie. Voor meer informatie bel je met Marlous Siebum (coördinator psychologie), (038) 33 94 473. We zien je sollicitatie graag voor 19 april 2012 tegemoet bij voorkeur via onze jobsite www.ijsselheemwerktmetpassie.nl, onder vacaturenummer 12015. www. ijsselhee mwerkt metpassie. nl Tactus Verslavingszorg helpt mensen verslavingsgedrag en daarmee samenhangende problemen het hoofd te bieden. Preventie van delictgedrag is één van onze zorgspecialismen. Voor onze forensische polikliniek JusTact zijn wij op zoek naar ambitieuze en BIG-geregistreerde: GZ-psychologen m/v die kunnen bijdragen aan het verder ontwikkelen van onze forensische poliklinieken in Zwolle, Enschede en FLevoland Verslaafd zijn of de neiging tot verslaving vergroot het risico op delictgedrag. JusTact benadert deze problemen in samenhang en heeft haar onderzoek- en behandelaanbod ingericht op het snijvlak verslaving en criminaliteit. De verschillende JusTact locaties hebben elk eigen speerpunten: Zwolle zoekt een GZ-er die het voortouw neemt bij het opstarten van de dagbehandeling. In Enschede starten we een nieuwe forensische polikliniek. De GZ-er vervult daarin een centrale, coachende rol. Het neerzetten van een goed opleidingsklimaat heeft de aandacht van de GZ-er in Flevoland. De volledige functieomschrijvingen vind je op www.tactuswerkenleren.nl/vacatures/hulpverlening. Kijk voor meer informatie over JusTact en Tactus op www.tactus.nl beweegt door gevoel, openheid en zorgvuldigheid Werken met bezieling op het snijvlak van verslaving en criminaliteit Bij Tactus werken circa 1200 medewerkers, verspreid over circa 40 locaties in Gelderland, Overijssel en Flevoland. Wil jij jouw talent ook binnen een open en creatieve sfeer ontwikkelen? Solliciteer dan voor 31 mei 2012. Contactpersonen: Walter de Vos; w.devos@tactus.nl - 06 13 50 75 25, Ameon Struijk; a.struijk@tactus.nl - 06 10 89 81 25 en Caro van Emmerik; c.vanemmerik@tactus.nl - 06 13 84 95 43