Drieëndertig jaar na de eerste COTAN-enquête is. in 2000 opnieuw het testgebruik van Nederlandse. psychologen geïnventariseerd.

Drieëndertig jaar na de eerste COTAN-enquête is in 2000 opnieuw het testgebruik van Nederlandse psychologen geïnventariseerd. De top-twintig voor 2000 wordt vergeleken met de ranglijsten in Wetenschap Ontwikkelingen in het testgebruik van Nederlandse psychologen 1967, 1971 en 1976. We zien forse verschuivingen waarbij tevens blijkt dat de kwaliteit van de Arne Evers, Jac N. Zaal en Anouk K. Evers door psychologen meest gebruikte tests aanzienlijk is toegenomen. De mening van de gebruikers zelf over de testkwaliteit blijkt echter aanzienlijk positiever dan In 1967, 1971 en 1976 werden op initiatief van de Commissie Testaangelegenheden Nederland (COTAN) enquêtes gehouden naar testgebruik (NIP, 1969; die van experts. Roe, 1974; Evers & Zaal, 1979; Zaal & Evers, 1979). De enquêtes leverden informatie op over onder andere aard en omvang van het testgebruik in Nederland, opinies van testgebruikers over testkwaliteit, en hun behoeften op het gebied van opleiding en instrumentarium. Het belang van dergelijke informatie werd indertijd als volgt verwoord: [...] trends die zich in de populariteit van tests aftekenen zijn interessant voor gebruikers en constructeurs, voor uitgevers en opinieleiders, voor documentalisten en voor degenen die onderwijs geven. (Evers & Zaal, 1979, p. 509). De trends die zowel Roe (1974) als Evers en Zaal (1979) in de gegevens ontdekten, waren echter enigszins teleurstellend. Er traden slechts kleine verschuivingen op in de aard van de gebruikte tests. Belangrijker was echter de constatering dat de verbetering in de gemiddelde kwaliteit van de meest gebruikte tests bescheiden was en dat die kwaliteit sterk uiteenliep. Ook tijdens de enquête in 1976 kwam bij de meest gebruikte tests nog een flink aantal ondeugdelijke instrumenten voor. De vraag is of deze situatie 25 jaar later is verbeterd. Mogelijk volgden de enquêtes tussen 1967 en 1976 te kort op elkaar om spectaculaire wijzigingen in testgebruik zichtbaar te maken. Over de ontwikkelingen in testgebruik in de periode na 1976 is wel enige informatie beschikbaar (Altink, Greuter & Roe, 1989; Candel, 1993; Krielen, Olivier & Peeters, 1988; De Ridder-Meijer & Gazendam, 1993), maar deze informatie betreft deelgebieden van de psychologie en/of is niet specifiek genoeg. Mogelijk is dit ook de oorzaak van de tegenstrijdige bevindingen in deze onderzoeken. Op het gebied van de personeelspsychologie wordt een toename in het gebruik van arbeidsproeven en assessment centers geconstateerd (Candel, 1993), hetgeen zou wijzen op verschuivingen in type tests dat wordt gebruikt. Krielen et al. signaleren op grond van een in 1987 gehouden enquête flinke veranderingen bij psychologen ten opzichte van 1976, maar in dit onderzoek waren psychologen werkzaam op het gebied van de arbeids- en organisatiepsychologie en beroepskeuze oververtegenwoordigd. Met betrekking tot testgebruik bij Riagg s concluderen De Ridder-Meijer en Gazendam daarentegen dat de lijst van meest gebruikte tests in 1989 nauwelijks afwijkt van die uit de COTAN-enquête in 1976. De bescheiden verbetering in de kwaliteit van gebruikte tests tussen 1967 en 1976 lijkt een afspiegeling te zijn van de geringe verbetering in de kwaliteit van beschikbare tests in de Documentatie van Tests en Testresearch in Nederland van 1974 ten opzichte van 1969. De kwaliteitsverschillen in zowel gedocumenteerde als gebruikte tests zijn echter nog steeds aanzienlijk. Kennelijk is een flink aantal tests waar het nodige aan mankeert toch aantrekkelijker voor de gebruiker dan hun betere soortgenoten. Dat verklaart wellicht waarom de verbetering bij de gebruikte tests beperkt is gebleven, ondanks de kwaliteit die beschikbaar is. Zou dit ook betekenen dat de gestage stijging van de kwaliteit van de gedocumenteerde tests over de afgelopen jaren, zoals het overzicht in de Documentatie van 2000 laat zien, zich niet heeft vertaald in een vergelijkbare trendmatige verbetering van de kwaliteit van gebruikte tests? Dat zou dan een karige beloning zijn voor de niet geringe inspanningen van het NIP en de COTAN in het bijzonder, en van testconstructeurs, onderwijsgevenden en tal van anderen die zich inzetten voor een verbetering van de kwaliteit van de psychodiagnostiek. Er is sinds de jaren tachtig het nodige veranderd in de opleiding psychologie en de opstelling van testuitgevers. Essentiële onderdelen van de psychodiagnostiek en testpsychologie zijn niet langer verplicht, en afgestudeerde psychologen zonder noemenswaardige kennis van dit vakgebied zijn geen uitzondering meer. Steeds meer testuitgevers houden hun klanten voor dat een training van enkele dagen in deze leemte kan voorzien. Is het kwaliteitsbesef van de psycholoogtestgebruiker onder deze onderwijskundige en commerciële invloeden geërodeerd of is het in stand gebleven en wellicht zelfs verbeterd? Uit een kortgeleden gepubliceerd internationaal onderzoek naar de opvattingen over testgebruik blijken psychologen ook degenen die zelf nauwelijks tests gebrui- 54 Wetenschap februari 2002

ken uitgesproken opvattingen te hebben over de eisen die gesteld moeten worden aan de kwaliteit van tests en hun gebruikers (Evers, Evers & Zaal, 2001). Komt dit positieve beeld ook naar voren in de kwaliteit van de meest gebruikte tests? Enquête 2000 De enquête naar testgebruik in 2000 heeft een grote hoeveelheid aan interessante gegevens opgeleverd, te veel om in één artikel te bespreken. Deze bijdrage is gewijd aan de analyse en bespreking van de gegevens over de frequentie van gebruik en de kwaliteit van de meest populaire tests. Het kwaliteitsaspect wordt zowel volgens de formele COTAN-beoordelingen als via het oordeel van de gebruiker zelf benaderd. Andere interessante aspecten, zoals verschillen in testgebruik naar vakgebied, functie en testdoel, zullen elders aan de orde komen. De vragenlijst over testgebruik bestaat uit 23 gedeeltelijk meerledige vragen. Enkele daarvan betreffen de achtergrond van de respondent (onder andere functie, type bedrijf of instelling, afdeling, psychodiagnostische scholing) en de aard, de omvang en het doel van het testgebruik. In de kernvraag voor dit artikel werd de testgebruiker verzocht alle door hem/haar in 1999 gebruikte tests te noemen, daarbij de omvang van het gebruik en het gebruiksdoel te vermelden en zijn/haar mening te geven over de kwaliteit van de betreffende tests. Het merendeel van de vragen is van het gedwongen-keuzetype met een wisselend aantal alternatieven. Ter wille van de vergelijkbaarheid zijn de meeste vragen gebaseerd op de enquête uit 1976 (Evers & Zaal, 1979; Zaal & Evers, 1979). Respondenten De hierboven beschreven enquête naar testgebruik werd tezamen met een enquête naar testattitude ingesloten in De Psycholoog en in mei 2000 naar alle leden van het NIP verstuurd. Een gefrankeerde antwoordenveloppe werd bijgesloten. De enquête naar testattitude was onderdeel van een Europees onderzoek (Evers et al., 2001). De enquête naar testgebruik werd alleen in Nederland afgenomen. In de begeleidende brief werden alle psychologen verzocht om de lijst over testattitude in te vullen; alleen regelmatige testgebruikers werd gevraagd om ook de lijst over testgebruik in te vullen. Van deze groep (dat wil zeggen 64% van de respondenten op de vragenlijst naar testattitude) heeft 75.9% de testgebruiklijsten teruggestuurd. Leeftijd, sekse en vakgebied van de repondenten verschillen niet van die van de doorsnee NIPleden. Zo is ruim de helft, namelijk circa 58%, werkzaam op het klinisch vakgebied. Bij de enquêtes van 1967 en 1971 werden de respondenten ook benaderd via De Psycholoog. Ook die onderzoeken gaan dus uitsluitend over NIP-leden. In 1976 daarentegen werd de enquête ook verstuurd naar andere personen waarvan bekend was dat ze tests gebruikten (niet-psychologen en niet- NIP-leden). Ter wille van de vergelijkbaarheid beperken we ons Verklaring van testafkortingen ABV(-K) Amsterdamse Biografische Vragenlijst (K = voor kinderen) (R)AKIT Amsterdamse Kinder Intelligentie Test (R = revisie 1984) BIT Beroepen-Interesse Test BWT Bourdon-Wiersma Test CAT Children s Apperception Test DAT( 83) Differentiële Aanleg Testserie ( 83 = versie 1983) (G)EPPS Edwards Personal Preference Schedule (G = gekuiste versie) GIT(/V) Groninger Intelligentie Test (V = verkorte versie) HAWIK Hamburg Wechsler Intelligenz Test für Kinder HTP House Tree Person Kuder Kuder Beroepsvoorkeur Onderzoek MMPI(-2) Minnesota Multiphasic Personality Inventory (2 = versie 2 TM ) NEO NEO Persoonlijkheidsvragenlijst NPV(-J) Nederlandse Persoonlijkheids Vragenlijst (J = junior versie) NVM Nederlandse Verkorte MMPI PMT(-K) Prestatie Motivatie Test (K = voor kinderen) Raven PM Raven s Progressieve Matrijzen SB Revised Revised Stanford-Binet SCL-90 Klachtenlijst SCL SIW Schaal voor Interpersoonlijke Waarden SON Snijders-Oomen Niet-Verbale Intelligentieschaal TAT Thematic Apperception Test THN Testserie Hoger Niveau (TNVA, VAT en NAT) TMT Ketentest of Trail Making Test UCL Utrechtse Coping Lijst VPT Vier Platen Test WAIS Wechsler Adult Intelligence Scale WISC(-R) Wechsler Intelligence Scale for Children (R = revised versie) ZAT Zin Aanvul Test 15 WT Nieuwe Vijftien Woorden Test hier uitsluitend tot de gegevens van de psychologen, waaronder zich in 1976 dus ook een onbekend aantal niet-nipleden bevond. De aantallen respondenten (en de bijhorende responspercentages) in de vier enquêtes zijn: 1967 N=80 (8.2%); 1971 N=168 (11.3%); 1976 N=131 (57.2%); 2000 N=1062 (16.0%). Testkwaliteit De kwaliteitsbeoordeling van tests in de successieve enquêtes is gebaseerd op verschillende beoordelingssystemen. De kleine verbeteringen in kwaliteit die tussen 1967 en 1976 werden geconstateerd (Evers & Zaal, 1979) waren gebaseerd op beoordelingen met het oude COTAN-systeem, waarbij de kwa- Wetenschap februari 2002 55

TEST Aantal Percentage TEST Frequentie Gemiddeld gebruikers gebruikers van gebruik per gebruiker 1 WAIS 406 38% 1 NPV 20500 53 2 NVM 391 37% 2 SCL-90 19200 56 3 NPV 388 37% 3 NVM 16800 43 4 WISC-R 344 33% 4 UCL 12100 37 5 SCL-90 343 32% 5 MMPI(-2) 12000 37 6 UCL 323 30% 6 WISC-R 11100 32 7 MMPI(-2) 322 30% 7 WAIS 10700 26 8 ZAT 310 29% 8 DAT 83 10700 83 9 GIT(/V) 240 23% 9 THN 10700 115 10 Stroop 192 18% 10 ZAT 8700 28 11 15 WT 190 18% 11 GIT(/V) 7900 33 12 NPV-J 169 16% 12 NEO 7500 59 13 PMT 150 14% 13 SIW 6600 79 14 (G)EPPS 136 13% 14 15 WT 6600 35 15 TMT 134 13% 15 (G)EPPS 6400 47 16 BWT 133 13% 16 PMT 6300 42 17 RAKIT 133 13% 17 Stroop 6200 32 18 Raven PM 131 12% 18 TMT 5000 38 19 DAT 83 129 12% 19 NPV-J 4900 29 20 NEO 126 12% 20 BWT 4100 31 Tabel 1. Rangorde van tests naar percentage gebruikers en frequentie van gebruik liteit van een test werd uitgedrukt in één letter, lopend van A tot F (NIP, 1974). In de Documentatie van Tests en Testresearch van 1982 (Visser, Van Vliet-Mulder, Evers & Ter Laak, 1982), is overgestapt op een beoordeling op vijf afzonderlijke criteria. In het huidige systeem werd dit uitgebreid tot zeven criteria (Evers, Van Vliet-Mulder & Groot, 2000). Om de kwaliteit van de tests over de verschillende jaren met elkaar te kunnen vergelijken zijn alle tests op basis van de toenmalige gegevens beoordeeld met het thans vigerende systeem van zeven criteria. Het merendeel van de tests uit de ranglijsten van 1967, 1971 en 1976 is opgenomen in de Documentatie van Tests en Testresearch uit 1982 (Visser et al., 1982). Van die tests was derhalve de beoordeling op de vijf criteria bekend. Deze konden eenvoudig worden omgezet naar beoordelingen op de zeven criteria van het huidige systeem. Vervolgens werd voor al deze tests nagegaan of tussen het jaar van de betreffende enquête en het jaar van beoordeling (1981/1982) publicaties of nieuwe versies waren verschenen. Indien dit het geval was, werd nagegaan hoe de beoordeling zou zijn uitgevallen zonder deze gegevens en zo nodig werd de beoordeling aangepast. Van drie tests uit de ranglijsten van 1967 tot en met 1976 die niet in de Documentatie van 1982 waren opgenomen, werd een complete beoordeling uitgevoerd op grond van het materiaal dat in het jaar van de betreffende enquête beschikbaar was. Resultaten Om te beginnen worden de resultaten van de enquête in 2000 gepresenteerd. Vervolgens zullen deze resultaten worden vergeleken met die van voorgaande jaren. Daarbij zal met name worden gelet op het kwaliteitsaspect. Ten slotte zal voor de gegevens uit 2000 het kwaliteitsoordeel van de experts (de COTAN-beoordeling) worden vergeleken met dat van de gebruikers. Testparade 2000 Een eerste opvallend gegeven in de enquête-2000 is dat maar liefst ruim 800 verschillende tests worden genoemd. 1 De 20 meest genoemde tests, de zogenaamde gebruikers-top-twintig, staan in de linkerhelft van Tabel 1. Wat in deze ranglijst opvalt is de snelle daling in het percentage gebruikers: de eerste acht tests worden door ongeveer eenderde van de psychologen gebruikt, waarna het percentage gebruikers snel afneemt tot 12% voor nummer 20. De nummer 50 in de ranglijst van meest genoemde tests wordt nog maar door 5% van de respondenten gebruikt, de nummer 130 door 1% en bijna 400 tests worden door slechts één gebruiker genoemd (0.1%). Een relatief klein aantal tests neemt aldus het overgrote deel van het testgebruik voor zijn rekening. Voor drie tests geldt dat uit de antwoorden van de respondenten niet altijd kon worden opgemaakt om welke versie het ging. Het betreft de Minnesota Multiphasic Personality Inventory en de MMPI-2, de Groninger Intelligentie Test en de Verkorte GIT, en de Edwards Personal Preference Schedule en de Gekuiste EPPS. De antwoorden voor deze versies zijn daarom samengenomen. Persoonlijkheidsvragenlijsten vormen met zeven vermeldingen de grootste categorie binnen de top-twintig. Daarna volgen de individueel af te nemen intelligentietests met vier vermeldingen. Binnen de top-twintig komt nog één projectieve techniek voor, namelijk de Zin Aanvul Test. In de rechterhelft van Tabel 1 treft men de zogenaamde frequentie-top-twintig aan. De getallen in deze ranglijst geven aan hoe vaak de tests worden afgenomen. De getallen zijn de som van de afnamefrequenties die door de gebruikers van een 56 Wetenschap februari 2002

bepaalde test zijn opgegeven. De frequentie-top-twintig bevat grotendeels dezelfde tests als de gebruikers-top-twintig, maar de positie van de meeste tests is verschoven. Vier persoonlijkheidsvragenlijsten en een klachtenlijst staan op de eerste vijf plaatsen. Begrijpelijkerwijs ziet men dat groepstests bij deze rangordening in het algemeen een hogere positie innemen dan individueel af te nemen tests. Dat geldt ook voor de twee groepstests die wél voorkomen in de frequentie-top-twintig, maar niet in de gebruikers-top-twintig. Het betreft de Testserie Hoger Niveau en de Schaal voor Interpersoonlijke Waarden. De individueel af te nemen Revisie Amsterdamse Kinder Intelligentie Test en Raven s Progressieve Matrijzen komen niet voor in de frequentie-top-twintig, maar daarentegen wel in de gebruikers-top-twintig. In de eerste alinea van deze paragraaf werd gesteld dat een relatief klein aantal tests verantwoordelijk is voor het overgrote deel van het feitelijk testgebruik. Zo neemt de top-twintig, gerekend naar aantal gebruikers, 43.5% van het totale gebruik voor zijn rekening en de top-50 67.1%. De 381 tests die door één gebruiker worden genoemd zijn verantwoordelijk voor slechts 3.5% van het testgebruik. Niettemin leek het, vanwege dit grote aantal, interessant een inventarisatie van deze groep tests te maken. Deze inventarisatie laat zien dat een klein gedeelte, namelijk 8% (30 tests), in een van de edities van de Documentatie van Tests en Testresearch is beschreven. Circa 40% van de 381 tests wordt door de gebruikers alleen aangeduid met een voor de onderzoekers onbekende afkorting, zoals CERX, ABO, of RATC. Bij eveneens circa 40% wordt een volledige Nederlandse titel van de test vermeld, hetgeen vaak iets verheldert over de bedoelingen van de test. Voorbeelden zijn Goktest van Damasio, Paniekvragenlijst en Test situationeel leiderschap. Van een kleine 10% wordt alleen de buitenlandse titel vermeld, zodat niet duidelijk is of het om een vertaalde of oorspronkelijke versie van de betreffende test gaat. Enkele voorbeelden: Cancer Worry Scale, Eoric oil en Strong-Campbell Interest Inventory. Ten slotte worden nog enkele testachtige methoden vermeld, zoals Gestructureerd interview Type A gedrag, Ontwikkelingsanamnese, EQ-map, een dergelijke. Concluderend kan men stellen dat het gaat om een grote verscheidenheid aan tests van grotendeels onbekende kwaliteit. Het feit dat zo weinig over deze tests bekend is, doet echter vermoeden dat er weinig onderzoek is verricht naar de psychometrische kwaliteiten van deze instrumenten. De ranglijsten van 1967 tot 2000 In Tabel 2 zijn de top-twintig-tests van de vier enquêtes opgenomen. Het betreft uitsluitend de gebruikers-top-twintig, omdat frequentiegegevens voor 1967 en 1971 niet beschikbaar zijn. Zeven tests, waarvan vijf individuele intelligentie tests, hebben de tand des tijds doorstaan en komen in alle enquêtes in de top-twintig terecht. Van dit zevental neemt de WAIS zelfs driemaal de eerste positie in. De andere zes tests zijn WISC-R, ZAT, GIT(/V), BWT, Raven PM en DAT 83. Enkele van deze tests hebben in de loop der tijd een grondige revisie ondergaan, maar de verschillende edities zijn om voor de hand liggende redenen wel tot een en dezelfde test gerekend (WISC-R en WISC of HAWIK, DAT 83 en DAT). Afgezien van de constante factor gevormd door de zeven bovengenoemde tests, kan als belangrijke trend worden gesignaleerd dat het gebruik van projectieve tests over deze periode van 33 jaar sterk is teruggelopen. De TAT, Rorschach, VPT, CAT, Wartegg, HTP, Columbus en ZAT namen in de periode 1967-1976 nog een vooraanstaande positie in, maar dat is in 2000 % 1976 % 1971 % 1967 % 1 WAIS 38 WAIS 41 WAIS 36 TAT 40 2 NVM 37 GIT 38 ABV 35 Rorschach 40 3 NPV 37 ABV 37 BWT 32 SB Revised 32 4 WISC-R 33 TAT 37 GIT 32 WAIS 32 5 SCL-90 32 Bender 37 TAT 29 BWT 29 6 UCL 30 Raven PM 37 Rorschach 28 BIT 28 7 MMPI(-2) 30 ZAT 37 BIT 28 ABV 26 8 ZAT 29 WISC 35 SB Revised 28 VPT 26 9 GIT(/V) 23 BIT 34 WISC 28 CAT 25 10 Stroop 18 BWT 34 ZAT 24 GIT 24 11 15 WT 18 DAT 30 SON 23 DAT 21 12 NPV-J 16 SB Revised 26 Bender 20 WISC 21 13 PMT 14 PMT-K 25 CAT 18 Wartegg 20 14 (G)EPPS 13 ABV-K 24 DAT 18 ZAT 20 15 TMT 13 Benton 23 Raven PM 17 Wiggly 16 16 BWT 13 Rorschach 22 ABV-K 16 Stutsman 14 17 RAKIT 13 SON 22 Benton 16 Grassi 12 18 Raven PM 12 Columbus 21 AKIT 14 HAWIK 12 19 DAT 83 12 Kuder 21 MMPI 14 HTP 12 20 NEO 12 CAT 20 HAWIK 14 Raven PM 12 * De namen van tests die in de top-twintig van alle enquêtes voorkomen zijn vet gedrukt. Tabel 2. Rangorde van tests naar percentage gebruikers van 1967 tot 2000* Wetenschap februari 2002 57

het testinstrumentarium anno 2000 voorbij. Alleen de ZAT is als representant overgebleven. Hun posities zijn ingenomen door persoonlijkheidsvragenlijsten, zoals de NVM, NPV, UCL, (G)EPPS en NEO, en door de klachtenlijst SCL-90. De verschuivingen op het gebied van persoonlijkheidsonderzoek zijn daardoor veel groter dan die bij het intelligentieonderzoek, tenminste voor zover het algemene cognitieve tests betreft. Overigens moeten we ons wel realiseren dat tests die uit de top-twintig zijn verdwenen, natuurlijk nog wel worden gebruikt. Zo is de TAT op plaats 21 terug te vinden (door 12% van de gebruikers genoemd) en de Rorschach op nummer 59 (4%). Bij de meting van specifieke cognitieve factoren is er ook het een en ander veranderd, getuige het verdwijnen van de Bender en Benton, die zijn overvleugeld door de Stroop, 15 WT en TMT. De achterliggende redenen voor deze verschuiving is waarschijnlijk dat de Bender en Benton meer ouderwetse hersenorganiciteitstests zijn die gebruikt worden voor het medisch-diagnostisch onderscheid wel/geen-hersenletsel. Stroop, 15 WT en TMT zijn daarentegen beter bruikbaar binnen de tegenwoordig gangbaarder neuropsychologische benadering die meer op specifieke cognitieve functies is gericht. Een laatste opvallend gegeven is dat met het verdwijnen van de BIT en de Kuder, bij de twintig meest genoemde tests geen interessenvragenlijst meer voorkomt. Samenvattend kunnen we constateren dat in de loop van de jaren de (individuele) intelligentietests hun positie in de top twintig hebben weten te behouden (waarschijnlijk mede dankzij het uitbrengen van nieuwe revisies), dat persoonlijkheidsvragenlijsten de positie hebben ingenomen van projectieve technieken, en dat interessenvragenlijsten een stapje terug hebben gezet. De kwaliteit van de top-twintig-tests In de inleiding werd al aangegeven dat naast het gebruik juist ook de ontwikkeling van de kwaliteit van het testgebruik een centrale plaats inneemt in dit onderzoek. Om een vergelijking te kunnen maken werd voor de top-twintig-tests van de vier enquêtes per beoordelingscriterium het percentage berekend dat het oordeel goed heeft gekregen. Er is voor het percentage goed gekozen en niet voor een gemiddelde beoordeling, omdat met name voor de top-twintig tests, waaraan de hoogste eisen gesteld mogen worden, dat percentage de betere maatstaf is. Een en ander zou overigens voor de conclusies geen verschil hebben gemaakt. Voor zes van de zeven criteria kan in Tabel 3 worden vastgesteld dat er sprake is van een grote verbetering in kwaliteit van de twintig meest gebruikte tests over de jaren heen. Het betreft de theoretische achtergrond, de kwaliteit van testmateriaal en handleiding, de normen, de begripsvaliditeit en de criteriumvaliditeit. Dit geldt in ieder geval voor de kwaliteit in 2000 ten opzichte van de periode 1967-1976. Ook binnen de laatstgenoemde periode is er echter sprake van ten minste gelijkblijvende kwaliteit tussen twee opeenvolgende enquêtejaren, in geen enkel geval van achteruitgang. Het criterium betrouwbaarheid neemt een uitzonderingspositie in. Na 1971 2000* 1976 1971 1967 Theoretische achtergrond 59 40 40 30 Kwaliteit testmateriaal 82 60 60 40 Kwaliteit handleiding 50 35 30 15 Normen 27 10 10 5 Betrouwbaarheid 23 25 25 15 Begripsvaliditeit 32 5 0 0 Criteriumvaliditeit 14 5 0 0 *Omdat van respectievelijk MMPI en MMPI-2 en GIT en GIT-V de beoordelingen verschillen, werden van deze tests beide beoordelingen in de berekeningen meegenomen. Tabel 3. Kwaliteit van de 20 meest gebruikte tests (percentage tests met beoordeling goed ) van 1967 tot 2000 blijft het percentage tests in de top-twintig met een goede betrouwbaarheid min of meer gelijk. Nadere bestudering van de gegevens laat echter zien dat het percentage met een voldoende betrouwbaarheid wél toeneemt: van 10% in 1967, via 15% en 20% in 1971 en 1976, naar 55% in 2000! Naast het gegeven dat de kwaliteit van de twintig meest gebruikte tests in 33 jaar dus aanzienlijk blijkt te zijn toegenomen, blijft het een interessante vraag of deze tests wat betreft kwaliteit een afspiegeling vormen van het hele Nederlandse testarsenaal of dat zij hiervan een negatieve dan wel positieve selectie uitmaken. Indien dit laatste het geval is, zou men de conclusie kunnen trekken dat de kwaliteit een rol speelt bij de testkeuze. In Tabel 4 wordt de kwaliteit van de twintig meest gebruikte tests in 2000 vergeleken met die van alle tests die zijn opgenomen in de Documentatie van 2000 (uitgezonderd researchinstrumenten en van oorsprong Belgische tests; totaal 372 tests). Hiertoe is in deze tabel naast het Kwaliteits- Documentatie- 2000* oordeel 2000: alle tests Theoretische achtergrond goed 66 59 voldoende 21 14 Kwaliteit testmateriaal goed 70 82 voldoende 20 9 Kwaliteit handleiding goed 44 50 voldoende 28 36 Normen goed 13 27 voldoende 26 27 Betrouwbaarheid goed 27 23 voldoende 41 55 Begripsvaliditeit goed 18 32 voldoende 47 36 Criteriumvaliditeit goed 8 14 voldoende 25 32 * Omdat van respectievelijk MMPI en MMPI-2 en GIT en GIT-V de beoordelingen verschillen, werden van deze tests beide beoordelingen in de berekeningen meegenomen. Tabel 4. Kwaliteit van de twintig meest gebruikte tests in 2000 (percentages tests met de beoordeling goed of voldoende ) en van alle gedocumenteerde tests in 2000 58 Wetenschap februari 2002

percentage tests dat als goed wordt beoordeeld, ook het percentage met de beoordeling voldoende vermeld, omdat dit zoals hiervoor is gebleken een vollediger beeld van de kwaliteit van tests kan geven. Het blijkt dat de kwaliteit van de top-twintig-tests in 2000 beter is dan die van alle tests uit de Documentatie-2000, met uitzondering van het criterium theoretische uitgangspunten. Soms is de hogere kwaliteit te danken aan een groter percentage goed, soms aan een hoger percentage voldoende en soms aan beide. Experts en respondenten over testkwaliteit In de enquête-2000 werd aan de respondenten gevraagd een oordeel te geven over de technische kwaliteiten van alle tests die men gebruikte. Men werd verzocht voor elke test apart een indicatie te geven van de kwaliteit van de normen, de betrouwbaarheid en de validiteit gelet op het doel waarvoor de test werd ingezet. De mening van de gebruikers werd vergeleken met de expertbeoordelingen van de COTAN-beoordelaars. Het resultaat van deze vergelijking is voor elk van de drie criteria ongeveer hetzelfde: er is weliswaar een correlatie tussen de COTAN-beoordeling en de mening van de testgebruiker, maar het verband is sterk afhankelijk van de kwaliteit van de test. Er bestaat een redelijke overeenstemming voor die tests waarvoor de COTAN de beoordeling goed heeft gegeven: voor de kwaliteit van de Normen is 65% van de gebruikers het hiermee eens, voor Betrouwbaarheid is dit 61% en voor Validiteit 2 65%. De meningen zijn verdeeld voor tests met een COTANbeoordeling onvoldoende : voor Normen is slechts 16% van de gebruikers het met de COTAN eens, voor Betrouwbaarheid 15% en voor Validiteit 13%. Tests waarvoor de COTAN-beoordeling voldoende is, nemen een middenpositie in, waarbij echter opvalt dat relatief veel gebruikers deze voldoende tests goede kwaliteiten toekennen en slechts weinigen onvoldoende. In het algemeen kan men stellen dat de gebruikers soepeler zijn in hun oordeel dan de experts. Anders gezegd: het gebruik van de test gaat hand in hand met een positief oordeel, ook als daar volgens objectieve buitenstaanders geen grond voor is. Hoewel dit laatste zonder uitzondering geldt voor elk van de drie criteria van alle tests waarvoor de COTAN-beoordeling voldoende of onvoldoende luidt, leert een nadere analyse dat de door gebruikers betoonde soepelheid per test kan verschillen. Twee voorbeelden kunnen dit verduidelijken. Het eerste betreft twee tests waarvoor de COTAN voor betrouwbaarheid de beoordeling onvoldoende heeft gegeven, namelijk de MMPI en de ZAT. Voor wat betreft de MMPI is slechts 2% van de gebruikers het hiermee eens, maar voor de ZAT is dit 51%. Het tweede voorbeeld betreft twee tests waarvoor de COTAN voor normen de beoordeling onvoldoende heeft gegeven, namelijk de Verkorte GIT en de TMT. Geen enkele Verkorte-GIT-gebruiker is het hiermee eens, maar voor de TMT is er 38% overeenstemming. De vraag is wat de oorzaak is van deze nuances in het gebruikersoordeel. Eén mogelijke verklaring is dat gebruikers de afwezigheid van gegevens een ernstiger tekortkoming vinden dan wel beschikbare gegevens die (volgens de COTAN) van onvoldoende kwaliteit zijn. Zo zijn over de ZAT in het geheel geen betrouwbaarheidsgegevens en over de TMT in het geheel geen Nederlandse normgegevens bekend; voor de MMPI zijn Amerikaanse betrouwbaarheidsgegevens beschikbaar en voor de Verkorte GIT lokale normen. Daarbij komt dat de situatie waarin in het geheel geen gegevens worden verschaft, eenduidiger is. Een andere mogelijkheid is dat de opinie van gebruikers op lokale gegevens berust die niet bij de COTAN en de testauteur/uitgever bekend zijn. Een laatste, niet uit te sluiten verklaring, is dat we hier te maken hebben met een verschijnsel van cognitieve dissonantie waarbij de positieve opvatting meer berust op wat hoort en verwacht mag worden, dan op feitelijke gegevens. Dit zou kunnen blijken uit de mening van gebruikers over de normen van de Keten- of Trailmakingtest: 12% vindt de kwaliteit van de normen goed en 50% voldoende, terwijl in het geheel geen Nederlandse normen worden verschaft. Een ander voorbeeld is de Zin Aanvul Test, waarvoor in het geheel geen validiteitsgegevens beschikbaar zijn, maar waarvan niettemin 10% van de gebruikers de validiteit goed en 45% voldoende vindt. Discussie Representativiteit Het responspercentage van de enquête-2000 noopt tot de nodige voorzichtigheid bij de generalisatie van de gegevens en de conclusies naar de doorsnee NIP-testgebruiker. Er zijn echter de nodige aanwijzingen dat de onderzoeksgroep voldoende representatief is. Zo vormt de groep respondenten op enkele achtergrondvariabelen een goede doorsnede van de populatie van NIP-psychologen. Met name de vrijwel gelijke verdeling wat betreft vakgebied in steekproef en populatie lijkt hier van belang. Verder vormt de uitkomst van de enquête een uiterst consistent beeld in samenhang met de resultaten van de vorige enquêtes en vertonen enkele tests (bijvoorbeeld de WAIS) zeer constante gebruikerspercentages, ondanks de variatie in responspercentages over de jaren heen. Omvang nationaal testgebruik Voor enkele tests konden de frequentiegegevens volgens de enquête worden afgezet tegen de werkelijke verkoopcijfers in 1999. De verkoopcijfers bleken voor deze tests circa vijfmaal hoger te liggen. Als deze lijn wordt doorgetrokken, kan een schatting worden gemaakt van het aantal personen dat jaarlijks in Nederland wordt getest. Volgens opgave van de respondenten van deze enquête worden door hen gezamenlijk iets meer dan 100.000 personen per jaar getest. Vermenigvuldiging met vijf levert een geschat testgebruik op van circa een half miljoen afnames per jaar. Hierbij blijven de landelijke CITO-toets en ander schooltoetsgebruik buiten beschouwing, omdat de enquête hierop niet was gericht. Ook is geen rekening gehouden met illegaal gebruik van tests, maar wel met gebruik door niet-psychologen voorzover deze hun testmateriaal langs reguliere wegen hebben aangeschaft. Wetenschap februari 2002 59

De kwaliteit van de gebruikte tests In dit onderzoek zijn de analyses beperkt tot de twintig meest gebruikte tests. Dit aantal is uiteraard arbitrair, maar gelet op de sterk daling van het aantal gebruikers en de gebruiksfrequentie bij de resterende tests, kan men stellen dat de twintig meest gebruikte tests inderdaad een groot en veelbetekenend deel van het testgebruik in Nederland vertegenwoordigen. De kwaliteit van de Nederlandse top-twintig is in 33 jaar aanmerkelijk gestegen. Deze stijging wordt voor het grootste deel veroorzaakt doordat men op nieuwe, kwalitatief betere instrumenten is overgestapt, en voor een ander deel door een verbetering van de kwaliteit van de instrumenten die men trouw is gebleven. Deze gegevens lijken er op te wijzen dat testgebruikers bij hun keuze het kwaliteitsaspect mee laten wegen. Hoewel deze trend tot tevredenheid stemt, past zeker geen genoegzaamheid, aangezien de kwaliteit van met name de psychometrische aspecten van tests nog veel te wensen over laat. Op elk van de vier criteria haalt slechts circa 25% van de tests het niveau goed. Het aanzien van de top-twintig-tests wordt overigens beter wanneer men de beoordelingen goed of voldoende samen neemt. Het percentage uit de top-twintig dat op Normen, Betrouwbaarheid, Begripsvaliditeit en Criteriumvaliditeit minstens voldoende haalt, is respectievelijk 54%, 78%, 68% en 46%. Dit beeld is weliswaar aanzienlijk positiever, maar juist omdat het de twintig meest gebruikte tests betreft mag de maatlat toch wel op het hoogste niveau worden gelegd. Voor testontwikkelaars is er dus nog veel werk aan de winkel, maar ook van testgebruikers mag worden verwacht dat meer rekening wordt gehouden met kwaliteit bij hun keuze van tests. De rol van de COTAN Bij de bespreking van de resultaten van de betrouwbaarheid van de top-twintig is geconstateerd dat het aantal goed beoordeelde tests na 1971 niet meer toeneemt. Wanneer men bij de analyse het percentage tests met een voldoende beoordeling betrekt, blijkt een verbetering op te treden van 10%, in 1967, via 15% en 20%, naar 55% in 2000. Met andere woorden, bij betrouwbaarheid komt de verbetering in testkwaliteit niet voor rekening van de goede tests, maar van de voldoende tests. Is hier sprake van een plafondeffect dat veroorzaakt wordt doordat de COTAN te hoge eisen stelt? 3 Kennelijk is het hoogste kwaliteitsniveau voor betrouwbaarheid, zoals door de COTAN geformuleerd, voor veel tests niet zonder meer haalbaar en is het de vraag of de lat in dit opzicht niet te hoog is gelegd. Een discussie tussen betrokkenen, waarbij zowel aan technische vereisten als praktische beperkingen recht wordt gedaan, zal moeten uitwijzen of de COTAN-eisen moeten worden bijgesteld. Kwaliteitsverbetering heeft ook veel te maken met de impact van de gekozen publicatievormen. Kan de informatieve waarde van de huidige documentatie wellicht worden verbeterd door het opnemen van testbesprekingen gericht op dominante gebruiksdoelen? Daarnaast kan gedacht worden aan het ter publicatie aanbieden van testreviews in nieuwsbrieven van de verschillende secties, of aan de redactie van De Psycholoog. Ook verdient het uitgeven van monografieën gewijd aan testgebruik in bepaalde toepassingsvelden en/of aan specifieke vraagstellingen (zoals die over gezondheidsvragenlijsten, Groot et al., 1997) mogelijk meer navolging. Voor de meeste kwaliteitscriteria zien we een gestage verbetering in de loop van de jaren. Meer en meer tests voldoen aan de maximale eisen die door de COTAN worden gesteld. Tot zover het objectieve beeld. Nadere analyse leert echter dat de zwakke broeders in de ogen van de frequente testgebruikers nauwelijks tekortschieten, zelfs als objectieve gegevens ontbreken die dat oordeel kunnen schragen. Hoewel niet is uit te sluiten dat de gebruiker beschikt over aanvullende gegevens, is het van tweeën een. Of de gebruiker blijft in gebreke door belangrijke gegevens aan collega s én de COTAN te onthouden, óf de gebruiker valt ten prooi aan psychologische processen die een onpartijdige en objectieve beoordeling en een daarmee samenhangende verantwoorde handelwijze in de weg staan. Het zal duidelijk zijn dat in beide gevallen de testpraktijk gebaat is bij een onafhankelijke en breed toegankelijke informatievoorziening over tests en testkwaliteit. Dr. A. Evers is lid van de COTAN en is werkzaam als universitair hoofddocent bij de programmagroep Arbeids- en Organisatiepsychologie van de Universiteit van Amsterdam, Roetersstraat 15, 1018 WB Amsterdam. E-mail <evers@psy.uva.nl>. Dr. J.N. Zaal is werkzaam bij GITP International B.V. Drs. A.K. Evers was voor de duur van dit onderzoek werkzaam als toegevoegd onderzoeker bij de programmagroep Arbeids- en Organisatiepsychologie van de Universiteit van Amsterdam. Noten De auteurs danken de leden van de COTAN voor hun commentaar op een eerdere versie van dit artikel. 1. Het complete overzicht van alle genoemde tests is verkrijgbaar bij de eerste auteur. 2. Teneinde de respondenten niet onnodig te belasten werd bij validiteit geen onderscheid gemaakt tussen begrips- en criteriumvaliditeit. Om een zuivere vergelijking mogelijk te maken hebben de resultaten over validiteit in deze paragraaf uitsluitend betrekking op tests waarvoor de COTAN-beoordeling voor beide validiteitsaspecten gelijk is, namelijk 15 tests. 3. De eisen voor betrouwbaarheidscoëfficiënten voor de beoordeling goed zijn: >.90 voor tests die zijn bedoeld voor belangrijke beslissingen op individueel niveau, >.80 voor tests die zijn bedoeld voor minder belangrijke beslissingen op individueel niveau, en >.70 voor tests die zijn bedoeld voor onderzoek op groepsniveau (Evers, Van Vliet-Mulder & Groot, 2000, p. 1411). 60 Wetenschap februari 2002

Literatuur Altink, W.M.M., Greuter, M.A.M. & Roe, R.A. (1989). De praktijk van werving en selectie. Gids voor Personeelsmanagement, 68, 23-27. Candel, H. (1993). Ontwikkelingen op het gebied van werving en selectie bij Nederlandse bedrijven. Amsterdam: Vakgroep Arbeids- en Organisatiepsychologie, UvA. Evers, A., Evers, A.K. & Zaal, J. (2001). Opvattingen van Nederlandse psychologen over testgebruik. De Psycholoog, 36, 429-436. Evers, A., Vliet-Mulder, J. C. van & Groot, C.J. (2000). Documentatie van Tests en Testresearch in Nederland, dl. 1 en 2. Amsterdam/Assen: NIP/Van Gorcum. Evers, A. & Zaal, J. (1979). De derde N.I.P.-enquête onder testgebruikers. De Psycholoog, 14, 509-528. Groot, C.J., Vliet-Mulder, J.C. van, Douma, M. & Evers, A. (1997). Generieke vragenlijsten voor gezondheidstoestand beschreven en beoordeeld. Amsterdam: NIP. Krielen, F., Olivier, P. & Peeters, H. (1988). AMA Testenquête Psychodiagnostiek. Deventer: Akademie Mens-Arbeid. Nederlands Instituut van Psychologen. (1969). Documentatie van Tests en Testresearch in Nederland. Amsterdam/Zaandijk: NIP/Heijnis. Nederlands Instituut van Psychologen. (1974). Documentatie van Tests en Testresearch in Nederland. Amsterdam/Zaandijk: NIP/Heijnis. Ridder-Meijer, L. de & Gazendam, B. (1990). Testgebruik op de volwassenenafdeling van de Riagg. De Psycholoog, 25, 461-463. Roe, R.A. (1974). Testgebruik in Nederland. De N.I.P.-enquêtes van 1967 en 1971. De Psycholoog, 9, 57-70. Visser, R.S.H., Vliet-Mulder, J.C. van, Evers, A. & Laak, J. ter (1982). Documentatie van Tests en Testresearch in Nederland. Amsterdam: NIP. Zaal, J. & Evers, A. (1979). De derde N.I.P.-enquête onder testgebruikers II. De Psycholoog, 14, 578-588. Summary Changes in the use of test by Dutch psychologists over a 33 year period A. Evers, J.N. Zaal, A.K. Evers On behalf of the Committee of Test Affairs of the Dutch Association of Psychologists (COTAN) a survey was held in 2000 on test use by Dutch psychologists. The results of this survey were compared with the results of similar surveys held in 1967, 1971 and 1976. A major shift in these years was the disappearance in 2000 of projective techniques from the top-twenty of most used tests, except for one. They were replaced by personality inventories. Seven tests (of which five individual intelligence tests) stayed in the toptwenty in all those years. Through the years the quality of the twenty most used tests has gradually increased, though for reliability a ceiling effect seems to occur. Test users show a more positive opinion about the quality of the tests they use than experts do. Some explanations for this finding are given. It is concluded that public reviewing of tests by independent experts is a prerequisite for the improvement of tests used. Het dagelijks bestuur van het Nederlands Instituut van Psychologen zoekt op korte termijn contact met kandidaten voor de functie van penningmeester van de vereniging (M/V) De penningmeester is lid van het hoofdbestuur en van het dagelijks bestuur van de vereniging. Taken het behandelen van de financiële zaken van de vereniging, waaronder de begrotingszaken, de financiële verslaglegging en de samenstelling van de contributies het beoordelen van investeringen van een zekere omvang het opnieuw bezien van de onderlinge financiële verhoudingen van de onderdelen van de vereniging, mede in het kader van de modernisering van het NIP het voeren van overleg met de personeelsvertegenwoordiging, i.h.b. omtrent de arbeidsvoorwaarden van het NIP-personeel. het behandelen van overige zaken aangaande het NIP-bureau. De bovengenoemde taken worden in nauwe samenwerking verricht met de directeur-secretaris van het NIP en het hoofd Financiën, Facilitaire Zaken en Informatiebeheer (FFI) van het bureau. De inzet voor de bovenstaande taken komt neer op ten minste een dagdeel per twee weken. Voor de werkzaamheden wordt een vaste onkostenvergoeding per maand verstrekt. Het hoofdbestuur vergadert zesmaal per jaar in Utrecht, het dagelijks bestuur elfmaal per jaar, gewoonlijk te Utrecht en samenvallend met de vergaderdata van het Hoofdbestuur, en deels in Amsterdam op het NIP-bureau. De benoeming voor de functie moet worden gedaan door de Ledenvergadering van het NIP in juni 2002. Inlichtingen over deze functie worden graag gegeven door de voorzitter van het bestuur, prof.dr. Henk van der Molen, tel. (010) 4082705, door de directeur-secretaris van het NIP, mr Rein Baneke, (020) 4106230, en door het hoofd FFI van het NIP, Eugèn Zut, (020) 4106232. Uw interesse kunt u bekendmaken aan de voorzitter of aan de directeur-secretaris, e-mail bestuur@psynip.nl, dan wel per post, NIP-bestuur, Postbus 9921, 1006 AP Amsterdam. Wetenschap februari 2002 61