Intelligentiemeting bij kandidaten met verschillende culturele achtergronden: de Multiculturele Capaciteiten Test (MCT-M)

Vergelijkbare documenten

Capaciteiten scan. Mw A. Demo. Naam. Datum assessment

De volgende tests zijn afgenomen: Persoonsgegevens Aanvullende persoonsgegevens Capaciteitentest (MCT-M) Demo Kandidaat

Rapportage. Vertrouwelijk. De volgende tests zijn afgenomen: Persoonsgegevens Aanvullende persoonsgegevens Capaciteitentest (MCT-H) Dhr. Demo.

Hebben autochtonen en allochtonen gelijke kansen. bij selectieproeven met intelligentietests? Samenvatting

5. Het meten van cognitieve vaardigheden bij allochtone volwassenen

De invloed van verblijfsduur, leeftijd bij immigratie en taalbeheersing op intelligentie testscores van allochtonen in Nederland

Ontwikkel-Assessment / Capaciteitenonderzoek MCT-H / Eindrapport / dhr. A.B. Achternaam. Vertrouwelijk

Paul van der Voorbeeld

Taal en Connector Ability

Overzicht resultaten Premasterassessment

Intake assessment. Indra Newton Psycholoog/adviseur NOA. Masterclass Studiekeuzegesprekken 18 November

1. Gegeven zijn de itemsores van 8 personen op een test van 3 items

Oefenopgaven capaciteitentest

IST Standaard. Intelligentie Structuur Test. meneer 1

TECHNISCHE HANDLEIDING IQ TEST

Hebben mannen en vrouwen gelijke kansen. bij selectieproeven met intelligentietests? Samenvatting

ACT Algemene Intelligentie

Ontwikkel-Assessment / Capaciteitenonderzoek / Eindrapport / mevr. A. Achternaam. Vertrouwelijk

Bijsluiter bij het onderzoek naar leerwegondersteunend onderwijs en praktijkonderwijs

Multiculturele Capaciteiten Test - Middelbaar niveau

Samenvatting, conclusies en discussie

Dag van intelligentie. Selma Ruiter De Waarde van het IQ

Het LOVS rekenen-wiskunde van het Cito

Een onderzoek naar visuele en verbale denkvoorkeuren en vaardigheden bij leerlingen van groep 6 en 7

Het LOVS rekenen-wiskunde van het Cito

DIFFERENTIELE PSYCHOLOGIE: INHOUDSTAFEL

HTS Report IST-A. Intelligentie Structuur Test Assessmentversie. John Doe ID Datum Standaard. Hogrefe Uitgevers BV, Amsterdam

Verantwoord testgebruik

Thuis voelen in Nederland: stedelijke verschillen bij allochtonen

Datum: 5 september 2014

10 VeROudeRINg VAN de TeSTNORMeN 10.1 AANWIJzINgeN VOOR een MINdeR STeRk flynn-effect

Resultaten instaptoetsen Rekenen en Nederlands 2010 Rapportage aan de Profijtscholen

Inhoud. Introductie Bridge Abstract Bridge Abstract Scores...4

HTS Report DESIGMA - A. Design a Matrix. Tom Billiet ID Datum Advanced 1. Editie. Hogrefe Uitgevers BV, Amsterdam

In het geval van Carl ziet u op pagina 4 bij de factoranalyses direct: *Laag bij P-IQ Motivatie niveau *Hoog bij P-IQ Non-verbaal redeneren

Persoonlijke rapportage van B. Smit

Capaciteitentest MBO. 1. Inleiding

Conferentie Studiesucces

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Capaciteitentest HBO. Denkvermogen en denkstijl

Figuur 1. Intelligentiescores (numerieke, spatiale, verbale en algemene) per geslacht

INhOud Voorwoord Inleiding Vooronderzoek en constructieonderzoek Beschrijving van de SON-R 6-40 Normering van de testscores

CULTUURARME INTELLIGENTIETEST RAPPORT

Afstand tot de arbeidsmarkt

Antwoorden bij Testtheorie. Inleiding in de theorie van de psychologische test en zijn toepassingen, door P. J. D. Drenth en K.

Informatie over de deelnemers

Vragen oefententamen Psychometrie

3,3. Praktische-opdracht door een scholier 2249 woorden 27 maart keer beoordeeld. Wiskunde A. Intelligentiequotiënt (IQ)

College 3 Meervoudige Lineaire Regressie

HTS Report IST. Intelligentie Structuur Test. Jeroen de Vries ID Datum Standaard. Hogrefe Uitgevers BV, Amsterdam

Testdatum 17 maart 2015 Naam deelnemer. Johanna Aartsen Geboortedatum 28 juni 2003 Deelnemersnummer

Samenvatting (Summary in Dutch)

Algemene informatie over het IQ Binet

Hebben autochtonen en allochtonen gelijke kansen bij selectieproeven met intelligentietests?

Vertrouwelijk Individueel Rapport

HTS Report DESIGMA - A. Design a Matrix. Jeroen de Vries ID Datum Advanced 1. Editie. Hogrefe Uitgevers BV, Amsterdam

Persoonlijke rapportage van B. Smit

Hoofdstuk 8: Multipele regressie Vragen

Invloed van IT uitbesteding op bedrijfsvoering & IT aansluiting

Connector Big Five Personality

Predictieve validiteit van Cebirtests. Studie 1: criteriumvaliditeit in de bewakingsector

Onderzoeksrapport Constructvaliditeit

Effect publieksvoorlichting

Summery. Effectiviteit van een interventieprogramma op arm-, schouder- en nekklachten bij beeldschermwerkers

Rapportage capaciteiten (strikt vertrouwelijk) Naam: Mevrouw Voorbeeld Adviseur: Mevrouw Even Datum: 3 december 2014

HTS Report. d2-r. Aandachts- en concentratietest. David-Jan Punt ID Datum Standaard. Hogrefe Uitgevers BV, Amsterdam

NIO & 10 jaar aanvullend intelligentieonderzoek. Dr. H. van Dijk

RAPPORT John Sample Datum:

EMPO voor Ouders en Jongeren versie 2.0

HET ASSESSMENT INFORMATIE

Sandra's studenten rapport

Ontwikkeling werkdruk in het onderwijs

9. Lineaire Regressie en Correlatie

Detector Ability Achtergronden bij het instrument

De ontwikkeling van een video-

WPPSI-III-nl analyse Versie: 1.0.0

Bijlagen bij hoofdstuk 4 Opleidingsniveau en taalvaardigheid

Cultuurfair beroepskeuze assessment. 2 november Edwin van den Akker.

FinQ Monitor van financieel bewustzijn en financiële vaardigheden van Nederlanders. Auteurs Jorn Lingsma Lisa Jager

PISA IN FOCUS 5: HEBBEN DE LEERLINGEN DE WIL OM TE SLAGEN? VERSCHILT DE WIL OM TE SLAGEN OVER DE ONDERWIJSVORMEN?

Testonderdelen & Instructies

M. Tierens. W. Magez. K. Van Parijs. Normen: Jongens versus Meisjes?

Connector Ability Voorbereiding en veel gestelde vragen

Lienke de Kroon Testadvies. - Afnameduur: minuten (individueel) - 12 subtests verschillende deelvaardigheden van rekenen

Vertrouwelijk Indivdueel Rapport

Wat motiveert u in uw werk?

Samenvatting Impliciet leren van kunstmatige grammatica s: Effecten van de complexiteit en het nut van de structuur

HTS Report. d2-r. Aandachts- en concentratietest. Jeroen de Vries ID Datum Standaard. Hogrefe Uitgevers BV, Amsterdam

De nieuwe wereld, de nieuwe WISC

Ontdek commerciële kracht Q1000 met de Capaciteiten. Commerciële Kit

Online bijlage 5. Model ter verklaring van xenofobie

Connector Ability Frequently Asked Questions

Productinformatie Aansluiting

Transcriptie:

Verschenen in: Nederlands Tijdschrift voor de Psychologie, 55: 134-147 (2000) Intelligentiemeting bij kandidaten met verschillende culturele achtergronden: de Multiculturele Capaciteiten Test (MCT-M) Remko. H. van den Berg & Nico Bleichrodt Intelligentie en invloed van cultuur De theorievorming omtrent 'mental abilities' en intelligentie kent een lange historie, beginnend bij Francis Galton (1822-1911) en Alfred Binet (1857-1911), gevolgd door belangrijke onderzoekers als Spearman (1904, 1927), Thurstone (1947), Vernon (1960) en Cattell (1971). Sternberg (1981) heeft een inzichtelijk model geschetst van de ontwikkeling van intelligentietheorieën vanaf het begin van deze eeuw. Hij onderscheidt een aantal stadia van ontwikkeling. In het eerste stadium is er sprake van twee competitieve theorieën met betrekking tot intelligentie: monistische en pluralistische theorieën. Monistische theorieën gaan uit van intelligentie als een latente trek. Spearman (1904, 1927) is hiervan een belangrijke vertegenwoordiger. Hij heeft in het begin van deze eeuw de term 'General intelligence' of g geïntroduceerd. De pluralistische theorieën beschouwen intelligentie als voortkomend uit verschillende onafhankelijke trekken. Thorndike (1949) is een vertegenwoordiger van deze stroming. Het tweede stadium wordt gevormd door theorieën die trachten aspecten van de monistische en pluralistische theorieën te verenigen. Hier worden hiërarchische en niethiërarchisch overlappende theorieën onderscheiden. Hiërarchische theorieën gaan uit van een algemene dominerende intelligentiefactor (g), maar onderscheiden op secundair en eventueel tertiair niveau wel andere factoren. Voorbeelden van vertegenwoordigers van hiërarchische theorieën zijn Vernon (1960) en Cattell (1971). Cattell onderscheidt bijvoorbeeld twee 'first order' factoren: 'Fluid intellingence' (Gf) en 'Crystallized intellingence' (Gc) en een aantal 'second order' factoren zoals 'Visualisation', 'Retrieval Capacity' and 'Cognitive speed'. Niet-hiërarchisch overlappende theorieën gaan ervan uit dat intelligentie bestaat uit een aantal primaire factoren, die echter niet geheel onafhankelijk zijn. Vertegenwoordigers zijn Thurstone (1947) en Guilford (1985). Guilford onderscheidt bijvoorbeeld de volgende primaire mentale operaties: 'Cognition', 'Memory', 'Divergent thinking', 'Convergent thinking' en 'Evaluation'. Het derde stadium van theorievorming kenmerkt zich door de integratie van de hiërarchische en overlappende theorieën uit het tweede stadium. Voorbeelden hiervan zijn de cognitieve correlatie theorieën en de cognitieve componenten theorieën (zie bijv. Sternberg & Detterman, 1986) die zich met name richten op de relatie tussen testprestaties en informatieverwerkingsprocessen. Het eerder genoemde onderscheid van Cattell (1971) in 'fluid intelligence' en 'crystallized intelligence' wordt hier in verband met de expliciete aandacht voor culturele invloeden uitgebreider behandeld. Fluid intelligence heeft betrekking op een basaal redeneervermogen, dat noodzakelijk is voor het oplossen van problemen op zeer diverse gebieden en dat afhankelijk is van neuronale efficiëntie en in hoge mate erfelijk is (zie bijvoorbeeld Plomin, 1988; Jensen, 1996). Crystallized intelligence kan gezien worden als het resultaat van de uitwerking van fluid intelligence in een bepaalde (culturele) omgeving. Dit wil zeggen dat crystallized intelligence zich ontwikkelt afhankelijk van leerervaringen en van het belang dat gehecht wordt aan bepaalde vaardigheden in een bepaalde cultuur. Crystallized intelligence kan in één cultuur dus een heel verschillende vorm hebben dan in een andere cultuur. De traditionele intelligentie- en capaciteitentests doen veelal een groot beroep op crystallized intelligence. Op jonge leeftijd (2 of 3 jaar) zijn fluid en crystallized intelligence hoog gecorreleerd. Hoe ouder men wordt en hoe verschillender de ervaringen des te lager deze

correlatie wordt. Een kind met veel potentieel (fluid intelligence) in een weinig stimulerende omgeving en met slecht onderwijs zal dus relatief weinig mogelijkheden krijgen zijn/haar fluid intelligence te 'investeren' in vormen van crystallized intelligence. Fluid intelligence is en blijft een hypothetisch begrip aangezien het nooit zuiver te meten zal zijn. Bij metingen van intelligentie, met behulp van psychologische tests of anderszins, blijft het resultaat een indicatie van crystallized intelligence, aangezien omgevingsinvloeden en leerervaringen niet uit te sluiten zijn, zelfs als het gaat om fysiologische metingen. Wel kunnen tests in meer of mindere mate een beroep doen op aspecten die samenhangen met cultuur en met leerervaringen. Verbale tests zijn bijvoorbeeld sterk afhankelijk van leerervaringen en daarmee van crystallized intelligence. Raven's 'Progressive Matrices' (Raven, 1938; Raven, Court & Raven 1987), en Cattell's 'Culture-Fair Intelligence test' (Cattell & Cattell, 1963), zijn voorbeelden van tests die met name meer fluid intelligence trachten te meten. De Multiculturele Capaciteiten Test (MCT-M, Bleichrodt & Van den Berg, 1997) is bedoeld om een gedifferentieerd beeld te geven van het algemene intelligentieniveau. Naast enkele tests die meer een beroep doen op fluid intelligence zijn tests opgenomen die vooral een beroep doen op crystallized intelligence. Vergelijkbaarheid van testscores bij autochtone en allochtone kandidaten - Partijdigheidsonderzoek Bij onderzoek naar de vergelijkbaarheid van testscores van autochtone en allochtone kandidaten wordt veel gebruik gemaakt van de term 'testbias'. We kunnen het begrip bias vertalen met partijdigheid of onzuiverheid. Een test wordt partijdig of 'biased' genoemd wanneer: (1) de betekenis van de test verschilt voor bepaalde groepen - verschillen in begripsvaliditeit - of wanneer (2) de test verschillend voorspelt voor beide groepen - verschillen in predictieve validiteit. Dit laatste wordt ook wel predictiebias genoemd. Hierbij gaat het erom of een test onder- of overvoorspelt, met andere woorden of bepaalde groepen gemiddeld hogere of juist lagere arbeids- of criteriumprestaties behalen dan andere groepen, terwijl ze dezelfde gemiddelde testscore hebben behaald. We kunnen dus pas zeggen dat een test onpartijdig is ten opzichte van allochtonen wanneer blijkt dat de betekenis voor autochtonen en allochtonen hetzelfde is en dat allochtonen en autochtonen met een zelfde testscore ook een zelfde gemiddelde prestatie leveren in hun latere opleiding of werk. Aan de hand van het overzicht gegeven in figuur 1 zullen de verschillende stappen in het onderzoek naar partijdigheid worden besproken.

Item-partijdigheid? ja Instrument meet onzuiver begrip ja a. Instrument meet onzuiver begrip of b. er bestaan moderator variabelen nee Test-partijdigheid? nee Differentiële predictie? ja nee Criterium partijdig? Criterium partijdig? nee ja ja nee a. Instrument meet onzuiver begrip of b. er bestaan moderator variabelen pas criterium aan test is vergelijkbaar voor verschillende groepen Figuur 1 Stappen bij partijdigheidsonderzoek De eerste stap is het vaststellen of de items (vragen) binnen het instrument partijdigheid vertonen. Dit gebeurt middels zogenaamd 'Differential Item Functioning' (DIF) onderzoek. Hierbij gaat het om de vraag of er vergelijkbare relaties zijn tussen de items over verschillende groepen. Hiervoor zijn methoden beschikbaar uit de klassieke testtheorie waarbij de nadruk ligt op de item-moeilijkheidsgraad (p-waarde). Items mogen geen grotere of kleinere verschillen tussen de verschillende groepen vertonen dan de andere items van een test. In de latente trekken modellen uit de recentere item-response theorieën gaat het om de item karakteristieke functie, deze mag bij onpartijdigheid voor de verschillende groepen niet verschillen. Denk bij itempartijdigheid bijvoorbeeld aan zogenaamde ingeklede sommen, hierbij wordt beoogd rekenvaardigheid te meten, maar door het grote beroep op taalvaardigheid kunnen sommige items voor allochtonen sterker taalvaardigheid meten dan rekenvaardigheid. Deze items worden middels itempartijdigheidsonderzoek opgespoord. Het gaat er dus om of allochtonen en autochtonen met een zelfde (reken)vaardigheidsniveau ook net zoveel kans hebben om een bepaald item goed (of fout) te beantwoorden. Een gemeenschappelijk probleem van deze methoden is het gebruik van de andere items in de test als 'norm'. De totale testscore wordt als schatting gebruikt van het niveau van het cognitieve vermogen of de latente trek. Dit betekent dat er impliciet vanuit gegaan wordt dat het gemeten hypothetische begrip universeel is en dat de betekenis van het begrip niet verschilt voor beide groepen. Voorts wordt er bij deze methoden vanuit gegaan dat er geen partijdigheid in alle, dan wel de meeste, items aanwezig is, hetgeen echter wel degelijk mogelijk is. Wanneer itempartijdigheid wordt geconstateerd dan betekent dit dat (enkele) items voor verschillende groepen een verschillende betekenis hebben en dat een schaalscore of testscore gebaseerd op deze itemscores geen vergelijking tussen groepen mogelijk maakt. Wanneer geen itempartijdigheid is vastgesteld kan geconcludeerd worden dat de items op dezelfde manier 'iets' meten. De tweede stap is dan het onderzoeken van de relaties van de, op de itemscores gebaseerde, totale testscore of schaalscores. Hierbij gaat het om het onderzoeken van de relaties tussen subtests, in het bijzonder de onderliggende factorstructuur en relaties met

andere achtergrondvariabelen, zoals leeftijd, opleidingsniveau, verblijfsduur, sekse etc. Het onderzoek naar de factorstructuur gebeurt veelal middels exploratief of confirmatorisch factoranalytisch onderzoek, terwijl het onderzoek met achtergrondvariabelen gebeurt middels correlatie- en regressieonderzoek. Voorbeelden van factoren die de betekenis van een intelligentietest kunnen beïnvloeden, ook wel bronnen van niet bedoelde variantie genoemd, zijn: - taalvaardigheid: begrijpt iemand de testinstructies wel goed - bekendheid met het testmateriaal, gehanteerde begrippen, oplossingsstrategieën en antwoordmogelijkheden - ervaring met de testtaak of soortgelijke taken - ervaring met werken onder tijdsdruk - testattitude, motivatie, concentratie, faalangst, sociale wenselijkheid Wanneer blijkt dat er verschillen in relaties bestaan kan dit betekenen dat het instrument een onzuiver begrip meet of dat dit mogelijk ook geïnterpreteerd kan worden in termen van andere (moderator) variabelen uit het domein. Dit betekent niet dat een dergelijke (partijdige) test bij voorbaat onbruikbaar is, echter nader onderzoek naar mogelijke moderatorvariabelen is dan vereist. Wanneer blijkt dat er geen verschillen bestaan op het niveau van de testscore dan is de derde stap het onderzoek naar de voorspellende waarde voor de verschillende groepen. Het onderzoek naar de relatie tussen predictor (test) en criterium (praktijk) gebeurt met name met behulp van regressie-analyses. Hierbij gaat het erom of de regressiefunctie voor beide groepen gelijk is. Onderzocht worden verschillen in standaardschattingsfout, hellingshoek en intercept. Tegenwoordig wordt het gebruik van structural equation modellen (middels LISREL of EQS) echter geprefereerd boven het klassieke regressieonderzoek. Een belangrijk probleem bij het onderzoek naar de voorspellende waarde is de keuze van het criterium (bijvoorbeeld, is schoolsucces of salarisniveau een goed criterium om de vergelijkbaarheid van intelligentietests voor verschillende groepen te evalueren?). Wanneer een verschil wordt geconstateerd in de regressiefunctie kan dit aan verschillen (partijdigheid) in de test of aan verschillen in het criterium te wijten zijn? Voorafgaand aan het onderzoek naar de voorspellende waarde is het daarom van belang dat de stappen, die in het bovenstaande met betrekking tot de partijdigheid van de test werden uitgevoerd, ook worden uitgevoerd voor het criterium. Pas wanneer is gebleken dat het criterium geen partijdigheid kent, kan een definitieve conclusie getrokken worden met betrekking tot de voorspellende waarde voor verschillende groepen. Wanneer het criterium niet partijdig blijkt en er wel sprake van differentiële predictie is dan geldt hier hetzelfde als bij het constateren van testpartijdigheid: de test meet een onzuiver begrip of er zijn onbekende moderator-variabelen die de relatie tussen het door de test gemeten begrip en het voorspelde begrip beïnvloeden. Ook hier hoeft dit niet te betekenen dat de test onbruikbaar is, met verschillende predictiemodellen kan de test bij beide groepen gebruikt worden. Ontwikkeling van de Multiculturele Capaciteiten Test - Middelbaar niveau (MCT-M) In de afgelopen 40 jaar hebben medewerkers van de afdeling Arbeids- en Organisatiepsychologie aan de Vrije Universiteit Amsterdam een groot aantal psychologische tests ontwikkeld zowel voor de Nederlandse populatie, als ook voor niet Nederlandse en met name niet-westerse populaties, zoals Indonesië, Suriname, Kenia, Uganda, Tanzania, Botswana, Swaziland, Lesótho en India. De tests werden ontwikkeld in intensieve samenwerking met deskundigen uit de betreffende landen. De uitkomsten van deze samenwerkingsprojecten zijn neergelegd in een groot aantal publikaties (zie o.a. Altink-Van den Berg, 1988; Altink & Thijs, 1984; Bleichrodt, 1989; Bleichrodt & Drenth, 1981; Bleichrodt, Hoksbergen & Khire, 1999; Drenth, 1975, 1977a, 1977b; Drenth, Bleichrodt,

Dengah, Soemarto & Poespadibrata, 1979; Drenth, Van der Flier & Omari, 1983; Van der Flier, 1982; Van der Flier & Drenth, 1980; Omari, Drenth & Van der Flier, 1983). Het onderzoek is van groot belang geweest voor de keuze van de tests en items die opgenomen zijn in de MCT-M. Tests en items die in meerdere culturen bleken te voldoen aan de eisen van betrouwbaarheid en validiteit zijn in al dan niet aangepaste vorm opgenomen in de MCT- M. In de tweede plaats is bij de keuze van tests uitgegaan van een representatie van een vrij breed spectrum van intelligentiefactoren. Niet alleen zijn tests gekozen die een beroep doen op crystallized intelligence, maar vooral ook tests die meer een beroep doen op fluid intelligence. In de derde plaats is bij de ontwikkeling van de MCT-M rekening gehouden met de aanbevelingen die door de zogenoemde Testscreeningscommissie zijn gedaan. In 1988 is op initiatief van het Landelijk Bureau Racismebestrijding en het Nederlands Instituut van Psychologen deze commissie ingesteld, met als opdracht de twintig in Nederland meest gebruikte tests te screnen op racistische inhoud en culturele bias. In 1990 verscheen het eindrapport 'Toepasbaarheid van psychologische tests bij allochtonen' (Hofstee, e.a., 1990). De commissie concludeert in dit rapport ondermeer dat vanwege etnocentrische inhoud zeer veel Nederlandse tests of subtests grondig gereviseerd moeten worden. Tevens wordt aangedrongen op het betrachten van grote terughoudendheid bij het toepassen van de voorhanden zijnde psychologische tests bij allochtone sollicitanten. En tenslotte beveelt de commissie aan om meer onderzoek te doen naar testbias ten einde de ernstige achterstand op dit gebied te reduceren. Bij de constructie van de MCT-M is rekening gehouden met de aanbevelingen van de commissie. Zo is de gehanteerde taal in instructies en (oefen)opgaven eenvoudig en helder, zijn oefenopgaven opgenomen, is een boekje met oefenopgaven beschikbaar, is onderzoek naar item- en testbias uitgevoerd en is het mogelijk om een voortoets te gebruiken om het taalniveau vast te stellen dat nodig is om de instructies te begrijpen. Er is voor gekozen extra non-verbale/figurele tests op te nemen waarvan verwacht wordt dat deze minder worden beïnvloed door schoolse kennis en vaardigheden. Hierdoor kan een betere indicatie worden verkregen van de aanleg (fluid intelligence) van kandidaten. De subtest Kontroleren is samengesteld uit betekenisloze letter- en cijferreeksen. Bij de subtest Rekenvaardigheid is met opzet geen gebruik gemaakt van zogenaamde ingeklede of redactie sommen (in verband met de hoge correlatie van dit soort opgaven met taalvaardigheid) en is slechts kennis van elementaire rekenkundige bewerkingen vereist. Daarnaast zijn echter ook twee tests opgenomen die wel degelijk een beroep doen op kennis van de Nederlandse taal. De subtests Woordrelaties en Woordanalogieën. Bij laatstgenoemde test is getracht de moeilijkheid van de woorden zoveel mogelijk te beperken. Een verband van prestaties op deze test met het niveau van taalkennis en met de mate van culturele integratie is echter onvermijdelijk. De tijdsduur van alle subtests is beperkt om mogelijke concentratieproblemen te voorkomen, maar niet dusdanig beperkt dat een te sterk beroep wordt gedaan op het kunnen werken onder tijdsdruk. Er zijn tenslotte normen ontwikkeld voor gemeenschappelijke groepen, maar ook voor autochtone en diverse allochtone groepen afzonderlijk, waardoor het mogelijk wordt om onderzochte kandidaten te vergelijken met groepen die een vergelijkbare culturele achtergrond hebben. Samenstelling MCT-M De MCT-M bestaat uit een achttal subtests. Hieronder volgt een beschrijving van elke subtest en wordt tevens aangegeven wat de test bedoelt te meten. (1) Rekenvaardigheid De test rekenvaardigheid bestaat uit 30 eenvoudige rekenproblemen met vijf alternatieven. De rekenproblemen bestaan uit meervoudige en/of gecombineerde optellingen, aftrekkingen, delingen en vermenigvuldigingen. Woordkennis is voor deze test niet van belang aangezien geen zogenaamde redactiesommen zijn opgenomen. De test heeft het karakter van een snelheidstest. De problemen zijn relatief eenvoudig

en lopen niet sterk in moeilijkheid op. De test meet enerzijds inzicht in rekenkundige relaties en anderzijds de vaardigheid in het omgaan met getallen. (2) Komponenten Deze test bestaat uit 30 items. De items bevatten twee kleine figuren (komponenten), en een zestal alternatieven die bestaan uit complexe figuren. Twee van deze alternatieven kunnen van de twee kleine figuren gemaakt worden. De figuren zijn hierbij aan elkaar gepast en vaak tevens gedraaid. Bij deze test gaat het vooral om het mentaal manipuleren en transformeren van figureel materiaal. (3) Woordrelaties Deze test bestaat uit 45 items van vier woorden. Men moet aangeven welke woorden dezelfde of juist een tegengestelde betekenis hebben. De test meet naast de mate waarin men de betekenis van Nederlandse woorden kent (woordenschat), het vermogen om relaties tussen woorden te begrijpen. De kandidaat moet bij sommige items bijvoorbeeld evalueren of alternatieven die qua syntax veel op elkaar lijken ook ongeveer dezelfde semantische betekenis hebben. Tevens vormt de noodzaak tot zorgvuldig evalueren van het wel of niet tegengesteld zijn een extra complicerende factor die betrekking heeft op inzicht in relaties tussen woorden. (4) Cijferreeksen De test Cijferreeksen bestaat uit 30 series van getallen die volgens een bepaald principe zijn geordend. De kandidaat moet het volgende getal zien te vinden. Elke reeks is volgens een bepaald principe opgesteld. De in de test gehanteerde principes kunnen per opgave verschillen. Datgene wat de test meet kan men omschrijven als het vermogen om systemen in symbolisch, numeriek materiaal te kunnen ontdekken en herkennen. Het wordt wel beschouwd als een onderdeel van 'abstracte intelligentie'. De omschrijving 'numeriek redeneervermogen' wordt ook wel gebruikt. (5) Kontroleren De test kontroleren bestaat uit 100 paren van (betekenisloze) combinaties van letters of getallen De kandidaat moet aangeven of de combinaties voor en na de streep gelijk of niet gelijk zijn. De test meet behalve snelheid en nauwkeurigheid ook het onder tijdsdruk efficiënt kunnen werken aan een relatief onbekende taak en de mate waarin iemand zich op een bepaalde (eenvoudige) taak kan concentreren. (6) Spiegelbeelden De test Spiegelbeelden bestaat uit 30 items. Een item wordt gevormd door een basis figuur en zes identieke maar meer of minder gedraaide figuren. Twee van deze zes figuren zijn daarbij tevens gespiegeld of omgeklapt. Men moet de twee gespiegelde figuren zien te ontdekken. Bij deze test gaat het eveneens om het mentaal manipuleren en transformeren van figureel materiaal. Men moet zich in gedachten kunnen voorstellen wat bepaalde handelingen voor gevolgen zullen hebben. Anders dan bij de tests Komponenten en Exclusie wordt hier echter een driedimensionale factor ingebracht. De kandidaat moet behalve transformaties in hetzelfde vlak ook een transformatie uitvoeren in het vlak loodrecht daarop. (7) Woordanalogieën De test Woordanalogieën bestaat uit 30 items. De opdracht bestaat uit het vinden van twee woordparen die een zelfde soort relatie hebben. De kandidaat kan uit 5 alternatieven kiezen. Deze test meet verbaal redeneervermogen; het kunnen ontdekken van een samenhang of relatie tussen een aantal verbale begrippen. De kandidaat moet kunnen abstraheren van de gegeven concrete begrippen. Dit verbale abstractievermogen wordt beschouwd als een belangrijk aspect van algemene intelligentie. Woordkennis speelt wel een rol bij deze test, maar aangezien de moeilijkheidsgraad van de woorden relatief simpel is gehouden, zullen ook kandidaten met een minder grote woordenschat in staat zijn door juist te redeneren het goede antwoord te vinden. (8) Exclusie

De test Exclusie bestaat uit 30 items. Ieder item wordt gevormd door vijf figuren. Vier van de vijf figuren horen volgens bepaalde principes bij elkaar. De figuur die er niet bij hoort moet worden aangegeven. De moeilijkheid van de items varieert met de complexiteit van de te ontdekken principes. Er wordt een beroep gedaan op logisch redeneren waarbij het gaat om het herkennen van klasse-principes. Tevens meet de test het vermogen om visuele vergelijkingen te maken, afwijkingen te constateren en relevante details waar te nemen bij figuren. Onderzoeksresultaten Het onderzoek naar de MCT-M dat tot nu toe heeft plaatsgevonden heeft zich gericht op de interne en externe validiteit van de tests en de predictieve validiteit van de tests. Allereerst worden de onderzoeksgegevens met betrekking tot de interne validiteit van de MCT-M gepresenteerd. Dit betreft gegevens over de betrouwbaarheid, itempartijdigheid (DIF) en factorstructuur. Vervolgens wordt het onderzoek naar de relaties met externe achtergrondkenmerken besproken, waarna wordt afgesloten met het onderzoek naar de predictieve validiteit van de MCT-M. Voor een uitgebreidere beschrijving van het onderzoek naar de MCT-M wordt verwezen naar de dissertatie van R.H. van den Berg (in druk). Interne validiteit - Betrouwbaarheid MCT-M De betrouwbaarheden (alpha-coëfficiënten) van de subtests van de MCT-M variëren voor de allochtone groep van.83 tot.96, met een betrouwbaarheid voor de totale test van.97 en voor de autochtone groep van.81 tot.97, met een betrouwbaarheid voor de totale test van.98. Deze betrouwbaarheden zijn dusdanig hoog dat het zeker verantwoord is om ook subtestscores te gebruiken in het beslissingsproces. - Itempartijdigheid differential item functioning (DIF) Voor het onderzoek naar itempartijdigheid of differential item functioning (DIF) is gebruik gemaakt van een één parameter IRT-model. Gezien het verschil in het aantal items dat autochtonen en allochtonen per subtest voltooien is gebruik gemaakt van het programma OPLM (Verhelst, 1992) om zoveel mogelijk items op DIF te kunnen analyseren. Het programma OPLM biedt de mogelijkheid om de tests op te splitsen in evenveel subtests als er items in de test zijn. De item-analyses vinden plaats over al deze 'subtests' heen. Hierdoor kan een schatting verkregen worden van de itemparameters over zoveel mogelijk personen en items. Bij alle tests blijkt sprake te zijn van items die verschillend functioneren voor de autochtone en de allochtone groep. Het effect van het verschillend functioneren van de items voor de autochtone en allochtone groep op de totaalscore is zeer gering, variërend van 0.12 SD in het voordeel van de allochtone groep tot 0.06 SD in het nadeel van de allochtone groep, en niet eenduidig in het nadeel van de allochtone groep. Om de oorzaken van het verschillend functioneren van de items te onderzoeken is tevens een inhoudelijke analyse uitgevoerd. Uit deze analyse komen bij geen van de subtests duidelijke aanwijzingen voor specifieke kenmerken van de DIF-items naar voren. Bij de meer verbale tests, Woordrelaties en Woordanalogieën, zijn de aantallen items die verschillend functioneren echter groot, bij ongeveer de helft van de items is sprake van DIF. Dit grote aantal lijkt erop te wijzen dat deze tests voor beide groepen verschillende aspecten meten. De effecten van het verschillend functioneren van items heffen zich voor een belangrijk stuk op en leiden slechts tot geringe verschillen in totaalscore. Hierbij dient echter te worden opgemerkt dat gezien het grote aantal DIF-items, het referentiekader, de totaalscore op de overige items, weinig betrouwbaar is. Dit betekent dat er voor deze verbale tests geen conclusies over de vergelijkbaarheid van de itemscores kunnen worden getrokken.

- Factorstructuur en kwalitatieve equivalentie Om de samenhang van de MCT-M subtests te kunnen vergelijken is gebruik gemaakt van structural equation modelling in de vorm van confirmatorische factoranalyse (CFA). Hierbij is gebruik gemaakt van het softwareprogramma EQS (Bentler, 1989, 1992). De vraag is of de latente factorstructuur van de MCT-M voor verschillende etnische groepen in Nederland vergelijkbaar is. Het theoretisch model waarvan wordt uitgegaan is gebaseerd op de theorie van Cattell, die onderscheid maakt tussen fluid en crystallized intelligence. De subtests Rekenvaardigheid, Woordrelaties, Woordanalogieën en, in mindere mate, Cijferreeksen, zijn qua inhoud en vorm voor een belangrijk gedeelte gebaseerd op aangeleerde kennis (rekenvaardigheid, Nederlandse taalkennis, taalbegrip en redeneren met cijfers) en worden daardoor meer beïnvloed door de culturele en educatieve omgeving. Deze subtests meten in het theoretisch model de eerste latente factor Crystallized intelligence. De subtests Komponenten, Spiegelbeelden en Exclusie doen veel minder een beroep op aangeleerde kennis. De drie tests bestaan alle uit betekenisloze figuurtjes. De veronderstelling is dat deze subtests de tweede latente factor Fluid intelligence meten. De derde latente factor wordt gemeten door de subtest Kontroleren, deze subtest verschilt wezenlijk van de andere subtests en doet met name een beroep op snelheid van waarnemen. Deze latente factor wordt omschreven als Perceptual Speed and Accuracy. In het gebruikte theoretisch model is naast deze drie eerste orde factoren een tweede orde factor (g-factor) onderscheiden. Om de toepasbaarheid van dit theoretische model voor de verschillende groepen te onderzoeken is stapsgewijs de vergelijkbaarheid voor beide groepen onderzocht. Hierbij is de autochtone groep steeds als referentie gebruikt. Allereerst is de gelijkheid van de covarianties van de subtests voor de twee groepen getoetst. Vervolgens is de gelijkheid van het factormodel onderzocht. Aan het model zijn achtereenvolgens steeds strengere restricties opgelegd: eerst zijn de factorcovarianties aan elkaar gelijkgesteld, vervolgens de factorvarianties en uiteindelijk ook de factorladingen. Deze procedure heeft plaatsgevonden voor de volgende groepen:totale allochtone groep, Surinaamse/Antilliaanse groep en Turks/Marokkaanse groep. In tabel 1 worden de resultaten weergegeven. De Comparative fit index (CFI) is een door Bentler (1990) verbeterde versie van de Tucker-Lewis index en is minder afhankelijk van de steekproefgrootte. Bentler en Bonett (1987) geven aan dat waarden onder de.90 gewoonlijk betekenen dat het model substantieel moet worden verbeterd. Tabel 1. Vergelijking theoretisch model tussen Autochtone groep enerzijds en totale groep allochtonen, Surinamers/Antillianen en Turken/Marokkanen anderzijds. Comparative fit index Totale groep allochtonen Surinamers/ Antillianen Turken/ Marokkanen Covarianties.942.958.957 Factormodel.965.974.971 Factorcovarianties.960.968.969 Factorvarianties.957.964.962 Factorladingen.950.958.955 Uit de tabel blijkt dat alle fit-indexen hoger dan.90 zijn en zelfs op één uitzondering na hoger dan.95. Voorts blijkt dat, zoals verwacht, het aanbrengen van meer restricties in alle gevallen leidt tot een lagere fit-index. De Chi-kwadraat waarden zijn bij alle modelvergelijkingen significant, hetgeen betekent dat het model voor beide groepen wel verschilt. De Turks/Marrokaanse groep vertoont de laagste fit-waarden. In tabel 2 worden de percentages verklaarde varianties voor de verschillende culturele groepen weergegeven. Tabel 2. Percentages verklaarde variantie voor de drie onderscheiden factoren voor de verschillende culturele groepen.

Groep Autochtonen Allochtonen Surinamers/ Turken/ Factor Totaal Antillianen Marokkanen F1 Crystallized intelligence 20.2 % 21.2 % 21.3 % 18.9 % F2 Fluid intelligence 21.0 % 19.3 % 18.3 % 15.7 % F3 Perceptual Speed/Accuracy 12.5 % 12.5 % 12.5 % 12.5 % Totaal 53.7 % 53.0 % 52.1 % 47.1 % Uit tabel 2 blijkt dat het percentage verklaarde variantie voor de groep Turken/Marokkanen beduidend lager is dan voor de andere groepen. Dit duidt erop dat het model voor deze groep minder goed toepasbaar is. Verder kan in het algemeen geconstateerd worden dat voor de allochtone groepen de factor Crystallized intelligence een groter percentage van de variantie verklaart dan de factor Fluid intelligence. Bij de autochtone groep is het omgekeerde het geval. De g-ladingen (zie ook Carreta & Ree, 1995; Jensen & Weng, 1994) van de verschillende subtests worden in tabel 3 voor de vier onderscheiden culturele groepen weergegeven. Tabel 3. G-ladingen MCT-M subtests voor de verschillende culturele groepen Groep MCT-M tests Autochtonen Allochtonen Totaal Surinamers/ Antillianen Turken/ Marokkanen Woordrelaties 0.42 0.35 0.28 0.29 Woordanalogieën 0.54 0.56 0.51 0.55 Rekenvaardigheid 0.66 0.58 0.54 0.59 Cijferreeksen 0.42 0.46 0.39 0.49 Exclusie 0.61 0.64 0.63 0.29 Komponenten 0.55 0.61 0.53 0.34 Spiegelbeelden 0.22 0.29 0.28 0.19 Kontroleren 0.38 0.48 0.43 0.31 De grootste verschillen bestaan tussen de autochtone groep en de Turks/Marokkaanse groep. De ladingen verschillen het meest voor de subtests Exclusie en Komponenten, beide tests hebben een beduidend lagere g-lading voor de Turks/Marokkaanse groep. Voorts blijkt dat de subtests die het grootste beroep doen op schoolse vaardigheden, Rekenvaardigheid en Woordrelaties, lagere g-ladingen hebben voor alle allochtone groepen. - Conclusies factorstructuur en kwalitatieve equivalentie De hoge fit-maten (>.90) laten zien dat het hiërarchische twee-orde g-model goed toepasbaar is en vergelijkbaar is voor de verschillende allochtone groepen. Het model verschilt echter wel significant voor de autochtone en allochtone groepen. De verschillen zijn het grootst bij de Turks/Marokkaanse groep. Zowel de fit-maten als het percentage verklaarde variantie is bij deze groep relatief klein. Ook de g-ladingen laten voor deze groep een duidelijk ander beeld zien dan bij de andere groepen. De daling van met name de g- lading van de subtests Exclusie en Komponenten wijst erop dat deze tests minder een beroep doen op algemene intelligentie dan bij autochtonen. Over het geheel gezien laden de subtests Woordrelaties en Rekenvaardigheid voor de allochtone groepen minder op algemene intelligentie dan voor de autochtone groep. Dit is verklaarbaar door het verschil in formele scholing tussen autochtonen en allochtonen. Bij autochtone kandidaten is het basis kennisniveau m.b.t. de Nederlandse taal en rekenvaardigheid redelijk goed vergelijkbaar. Hierdoor worden de verschillen in scores op deze subtests grotendeels verklaard door algemene intelligentie. Bij allochtone kandidaten kan dit kennisniveau echter sterk verschillen, waardoor de scores op deze tests minder algemene intelligentie maar meer schoolse kennis en vaardigheden weergeven.

Externe validiteit: relaties testscores achtergrondkenmerken - Verschillen in test- en factorscores In tabel 4 worden de gemiddelde subtestscores en standaarddeviaties weergegeven voor de autochtone groep, de eerste generatie allochtone groepen: Surinamers, Antillianen, Marokkanen en Turken en de tweede generatie allochtone groep. Tabel 4. Gemiddelden en standaarddeviaties voor de autochtone groep, eerste generatie Surinamers, Antillianen, Marokkanen en Turken en tweede generatie allochtonen. Autochtonen (n=857) Surinamers (n=251) Eerste generatie allochtonen Antillianen (n=68) Marokkanen (n=121) Turken (n=79) Tweede generatie allochtonen (n=135) M SD M SD M SD M SD M SD M SD Woordrelaties 24.0 9.6 17.6 6.8 13.8 5.1 12.5 6.2 11.4 4.8 23.9 8.1 Woordanalogieën 23.9 6.6 19.0 6.9 18.2 6.5 16.7 8.1 16.5 7.1 24.7 5.7 Rekenvaardigheid 19.2 7.6 14.7 6.9 14.6 6.3 12.8 4.8 14.5 6.8 17.8 6.7 Cijferreeksen 18.1 5.9 15.1 4.9 14.7 4.6 14.5 5.0 15.6 5.2 18.3 4.6 Exclusie 19.6 6.5 16.6 4.8 16.9 4.2 16.4 3.7 16.6 4.6 20.2 4.4 Komponenten 21.0 7.2 17.9 6.2 18.5 5.8 17.1 6.5 17.2 5.7 21.7 5.2 Spiegelbeelden 13.7 10.4 7.0 6.9 6.8 6.9 7.5 7.6 7.5 8.3 15.3 10.7 Kontroleren 50.6 16.5 47.8 * 12.7 49.0 12.6 44.2 14.2 48.1 12.8 52.4 13.1 Alle eerste generatie allochtone groepen scoren significant (p <.01) lager dan de autochtone groep. De verschillen binnen de allochtone groepen zijn klein, behalve op de verbale tests waar de Surinamers en Antillianen hoger scoren. De verschillen in gemiddelde testscores tussen autochtonen en tweede generatie allochtonen zijn zeer klein en verwaarloosbaar. Dit blijkt ook uit tabel 5 waarin de verschillen zijn weergegeven met autochtonen voor de factorscores (crystallized intellingence, fluid intelligence en perceptual speed) voor eerste generatie allochtonen en tweede generatie allochtonen, uitgedrukt in standaarddeviaties van de autochtone groep. Tabel 5. Verschillen in factorscores voor eerste generatie en tweede generatie allochtonen uitgedrukt in sd van de autochtone groep. Allochtonen eerste generatie (n=648) Allochtonen tweede generatie (n=135) F1 Crystallized intelligence -.73* -.01 - Verbaal -.90*.06 - Numeriek -.58* -.07 F2 Fluid intelligence -.46*.08 F3 Perceptual speed -.19*.11 * p <.05 Eerste generatie allochtonen scoren op alle drie factoren significant lager dan de autochtone groep. Ook wanneer gecorrigeerd wordt voor de geringe verschillen in leeftijd en opleidingsniveau blijven de significante verschillen tussen eerste generatie allochtonen en autochtonen bestaan. De grootste verschillen bestaan voor de verbale tests. De gemiddelde

factorscores van de tweede generatie allochtonen verschillen weinig en niet significant van die van de autochtonen. - Taalbeheersing De verwachting is dat allochtone kandidaten met een geringe Nederlandse taalbeheersing minder goed presteren op de MCT-M. De taaltoets, die aan zowel autochtone als allochtone kandidaten is voorgelegd, geeft een algemene indicatie van de Nederlandse taalbeheersing. De gemiddelde taaltoetsscores en standaarddeviaties voor de autochtone, tweede generatie allochtone en eerste generatie allochtone groep zijn resp. 77.3 en 4.6 (n=426), 76.8 en 6.2 (n=141) en 67.9 en 13.7 (n=703). Autochtonen en tweede generatie allochtonen verschillen niet significant, wel is de spreiding binnen de tweede generatie allochtonen groter. Eerste generatie allochtonen scoren significant en beduidend lager dan autochtonen en tweede generatie allochtonen. Zowel verblijfsduur als leeftijd bij immigratie zijn significant gecorreleerd met de taaltoetsscores, respectievelijk 0.26 en -0.29. Hoe langer in Nederland en op hoe jongere leeftijd naar Nederland gekomen hoe hoger de taaltoetsscores. Een regressie-analyse laat zien dat het regressiegewicht van de leeftijd bij immigratie bijna twee maal zo groot is als het gewicht van verblijfsduur (beta -.21 versus.11). Verblijfsduur blijft echter wel significant bijdragen aan de voorspelling (T=1.990, p=0.047). Het bovenstaande betekent dat de leeftijd waarop men naar Nederland is gekomen van groter belang is voor de taaltoetsscore dan de verblijfsduur op zichzelf, maar dat bij een gelijke immigratieleeftijd de verblijfsduur nog steeds een positieve, hoewel geringe, relatie vertoont met de taaltoetsscore. In tabel 6 worden de correlaties weergegeven van de taaltoets met de subtests van de MCT- M voor de autochtone en eerste generatie allochtone groep. Tevens wordt aangegeven of de correlaties significant van elkaar verschillen. Tabel 6 Correlaties subtests MCT-M met de taaltoets voor de groep autochtonen en eerste generatie allochtonen en de significantie van het verschil in correlaties voor beide groepen. Taaltoets Subtest MCT-M Autochtonen (n=425) Allochtonen eerste generatie (n=625) Significantie verschil in correlaties Woordrelaties.47.62 P =.000 Woordanalogieën.43.64 P =.000 Rekenvaardigheid.40.40 n.s. Cijferreeksen.41.44 n.s. Exclusie.31.29 n.s. Komponenten.20.37 P =.002 Spiegelbeelden.18.21 n.s. Kontroleren.21.34 P =.013 MCT somscore.45.57 P =.005 Alle correlaties MCT-M met Taaltoets: p <.001 Voor de allochtone groep zijn de correlaties van de taaltoets met de subtests Komponenten, Woordrelaties, Woordanalogieën, Kontroleren en de MCT-M somscore significant hoger dan bij de autochtonen. Dit vormt een aanwijzing dat de scores op deze subtests en de totale somscore bij de allochtone groep meer samenhangen met algemene taalvaardigheid dan bij de autochtone groep. De hoge correlaties die ook voor de autochtone groep worden gevonden tonen echter aan dat de taaltoets niet alleen een beroep doet op taalkennis, maar tevens gerelateerd is aan andere non-verbale cognitieve vaardigheden. Dit maakt het

moeilijk om middels de taaltoets te corrigeren voor een geringe Nederlandse taalbeheersing. Wanneer dit namelijk wel wordt gedaan dan wordt een belangrijk stuk 'ware variantie' van de te meten cognitieve capaciteiten weggenomen. - Verblijfsduur en leeftijd bij immigratie De verwachting is dat verblijfsduur en leeftijd bij immigratie bij eerste generatie allochtonen respectievelijk een positieve en een negatieve significante relatie zullen hebben met de prestaties op de subtests van de MCT-M. In tabel 7 worden de partiële correlaties van de MCT-M factoren met verblijfsduur en de leeftijd waarop men naar Nederland is geïmmigreerd weergegeven. Hierbij is gecorrigeerd voor opleidingsniveau in verband met mogelijke verschillen in opleiding samenhangend met de periode van immigratie. Het is bijvoorbeeld bekend dat de eerste immigranten vanuit Turkije en Marokko relatief weinig onderwijs hebben genoten. Uit de tabel blijkt dat verblijfsduur een sterk positief verband heeft met de scores op de factor Crystallized intelligence, hetgeen vooral wordt veroorzaakt door de subtest Woordrelaties. Dit komt overeen met de verwachtingen, aangezien de verbale tests en in het bijzonder de subtest Woordrelaties woordkennis meten, waarvan mag worden aangenomen dat deze toeneemt met de verblijfsduur. Voorts wordt een significant verband gevonden met de factor Perceptual speed (subtest Kontroleren). Deze relatie is minder makkelijk te verklaren. Kontroleren is een snelheidstest, waarbij betekenisloze letter- of cijferreeksen vergeleken dienen te worden. De instructie is eenvoudig en de benodigde Nederlandse taalkennis is bijzonder gering. Mogelijk wijst de correlatie met verblijfsduur op een vorm van toegenomen test-wiseness. De argumentatie zou dan als volgt zijn: hoe langer men in Nederland is hoe meer men op de hoogte is van de eisen die in Nederland worden gesteld met betrekking tot werken onder tijdsdruk en hoe meer men gewend is om onder tijdsdruk te werken. Dit leereffect is met name te verwachten bij eenvoudige routinematige taken waarbij de tijdsdruk hoog is en waar een relatief gering beroep op cognitieve vaardigheden wordt gedaan. Opvallend is dat de leeftijd waarop men naar Nederland is geïmmigreerd hogere correlaties met de MCT-M subtests laat zien dan de verblijfsduur. Behalve voor de subtest Rekenvaardigheid zijn alle correlaties significant negatief. Hoe jonger men naar Nederland is gekomen hoe hoger men scoort op de MCT-M. Verder blijkt dat de Fluid intelligence factor, die een zeer gering verband laat zien met verblijfsduur, wel een duidelijk verband laat zien met de leeftijd waarop men naar Nederland is gekomen. Tabel 7. Partiële correlaties voor de groep eerste generatie allochtonen van de MCT-M factorscores en de taaltestscore met verblijfsduur in Nederland en met leeftijd waarop men naar Nederland is gekomen, gecorrigeerd voor opleidingsniveau en voor opleidingsniveau en verblijfsduur (n=625). Verblijfsduur Leeftijd naar Nederland correctie opleiding correctie opleiding correctie opleiding en verblijfsduur Fluid intelligence.05* -.20*** -.23*** Crystallized intelligence.23*** -.21*** -.05* Perceptual speed.17*** -.22*** -.13** Taaltest.30*** -.34*** -.17*** *** = p <.001; ** = p <.01; * = p <.05 Tabel 7 toont ook de partiële correlaties met de leeftijd waarop men naar Nederland is gekomen, gecorrigeerd voor opleidingsniveau en verblijfsduur. Wanneer verblijfsduur en opleidingsniveau gelijk worden gehouden, dan blijkt de leeftijd waarop men naar Nederland is gekomen met name van belang te zijn voor de fluid intelligence factor en in veel mindere mate voor de crystallized intelligence factor.

De algemene conclusie die kan worden getrokken uit bovenstaande resultaten is dat de leeftijd waarop eerste generatie allochtonen naar Nederland zijn gekomen een belangrijke invloed heeft op de testresultaten. Deze invloed is veelal groter dan de invloed van de verblijfsduur. Om de verschillen in testscores die samenhangen met de leeftijd waarop men naar Nederland is gekomen verder te analyseren worden in tabel 8 de scores getoond voor eerste generatie allochtone kandidaten die vóór hun zevende levensjaar naar Nederland zijn gekomen en voor eerste generatie allochtone kandidaten die na hun zevende jaar naar Nederland zijn gekomen. Tabel 8. Verschillen eerste generatie allochtonen die vóór en na hun zevende jaar naar Nederland zijn gekomen uitgedrukt in SD (van de autochtone groep). Allochtonen leeftijd Ned. tussen 0-6 jaar (n=101) Allochtonen leeftijd Ned. vanaf 7 jaar (n=552) Fluid intelligence -0.08-0.54* Crystallized intelligence -0.35* -0.80* Perceptual speed -0.21-0.27* * = significant verschillend van autochtone groep p < 0.05 De kandidaten die op latere leeftijd naar Nederland zijn gekomen scoren beduidend lager op alle MCT-M factoren dan de kandidaten die op jongere leeftijd naar Nederland zijn gekomen. De groep die op jonge leeftijd naar Nederland is gekomen (vanaf 0 tot en met 6 jaar) verschilt relatief weinig van de autochtone groep. Alleen op de crystallized intelligence factor bestaan nog significante verschillen, die vooral veroorzaakt worden door de verbale tests. Het afnemen van de scoreverschillen lijkt erop te wijzen dat met name het volgen van het eerste (basis) onderwijs in Nederland een belangrijke positieve invloed heeft op de latere prestaties op intelligentietests, niet alleen op crystallized intelligence maar ook op fluid intelligence. Externe validiteit: voorspellende waarde Voor het onderzoek naar de voorspellende waarde van de MCT-M wordt gebruik gemaakt van verschillende criteria. Allereerst wordt nu het gebruikte criterium toegelicht, waarna de bespreking van het onderzoek naar de predictieve validiteit volgt. - Criteria De prestaties van de kandidaten in de praktijkgerichte opleidingen zijn beoordeeld middels een functioneringsbeoordelingslijst, in de vorm van een behavior observation scale (BOS) (zie Latham, Fay en Saari, 1979). Kenmerk van deze vorm van vragenlijsten is dat gevraagd wordt de frequentie van bepaald gewenst of ongewenst gedrag aan te geven. In totaal zijn 24 items ontwikkeld die vijf schalen vormen: algemene capaciteiten en vaardigheden, interpersoonlijke vaardigheden, werkhouding, werkuitvoering en taalvaardigheid. De functioneringsbeoordelingslijsten zijn ingevuld door de meest betrokken docenten of begeleiders aan het eind van de opleiding. In totaal zijn van 533 personen functioneringsvragenlijsten geretourneerd. - Predictieve validiteit Het onderzoek naar de predictieve validiteit richt zich op een tweetal criteria: (1) een overall beoordeling gebaseerd op de schalen 1 t/m 4, Algemeen functioneren ;

(2) een taalbeoordeling, gebaseerd op schaal 5; Er is gebruik gemaakt van de structural equation modelling methode om de relaties tussen predictoren, intermediërende variabelen (achtergrondkenmerken van de kandidaten) en de criteria beter te kunnen analyseren. Bij structural equation modelling wordt gelijktijdig het meet- en het structurele latente variabele model onderzocht voor zowel de predictor als het criterium. Deze methode heeft beduidende voordelen boven de veel gebruikte klassieke regressiemethode, waarbij verschillen tussen groepen in standaardschattingsfouten, hellingshoeken en intercepts worden onderzocht (Lauthenschlager & Mendoza, 1986), namelijk dat 'ware' latente scores kunnen worden gebruikt en dat meetfouten worden geëxpliciteerd. Bij de klassieke regressiemethode worden de geobserveerde scores gezien als 'ware' scores. Dit laatste kan leiden tot onjuiste conclusies. Voor de analyses van de vergelijkbaarheid van het predictie-model voor de autochtone groep en allochtone groep is gebruik gemaakt van het softwareprogramma EQS (Bentler, 1989, 1992). Om de toepasbaarheid van het theoretische model voor de autochtone en allochtone groep te onderzoeken is stapsgewijs de vergelijkbaarheid voor beide groepen onderzocht. Hierbij werd de autochtone groep steeds als referentie gebruikt. Allereerst is de gelijkheid van het algemene predictiemodel voor de twee groepen getoetst, vervolgens is het (zijn de) regressiegewicht(en) van de predictor(en) voor beide groepen gelijk gesteld en tenslotte is de residuvariantie gelijk gesteld. Het onderzochte theoretische model bestond uit een g-factor en drie specifieke factoren; fluid intelligence, crystallized intelligence en perceptual speed. Het model is voor twee criteria onderzocht: een overall beoordeling (schalen 1 t/m 4) en een taalbeoordeling (schaal 5). In de modellen zijn tevens een aantal externe variabelen opgenomen, te weten sekse, leeftijd, opleiding en werkloosheidsduur, waarvan wordt aangenomen dat deze invloed hebben op de relatie tussen de predictor en het criterium. In tabel 9 worden de resultaten van de EQS analyses weergegeven voor het criterium Algemeen functioneren en het criterium Taalbeheersing. Tabel 9. Vergelijking predictie model tussen Autochtone groep en Allochtone groep, een drie factor g-model voor de criteria Algemeen functioneren en Taalbeheersing Comparative fit index Algemeen Taalbeheersing functioneren Factormodel.943.968 + Regressie-gewichten gelijk.945.962 + Residuvariantie gelijk.945.958 Uit de resultaten komt naar voren dat het drie factor g-model voor het criterium Algemeen functioneren redelijk goed past (CFI >.90). Het toepassen van de extra restricties leidt niet tot een afname van de fit, hetgeen betekent dat het meest restrictieve model waarbij de regressiegewichten, constanten en residuvarianties gelijk zijn gesteld te prefereren valt. Voor het criterium Taalbeheersing past het model goed (CFI >.95). De fit-maten zijn nog iets hoger dan bij het criterium Algemeen functioneren. Het gelijk stellen van de regressiegewichten en de residuvariantie voor de autochtone groep en allochtone groep leidt tot een iets lagere fit-waarde. Uit de analyses blijkt dat de g-lading en de lading van de factor crystallized intelligence significant verschillen, respectievelijk chi-kwadraat =4.910, df=1 en chi-kwadraat =9.399, df=1. Ook is er sprake van een significant verschil in intercept (z=- 2.681, p=.003). Voorts blijkt bij het meest restrictieve model dat de residuvariantie significant verschilt (chi-kwadraat=5.382, df=1). De conclusie kan getrokken worden dat ondanks een goede fit-maat het model voor de autochtone groep en allochtone groep op een aantal punten niet goed vergelijkbaar is.

De gestandaardiseerde regressievergelijking voor het criterium Algemeen functioneren voor het meest restrictieve drie factor g-model, waarbij de regressiegewichten, constanten en residuvariantie gelijk zijn gesteld, wordt weergegeven in tabel 10. Tabel 10. Gestandaardiseerde regressiegewichten van het drie factor g-model (meest restrictieve model) op het criterium algemeen functioneren, voor resp. autochtone groep en allochtone groep Autochtonen R =.34; MSE = 0.75 Allochtonen R =.35; MSE = 0.75 G C F P sexe lft opl wrkl.21* -.08.02.05.16*.28* -.17* -.09.26* -.09.02.05.20*.13 -.18* -.18* Waarbij: * = p <.05 R=multiple R, MSE=residuvariantie, G=General intelligence, C=Crystallized intelligence, F=Fluid intelligence, P=Perceptual speed, lft=leeftijd, opl=opleiding, wrkl=werkloosheidsduur Uit deze regressievergelijkingen komt naar voren dat G voor de allochtone groep in de voorspelling van het criterium een relatief groter belang heeft. De specifieke factoren, Fluid, Crystallized intelligence en Perceptual speed dragen, naast G, niet significant bij aan de voorspelling. Voorts blijkt dat leeftijd en werkloosheidsduur voor beide groepen een verschillende relatie hebben met het criterium; een hogere leeftijd heeft voor de autochtone groep een significant positief effect op de beoordeling, voor de allochtone groep geldt dat een kortere werkloosheidsduur een significant positief effect heeft op de beoordeling. Het effect van sekse en opleidingsniveau is voor beide groepen vergelijkbaar. De gestandaardiseerde regressievergelijking voor het criterium Taalbeheersing voor het minst restrictieve drie factor g-model, waarbij de regressiegewichten, constanten en residuvariantie vrij zijn gelaten, wordt weergegeven in tabel 11. Tabel 11. Gestandaardiseerde regressiegewichten van het drie factor g-model (minst restrictieve model) op het criterium taalvaardigheid, voor resp. autochtone groep en allochtone groep Autochtonen R =.28; MSE = 0.93 Allochtonen R =.42; MSE = 1.34 G C F P sexe lft opl wrkl.09 -.11.01 -.02.19*.26* -.02 -.09.31*.19* -.17.09.06 -.06 -.02 -.09 Waarbij: * = p <.05 R=multiple R, MSE=residuvariantie, G=General intelligence, C=Crystallized intelligence, F=Fluid intelligence, P=Perceptual speed, lft=leeftijd, opl=opleiding, wrkl=werkloosheidsduur Uit tabel 11 komen de verschillen duidelijk naar voren. Bij de autochtone groep is er slechts een zeer gering verband tussen de onderscheiden intelligentiefactoren en de beoordeling van de taalvaardigheid. Bij de allochtone groep daarentegen blijkt dat zowel de g-factor als de crystallized intelligence factor een significante positieve relatie hebben met de taalbeoordeling. Voorts blijkt dat leeftijd en sexe een significante relatie vertonen bij de autochtone groep, maar niet bij de allochtone groep. Vrouwen en oudere kandidaten worden binnen de autochtone groep positiever beoordeeld op taalvaardigheid. - Conclusies en discussie Wanneer de resultaten van het onderzoek naar de predictieve validiteit worden gecombineerd dan kan in de eerste plaats geconcludeerd worden dat het drie factor g-model

in zijn algemeenheid goed op de geobserveerde data past. Met name de g-factor heeft - naast opleidingsniveau, sekse, leeftijd en werkloosheidsduur - voor zowel de autochtone als de allochtone kandidaten een significante voorspellende waarde voor een beoordeling van het functioneren. In de meeste gevallen heeft deze g-factor ook de hoogste voorspellende waarde. Dit betekent dat de MCT-M de beste voorspeller is voor het latere functioneren. Een tweede conclusie is dat er verschillen zijn in de toepasbaarheid van het drie factor g-model voor de verschillende beoordelingscriteria. Voor het eerste criterium 'Algemeen functioneren' past het model het beste. Voor het criterium 'Taalvaardigheid' verschilt het model voor de autochtone groep en allochtone groep het meest. Hierbij kan worden opgemerkt dat bij het eerste criterium 'Algemeen functioneren' taalvaardigheid buiten de beoordeling is gelaten. De g-factor blijkt dan een redelijk goed en vergelijkbaar voorspellend vermogen te hebben en ook de specifieke factoren hebben een vergelijkbaar effect voor de autochtone groep en de allochtone groep. Bij het criterium 'Taalvaardigheid' is het beeld echter sterk verschillend. Hier hebben de g-factor en de specifieke factor Crystallized intelligence wel een significant voorspellend vermogen voor de allochtone groep maar niet voor de autochtone groep. De effecten van de specifieke factoren zijn voor de allochtone groep en autochtone groep voorts tegengesteld. Dit wijst erop dat de mate waarin taalvaardigheid het beoordelingscriterium beïnvloedt bepalend is voor de vergelijkbaarheid van de predictiemodellen voor autochtonen en allochtonen. Hoe meer het criterium door taalvaardigheid wordt beïnvloed hoe groter de verschillen in predictiemodellen. Wanneer bij de validering van een capaciteiten- of intelligentietest een criterium wordt gebruikt dat in belangrijke mate door taalvaardigheid wordt beïnvloed zijn conclusies over de vergelijkbaarheid van het voorspellend vermogen voor autochtonen en allochtonen niet te trekken. Dit betekent dat bij het gebruik van criteria voor de validering van capaciteiten en intelligentietests bij voorkeur meerdere criteria dienen te worden gehanteerd, waarbij de invloed van taalvaardigheid op het criterium expliciet dient te worden onderscheiden en zo mogelijk dient te worden gekwantificeerd. Een derde conclusie die uit bovenstaande resultaten kan worden getrokken is dat achtergrondkenmerken van autochtonen en allochtonen een verstorende invloed hebben op de relatie tussen capaciteitentestscores en beoordelingscriteria. Bij het eerste criterium 'Algemeen functioneren' blijkt bijvoorbeeld dat leeftijd en werkloosheidsduur een verschillend effect hebben op de beoordeling. Bij het tweede criterium 'Taalvaardigheid' geldt dit voor leeftijd en sexe. Dit wijst erop dat beoordelaars bij hun (algemene) beoordeling van allochtone kandidaten andere aspecten laten meewegen dan bij autochtone kandidaten. Beoordelaars laten zich bijvoorbeeld bij hun beoordeling van allochtone kandidaten mede leiden door de lengte van de werkloosheid, terwijl men dit niet laat meespelen bij de beoordeling van autochtone kandidaten. Gezien het feit dat dit effect een rol speelt los van capaciteiten, leeftijd, opleiding en sekse kan dit wijzen op een negatief vooroordeel van beoordelaars t.o.v. allochtone kandidaten. De genoemde verschillen in invloed van achtergrondkenmerken op beoordelingen van autochtonen en allochtonen betekenen dat niet zomaar, zonder voorafgaand onderzoek, verondersteld kan worden dat een bepaald criterium voor autochtonen en allochtonen een zelfde betekenis heeft. Veronderstellingen die worden afgeleid vanuit een theoretisch nomologisch netwerk dat gebaseerd is op onderzoek bij autochtone kandidaten, blijken bij allochtone kandidaten in bepaalde gevallen niet op te gaan. In dergelijke gevallen is er veelal sprake van interveniërende variabelen zoals taalvaardigheid of verblijfsduur in Nederland. Wanneer een bepaald criterium gebruikt wordt bij de validering van een test zonder rekening te houden met eventuele interveniërende variabelen, kunnen geen zinvolle uitspraken gedaan worden over de betekenis of de vergelijkbaarheid van een dergelijke test voor autochtonen en allochtonen. Een vierde conclusie betreft het verschil in verklaarde variantie voor de autochtone en allochtone groep. Uit de resultaten komt naar voren dat het percentage verklaarde variantie voor het gebruikte predictiemodel voor de allochtone groep in alle gevallen hoger is dan voor de autochtone groep (R allo >R auto ). De resterende residuvariantie blijft echter in alle gevallen nog steeds hoger voor de allochtone groep (MSE allo >MSE auto ). Dit betekent dat het gebruik van het predictiemodel bij allochtonen zeker aan te raden is, maar dat men zich dient te

realiseren dat desondanks bij allochtonen nog steeds meer fouten zullen worden gemaakt bij de predictie dan bij autochtonen; de onverklaarde variantie blijft bij deze groep hoger dan bij de autochtone groep. Ook hier is de vermoedelijke verklaring voor dit fenomeen de invloed van interveniërende variabelen die de relatie tussen predictor en criterium complexer maakt dan bij autochtonen.

9. Literatuur Altink-Van den Berg, W.M.M. (1988). Selectie voor het hoger onderwijs in ontwikkelingslanden. Amsterdam: Vrije Universiteit. (dissertatie) Altink, W.M.M. & Thijs, G.D. (1984). The issue of equity: research on selection processes for educational programmes in developing countries. Institute of Development Studies Bulletin, 15, 74-80. Bentler, P.M. (1989/1992). EQS: Structural equations program manual. Los Angeles: BMDP Statistical Software. Bentler, P.M. (1990). Comparative fit indexes in structural models. Psychological Bulletin, 107, 238-246. Bentler, P.M. & Bonett, D.G. (1987). Significance tests and goodness of it in the analysis of covariance structures. Psychological Bulletin, 88, 588-606. Berg, R.H. van den (in druk), Psychologisch onderzoek in een multiculturele samenleving. Dissertatie, Vrije Universiteit. Bleichrodt, N. (1989). Intelligentiemeting ten behoeve van het onderwijs in Indonesië. Amsterdam: Vrije Universiteit (dissertatie). Bleichrodt, N. & Berg, R.H. van den (1997). Handleiding Multiculturele Capaciteiten Test - Middelbaar niveau (MCT-M). Amsterdam, NOA. Bleichrodt, N., Hoksbergen, R.A.C. & Khire, U. (1999). Cross-Cultural Testing of Intelligence. Cross-Cultural Research. Bleichrodt, N. & Drenth, P.J.D. (1981). Science Pre-Entry Course Test Lesotho/Swaziland/Botswana. Amsterdam: Vrije Universiteit. Caretta, T.R & Ree, M.J. (1995). Near identity of cognitive structure in sex and ethnic groups. Personality and Individual differences, 19, 149-155. Cattell, R.B. (1971). Abilities: Their Structure, Growth and Action. New York, Houghton Mifflin. Cattell, R.B. & Cattell, A.K.S. (1963). Culture Fair Intelligence Test. Champaign, Illinois, IPAT. Drenth, P.J.D. (1975). Psychological Tests for Developing Countries: Rational and Objectives. Nederlands Tijdschrift voor de Psychologie, 30, 5-22. Drenth, P.J.D. (1977a). The use of intelligence tests in developing countries. In: Y.H. Poortinga. Basic Problems in Cross-Cultural Psychology. Drenth, P.J.D. (1977b). Predicting of School Performance in Developing Countries: School Grades or Psychological Tests? Journal of Cross-Cultural Psychology, vol. 8, no. 1, 49-70. Drenth, P.J.D., Bleichrodt, N., Dengah, B., Soemarto & Poespadibrata, S. (1979). Test Intelligensi Kolektip Indonesia, Menengah (test en handleiding). Lisse: Swets & Zeitlinger. Drenth, P.J.D., Flier, H. van der & Omari, I.M. (1983). Educational selection in Tanzania. Evaluation in Education, 7, 93-217. Flier, H. van der (1982). Deviant response patterns and comparability of test scores. Journal of Cross-Cultural Psychology, vol. 13, no. 3, 267-298. Flier, H. van der & Drenth, P.J.D. (1980). Fair selection and comparability of testscores. In: L.J.T. van der Kamp, W.F.Langerak & D.N.M. de Gruijter (eds.). Psychometrics for Educational Debates. London, Wiley, 85-101. Guilford, J.P. (1985). The structure-of-intellect model. In B.B. Wolman (ed.). Handbook of intelligence. Theories, measurement, and applications. New York, Wiley. Hofstee, W.K.B, Campbell, W.H., Eppink, A., Evers, A., Joe, R.C., Koppel, J.M.H., Zwiers, H., Choenni, C.E.S. & Zwan, T.J. van der (1990). Toepasbaarheid van psychologische tests bij allochtonen. Utrecht, Landelijk Bureau Racismebestrijding. Jensen, A.R. (1996). The neurophysiology of g. Paper presented at the 8th European Conference on Personality, Universteit van Ghent, België, Juli 8-12, 1996. Jensen, A.R. & Weng, L.J. (1994). What is a good g? Intelligence, 18, 231-258.

Latham, G.P., Fay, C. & Saari, L. (1979). The development of behavioral observation scales for appraising the performance of foremen. Personnel Psychology, 32, 299-311. Lauthenschlager, G.J. & Mendoza, J.L. (1986). A step-down hierarchical multiple regression analysis for examining hypotheses about test bias in prediction. Applied Psychological Measurement, 10, 133-139. Omari, I.M., Drenth, P.J.D. & Flier, H. van der (1983). A longitudinal study in predicting schoolperformance in Tanzania. In: S.H. Irvine & J. Berry, Human Assessment and Cultural Factors. London: Plenum Press. Plomin, R. (1988). The Nature and Nurture of Cognitive Abilities. In: R.J. Sternberg (Ed.), Advances in the Psychology of Human Intelligence, Vol IV, Hillsdale, New York, Erlbaum. Raven (1938). Progressive Matrices: a perceptual test of intelligence. London: Lewis. Raven, J.C., Court, J.H. & Raven, J. (1987). A manual for Raven's Progressive Matrices and Vocabulary Tests. Londen, H.K. Lewis. Spearman, S. (1904) 'General Intelligence': objectively determined and measured. American Journal of Psychology, 15, 201-292. Spearman, C. (1927). The abilities of man: their nature and measurement. London: Macmillan. Sternberg, R.J. (1981). The evolution of theories of intelligence. Intelligence, 5, 209-230. Sternberg, R.J. & Detterman, D.K. (1986). What is intelligence? Comtemporary viewpoints on its nature and definition. Ablex Publishing Corporation, Norwood, NJ. Thorndike, R.L. (1949). Personnel Selection. New York. Thurstone, L.L. (1938). Primary Mental Abilities. Psychometric Monographs, 1. Thurstone, L.L. (1947). Multiple Factor Analysis: A Development and Expansion of Vectors of the Mind. Chicago, University of Chicago Press. Verhelst, N.D. (1992). Het eenparameter logistisch model, handleiding OPLM. Arnhem: Cito. Vernon, P.E. (1960). The structure of human abilities (Rev.ed.). London: Methuen.*