Hoofdstuk 6 NORMERING 6.1 INLEIDING

Hoofdstuk 6 NORMERING 6.1 INLEIDING In paragraaf 1.2 is ingegaan op de redenen voor het bewerken van de RDLS tot een instrument waarmee het taalbegripsniveau van Nederlandstalige kinderen in het leeftijdsbereik van anderhalf tot ruim zes jaar kan worden gemeten. Een belangrijke doelstelling bij de bewerking was het ontwikkelen van normen voor Nederland. Zo kon een eind worden gemaakt aan de onwenselijke situatie dat met Engelse normen moest worden gewerkt. Ook voor het nieuw ontwikkelde instrument voor het meten van taalproductie dienden normen te worden ontwikkeld. Het doel van normering in het algemeen is het mogelijk maken van de interpretatie van een score door het vergelijken hiervan met de scoreverdeling van een referentiegroep. Wanneer het gaat om de normering van ontwikkelingstests als de Reynell Test voor Taalbegrip en de Schlichting Test voor Taalproductie dient daarbij met de leeftijd rekening te worden gehouden; de score van een bepaald kind kan worden geïnterpreteerd door deze te vergelijken met de scoreverdeling van zijn of haar leeftijdsgenoten. De wijze waarop de normering van de RTB en de STP tot stand is gekomen wordt in dit hoofdstuk beschreven. De samenstelling van de normeringssteekproef kwam reeds aan de orde in paragraaf 3.3.4. In dit hoofdstuk worden de uitgangspunten bij de normering en de bij de normering gehanteerde procedure behandeld. Tenslotte worden de resultaten gepresenteerd. 6.2 UITGANGSPUNTEN 6.2.1 Soorten scores Bij de RDLS is er sprake van verschillende soorten scores op verschillende niveaus. Op het niveau van de subtest zijn er ruwe subtestscores. Op het niveau van de Taalbegrips- en de Taalproductieschaal zijn er ruwe schaalscores en standaard schaalscores. Onder ruwe subtestscore wordt verstaan de totale score van alle items in de subtest, uitgedrukt als de som van de afzonderlijke itemscores. De ruwe subtestscore van Taalbegrip vormt tevens de ruwe schaalscore 103

Taalbegrip. De ruwe subtestscores van Taalstructuur, Woordenschat en Taalinhoud worden zonder verdere transformaties gesommeerd tot de ruwe schaalscore voor Taalproductie. Er zijn dus géén voor leeftijd genormeerde standaard-subtestscores. Dit heeft een belangrijk nadeel, namelijk dat subtestscores bij verschillende leeftijden en subtestscores onderling niet kunnen worden vergeleken. Mogelijk was de betrouwbaarheid van de subtests apart ook onvoldoende om scores op dit niveau verantwoord te kunnen gebruiken. Betrouwbaarheidsgegevens op subtestniveau worden echter niet gegeven in de RDLS. Een tweede bezwaar is dat het gewicht van de verschillende subtests in de totale score, de schaalscore, verschillend kan zijn bij verschillende leeftijden. Van de moeilijkheid van deze onderdelen zijn geen gegevens beschikbaar. De maximaal haalbare scores per subtest zijn wel redelijk vergelijkbaar (respectievelijk 21 punten voor Taalstructuur, 22 punten voor Woordenschat en 24 punten voor Taalinhoud), dus de schaalgrootte van de subtests loopt niet te veel uiteen. De ruwe schaalscores van Taalbegrip en Taalproductie worden via normtabellen omgezet tot standaard schaalscores. Bij de RDLS hebben deze standaardscores de vorm van z-scores. Bij de RTB en de STP worden ruwe scores en standaardscores op het niveau van de testonderdelen (subtests) gehanteerd. Er is voor de RTB geen schaalscore ontwikkeld omdat de RTB slechts uit één onderdeel bestaat. De redenen om voor de STP, die uit vier testonderdelen bestaat, geen schaalscore te ontwikkelen zijn de volgende. Ten eerste is, gezien de hoge betrouwbaarheid van de onderdelen van de Test voor Taalproductie, het niet nodig om de scores van de onderdelen samen te voegen tot één schaal om op die wijze de betrouwbaarheid te verhogen. Daar komt bij dat het niet wenselijk is om een globale maat te hanteren als criterium voor het gaan behandelen van een taalprobleem, wanneer er gedifferentieerder informatie voorhanden is. Wanneer er bijvoorbeeld sprake is van een lage score op de Woordontwikkeling terwijl de totaalscore voor Taalproductie toch nog redelijk is, bestaat het gevaar dat dit taalprobleem niet wordt onderkend en daardoor ook niet behandeld. Doordat er geen schaalscores voor Taalbegrip en Taalproductie zijn ontwikkeld kan er evenmin een algemene Taalontwikkelingsscore worden ontwikkeld. De redenen voor het niet ontwikkelen van schaalscores - niet nodig en niet wenselijk - gelden hier in nog sterkere mate. 6.2.2 De gehanteerde meetschaal Bij de RDLS hebben de standaardscores de vorm van z-scores: dit zijn normaal verdeelde standaardscores met een gemiddelde van 0 en een standaarddeviatie van 1. Voor de Reynell Test voor Taalbegrip en de Schlichting Test voor Taalproductie 104

is eveneens gekozen voor normaal verdeelde standaardscores, echter gebaseerd op gemiddelde van 100 en standaarddeviatie van 15. De reden voor de keuze voor normaal verdeelde standaardscores is gelegen in de voordelen hiervan. Vergeleken met rangordenormen als percentielen zijn normaal verdeelde standaardscores wetenschappelijk gezien bruikbaarder. Bij genormaliseerde standaardscores wordt, naar wordt verondersteld (zie Drenth & Sijtsma, 1990, p. 29 en 143), op intervalniveau gemeten, hetgeen rekenkundige procedures mogelijk maakt als het berekenen van gemiddelde en variantie. De empirische geldigheid van de veronderstelling van een interval meetniveau kan echter met de klassieke testtheorie niet worden bewezen. Drenth en Sijtsma stellen dat bij de interpretatie meestal niet strikt wordt uitgegaan van een intervalschaal; grote en kleine verschillen worden onderscheiden, maar niet alle verschillen tussen scores worden even serieus genomen. De interpretatie van normaal verdeelde standaardscores is wellicht iets lastiger dan die van rangordenormen, maar zal naar verwachting weinig problemen opleveren voor gebruikers die bekend zijn met de normale verdeling. De keuze van de schaalgrootte van de meetschaal is grotendeels arbitrair. Omdat de testonderdelen zelfstandig gebruikt worden is gekozen voor een gebruikelijke schaal; een schaal met een gemiddelde van 100 en een standaarddeviatie van 15. Een dergelijke schaal wordt vaak gehanteerd bij intelligentietests en wordt ook wel IQ-schaal genoemd. Het scorebereik van de meeste testonderdelen past hier redelijk goed bij; een verschil van één punt in ruwe scores heeft niet een te groot verschil in standaardscores tot gevolg. Voor de gebruiker is het een voordeel dat deze meetschaal het vergelijken met het resultaat op een intelligentietest vergemakkelijkt. Ten behoeve van gebruikers die minder bekend zijn met genormaliseerde standaardscores zijn, om de interpretatie van deze standaardscores te vergemakkelijken, eveneens percentielen en leeftijdsequivalenten bij de testonderdelen ontwikkeld. Dit zijn echter rangordenormen, waaraan het bezwaar kleeft dat het meetniveau hiervan slechts ordinaal is en daarom slechts beperkte rekenkundige manipulaties toelaat (zie Drenth & Sijtsma, 1990, p. 85 e.v.). Daarbij komt dat de interpretatie van deze scores ook niet geheel zonder problemen is. Bij de verdeling in percentielen betekent het verschil van een procent aan de uiteinden van de verdeling een veel groter verschil in ruwe score-punten dan rond het midden van de verdeling. De leeftijdsequivalenten suggereren een heel strikt ontwikkelingsverloop dat in feite niet bestaat. Hierop wordt in Hoofdstuk 8 verder teruggekomen. In deze dissertatie zal verder alleen met genormaliseerde standaardscores worden gewerkt. 105

6.3 DE NORMERINGSPROCEDURE Startpunt bij het ontwikkelen van de normen zijn de ruwe scores. De gevolgde procedure voor het omzetten van ruwe scores in normaal verdeelde standaardscores bevat, kort beschreven, een drietal stappen die verder in deze paragraaf uitgebreider zullen worden behandeld en beargumenteerd. 1) Per leeftijdsgroep wordt eerst een voorlopige normering bepaald op de ruwe scores (zie 6.3.1: voorlopige standaardscores). 2) Met de zo ontstane voorlopige standaardscores als afhankelijke variabele en onafhankelijke variabelen gebaseerd op leeftijd en ruwe score, wordt vervolgens een multipele regressieanalyse uitgevoerd over alle leeftijdsgroepen samen (zie 6.3.2). Deze procedure levert een regressievergelijking op waarmee op basis van ruwe score en leeftijd de definitieve standaardscores kunnen worden berekend. 3) Op grond van de regressiecoëfficiënten wordt een normtabel opgesteld, waarbij wordt nagegaan of deze tabel aan de in 6.3.3 genoemde eisen voldoet. Zonodig worden correcties aangebracht of wordt de procedure vanaf stap 2 herhaald. Met deze methode worden niet alleen voor de leeftijdsgroepen van de ijkingssteekproef (de empirische normgroepen ) standaardscores geschat, maar ook voor tussenliggende leeftijdsgroepen, door bij de bepaling van een omzettingscurve voor één normgroep gebruik te maken van de informatie van alle normgroepen. Verschillen tussen de voorlopige en de definitieve standaardscores worden hierbij opgevat als steekproeffluctuaties van de voorlopige standaardscores, gegeven dat de verkregen regressievergelijking optimaal is. De normering van de Lexilijst wijkt af van de hierboven geschetste procedure. In de eerste plaats zijn er uiteindelijk voor maar één leeftijd (21 maanden) normen in de handleiding opgenomen, hoewel wel over het gehele leeftijdsbereik is genormeerd. De reden van het niet opnemen van normen voor de leeftijdsgroepen van 15 en 27 maanden is niet zozeer een tegenvallende betrouwbaarheid als wel een tegenvallende validiteit. Vermoedelijk ten gevolge van een bodem-effect bij de groep en 15 maanden en van een plafond-effect bij de groep van 27 maanden waren namelijk de correlaties van de Lexilijst met de overige onderdelen van de STP naar het oordeel van de onderzoeksgroep aan de lage kant. Hoewel de normering over het hele leeftijdsbereik is uitgevoerd, waardoor interpolatie mogelijk is, zijn er geen normen ontwikkeld voor leeftijden, liggend tussen de leeftijd van 15 en 21 maanden of tussen de leeftijd van 21 en 27 maanden. De reden hiervoor is gelegen in het feit dat de vroege woordenschatontwikkeling nogal onregelmatig verloopt, waadoor het schatten van scores bij tussenliggende leeftijden door middel van interpolatie niet verantwoord werd geacht door de onderzoeksgroep. 106

Tenslotte dient te worden vermeld dat bij de Lexilijst niet direct de ruwe scores, maar een bewerking hiervan de basis van de normering zijn. Vanwege het grote aantal woorden (311) dat kan worden aangekruist, zijn er erg veel mogelijke ruwe score-resultaten. Om te voorkomen dat het hanteren van een dergelijke gedifferentieerde maat tot een schijnnauwkeurigheid leidt, is een scoreregel gehanteerd die de resultaten samenvat in 25 scorecategorieën (zie hiervoor Schlichting et al., 1995). 6.3.1 De voorlopige standaardscores De voorlopige standaardscores worden bepaald op grond van de verdelingen van de ruwe scores. De verdelingen van de ruwe scores van de testonderdelen per leeftijdsgroep in het normeringsonderzoek worden weergegeven in de tabellen 6.1 tot en met 6.5. In paragraaf 6.4 is aangegeven voor welke leeftijdsbereiken is genormeerd bij de testonderdelen. Het gaat bij de testonderdelen Taalbegrip, Zinsontwikkeling, Woordontwikkeling en Auditief Geheugen om het leeftijdsbereik waar de betrouwbaarheid voldoende hoog is (zie 5.2.1). Tabel 6.1 Verdelingskenmerken van de ruwe scores van Taalbegrip Leeftijd M s Kurtosis Scheefheid N (1049) 15 6.61 3.42 0.36 0.77 95 21 14.16 6.52-0.75 0.10 98 27 26.54 8.80-0.07 0.08 101 33 35.25 10.10 0.31 0.07 95 39 46.61 11.72-0.21-0.21 96 45 55.85 12.74-0.45-0.26 96 51 60.70 8.73-0.14-0.28 86 57 65.23 8.92 0.63-0.77 96 63 70.44 7.67-0.62-0.37 95 69 74.15 7.09 2.80-1.55 95 75 76.50 5.19-0.08-0.29 96 Uit de tabellen 6.1 tot en met 6.5 blijkt dat bij sommige leeftijdsgroepen kurtosis en scheefheid afwijken van die van een normale verdeling (waarbij kurtosis en 1 scheefheid beide de waarde nul hebben ). Bij Taalbegrip en Woordontwikkeling 1 In SPSS heeft de kurtosis van een normale verdeling de waarde nul, in afwijking van bijvoorbeeld de formule in Hays (1966, p.186) waarbij de kurtosis van een normale verdeling de waarde drie heeft. 107

blijkt de groep van 96 maanden een afwijkende verdeling te hebben. Zo wijkt bij Zinsontwikkeling de verdeling van de groep van 63 maanden af en bij Auditief Geheugen de leeftijdsgroep van 39 maanden. Deze afwijkingen kunnen als steekproeffluctuaties worden gezien. Tabel 6.2 Verdelingskenmerken van de ruwe scores van Zinsontwikkeling Leeftijd M s Kurtosis Scheefheid N(1042) 15* 0.36 0.52.01 1.05 95 21 1.79 1.51.22.88 98 27 4.93 2.65 -.90 -.05 101 33 7.45 3.40 -.26.04 95 39 10.69 5.22.45.63 93 45 14.26 6.26 -.05.18 94 51 16.81 4.49 -.42.38 85 57 19.07 5.69.16 -.06 96 63 22.58 5.40 2.76 -.59 95 69 25.11 5.14.80 -.55 94 75 25.55 4.64 -.01 -.61 96 * niet in de normering opgenomen Tabel 6.3 Verdelingskenmerken van de ruwe scores van Woordontwikkeling Leeftijd M s Kurtosis Scheefheid N(1038) 15 0.36 0.89 5.83 2.60 95 21 3.06 2.75-0.23 0.72 98 27 8.16 4.75-0.11 0.30 99 33 12.49 6.52 0.07 0.35 93 39 21.57 8.50-0.28-0.16 95 45 27.24 10.26-0.65 0.16 94 51 33.87 8.07 1.09-0.22 85 57 38.02 7.26-0.54-0.26 96 63 43.74 6.24 0.70-0.62 93 69 47.14 5.94 2.25-1.04 94 75 48.65 5.02-0.75 0.09 96 108

Tabel 6.4 Verdelingskenmerken van de ruwe scores van Auditief Geheugen Leeftijd M s Kurtosis Scheefheid N(1027) 15* 0.00 0.00 - - 95 21* 0.36 0.65 6.46 2.31 98 27* 1.35 1.62 0.38 1.13 99 33 2.49 2.18-0.92 0.42 93 39 3.95 2.68-1.13-0.10 93 45 5.44 2.35-0.01-0.73 86 51 6.67 1.92 0.68-0.40 85 57 7.32 2.00-0.58-0.35 94 63* 7.95 1.59-0.68-0.32 94 69* 8.26 1.65-0.33-0.94 94 75* 8.63 1.47-0.21-0.81 96 * niet in de normering opgenomen Tabel 6.5 Verdelingskenmerken van de ruwe scores van de Lexilijst Leeftijd M s Kurtosis Scheefheid N (266) 15** 15.21 13.44 0.52 1.26 84 21 96.20 69.15 0.14 0.77 91 27** 244.06 62.80 0.18-0.83 91 ** niet in de normtabel opgenomen Daarnaast wijken de verdelingen van Woordontwikkeling en Auditief Geheugen vooral af bij de jongste leeftijdsgroepen; die van respectievelijk 15 en 21 maanden. Dat de verdelingen hier scheef zijn is te wijten aan een bodem-effect; er is slechts een klein aantal voorkomende ruwe scorecategorieën, daarbij komt dat de laagste ruwe score (0) relatief vaak voorkomt. Uit de kolommen met gemiddelden en testleeftijden blijkt verder het ontwikkelingskarakter van elk testonderdeel (zie ook paragraaf 5.2.2). De ruwe scores worden in de eerste stap van de normeringsprocedure getransformeerd naar normaal verdeelde standaardscores, dit zijn de voorlopige standaardscores. Voor deze transformatie wordt dikwijls gebruik gemaakt van een procedure zoals beschreven door bijvoorbeeld Lienert (1961, p. 336-344). Nadat bij elke ruwe score de cumulatieve proportie is berekend, worden de bij deze cumulatieve proporties behorende normaal verdeelde z-waarden bepaald. Deze z-waarden worden vervolgens lineair getransformeerd naar een schaal met het gewenste gemiddelde en de gewenste standaarddeviatie. Bij de RTB en de STP zijn dit een gemiddelde van 100 en een standaarddeviatie van 15. 109

Bij deze methode moeten ruwe scores worden opgevat als klassemiddens: de cumulatieve proportie van een ruwe score is in feite die van de klassegrens boven de ruwe score. Om nu de cumulatieve proportie van een ruwe score zelf te schatten moet een zogenaamde continuïteitscorrectie worden toegepast. Een eenvoudige manier om deze correctie toe te passen is het verminderen van de cumulatieve proportie van de bovenste klassegrens met de helft van de proportie van de ruwe score klasse. Een alternatieve continuïteitscorrectie gaat uit van de z-waarden van de klassegrenzen en berekent vervolgens hieruit de gemiddelde z-waarde van de betreffende klasse. Deze methode levert, vooral aan de uiteinden van de verdeling, waar de verdelingscurve steil is, een betere schatting op. Bij het berekenen van de voorlopige standaardscores zijn steeds beide transformatiemethodes gebruikt. Vervolgens werd het resultaat met de beste verdelingskenmerken (gemiddelde en standaarddeviatie zo dicht mogelijk bij de gewenste waarde) in eerste instantie als basis genomen voor het berekenen van de definitieve standaardscores. Bij alle testonderdelen bleken de resultaten van de alternatieve methode beter. 6.3.2 De definitieve standaardscores De tweede stap in de normeringsprocedure is het omzetten van voorlopige standaardscores in definitieve standaardscores. Hiertoe wordt over alle normgroepen samen een regressieanalyse uitgevoerd. De reden om dit over alle normgroepen samen te doen is gelegen in het feit dat, gezien de steekproefgrootte van de normgroepen, per normgroep nogal wat toevalsfluctuaties zijn te verwachten, vooral aan de uiteinden van het scorebereik. (Zie 3.3.1 voor de discussie over de steekproefgrootte). Daarbij kan het zelfs voorkomen dat buiten het geobserveerde scoreniveau de omzettingscurves van ruwe- naar standaardscores van verschillende normgroepen elkaar snijden. In navolging van Laros en Tellegen (1991) en Schneider, Loots en Reuter (1990) en Neutel, Van der Meulen en Lutje Spelberg (1995) wordt dit probleem opgelost door bij de bepaling van een regressieformule voor één normgroep gebruik te maken van de informatie van alle normgroepen. De afhankelijke variabele bij de multipele regressieanalyse is de voorlopige standaardscore, in eerste instantie het resultaat van de transformatiemethode met de alternatieve continuïteitscorrectie, beschreven in 6.3.1. De onafhankelijke variabelen zijn in eerste instantie de eerste, tweede, derde en vierde machten van ruwe score (X) en leeftijd (L) en interacties daartussen. De stapsgewijze regressieanalyse is uitgevoerd in SPSS/PC+, versie 5.1. Voor toelating of verwijdering van variabelen zijn de defaultwaarden gebruikt. Gestreefd werd naar een zo hoog mogelijke multipele correlatie, waarbij nog voldaan werd aan de in 6.3.3. genoemde eisen. Daarbij werd 110

er tevens naar gestreefd een regressieformule te vinden waarbij binnen het geobserveerde scorebereik geen of slechts enkele correcties toegepast hoefden te worden. Wanneer de defaultmethode tot een resultaat leidde, waarbij niet aan deze eisen werd voldaan, werd een nieuwe regressievergelijking berekend, waarbij geforceerd derde dan wel vierde machten (van de variabele leeftijd) werden uitgeschakeld, of waarbij juist een vijfde macht in de regressieanalyse werd ingevoerd, of door combinaties van deze maatregelen. 6.3.3 Constructie van de normtabellen De definitieve standaardscores moeten voldoen aan twee eisen die Laros en Tellegen (1991, p.43) stellen, namelijk: 1) voor elke specifieke ruwe score moet gelden dat de definitieve standaardscore lager is naarmate de leeftijd hoger is en 2) per leeftijdsgroep moeten de definitieve standaardscores hoger zijn naarmate de ruwe score hoger is. Buiten het bereik van de aangetroffen ruwe scores wordt niet steeds voldaan aan deze eisen. Ook komen daar in sommige gevallen extreem hoge of lage standaardscores voor (kleiner dan 55 of hoger dan 145). Besloten is daarom in deze gevallen de normtabellen zodanig te construeren, dat: voor elke ruwe score: - standaardscores die toenemen bij toenemende leeftijd aan het begin van het scorebereik gelijk worden gesteld aan de maximumstandaardscore; - standaardscores die toenemen bij toenemende leeftijd aan het eind van het scorebereik gelijk worden gesteld aan de minimumstandaardscore; voor elke leeftijdsgroep: - standaardscores die afnemen bij toenemende ruwe score aan het begin van het scorebereik, gelijk worden gesteld aan de minimumstandaardscore; - standaardscores die afnemen bij toenemende ruwe score aan het eind van het scorebereik, gelijk worden gesteld aan de maximumstandaardscore. Voorts geldt dat: - standaardscores die lager zijn dan 55 de waarde 55 krijgen; - standaardscores die hoger zijn dan 145 de waarde 145 krijgen. Er is steeds gezocht naar regressieformules (zie 6.3.2) waarbij correcties als hierboven omschreven binnen het geobserveerde scorebereik niet of minimaal behoefden te worden toegepast. 111

De normtabellen zijn zodanig samengesteld, dat binnen het leeftijdsbereik van de testonderdelen standaardscores bij de ruwe scores worden gegeven per maand. Voor het opzoeken in de tabel wordt de leeftijd in jaren en volledige maanden uitgedrukt. Behalve standaardscores worden er in de normtabellen 90% betrouwbaarheidsintervallen rond de standaardscores gegeven. De betrouwbaarheidsintervallen zijn berekend volgens de in Drenth en Sijtsma (1990) gegeven methode. De betrouwbaarheidsintervallen worden berekend rond de ware score, die als volgt wordt geschat: T ^ - = r X + (1 - r ) X xxn xxn Hierbij is Tde ^ ware score, r xxn de betrouwbaarheid bij de leeftijdsgroep, X de - geobserveerde standaardscore en X de gemiddelde geobserveerde standaardscore van de leeftijdsgroep. De betrouwbaarheden bij de tussen de empirische normgroepen liggende leeftijden zijn geschat door interpolatie van de betrouwbaarheden bij de omringende normgroepen. Het 90% betrouwbaarheidsinterval ligt tussen de volgende punten: T ^ - 1.645 S(T ^ - T) en T ^ + 1.645 S(T ^ - T). Hierbij is S(T ^ - T) de standaardschattingsfout. De standaardschattingsfout wordt als volgt berekend: S(T ^ - T) = S x%[ r xxn (1 - r xxn )] Hierbij is S de standaarddeviatie van de standaardscores. X In de handleidingen van de RTB en de STP zijn de betrouwbaarheidsintervallen geschat door voor de betrouwbaarheid coëfficiënt alpha te nemen. In feite zou het beter zijn geweest hiervoor gebruik te maken van lambda-2 (zie 5.1.1). Door lambda-2 te gebruiken in plaats van alpha zullen de betrouwbaarheidsintervallen gelijk blijven of kleiner worden. In hoeverre wijken 90% betrouwbaarheidsintervallen bepaald met lambda-2 af van de betrouwbaarheidsintervallen die in de handleidingen zijn gegeven? Een rekenvoorbeeld: Een lambda-2 van.91 levert in vergelijking met een op dezelfde data berekende alpha van.88, een betrouwbaarheidsinterval met een breedte van 14 scorepunten op, in plaats van een breedte van 16. Naarmate de betrouwbaarheid hoger is zal een verschil in betrouwbaarheid meer invloed hebben op de grootte van het betrouwbaarheidsinterval. Verder is het zo dat bij lambda-2 de waarde van T^ verschuift in de richting van de over alle leeftijden gemiddelde standaardscore. 112

In de praktijk zal het gebruik van op alpha gebaseerde intervallen tot conservatievere schattingen leiden dan het gebruik van op lambda-2 gebaseerde intervallen. 6.4 RESULTATEN De verdelingen van de ruwe scores zijn in tabel 6.1 tot en met 6.5 weergegeven. Omdat de standaardscores de vorm van IQ-scores hebben, wordt in de naamgeving hiervan ook de term quotiënt gebruikt; Taalbegripsquotiënt (TBQ), Zinsontwikkelingsquotiënt (ZQ), Woordontwikkelingsquotiënt (WQ), Auditief Geheugenquotiënt (AGQ) en Lexilijstquotiënt (LQ). De regressieformules van de testonderdelen zijn de volgende: Taalbegrip: TBQ = 2 3 5 2 4 4 2 a + b1x + b2x + b3x + b4x + b5l + b6l + b7l + b8xl + b9x L Zinsontwikkeling: 2 3 4 2 3 3 ZQ = a + b1x + b2x + b3x + b4x + b5l + b6l + b7l + b8xl + b9x L Woordontwikkeling: 2 3 2 2 3 4 WQ = a + b1x + b2x + b3x + b4l + b5l + b6xl + b7x L + b8x L + b9x L Auditief Geheugen: AGQ = a + b1x + b2x + b3x + b4x + b5l + b6l + b7xl + b8xl + b9x L 2 3 4 2 2 4 2 Lexilijst: LQ = 2 3 2 3 2 a + b1x + b2x + b3x + b4l + b5x L Hierin zijn, per testonderdeel: X de ruwe score, L de leeftijd, a een constante en b 1 tot en met b de regressiecoëfficiënten bij de aangegeven termen. 9 De mate waarin de normeringsresultaten geslaagd kunnen worden genoemd valt af te leiden uit Tabel 6.6 en uit de Figuren 6.1 tot en met 6.4. Uit Tabel 6.6 blijkt dat de gemiddelde scores bij de definitieve standaardscores zeer dicht bij het gewenste gemiddelde van 100 liggen. De standaarddeviaties liggen ook dicht bij de gewenste waarde van 15. De multipele correlaties van de definitieve standaardscores met de voorlopige standaardscores zijn voldoende hoog. 113

Figuur 6.1 Taalbegrip. Voorlopige en definitieve standaardscores per leeftijdsgroep als een functie van de ruwe score. Legenda: zie figuur 6.2. Figuur 6.2 Zinsontwikkeling. Voorlopige en definitieve standaardscores per leeftijdsgroep als een functie van de ruwe score. 114

Figuur 6.3 Woordontwikkeling. Voorlopige en definitieve standaardscores per leeftijdsgroep als functie van de ruwe score. Legenda: zie Figuur 6.4 Figuur 6.4 Auditief Geheugen. Voorlopige en definitieve standaardscores per leeftijds groep als functie van de ruwe score. 115

Tabel 6.6 Definitieve standaardscores; verdelingskenmerken en multipele correlatie met de voorlopige standaardscores. Standaard aantal Score gemiddelde s.d. correlatie N normgroepen TBQ 100.00 14.52.98 1049 11 ZQ 99.93 14.50.98 946 10 WQ 99.94 14.05.97 1038 11 AGQ 99.89 13.85.99 396 5 LQ 100.10 14.94 1.00 89 1 In de Figuren 6.1 tot en met 6.4 worden van Taalbegrip, Zinsontwikkeling, Woordenschat en Auditief geheugen de voorlopige en definitieve standaardscores als een functie van de ruwe score gepresenteerd. Een vergelijkbare grafiek van de Lexilijst wordt niet gegeven omdat er uiteindelijk maar voor één leeftijdsgroep normen zijn gegeven. Uit de afbeeldingen valt het volgende af te leiden. Vooral aan de uiteinden van de verdeling van de voorlopige standaardscores valt een wat grillig verloop te zien. Ook komt het voor dat de curves van verschillende normleeftijdsgroepen elkaar raken. Voor deze fluctuaties wordt gecorrigeerd door de omzetting naar de definitieve, met behulp van de regressieformules geschatte, standaardscores. Het bleek bij alle testonderdelen mogelijk, zo nodig met behulp van de in 6.3.3 beschreven correctiemaatregelen, een omzettingsformule te vinden die aan de in 6.3.3 gestelde eisen voldoet. Bij het onderdeel Auditief geheugen bleek het niet mogelijk een omzettingscurve te genereren over het leeftijdsbereik tot 75 maanden. In combinatie met de tegenvallende betrouwbaarheid bij de leeftijdsgroepen vanaf 63 maanden en het stagnerende ontwikkelingsverloop vanaf die leeftijd is besloten voor de leeftijdsgroepen vanaf 63 maanden niet te normeren. 6.5 DE WENSELIJKHEID VAN NEDERLANDSE NORMEN In Hoofdstuk 1 is reeds aangegeven dat het werken met Engelse normen bij het gebruik van de vertaalde RDLS bij Nederlandssprekende kinderen een ongewenste situatie is. Het is geenszins zeker dat Nederlandse kinderen op de Nederlandse versie van de RDLS een resultaat behalen dat vergelijkbaar is met dat van Engelse kinderen op de Engelstalige versie. Hierbij kunnen zowel cultuurverschillen een rol spelen als het feit dat de vertaling van het instrument een effect heeft gehad op de moeilijkheid ervan. Omdat de RTB ten dele vergelijkbaar is met de oorspronkelijke RDLS kunnen achteraf, na het normeringsonderzoek, worden onderzocht in hoeverre de nieuwe 118

Nederlandse normen andere resultaten geven. Ook kan worden onderzocht in hoeverre de normen die zijn ontwikkeld in het kader van de in Hoofdstuk 3 genoemde bewerking van de RDLS voor Vlaanderen; de Reynell Taalontwikkelingsschalen (RTOS; Schaerlaekens, Zink & Ommeslaeghe, 1993) bruikbaar zijn in de Nederlandse situatie. De vergelijkbaarheid van de scores op de genoemde instrumenten is onderzocht door Lutje Spelberg en Van Hall (1998). Zij pasten de normen van de RDLS en de RTOS toe op de data van het RTB normeringsonderzoek. Hierbij werden ruwe scores op de RDLS en de RTOS gesimuleerd door door respectievelijk de scores op met deze tests overeenkomende items te sommeren. De verkregen standaardscores op de verschillende instrumenten werden onderling vergelijkbaar gemaakt door lineaire transformatie. Allereerst werden standaardscores op het niveau van leeftijdsgroepen met elkaar vergeleken. Bij zes van de elf leeftijdsgroepen bij de combinatie RTB-RDLS werden significante verschillen gevonden. Deze verschillen waren over het algemeen echter niet groot, behalve bij de leeftijdsgroep van 15 maanden. Voor wat betreft de combinatie RTB-RTOS werden er significante verschillen gevonden bij alle zes de leeftijdsgroepen waarin voor voldoende proefpersoen RTOS-normen konden worden berekend. Op grond van deze resultaten werd geconcludeerd dat de RTOS-normen niet toepasbaar zijn op de RTB. Voor wat betreft de vergelijkbaarheid van de RDLS en de RTB zijn ook nog de verschillen op individueel niveau onderzocht. Ook wanneer verschillen tussen leeftijdsgroepen klein zijn kunnen er grote verschillen per proefpersoon bestaan tussen de resultaten op de beide instrumenten. Dit resultaat werd inderdaad gevonden: vooral bij de leeftijdsgroepen vanaf 57 maanden waren de individuele verschillen aanzienlijk. Hierom werd geconcludeerd dat ook de RDLS-normen niet toepasbaar zijn op de RTB. Omdat de RTB een beter gestandaardiseerd instrument is concluderen Lutje Spelberg en Van Hall dat aan het gebruik van de RTB de voorkeur moet worden gegeven boven dat van de RDLS. 6.6 BESLUIT In dit hoofdstuk is de procedure beschreven die is gehanteerd bij het ontwikkelen van de normtabellen bij de RTB en de STP. De gevolgde normeringsprocedure bestaat uit de volgende stappen: 1) op grond van de ruwe scores wordt per leeftijdsgroep een voorlopige normering bepaald; 2) over deze voorlopige normering wordt een multipele regressieanalyse uitgevoerd met leeftijd en ruwe score als onafhankelijke variabelen; 3) tenslotte worden de normtabellen opgesteld op basis van de via stap 2 gevonden regressievergelijking. Bij de omzetting in stap 1 van ruwe scores naar genormaliseerde standaardscores is gebruik gemaakt van een algemeen gehanteerde methode van Lienert, 119

waarbij echter een afwijkende continuïteitscorrectie is toegepast, daar deze een betere schatting bleek op te leveren. Bij de omzetting in stap 2 zijn regressieformules opgesteld waarbij voor elke ruwe score geldt dat de normscores hoger zijn wanneer de leeftijd lager is en waarbij voor elke leeftijdsgroep geldt dat de normscores hoger zijn wanneer de leeftijd hoger is. Het bleek bij alle testonderdelen mogelijk een omzettingsformule te vinden die zo veel mogelijk aan de gestelde eisen voldoet. Bij Auditief Geheugen bleek het echter nodig, ook op grond van betrouwbaarheidsresultaten, het leeftijdsbereik te beperken. De genormaliseerde standaardscores hebben de vorm van een IQ-schaal; zij hebben een gemiddelde van 100 en een standaarddeviatie van 15. Voor de gebruiker heeft deze schaal als voordeel dat het vergelijken van de testresultaten met resultaten op een intelligentietest wordt vergemakkelijkt. Behalve de genormaliseerde standaardscores worden ook percentielen en leeftijdsequivalenten gegeven ten behoeve van de gebruikers. Deze rangordenormen kunnen echter tot interpretatieproblemen leiden, hetgeen in Hoofdstuk 8 wordt besproken. Genormaliseerde standaardscores zijn ontwikkeld op het niveau van de verschillende testonderdelen. Het ontwikkelen van genormaliseerde schaalscores voor taalbegrip, taalproductie of zelfs taalontwikkeling werd behalve onnodig (door de voldoende hoge betrouwbaarheid van de aparte testonderdelen), ook onwenselijk geacht. De gebruiker heeft met de scores op de verschillende testonderelen gedifferentieerde informatie voorhanden, zodat ook geïsoleerde taalproblemen kunnen worden erkend en behandeld. 120