Schlichting test voor Taalbegrip

Vergelijkbare documenten
Bepaling van het taalbegrip bij kinderen tot en met 25 maanden. Liesbeth Schlichting Rijksuniversiteit Groningen

Hoofdstuk 5 BETROUWBAARHEID EN ITEMANALYSE 5.1 INLEIDING

Hoofdstuk 6 NORMERING 6.1 INLEIDING

Het meetinstrument heeft betrekking op de volgende categorieën Lichaamsregio Hoofd/ hals Overig, ongespecificeerd. Communicatie, Mentale functies

INhOud Voorwoord Inleiding Vooronderzoek en constructieonderzoek Beschrijving van de SON-R 6-40 Normering van de testscores

3.1 Itemanalyse De resultaten worden eerst op itemniveau bekeken. De volgende drie aspecten dienen bekeken te worden:

Vragen oefententamen Psychometrie

1. Gegeven zijn de itemsores van 8 personen op een test van 3 items

Over het gebruik van continue normering Timo Bechger Bas Hemker Gunter Maris

Hoofdstuk 3. Het onderzoek van dyslectische leerlingen

De ontwikkeling van de Nederlandse taalvaardigheid van kleuters met vroeg vreemde-taal onderwijs

9. Lineaire Regressie en Correlatie

8. Analyseren van samenhang tussen categorische variabelen

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

TECHNISCHE HANDLEIDING IQ TEST

KWALITEITSCENTRUM. DIAGNOSTIEK vzw. Bayley-III-NL. Aandachtspunten voor een verantwoord gebruik in Vlaanderen

De SON-R 6-40: stand van zaken

NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland. Beoordeling van de SON-R 6-40, 2011.

Verantwoording. ZIEN! Leerling 5-8 Veiligheidsbeleving. Expertsysteem ZIEN! voor het primair onderwijs. Gouda, oktober 2017

Uitgebreide toelichting van het meetinstrument. De Klepel. Review 1: E. Oosterlinck, N. Ramakers Review 2: M. Jungen Invoer: E.

ANALYSE PATIËNTERVARINGEN ELZ HAAKSBERGEN

Antwoorden bij Testtheorie. Inleiding in de theorie van de psychologische test en zijn toepassingen, door P. J. D. Drenth en K.

REKENEN-BASISBEWERKINGEN VOOR GROEP 3 TOT EN MET 8

Bijlage 5: Kwantitatieve analyse

gebaren bij jonge kinderen met TOS

Hoofdstuk 6 Twee populaties: parametrische toetsen

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Voorbeeldtentamen Statistiek voor Psychologie

W. Magez A. Bos M. Tierens. CoVaT CHC Basisversie als cognitieve ontwikkelingsschaal

Heeft vroeg vreemde-talenonderwijs een negatief effect op de Nederlandse taalontwikkeling van kinderen?

Uitgebreide toelichting van het meetinstrument. Taaltests voor kinderen (TVK) 1 Algemene gegevens

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

1. Reductie van error variantie en dus verhogen van power op F-test

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

10 VeROudeRINg VAN de TeSTNORMeN 10.1 AANWIJzINgeN VOOR een MINdeR STeRk flynn-effect

Wat motiveert u in uw werk?

Documentatie van Tests en Testresearch in Nederland TOELICHTING BIJ DE BEOORDELING

Taalresultaten Giessenlanden. Toetsresultaten basisscholen en

Van de Schoot, et al. (2013) A black bear story. European Journal of Developmental Psychology

ACT Algemene Intelligentie

Verschillen tussen Vrije scholen en reguliere scholen in niet-cognitieve opbrengsten

College 7 Tweeweg Variantie-Analyse

Oplossingen hoofdstuk XI

Rapportage Normeringsonderzoek SCOL-VO

Psychometrie werkgroep: De antwoorden

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Hoofdstuk 5 Een populatie: parametrische toetsen

Meertalige kleuters met en zonder TOS

Psychometrie Nederlandse persoonlijkheidstest

JGZ-richtlijn Autismespectrumstoornissen Januari 2015

Hoofdstuk 10: Regressie

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Rapportage Ervaringsonderzoek WOT's

Samenvatting. Samenvatting

METEN VAN TAALBEGRIP EN TAALPRODUCTIE Constructie, normering en validering van de Reynell Test voor Taalbegrip en de Schlichting Test voor

SAMENVATTING HET ONDERZOEK. Ankeronderzoek Muiswerk Testsuite 7 Nederlands 1F-2F-3F-4F

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

4. Resultaten. 4.1 Levensverwachting naar geslacht en opleidingsniveau

NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland. Beoordeling van de AMN Eindtoets 2017, 2016

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

College 3 Meervoudige Lineaire Regressie

NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland. Beoordeling van de AMN Eindtoets 2016

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28

College 3 Interne consistentie; Beschrijvend onderzoek

Meten: algemene beginselen. Harry B.G. Ganzeboom ADEK UvS College 1 28 februari 2011

Toelichting bij applicatie "betekenis geven aan cijfers"

DATA-ANALYSEPLAN (20/6/2005)

EMPO voor Ouders en Jongeren versie 2.0

College 4 Inspecteren van Data: Verdelingen

Uitgebreide toelichting van het meetinstrument. Clinical Evaluation of Language Fundamentals (CELF-4- NL ) 20 augustus 2010.

Voorwoord. Kwaliteitskringproduct Beschrijvingen bij logopedische onderzoeken KK245 Woerden 2

Dag van intelligentie

Formules Excel Bedrijfsstatistiek

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Populaties beschrijven met kansmodellen

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Statistische variabelen. formuleblad

Stoppen als huisarts: trends in aantallen en percentages

11. Multipele Regressie en Correlatie

hoofdstuk 3 Hoofdstuk 4 Hoofdstuk 5

3 Werkwijze Voordat een CQI meetinstrument mag worden ingezet voor reguliere metingen moet het meetinstrument in twee fases getest worden.

Hoofdstuk 8 DISCUSSIE 8.1 INLEIDING

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Joost Meijer, Amsterdam, 2015

Hoofdstuk 3 Statistiek: het toetsen

5. Discussie. 5.1 Informatieve waarde van de basisgegevens

College Week 4 Inspecteren van Data: Verdelingen

Peuters met TOS in kaart gebracht

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

Transcriptie:

Schlichting test voor Taalbegrip Toelichting bij de COTAN-beoordeling van september 2010

In september 2010 hebben wij de COTAN-beoordeling met betrekking tot de Schlichting Test voor Taalbegrip ontvangen. De beoordeling is als volgt: COTAN-beoordeling Schlichting Test voor Taalbegrip uitgangspunten bij de testconstructie kwaliteit van het testmateriaal kwaliteit van de handleiding: Normen Betrouwbaarheid Begripsvaliditeit Criteriumvaliditeit * gegevens over de interne structuur ontbreken in de handleiding; **geen onderzoek Voldoende Goed Goed Goed Voldoende Onvoldoende* Onvoldoende** De COTAN heeft aangegeven dat zij graag wil dat er aanvullende informatie met betrekking tot de normen in de handleiding wordt opgenomen. Deze aanvullende informatie vindt u hieronder bij 1. De begripsvaliditeit is door de COTAN als onvoldoende beoordeeld omdat in de handleiding te weinig informatie staat over de interne structuur (item-test-correlaties en samenhang tussen de secties) en de externe structuur (factoranalyse) van de test. Wij hebben deze informatie alsnog ter beoordeling aan de COTAN gestuurd, maar dit kon volgens de procedures van de COTAN niet meer in de beoordeling mee worden genomen. Dat kan pas over een jaar en daarom willen we u nu alvast deze informatie geven, u vindt dit bij 2. De gegevens over de ESM-kinderen worden door de COTAN niet beschouwd als ondersteuning van de van de criteriumvaliditeit. Dit wordt in de handleiding ook al erkend met de uitspraak dat de resultaten bij ESM-kinderen een noodzakelijke, maar geen voldoende voorwaarde voor criteriumvaliditeit vormen. Dit is de reden dat de COTAN aangeeft dat er geen onderzoek naar is gedaan. 1. Aanvullende informatie met betrekking tot de normen Omvang normgroepen Bij de normering van de Schlichting Test voor Taalbegrip is continue normering toegepast. Bij deze methode worden de normen van elke leeftijdsgroep geschat vanuit alle leeftijdsgroepen. Bij klassieke normering worden de normen per leeftijdsgroep bepaald. Elke leeftijdsgroep staat daarbij op zichzelf. Omdat de steekproefgrootte van alle leeftijdsgroepen samen uiteraard groter is dan die van de aparte leeftijdsgroepen, zijn bij continue normering per leeftijdsgroep minder kinderen nodig dan bij klassieke normering. De COTAN stelt dat, qua steekproefgrootte, bij klassieke normering een normgroep als goed wordt beschouwd als het aantal kinderen minstens 400 bedraagt. Welk aantal bij continue normering daarmee equivalent is, is lastig te bepalen en eigenlijk alleen maar mogelijk met simulatie- 2

onderzoek (Bechger, Hemker & Maris, 2009). Omdat simulatie-onderzoek niet tot onze mogelijkheden behoorde, hebben we gekozen voor het toepassen van regressieanalyse voor het bepalen van de precisie van de schatting van de gemiddelde scores per leeftijdsgroep. Deze precisie wordt uitgedrukt in de standaardfout van het gemiddelde. Voorwaarde voor deze methode is dat de scores in elke leeftijdsgroep dezelfde spreiding hebben en normaal zijn verdeeld. De standaarddeviaties verschillen onderling, zoals in tabel 1 te zien is, waarbij in de jongste en oudste groep ze aanzienlijk kleiner zijn dan die bij de overige groepen. Overigens lijkt het verschil tussen de standaardeviaties wel systematisch: aan de uiteinden het laagst, in de middengroepen het hoogst. Inspectie van de ruwe scores liet ook zien dat er nogal wat afwijkingen van normaliteit voorkwamen. Voor met name de scheefheid werd dit verwacht: bij de jongste kinderen, waar de items relatief moeilijk zijn, rechts scheef en bij de oudste kinderen voor wie de items relatief makkelijk waren, links scheef. In tabel 1 is te zien dat de scheefheden systematisch veranderen van positief naar negatief naarmate de leeftijdsgeroep hoger is (correlatie met leeftijdsgroep is -0,92). De kurtosiswaarden tonen een minder consistent beeld, maar ook daarbij is een trend te ontdekken (correlatie met leeftijdsgroep is 0,64). Tabel 1 Leeftijds groep Momenten van de verdelingen van ruwe scores per leeftijdsgroep Gemiddeld e Scheefheid Standaardfout scheefheid Kurtosis Standaarddeviatie Standaardfout kurtosis 1;9 8,3 5,3 0,89 0,27 0,47 0,53 81 2;3 15,3 7,1 0,13 0,25-0,77 0,50 90 2;9 25,3 9,8 0,29 0,25 1,24 0,50 92 3;3 35,2 11,8 0,03 0,25-0,51 0,50 92 3;9 44,8 12,4-0,22 0,27-0,67 0,54 77 4;3 49,8 11,9-0,03 0,27-0,71 0,54 77 4;9 56,1 10,6-0,65 0,25-0,16 0,50 93 5;3 62,4 11,2-1,04 0,24 0,60 0,47 105 5;9 68,3 8,5-1,31 0,24 2,76 0,47 102 6;3 70,8 7,7-1,28 0,26 2,05 0,52 84 6;9 72,2 9,7-1,85 0,23 4,09 0,46 111 7;3 75,9 4,3-0,92 0,30 1,23 0,59 64 N Omdat de normering moest leiden tot genormaliseerde standaardscores, werden in de eerste procedurestap de ruwe scores genormaliseerd per leeftijdsgroep. Van de ruwe scores zijn daartoe de percentielen bepaald en vervolgens de hierbij horende normaal verdeelde z-scores. Deze z-scores zijn omgezet in een schaal met gemiddelde 100 en standaarddeviatie 15. We noemen deze scores ruwe standaardscores. Deze scores hebben een één op één relatie met de ruwe scores, vormen het uitgangspunt voor de normering en voldoen aan de gestelde eisen ten aanzien van homoscedasticiteit. Het normaliseren van variabelen om ze te laten voldoen aan de eisen voor bepaalde analyses is niet ongebruikelijk. Een bekend voorbeeld is de logaritmische transformatie van responstijden. Voorwaarde is dat de afwijking 3

van de ruwe scores van normaliteit verklaarbaar en systematisch is. In het geval van de Test voor Taalbegrip lijkt qua scheefheid zeker, qua kurtosis redelijk, aan deze voorwaarde te worden voldaan. Al met al lijkt het verantwoord om de precisie van de normgroepgemiddelden te bepalen aan de hand van de ruwe standaardscores.. Merk op dat we, door de precisie te bepalen van de gemiddelde ruwe standaardscores, in feite de precisie bepalen van de mediaan van de ruwe scores. Dit is inherent aan de gevolgde normalisatieprocedure. Let wel: dit zijn nog niet de uiteindelijke standaardscores waarvan de wijze waarop die tot stand kwamen beschreven staat in de handleiding In de regressie-analyse waarmee de precisie (standaardfout) van de geschatte gemiddelden werd bepaald, is de afhankelijke variabele de ruwe standaardscore en de onafhankelijke de leeftijdsgroep. De standaardfout van het intercept per leeftijdsgroep (verkregen door het verschuiven van de x-as in de regressie-analyse) is dan de standaardfout van het gemiddelde in de betreffende leeftijdsgroep. Tabel 2 geeft de uitkomsten; terwijl in figuur 1 een afbeelding staat van deze uitkomsten. Tabel 2 geeft ook zogenaamde n-equivalenten. Dit zijn aantallen die bij de toegepaste continue normering equivalent zijn met een klassieke normering met 400 deelnemers per leeftijdgroep. Tabel 2 Standaardfouten van de gemiddelden per leeftijdsgroep bij de toegepaste continue normering en de daaruit afgeleide steekproefaantallen die equivalent zijn met n=400 bij klassieke normering, uitgaande van een standaarddeviatie van 15. Leeftijdsgroep standaardfout bij toegepaste continue normering Equivalent van n bij klassieke normering In normen opgenomen 1;9 0,869 298 nee 2;3 0,758 392 ja 2;9 0,656 523 ja 3;3 0,567 700 ja 3;9 0,498 907 ja 4;3 0,460 1063 ja 4;9 0,458 1073 ja 5;3 0,494 922 ja 5;9 0,561 715 ja 6;3 0,648 536 ja 6;9 0,750 400 ja 7;3 0,860 304 nee Bij een standaarddeviatie van 15 bij klassieke normering met n=400 is de standaardfout 0,75. Als we de resultaten in tabel 2 daarmee vergelijken, blijken bij de ruwe standaardscores alle standaardfouten van de leeftijdsgroepen waar normen voor bepaald 0,75 of lager te zijn, met als kleine uitzondering de waarde van 0,758 bij 2;3 jaar. De bij de ruwe standaardscores horende n-equivalenten bevestigen dat beeld. 4

Volgens de COTAN-criteria is een normgroepgrootte vanaf 300 voldoende te noemen en vanaf 400 goed. Uitgaande van de ruwe standaardscores kunnen we zeggen dat de n-equivalenten van de leeftijdgroepen waarvoor we normen publiceerden, goed zijn te noemen. Figuur 1 Standaardfouten bij continue en klassieke normering, gebaseerd op een standaarddeviatie van 15. Gebruik van CBS-gegevens In het commentaar van de COTAN lezen we dat er CBS-gegevens zouden zijn gebruikt over totale inwoneraantallen en dat we beter hadden kunnen uitgaan van de aantallen in de betreffende leeftijdsgroep. Dat laatste hebben we gedaan: in de handleiding op pagina 20 is vermeld Een overzicht van de resulterende inwonerpercentages in de leeftijd van 0 tot en met 7 jaar in de verschillende regioverstedelijkingsgraad-combinaties is te vinden in tabel 3.1. Representativiteit ten aanzien van regio en mate van verstedelijking De normeringssteekproef was gestratificeerd naar de streektaalregio en de mate van verstedelijking van de woonplaats van de kinderen. Door uiteenlopende oorzaken konden niet in alle geplande (reserve)gemeenten kinderen worden getest en moest er worden uitgeweken naar een andere gemeente. Veel voorkomende oorzaken zijn het geen adressen willen leveren door de gemeente, het niet beschikbaar zijn van een testleider en het niet kunnen meewerken van scholen. Hoe de uiteindelijke steekproef is verdeeld over regio en verstedelijkingsgraad wordt in tabel 3 getoond. Daarin zijn ook de verwachte aantallen vermeld op basis van de percentages in tabel 3.1 van de handleiding. Tabel 3 Geobserveerde (en verwachte aantallen) kinderen per combinatie van regio en mate van verstedelijking. 5

Mate van verstedelijking Taalregio 1 (zeer) sterk 2 matig 3 weinig/niet Totaal 1 Nedersaksisch 85 (43) 38 (26) 208 (93) 331 (162) 2 Brabants-Gelders 47 (93) 73 (73) 112 (126) 232 (292) 3 Limburgs 25 (22) 0 (19) 27 (27) 52 (69) 4 West 274 (348) 86 (95) 91 (102) 451 (544) Total 431 (505) 197 (213) 438 (348) 1066 Volgens de uitgevoerde chi-kwadraat toetsen voor aanpassing, voor respectievelijk regio (vier categorieën), mate van verstedelijking (drie categorieën) en de combinatie van deze twee variabelen (twaalf categorieën), wijken de geobserveerde frequenties significant af van de verwachte aantallen (zie tabel 4). Omdat vanwege de grote steekproefaantallen een chi-kwadraat al snel significant is, is ook de correlatie berekend tussen de twaalf geobserveerde en de verwachte frequenties in tabel 3. Deze correlaties is 0,86, waaruit blijkt dat ondanks de significante verschillen de overeenstemming tussen geobserveerde en verwachte frequentie vrij hoog is. Of de geconstateerde verschillen effect hebben op de testsscores is onderzocht met variantie-analyse. Tabel 4 Resultaten van de Chi-kwadraat-toets voor aanpassing Variabele df Chi2 p Regio 3 183.5959 <0,001 Verstedelijking 2 35.48129 <0,001 Regio*Verstedelijking 11 249.5 <0,001 Tabel 5 Effecten van Regio en Mate van verstedelijking op het TBQ Bron df F P Regio 3, 1055 1.074.359 Verstedelijking 2, 1055.268.765 Regio * Verstedelijking 5, 1055 1.434.209 In tabel 5 staan de uitkomsten van een tweeweg variantie-analyse voor de effecten van regio en verstedelijkingsgraad op de testscores (TBQ s). Zowel de hoofdeffecten als het interactie-effect blijken niet significant. De conclusie is dat er een significant, maar klein, verschil is qua regio en mate van verstedelijking tussen de geplande en de verkregen aantallen kinderen, maar dat dit verschil geen gevolgen kan hebben voor de testscores, omdat de variabelen regio en mate van verstedelijking daarmee geen samenhang hebben. Type normschaal Voor de standaardscores van de Schlichting Test voor Taalbegrip is gekozen voor een schaal met een gemiddelde van 100 en een standaarddeviatie van 15, door ons genoemd Taalbegripsquotiënt (TBQ), naar analogie van de schaal waarin het intelligentiequotiënt is uitgedrukt, het IQ. In het algemeen 6

spreken we van een quotiëntschaal of Q-schaal. Zoals het IQ al vele (tientallen) jaren geen echt quotiënt meer is, is ook het TBQ dat niet. De keuze voor een Q-schaal heeft als nadeel dat de scorebereik groter is dan het bereik van de ruwe scores. De redenen waarom we toch gekozen hebben voor een Q-schaal zijn de volgende: - Historisch. Het TBQ werd ook al toegepast bij de voorganger van de Schlichting Test voor Taalbegrip, de Reynell Test voor Taalbegrip. In de Reynell kon daarnaast ook het leeftijdsequivalent worden gekozen om de prestatie van een kind in uit te drukken, om tegemoet te komen aan de gewoonte van logopedisten (de frequentste gebruikers van de test) om daarmee te werken. Bij de Reynell is destijds echter al gewezen op de nadelen van leefijdsequivalenten en werd gepropageerd om gebruik te maken van de TBQ s. Langzamerhand zijn de testgebruikers gaan wennen aan het gebruik van Q-scores, reden om bij de nieuwe Schlichting Tests geen leeftijdsequivalenten meer te verstrekken. Het zou echter te ver gaan om nu met een nieuwe normschaal te komen, zoals de wellicht geschiktere T-scores. - Praktisch. In de praktijk van de taaldiagnostiek worden, mede op grond van DSM-IV definitities van taalproblemen, veel vergelijkingen gemaakt tussen taaltestscores onderling en tussen taaltestscores en een (nietverbaal) IQ. Het is dan een groot gemak als alle scores worden uitgedrukt in dezelfde schaal. - Interpretatierichtlijnen. Het nadeel van de Q-schaal is dat kleine verschillen in ruwe scores kunnen leiden tot grote verschillen in standaardscores. Om toch een voorzichtige interpretatie van verschillen te bewerkstelligen wordt in de handleiding (hoofdstuk 6) vermeld welke verschillen minimaal significant zijn, en dus serieus genomen mogen worden. Betrouwbaarheidsintervallen en standaardschattingsfouten De betrouwbaarheidsintervallen zijn berekend op basis van de standaardschattingsfout. De wijze waarop deze is berekend noch de uitkomst daarvan wordt in de handleiding vermeld. Welnu: Het gaat om de standaardschattingfout van de standaardscores (TBQ s). De TBQ s zijn bepaald door de ruwe scores (en niet de ware scores) te standaardiseren. De formule voor de standaardschattingsfout is in dit geval gelijk aan die voor de standaardmeetfout (zie Evers, Van Vliet-Mulder & Groot, 2000; Laros & Tellegen, 1991). Omdat de betrouwbaarheidscoëfficiënten elkaar niet veel ontlopen, is de standaardschattingsfout voor elke leeftijdsgroep gebaseerd op de gemiddelde betrouwbaarheid (lambda-2). De verkregen waarde is 3.969. De 90%-betrouwbaarheidsintervallen zijn berekend rondom de geschatte ware score (T) met de formule T ± 1.645 * 3.969. 2. Aanvullende informatie met betrekking tot de begripsvaliditeit Interne structuur Items. In de bijlage bij deze tekst worden de item-test-relaties gegeven. Te zien is dat deze heel bevredigend zijn, al komen in de hogere leeftijdsgroepen negatieve waarden voor. De leeftijdsgroep 7;3 vertoont heel veel negatieve correlaties, maar voor deze groep werden geen normen bepaald. 7

Secties. De indeling in secties van de items van de Schlichting Test voor Taalbegrip hebben slechts als praktische betekenis dat de items binnen een sectie gebruik maken van overeenkomstig materiaal. Inhoudelijk gezien (a priori) vormen alle items één doorlopende afspiegeling van de taalbegripsontwikkeling. Dit wordt aan de hand van de data bevestigd door de hoge sectie-rest - correlaties in tabel 6 en het patroon van de (partiële) onderlinge correlaties tussen de secties in tabel 7. Tabel 6 Sectie-restcorrelaties per leeftijdsgroep (correlaties tussen een sectiescore en de som van de scores op de andere secties) Sectie Leeftijdsgroep gemiddeld 1;9 2;3 2;9 3;3 3;9 4;3 3;9 5;3 5;9 6;3 6;9 7;3 A 0,60 0,64 0,53 0,43 0,32 - - - - - - - 0,51 B 0,60 0,67 0,66 0,62 0,58 0,57 0,50 0,51 0,41 0,49 0,55-0,56 C - 0,37 0,69 0,76 0,79 0,71 0,63 0,65 0,58 0,50 0,66 0,18 0,59 D - - 0,47 0,65 0,77 0,72 0,62 0,71 0,63 0,73 0,76 0,28 0,63 E - - 0,43 0,66 0,75 0,85 0,74 0,77 0,60 0,70 0,77 0,34 0,66 F - - 0,38 0,52 0,62 0,73 0,66 0,74 0,63 0,68 0,75 0,31 0,60 G - - - 0,30 0,46 0,57 0,54 0,63 0,59 0,68 0,69 0,54 0,56 In tabel 7 zijn de partiële intercorrelaties tussen de secties weergegeven, waarbij de variabele leeftijd is uitgepartialiseerd. Omdat niet alle secties bij alle kinderen zijn afgenomen, is paarsgewijze weglating van kinderen toegepast. Te zien is dat systematisch voor elke sectie geldt dat de correlatie met een andere sectie hoger is naarmate de afstand tussen de secties qua volgorde kleiner is, ofwel naarmate het verschil in moeilijkheid kleiner is, ofwel, naarmate er bij meer verschillende kinderen de secties zijn afgenomen. Opeenvolgende secties die qua kinderen de meeste overlap vertonen correleren rond 0,60 met elkaar. Onzes inziens is dat, in combinatie met de hoge interne consistentie en de hoge itemrestcorrelaties, een bevestiging van de eendimensionale structuur van de items. Tabel 7 Partiële correlaties tussen de secties van Taalbegrip, waarbij leeftijd is uitgepartialiseerd. Sectie A B C D E F G A - 0,67 0,20 0,01-0,01-0,12-0,14 B 0,67-0,53 0,21 0,18-0,02-0,10 C 0,20 0,53-0,61 0,57 0,35 0,22 D 0,01 0,21 0,61-0,68 0,56 0,39 E -0,01 0,18 0,57 0,68-0,61 0,51 F -0,12-0,02 0,35 0,56 0,61-0,60 G -0,14-0,10 0,22 0,39 0,51 0,60 - Itembias Geslacht. Over alle items en alle leeftijdsgroepen varieert de correlatie tussen itemscores en geslacht tussen -0,32 en 0,31. De gemiddelde correlatie tussen itemscore en geslacht, berekend over de 8

leeftijdsgroepen, varieert over de items van -0,09 tot 0,10. Er waren geen items die systematisch positieve dan wel negatieve correlaties lieten zien. Eén opmerking dient wel gemaakt te worden: van de items die in normgroep 1;9 zijn afgenomen, de items 1 tot en met 29, waren de meesten correlaties met geslacht positief. In deze leeftijdsgroep correleerde de ruwe testscore 0,33 (p<0,01). In de andere leeftijdsgroepen was de correlatie met de ruwe testscore maximaal 0,08. Dat in de jongste groep een samenhang met geslacht werd gevonden en in oudere groepen niet, hoeft geen kwestie van itembias te zijn, want met de Lexilijst Nederlands (Schlichting & Lutje Spelberg, 2002) werd een vergelijkbar effect gevonden. Rond 21 maanden waren er relatief grote verschillen tussen jongens en meisjes, vanaf 25 maanden werden deze verschillen kleiner. Conclusie: in de groepen die binnen het leeftijdsbereik van de test vallen, werd geen itembias qua geslacht geconstateerd. Streektaalregio. Per item is een eenweg-variantie-analyse uitgevoerd met regio als onafhankelijke variabele. Hoewel er items waren met significante between-effecten, is de effectgrootte, uitgedrukt in eta-squared, nergens groter dan 0.02 hetgeen wijst op een small effect. Systematische verschillen tussen de leeftijdsgroepen waren niet aanwezig. Externe structuur In de handleiding zijn gegevens over de externe structuur beperkt tot correlaties met de tests van de Schlichting Test voor Taalproductie-II. Resultaten over de factoriële validiteit ontbreken echter. Hierover het volgende. Omdat tussen de leeftijdsgroepen het patroon van correlaties niet veel verschilde, zijn over alle leeftijdsgroepen samen correlaties berekend tussen de tests, op de standaardscores. De resulterende correlaties staan vermeld in tabel 8. Omdat in SPSS de optie van paarsgewijze weglating is toegepast, verschillen de aantallen waarover de correlaties zijn berekend in verband met de verschillende leeftijdsbereiken. Tabel 8 Correlaties tussen de tests voor taalbegrip (TB) en taalproductie (residuscores). Correlaties Test Aantallen TB WO ZO PsW VT WO 809 0,67 ZO 802-822 0,58 0,56 PsW 545-564 0,46 0,42 0,48 VT 544-564 0,36 0,41 0,42 0,37 AG 557-719 0,47 0,39 0,52 0,52 0,25 Alle correlaties zijn significant: p<0.001 (eenzijdig getoetst). Ter wille van de interpretatie van het patroon van de correlaties, zijn factoranalyses (lees principale componentenanalyses) uitgevoerd per combinatie van tests; gekoppeld aan het leeftijdsbereik. 9

Combinatie A: tests die afgenomen zijn bij kinderen van 2;3 tot en met 6;9 jaar: Taalbegrip, Woordontwikkeling en Zinsontwikkeling (n=822). Combinatie B: tests die afgenomen zijn bij kinderen van 2;9 tot en met 6;9 jaar: Taalbegrip, Woordontwikkeling, Zinsontwikkeling en Auditief Geheugen (n=726). Combinatie C: tests die afgenomen zijn bij kinderen van 3;9 tot en met 6;9 jaar: dat zijn alle tests (n=509). Voor het aantal te trekken factoren bestaan diverse vuistregels. Een daarvan is dat de zogenaamde eigenwaarde van een factor minstens 1 moet bedragen. Een tweede is dat gekeken wordt naar het verloop van de eigenwaarden. Meestal zit er een knik in de curve op het punt waar de daling duidelijk minder steil wordt. Het aantal factoren is dan het aantal tot en met de knik. Weer een andere regel zegt dat ook gekeken moet worden naar de mogelijkheden van inhoudelijke interpretatie van de factoren. De resultaten in termen van eigenwaarden en verklaarde variantie staan in tabel 2.12. Met inachtneming van genoemde vuistregels hebben wij gekozen voor het trekken van één factor bij combinatie A, omdat vaak is gebleken dat taalproductie- en taalbegripstest op één taalfactor laden. Van Bon (1984) toonde dat bijvoorbeeld al aan met de Taaltests voor Kinderen en recentelijk bleek ook bij de CELF (Semel, et al.,2008) één algemene taalfactor gevonden te worden. Bij combinatie B trekken we twee factoren, omdat Auditief Geheugen een test is van een andere aard dan de andere drie. Bij combinatie C gaan we na of drie factoren een mooie oplossing geven. Gezegd moet worden dat de uitgevoerde factoranalyses in zekere mate exploratief van aard zijn, zeker die bij combinatie C omdat we niet weten hoe de twee nieuwe tests Pseudowoorden en Verhaaltest zich gedragen qua samenhang met de andere tests. Tabel 9 Eigenwaarden uit drie principale componentenanalyses Principale component Combinatie A TB, WO, ZO 1;9-7;3 jaar; n=822 Combinatie B TB, WO, ZO, AG 2;9-7;3 jaar; n=726 Eigenwaarde % variantie cumulatief Eigenwaarde % variantie cumulatief 1 2,2 73,4 2,6 65,0 3,3 55,3 2 0,5 89,0 0,6 81,1 0,8 68,5 3 0,3 100,0 0,4 91,9 0,7 79,9 4 - - 0,3 100,0 0,5 88,0 5 - - - - 0,4 94,5 6 - - - - 0,3 100,0 Combinatie C TB, WO, ZO, PsW, VT, AG 3;9-7;3 jaar; n=509 Eigenwaarde % variantie cumulatief Tabel 10 geeft de resultaten van de factoranalyses in de vorm van ladingenpatronen. Waar er sprake is van twee of meer factoren, zijn deze geroteerd volgens het varimax-principe. Wat opvalt is dat bij alle combinaties een factor gevonden wordt waarop Taalbegrip, Woordontwikkeling en Zinsontwikkeling hoog laden. Deze factor willen we noemen algemene taalfactor. Na toevoeging van Auditief Geheugen in combinatie B ontstaat er een betekenisvolle tweede factor, die we uiteraard geheugenfactor kunnen 10

noemen. Merk op dat Zinsontwikkeling hierop ook redelijke ladingen laten zien, hetgeen, zoals kon worden verwacht, er op duidt dat bij deze test de geheugenfactor mede een rol speelt. Tabel 10 Factorladingen bij de verschillende combinaties (A, B en C) van tests en leeftijdsgroepen. Combinatie A Combinatie B Combinatie C F1 F1 F2 F1 F2 F3 TB 0,88 0,83 0,31 0,84 0,28 0,12 WO 0,87 0,90 0,17 0,85 0,16 0,23 ZO 0,82 0,58 0,59 0,63 0,48 0,21 AG - 0,19 0,94 0,36 0,81-0,05 PsW - - - 0,15 0,81 0,31 VT - - - 0,25 0,14 0,93 Ladingen groter dan 0,50 zijn vetgedrukt. Bij combinatie C blijkt de geheugenfactor versterking te hebben gekregen van de Pseudowoordentest. Dit is goed te verklaren uit de aard van deze test. De derde factor is verrassend omdat deze vrijwel volledig verklaard wordt door de Verhaaltest. We zullen deze factor narratieve factor noemen. Omdat de Verhaaltest nagenoeg niet laadt op de andere twee factoren, zou geconcludeerd kunnen worden dat narratieve vaardigheden nogal los staan van algemene taalvaardigheid en geheugen. Bij een tweefactorenoplossing bij deze combinatie (niet hier weergegeven) werd dit bevestigd. De Verhaaltest bleef op een aparte factor laden, terwijl Auditief Geheugen en Pseudowoorden zich bij de algemene taalfactor voegden. Samengevat leverden de factoranalyses drie factoren op: een algemene taalfactor, een geheugenfactor en een narratieve factor. Het is echter niet zo dat de zes tests herleid worden tot drie taalmaten die met deze factoren overeenkomen. Enkele argumenten daarvoor zijn de volgende. In het algemeen geldt dat als twee tests een sterke samenhang hebben, het toch kan voorkomen dat de twee scores een grote discrepantie hebben. Hoewel dat uiteraard theoretisch en empirisch zal moeten worden ondersteund, kan zo n discrepantie klinisch gezien een belangrijk gegeven zijn. Zo wordt taalbegrip gezien als een (noodzakelijke maar niet voldoende) voorwaarde voor taalproductie. Daarom wordt er in dit onderzoek een vrij sterke samenhang gevonden met productieve taalmaten, zoals blijkt uit de correlaties en de factoranalyses. Wanneer echter de taalproductie zwak is, hoeft dat niet te liggen aan een zwak taalbegrip. Aparte vaststelling van beide vaardigheden is daarom noodzakelijk, ook al laden ze beide hoog op dezelfde factor. We wijzen in dit verband ook op de definities volgens DSM-IV van twee taalstoornissen: expressieve taalstoornissen en receptief-expressieve taalstoornissen. 11

BIJLAGE Item-rest correlaties Schlichting Test voor Taalbegrip Item-restcorrelaties. Items zijn niet afgenomen als een - is vermeld. Leeftijdsgroep Item 1;9 2;3 2;9 3;3 3;9 4;3 4;9 5;3 5;9 6;3 6;9 7;3 1 0.40 0.05 0.21 - - - - - - - - - 2 0.37 0.24 0.37 - - - - - - - - - 3 0.19 0.30 0.25 - - - - - - - - - 4 0.49 0.42 0.29 0.17 - - - - - - - - 5 0.39 0.37 0.30 0.25 - - - - - - - - 6 0.41 0.39 0.32 0.00 - - - - - - - - 7 0.39 0.22 0.24 0.17 - - - - - - - - 8 0.37 0.26 0.38 0.25 - - - - - - - - 9 0.62 0.57 0.57 0.35 - - - - - - - - 10 0.43 0.41 0.42 0.31.133 - - - - - - - 11 0.59 0.57 0.45 0.27.000 - - - - - - - 12 0.71 0.55 0.42 0.24.000 - - - - - - - 13 0.60 0.64 0.48 0.38.000-0.19 - - - - - 14 0.60 0.76 0.46 0.44.285-0.00 - - - - - 15 0.68 0.74 0.52 0.32.285-0.02 - - - - - 16 0.65 0.71 0.54 0.13.105-0.00 - - - - - 17 0.60 0.44 0.39 0.48.291 0.16 0.17 0.28 - - - - 18 0.28 0.29 0.42 0.60.526 0.22 0.16 0.48.286 0.59 - - 19 0.54 0.55 0.46 0.33.353 0.31 0.20 0.32.000 0.43 0.40-20 0.44 0.53 0.33 0.30.309 0.17 0.11 0.03.000 0.00 0.32-21 0.53 0.44 0.42 0.35.287 0.09 0.00 0.33.000 0.00 0.39-22 0.63 0.61 0.37 0.14.176 0.39 0.23 0.16.392 0.00 0.36-23 0.44 0.68 0.51 0.40.362 0.38-0.01 0.31 -.044 0.43 0.00-24 0.33 0.42 0.51 0.48.255 0.29 0.21 0.32.286 0.00 0.23-25 0.39 0.30 0.49 0.66.526 0.33 0.38 0.23.000 0.00 0.32-26 0.00 0.47 0.59 0.43.302 0.28 0.23 0.27.408 0.00 0.40-27 0.33 0.59 0.65 0.51.381 0.08 0.03 0.23.408 0.43 0.00-28 0.44 0.57 0.54 0.54.403 0.19 0.09-0.02.180 0.00 0.27-29 0.29 0.31 0.52 0.35.420 0.16 0.07 0.32.180 0.00 0.48-30 - 0.43 0.62 0.59.421 0.25 0.23 0.36.000 0.00 0.40-31 - 0.55 0.48 0.34.104 0.29 0.14 0.30.286 0.00 0.00-32 - 0.41 0.56 0.46.415 0.31 0.31 0.04.000 0.00 0.00-33 - 0.34 0.59 0.65.452 0.14 0.27 0.22.286 0.00 0.00-34 - 0.41 0.64 0.53.336 0.37 0.15 0.20.000 0.00 0.32-35 - 0.29 0.51 0.41.233 0.27 0.25 0.18.000 0.00 0.00-36 - 0.43 0.63 0.57.373 0.24 0.12 0.31.000 0.00 0.32-37 - 0.35 0.56 0.51.524 0.49 0.06 0.10.332 0.00 0.00-38 - 0.29 0.49 0.32.099 0.08 0.14-0.05.064 0.14 0.32 0.23 39-0.18 0.45 0.55.594 0.52 0.44 0.38.201 0.31 0.41-0.17 40-0.00 0.39 0.60.532 0.47 0.42 0.53.261 0.55 0.40-0.09 41-0.21 0.54 0.65.643 0.28 0.35 0.43.400 0.28 0.19-0.17 12

42-0.00 0.54 0.41.414 0.40 0.30 0.25.221-0.02 0.29 0.15 43-0.00 0.42 0.50.448 0.33 0.35 0.36.445 0.22 0.36 0.13 44-0.18 0.53 0.62.734 0.52 0.46 0.47.428 0.57 0.28-0.09 45 - - 0.27 0.50.715 0.62 0.50 0.46.382 0.33 0.62 0.00 46 - - 0.49 0.61.457 0.61 0.37 0.56.457 0.28 0.38 0.12 47 - - 0.50 0.49.689 0.57 0.46 0.36.181 0.48 0.25-0.15 48 - - 0.38 0.43.568 0.47 0.44 0.52.186 0.39 0.33 0.35 49 - - 0.29 0.52.636 0.46 0.51 0.46.433 0.37 0.43 0.11 50 - - 0.45 0.50.340 0.44 0.41 0.52.275 0.25 0.57 0.15 51 - - 0.00 0.46.504 0.43 0.36 0.39.405 0.36 0.52 0.10 52 - - 0.33 0.50.305 0.39 0.33 0.35.304 0.36 0.35-0.01 53 - - 0.47 0.35.328 0.26 0.19 0.22.072 0.32 0.33 0.25 54 - - 0.36 0.14.178 0.28 0.39 0.25.392 0.50 0.55 0.13 55 - - 0.00 0.32.388 0.40 0.28 0.52.391 0.47 0.36 0.07 56 - - 0.40 0.58.586 0.62 0.39 0.48.484 0.44 0.41 0.00 57 - - 0.36 0.49.605 0.63 0.50 0.30.381 0.36 0.48-0.09 58 - - 0.45 0.57.458 0.61 0.45 0.45.243 0.35 0.41 0.10 59 - - 0.00 0.49.551 0.51 0.49 0.48.389 0.38 0.36-0.03 60 - - 0.26 0.33.528 0.60 0.45 0.52.314 0.44 0.57 0.23 61 - - 0.44 0.54.661 0.67 0.49 0.48.339 0.35 0.38 0.18 62 - - 0.36 0.35.477 0.52 0.28 0.47.408 0.42 0.41 0.29 63 - - 0.26 0.45.519 0.54 0.50 0.47.294 0.35 0.44 0.13 64 - - 0.44 0.54.707 0.74 0.60 0.69.607 0.48 0.57 0.34 65 - - 0.00 0.21.324 0.41 0.29 0.39.256 0.41 0.55-0.03 66 - - 0.00 0.33.335 0.29 0.28 0.31.210 0.39 0.57 0.45 67 - - 0.36 0.38.448 0.56 0.56 0.49.365 0.45 0.42 0.16 68 - - 0.36 0.14.488 0.53 0.37 0.19.378 0.32 0.24-0.01 69 - - 0.00 0.25.478 0.33 0.28 0.20.287 0.37 0.50 0.19 70 - - 0.00 0.35.477 0.54 0.44 0.52.299 0.43 0.42 0.08 71 - - 0.36 0.40.341 0.47 0.40 0.36.239 0.18 0.41 0.19 72 - - 0.36 0.15.351 0.45 0.30 0.34.389 0.32 0.41 0.02 73 - - - 0.31.264 0.42 0.26 0.22.258 0.21 0.26 0.29 74 - - - 0.33.431 0.40 0.49 0.48.353 0.47 0.46 0.06 75 - - - 0.36.419 0.39 0.43 0.45.391 0.45 0.46 0.26 76 - - - 0.22.366 0.46 0.37 0.51.489 0.61 0.55 0.49 77 - - - 0.00.359 0.34 0.32 0.43.390 0.32 0.34 0.17 78 - - - 0.22.233 0.44 0.27 0.32.331 0.32 0.34 0.33 79 - - - 0.27.151 0.29 0.30 0.30.354 0.41 0.37 0.29 80 - - - 0.00.453 0.51 0.58 0.54.515 0.57 0.56 0.18 81 - - - 0.22.399 0.44 0.41 0.50.504 0.49 0.55 0.14 82 - - - 0.31.408 0.52 0.46 0.48.436 0.37 0.40 0.22 83 - - - 0.22.250 0.27 0.26 0.45.423 0.39 0.46 0.39 84 - - - 0.31.381 0.61 0.48 0.51.510 0.44 0.60 0.35 85 - - - 0.22.359 0.55 0.52 0.53.451 0.48 0.55 0.34 Gemiddeld 0.45 0.40 0.39 0.38 0.39 0.40 0.31 0.36 0.29 0.29 0.37 0.14 Minimum 0.00 0.00 0.00 0.00 0.00 0.08-0.01-0.05-0.04-0.02 0.00-0.17 Maximum 0.71 0.76 0.65 0.66 0.73 0.74 0.60 0.69 0.61 0.61 0.62 0.49 Aantal r<0 0 0 0 0 0 0 1 2 1 1 0 10 13