Hoofdstuk 5 BETROUWBAARHEID EN ITEMANALYSE 5.1 INLEIDING

Hoofdstuk 5 BETROUWBAARHEID EN ITEMANALYSE 5.1 INLEIDING In het vorige hoofdstuk is de ontwikkeling van de Reynell Test voor Taalbegrip en de Schlichting Test voor Taalproductie aan de orde geweest. In dit hoofdstuk worden de resultaten gepresenteerd betreffende betrouwbaarheid en itemanalyse van deze instrumenten in de constructiefasen en bij het normeringsonderzoek. Deze resultaten hebben bij het bewerken van de verschillende testonderdelen een belangrijke rol gespeeld in de besluitvorming omtrent de verdere ontwikkeling van deze onderdelen. Goede betrouwbaarheidsresultaten zijn van belang voor de kwaliteit van een test. Itemanalyse is vooral van belang wanneer een test of subtest nog onvoldoende betrouwbaar is. Itemanalyse levert informatie over de items afzonderlijk, met behulp waarvan kan worden bepaald op welke wijze de test of het testonderdeel kan worden verbeterd. Bij de constructie van de RTB en de STP werd gestreefd naar een zo hoog mogelijke betrouwbaarheid (interne consistentie). Zolang een onderdeel nog een alpha onder de.80 had werd de betrouwbaarheid onvoldoende gevonden maar ook zolang een onderdeel nog een alpha onder de.90 had was dit onderdeel, indien mogelijk, nog voor verbetering vatbaar. In 4.2.2 tot en met 4.2.5 is de constructie van de verschillende testonderdelen besproken. De test-hertestbetrouwbaarheid speelde bij de constructie van de instrumenten geen rol omdat het niet mogelijk was in de constructiefases herhaalde testafnames bij dezelfde proefpersonen te organiseren. Bij het normeringsonderzoek bestond er hiervoor wel gelegenheid, zodat er van de definitieve instrumenten wèl test-hertestbetrouwbaarheden bekend zijn. In het normeringsonderzoek is tevens nagegaan òf, en in hoeverre er sprake is van testleidereffecten. In de nu volgende paragrafen worden, na een korte bespreking van de gehanteerde betrouwbaarheidsindices en itemstatistieken, de resultaten van de RTB en de STP en van de onderdelen hiervan gepresenteerd. 87

5.1.1 Betrouwbaarheidsindices Bij de constructieversies van de instrumenten is de betrouwbaarheid van de verschillende testonderdelen onderzocht door coëfficiënt alpha te berekenen. De betrouwbaarheid van de definitieve instrumenten is geschat met behulp van coëfficiënt lambda-2. Betrouwbaarheidscoëfficiënten zijn steeds berekend per leeftijdsgroep in de betreffende onderzoeksfase. Tevens zijn gemiddelde betrouwbaarheidscoëfficiënten berekend over de relevante leeftijdsgroepen om de betrouwbaarheid van het totale bereik van een test of testonderdeel te bepalen. Coëfficiënt alpha wordt veelal gezien als een maat voor interne consistentie ofwel homogeniteit van een instrument, door Drenth en Sijtsma (1990) gedefinieerd als de mate waarin de items in een test dezelfde eigenschappen meten. Drenth en Sijtsma maken echter bezwaren tegen deze opvatting omdat alpha een hoge waarde kan hebben terwijl de test in sterke mate heterogeen is. Een tweede bezwaar is dat de hoogte van alpha mede wordt bepaald door het aantal items; wanneer het aantal - homogene - items wordt verhoogd neemt ook alpha toe. Zij merken daarbij echter op dat in de praktijk het gebruik van alpha veelal tot systematische onderschatting van de betrouwbaarheid leidt en zien daarom alpha als ondergrens van de betrouwbaarheid. Dat wil zeggen dat de betrouwbaarheid in de populatie minimaal de waarde van alpha heeft, maar mogelijk hoger is. Volgens Drenth en Sijtsma is een betere schatting van de betrouwbaarheid Guttmanns (1945) lambda-2. Ten Berge en Zegers (1978) raden aan om deze coëfficiënt in het algemeen te berekenen als ondergrens voor de betrouwbaarheid, omdat deze waarde in de populatie in ieder geval net zo dicht en mogelijk dichter bij de ware betrouwbaarheid ligt dan alpha. Afhankelijk van het doel van een instrument waarvoor de betrouwbaarheid wordt berekend worden richtlijnen gegeven voor de minimumwaarde hiervan door Nunnally (1978). Volgens hem heeft het geen zin voor researchdoeleinden een hogere betrouwbaarheid dan.80 na te streven. Voor het gebruik in klinische situaties, waarbij keuzes omtrent plaatsing en/of speciale behandeling in het geding zijn dient de betrouwbaarheid tenminste.90 maar liever nog.95 te zijn. Ook De Groot (1961) geeft als minimale waarde voor de betrouwbaarheid van psychologische tests.90. Lienert (1969) eist een interne consistentie van.90 en een her- of paralleltestbetrouwbaarheid van minimaal.80. In de testconstructiepraktijk wordt toch vaak een minder strenge eis gehanteerd; men is tevreden met betrouwbaarheidscoëfficiënten van boven de.80. In Evers, Van Vliet-Mulder en Ter Laak (1992), die richtlijnen voor tests en testgebruik geven, wordt de volgende vuistregel gehanteerd: bij tests die voor selectiedoeleinden worden gebruikt wordt een betrouwbaarheid tussen.80 en.90 als matig gekenschetst; een betrouwbaarheid van.90 of hoger als goed. Ten behoeve van de schatting van de betrouwbaarheid van de definitieve instrumenten is, naast de interne consistentie, ook de test-hertestbetrouwbaarheid bepaald. Deze wordt geschat door de correlatie te berekenen tussen de scores van twee afnames van dezelfde test. De test-hertestbetrouwbaarheid geeft een indicatie van de 88

mate waarin tijdstip gebonden foutenbronnen een rol spelen. De test-hertestcorrelatie wordt gezien als een maat voor de stabiliteit van een testscore (Drenth 1975). Tenslotte is nagegaan in hoeverre testleidereffecten een rol spelen in de scores die in het normeringsonderzoek zijn behaald met de RTB en de STP. 5.1.2 Itemstatistieken Uitgangspunt bij de itemanalyse is het onderzoeken van de bruikbaarheid en geschiktheid van de items die tezamen een subtest vormen. Indien een test onvoldoende betrouwbaar blijkt kunnen items die ongunstige itemkarakteristieken vertonen hetzij worden verwijderd, hetzij vervangen door items met naar verwachting gunstiger eigenschappen. Belangrijke eigenschappen van items dit verband zijn de mate van samenhang met de overige items van de test en de moeilijkheid van de items. De mate van samenhang van het item met de overige items wordt uitgedrukt als item-restcorrelatie, dit is de correlatie van de itemscore met de som van de overige items van de test of het testonderdeel. Items met een zeer geringe of negatieve itemrestcorrelatie dragen niet bij aan het meten van de vaardigheid waar de test of het testonderdeel een beroep op doet. De moeilijkheid van items is van belang voor de totale itemsamenstelling van een test of testonderdeel. Deze itemsamenstelling dient zodanig te zijn dat de subtest voldoende discrimineert binnen het gewenste bereik van de te onderzoeken vaardigheid. Hiertoe moeten de items een ruime en regelmatige variatie in moeilijkheid te vertonen. De moeilijkheid van een item kan worden afgeleid van de p-waarde van het item. Dit is de proportie proefpersonen die het item goed scoort. Deze p-waarde drukt in feite het omgekeerde van het begrip moeilijkheid uit, namelijk de populariteit van het item, de kans dat een item goed wordt gescoord. 5.2 RESULTATEN In het nu volgende worden de interne consistentie en de test-hertestbetrouwbaarheid van de RTB en de STP gegeven. Tevens wordt een overzicht van de itemstatistieken in de verschillende onderzoeksfasen gegeven. Tenslotte worden resultaten betreffende testleidereffecten gepresenteerd. Voor de opzet van het onderzoek wordt verwezen naar Hoofdstuk 3. In dit hoofdstuk worden ook de steekproeven in de verschillende onderzoeksfasen beschreven. Omdat sommige testonderdelen tijdens het onderzoek een naamswijziging hebben ondergaan worden deze in het navolgende soms met beide namen, soms met de aanvankelijke naam en soms met de uiteindelijke naam aangeduid. Dit is afhankelijk van de onderzoeksfase waarover gesproken wordt. 89

5.2.1 Interne consistentie In Tabel 5.1 worden, van alle onderzoeksfasen, de alpha s per leeftijdsgroep en over alle leeftijdsgroepen samen gegeven. Tabel 5.2 geeft een overzicht van de waarden van lambda-2 bij de normgroepen binnen het uiteindelijke leeftijdsbereik van de definitieve onderdelen Taalbegrip (RTB) en Zinsontwikkeling, Woordontwikkeling en Auditief Geheugen (STP). Voor de aantallen proefpersonen per leeftijdsgroep in de verschillende onderzoeksfasen wordt verwezen naar Tabel 3.2, Tabel 3.3 en Tabel 3.7. Het onderdeel Taalbegrip heeft vanaf het begin van het onderzoek hoge betrouwbaarheidsindices. In de eerste constructiefase zijn alle waarden van alpha voldoende hoog. Echter in constructiefase C2, bij de leeftijdsgroepen 63 en 69 maanden, is alpha lager dan.80. In de normeringsfase, na aanpassing van de moeilijkste secties (zie 4.2.2), is lambda-2 bij deze leeftijdsgroepen wel voldoende hoog. Alleen bij de normgroep van 75 maanden is lambda-2 een weinig te laag, met een waarde van.79. De resultaten van Taalstructuur/Zinsontwikkeling zijn als volgt. In de eerste constructiefase is alleen bij drie van de vier jongere leeftijdsgroepen alpha voldoende hoog. Bij de leeftijdsgroep van 21 maanden is de betrouwbaarheid aan de lage kant; itemanalyse resultaten wijzen uit dat dit komt omdat slechts weinig items bruikbaar zijn voor deze leeftijdsgroep, verreweg de meeste items zijn te moeilijk. Een beter resultaat kan echter nauwelijks worden verwacht; bij een leeftijd van 15 maanden wordt er door de meeste kinderen hooguit een enkel woordje gesproken. Dat alpha bij de oudere leeftijdsgroepen onvoldoende is ligt aan het feit dat in deze fase nog maar weinig items voor deze leeftijdsgroep in dit onderdeel zijn opgenomen (zie 4.2.3). Bij de tweede constructiefase zijn de resultaten bij de jongere leeftijdsgroepen wederom voldoende; bij de oudere leeftijdsgroepen zijn de resultaten, na het toevoegen van geschikte items voor deze leeftijdsgroepen, verbeterd maar nog niet voldoende. Bij het normeringsonderzoek zijn de resultaten, na verdere aanpassing van dit onderdeel, sterk verbeterd: slechts bij de extreme leeftijdsgroepen, namelijk van 15, 21 en 75 maanden is alpha lager dan de gewenste.80. De lambda-2 coëfficiënt geeft ongeveer hetzelfde beeld: waarden onder de.80 bij de extreme leeftijdsgroepen. Bij de normgroep van 15 maanden is lambda-2, ten gevolge van het bodem-effect, zó laag, dat normering voor deze leeftijd niet zinvol is. Bij de normgroepen van 21 en 75 maanden is lambda-2 slechts weinig lager dan.80. Voor wat betreft de resultaten van Woordenschat/Woordontwikkeling kan het volgende worden vermeld. In de eerste constructiefase blijkt dat de uitgebreide subtest Woordenschat (zie 4.2.4) slechts bij twee van de zes onderzochte leeftijdsgroepen een voldoende hoge alpha te hebben. Alpha is vooral erg laag bij de oudste leeftijdsgroep, namelijk.43. In de tweede constructiefase is de geheel nieuwe versie van het onderdeel onderzocht, hier zijn de alpha s bij alle leeftijdsgroepen voldoende hoog. Een aanpassing van het nieuwe instrument - korter - is gebruikt in het normerings- 90

onderzoek. De waarden van lambda-2 van Woordontwikkeling zijn voldoende hoog in het normeringsonderzoek, behalve bij de normgroep van 75 maanden waar lambda- 2 met een waarde van.78 een weinig te laag is. Het onderdeel Auditief Geheugen heeft in de eerste constructiefase bij alle leeftijdsgroepen een onvoldoende hoge alpha. In het tweede constructieonderzoek, na toevoeging van items (zie 4.2.5), is alpha voldoende hoog bij de jongste twee van de zes leeftijdsgroepen. In het normeringsonderzoek is alpha voldoende hoog bij de een drietal middengroepen, namelijk de normgroepen van 33, 39 en 45 maanden. Vooral bij de normgroepen van 21, 63 en 75 maanden is lambda-2 laag: respectievelijk.47 en.74 en.75. Bij de normgroep van 15 maanden kan geen coëfficiënt worden berekend omdat er te weinig proefpersonen zijn die tenminste één item goed hebben. Uiteindelijk is voor het leeftijdsbereik van 33 tot en met 57 maanden genormeerd, omdat bij deze leeftijdsgroepen de betrouwbaarheid nog acceptabel is. Een tweede reden om niet te normeren vanaf 63 maanden is het nauwelijks toenemen van de ruwe score vanaf de leeftijd van 57 maanden (zie 6.3.1 en 6.4). De vragenlijst Eerste Woordenschat/Lexilijst (zie 4.2.6) heeft zowel in de constructie- als in de normeringsfase zeer hoge alpha s. Lambda-2 coëfficiënten zijn hierom niet berekend. Tabel 5.2 Lambda-2 coëfficiënten van de testonderdelen over de normgroepen. 15 21 27 33 39 45 51 57 63 69 75 gem. TB.84.92.94.94.95.95.90.90.88.88.79.90 ZO *.79.85.88.91.92.86.88.85.82.77.85 WO.81.88.90.91.92.94.90.84.85.87.78.87 AG * *.84.88.89.87.79.80 * * *.85 * Deze leeftijdsgroepen zijn niet in de normering opgenomen. 5.2.2. Test-hertestbetrouwbaarheid Ter bepaling van de test-hertestbetrouwbaarheid zijn bij een deel van de kinderen uit de normeringssteekproef, een half jaar na de eerste afname, de RTB en de STP opnieuw afgenomen. De verdeling van de proefpersonen met een herafname van de RTB en de STP over de normgroepen wordt gegeven in Tabel 5.3. Voor overige informatie over de normeringssteekproeven wordt verwezen naar 3.3.4. 92

Tabel 5.3 Verdeling van hertests over de normgroepen normgroep aantal hertests 21 mnd 19 27 mnd 23 33 mnd 28 57 mnd 23 63 mnd 22 69 mnd 19 totaal 134 De test-hertestcorrelatie is berekend over de genormeerde, dus leeftijdsonafhankelijke, scores op Taalbegrip (TB), Zinsontwikkeling (ZO), Woordontwikkeling (WO) en Auditief Geheugen (AG). In Tabel 5.4 worden van deze testonderdelen de testhertestcorrelaties gegeven, vergezeld van gemiddelden en standaarddeviaties van de standaardscores van de hertestgroep bij de eerste en tweede afname. Tabel 5.4 Test-hertestcorrelaties en standaardscores bij de testonderdelen standaardscores test-hertest- eerste afname tweede afname onderdeel correlatie gem. s.d. gem. s.d. n TB.69 100.0 14.3 103.0 13.6 134 ZO.75 99.3 14.9 100.4 15.6 130 WO.76 99.0 15.4 101.0 15.9 134 AG.30 101.1 14.3 103.6 13.7 36 Gunstig zijn de resultaten bij Taalbegrip, Zinsontwikkeling en Woordontwikkeling, zeker gezien de lange tussentijd van 6 maanden. In een dergelijk lange tussenperiode zijn niet alleen foutenbronnen, maar verschillen in ontwikkelingssnelheid en persoonlijke geschiedenis verantwoordelijk voor een niet perfecte testhertestcorrelatie. De test-hertestbetrouwbaarheid van Auditief Geheugen valt tegen. De verkregen test-hertestbetrouwbaarheid is zo laag dat een score op dit onderdeel slechts als een momentopname kan worden gezien. Het aantal proefpersonen bij Auditief Geheugen is gering omdat voor dit onderdeel uiteindelijk alleen normen zijn ontwikkeld voor de leeftijd van 31 tot 57 maanden, door de tegenvallende betrouwbaarheid bij de overige leeftijdsgroepen. 93

Uit de tabel blijkt voorts dat de gemiddelde standaardscores bij alle testonderdelen een weinig toenemen. Dit, zeer geringe, verschil kan wellicht worden toegeschreven aan een leereffect. 5.2.3 Itemstatistieken In Tabel 5.5 en Tabel 5.6 worden de itemgegevens van de testonderdelen in de constructiefasen en het normeringsonderzoek per leeftijdsgroep samengevat: in Tabel 5.5 worden de gemiddelde p-waarden (itempopulariteiten; zie 5.1.2) gegeven en in Tabel 5.6 de gemiddelde item-restcorrelaties. Om de interpretatie van de resultaten te vergemakkelijken worden de gemiddelde p-waarden per leeftijdsgroep van de onderdelen Taalbegrip, Zinsontwikkeling, Woordenschat en Auditief geheugen tevens grafisch weergegeven in respectievelijk Figuur 5.1 tot en met 5.4. In Bijlagen 2 tot en met 5 worden van de testonderdelen in het normeringsonderzoek de p-waarden, de range van p-waarden en de item-restcorrelaties per item over de leeftijdsgroepen samengevat gegeven. Bijlage 6 bevat de p-waarden en item-restcorrelaties per item van de drie leeftijdsgroepen van het normeringsonderzoek van de Lexilijst. P-waarden In Tabel 5.5 worden per onderzoeksfase en per leeftijdsgroep de gemiddelde p- waarden bij de verschillende testonderdelen gegeven. In Figuur 5.1 tot en met Figuur 5.4 worden de gemiddelde p-waarden van de testonderdelen, behalve de Lexilijst, nogmaals, maar nu grafisch gepresenteerd. Om een voldoende hoge betrouwbaarheid en tevens een duidelijk ontwikkelingsverloop te garanderen dienen er voor elke leeftijdsgroep voldoende items te zijn die goed differentiëren tussen proefpersonen met een verschillend niveau van ontwikkeling. Een duidelijk ontwikkelingsverloop blijkt uit een duidelijke toename in gemiddelde p-waarden bij een toename in leeftijd. De resultaten van Taalbegrip, waaraan gedurende het onderzoek weinig veranderd is, zijn vrij stabiel over de onderzoeksfasen. Over het algemeen geldt, dat de p- waarden gelijkmatig toenemen bij toenemende leeftijd (zie Figuur 5.1). Na de tweede constructiefase blijkt dat er bij de hoogste leeftijdsgroepen echter weinig differentiatie wordt gevonden. Op grond hiervan zijn de moeilijkste secties van Taalbegrip na deze onderzoeksfase aangepast (zie 4.2.2). Bij het normeringsonderzoek is er bij deze leeftijdsgroepen sprake van een gunstiger patroon, dat wil zeggen een meer regelmatige toename van de p-waarden bij toenemende leeftijd, op grond waarvan geconcludeerd kan worden dat de aanpassing succesvol is geweest. Uit de p-waarden per item, gemiddeld over de normgroepen in Bijlage 2 blijkt voorts dat de secties 1 tot en met 12 toenemen in moeilijkheid. Binnen de secties 1 tot en met 7 komt de (afname- )volgorde van de items vrijwel overeen met de rangschikking in moeilijkheid. Bij de 94

secties 8 tot en met 12 behoren de eerste items van een sectie steeds tot de makkelijkste, dit in verband met de afbreekregels per sectie (zie 4.2.2). De test voor Zinsontwikkeling bestaat in de eerste constructiefase vooral uit items die geschikt zijn voor de jongere leeftijdsgroepen. De gemiddelde p-waarden lopen dan ook snel op (zie Figuur 5.2). In de tweede constructiefase (zie 4.2.3) zijn items toegevoegd voor het hogere leeftijdsbereik. De gemiddelde p-waarden nemen echter vanaf een leeftijdsbereik van 57 maanden nog te weinig toe. Om deze reden zijn na de tweede constructiefase nog meer moeilijke items toegevoegd. Ook deze aanpassing is succesvol geweest: bij het normeringsonderzoek is er zeker sprake van een voldoende differentiatie tot de leeftijd van 69 maanden. Doordat de versie in het normeringsonderzoek nog afweek van de laatste constructieversie was het niet mogelijk, voorafgaande aan het normeringsonderzoek, de moeilijker items in een perfecte moeilijkheidsrangschikking te plaatsen. Uit methodologische overwegingen was het evenmin mogelijk dit achteraf, na het normeringsonderzoek, te doen. Uit de gemiddelde p-waarden per item (Bijlage 3) blijkt dan ook dat vanaf item 12 de items niet perfect oplopen in moeilijkheidsgraad. In verband hiermee moet helaas een vrij lange afbreekregel (8 items; zie ook 4.2.3) worden gehanteerd. Bij de subtest Woordenschat is er in eerste instantie, ondanks de Vlaamse toevoegingen, sprake van onvoldoende differentiatie in het hogere leeftijdsbereik (zie Figuur 5.3). De nieuwe opzet van dit onderdeel, de Test voor Woordontwikkeling (zie 4.2.4), is in de tweede constructiefase onderzocht. Het patroon van p-waarden geeft in deze onderzoeksfase een duidelijke verbetering te zien. In de normeringsfase, na reductie van het aantal items (zie 4.2.4), is het patroon van p-waarden eveneens gunstig; er is nu sprake van een regelmatige toename bij toenemende leeftijd. Bij de constructie van dit onderdeel is er naar gestreefd de items zodanig te rangschikken dat de items per sectie vergelijkbaar zijn in moeilijkheid en dat de secties toenemen in moeilijkheid. Uit Bijlage 4 blijkt dat dit redelijk gelukt is. Evenals bij Zinsontwikkeling zijn na de tweede constructiefase nog wijzigingen aangebracht, zodat een optimale moeilijkheidsvolgorde op itemniveau niet vooraf te realiseren was. Voorzichtigheidshalve is de afbreekregel van drie secties volledig fout gehanteerd, zowel bij het normeringsonderzoek als bij het definitieve instrument. Bij Auditief Geheugen zijn er weinig items, die echter theoretisch (zie 4.2.5) zowel als empirisch (zie Bijlage 5) duidelijk oplopen in moeilijkheid. Om de betrouwbaarheid van dit onderdeel te vergroten zijn tussen de onderzoeksfasen steeds items toegevoegd, waaronder ook zeer moeilijke.

Tabel 5.5 Gemiddelde p-waarden per leeftijdsgroep van de testonderdelen in de onderzoeksfasen (C1 en C2 en N) leeftijd: 15 21 27 33 39 42 45 51 54 57 63 69 75 aantal items Taalbegrip C1 -.14.29.41 -.57 - -.79 - -.86-97 C2 - -.26 -.54 - -.76 -.82.85.86-97 N.08.16.30.41.54 -.64.69 -.75.80.85.88 87 Taalstructuur/ Zinsontwikkeling C1 -.10.25.37 -.52 - -.78 - -.84-21 C2 - -.23 -.47 - -.59 -.64.65.67-25 / 33 N.00.05.13.19.27 -.37.42 -.48.55.63.64 40 Woordenschat/ Woordontwikkeling C1 -.32.44.55 -.66 - -.80 - -.83-28 C2 - -.11 -.26 - -.56 -.63.68.73-101 / 79 N.01.05.13.20.35 -.44.53 -.61.69.76.78 62 Auditief Geheugen C1 -.04.06.21 -.37 - -.47 - -.60-6 C2 - -.21 -.44 - -.64 -.67.67.70-10 N.00.02.09.17.26 -.36.44 -.49.53.55.58 15 Eerste Woordenschat/ Lexilijst C1 -.55.80.94 - - - - - - - - - 252 N.05.31.73 - - - - - - - - - - 309

Tabel 5.6 Gemiddelde item-restcorrelaties per leeftijdsgroep van de testonderdelen in de onderzoeksfasen (C1, C2 en N) leeftijd: 15 21 27 33 39 42 45 51 54 57 63 69 75 Taalbegrip C1 -.13.38.29 -.45 - -.25 - -.18 - C2 - -.29 -.36 - -.24 -.29 12 10 - N.10.17.28.32.35 -.36.22 -.24.20.21.12 Taalstructuur/ Zinsontwikkeling C1 -.24.44.40 -.53 - -.09 - -.17 - C2 - -.29 -.51 - -.17 -.23.14.10 - N.01.08.14.21.38 -.41.27 -.34.34.27.20 Woordenschat/ Woordontwikkeling C1 -.32.50.46 -.57 - -.65 - -.08 - C2 - -.19 -.29 - -.26 -.42.26.17 - N.04.11.21.28.35 -.39.29 -.22.25.26.15 Auditief Geheugen C1 -.11.38.45 -.40 - -.40 - - - - C2 - -.49 -.49 - -.31-15 40.06 - N.00.10.24.31.37 -.36.27 -.28.22.29.23 Eerste Woordenschat/ Lexilijst C1 -.55.60.25 - - - - - - - - - N.16.53.48 - - - - - - - - - -

Figuur 5.1 Taalbegrip. Gemiddelde p-waarden per leeftijdsgroep bij de onderzoeksfasen C1, C2 en N. 96

Figuur 5.2 Zinsontwikkeling. Gemiddelde p-waarden per leeftijdsgroep bij de onderzoeksfasen C1, C2 en N. 96

Figuur 5.3 Woordontwikkeling. Gemiddelde p-waarden per leeftijdsgroep bij de onderzoeksfasen C1, C2 en N. 96

Figuur 5.4 Auditief Geheugen. Gemiddelde p-waarden per leeftijdsgroep bij de onderzoeksfasen C1, C2 en N. 96

Toch nemen in het normeringsonderzoek vanaf de leeftijd van 63 maanden de gemiddelde p-waarden nauwelijks meer toe (zie Figuur 5.4). Dit lijkt een effect van het ontwikkelingsverloop van de vaardigheid om series losse woorden na te zeggen. Weinig kinderen in de normeringssteekproef lijken in staat te zijn om series van meer dan 4 woorden foutloos te herhalen. Het toevoegen van eenvoudige items biedt evenmin een oplossing. Afgezien van het feit dat het weinig zin lijkt te hebben nog meer items met series van één tot en met vier woorden te construeren, wordt verwacht dat de betrouwbaarheid van de test afneemt door een verder afnemen van de motivatie bij de proefpersoon om deze tamelijk lastige en saaie taak te volvoeren. Bij de Lexilijst is er zowel in de eerste constructiefase als in de normeringsfase sprake van een duidelijke en regelmatige toename in p- waarden bij toenemende leeftijd, zo moge blijken uit zowel Tabel 5.5 als uit Bijlage 6. Item-restcorrelaties In Tabel 5.6 worden per onderzoeksfase en per leeftijdsgroep de gemiddelde item-restcorrelaties bij de verschillende testonderdelen gegeven. Wanneer een test veel items met een lage of negatieve item-restcorrelatie bevat zal de betrouwbaarheid onvoldoende zijn. Omdat het ontwikkelingsbereik van de verschillende onderdelen zeer groot is (van 1;3 tot en met 6;3 jaar), valt echter niet te vermijden dat bij de jongste en oudste leeftijdsgroepen veel items gevonden worden die niet of nauwelijks differentiëren en dus een lage item-restcorrelatie hebben. Het gaat hier om items die hetzij tot de gemakkelijkste, hetzij tot de moeilijkste items van een testonderdeel behoren. Ten gevolge hiervan zijn de gemiddelde item-restcorrelaties in Tabel 5.6 bij de jongste en de oudste leeftijdsgroepen steeds lager dan die van de middelste leeftijdsgroepen. Uit Bijlagen 2 t/m 6, waarin per testonderdeel de gemiddelde item-restcorrelaties per item, samengevat over de normgroepen, worden gegeven, moge blijken dat de gemiddelde item-restcorrelaties per item redelijk hoog zijn, en dat de maximale item-restcorrelaties tot zeer hoog kunnen zijn. Ook valt uit Bijlagen 2 t/m 6 te constateren dat er slechts in uitzonderlijke gevallen sprake is van items met een negatieve itemrestcorrelatie in een normgroep. 97

5.2.4 Testleidereffecten Een van de foutenbronnen bij het bepalen van testscores ligt in de interactie tussen testleider en onderzochte. Het gedrag van het kind en kan dat van de testleider beïnvloeden en omgekeerd. Een testscore kan hierdoor mede tot stand komen door niet bedoelde testleiderfactoren. In hoeverre dergelijke factoren een rol spelen is in principe gemakkelijk te onderzoeken: laat verschillende testleiders verschillende groepen kinderen testen. Als die groepen onafhankelijk van elkaar zijn en aselect getrokken zijn uit dezelfde populatie, dan zou een eventueel testleidereffect tot uiting moeten komen in significante verschillen tussen de groepsgemiddelden. In het RTB/STP ijkingsonderzoek hebben dertien testleiders (elf reguliere en twee vervangers ) in totaal 1049 kinderen getest. De vraag is hierbij echter of de testleidergroepen wel uit dezelfde populatie komen. De groepen zijn namelijk bepaald op basis van regio en derhalve mogelijk verschillend qua dialect. Dialect is immers een variabele die met testscores op taaltests kan samenhangen. Wel is het zo dat de testleiders die dialectsprekende kinderen hebben onderzocht ook niet dialectsprekende kinderen in hun steekproef hadden. Het testleidereffect is daarom onderzocht met een éénweg variantieanalyse op de niet dialectsprekende kinderen met testleider als onafhankelijke variabele. Twee testleiders (de vervangers) zijn buiten beschouwing gelaten omdat zij slechts twee Nederlandssprekende kinderen hadden getest. Het aantal Nederlandssprekende proefpersonen dat door de elf resterende testleiders is getest is 645. De resultaten van de variantieanalyse staan vermeld in tabel 5.7. Tabel 5.7 Testleidereffecten bij de testonderdelen variabele F df significantie eta 2 TBQ 5.824 10, 634.000.08 ZQ 1.163 10, 571.313.02 WQ 2.116 10, 626.021.03 AGQ 7.088 10, 237.000.23 98

Bij een significantieniveau van 0.05 zijn bij het TBQ, het WQ en het AGQ de F-ratio s significant, hetgeen op zich zelf niet veel hoeft te betekenen gezien het grote aantal vrijheidsgraden. Meer zegt - bij een significante F-ratio - de sterkte van het testleidereffect, uitgedrukt in 2 het percentage verklaarde variantie: de eta -coefficiënt. Dan blijkt dat alleen bij AGQ sprake is van een substantieel testleidereffect: 23% van de scorevariantie kan door een testleidereffect worden verklaard. Deze test is kennelijk gevoelig voor kenmerken van de testleider. Wellicht is de ene testleider beter in staat aan het eind van een lange testsessie proefpersonen nog te motiveren in het nazeggen van losse woorden dan de andere. Dat de reden is dat tempo en intonatie van het voorzeggen van de na te zeggen woorden moeilijk te standaardiseren zijn, lijkt onwaarschijnlijk. Er is namelijk een voorbeeld cassettebandje bij de testinstructie gegeven, om dit probleem te ondervangen. 99

5.3 BESLUIT In dit hoofdstuk is verslag gedaan van het onderzoek naar de betrouwbaarheid en de kenmerken van de items van de onderdelen van de Reynell Test voor Taalbegrip en de Schlichting Test voor Taalproductie tijdens de constructie van deze instrumenten. Van de definitieve instrumenten worden behalve gegevens betreffende de interne consistentie test-hertestbetrouwbaarheden gepresenteerd. De resultaten van de itemanalyse zijn dienstbaar geweest bij het verbeteren van (nog) onvoldoende betrouwbaarheden van testonderdelen tijdens de ontwikkeling van de instrumenten. Deze ontwikkeling is beschreven in Hoofdstuk 4. In de constructiefase van het onderzoek per testonderdeel steeds, indien nodig, getracht zodanig wijzigingen aan te brengen dat de betrouwbaarheid (interne consistentie) van het betreffende onderdeel in een volgende onderzoeksfase zou toenemen. Waar uiteindelijk in een testonderdeel bij een bepaald leeftijdsbereik de betrouwbaarheid onvoldoende bleef (bij Zinsontwikkeling en Auditief Geheugen), is besloten geen normen te ontwikkelen voor dit leeftijdsbereik. Voor wat betreft de definitieve instrumenten valt te concluderen dat de verschillende testonderdelen voldoende betrouwbaar zijn. Dit maakt dat het niet nodig is de scores op de verschillende onderdelen te combineren tot een totaalscore. Voor de verschillende testonderdelen kunnen aparte scores worden gehanteerd. Hierdoor wordt een gedifferentieerde diagnostiek mogelijk, hetgeen de bruikbaarheid van de RTB en de STP verhoogt. De test-hertestbetrouwbaarheid is voldoende. Een substantieel testleidereffect wordt alleen gevonden bij het STP-onderdeel Auditief Geheugen. 100