Cito Volgsysteem jonge kind. Wetenschappelijke verantwoording van de toets Rekenen voor peuters. Marieke op den Kamp en Jos Keuning

Maat: px
Weergave met pagina beginnen:

Download "Cito Volgsysteem jonge kind. Wetenschappelijke verantwoording van de toets Rekenen voor peuters. Marieke op den Kamp en Jos Keuning"

Transcriptie

1 Cito Volgsysteem jonge kind Wetenschappelijke verantwoording van de toets Rekenen voor peuters Marieke op den Kamp en Jos Keuning

2

3 Wetenschappelijke verantwoording van de toets Rekenen voor peuters Marieke op den Kamp Jos Keuning Cito, Arnhem, juli

4 Cito B.V. Arnhem (2011) Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Cito B.V. worden openbaar gemaakt en/of verveelvoudigd door middel van druk, fotografie, scanning, computersoftware of andere elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke wijze dan ook. 2

5 Inhoud 1 Inleiding 5 2 Uitgangspunten van de toetsconstructie Meetpretentie Doelgroep Gebruiksdoel en functie Theoretische inkadering Inhoudelijk Rekenontwikkeling Tussendoelen en leerlijnen Het rekenaanbod op peuterspeelzalen en kinderdagverblijven Psychometrisch Opgavenbanken voor jonge kinderen en het primair onderwijs Het gehanteerde meetmodel 18 3 Beschrijving van de toets Opbouw, afname van de toetsen en rapportage Inhoudsverantwoording Het ontwikkelproces van de Rekenen voor peuters De inhoud van de toets Rekenen voor peuters Selectie van opgaven voor de toets Rekenen voor peuters 27 4 Het normeringsonderzoek Steekproefplan Maken van een itembank Schatten van de vaardigheidsverdelingen van de normgroepen Normeren van de uiteindelijke toets 37 5 Betrouwbaarheid en meetnauwkeurigheid 41 6 Validiteit Inhoudsvaliditeit Begripsvaliditeit 45 7 Samenvatting 49 8 Literatuur 51 Bijlage 1: Profielanalyse met IRT, Norman Verhelst 55 3

6 4

7 1 Inleiding Deze wetenschappelijke verantwoording heeft betrekking op de toets Rekenen voor peuters (voor driejarige peuters) van het Cito Volgsysteem jonge kind (voorheen PVS ofwel Peutervolgsysteem). Het toetspakket bestaat uit: Opgavenboek Toets kleur Toets lichaamsdelen Registratieformulieren Handleiding Inhoudsverantwoording Het Computerprogramma LOVS, dat ook gebruikt wordt bij het Cito Volgsysteem primair onderwijs, kan toetsresultaten geautomatiseerd verwerken en op basis hiervan verschillende rapporten en overzichten maken. Tezamen met de inhoud van het toetspakket Rekenen voor peuters (Op den Kamp, 2010) levert deze verantwoording alle informatie die nodig is voor een snelle en efficiënte beoordeling van de kwaliteit van het betreffende meetinstrument. Het genoemde materiaal maakt een beoordeling van de toets Rekenen voor peuters mogelijk op de volgende aspecten: Uitgangspunten van de toetsconstructie De kwaliteit van het toetsmateriaal De kwaliteit van de handleiding Normen Betrouwbaarheid Validiteit Het laatstgenoemde aspect betreft alleen begripsvaliditeit en geen criteriumvaliditeit. Omdat de toetsen van het Cito Volgsysteem jonge kind niet bedoeld zijn voor 'voorspellend gebruik' is criteriumvaliditeit niet van toepassing. Het voorliggende document heeft met name betrekking op de uitgangspunten van de constructie (hoofdstuk 2 en 3), de normen (hoofdstuk 4), de betrouwbaarheid en meetnauwkeurigheid (hoofdstuk 5) en de begripsvaliditeit (hoofdstuk 6) van de toets Rekenen voor peuters voor driejarige peuters in kinderdagverblijven en peuterspeelzalen. De kwaliteit van het toetsmateriaal en de handleiding is te bepalen door kennis te nemen van de inhoud van het toetspakket. Om de tekst leesbaar te houden wordt er een aantal algemene termen gehanteerd. Waar kinderdagverblijven worden genoemd, worden ook andere vormen van kinderopvang bedoeld. Waar locatie wordt genoemd, wordt een locatie van een peuterspeelzaal of kinderdagverblijf bedoeld. Waar we over leidster(s) spreken, bedoelen we ook pedagogisch medewerker(s). 5

8 6

9 2 Uitgangspunten van de toetsconstructie 2.1 Meetpretentie De toets Rekenen voor peuters brengt de algemene rekenvaardigheid van peuters in beeld. Jonge kinderen verwerven al veel rekengerelateerde deelvaardigheden, zoals het ordenen van materialen op een bepaald kenmerk of het aanbrengen van allerlei rangordes. Deze deelvaardigheden zijn van belang voor het logisch leren denken. Daarnaast is tellen een belangrijke voorwaarde voor getalbegrip en rekenen. Peuters zijn zich volgens Van Luit (2009) al bewust van hoeveelheden en hebben een notie van het benoemen van aantallen voorwerpen. Naast getalbegrip is er binnen het domein rekenen aandacht voor de meer wiskundige aspecten meten en meetkunde. Het meten is volgens Van den Heuvel-Panhuizen & Buys (2004) gericht op het meetbaar maken (kwantificeren) van de fysieke omgeving. Bij peuters gaat het hierbij om het vergelijken van concrete voorwerpen, bijvoorbeeld op grootte. Op latere leeftijd wordt gebruikgemaakt van meetgetallen, bijvoorbeeld om lengte aan te geven. Bij meetkunde gaat het om het begrijpen van de drie- en tweedimensionale wereld om ons heen en de bijbehorende figuren en vormen. Het rekenaanbod in kinderdagverblijven en peuterspeelzalen aan driejarige peuters richt zich op het logisch leren denken en geeft kinderen geleidelijk steeds meer besef van de gecijferde wereld. Dit wordt bij peuters ook wel het proces van ontluikende gecijferdheid genoemd. Door SLO (2011) zijn ervarings- en beheersingsdoelen met betrekking tot de rekenontwikkeling van jonge kinderen in de voor- en vroegschoolse situatie ontwikkeld. Deze doelen zijn ingedeeld in drie domeinen: Getalbegrip Meten Meetkunde In de toets Rekenen voor peuters worden de drie domeinen (Getalbegrip, Meten, Meetkunde) en de onderliggende doelen getoetst. Uitzondering hierbij zijn de doelen Omgaan met de telrij en Tijd. De opgavenvormen uit Rekenen voor peuters zijn namelijk niet geschikt om deze tussendoelen te meten bij peuters. Er zijn ook een aantal deelvaardigheden die te omschrijven zijn in termen van handelingen die moeilijk in toetsvorm meetbaar te maken zijn. Deze handelingsvaardigheden hangen naar alle waarschijnlijkheid hoog samen met de vaardigheden die in de toetsen zijn geoperationaliseerd. Niettemin is het belangrijk dat de leidster de genoemde handelingsvaardigheden aanvullend evalueert door middel van authentieke observaties. Het doel van het Cito Volgsysteem jonge kind is het volgen van een kind in zijn ontwikkeling. Dat kan optimaal met objectieve en gestandaardiseerde toetsen. De toets Rekenen voor peuters levert snel een goed beeld op van de rekenvaardigheid in deze leeftijdsgroep. Relatie met andere instrumenten Naast Rekenen voor peuters zijn er voor de groepen 1 en 2 van het basisonderwijs de toetsen Rekenen voor kleuters van het Cito Volgsysteem primair onderwijs (voorheen LOVS) beschikbaar. De items uit Rekenen voor peuters en Rekenen voor kleuters liggen op dezelfde schaal. Er is dus sprake van één vaardigheidsschaal die de ontwikkeling van de algemene rekenvaardigheid representeert van peuters (driejarigen) tot en met kinderen in groep 2. Hierdoor is het mogelijk om de ontwikkeling van de algemene rekenvaardigheid bij kinderen vanaf 3 jaar tot en met het einde van groep 2 te volgen in één doorgaande lijn. 7

10 2.2 Doelgroep De toets Rekenen voor peuters is bestemd voor en genormeerd bij driejarige peuters in kinderdagverblijven en peuterspeelzalen in Nederland. De populatieparameters van de toets zijn op twee leeftijdsgroepen bepaald: leeftijdscategorie P1 (vanaf 3 jaar tot 3 ½ jaar: 36 tot 42 maanden) en leeftijdscategorie P2 (vanaf 3 ½ jaar tot 4 jaar: 42 tot 48 maanden). De toets kan daardoor op ieder willekeurig moment in het jaar worden afgenomen, waarbij het telkens mogelijk is om uitspraken te doen over het niveau van de peuter ten opzichte van andere peuters in Nederland die een peuterspeelzaal of kinderdagverblijf bezoeken. Beperkingen De toets Rekenen voor peuters kan in principe afgenomen worden bij alle driejarige peuters die naar een kinderdagverblijf of peuterspeelzaal gaan. Hierbij gelden de volgende uitzonderingen. Het kan raadzaam zijn om nog één of twee maanden te wachten met de afname wanneer een kind pas een korte tijd in een peutergroep zit. Daarnaast heeft het geen zin om de toets voor te leggen aan peuters die de Nederlandse taal helemaal niet beheersen (zie paragraaf 2.1 van de handleiding). Verder is de toets niet geschikt voor kinderen jonger dan 3 jaar. Andere doelgroepen De toets Rekenen voor peuters is niet alleen bedoeld voor peuters in kinderdagverblijven en peuterspeelzalen, maar ook voor kinderen (vanaf 4 jaar) uit het speciaal (basis)onderwijs (bijvoorbeeld IOBK) en voor speciale kinderen in het reguliere onderwijs, voor wie de toetsen Rekenen voor kleuters te moeilijk zijn. De aanwijzingen in de handleiding bij de toetsen gelden wat de principes betreft ook voor gebruik bij speciale kinderen. Er zijn echter enkele onderdelen waarvoor extra aanwijzingen gelden: de keuze van de af te nemen toets, het afnamemoment, en het gebruik van de alternatieve leerlingrapporten. Voor deze leerlingen zijn geen aparte normen opgesteld. Echter, de vaardigheidsscores die met behulp van de gemaakte toets worden vastgesteld, zijn vergelijkbaar met de vaardigheidsverdeling die hoort bij de populatie van reguliere leerlingen uit groep 1 en groep 2 op de afnamemomenten januari-februari en meijuni. Omdat we een doorgaande lijn van driejarige peuters tot en met groep 2 hebben, kunnen we namelijk Rekenen voor peuters afnemen bij een kind van 4 jaar of ouder en het resultaat van het kind op de toets tóch vergelijken met de resultaten van leeftijdsgenootjes. Daarnaast kan het resultaat ook vergeleken worden met de normgroepen van de peuters om zo helder te krijgen op welk niveau de kleuter functioneert. Voor meer informatie daarover verwijzen we naar paragraaf uit deze verantwoording en naar de handleiding bij de toets Rekenen voor peuters (en eventueel de handleiding bij de toetsen Rekenen voor kleuters). 2.3 Gebruiksdoel en functie Rekenen voor peuters heeft twee doelen: niveaubepaling en progressiebepaling. Daarnaast wordt als extra service voor de leidsters de mogelijkheid geboden de door het kind gemaakte fouten te analyseren (m.b.v. het categorieënoverzicht of de categorieënanalyse) met het oog op het aanbieden van gerichte remediëring. Het maken van analyses met het categorieënoverzicht of de categorieënanalyse kent geen wetenschappelijke onderbouwing, maar biedt een toegevoegde functie voor leidsters om opvallende patronen te signaleren. Naast de onderwerpen niveaubepaling, progressiebepaling en signalering via categorieënoverzicht en categorieënanalyse, gaan we aan het eind van deze paragraaf nog in op de onderwerpen vervolgtraject en extra aandacht. 8

11 Niveaubepaling De toetsafnamen in het kader van Rekenen voor peuters geven de leidsters informatie over het niveau van de rekenvaardigheid van de kinderen, individueel of als groep. Iedere behaalde vaardigheidsscore kan daartoe normgericht geïnterpreteerd worden op basis van de vaardigheidsverdeling in een adequate referentiegroep (zie paragraaf 4.2 voor de beschrijving van de referentiegroep). In de toetsmaterialen zijn twee niveau-indelingen opgenomen, waarmee de leidster de scores van een kind kan vergelijken met die van een grote groep en representatieve kinderen. De leidster kan een keuze maken uit: de indeling in de niveaus A tot en met E; de indeling in de niveaus I tot en met V. Bij de indeling in de niveaus A tot en met E is de verdeling over de groepen als volgt: Niveau % Interpretatie A 25 De 25% hoogst scorende kinderen B 25 C 25 D 15 De 25% kinderen die net boven tot ruim boven het landelijk gemiddelde scoren De 25% kinderen die net onder tot ruim onder het landelijk gemiddelde scoren De 15% kinderen die ruim onder het landelijk gemiddelde scoren E 10 De 10% laagst scorende kinderen Bij de indeling in A tot en met E wordt op de overzichten de hoogst scorende groep (niveau A) nog onderverdeeld in twee groepen: een groep die hoog scoort (15% van de kinderen) en een groep die het allerhoogst scoort (10% van de kinderen). Deze groepen worden op de registratieformulieren van elkaar gescheiden door een stippellijn. Bij de indeling in de niveaus I tot en met V wordt uitgegaan van vijf groepen van 20%: Niveau % Interpretatie I 20 Ver boven het gemiddelde II 20 Boven het gemiddelde III 20 De gemiddelde groep kinderen IV 20 Onder het gemiddelde V 20 Ver onder het gemiddelde Bij de indeling in I tot en met V worden op de overzichten de laagst scorende groep en de hoogst scorende groep nog onderverdeeld in twee groepen die ieder 10% kinderen bevatten. Deze groepen worden op de registratieformulieren van elkaar gescheiden door een stippellijn. 9

12 In de eerste generatie van de Cito Volgsystemen (de PVS 1 - en LVS-toetsen) werd alleen de indeling A tot en met E gebruikt. In de praktijk bleek deze enkele nadelen te hebben. Zo is de indeling niet symmetrisch. Bovendien zien sommige leidsters C als de gemiddelde groep. In de indeling A tot en met E bestaat echter geen gemiddelde groep, alleen groepen boven (A, B) of onder (C, D, E) het gemiddelde. Daarom is bij de tweede generatie van het Cito Volgsysteem voor primair onderwijs (voorheen LOVS) en het Cito Volgsysteem voor jonge kinderen (waar de toets Rekenen voor peuters onder valt) een indeling toegevoegd met de niveaus I tot en met V. De indeling in de niveaus I tot en met V is symmetrisch opgebouwd en heeft als voordeel dat er een gemiddelde 2 groep is. Deze indeling sluit aan bij de niveauindeling van andere Cito-toetsinstrumenten, zoals de Entreetoetsen. Progressiebepaling De toets Rekenen voor peuters geeft de leidster informatie over de ontwikkeling van de rekenvaardigheid van de kinderen, individueel of als groep, gedurende het jaar dat de peuter 3 jaar is. De toets geeft antwoord op vragen als: is er sprake van vooruitgang, achteruitgang of van stabilisering? Is de vooruitgang gelet op de gemiddelde vooruitgang in de populatie volgens verwachting? Het gehanteerde meetmodel (zie paragraaf 2.4.2) maakt het mogelijk om de scores van een kind op de toets, op verschillende momenten afgenomen, onderling te vergelijken. De ruwe scores op de toets het aantal opgaven goed zijn daartoe te transformeren in scores op één vaardigheidsschaal (het algemeen niveau van rekenvaardigheid ). Deze unidimensionele vaardigheidsschaal die aan de toets Rekenen voor peuters ten grondslag ligt, is ontwikkeld met behulp van het One Parameter Logistic Model (Verhelst, 1993; Verhelst & Glas, 1995; Verhelst, Glas & Verstralen, 1995). 'Signalering' via categorieënoverzicht of categorieënanalyse Het doel van de toets Rekenen voor peuters is het vaststellen van het algemene niveau van rekenvaardigheid van kinderen. Het kan behulpzaam zijn voor een leidster om te weten welk type opgaven een kind fout gemaakt heeft. Daarom bestaat de mogelijkheid om rapportages te maken waarin de resultaten op categorieniveau worden gerapporteerd. Met behulp van deze rapportages kan gesignaleerd worden of (relatief) veel opgaven uit een bepaalde categorie fout gemaakt worden door het kind. Het signaleren van fouten op categorieniveau kan op twee verschillende manieren gebeuren. Ten eerste kan gesignaleerd worden of een kind vergeleken met andere kinderen veel fouten in een bepaalde categorie maakt. Deze wijze van signaleren wordt gehanteerd in het categorieënoverzicht (m.b.v. de signaalscore). Ten tweede kan gesignaleerd worden of een kind op een bepaalde categorie relatief meer (of minder) fouten maakt dan op grond van zijn of haar algemene vaardigheidsniveau mag worden verwacht. In zekere zin wordt het kind dan met zichzelf vergeleken (zie voor de details van deze werkwijze bijlage 1). Dat gebeurt via de categorieënanalyse. De categorieënanalyse kan alleen gemaakt worden als een leidster de beschikking heeft over het Computerprogramma LOVS. Categorieënoverzicht Zoals gesteld, kan de leidster met behulp van het categorieënoverzicht een beeld krijgen van de vaardigheid van kinderen binnen de verschillende categorieën van de toets. Met dit categorieënoverzicht kan gesignaleerd worden of kinderen laag scoren in een bepaalde categorie. Dit wordt gedaan door het aantal goed op de categorie te vergelijken met een signaalscore. Per normeringsmoment is voor elke categorie een signaalscore berekend. De signaalscore is bepaald door met drie zaken rekening te houden: de verdeling van de vaardigheid, de moeilijkheid van de opgaven én de mogelijke meetfout bij het doen van uitspraken over de categorieën. De signaalscore van een categorie is die score waarbij met ten minste 84% zekerheid (d.w.z, 1 standaardmeetfout onder de vaardigheidsscore) gesteld kan worden dat het kind een score heeft waarmee hij of zij tot de 20% slechtst presterende kinderen behoort binnen de eigen normgroep wat betreft de opgaven binnen deze categorie. 1 PVS staat voor Peutervolgsysteem. LVS staat voor Leerlingvolgsysteem. 2 Gemiddeld moet hier niet opgevat worden in statische zin. De werkelijke gemiddelde ruwe score kan in werkelijkheid behaald worden door kinderen die niet in groep III zitten. 10

13 De signaalscore is berekend door eerst de vaardigheid te bepalen die hoort bij het grenspunt in de verdeling waar 20% van de kinderen onder zit (P20 in de vaardigheidsverdeling). Vervolgens is de standaardmeetfout bepaald bij deze categorie. Deze standaardmeetfout is van het P20-punt afgetrokken, hetgeen het P20 min 1SE -punt voor een categorie oplevert. De signaalscore is nu het maximale aantal goede antwoorden waarmee nog steeds met ten minste 84% zekerheid gesteld kan worden dat het kind bij de 20% slechts presterende kinderen op de betreffende categorie hoort. Als de opgaven gemakkelijk zijn, is dat maximum dus hoger. Deze berekeningen zijn voor de drie categorieën uit de toets uitgevoerd en leveren voor de twee normgroepen van de peuters per categorie de signaalscores op zoals weergegeven in tabel 2.1. Tabel 2.1 Signaalscores per normgroep Categorie Normgroep Getalbegrip Meten Meetkunde P1: jaar P2: jaar Tabel 2.1 laat zien dat een kind van 3 jaar en 2 maanden dat 3 of minder opgaven goed heeft op de categorie Getalbegrip met minimaal 84% zekerheid tot de 20% slechtst presterende kinderen hoort op die categorie. Als dit kind 5 opgaven goed heeft bij Meten dan scoort het kind boven de signaalscore en behoort het op die categorie dan dus niet tot de 20% zwakst scorende kinderen. De kans dat bij een categorie de score van een kind gelijk is aan de signaalscore of lager, is het grootst bij kinderen die een vaardigheidsniveau V (of D of E) hebben. Het behalen van een V-niveau betekent echter niet per definitie dat een kind dan ook op één of meer categorieën een score zal hebben die gelijk is aan of lager dan de signaalscore. Het kan namelijk voorkomen dat een kind over de gehele linie lager presteert en dat dit niet tot uiting komt in het categorieënoverzicht. En andersom, het behalen van een hoger niveau dan niveau V houdt niet in dat een kind op een specifiek onderdeel niet op of onder de signaalscore zou kunnen zitten. Indien de leidster constateert dat een kind op één of meerdere categorieën laag scoort of over de gehele linie lager presteert, dan kan zij gericht kijken hoe zij haar aanbod nog beter kan laten aansluiten op de vaardigheid van het kind. Individuele kinderen die blijk geven van onvoldoende beheersing van één of meerdere categorieën zullen wellicht baat hebben bij extra hulp en gerichte oefeningen (zie ook paragraaf 3.1). Categorieënanalyse Naast het categorieënoverzicht kan met behulp van het Computerprogramma LOVS ook een zogenaamde categorieënanalyse uitgevoerd worden. Daarmee kan nagegaan worden of kinderen op een bepaald onderdeel meer (of minder) fouten maken dan op grond van hun algemene vaardigheidsniveau verwacht mag worden. Bij de rapportage van het verschil tussen waargenomen en verwachte score wordt aangegeven of dat een klein verschil is dat aan toeval kan worden toegeschreven of dat het een betekenisvol verschil is. In feite is de categorieënanalyse dus een statistische procedure waarmee we kijken of we een bepaald patroon kunnen vinden in de resultaten van het kind. Het gaat daarbij om de vraag hoe waarschijnlijk dat patroon is. Gegeven de totaalscore van het kind halen we onwaarschijnlijke patronen eruit. Een onwaarschijnlijk patroon zou bijvoorbeeld kunnen zijn dat het kind op 2 van de 3 categorieën een hoge score haalt en op 1 categorie een lage score (of andersom). In bijlage 1 wordt precies beschreven hoe de categorieënanalyse plaatsvindt. Net als bij het categorieënoverzicht kan de categorieënanalyse als basis gebruikt worden bij het geven van extra hulp. 11

14 Vervolgtraject Naar aanleiding van het resultaat op de totale toets (vaardigheidsscore en niveau) en het invullen van v het categorieënoverzicht en/of de resultaten van dee categorieënanalyse kan de leidster besluiten om verder v te gaan kijken. Omdat het aantal opgaven per categorie in Rekenen voor peuters beperkt is, kan niet worden uitgesloten dat het kind bij toeval juist de opgaven uit deze categorie fout heeft beantwoord. Om meer zekerheid te verkrijgen over de beheersing van de betreffende categorie door dit kind of zijn rekenvaardigheid in het algemeen,, kan de leidster resultaten op toetsen en e observatielijsten die de vaardigheid van het kind op anderee gebieden inn beeld brengen naast de resultaten opp de toets Rekenen voor peuters leggen. Ook de indruk die de leidster zelf van het kind heeft en het verslag van dagelijkse observaties (bijvoorbeeld weergegeven in een kinderdagverblijfboekje of portfolio) geven informatie over het kind en zijn rekenvaardigheid. Als op basis van de verzamelde aanvullende informatie blijkt, dat de rekenvaardigheidd in het algemeen of de beheersing van één of meerdere categorieën inderdaad te wensen overlaat, kan dee leidster hett kind extra hulp en/of oefenmateriaal aanbieden, bijvoorbeeld aan de hand vann het Hulpboek Ordenen of het Hulpboek Ruimte uit het Hulpprogramma Peutervolgsysteem. Extra aandacht De toets Rekenen voor peuters maakt deel uit van een systeem waarbij indien nodig extra aandacht wordt geboden aan kinderenn om ze optimaal te ondersteunen in hun ontwikkeling. Dat systeem bestaat uit materialen die ingezet kunnen worden bij het cyclische proces van ondersteuning op maat: signaleren, analyseren, handelen en terugkoppeling door middel van evaluatie. In paragraaf 4.3 van de handleiding bij de toetss (Op den Kamp, 2010) is een e korte beschrijving opgenomen van de verschillende fasen. Ook vindt men daar beknopte informatie over het Hulpprogramma Peutervolgsysteem. Met de Hulpboeken Ordenen en Ruimte uit dit programma kan dee leidster gericht hulp geven aan een kind om de rekenontwikkeling tee stimuleren. Voor gedetailleerde informatie, zie Van Kuyk (2005). Ondanks de nkadering van de toets in het Hulpprogramma, moet benadrukt worden dat de toets zelf methode-onafhankelijk is. Omdat het in deze verantwoording alleen om o Rekenen voor peuterss gaat, volstaan we hier met een overzichtt van de materialen voor toetsing en extra hulp. Figuur 2..1 Cito-materialen ten behoeve van extra toetsing en hulp 12

15 2.4 Theoretische inkadering Inhoudelijk De basis voor de inhoud van de toets Rekenen voor peuters wordt gevormd door: theorieën over de rekenontwikkeling bij jonge kinderen; het rekenaanbod voor peuters op kinderdagverblijven en peuterspeelzalen; TAL-publicaties (Tussendoelen Annex Leerlijnen) ontwikkeld door het Freudenthalinstituut en Stichting Leerplanontwikkeling (SLO) in samenwerking met het Centrum Educatieve Dienstverlening Rotterdam (CED) (1999; 2004); Tussendoelen en leerlijnen (TULE), ontwikkeld door SLO (2009); de vernieuwde doelen 3 met betrekking tot Ontwikkeling van jonge kinderen 2-7 jaar: Rekenontwikkeling (SLO, 2011). In deze paragraaf gaan we eerst in op de rekenontwikkeling van jonge kinderen (zie paragraaf ). Van leidsters wordt verwacht dat ze de rekenontwikkeling van kinderen stimuleren. Daarom gaan we vervolgens in paragraaf nader in op de rekendoelen voor jonge kinderen. De doelen opgesteld door SLO beschrijven waarmee kinderen begin groep 1 ervaring opgedaan moeten hebben. We geven aan welke doelen met de toets Rekenen voor peuters kunnen worden geëvalueerd. In paragraaf wordt uitgewerkt hoe dit er op operationeel niveau uitziet. In paragraaf stippen we kort aan hoe het rekenaanbod in de peutergroepen eruit ziet Rekenontwikkeling In de voorschoolse periode ontwikkelt de reken-wiskundige kennis van kinderen zich op een persoonlijke wijze die sterk is verbonden met de eigen leefomgeving (Treffers, Van den Heuvel-Panhuizen & Buys, 1999). Kinderen proberen grip te krijgen op hun eigen leefomgeving. Door te ordenen, vergelijken en meten wordt de wereld voor het kind overzichtelijker. Kinderen doen dit van nature en hebben plezier in ontdekken, imiteren en probleem oplossen (Singer, 2009). Tot de leeftijd van ongeveer 7 jaar verwerven jonge kinderen al veel rekengerelateerde deelvaardigheden. Bijvoorbeeld de vier traditionele rekenvoorwaarden conserveren, correspondentie, classificatie en seriatie, gebaseerd op de voorwaarden vormgegeven door Piaget in de jaren zestig. Conserveren is het doorzien dat dingen hetzelfde blijven, ook al verandert de verschijningsvorm. Bijvoorbeeld acht blokjes blijven acht blokjes ook al leg je ze verder uit elkaar of dichter bij elkaar. Een peuter zal zeggen dat er meer of minder blokjes liggen, terwijl er evenveel liggen. Correspondentie, is de vaardigheid om één-één-relaties te leggen, bijvoorbeeld bij elk bord één mes en één servetje. Classificatie is het kunnen ordenen op grond van een bepaald kenmerk (zoals kleur, aantal, grootte) en het kunnen afzien van andere concrete eigenschappen van de voorwerpen die geordend worden. Bijvoorbeeld het aanleggen van een blauwe verzameling: grote blauwe blokken, kleine blauwe kralen, zachte blauwe watten enzovoort. Het gaat dan alleen om de eigenschap blauw. Seriëren is het aanbrengen van allerlei rangordes, bijvoorbeeld van klein naar groot of van zwaar naar licht. 3 In de handleiding en inhoudsverantwoording Rekenen voor peuters wordt gesproken over tussendoelen, ontwikkeld door SLO. In de definitieve uitgave van deze doelen (2011) wordt er gesproken van beheersingsdoelen en ervaringsdoelen. 13

16 Deze vier traditionele voorwaarden zijn van belang voor het logisch leren denken. Daarnaast is tellen een belangrijke voorwaarde voor getalbegrip en rekenen. De ontwikkeling van het tellen verloopt in stappen: Het willekeurig opzeggen van de telrij. Asynchroon tellen: het aanwijzen en akoestisch tellen. Hierbij worden nog voorwerpen overgeslagen, dubbel geteld of het aanwijstempo en teltempo verschilt. Synchroon tellen: tellen volgens de gekozen volgorde. Het kind telt elk voorwerp als 1 erbij en slaat niets meer over. Resultatief tellen: het kind kan na het tellen zeggen hoeveel het geteld heeft. Kinderen die dat nog niet kunnen, beginnen opnieuw te tellen als je vraagt: hoeveel knikkers liggen daar? Abstractieprincipe: het kind kan iedere volgorde tellen, het kan ook verkort tellen en ziet deelgeheelrelaties. Hierbij leert het kind de vijfstructuur kennen, het grootste aantal dat het kind aanvankelijk in één keer kan overzien. Ordinaalprincipe: het kind kan de volgorde aangeven (dat is de vierde stoel). Peuters zijn zich volgens Van Luit (2009) al bewust van hoeveelheden en hebben al een notie van het benoemen van aantallen voorwerpen. Door het verwerven van de rekengerelateerde deelvaardigheden krijgen kinderen geleidelijk steeds meer besef van de gecijferde wereld. Dit wordt ook wel het proces van ontluikende gecijferdheid (bij peuters) en beginnende gecijferdheid (bij kleuters) genoemd. Tijdens dit proces krijgen de kinderen steeds meer besef van de verschillende betekenissen, verschijningsvormen en gebruiksmogelijkheden van getallen. Hierin gaan ze steeds meer samenhang ontdekken (3 kan 3 jaar zijn of 3 rozijntjes, maar ook bus 3 of een tekst van een liedje van je één, twee, drie! ). Naast het omgaan met getallen en hoeveelheden is er de laatste tijd meer aandacht voor de wiskundige aspecten meten en meetkunde. Het meten is volgens Van den Heuvel-Panhuizen & Buys (2004) gericht op het meetbaar maken (kwantificeren) van de fysieke omgeving. Bij peuters en kleuters gaat het hierbij eerst om het vergelijken van concrete voorwerpen (Welke is het grootst?). Op latere leeftijd wordt gebruik gemaakt van meetgetallen, bijvoorbeeld om een gewicht (1 kilo) aan te geven. Bij meetkunde gaat het om het begrijpen van de drie- en tweedimensionale wereld om ons heen en de bijbehorende figuren en vormen. De oriëntatie in de ruimte ontwikkelt zich vanuit het eigen lichaam. Het lichaam is het referentiepunt van waaruit relaties worden gelegd (Ik sta voor de kast). Langzamerhand neemt het kind afstand van zichzelf en leert dat er ook andere referentiepunten bestaan (De kast staat naast de tafel). Kinderen maken zich voorstellingen van eigenschappen van vormen en construeren bouwwerken met vormen in de ruimte (bouwen met zand of blokken). De rekenvaardigheid ontwikkelt zich bij kinderen in een verschillend tempo. Dit komt door verschil in intelligentie of omdat bijvoorbeeld niet elk kind even geïnteresseerd is in alles wat met getallen te maken heeft. Ook verschilt de leefomgeving van het ene kind van die van het andere (Treffers et al., 1999). Daarnaast zijn er ook andere factoren die de ontwikkeling van het getalbegrip en van het tellen beïnvloeden. Zo hebben kinderen die moeite hebben met onthouden ook vaak meer moeite met het leren van de telrij (Van Luit, 2009). Om de ontwikkeling van de rekenvaardigheid zo goed mogelijk te kunnen stimuleren, kunnen leidsters de beschrijving van de doelen die door SLO zijn opgesteld gebruiken Tussendoelen en leerlijnen Het TAL-team (1999; 2004) heeft tussendoelen en leerlijnen geformuleerd voor de onderbouw van het basisonderwijs, ingedeeld in de domeinen Getalbegrip, Meten en Meetkunde. Hierin staat beschreven hoe (op welk wijze) en wanneer (op welke momenten en in welke achtereenvolgende stappen) rekendoelen (kennis, strategieën en houdingen) bij kleuters bereikt kunnen worden (Greven & Letschert, 2006). In 2010 zijn op verzoek van het ministerie van OCW door SLO nieuwe doelen ontwikkeld met betrekking tot de rekenontwikkeling van jonge kinderen van twee tot zeven jaar in de voor- en vroegschoolse situatie (definitieve uitgave 2011). De functie van deze doelen is om het inhoudelijk repertoire van leidsters en leerkrachten te vergroten c.q. te versterken, zodat zij inhoudelijk verantwoorde keuzes kunnen maken en uitvoeren om een kwalitatief hoogstaand aanbod aan jonge kinderen te bieden, zowel aan kinderen met een achterstand als aan kinderen met een ontwikkelingsvoorsprong. 14

17 Ook zijn deze nieuwe doelen ingedeeld in de domeinen Getalbegrip, Meten en Meetkunde en geven de doelen aan waar leidsters in de voorschoolse educatie aan kunnen werken om de kinderen goed aan de basisschool te laten beginnen. De doelen zijn voor peuters niet als beheersingsdoelen, maar als ervaringsdoelen geformuleerd. Er wordt namelijk geformuleerd met welke rekenvaardigheid kinderen voor aanvang van groep 1 ervaring moeten hebben opgedaan, zie tabel 2.2. Tabel 2.2 Domeinen en doelen Domein Getalbegrip Doelen Omgaan met de telrij Omgaan met hoeveelheden Omgaan met getallen Meten Lengte & omtrek Inhoud Tijd Meetkunde Oriënteren en lokaliseren Construeren Opereren met vormen en figuren Deze doelen kunnen als richtlijn gebruikt worden bij het werken met peuters. In de praktijk zullen de doelen en subdoelen, zeker bij jonge kinderen, in onderlinge samenhang aan bod komen in contextrijke en betekenisvolle activiteiten. Jonge kinderen ontwikkelen zo op een natuurlijke manier hun inzichten op dit gebied. Dekking van de doelen In de toets Rekenen voor peuters worden de drie domeinen Getalbegrip, Meten en Meetkunde geoperationaliseerd in opgaven. Deze domeinen worden in de toets aangeduid als categorieën. De opgaven van de toets zijn evenwichtig over de categorieën verdeeld. Ieder domein heeft meerdere onderliggende doelen, zoals Lengte & omtrek binnen het domein Meten (zie tabel 2.2). Deze doelen worden gemeten met de opgaven in de toets. Uitzondering hierbij wordt gevormd door de doelen Omgaan met de telrij, Omgaan met getallen en tijd. Deze worden niet gemeten met de toets Rekenen voor peuters. De opgavenvormen uit Rekenen voor peuters zijn namelijk niet geschikt om deze tussendoelen te meten bij peuters. Binnen deze doelen zijn verschillende aspecten van rekenen te onderscheiden. Een voorbeeld hiervan binnen het domein Meten en het doel Lengte & omtrek is: het vergelijken en ontdekken van tegenstellingen, met passief gebruik van begrippen (grootste-kleinste, langste-kortste). Deze aspecten van rekenen zijn ook geoperationaliseerd in de opgaven van de toets. Een aantal aspecten van de doelen kunnen niet via Rekenen voor peuters getoetst worden, maar bijvoorbeeld wel via observaties (zoals tijdens het bouwen en handelen met blokken) Het rekenaanbod in kinderdagverblijven en peuterspeelzalen De toets Rekenen voor peuters is methode-onafhankelijk. Wel is het belangrijk dat de toets aansluit op het rekenaanbod in kinderdagverblijven en peuterspeelzalen. De rekendoelen, geformuleerd door de SLO (2011) vormen een richtlijn voor het werken met peuters. In het aanbod op kinderdagverblijven en 15

18 peuterspeelzalen wordt regelmatig aandacht besteed aan rekengerelateerde deelvaardigheden en ontluikende gecijferdheid. Dit gebeurt spontaan bijvoorbeeld tijdens het samenspelen of zingen, maar ook via VVE-programma s. Veelgebruikte VVE-programma s (zoals bijvoorbeeld Piramide en Puk & Ko) beschrijven op hun websites dat ze veel aandacht aan het ontwikkelingsgebied Rekenen besteden en aan de tussendoelen. Deze programma s zijn opgenomen in de databank effectieve jeugdinterventies van het NJI en voldoen in theorie aan de kwaliteitseisen die het ministerie van OC&W aan VVE-programma s stelt. Eén van deze eisen is dat de methode de rekenontwikkeling moet stimuleren (Wet OKE) Psychometrisch Opgavenbanken voor jonge kinderen en het primair onderwijs Voor het samenstellen van toetsen voor kinderdagverblijven, peuterspeelzalen en het primair onderwijs beschikt Cito over opgavenbanken. Die liggen ten grondslag aan onder meer de Volgsystemen (Cito Volgsysteem jonge kind, Cito Volgsysteem primair onderwijs, de Entreetoetsen, Eindtoets basisonderwijs). Voor de constructie van de toets Rekenen voor peuters hebben we gebruikgemaakt van de opgavenbank Rekenen voor peuters en kleuters. Ook voor andere vakgebieden, bijvoorbeeld bij het volgsyteem Taal voor peuters en kleuters, zijn opgavenbanken in gebruik. Een opgavenbank is nadrukkelijk niet zomaar een verzameling opgaven of items waaruit een toetsconstructeur min of meer naar willekeur een aantal items selecteert om een nieuwe toets te construeren. We geven hier kort aan wat de vereisten zijn om van een deugdelijke en psychometrisch goed gefundeerde opgavenbank te kunnen spreken. Unidimensionaal continuüm Het algemene uitgangspunt is dat de vaardigheid rekenen kan worden opgevat als een unidimensionaal continuüm (de reële lijn), en dat elk kind voorgesteld kan worden als een punt op die lijn, met andere woorden: als een getal. Het getal drukt de mate van rekenvaardigheid uit, waarbij een groter getal wijst op een grotere rekenvaardigheid. Het doel van de meetprocedure het afnemen van een toets is de plaats van het kind op dit continuüm zo nauwkeurig mogelijk te bepalen. De uitkomst van de meetprocedure bestaat strikt genomen uit twee grootheden. De eerste is de schatting van de plaats van het kind op het vaardigheidscontinuüm. De tweede grootheid geeft aan hoe nauwkeurig die schatting is, en heeft dus de status van een standaardfout, te vergelijken met de standaardmeetfout uit de klassieke testtheorie. Latente vaardigheid De antwoorden die een kind op de opgaven geeft, worden beschouwd als indicatoren van de vaardigheid, hetgeen ruwweg betekent dat men verwacht dat alle items in de bank rekenvaardigheid meten. De vaardigheid zelf wordt als niet-observeerbaar beschouwd, en daarom gewoonlijk omschreven als een latente vaardigheid. Moeilijkheid in de Item Respons Theorie Hoewel items dezelfde vaardigheid meten, kunnen ze toch systematisch van elkaar verschillen. Het belangrijkste verschil tussen de items is hun moeilijkheidsgraad. In de klassieke testtheorie wordt moeilijkheidsgraad uitgedrukt met een zogenaamde p-waarde, de proportie correcte antwoorden op het item in een welbepaalde populatie van kinderen. In de Item Respons Theorie (IRT) die voor het construeren van de opgavenbanken werd gebruikt, hanteert men echter een andere definitie van moeilijkheid: ruwweg gesproken is het de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden. 4 Ontwikkelingskansen door kwaliteit en educatie, 1 augustus

19 Dit verschil in definitie van de moeilijkheidsgraad tussen klassieke theorie en IRT is uitermate belangrijk: men kan verwachten dat de p-waarde van een item voor kinderen in leeftijdscategorie P2 groter zal zijn dan in leeftijdscategorie P1, waardoor duidelijk wordt dat de p-waarde een relatief begrip is: ze geeft de moeilijkheid aan van een item in een bepaalde populatie. Binnen de IRT is de moeilijkheid van een item gedefinieerd in termen van de onderliggende vaardigheid, zonder enige referentie naar een bepaalde populatie van kinderen. Zo kan men ook de uitspraak begrijpen dat in de IRT vaardigheid en moeilijkheid op eenzelfde schaal liggen. Kansmodel De ruwe omschrijving van de moeilijkheidsgraad die in de vorige alinea werd gehanteerd (de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden) behoeft enige verdere uitwerking. Men zou deze omschrijving kunnen opvatten als een drempel: heeft een kind die mate van vaardigheid niet, dan kan hij het item niet juist beantwoorden; heeft hij die drempel wel gehaald, dan geeft hij (gegarandeerd) het juiste antwoord. Deze interpretatie weerspiegelt een deterministische kijk op het antwoordgedrag van het kind, die echter in de praktijk geen stand houdt, omdat eruit volgt dat een kind dat een moeilijk item correct beantwoordt geen fout kan maken op een gemakkelijk item. Daarom wordt in de IRT een kansmodel gebruikt: hoe groter de vaardigheid, des te groter de kans dat een item juist wordt beantwoord. De moeilijkheidsgraad van een item wordt dan gedefinieerd als de mate van vaardigheid die nodig is om met een kans van precies een half een juist antwoord te kunnen produceren. Kalibratie In het voorgaande zijn nogal wat veronderstellingen ingevoerd (unidimensionaliteit; alle items zijn indicatoren voor dezelfde vaardigheid; kansmodel) die niet zonder meer voor waar kunnen worden aangenomen; we zullen methoden moeten bedenken om aan te tonen dat al die veronderstellingen deugdelijk zijn. Dit aantonen gebeurt met statistische gereedschappen waarop we in het vervolg dieper zullen ingaan. Maar voor we de items in een toets kunnen gebruiken, moeten we ook proberen de waarden van de moeilijkheidsgraden te achterhalen. Dit gebeurt met een statistische schattingsmethode die wordt toegepast op de itemantwoorden die bij een steekproef van kinderen zijn verzameld. Het hele proces van moeilijkheidsgraden schatten en verifiëren of de modelveronderstellingen houdbaar zijn, wordt kalibratie of ijking genoemd; de steekproef van kinderen die hiervoor wordt gebruikt noemen we kalibratiesteekproef. Afnamedesigns Een opgavenbank bevat meer items dan een doorsnee toets. Meestal is het praktisch niet doenbaar om alle items aan alle kinderen voor te leggen. Elk kind in de kalibratiesteekproef krijgt derhalve slechts een (klein) gedeelte van de items uit de opgavenbank voorgelegd. Dit gedeeltelijk voorleggen moet met de nodige omzichtigheid gebeuren. In hoofdstuk 4 wordt ingegaan op het afnamedesign dat voor de kalibratie van de rekenopgaven is gebruikt. Belangrijke implicaties gekalibreerde opgavenverzameling Als we erin slagen de kalibratie met succes uit te voeren, houden we een zogenaamde gekalibreerde itembank over. In dat proces worden de items die niet passen bij de verzameling uit de collectie verwijderd. De opgavenbank bevat voor elk item niet alleen zijn feitelijke inhoud, maar ook zijn psychometrische eigenschappen, en de statistische zekerheid dat alle items dezelfde vaardigheid aanspreken. Dit houdt onder meer het volgende in: In principe kunnen we met een willekeurige selectie items uit de bank de vaardigheid meten bij een willekeurig kind. In principe, want een willekeurige toets die uit de itembank wordt getrokken zal in de praktijk meestal niet voldoen omdat het meetresultaat (de schatting van de vaardigheid) onvoldoende nauwkeurig zal zijn. Willen we een nauwkeuriger meting (bij een gegeven aantal items in de toets) dan zullen we de moeilijkheidsgraden van de items in overeenstemming moeten brengen met het vaardigheidsniveau van de kinderen. We kunnen een schatting maken van de verdeling van de vaardigheid in een welomschreven populatie, door selecties van items voor te leggen aan aselecte steekproeven van kinderen uit populaties die van belang zijn voor de normering. In het geval van de toets Rekenen voor peuters zijn 17

20 dat steekproeven van kinderen uit de verschillende leeftijdscategorieën P1 en P2. Daarbij maakt het, behoudens wat bij het vorige punt is vermeld over nauwkeurigheid, niet uit welke selectie van items aan een kind binnen een normeringsgroep wordt afgenomen. Een van de eigenschappen van gekalibreerde itembanken is immers dat met elke selectie items de vaardigheid van kinderen kan worden bepaald. In de praktijk komt dit meestal neer op het schatten van gemiddelde en standaardafwijking in de veronderstelling dat de vaardigheid normaal verdeeld is. Met deze schattingen kunnen dan ook schattingen gemaakt worden van de percentielen in de populatie. In het kalibratie- en normeringsonderzoek van de toets Rekenen voor peuters hebben we ook de toets Rekenen voor kleuters meegenomen. Dit houdt in dat we een set met items die voor driejarige peuters bedoeld zijn, niet alleen hebben afgenomen bij driejarige peuters, maar deels ook bij kinderen uit groep 1. Tevens hebben we een deel van de items die bedoeld zijn voor groep 1 ook bij driejarige peuters afgenomen. Bij de analyse van de resultaten bleek dat we de peuteritems op dezelfde schaal konden plaatsen als de kleuteritems. De itembank bevat dus zowel peuter- als kleuteritems. Ook bij kinderen die niet tot de betreffende referentiepopulatie van driejarige peuters behoren, maar die ouder zijn, is het zinvol om de toets Rekenen voor peuters voor te leggen, indien de toetsen Rekenen voor kleuters nog te moeilijk zijn voor deze kinderen. Er is één vaardigheidsschaal gemaakt voor de toetsen Rekenen voor peuters en Rekenen voor kleuters. De toetsscore op deze toetsen wordt omgezet in een schatting van de vaardigheid. Deze schatting kan geplaatst worden in de vaardigheidsverdeling van de populatie waar het kind qua leeftijd het beste bij past. Een leerling met achterstand in groep 1 kan bijvoorbeeld de toets Rekenen voor peuters maken en zijn vaardigheidsschatting kan behalve met de populatie van zijn eigen groep (bijvoorbeeld in groep 1) op een bepaald afnamemoment (midden of eind) vergeleken worden met de populatie van oudste peuters (P2) met bijvoorbeeld de uitspraak: De vaardigheid van deze leerling komt overeen met de mediane vaardigheid van peuters in leeftijdscategorie P2. Immers, het kalibratie-onderzoek heeft laten zien dat alle items dezelfde vaardigheid meten. Met de toetsen Rekenen voor peuters en Rekenen voor kleuters meten we dus dezelfde vaardigheid, zodat schattingen die van verschillende toetsen afkomstig zijn zinvol met elkaar kunnen worden vergeleken Het gehanteerde meetmodel In het normeringsonderzoek is gebruikgemaakt van een op de itemresponstheorie (IRT) gebaseerd meetmodel. Dergelijke modellen verschillen in een aantal opzichten nogal sterk van de klassieke testtheorie (Verhelst, 1993; Verhelst & Kleintjes, 1993; Verhelst en Glas, 1995). Bij de klassieke testtheorie staan de toets en de toetsscore centraal. Het theoretisch belangrijkste begrip in deze theorie is de zogenaamde ware score, de gemiddelde score die de persoon zou behalen indien de test een oneindig aantal keren onder dezelfde condities zou worden afgenomen. Deze klassieke testtheorie zou in dit onderzoek niet gebruikt kunnen worden, aangezien het normeringsonderzoek van de rekentoetsen een onvolledig design betrof: niet alle kinderen hadden alle opgaven gemaakt. Het gebruik van het IRT-model heeft enkele belangrijke voordelen. Op de eerste plaats kunnen de populatieschattingen onafhankelijk van de schattingen van de itemparameters plaatsvinden. Dat heeft voordelen bij het wegen van de verschillende groepen om te zorgen dat de steekproef geheel overeenkomstig de populatieverdeling is. Daarna kan met deze populatieverdeling en kennis over de itemparameters precies bepaald worden welke de item- en toetskarakteristieken zijn voor de populatie. Voor een overzicht van meer voordelen van IRT boven klassieke testtheorie wordt verwezen naar Hambleton, Swaminathan en Rogers (1991). In de IRT staat het te meten begrip of de te meten eigenschap centraal. De IRT beschouwt het antwoord op een item als een indicator voor de mate waarin die eigenschap aanwezig is. Het verband tussen eigenschap en itemantwoord is van probabilistische aard en wordt weergegeven in de zogenaamde itemresponsfunctie. Die geeft aan hoe groot de kans is op een correct antwoord als functie van de onderliggende eigenschap of vaardigheid. Formeler: zij X i de toevalsvariabele die het antwoord op item i voorstelt. X i neemt de waarde 1 aan in geval van een correct antwoord en 0 in geval van een fout antwoord. 18

21 Als symbool voor de vaardigheid kiezen k we θ (theta). We wijzen erop datt θ niet rechtstreeks observeerbaar is. Dat zijn alleen de antwoorden op de opgaven. Dat is de reden waaromm θ een 'latente' variabele wordt genoemd 5. De itemresponsfunctie f i (θ) is gedefinieerd als een conditionele kans: (2.1) Een IRT-modespecifieke functionelee vorm wordt toegekend. t Een eenvoudig en zeer populair voorbeeld is het is een speciale toepassing van (2.1) waarbij aan de functie f i (θ) een meer of minder zogenaamde Raschmodel (Rasch,, 1960) waarin f i (θ) gegeven is door (2.2) waarin β i de moeilijkheidsparameter van item i is. Dat is een onbekende grootheid g die geschat wordt uit de observaties. De grafiek van (2.2) iss weergegeven in figuur 2.2 voor twee items, i en j, die in moeilijkheid verschillen. Deze figuur illustreert dat de itemresponsfunctie een stijgende functie is van θ: hoe groter de vaardigheid, des te groter de kans op een juist antwoord. Indien de latente vaardigheidd precies gelijk is aan de moeilijkheidsparameter β i, krijgen we (2.3) Daaruit volgt onmiddellijk een interpretatie voor r de parameter β i : het is de 'hoeveelheid' vaardigheid die nodig is voor de kans van precies een half om het item i juist te beantwoorden. Uit de figuur blijkt duidelijk dat voor item j een grotere vaardigheid nodig is om diezelfdee kans te bereiken, maar dit is hetzelfdee als te zeggen dat item j moeilijker is dan item i. We kunnen de parameter β i duss terecht omschrijven als de moeilijkheidsparameter van item i. De implicatiee van het bovenstaande iss dat 'moeilijkheid' en 'vaardigheid' op dezelfde schaal liggen. Figuur 2..2 Twee itemresponscurven in het Rasch model 5 Dit maakt duidelijk waarom men de modellen die ressorteren onder de IRT, I ook wel aanduidt met 'latente trek'-modellen. 19

22 Formule (2.2) is geen beschrijving van de werkelijkheid, het is een hypothese over de werkelijkheid die getoetst kan worden op haar houdbaarheid. Hoe zo n toetsing grofweg verloopt, is te verduidelijken aan de hand van figuur 2.2. Daaruit blijkt dat, voor welkk vaardigheidsniveau dan ook, de kanss om item j juist te beantwoorden steedss kleiner is dan de kans opp een juist antwoord op itemm i. Daaruit volgt de statistisch te toetsen voorspelling dat de verwachte proportiee juiste antwoorden op itemm j kleiner is dan op item i in een willekeurige steekproef van personen. Splitst men nu een grote steekproef in twee deelsteekproeven, een laaggroep, met de vijftig procent laagste scores, en een hooggroep, met de vijftig procent hoogste scores, dan kan men nagaan of de geobserveerde p-waarden van de opgaven inn beide deelsteekproeven op dezelfde wijze geordend zijn. Daarvan kan strikt genomen alleen sprake zijn als, in termen van de klassieke testtheorie uitgedrukt, alle opgaven eenzelfde discriminatie-index hebben. Dat echter blijkt lang niet altijd zo te zijn. Ook in het geval van de rekentoetsen niet. Veel van de items blijken dan ook niet te kunnenn worden beschreven met het Raschmodel. Daarom is bijj dit instrument gekozen voor een ander IRT-model.. Alvorens het hier gebruikte model te introduceren, is eerst een kanttekening nodig bij het schatten van de moeilijkheidsparameters in het Raschmodel. Een vaak toegepaste schattingsmethodee is de conditionele grootste aannemelijkheidsmethode (in het Engels: Conditional Maximumm Likelihood, verder aangeduid als CML). Die maakt gebruik van het feit f dat in het Raschmodel een afdoende steekproefgrootheid (sufficient statistic) bestaat voor de latente variabele θ, namelijk de ruwe score of het aantal correct beantwoorde items. Dat betekent grofweg dat, indien de itemparameters bekend zijn, alle a informatiee die het antwoordpatroon over de vaardigheid bevat, kan worden samengevat in de d ruwe score; het doet er dan verder niet meer toe welke opgaven goed en welke fout zijn gemaakt. Hieruit vloeit voort dat de conditionele kans op een juist antwoord op item i, gegeven de ruwe score, een functiee is die alleenn afhankelijk is van de itemparameters en onafhankelijk van v de waardee van θ 6. De CML-schattingsmethode maakt van deze functie gebruik. Deze methode maakt geen enkele veronderstelling over de verdeling van de vaardigheid in de populatie, en is ook onafhankelijk van de wijze waarop de steekproef is getrokken. De CML-schattingsmethodlogistisch model (One Parameter Logistic Model, afgekort: OPLM) is CMLL mogelijk. Dit model is, anders dan het Raschmodel, wel bestand tegen omwisseling van proporties juist in verschillende steekproeven (Glas & Verhelst, 1993; Eggen, 1993; Verhelst & Kleintjes, 1993). De itemresponsfunctie van het OPLM is is echter niet bij elkk meetmodel toepasbaar. In het zogenaamde éénparameter gegeven door (2.4) waarin a i de zogenaamde discriminatie-index van het item is. Door deze indices te beperken tot (positieve) gehele getallen, en door ze a priori als constanten in te voeren, is het mogelijk CML-schattingen van de itemparameters β i te maken. In figuur 2.3 is de itemresponscurve weergegeven van twee items i en j, die even moeilijk zijn maar verschillend discrimineren. 6 Een gedetailleerde uiteenzetting hierove kan men vinden in Verhelst,