Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 van het basisonderwijs meting 2010

Jaarlijks Peilingsonderzoek naar het Onderwijsniveau Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 van het basisonderwijs meting 2010 Een beknopt verslag B.T. Hemker, J. Kordes en J.J. van Weerden Samenvatting In dit rapport wordt verslag gedaan van de derde jaarlijkse peiling van de rekenen taalvaardigheid in groep 4 en 8. Vergelijken we de prestaties van 2010 met die van 2009, dan blijken de leerlinge in groep acht een kleine vooruitgang in zowel taal, als rekenen te hebben geboekt. Het verschil is bij alle zes meetschalen significant. Ook de leerlingen in groep 4 behalen over de hele linie hogere prestaties dan in 2009, maar de vooruitgang is hier slechts bij twee van de vier rekenonderdelen significant en bij geen enkele taalonderdeel. De verschillen zijn allemaal te klein in termen van effectgrootte om betekenisvol te mogen worden genoemd. We vinden de gebruikelijke verschillen tussen jongens en meisjes, waarbij meisjes in de taalonderdelen beter presteren en de jongens beter in de rekenonderdelen. Uitzondering is daarbij het taalonderdeel Woordenschat: daarin zijn de jongens evengoed als de meisjes. Verder vallen enkele minder voor de hand liggende effecten op. De prestaties in Spelling en Technisch lezen zijn in scholen met veel allochtone achterstandsleerlingen beter dan in scholen met vooral autochtone achterstandsleerlingen. Door een verandering in de definitie van de gewichtenregeling is een vergelijking van jaar op jaar lastig geworden, maar vooralsnog lijkt het erop dat de verschillen tussen leerlingen met gewicht 0.30 en 1.20 zeer klein moeten worden genoemd. Alleen bij Woordenschat in groep 4 en bij Getal en getalsrelaties in groep 8 zijn er evidente verschillen. Het verschil tussen leerlingen met een gewicht en zonder is wel nagenoeg overal significant en met een betekenisvolle effectgrootte (uitgezonderd bij Technisch lezen in groep 4 en Spelling in groep 8). Inleiding In het kader van de kwaliteitsagenda Scholen voor morgen is in 2008 het Jaarlijks Peilingsonderzoek van het Onderwijsniveau (JPON) van start gegaan. Dit jaarlijkse onderzoek is gericht op het monitoren van het onderwijsniveau op het gebied van taal- en rekenvaardigheid in het basisonderwijs. In 2008 is verslag gedaan van de eerste jaarlijkse niveaupeiling van taal en rekenen in groep 8 en 4 (Hemker & Van Weerden, 2008). De voor u liggende samenvatting bevat een beknopt verslag van de derde peiling van de taal- en rekenvaardigheid die in 2010 is uitgevoerd in groep 8 en 4. 1 Vraagstelling en aanpak 1.1 Vraagstelling Het belangrijkste doel van JPON is het nauwkeurig vaststellen van veranderingen in de taal- en rekenvaardigheden van leerlingen in groep 8 en 4 van het basisonderwijs. Daarnaast is het doel na te gaan in hoeverre de prestatieverschillen tussen bepaalde groepen leerlingen en scholen gelijk zijn gebleven dan wel groter of kleiner zijn geworden. 1.2 Wat is er gemeten? Uit overwegingen van efficiëntie en kosten zijn voor de jaarlijkse niveaupeilingen overwegend gegevens gebruikt die toch al door scholen worden verzameld. Voor de meting van de taal- en rekenvaardigheid in groep 8 zijn dat de eerder verzamelde gegevens uit de Eindtoets Basisonderwijs 2009. Daarnaast is Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2011) 1

gebruikgemaakt van gegevens verzameld met de bijbehorende Niveautoets, het zogeheten boekje Extra, de ankertoets en de Inhaaltoets. Voor taal betreft het de onderdelen Begrijpend lezen, Spelling en Woordenschat. Bij rekenen gaat het om de onderdelen Getallen en bewerkingen, Breuken procenten en verhoudingen en Meten, tijd en geld. In groep 4 is gebruik gemaakt van toetsen van het Cito Volgsysteem (LOVS). Voor taal is gekozen voor dezelfde onderdelen als in groep 8, aangevuld met Technisch Lezen. Bij rekenen worden er vier onderdelen onderscheiden in plaats van drie, namelijk Getallen en getalsrelaties, Optellen en aftrekken, Vermenigvuldigen en delen en Meten, tijd en geld. Een steekproef van scholen is gevraagd om gegevens te leveren voor deze toetsen. In beide gevallen is gebruik gemaakt van een steekproefprocedure, zodat de resultaten als representatief mogen worden gezien voor het niveau in Nederland op de beide meetmomenten. De steekproeven verschilden wel in grootte. Bij groep 8 gaat het om 140.700 leerlingen, bij groep 4 om 2.482 leerlingen. Behalve de genoemde taal- en rekenvaardigheden zijn o.a. de volgende achtergrondkenmerken in het onderzoek betrokken: Geslacht; Leertijd: leerlingen die al of niet eens hebben gedoubleerd; Formatiegewicht: gewicht van de leerling voor de formatieregeling op grond van opleiding en herkomst (alleen oude regeling) van de ouders Thuistaal: Nederlands gesproken, een andere taal of een combinatie; Stratum: schoolindeling op basis van de verdeling in formatiegewichten van de leerlingen. 1.2 Hoe is er geanalyseerd? Hieronder geven we beknopt weer hoe we de resultaten van 2010 hebben vergeleken met die van 2009. Voor een uitgebreide technische verantwoording van de steekproef, de gebruikte toetsen, de statistische analyse en de rapportage wordt verwezen naar de technische rapportages (Hemker & Van Weerden, 2009; Hemker, Kuhlemeier en Van Weerden, 2010; Hemker, Kordes & Van Weerden, 2011). Vergelijking tussen 2010, 2009 en 2010 Om de vaardigheden van de verschillende jaren direct met elkaar te kunnen vergelijken, moet er aan ten minste twee voorwaarden zijn voldaan: A. De vaardigheden moeten op dezelfde schaal gemeten zijn; B. De samenstelling van de responsgroep mag niet gewijzigd zijn (bijvoorbeeld meer of minder vertraagde leerlingen bevatten). Aan voorwaarde A is voldaan als de steekproef van 2010 precies dezelfde toetsen heeft gemaakt als de eerdere steekproeven. Voor leerjaar 4 is aan deze voorwaarde voldaan, aangezien de leerlingen in beide gevallen ongewijzigde toetsen uit het reguliere LOVS hebben gemaakt. De voor leerjaar 8 gebruikte Eindtoets Basisonderwijs wordt echter ieder jaar volledig ververst. Wij hebben de vergelijkbaarheid echter kunnen waarborgen doordat de achtstegroepers telkens een aantal extra opgaven zijn voorgelegd (namelijk ankertoetsen en het zogeheten toetsboekje Extra), die wel over de jaren heen ongewijzigd zijn gebleven.. Met behulp van een speciale analysetechniek - een zogeheten itemresponse model - konden de prestaties van de verschillende toetsen op dezelfde meetschaal met elkaar worden vergeleken (vgl. Hemker, Kordes & Van Weerden, 2011). Aan voorwaarde B is voldaan als de samenstelling van responsegroep in 2010 vergelijkbaar is met die in voorgaande jaren. Veranderingen in de samenstelling van een responsgroep kunnen een gevolg zijn van zogenaamde steekproeffluctuaties en echte veranderingen in de samenstelling van de populatie. Het probleem van steekproeffluctuaties zal zich voor groep 8 niet zo gauw voordoen. Er is namelijk in elk jaar een zeer grote aselecte steekproef van vele honderdduizenden leerlingen getrokken (telkens ongeveer 85% van de populatie). Wel kan er zich een wijziging in de samenstelling van de populatie hebben voorgedaan. Stel dat alle scholen bijvoorbeeld overgaan op een strenger doubleerbeleid. De responsegroep in 2010 zou dan minder zittenblijvers bevatten dan die in 2009. We zouden dan ten onrechte kunnen concluderen dat de vaardigheid van de leerlingen vooruit is gegaan. Gelukkig zijn er tegenwoordig statistische technieken beschikbaar die ons voor dit soort verkeerde conclusies kunnen behoeden. Vandaar dat wij voor groep 8 zowel ongecorrigeerde als gecorrigeerde gegevens verstrekken (d.w.z. gecorrigeerd voor veranderingen in de samenstelling van de populatie). In groep 4 is de steekproef veel minder groot dan in groep 8 (namelijk slechts ongeveer 2500 leerlingen van ongeveer 100 scholen). De omvang van de beide steekproeven in groep 4 is te klein om steekproeffluctuaties met voldoende zekerheid te kunnen vaststellen en hiervoor vervolgens statistisch te kunnen corrigeren. Wel is het mogelijk te corrigeren voor veranderingen in de samenstelling van de Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2011) 2

populatie van vierdegroepers. Vandaar dat wij ook bij leerjaar 4 ongecorrigeerde en gecorrigeerde resultaten rapporteren, ook al is de correctie bij groep 4 van een iets andere aard dan bij groep 8. Het gebruik van correctiemodellen Voor de correctie voor eventuele verschillen in de samenstelling van de beide responsegroepen zijn twee statistische correctiemodellen beschikbaar: het hoofdeffectenmodel en het interactiemodel. De achtergrondkenmerken waarvoor gecorrigeerd wordt, zijn in beide modellen geslacht, leertijd, stratum en formatiegewicht. De keuze van het model is afhankelijk van de vraag of er behalve van een hoofdeffect ook sprake is van een interactie tussen achtergrondkenmerken en het jaar van afname. We lichten dit toe aan de hand van een voorbeeld. We spreken van een hoofdeffect van sekse als het vaardigheidsverschil tussen jongens en meisjes in beide jaren gelijk is. Een interactie tussen geslacht en jaareffect wil zeggen dat prestatieverschil tussen jongens en meisjes het ene jaar groter of kleiner is dan het andere jaar. In het hoofdeffectenmodel wordt alleen gecorrigeerd voor eventuele hoofdeffecten van geslacht, leertijd, stratum en formatiegewicht. Als er sprake is van een interactie van een of meer van deze achtergrondvariabelen met het jaareffect, is gekozen voor correctie volgens het interactiemodel. Dat is verder in het rapport terug te vinden. Significantie en effectgrootte Of een gemiddeld vaardigheidsverschil tussen twee jaren statistische significantie oplevert, hangt in belangrijke mate af van de steekproefgrootte. Hoe groter de steekproef, hoe eerder een verschil statistisch significant is. Voor groep 8 is de steekproef zeer veel groter dan voor groep 4. Om de resultaten toch zinvol met elkaar te kunnen vergelijken rapporteren wij behalve de statistische significantie ook de zogeheten effectgrootte. De effectgrootte wordt in ons geval berekend als het verschil tussen de gemiddelden twee jaren gedeeld door de (gepoolde) standaardafwijking van de twee groepen die onderling worden vergeleken. Bij de interpretatie van de effectgrootte hanteren we de vuistregel van Cohen (1988) die is afgebeeld in Tabel 1.1. Alles met een effectgrootte boven de 0.20 noemen we hier betekenisvol. Tabel 1.1 Kwalificatie van effectgrootten Effectgrootte (zowel plus als min) Kwalificatie 0,0 tot 0,2 geen effect 0,2 tot 0,5 klein effect 0,5 tot 0,8 matig effect 0,8 of groter groot effect De gekozen rapportageschaal Elke vaardigheid in dit onderzoek is getransformeerd naar een schaal met een gemiddelde van 250 en een standaarddeviatie van 50. Dit is conform de werkwijze bij PPON (zie bijv. Janssen, Van der Schoot & Hemker, 2005). De startwaarde is voor elke schaal het gemiddelde dat we in 2008 hebben aangetroffen. Dat gemiddelde is arbitrair op 250 gesteld (zie verder Hemker & Van Weerden, 2009). De transformatie heeft als voordeel dat we de prestaties voor verschillende vaardigheden en voor verschillende jaren naast elkaar kunnen zetten op een schaal. Voor de kwaliteit van de geconstrueerde meetschalen en de uitkomsten op itemniveau verwijzen we naar de technische rapportage (Hemker, Kordes & Van Weerden, 2011). 2 De resultaten voor groep 8 2.1 De vergelijking over de jaren Ervan uitgaande dat steekproeffluctuaties geen rol spelen (zie paragraaf 1.2), vergelijken we in deze paragraaf de resultaten van groep 8 in 2010 met die van 2009 en 2008. We presenteren hier de ongecorrigeerde verschillen De startwaarde is voor elke schaal het gemiddelde van de leerlingen in 2008 dat arbitrair op 250 is gesteld (zie verder Hemker & Van Weerden, 2009). In Tabel 2.1 zijn de uitkomsten voor 2008, 2009 en 2010 weergegeven. Het gemiddelde voor 2008 is per definitie 250 en de standaarddeviatie is 50. De schaalwaarde van 250 is vastgelegd in 2008 en vormt het criterium waarmee we de uitkomsten van 2009 vergelijken. Ook is weergegeven welke percentielscore daarbij hoort, dat wil zeggen het percentage leerlingen met een gelijke of lagere score dan 250. Als het verschil tussen 2008 en 2009 statistisch significant is, is het gemiddelde van 2009 vetgedrukt. Evenzo geldt dat voor het verschil tussen 2009 en 2010. Bij Taal zien we dat groep 8 in 2010 op alle drie variabelen significant hoger presteert dan in 2009. De grootste vooruitgang is te zien bij Woordenschat. Begrijpend lezen bereikt twee jaar op rij een iets hoger gemiddelde. Spelling levert in 2009 nog dezelfde waarde op als in 2008, maar stijgt in 2010 met twee punten. We zien deze verschuivingen ook terug in de percentielscores. Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2011) 3

Bij Rekenen zien we ook bij alle variabelen een significante stijging. In dit geval is de vooruitgang van 2009 naar 2010 bij Meten, meetkunde, tijd en geld het grootst. Getallen en bewerkingen stijgt in verhouding het minst, maar komt in 2010 ook 2 punten hoger uit dan in 2009. Tabel 2.1 Jaarvergelijking in gemiddelden, standaarddeviaties en percentielen groep 8 Jaar 2008 2009 2010 Taal Gem sd perc Gem sd perc Gem sd perc Begrijpend lezen 250 50 50 252 50 52 254 50 53 Spelling 250 50 50 250 50 50 252 50 52 Woordenschat 250 50 50 249 49 49 257 49 56 Rekenen Getallen en bewerkingen 250 50 50 250 50 50 252 50 52 Breuken, procenten en verhoudingen 250 50 50 250 50 50 254 50 53 Meten, meetkunde, tijd en geld 250 50 50 249 50 49 254 50 53 * Gem = gemiddelde; sd = standaarddeviatie; perc = gemiddelde percentielscore basis 2008 * vet: significant t.o.v. het vorige jaar;( p<=0.05) De effectgroottes zijn weergegeven in Tabel 2.2. Het gaat hier alleen om het verschil tussen 2009 en 2010. Alle effectgroottes vallen onder de grens van 0.20, de waarde waarboven ze als betekenisvol worden gezien (zie Tabel 1.1). Alle verschillen zijn significant, waarbij de overschrijdingskans bij de een kleiner is dan bij de ander. Dat is weergegeven met het aantal asterisken. Tabel 2.2 Effecten voor jaarvergelijking groep 8 Vaardigheid Effectgrootte Kwalificatie* Taal Begrijpend Lezen 0,04 Geen effect** Spelling 0,03 Geen effect* Woordenschat 0,15 Geen effect**** Rekenen Getallen en Bewerkingen 0,05 Geen effect*** Breuken, Procenten en Verhoudingen. 0,08 Geen effect**** Meten, Meetkunde, Tijd en Geld 0,07 Geen effect**** * Is geclassificeerd als geen effect (niet groter dan 0,2 en niet kleiner dan -,2), maar wel significant (p =.05) **p=.01;***p=.0001; **** p=.00001) 2.2 Verschillen per achtergrondvariabele In deze paragraaf gaan we meer in detail in op de prestatieverschillen tussen leerlingen met een verschillende achtergrond. Hierbij presenteren we alleen de jaarverschillen voor de kenmerken geslacht, leertijd, formatiegewicht, thuistaal en stratum. Voor de overige achtergrondkenmerken: type toets, advies VO, regio en urbanisatiegraad, wordt verwezen naar de technische rapportage (Hemker, Kordes & Van Weerden, 2011). 2.2.1 Taalvaardigheden De verschillen in de gemiddelde taalvaardigheid van groepen leerlingen met een verschillende achtergrond zijn gepresenteerd in Tabel 2.5. In de tabel is alleen de afstand tot het gemiddelde uit 2008 weergegeven, i.c. de schaalwaarde van 250. Per jaar van afname is weergegeven hoe groot die afstand is per categorie van het desbetreffende achtergrondkenmerk. Bovendien is er een kolom waar het verschil tussen de twee peilingsjaren per categorie is weergegeven. Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2011) 4

Tabel 2.5 Afstand tot het gemiddelde bij taalvaardigheden in groep 8 voor een aantal achtergrondvariabelen* groep 8 Begrijpend lezen Spelling Woordenschat Variabele categorie 2008 2009 2010 2008 2009 2010 2008 2009 2010 jaar 0 2 4 0 0 2 0-1 7 geslacht jongen -4-2 -1-8 -9-7 5 3 6 meisje 4 6 9 8 8 10-5 -6 8 leertijd regulier 7 8 10 7 6 8 6 4 12 vertraagd -27-26 -24-29 -29-28 -25-25 -16 gewicht 1.00 (0,00) 6 10 (9) 4 3 (4) 9 6 (12) 1.25 (0,30) -26-25 (-25) -20-19 (-15) -21-25 (-18) 1.90 (1,20) -32-36 (-37) -14-7 (-13) -51-40 (-42) thuistaal alleen NL 4 6 7 1 1 2 5 3 12 NL en BU -20-22 -16-3 -1 1-30 -27-19 alleen BU -31-33 -30-12 -7-5 -49-42 -41 stratum 1 6 9 10 3 2 4 7 5 13 2-4 -2 2-3 -3 0-3 -5 7 3-25 -26-23 -11-7 -17-32 -28-25 * Algemeen gemiddelde is 250, standaarddeviatie gemiddeld 50. Geslacht Met betrekking tot het vaardigheidsverschil tussen jongens en meisjes is er niet veel veranderd: meisjes zijn beter in Begrijpend lezen en Spelling. Bij Woordenschat zien we wel een verandering vergeleken met de vorige rapportage: in 2008 en 2009 was er op dit specifieke onderdeel nog een verschil in het nadeel van meisjes. Nu is de score nagenoeg hetzelfde. Leertijd Vertraagde leerlingen, d.w.z. leerlingen die ten minste één keer zijn blijven zitten, behalen aanzienlijke lagere scores dan reguliere leerlingen. Dat verschil is niet gewijzigd en dus vrij constant. Formatiegewicht Bij dit achtergrondkenmerk moet allereerst worden opgemerkt dat de definitie is gewijzigd en de uitkomsten daardoor niet rechtstreeks met elkaar kunnen worden vergeleken. Toch lijken de uitkomsten sterk op elkaar. Verder zien we een gevarieerd beeld. Bij elke taalvaardigheid is de situatie anders. De belangrijkste resultaten vatten we als volgt samen: Bij Begrijpend lezen behalen 1.00 leerlingen hogere scores dan 1.25 leerlingen, die het op hun beurt weer beter doen dan 1.90 leerlingen. Dat verschil ziet er in 2010 met de nieuwe gewichten ook zo uit. Bij Spelling zijn de verschillen kleiner dan bij Begrijpend lezen. Opvallend is dat de 1.90 leerlingen gemiddeld beter spellen dan de 1.25 leerlingen. Dat verschil tussen de gewichtencategorieën, maar nu de nieuwe, is in 2009 weer toegenomen. Bij Woordenschat is de situatie vergelijkbaar met die bij Spelling, maar zijn de verschillen groter. De achterstand van 1.90 leerlingen ten opzichte van 1.00 leerlingen is nog groter dan bij Begrijpend lezen. Vergeleken met 2008 is de achterstand in 2009 duidelijk afgenomen, maar in 2010 weer toegenomen. Thuistaal Leerlingen die thuis alleen een andere taal spreken dan Nederlands behalen bij alle taalvaardigheden lagere scores dan leerlingen die thuis alleen Nederlands spreken. Dat geldt ook voor leerlingen die thuis zowel Nederlands als een buitenlandse taal spreken, maar dan in mindere mate. De grootse verschillen vinden we bij Woordenschat, gevolgd door Begrijpend lezen. Bij Spelling zij de verschillen het kleinst. Als we 2009 vergelijken met 2008, dan blijkt dat de verschillen bij Spelling, en nog iets meer bij Woordenschat, zijn afgenomen. Voor Spelling blijft dat ook in 2010 zo. Stratum Scholen met bijna uitsluitend allochtone leerlingen behoren tot stratum 3, scholen met overwegend leerlingen met de gewichten 1.25 en 1.90 tot stratum 2 en de overige scholen met weinig gewichtenleerlingen tot stratum 1. De gemiddelde scores van de leerlingen in stratum 3 blijken ver achter te blijven bij die in stratum 1 en 2. We zien dit bij alle drie taalvaardigheden. Het verschil is het kleinst bij Spelling. (14 punten) en in 2009 is dat zelfs nog iets kleiner geworden (9 punten), maar in 2010 is het weer 21 punten. Bij Woordenschat was en blijft het verschil het grootst. Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2011) 5

2.2.2 Rekenvaardigheden De overeenkomstige veranderingen in de gemiddelde rekenvaardigheid van de groepen leerlingen zijn gepresenteerd in Tabel 2.6. De uitkomsten bevestigen in grote lijnen het beeld dat uit de rapportages van vorige jaren naar voren kwam. Tabel 2.6 Afstand tot het gemiddelde bij rekenvaardigheden voor een aantal achtergrondvariabelen* groep 8 getallen en bewerkingen breuken, procenten en verhoudingen meten, meetkunde, tijd en geld variabele categorie 2008 2009 2010 2008 2009 2010 2008 2009 2010 jaar 0 0 2 0 0 4 0-1 4 geslacht jongen 9 9 11 11 11 16 11 10 15 meisje -9-9 -7-11 -11-9 -11-11 -7 leertijd regulier 7 6 9 7 6 10 7 6 10 vertraagd -26-26 -26-28 -28-25 -27-28 -24 gewicht 1.00 (0,00) 5 4 (6) 6 5 (7) 6 5 (8) 1.25 (0,30) -23-24 (-22) -24-24 (-21) -25-26 (-21) 1.90 (1,20) -16-16 (-21) -22-22 (-23) -24-24 (-28) thuistaal alleen NL 2 1 4 2 2 6 2 2 6 NL en BU -6-6 -7-11 -11-7 -13-14 -8 alleen BU -11-11 -12-17 -17-15 -18-18 -18 stratum 1 4 3 5 5 5 8 5 4 9 2-4 -4 0-4 -4 1-4 -5 1 3-12 -12-12 -17-17 -13-19 -19-16 * Algemeen gemiddelde is 250, standaarddeviatie 50. Geslacht De jongens scoren gemiddeld op alle vaardigheden hoger. In 2010 is dat hetzelfde als in 2008 en 2009. De verschillen blijven vergelijkbaar over de jaren heen. Leertijd Van vertraagde leerlingen is de rekenvaardigheid aanmerkelijk lager dan van hun niet vertraagde klasgenoten. Ook hier is geen jaarverschil te noteren. Formatiegewicht Ook hier moeten we de herdefiniëring van het formatiegewicht meenemen in de beschouwing. Leerlingen met een gewicht van 1.90 of 1.25 behaalden bij alle drie onderdelen lagere rekenprestaties dan de 1.00 leerlingen. Opvallend is wel dat er tussen de allochtone leerlingen en de 1.25-leerlingen nauwelijks verschil bleek te zijn. Alleen bij Getallen en bewerkingen was dat er wel en daar doen 1.25-leerlingen het minder goed dan de 1.00 leerlingen. In 2010 zien we dat met de nieuwe gewichten de verschillen Bij Getallen en bewerkingen wegvallen, bij Breuken, procenten en bewerkingen is het verschil verwaarloosbaar en bij Meten, Meetkunde, Tijd en Geld blijken leerlingen met het hoogste gewicht, 1.20, nu ook de laagste score te halen. Thuistaal Leerlingen die thuis een andere taal dan Nederlands spreken, behalen lagere scores dan de leerlingen die thuis alleen Nederlands spreken. Dat is niet gewijzigd over de jaren heen. Stratum Leerlingen van stratum-3 scholen, dus scholen met veel allochtone leerlingen, behalen lagere scores dan leerlingen van met name stratum-1-scholen. De verschillen tussen de strata blijken over de jaren heen vergelijkbaar. Al met al blijken de verschillen naar achtergrondkenmerk in 2010 ongeveer gelijk aan die in 2008 en 2009. De stijging met enkele punten die we bij alle schalen zien, vinden we in gelijke mate terug bij alle onderscheiden categorieën. Allen bij de variabele Formatiegewicht zien we enkele afwijkende Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2011) 6

verschuivingen, maar daar is ook sprake van een andere definitie. De categorie 1.20 leerlingen is bij twee van de drie schalen duidelijk minder vaardig dan de 1.90 leerlingen in de jaren daarvoor. 3 De resultaten voor groep 4 3.1 De vergelijking van 2010 met 2009 en 2008 Net als bij groep 8 is de startwaarde voor elke schaal het gemiddelde van de leerlingen in 2008 dat arbitrair op 250 is gesteld (zie Hemker & Van Weerden, 2009). Anders dan bij groep 8 rapporteren we voor groep 4 alleen de gecorrigeerde verschillen. We gebruiken daarbij het hoofdeffectenmodel, met als de variabelen: stratum, geslacht, leertijd en formatiegewicht. De reden is dat de steekproeven te klein zijn om aan te nemen dat veranderingen in de verdeling van de achtergrondvariabelen daadwerkelijke veranderingen in de populatie representeren. Het zal hier eerder steekproeffluctuaties betreffen. De resultaten van de jaarvergelijking van de taal- en rekenprestaties voor groep 4 zijn weergegeven in Tabel 3.1. De belangrijkste resultaten van de jaarvergelijking in groep 4 kunnen we als volgt beschrijven: Bij taalvaardigheid zijn de scores voor Begrijpend lezen in 2010 iets hoger dan in 2009, maar nog niet op het niveau van 2008. Bij Spelling zien we een doorzettende vooruitgang vanaf 2008. Bij Woordenschat, zien we ook een positief verschil van 2010 met 2009. Bij taalvaardigheid zijn alle verschillen van 2010 met 2009 te klein om significant te kunnen worden genoemd. Bij alle vier rekenonderdelen zijn de scores in 2010 over de hele linie hoger dan in 2009. In 2009 waren ze juist wat lager dan in 2008. Het verschil tussen 2010 en 2009 varieert van 3 tot 5 percentielpunten. De vooruitgang is het grootst bij Getallen en getalsrelaties. De prestaties bij Vermenigvuldigen en delen zijn nu weer op het niveau van 2008. Bij de andere deelvaardigheden zijn de percentielwaarden hoger dan 50 en is er dus sprake van een hoger niveau dan in 2008, het startjaar. Bij de rekenvaardigheden zijn twee van de vier verschillen ook statistisch significant, namelijk Getallen en getalsrelaties en Optellen en aftrekken (p= 0.05). Tabel 3.1 Jaarvergelijking groep 4 met een hoofdeffectenmodel* Jaar 2008 2009 2010 Taal Gem sd perc Gem sd perc Gem sd perc Begrijpend lezen 250 50 50 247 49 47 248 50 48 Spelling 250 50 50 252 50 51 253 50 53 Woordenschat nvt nvt nvt 250 50 50 253 49 53 Technisch lezen nvt nvt nvt nvt nvt nvt 250 50 50 Rekenen Getallen en getalsrelaties 250 50 50 249 48 49 255 50 54 Optellen/Aftrekken 250 50 50 251 49 50 255 50 54 Vermenigvuldigen/Delen 250 50 50 247 48 47 250 50 50 Meten, tijd en geld 250 50 50 251 49 49 253 50 52 * Gem = gemiddelde; sd = standaarddeviatie; perc = gemiddelde percentielwaarde basis 2008;* Woordenschat is in 2009 pas definitief geschaald. Technisch lezen in 2010;*vet: significant t.o.v 2009, α=0.05). Hoe betekenisvol deze verschillen zijn, is een vraag die we beantwoorden aan de hand van Tabel 3.2 waarin we de effectgroottes rapporteren. Daarbij kijken we alleen naar het verschil tussen 2009 en 2010, omdat we daar met dezelfde formatiegewichten kunnen werken. Bij de jaarvergelijking was er in de vorige vergelijking een betekenisvol verschil voor Spelling. Dat is nu afwezig. Ook de wel significante verschillen bij Rekenen leveren nog te kleine effecten op om betekenisvol genoemd te kunnen worden overeenkomstig de criteria van Cohen (1988). Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2011) 7

Tabel 3.2 Effecten voor jaarvergelijking 2010-2009 groep 4 gecorrigeerd op hoofdeffecten Vaardigheid Effectgrootte Kwalificatie Taal Begrijpend Lezen 0,00 geen effect Spelling 0,00 geen effect Woordenschat 0,04 geen effect Rekenen Getallen en getalsrelaties 0,10 geen effect* Optellen/Aftrekken 0,08 geen effect* Vermenigvuldigen/Delen 0,05 geen effect Meten, tijd en geld 0,03 geen effect * Is geclassificeerd als geen effect (niet groter dan 0,2 en niet kleiner dan -,2), maar wel significant (α=,05) 3.2 Verschillen per achtergrondvariabele In deze paragraaf gaan we meer in detail in op de prestatieverschillen tussen vierdegroepers met een verschillende achtergrond. Hierbij presenteren de verschillen tussen 2009 en 2010 uitsluitend voor de achtergrondvariabelen geslacht, leertijd, formatiegewicht, thuistaal en stratum. Voor de overige kenmerken type toets, regio en urbanisatiegraad wordt verwezen naar de technische rapportage (Hemker, Kordes & Van Weerden, 2011). Hierbij moeten we bedenken dat niet alle in statistisch opzicht significante veranderingen ook betekenisvol zijn (zie paragraaf 3.1). De volgende jaarlijkse peilingen moeten uitwijzen in hoeverre de in deze paragraaf geconstateerde veranderingen doorzetten. 3.2.1 Taalvaardigheden De verschillen tussen de gemiddelde taalvaardigheid van groepen leerlingen met een verschillende achtergrond zijn gepresenteerd in Tabel 3.3. De gegevens voor Woordenschat in 2008 ontbreken omdat de gegevens pas in 2009 geschaald konden worden. Technisch Lezen is in 2010 voor het eerst meegenomen. Tabel 3.3 Afstand tot het gemiddelde bij taalvaardigheden voor een aantal achtergrondvariabelen* groep 4 Begrijpend lezen Spelling Woordenschat Techn. lezen variabele categorie 2008 2009 2010 2008 2009 2010 2009 2010 2010 jaar 0-3 -2 0 2 3 0 3 n.v.t. geslacht jongen -5-8 -7-7 -5-4 -1 2-7 meisje 5 1 3 7 9 11 2 5 7 leertijd regulier 3 1 0 4 6 6 4 6 2 vertraagd -21-24 -19-25 -21-16 -27-15 -15 gewicht 0.00 6 1 3 2 3 5 6 8 1 0.30-23 -23-33 -12-11 -10-15 -24-13 1.20-45 -45-41 -15-9 -10-53 -34-4 thuistaal alleen NL 6 2 2 4 0 3 6 8 0 NL en BU -31-22 -16-15 -3 0-24 -16 0 alleen BU -49-44 -40-17 -6-3 -54-40 -14 stratum 1 10 3 5 4 2 7 8 11 3 2-8 -6-6 -2 2-7 -2-4 -9 3-35 -33-33 -15-3 -1-37 -23-4 * Algemeen gemiddelde is 250, standaarddeviatie gemiddeld 50. Geslacht Net als in 2008 en 2009 behalen jongens over het algemeen lagere scores voor de taalvaardigheden dan meisjes. Het verschil is het grootst bij Spelling, gevolgd door Technisch lezen. Het verschil bij Woordenschat is het kleinst en is net als in groep 8 verwaarloosbaar. Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2011) 8

Leertijd Vertraagde leerlingen, d.w.z. degenen die ten minste een keer doubleerden, behalen aanzienlijk lagere scores dan reguliere leerlingen. Dat verschil lijkt zich in de afgelopen jaren wat te verkleinen vooral bij Woordenschat. Formatiegewicht Voor groep 4 hebben we alleen te maken met de nieuwe formatiegewichten. Bij dit kenmerk zien we een gevarieerd beeld. Bij Begrijpend lezen is de situatie anders dan bij Spelling. Net als in groep 8 behalen 0.00 leerlingen hogere scores voor Begrijpend lezen dan 0.30 leerlingen, die het op hun beurt weer beter doen dan 1.20 leerlingen. Dat is voor alle drie jaren hetzelfde. Bij Spelling zijn de verschillen kleiner. Opvallend is dat de spelvaardigheid van de 1.20 leerlingen nauwelijks afwijk van die van de 0.30 leerlingen, hoewel het precieze verschil wat fluctueert. Dat is constant in de gegevens van 2010 en 2009. Het verschil met de leerlingen zonder gewicht lijkt in 2010 wel toegenomen. Het beeld bij Woordenschat komt overeen met dat bij Begrijpend lezen, maar hier lijkt het verschil tussen leerlingen met of zonder gewicht af te nemen en komen de 0.30 en 1.20 leerlingen bij elkaar. Technisch lezen laat een opvallend beeld zien. Leerlingen met het hoogste gewicht presteren hier beter dan die met een lager gewicht. Bovendien zijn de verschillen tussen de drie groepen hier klein, net als bij Spelling. Thuistaal De verschillen in groep 4 zijn vergelijkbaar met die in groep 8. Bij Begrijpend lezen zien we het verschil tussen de drie categorieën geleidelijk verminderen, maar blijven leerlingen die thuis een andere taal spreken het aanzienlijk slechter doen dan leerlingen die thuis alleen Nederlands spreken. De leerlingen die thuis twee talen spreken zitten daar tussen in. Met andere woorden: hoe minder er thuis Nederlands wordt gesproken, hoe lager de prestaties op Begrijpend lezen. Bij Woordenschat is het beeld vergelijkbaar.. Opvallend is dat bij Spelling ook een dergelijk beeld is te zien, maar dat de verschillen tussen de groepen in 2010 minimaal zijn. Vergeleken met 2008 was dat in 2009 al aanzienlijk terug gelopen en dat wordt bevestig met de uitkomst in 2010. Ook bij Technisch lezen is er een opvallend beeld: we zien een negatief verschil bij leerlingen die thuis alleen een buitenlandse taal spreken, maar leerlingen die thuis twee talen spreken behalen emiddeld dezelfde score als leerlingen die alleen Nederlands spreken. Stratum Leerlingen op stratum-3 scholen, dus scholen met relatief veel allochtone leerlingen, behalen een lagere score dan leerlingen op andere scholen. Dat is vooral bij lezen een behoorlijk verschil. De leesvaardigheid bij de stratum-1-scholen is relatief het sterkste. Ook bij Woordenschat zijn er grote verschillen. Bij Spelling en Technisch Lezen zijn de verschillen niet zo groot. Opvallend is dat in beide gevallen leerlingen in stratum 2 lager presteren dan leerlingen in stratum 3. 3.2.2 Rekenvaardigheden De resultaten van de jaarvergelijking van de rekenvaardigheid in groep 4 is weergegeven in Tabel 3.4. Eerder zagen we dat geen van de statistisch significante verschillen tevens betekenisvol is in de zin dat de effectgrootte groter is dan.20 (of kleiner dan -.20). Wel zien we hier dezelfde verschillen tussen de categorieën die ook reeds in 2008 zijn geconstateerd. Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2011) 9

Tabel 3.4 Afstand tot het gemiddelde bij rekenvaardigheden voor een aantal achtergrondvariabelen* groep 4 getallen en getalsrelaties optellen/aftrekken vermenigvuldigen /delen meten, tijd en geld variabele categorie 2008 2009 2010 2008 2009 2010 2008 2009 2010 2008 2009 2010 jaar 0-1 5 0 1 5 0-3 0 0 1 3 geslacht jongen 9 8 14 7 7 11 8 4 9 9 9 13 meisje -9-11 -4-7 -8-2 -8-12 -9-8 -8-7 leertijd regulier 3 2 8 3 3 8 3-1 3 3 3 6 vertraagd -17-19 -14-16 -16-15 -17-21 -20-16 -17-14 gewicht 0.00 6 3 10 4 2 8 6 1 5 5 5 8 0.30-24 -17-20 -20-13 -14-22 -5-29 -22-16 -24 1.20-39 -31-38 -28-16 -22-43 -25-34 -39-35 -29 thuistaal alleen NL 7 4 8 5 2 8 6 0 4 7 5 7 NL en BU -27-16 -12-24 -10-4 -27-16 -18-16 -13-15 alleen BU -38-34 -30-23 -15-17 -38-35 -34-37 -35-26 stratum 1 10 5 13 8 1 10 11 1 8 9 7 11 2-9 -8-4 -7 1 1-10 -5-7 -6-4 -3 3-36 -21-19 -27-10 -13-37 -25-28 -33-24 -22 * Algemeen gemiddelde is 250, standaarddeviatie 50. Geslacht De jongens scoren gemiddeld op alle rekenvaardigheden hoger. De verschillen fluctueren wat, maar laten bij alle vier deelvaardigheden hetzelfde beeld zien. De algemene trend is wel positief, maar zien we vooral bij Getallen en getalsrelaties en bij Optellen en aftrekken. Leertijd Voor leertijd zien we een vergelijkbaar verschil als bij de taalvaardigheden tussen de vertraagde en de reguliere leerlingen. Duidelijk zichtbaar is dat de verschillen hier kleiner zijn dan in groep 8. Vertraagde leerlingen in groep 4 hebben een minder grote achterstand dan vertraagde leerlingen in groep 8. Formatiegewicht Leerlingen met een gewicht van 1.20 presteren op alle drie onderdelen aanzienlijk lager dan de leerlingen zonder gewicht. De 0.30 leerlingen nemen een middenpositie in. Opvallend is dat de prestatieverschillen tussen de gewichtscategorieën bij Vermenigvuldigen en delen zijn afgenomen. Ook bij Meten, tijd en geld zien we dat terug. Vergeleken met de resultaten in groep 8 valt op dat het gebrek aan verschil tussen de leerlingen met formatiegewicht 0.30 en 1.20, of zelfs een beter resultaat van 1.20 leerlingen ten opzichte van 0.30 leerlingen, hier niet voor komt. In groep 4 zijn de prestaties van de drie groepen wel duidelijk en op voorspelbare wijze verschillend. Thuistaal Het patroon in 2010 is over bij alle deelvaardigheden hetzelfde: Leerlingen die thuis alleen Nederlands spreken behalen de hoogste score, leerlingen die thuis alleen een buitenlandse taal spreken de laagste. De leerlingen die thuis zowel Nederlands als een buitenlandse taal spreken zitten daar tussen in. De verschillen zijn bij Optellen en aftrekken wat kleiner dan bij de andere drie schalen. Stratum Leerlingen van stratum-3 scholen, dus scholen met doorgaans veel allochtone leerlingen, behalen in alle gevallen een lagere score dan leerlingen van andere scholen. De rekenvaardigheid bij de stratum-1scholen is relatief het hoogst. Kenmerkend voor de rekenvaardigheden is dus dat de verschillen tussen de diverse categorieën bij alle drie rekenvaardigheden min of meer vergelijkbaar zijn. Bij Optellen en aftrekken zijn de verschillen minder extreem. Opvallend is dat juist de scholen met veel leerlingen zonder gewicht, in stratum 1, er bij drie van de vier schalen het meest op vooruit gaan. Alleen bij Meten, tijd en geld is de toename minder. Tegelijkertijd blijken de stratum-3 scholen beduidend minder zwak te scoren dan in 2008. De verschillen tussen de uitersten zijn daarmee duidelijk afgenomen in de afgelopen drie jaar. Het verschil tussen 2010 en 2009 is voor de stratum 3 scholen echter gering. De winst zit daar vooral bij de stratum-1 scholen. Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2011) 10

Literatuur Cohen, J. (1988): Statistical Power Analysis for the Behavioral Sciences (second ed.). Lawrence Erlbaum Associates. Hemker, B.T. & J.J. van Weerden (2009): Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 in 2008- Jaarlijks Peilingsonderzoek van het Onderwijsniveau - Technische rapportage. Cito, Arnhem. (http://www.minocw.nl/documenten/133682d.pdf) Hemker, B.T., J.B Kuhlemeier & J.J. van Weerden (2010): Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 in 2009 - Jaarlijks Peilingsonderzoek van het Onderwijsniveau. Cito, Arnhem. Hemker, B.T., J. Kordes & J.J. van Weerden (2011): Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 in 2010 - Jaarlijks Peilingsonderzoek van het Onderwijsniveau. Cito, Arnhem. Janssen, Jan, Frank van der Schoot, Bas Hemker (2005): Balans van het reken-wiskundeonderwijs aan het einde van de basisschool 4. Uitkomst van de vierde peiling in 2004. PPON-reeks nummer 32. Cito, Arnhem. (http://www.cito.nl/po/ppon/rekwisk/eind_fr.htm) Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2011) 11