Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 in 2010

Transcriptie

1 Cito Primair onderwijs Cito maakt wereldwijd werk van goed en eerlijk toetsen en beoordelen. Met de meet- en volgmethoden van Cito krijgen mensen een objectief beeld van kennis, vaardigheden en competenties. Hierdoor zijn verantwoorde keuzes op het gebied van persoonlijke en professionele ontwikkeling mogelijk. Onze expertise zetten we niet alleen in voor ons eigen werk maar ook om advies, ondersteuning en onderzoek te bieden aan anderen. Cito Amsterdamseweg 13 Postbus MG Arnhem T (026) F (026) Klantenservice T (026) F (026) klantenservice@cito.nl Fotografie: Ron Steemers Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 in 2010 Jaarlijks Peilingsonderzoek van het Onderwijsniveau - Technische rapportage Bas Hemker, Joke Kordes en Jan van Weerden

2

3 Jaarlijks Peilingsonderzoek van het Onderwijsniveau Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 in 2010 Technische rapportage Bas Hemker, Joke Kordes en Jan van Weerden Cito Arnhem, augustus 2011

4 Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2011) Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Stichting Cito Instituut voor Toetsontwikkeling worden openbaar gemaakt en/of verveelvoudigd door middel van druk, fotografie, scanning, computersoftware of andere elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke wijze dan ook.

5 Inhoud Samenvatting 5 1 Inleiding 7 2 De opzet van het onderzoek: de gebruikte meetinstrumenten De gebruikte meetinstrumenten in jaargroep De gebruikte meetinstrumenten in jaargroep Datasets voor kalibratie en vergelijking 12 3 De opzet van het onderzoek: onderzoekspopulatie en achtergrondvariabelen 15 4 Analyse en rapportage: opgaven en groepseigenschappen op één schaal Toepassing van een IRT-model De vaardigheidsschaal: rapportage van de populatie Analyse en rapportage van prestatieverschillen Modellen voor analyse van verschillen Interpretatie van effectgrootte en significantie 28 5 Resultaten voor taalvaardigheid in jaargroep Woordenschat Spelling Begrijpend lezen 40 6 Resultaten voor rekenvaardigheid in jaargroep Getallen en bewerkingen Breuken, procenten en verhoudingen Meten, meetkunde, tijd en geld 54 7 Resultaten voor taalvaardigheid en rekenvaardigheid in jaargroep Woordenschat Spelling Begrijpend lezen Technisch lezen Rekenvaardigheid 73 8 Samenvatting en discussie Interpretatie van resultaten Resultaten voor de jaarvergelijking De vergelijking op de basisvariabelen stratum, formatiegewicht, geslacht en leertijd De vergelijking op de extra variabelen Samenvatting van de belangrijkste resultaten 103 Literatuur 107 Bijlagen I Het gehanteerde meetmodel 109 II Verdeling van de achtergrondvariabelen de steekproef in jaargroep 8 in III De eigenschappen van de nieuwe opgaven (Eindtoets 2010) 115 IV Resultaten voor de verschillende definities van stratum bij jaargroep 8 122

6

7 Samenvatting In het kader van de kwaliteitsagenda Scholen voor morgen is in 2008 het Jaarlijks Peilingsonderzoek van het Onderwijsniveau (JPON) van start gegaan. Dit jaarlijkse onderzoek is gericht op het monitoren van het onderwijsniveau op het gebied van taal- en rekenvaardigheid in het basisonderwijs. In het dit rapport wordt verslag gedaan van de derde jaarlijkse peiling van de rekenen taalvaardigheid in jaargroep 8 en 4. Voor het eerst konden de prestaties in deze derde jaarlijkse peiling voor drie opeenvolgende jaren met elkaar vergeleken worden. In jaargroep 8 is er zowel bij alle drie onderdelen van taal als bij alle drie onderdelen van Rekenen- Wiskunde een voortuitgang ten opzichte van 2008 en De verschillen zijn alle significant en positief. Uitgedrukt in effectgrootten zijn de verschillen per onderdeel nauwelijks betekenisvol in statistische zin. Over de hele linie bezien is er echter duidelijk een positieve trend te signaleren bij alle onderdelen tussen 2009 en In jaargroep 4 is voor taal geen significant verschil gevonden tussen 2009 en Bij Rekenen-Wiskunde in jaargroep 4 is er bij twee van de vier vaardigheden wel een significant effect gevonden: in 2010 waren de prestaties significant beter bij Getallen en getalsrelaties en bij Optellen en aftrekken. Ook hier zijn de effectgroottes echter zeer beperkt. De taalvaardigheid en de rekenvaardigheid van de leerlingen in jaargroep 8 en jaargroep 4 zijn net als in 2008 en 2009 weer gemeten met twee veel gebruikte toetssystemen. Dat waren de Eindtoets Basisonderwijs voor jaargroep 8 en toetsen van het Leerlingvolgsysteem (LOVS) voor jaargroep 4. De gemeten taalvaardigheden waren voor beide leerjaren Begrijpend lezen, Spelling en Woordenschat. In groep 4 werd bovendien in 2009 voor het eerst ook technisch lezen meegenomen. De gemeten rekenvaardigheden verschilden iets over de twee leerjaren. In jaargroep 4 waren dat Getallen en getalsrelaties, Optellen en aftrekken, Vermenigvuldigen en delen, en Meten, tijd en geld. In jaargroep 8 waren de drie rekenvaardigheden Getallen en bewerkingen, Breuken, procenten en verhoudingen en Meten, meetkunde, tijd en geld. Bij het meten van vaardigheid van de leerlingen zijn ook achtergrondvariabelen van de leerlingen meegenomen. Het belangrijkste kenmerk was het afnamejaar: het jaar waarin de leerling de toets had gemaakt. Andere basisvariabelen waren formatiegewicht (is de leerling een achterstandsleerling?), stratum (zitten er veel achterstandsleerlingen op school?), leertijd (is de leerling een zittenblijver?) en geslacht. Toegevoegde variabelen die meegenomen zijn in de analyses zijn regio en urbanisatiegraad van de locatie van de school, de thuistaal en voor de leerlingen in jaarjaargroep 8 het soort toets (EB of NT) en het advies van de leerkracht wat betreft het te volgen voortgezet onderwijs na jaargroep 8 (Advies VO). De effecten van de achtergrondvariabelen waren vergelijkbaar met die van Zo presteerden jongens over het algemeen beter op de rekenvaardigheden en meisjes beter op de taalvaardigheden. De enige uitzondering was de vaardigheid Woordenschat. In 2009 presteerden jongens daar beter op dan meisjes, terwijl er nu door een toename in vaardigheid van de meisjes geen verschil meer gevonden werd. De geconstateerde veranderingen van het landelijke prestatieniveau zijn dikwijls klein. Bij de interpretatie is dan ook voorzichtigheid geboden. Een termijn van drie jaar is te kort om grote en eenduidig te interpreteren verschillen te mogen verwachten. Daarvoor gaan veranderingen in het landelijke onderwijsniveau eenvoudigweg te langzaam. Er is hooguit sprake van indicaties voor trends die op langere termijn duidelijker zichtbaar kunnen worden. 5

8 6

9 1 Inleiding In het kader van de kwaliteitsagenda Scholen voor morgen is in 2008 het Jaarlijks Peilingsonderzoek van het Onderwijsniveau (JPON) van start gegaan. Dit jaarlijkse onderzoek is gericht op het monitoren van het onderwijsniveau op het gebied van Nederlandse taal en Rekenen-Wiskunde in het basisonderwijs. JPON heeft tot doel een antwoord te geven op de volgende onderzoeksvragen: Welke wijzigingen voltrekken zich van jaar tot jaar in de leerresultaten van groep 4 en groep 8 op het gebied van de basisvaardigheden taal en rekenen? Hoe groot zijn de prestatieverschillen tussen onderscheiden groepen van leerlingen (zoals jongens en meisjes of autochtone en allochtone leerlingen)? In 2008 en 2009 is verslag gedaan van de eerste en tweede jaarlijkse niveaupeiling van taal en rekenen in de jaargroepen 8 en 4 (Hemker & Van Weerden, 2009; Hemker, Kuhlemeier & Van Weerden, 2010). Voor u ligt het verslag en de technische verantwoording van de derde peiling van de taal- en rekenvaardigheid die in 2010 is uitgevoerd. Net als in de vorige rapportage worden de resultaten uit de verschillende kalenderjaren met elkaar vergeleken. Hierbij is gebruikgemaakt van verschillende modellen en worden de resultaten van 2010 naast die van 2008 en 2009 gelegd. Er wordt nu minder aandacht besteed aan de toetsen zelf, omdat deze danwel exact gelijk zijn aan die van vorige peiling (bij jaargroep 4), danwel er kwalitatief veel op lijken (jaargroep 8). De toetsen zelf zijn grotendeels gepubliceerd en verkrijgbaar bij Cito. Een verschil met de vorige rapportage is verder dat de vernieuwde definities van de formatiegewichten nu in het gehele basisonderwijs zijn doorgevoerd. Dit had consequenties voor het onderzoek en de rapportage daarvan. Hoe daarmee is omgegaan wordt beschreven in hoofdstuk 4. Het verslag begint met een beschrijving van de opzet van het onderzoek, inclusief de eigenschappen van de gebruikte toetsen en de wijze waarop deze toetsen met elkaar vergeleken kunnen worden (hoofdstuk 2). Vervolgens wordt de onderzoekspopulatie beschreven en worden de definities van de achtergrondvariabelen gegeven (hoofdstuk 3). In hoofdstuk 4 wordt beschreven hoe we de resultaten van de onderzoekspopulatie op de gemeten vaardigheden kunnen vergelijken met voorgaande jaren. Vervolgens beschrijven we de resultaten van de leerlingen in jaargroep 8 in twee hoofdstukken: een over de taalvaardigheid (hoofdstuk 5), en een over de rekenvaardigheid (hoofdstuk 6). De resultaten van jaargroep 4 konden in een gezamenlijk hoofdstuk worden beschreven (hoofdstuk 7). Speciale aandacht wordt geschonken aan de relatie tussen leerresultaten en achtergrondvariabelen zoals geslacht en thuistaal. Het laatste hoofdstuk bevat een samenvatting en discussie waarin we onder meer de resultaten van 2010 vergelijken met die van 2008 en 2009 (hoofdstuk 8). Tot slot zijn er enkele bijlagen opgenomen. 7

10 8

11 2 De opzet van het onderzoek: de gebruikte meetinstrumenten In dit rapport wordt verslag gedaan van de derde jaarlijkse peiling van het onderwijsniveau (JPON) in de groepen 8 en 4 van het basisonderwijs. De onderzoeksmethoden zijn grotendeels identiek aan die van de eerste en tweede peiling in 2008 en Dit geldt voor de gebruikte toetsen, de meegenomen achtergrondvariabelen en de statistische analyse. Vandaar dat wij de opzet van het onderzoek hier slechts summier beschrijven. Voor de details van de methoden en technieken verwijzen wij naar het eerste rapport dat is uitgegeven onder de titel Peiling van de rekenvaardigheid en de taalvaardigheid in jaarjaargroep 8 en jaarjaargroep 4 in 2008 (Cito, 2009). Daar waar er wijzigingen zijn in vergelijking met vorige jaren wordt dat specifiek benoemd. Zo is er in groep 4 een toets toegevoegd, technisch lezen, is er met een andere definitie van formatiegewicht gewerkt. Ook is de analyse voor de vergelijking van drie jaren op rij anders en meer complex dan de vergelijking over twee jaren. 2.1 De gebruikte meetinstrumenten in jaargroep 8 In dit onderzoek rapporteren we over vaardigheden. Dit zijn onderdelen van een leergebied, definieerbaar als didactisch betekenisvolle eenheden, die geanalyseerd en gerapporteerd kunnen worden als afzonderlijke meetschalen. In jaargroep 8 onderscheiden we er zes. Bij Nederlandse taal zijn dat Begrijpend lezen, Spelling en Woordenschat. Bij Rekenen-Wiskunde gaat het om de drie onderdelen: Getallen en bewerkingen, Breuken, Procenten en Verhoudingen en meten, tijd en geld. Deze vaardigheden zijn gemeten met de volgende toetsen: de Eindtoets Basisonderwijs (EB); de Niveautoets (NT); de Digitale Eindtoets (DEB); het Toetsboekje Extra (TE); de Verlate Afname (VEB, alleen in 2010). Hieronder lichten we de gebruikte toetsen en de daarbij behorende datasets kort toe. Eindtoets Basisonderwijs Voor het onderzoek in 2010 is net als in voorgaande jaren gebruikgemaakt van de Eindtoets Basisonderwijs (EB). Deze toets wordt landelijk afgenomen op vaste, van te voren bekende data. De gegevens zijn verzameld in de periode van 2 tot en met 4 februari Niet alle taalonderdelen van de Eindtoets worden in deze jaarlijkse peiling betrokken. Het onderwerp Schrijven van teksten is achterwege gelaten. Dit onderwerp heeft weliswaar een hoge samenhang met het onderdeel Begrijpend lezen, maar moet toch inhoudelijk als een andere vaardigheid gezien worden. Ook analyse-technisch blijkt dat deze vaardigheid niet goed op dezelfde schaal geplaatst kan worden als de vaardigheid Begrijpend Lezen. Om die reden zijn de opgaven behorend bij Schrijven van teksten buiten beschouwing gelaten. Ook de onderdelen Studievaardigheden en Wereldoriëntatie zijn net als vorige jaren buiten beschouwing gelaten in dit onderzoek. Het gaat om vaardigheden die buiten de opdracht vallen. De eigenschappen van de gebruikte toetsen zijn vergelijkbaar met die van de vorige twee jaren. De opgaven die gebruikt zijn in de eindtoets zijn wat betreft de gemiddelde moeilijkheid vrijwel gelijk aan die bij eerdere toetsen. Zo ligt het percentage goede antwoorden bij Begrijpen lezen en Spelling rond de 75 procent. Het percentage goede antwoorden bij Woordenschat is iets hoger dan vorige keren; waar het eerder rond de 70 procent lag, ligt het percentage goede antwoorden dit jaar rond de 75. Bij Rekenen- Wiskunde ligt het gemiddelde percentage goede antwoorden rond de 70. Dat is iets lager dan vorige jaren. Opgemerkt moet worden dat de verschuivingen in de percentages goede antwoorden nog niets zegt over de stijgingen dan wel dalingen in de populaties aangezien het geheel andere opgaven betreft. Voordat de opgaven geschaald zijn, is het nog onduidelijk of deze verschuivingen liggen aan het feit dat de opgaven moeilijker of makkelijker zijn, of dat de populatie in vaardigheid toe- of afneemt. Het aantal opgaven per schaal is identiek aan de aantallen in 2008 en Dat houdt in dat er bij taal 30 opgaven voor Begrijpend lezen waren, 20 voor Spelling (10 werkwoordspelling en 10 niet-werkwoord- 9

12 spelling) en ook 20 voor Woordenschat. Bij Rekenen-Wiskunde zijn 60 opgaven gebruikt: 25 voor Getallen en bewerkingen, 20 voor Breuken, procenten en verhoudingen en 15 voor Meten, meetkunde, tijd en geld. De betrouwbaarheid van de schalen bij de Eindtoets zijn vergelijkbaar met die in 2008 en Ook in 2010 ligt Cronbach s alpha (de geschatte ondergrens voor de betrouwbaarheid) rond de.80 voor de schalen Begrijpend lezen en de twee langere rekenschalen. Voor de kortere rekenschaal en de schalen Woordenschat en Spelling ligt de alpha rond de.70. Voor Spelling betekent dat een lichte daling, maar voor Woordenschat een lichte stijging. Alle betrouwbaarheden zijn hoog genoeg voor een verantwoorde vergelijking over groepen (Evers, Lucassen, Meijer & Sijtsma, 2009). Niveautoets Het gebruik van de EB heeft als nadeel dat sommige scholen deze toets niet aan de zwakke, d.w.z. de minst vaardige, leerlingen hebben voorgelegd. Om toch een representatief beeld te krijgen hebben wij ook de resultaten op de Niveautoets (NT) gebruikt. De NT is bestemd voor leerlingen met een leerachterstand van ten minste 1½ jaar. Het betreft overwegend leerlingen die in aanmerking komen voor praktijk- of leerwegondersteunend onderwijs. De NT is een digitale toets en wordt op de computer gemaakt, maar bevat dezelfde onderdelen en hetzelfde aantal opgaven als de reguliere, papieren Eindtoets. De opgaven van de NT zijn aangepast aan het niveau van leerlingen met een grote leerachterstand en dus overwegend gemakkelijker dan die van de EB. Met gebruik van de Item Response Theorie zijn de opgaven van de EB en de NT op één meetschaal te brengen. De NT kon gemaakt worden vanaf het moment dat ook de EB gemaakt kon worden, maar de periode waarin het mogelijk was om de NT af te nemen was iets langer (vanaf 2 tot en met 19 februari 2010). De aantallen opgaven per schaal zijn identiek aan die van de EB. De opgaven zelf zijn, op een paar na, niet anders dan het jaar ervoor. De NT is om die reden niet vrij beschikbaar na de afname. Aangezien de schalen vrijwel onveranderd zijn, zijn de eigenschappen van de schalen ook vrijwel gelijk gebleven. De geobserveerde waarden voor Cronbach s alpha zijn iets lager dan die bij de EB, aangezien de spreiding in vaardigheid in de populatie ook kleiner is; de populatie die de NT maakt is homogener dan die de EB maakt. De moeilijkheid van de opgaven is, doordat de set opgaven vrijwel identiek is, ook vergelijkbaar met die van de vorige peiling. Wel liggen de gemiddelde scores bij de meeste schalen iets hoger dan vorig jaar. Hoewel het, in tegenstelling tot de EB, dezelfde opgaven over de jaren heen betreft, zijn hier nog geen conclusies aan te verbinden. Ten eerste omdat het kleine verschuivingen bij relatief kleine aantallen betreft. Ten tweede, en wellicht belangrijker, omdat het geen representatieve jaargroep leerlingen betreft: dit zijn (zeer) laag vaardige leerlingen. Ook zien we dat er meer leerlingen dan de afgelopen twee jaar de NT gemaakt hebben. Wat de consequenties hiervan kunnen zijn voor een directe vergelijking tussen de jaren, wordt beschreven in hoofdstuk 4. Ankertoetsen Naast de EB en NT is ook een controlevariant van de EB gebruikt die tegelijkertijd met en onder dezelfde omstandigheden als de reguliere EB is afgenomen. Deze variant, die ook op papier is afgenomen, wordt het Ankerboekje genoemd. Het vormt de verbinding tussen de toetsen van 2008, 2009 en We hebben daarnaast ook andere methoden gebruikt om de resultaten van de verschillende toetsen vergelijkbaar te maken, maar daarover later meer. Het merendeel van de opgaven in het Ankerboekje is gelijk aan die van de reguliere EB. De toetsboekjes op de eerste en de tweede toetsdag zijn geheel identiek. Op de derde toetsdag krijgt een deel van de leerlingen echter een toetsboekje dat deels uit rekenen taalopgaven bestaat die in de jaren ervoor ook in een ankertoets zaten. De overige opgaven in dit boekje zijn identiek aan de opgaven van de derde toetsdag van de reguliere afname. In de voorgaande jaren is het Ankerboekje volgens ditzelfde principe samengesteld. De moeilijkheid van de opgaven en de betrouwbaarheid van de schalen is vrijwel identiek aan die bij de reguliere EB. Het Ankerboekje is afgenomen bij 2461 leerlingen. Digitale Eindtoets Basisonderwijs Net als voorgaande jaren konden scholen in 2010 de EB ook digitaal afnemen. De gegevens van die groep leerlingen zijn echter niet in dit onderzoek gebruikt. De digitale variant van de EB is ook gebruikt als inhaaltoets voor leerlingen die bijvoorbeeld vanwege ziekte niet aan de reguliere papieren EB konden 10

13 deelnemen. Die gegevens zijn wel meegenomen. De Digitale Eindtoets (DE) bestaat uit dezelfde onderdelen en hetzelfde aantal opgaven als de reguliere, papieren EB, maar bevat andere opgaven. De moeilijkheid van de DEB is echter gelijk aan die van de reguliere EB. De afname van de DEB vond plaats in de periode tussen 25 januari en 2 april De DEB is bij een beperkt aantal leerlingen afgenomen, in totaal minder dan 1 procent van de leerlingen die de EB maakten (1244 leerlingen). In tegenstelling tot de NT is er geen reden om aan te nemen dat deze leerlingen fundamenteel van de andere leerlingen verschillen, noch wat betreft de resultaten, noch wat betreft de achtergrondvariabelen. De periode van afname verschilt echter wel van die van de EB. Verlate afname van de Eindtoets Basisonderwijs In 2010 is voor het eerst de Eindtoets Basisonderwijs ook op een later moment in het schooljaar afgenomen. In plaats van begin februari is deze toets eind maart afgenomen (29, 30 en 31 maart). Deze toets wordt de Verlate Eindtoets genoemd (VEB). Dit was een proef om te onderzoeken of het 8 weken later afnemen van de toets zorgt dat de leerlingen beter voorbereid aan het voortgezet onderwijs beginnen leerlingen hebben deze VEB gemaakt. De jaargroep leerlingen die de VEB gemaakt heeft is niet in onze analyses meegenomen. De scholen die meededen aan het onderzoek naar de verlate eindtoets hadden ook leerlingen die de NT gemaakt hebben. Dat waren 68 leerlingen, waarmee het totaal aantal leerlingen bij wie op een verlaat moment een eindtoets is afgenomen komt op Opmerkelijk is dat het percentage leerlingen dat de NT gemaakt heeft bij deze jaargroep duidelijk hoger ligt dan bij de rest van de afnamen; 4,6 procent op het late meetmoment, tegenover 2,1 procent bij de reguliere afname. Dit kan te maken hebben met het feit dat bij de afname van de VEB de mogelijkheid tot gebruik van de NT duidelijker is benadrukt. Ook de VEB bestaat uit dezelfde onderdelen en hetzelfde aantal opgaven als de reguliere, papieren Eindtoets, maar bevat andere opgaven. Aangenomen kan worden dat de moeilijkheid van de VEB gelijk is aan de reguliere EB. Het blijkt echter dat deze groep relatief veel leerlingen bevat met een havo/vwo advies en relatief weinig leerlingen met een afwijkend formatiegewicht (0.30 of 1.20). Dit verschil is op de hoeveelheid leerlingen in onze steekproef echter zo klein dat het voor onze resultaten weinig effect heeft dat deze jaargroep niet in de analyses is meegenomen. Hoe de groep leerlingen die op een verlaat moment de eindtoets gemaakt heeft zich verhoudt tot de groep die op het reguliere moment de EB gemaakt heeft, is beschreven in een afzonderlijke rapportage (Roeleveld, Mulder & Paas, 2010). Uit dat verslag blijkt dat de verschillen in prestaties tussen de afnamemomenten verwaarloosbaar klein zijn. Toetsboekje Extra Het Toetsboekje Extra bevat opgaven die naast de EB gebruikt kunnen worden om de gegevens van de EB op dezelfde schaal te plaatsen als de toetsen van het Leerlingvolgsysteem (LVS). Deze toets gebruiken we om de verschillende afnamejaren met elkaar te verbinden zodat een vergelijking mogelijk is. Net als bij de vorige afname (Hemker, Kuhlemeier en Van Weerden, 2010) wordt deze niet gebruikt voor het bepalen van de vaardigheid van de populatie. 2.2 De gebruikte meetinstrumenten in jaargroep 4 De vaardigheden, meetinstrumenten en de vergelijking van de afnamejaren In jaargroep 4 zijn niet exact dezelfde vaardigheden gemeten als in jaargroep 8. De vaardigheden verschillen niet alleen wat betreft niveau, maar ook inhoudelijk. Dat kan natuurlijk ook niet anders, omdat de leerlingen beduidend jonger zijn en het onderwijs voor hen duidelijk anders is. Sommige basisvaardigheden die in jaargroep 8 niet getoetst worden, omdat vrijwel alle leerlingen deze dan beheersen, worden wel getoetst in jaargroep 4. Dit geldt voor technisch lezen maar ook voor simpele rekenopgaven, zoals Optellen en aftrekken. Aan de andere kant zijn er natuurlijk ook vaardigheden die gemeten worden in jaargroep 8 die in jaargroep 4 nog niet onderwezen worden zoals het rekenen met breuken, procenten en verhoudingen. Al met al zijn in jaargroep 4 voor Nederlandse taal vier vaardigheden gemeten: Begrijpend lezen, Spelling, Woordenschat en Technisch lezen. Bij Rekenen-Wiskunde gaat het ook om vier vaardigheden: Getallen en getalsrelaties, Optellen en aftrekken, Vermenigvuldigen en delen en Meten, tijd en geld. 11

14 De taalvaardigheden Begrijpend lezen en Spelling en de vier rekenvaardigheden zijn in alle drie de jaren (2008, 2009 en 2010) met dezelfde toetsen gemeten, namelijk met toetsen uit het leerlingvolgsysteem (LOVS) die aan het einde van het vierde leerjaar gemaakt worden (E4). Deze taaltoetsen bestaan uit een startmodule en een vervolgmodule. Welke vervolgmodule de leerling maakt, kan per leerling verschillen. De rekentoets bestaat ook uit twee delen, maar beide delen worden door alle leerlingen gemaakt. Deze rekentoets bestaat uit 54 opgaven: 13 opgaven hebben betrekking op Getallen en getalsrelaties, 12 op Optellen en aftrekken, 14 op Vermenigvuldigen en delen en 15 op Meten, tijd en geld. De vaardigheid Woordenschat wordt vanaf de peiling van 2009 gemeten met de nieuwe woordenschattoets van het LOVS. Technisch lezen is deze peiling (2010) voor het eerst meegenomen. Deze vaardigheid is gemeten met een leestempotoets uit het pakket van LOVS-toetsen voor jaargroep 4. Alle leerlingen maakte dezelfde toets. Voor de eigenschappen van deze toetsen wordt verwezen naar de handleidingen en wetenschappelijke verantwoordingen van de LOVS-toetsen. 2.3 Datasets voor kalibratie en vergelijking Voor de gegevens van groep 8 moest eerst nieuwe schaling plaatsvinden, immers de belangrijkste toets, de papieren versie van de Eindtoets wordt elk jaar vernieuwd. Dat is in groep 4 anders. Daar zijn de toetsen overwegend van jaar op jaar hetzelfde en is de schaling reeds uitgevoerd. Wel hebben we daar te maken met aanvullende of vernieuwde toetsen. Op basis van de gegevens die bij elkaar kunnen worden gebracht van de verschillende toetsen in groep 8 kan een dataset worden samengesteld waarop de kalibratie van de meetschalen kan plaats vinden (zie verder H4). Dit noemen we de kalibratieset. Dit kan een andere dataset zijn dan het bestand dat nodig is om de vergelijking van prestaties over de jaren te maken Het vergelijken over de jaren De reguliere EB s voor de verschillende jaren hebben geen opgaven gemeenschappelijk. Daardoor is vergelijking in de tijd niet zonder meer mogelijk. Om de resultaten van 2010 toch met die van 2008 en 2009 te kunnen vergelijken is gebruikgemaakt van Item Response Theorie (IRT). Om die techniek toe te kunnen passen moeten de toetsen waarvoor een te construeren gemeenschappelijke vaardigheidsschaal bepaald wordt opgaven gemeenschappelijk hebben. Deze overlap is op drie manieren verkregen. Ten eerste is er een proefonderzoek gehouden waarin leerlingen voor de EB bestemde conceptopgaven voorgelegd kregen. Ten tweede hebben we het eerder genoemde Ankerboekje gebruikt, dat opgaven bevat die ook in 2008 en 2009 zijn afgenomen. Ten derde is het Toetsboekje Extra gebruikt dat in alle drie de jaren ongewijzigd is. Dankzij de leerlingen die zowel het Toetsboekje Extra als de EB hebben gemaakt, is het ook mogelijk de EB s van de drie verschillende jaren met elkaar te vergelijken. Merk op dat er ook leerlingen waren die het Toetsboekje Extra gemaakt hebben, maar niet de reguliere EB. Zij hebben in plaats van de EB het Ankerboekje, de NT, de VEB of de DEB gemaakt. Door voor de toepassing van de techniek van IRT te kiezen hoeven we voor het maken van schalen (meetlatten) geen willekeurige steekproef te gebruiken, omdat de schattingen op basis van IRT onafhankelijk van de populatie zijn. Voor het meten van de vaardigheden in de verschillende jaren en het vergelijken van de groepen is per jaar uiteraard wel een representatieve willekeurige steekproef noodzakelijk. Daarom is, na het maken van de vaardigheidsschalen, een andere dataset op basis van een willekeurige steekproef gebruikt voor de analyse van de resultaten voor 2010 en de vergelijking van deze resultaten met 2008 en Die dataset wordt de onderzoekssteekproef genoemd. Deze wordt verder beschreven in hoofdstuk 3. 12

15 2.3.2 Kalibratieset Bij de samenstelling van de kalibratieset voor de schaling van de verschillende toetsen in groep 8 is het belangrijk er voor te zorgen dat het aantal leerlingen dat toetsen heeft gemaakt waarbij de opgaven over de jaren heen hetzelfde zijn, in het bestand zo groot mogelijk is. De samengestelde kalibratieset voor groep 8 bevat derhalve alle leerlingen die zowel de Niveautoets, het Ankerboekje als het Toetsboekje Extra in combinatie met de EB gemaakt hebben. De dataset is aangevuld met een willekeurige steekproef van leerlingen die alleen de reguliere EB gemaakt hebben, maar niet al in de dataset zijn opgenomen. Het aantal leerlingen in de kalibratieset per toets per afnamejaar is weergeven in tabel 2.1 Tabel 2.1 Aantal leerlingen in de kalibratieset per toets per afnamejaar Aantal leerlingen Totaal Alleen Eindtoets Ankerboekje Niveautoets Eindtoets en Toetsboekje Extra Totaal Bij deze dataset zijn nog twee opmerkingen te maken. Ten eerste zijn niet alle beschikbare leerlingen in de statistische analyse betrokken. Het analyseprogramma kan namelijk niet meer dan ongeveer observaties per opgave aan. Deze beperking is alleen ten koste gegaan van de leerlingen die alleen de EB gemaakt hebben. Omdat de itemparameterschattingen in IRT-analyses populatieonafhankelijk zijn, is dit voor de schaling geen probleem. Ook zijn de leerlingen die buiten de onderzoekspopulatie vallen (zie voor een beschrijving van de onderzoekspopulatie hoofdstuk 3) niet in deze dataset opgenomen. Dit betreft bijvoorbeeld leerlingen die de toets in het buitenland gemaakt hebben, of leerlingen die in het voortgezet onderwijs of het speciaal basisonderwijs zitten. Ten tweede hebben we in deze analyses ook de parameters van de opgaven uit het Toetsboekje Extra geschat. De desbetreffende opgaven zijn echter alleen gebruikt voor de vergelijking in de tijd (dit wil zeggen: het schalen van de eindtoetsen uit de drie verschillende jaren), omdat het Toetsboekje Extra onder iets andere condities is afgenomen dan de reguliere EB. Op de schatting van de parameters van de eindtoetsopgaven heeft het verschil in afnamecondities echter geen verstorend effect. Doordat deze conditie voor alle drie de jaren gelijk is, zijn deze gegevens voor de schaling goed bruikbaar. De schattingen van de itemparameters zijn op twee manieren gecontroleerd. Ten eerste zijn de parameters vergeleken met de parameters die gevonden zijn bij het eerder genoemde proefonderzoek met de EB. Ten tweede is gecontroleerd of de gevonden parameters ook stand hielden bij de dataset die gebruikt is voor de vergelijking van de leerresultaten in de drie jaren. Deze controles leverden bevredigende resultaten op. 13

16 14

17 3 De opzet van het onderzoek: onderzoekspopulatie en achtergrondvariabelen Zowel in de meting van het niveau van de taal- en rekenvaardigheid in jaargroep 4 als in jaargroep 8 betreft de onderzoekspopulatie de leerlingen in het reguliere basisonderwijs in Nederland. Hierdoor worden gegevens uit het speciaal onderwijs en het speciaal basisonderwijs niet opgenomen. Het onderzoek is zo opgezet dat scholen zo min mogelijk werk hebben aan de afnamen. In jaargroep 8 is dit gedaan door de gegevens van de Eindtoets Basisonderwijs (EB) en de Niveautoets (NT) te gebruiken. Hierdoor is bij de scholen geen extra toetsdruk of extra werk ontstaan, terwijl er sprake is van een enorme steekproef uit de landelijke populatie. De verdeling van de achtergrondgegevens van de gemeten leerlingen verschilt vrijwel niet van de landelijke verdeling. Er is dan ook geen reden om aan te nemen dat het vaardigheidsniveau van de gemeten en niet gemeten leerlingen in jaargroep 8 substantieel verschilt. Sommige scholen nemen de EB niet bij de minst vaardige leerlingen af. Van deze leerlingen hebben we echter wel gegevens van de NT. Daardoor beschikken we toch over gegevens over het onderste gedeelte van vaardigheidsverdeling waar zich de minder vaardige leerlingen bevinden. In jaargroep 4 is gebruikgemaakt van toetsen uit het leerlingvolgsysteem (LOVS). Ook scholen die niet standaard deze toets afnemen zijn hiervoor benaderd. Bij reguliere afnames van deze toetsen sturen de scholen de resultaten niet terug naar Cito, maar dat hebben zij wel gedaan voor dit onderzoek. Ook is deze scholen gevraagd achtergrondgegevens van de leerlingen op te sturen, zoals geslacht en leeftijd. In het onderzoek zijn de leerlingen geanonimiseerd en zijn de resultaten niet meer terug te voeren op individuele leerlingen of scholen. Omdat dit meer werk van scholen vergt, is een relatief kleine steekproef van 100 scholen getrokken voor dit onderzoek, met rond de 2500 leerlingen. Omdat er een verschil is in opzet en omdat het aantal variabelen ook verschilt over de verschillende leerjaren wordt de beschrijving van de onderzoekspopulatie en de achtergrondvariabelen voor jaargroep 8 en jaargroep 4 afzonderlijk gegeven. De onderzoekspopulatie en achtergrondvariabelen in jaargroep 8 De onderzoekspopulatie van JPON betreft een representatieve steekproef van de leerlingen in 2008, 2009 en 2010 in jaargroep 8 van het basisonderwijs in Nederland bij wie de EB of de NT is afgenomen. Tabel 3.1 vermeldt het aantal leerlingen en het aantal scholen waarvan gegevens beschikbaar zijn. Tabel 3.1 Aantal en percentage scholen en leerlingen in de onderzoekspopulatie Totaal Aantal leerlingen Totaal In onderzoekspopulatie Percentage van totaal 95,72 95,64 94,59* 95,33 Aantal scholen Totaal In onderzoekspopulatie Percentage van totaal 93,57 93,46 92,48* 93,17 * Dit percentage is iets lager dan in voorgaande jaren, doordat scholen die aan de verlate afname van de Eindtoets hebben deelgenomen niet in de analyses zijn meegenomen. Leerlingen kunnen om verschillende redenen buiten de onderzoekspopulatie vallen. Het betreft leerlingen die een de digitale variant van de EB gemaakt hebben (957 leerlingen in 2008; 1125 in 2009 en in 2010) en leerlingen die de EB in het buitenland gemaakt hebben (218 leerlingen in 2008; 270 in 2009 en 279 in 2010). Net als in voorgaande jaren is er ook in 2010 een groep instellingen in deze data aanwezig 1 In de dataset zit ook een leerling die gestart was met de digitale toets, maar op papier de toets heeft afgemaakt. Deze is niet bij de digitale en niet bij de reguliere afname gerekend. Evenmin is deze leerling deel van de onderzoekspopulatie. 15

18 die geen basisonderwijs aanbiedt of waarbij het niet duidelijk is of het een reguliere basisschool betreft. In deze groep zitten bijvoorbeeld ook leerlingen uit het speciaal (basis)onderwijs of het voortgezet onderwijs. Omdat de leerlingen van deze scholen niet tot de onderzoekspopulatie behoren, zijn ze niet meegenomen in de analyses. In de peiling van 2010 is er nog een reden bijgekomen voor exclusie uit de onderzoekspopulatie, namelijk deelname aan het onderzoek van de verlate afname van de EB. Een verlate afname heeft plaatsgevonden op 55 scholen bij 1466 leerlingen. Van die leerlingen hebben 1398 leerlingen de Verlate Eindtoets (VEB) gedaan en 68 leerlingen de NT. Al deze leerlingen vallen wegens het andere moment van afname in vergelijking met vorige peilingen buiten de onderzoekspopulatie. Samen vormen de 1466 leerlingen die om deze reden niet in de onderzoekspopulatie zijn opgenomen 0,99 procent van het totaal aantal leerlingen. Als deze leerlingen wel in de analyses zouden zitten dan zou het percentage van het totaal aantal leerlingen met 95,58 weer dicht bij het gevonden percentage liggen van 2008 en Hetzelfde geldt voor het percentage scholen. Er zijn geen gegevens van CBS of DUO (voorheen CFI) beschikbaar per leerjaar, maar alleen per leeftijdsgroep. Op basis van eigen gegevens over de verdeling van de leeftijd over de verschillende leerjaren kan geschat worden dat in 2008, 2009 en 2010 tussen de en de leerlingen in jaargroep 8 van het reguliere basisonderwijs zaten. Dat betekent dat tussen de 75 en 80 procent van de leerlingen die in 2010 in jaargroep 8 van het basisonderwijs zaten in ons onderzoek betrokken is. Behalve de toetsresultaten zijn van de leerlingen dezelfde achtergrondkenmerken verzameld als in 2008 en Voor de meeste achtergrondkenmerken zijn de definities gelijk gebleven. Het gaat daarbij om de volgende ongewijzigde achtergrondkenmerken: geslacht, leertijd, thuistaal, soort toets en advies VO. Bij de variabele afnamejaar is een categorie toegevoegd. Naast 2008 en 2009 heeft deze variabele ook de categorie Bij de variabele leertijd onderscheiden we twee categorieën: regulier: de leerlingen in jaargroep 8 die op 1 oktober van het jaar vóór de afname niet ouder zijn dan 11 jaar (voor de EB in 2010 is deze datum 1 oktober 2009; enzovoort voor 2008 en 2009). vertraagd: de leerlingen die op dat moment 12 jaar of ouder zijn. Bij de variabele thuistaal zijn er drie hoofdcategorieën onderscheiden, te weten Alleen Nederlands, Nederlands plus een andere taal en Alleen een andere taal. Er is bij de variabele thuistaal ook een onderscheid gemaakt naar specifieke andere talen. Deze talen zijn Turks, Arabisch, Surinaams/Antilliaans en een West-Europese taal. Om voldoende leerlingen in de verschillende groepen te hebben zijn de leerlingen die alleen deze andere taal spreken samengenomen met de leerlingen die deze andere taal samen met Nederlands thuis spreken. Bij de variabele soort toets wordt onderscheid gemaakt tussen deelnemers aan de EB en de NT. Met de variabele advies VO wordt bedoeld het (ingeschatte) niveau van de opleiding die de leerling na jaargroep 8 in het voortgezet onderwijs kan volgen. Dit betreft het advies van de leerkracht voor de leerling, voordat de EB is afgenomen. Hier zijn negen categorieën onderscheiden. De vijf hoofdcategorieën zijn: BB: basisberoepsgerichte leerweg binnen het vmbo; KB: kaderberoepsgerichte leerweg binnen het vmbo; GT: gemengde of theoretisch leerweg binnen het vmbo; havo; vwo. De vier overige categorieën zijn de tussenliggende categorieën: BB/KB, KB/GT, GT/havo en havo/vwo. In de rapportage van de resultaten worden alleen de resultaten van de vijf hoofdcategorieën gegeven. De gemengde categorie KB/GT is in 2009 als afzonderlijke categorie geschrapt; toch vinden we deze gemengde categorie nog terug in onze gegevens. De reden is dat sommige leraren zowel KB als GT aangekruist hebben. Het aantal waarnemingen in die categorie is echter wel sterk afgenomen. De leerresultaten voor de tussenliggende categorieën liggen conform de verwachting tussen de resultaten van de twee aangrenzende hoofdcategorieën. 16

19 Van het belangrijke individuele leerlingkenmerk formatiegewicht is echter de definitie veranderd ten opzichte van de definitie zoals die gegeven is bij de vorige peilingen. De definitie van formatiegewicht was in de oude gewichtenregeling als volgt: 1.25 voor Nederlandse arbeiderskinderen (in termen van opleidings- en/of beroepsniveau van de ouders); 1.40 voor schipperskinderen in een internaat of pleeggezin; 1.70 voor kinderen uit de reizende en trekkende bevolking; 1.90 voor kinderen van wie ten minste één van de ouders van niet-nederlandse herkomst is (en beperkingen kent in opleidings- en/of beroepsniveau); 1.00 voor alle andere kinderen. Voor de analyses werden in de voorgaande jaren de gewichten 1.25, 1.40 en 1.70 bij elkaar genomen, aangezien de gewichten 1.40 en 1.70 zeer weinig voorkwamen. Doordat de formatiegewichten voor het basisonderwijs opnieuw zijn gedefinieerd en gefaseerd zijn ingevoerd (de laatste fase is in schooljaar afgerond) vielen de leerlingen in jaargroep 8 in 2010 voor het eerst onder de nieuwe gewichtenregeling. Bij de nieuwe formatiegewichten worden drie typen ouders onderscheiden (zie Brochure nieuwe gewichtenregeling basisonderwijs, april 2008, van DUO-CFI zie ook Vereenvoudigd weergegeven ziet dat er als volgt uit: categorie 1: de ouder heeft maximaal (speciaal) basisonderwijs gehad. categorie 2: de ouder heeft maximaal lbo/vbo, praktijkonderwijs, vmbo basis- of kaderberoepsgerichte leerweg gedaan, of de ouder heeft maximaal twee leerjaren van een andere opleiding in het VO gedaan. categorie 3: de ouder heeft meer dan twee jaar mavo, havo, vwo dan wel vmbo gemengde of theoretische leerweg gevolgd. De formatiegewichten (nieuw) zijn als volgt gedefinieerd: 0.00: (geen gewicht) voor leerlingen met (minstens) één ouder uit categorie : leerlingen die niet gewicht 0.00 en niet gewicht 1.20 hebben 1.20: leerlingen die geen ouder hebben in categorie 3 en (minstens) één ouder in categorie 1 Een verschil met de oude gewichten is dat bij de nieuwe definities van de formatiegewichten de herkomst van de ouders geen rol meer speelt. Wat de gevolgen van de veranderde definitie zijn voor de analyses wordt beschreven in hoofdstuk 4. Merk op dat veel scholen ook impliciet aangeven dat een leerling geen formatiegewicht heeft door bij deze achtergrondvariabele niets in te vullen. Aangezien het in principe ook mogelijk is dat er leerlingen met een formatiegewicht waren bij wie geen formatiegewicht is opgegeven, is er voor gekozen om bij de presentatie van de resultaten van formatiegewicht de leerlingen waarvoor niets is aangegeven buiten beschouwing te laten. We hebben in een analyse de leerlingen zonder gewicht en leerlingen waarvoor niets is aangegeven met elkaar vergeleken. Daarbij zijn geen significante verschillen tussen de twee groepen gevonden. Naast de leerlingkenmerken zijn ook schoolkenmerken in de analyses opgenomen. Bij de variabelen regio en urbanisatiegraad zijn de niveaus onveranderd ten opzichte van 2008 en De indelingen van regio en urbanisatiegraad zijn gebaseerd op de indeling van het CBS. Regio is een vierdeling op basis van de provincie waarin de school zich bevindt: Noord: Groningen, Friesland, Drenthe Oost: Overijssel, Gelderland, Flevoland West: Utrecht, Noord-Holland, Zuid-Holland, Zeeland Zuid: Noord-Brabant, Limburg 17

20 Urbanisatiegraad is ingedeeld op basis van postcode. Het betreft een vijfdeling die ook binnen CBSpublicaties gebruikt wordt: Zeer sterk stedelijk Sterk stedelijk Matig stedelijk Weinig stedelijk Niet stedelijk De variabele stratum betreft een indeling van scholen op basis van schoolgewicht. Het schoolgewicht is hierbij gebaseerd op de (oude) formatiegewichten van de leerlingen en bestaat uit de ratio van het gewogen aantal leerlingen en het nominale aantal leerlingen, met aftrek van een correctieterm van het gewogen aantal leerlingen. Deze correctieterm bedraagt 9 procent van het nominale aantal leerlingen. Hierdoor heeft het schoolgewicht (uitgaande van de oude formatiegewichten) een bereik van 0.91 tot en met Deze stratumindeling weerspiegelt in globale termen een indeling van de schoolpopulatie op basis van sociaaleconomische achtergrond. Voor de variabele stratum (oud) is een driedeling van schoolgewichten gemaakt: Stratum 1 oud: overwegend kinderen van ouders met afgeronde opleiding, weinig allochtone kinderen ( ) Stratum 2 oud: relatief meer 1.25 leerlingen, relatief weinig ouders met alleen basisschool ( ) Stratum 3 oud: vooral leerlingen met ouders met (zeer) lage opleidingen, en allochtone kinderen ( ) Door de veranderde definitie van formatiegewicht verandert echter ook het gemiddelde formatiegewicht waarop de oude stratumdefinitie is gebaseerd. Dit leidt tot mogelijke nieuwe definities van stratum met een andere driedeling. De eerste mogelijke nieuwe definitie is gebaseerd op het gemiddelde (nieuwe) formatiegewicht. Dit worden de nieuwe strata genoemd. Ten tweede kan in plaats van een school te typeren door middel van het gemiddelde formatiegewicht, een school ook getypeerd worden door het percentage gewichtsleerlingen. Hierbij wordt gekeken hoeveel procent van de leerlingen op een school (nieuw) formatiegewicht 0.30 of 1.20 heeft. Er wordt daarbij geen onderscheid gemaakt tussen de 0.30 en de 1.20 leerlingen. Aangezien een dergelijke indeling ook bij de onderzoeken voor het LOVS gebruikt wordt, worden dit de LOVS-strata genoemd. In dit onderzoek is gebruikgemaakt van de oude stratumdefinitie, gebaseerd op de oude leerlinggewichten. Deze oude strata kunnen toch gebruikt worden, omdat in tegenstelling tot de oude gewichten van de leerlingen, wel goed te achterhalen is wat de oude strata van de scholen waren. Het voordeel van het gebruik van de oude definitie van stratum is dat deze variabele gebruikt kan worden voor de vergelijking van de prestaties in de verschillende afnamejaren. Dat kan niet in het geval van de andere twee definities. Voor de analyses van alleen de data uit 2010 is ook onderzoek gedaan of er verschillen gevonden worden voor de drie verschillende definities van stratum (oud, nieuw, of LOVS). In hoofdstuk 4 is verder beschreven hoe met de verschillende definities is omgegaan. De onderzoekspopulatie en de achtergrondvariabelen in jaargroep 4 In 2010 zijn in jaargroep 4 dezelfde achtergrondkenmerken gebruikt als in 2008 en 2009 (met dien verstande dat de categorie 2010 is toegevoegd aan de variabele Afnamejaar). De vergelijking van de drie onderzoeksjaren zal niet direct op basis van de totaalscores gedaan worden. Een belangrijke reden is dat de samenstelling van de steekproef kan fluctueren. Dat is bij een relatief kleine steekproef (rond de 2500 leerlingen) in jaargroep 4 eerder het geval dan bij de omvangrijke steekproef in jaargroep 8. Aangezien de verwachte veranderingen van de leerprestaties in een tijdbestek van één jaar relatief klein zijn, kunnen kleine steekproeffluctuaties relatief grote effecten hebben. Voor deze steekproeffluctuaties wordt gecorrigeerd. Dit doen we met behulp van wegingen en het berekenen van gecorrigeerde effecten. De basis voor de analyses is het item response model (zie ook hoofdstuk 4). Hoewel veruit de meeste leerlingen opgaven van alle schalen gedaan hebben is het niet, zoals bij de metingen in jaargroep 8, zo dat echt alle vaardigheden bij alle leerlingen van de steekproef gemeten zijn. Zo is het aantal leerlingen dat de rekentoetsen gedaan heeft (opgaven van alle 4 de schalen) iets lager dan 18

21 het aantal dat de taaltoetsen gedaan heeft, waarbij Begrijpend lezen en Spelling door iets meer leerlingen gedaan zijn dan Woordenschat. De reden waarom er geen observaties zijn voor Woordenschat in 2008 is dat de afname in 2008 onder andere condities heeft plaatsgevonden dan in 2009 en 2010, zodat een jaarvergelijking niet mogelijk is. Dit is verder beschreven in het verslag van 2009 (Hemker, Kuhlemeier & Van Weerden, 2010). Tabel 3.2 Aantal leerlingen in de analyses bij jaargroep 4 per vaardigheid Vaardigheid Totaal Aantal leerlingen Taal Begrijpend lezen Spelling Woordenschat Rekenen-Wiskunde (alle schalen) De gebruikte achtergrondvariabelen in jaargroep 4 komen grotendeels overeen met de achtergrondvariabelen die gebruikt zijn voor het onderzoek in jaargroep 8. De basisvariabelen zijn gelijk. Dat zijn de variabelen afnamejaar (categorieën: 2008, 2009 en 2010; bij Woordenschat alleen 2009 en 2010), stratum, formatiegewicht, geslacht en leertijd. Ook zijn de extra variabelen regio, urbanisatiegraad en thuistaal meegenomen. De definities van de meeste van deze variabelen zijn vergelijkbaar met die in jaargroep 8. Bij de variabele leertijd zijn de leeftijden uiteraard anders dan bij jaargroep 8: daar waar 11 jaar de referentieleeftijd op 1 oktober bij jaargroep 8 is, is dat 7 jaar bij jaargroep 4. Bij de variabele formatiegewicht (voor definitie zie beschrijving bij jaargroep 8) zijn de nieuwe gewichten in jaargroep 4 al in 2009 ingevoerd. Dat houdt in dat bij de vorige peiling al met de nieuwe gewichten gewerkt is. Bij de analyses van 2008 en 2009 samen was het niet goed mogelijk een duidelijk onderscheid te maken tussen de oude en de nieuwe gewichten. Opvallend was bijvoorbeeld dat sommige scholen in 2008 al over waren gegaan op de nieuwe gewichten, terwijl andere scholen nog bij de oude gewichten bleven in In 2010 hebben nu wel (bijna) alle leerlingen het juiste (nieuwe) formatiegewicht. Bij de analyses hebben we onderscheid gemaakt tussen de oude en de nieuwe gewichten dit in tegenstelling tot wat bij de analyses in 2009 gedaan is 2. Een beschrijving hiervan is te vinden in hoofdstuk 4. Voor het gemak van de vergelijking en op basis van de resultaten bij jaargroep 8, is ervoor gekozen om bij de analyses van jaargroep 4 de definitie van stratum (oud) aan te houden. Bij de variabele thuistaal is dezelfde driedeling gemaakt als in jaargroep 8 (Alleen Nederlands; Nederlands en een andere taal; Alleen een andere taal). Er zijn te weinig observaties om meer in detail te kijken naar thuistaal, zoals dat wel mogelijk is voor jaargroep 8. De indeling van de variabelen regio en urbanisatiegraad is identiek aan die bij jaargroep 8. 2 In de analyses was een driedeling voor formatiegewicht gebruikt waarbij geen onderscheid gemaakt was tussen oude en nieuwe gewichten. Dit leverde op: F1: geen gewicht: 1.00 oud en 0.00 nieuw samen; F2: laag gewicht: 1.25, 1.40 en 1.70 oud, en 0.30 nieuw samen; en F3: hoogst gewicht: 1.90 oud en 1.20 nieuw samen. 19

22 20

23 4 Analyse en rapportage: opgaven en groepseigenschappen op één schaal Om de vaardigheidscores van de drie opeenvolgende jaren met elkaar te kunnen vergelijken, moet er aan twee statistische voorwaarden zijn voldaan: 1 De vaardigheden moeten in 2010 op dezelfde schaal gemeten zijn als in 2008 en De samenstelling van de responsgroep moet op de belangrijkste achtergrondvariabelen ongewijzigd zijn gebleven, dan wel vergelijkbaar zijn te maken. Aan de eerste voorwaarde is voldaan door de toepassing van een item respons model (IRT-model), waarmee leerlingen die verschillende opgaven gemaakt hebben toch op een vaardigheidsschaal geplaats kunnen worden en dientengevolge met elkaar te vergelijken zijn. Aan de tweede voorwaarde is voldaan door een steekproef te trekken die zo representatief mogelijk is voor de populatie. Voor zover de steekproef geen goede afspiegeling bleek van de populatie, is door middel van weging gecorrigeerd. Het feit dat de definitie van formatiegewicht veranderd is zorgde voor een nieuwe uitdaging. In dit hoofdstuk worden de statistische analyse en de wijze van rapporteren beknopt beschreven. Veel elementen komen overeen met die van de vorige peiling (Hemker, Kuhlemeier & Van Weerden, 2010), maar er zijn ook een aantal verschillen. Vergeleken met het verslag van de vorige peilingen wordt er nu minder aandacht aan de interpretatie van de opgaven gegeven. De meeste informatie over de niet eerder gebruikte opgaven staat nu in een bijlage. Voor informatie over de oude, opnieuw gebruikte opgaven wordt verwezen naar het verslag van peiling van Een ander verschil met de vorige rapportage betreft de jaarvergelijkingen. Doordat de definitie van het formatiegewicht is aangepast, zijn jaarvergelijkingen met de variabele formatiegewicht niet goed mogelijk. Dat is ook het geval voor jaarvergelijkingen met andere stratumdefinities dan de oude. Daarom is er voor gekozen om de relaties tussen de achtergrondvariabelen specifiek voor 2010 te berekenen. In dit hoofdstuk wordt een inleiding gegeven op het gebruikte IRT-model en de wijze van schalen (paragraaf 4.1). In paragraaf 4.2 geven we aan hoe een dergelijke schaal te interpreteren is. Vervolgens beschrijven we hoe we gebruik maken van effectschattingen en hoe we die kunnen interpreteren om verschillen tussen de onderscheiden groepen te beschrijven. Speciale aandacht gaat hierbij uit naar het jaareffect; dit wil zeggen het verschil tussen de leerprestaties in 2008, 2009 en 2010 (paragraaf 4.3). Tot slot geven we per leerjaar (jaargroep 8 en jaargroep 4) aan welke modellen we gebruikt hebben om de effecten te bepalen (paragraaf 4.4). Hierbij komt ook aan bod hoe we omgaan met de verschillen in definitie bij de variabele formatiegewicht en welke verschillen de verschillende definities van de variabele stratum opleveren. 4.1 Toepassing van een IRT-model Om de opgaven uit de verschillende jaren op dezelfde schaal te plaatsen hebben we in deze studie gebruikgemaakt van de Conditional Maximum Likelihood (CML)-schattingsprocedures (Verhelst & Eggen, 1989) onder het One-Parameter Logistic Model (OPLM). Dit is uitgevoerd met het bijbehorende computerprogramma OPLM (Verhelst, Glas & Verstralen, 1995). Voor meer (statistische) informatie over dit meetmodel en de toepassing in dit onderzoek wordt verwezen naar Bijlage I ( Het gehanteerde meetmodel ). Deze schattingsprocedure vereist dat de toetsen uit deels dezelfde opgaven bestaan. Hoe deze overlap gecreëerd is, is eerder besproken in hoofdstuk 2. Het aantal overlappende opgaven uit de kalibratieset van jaargroep 8 is gelijk aan die bij de vorige peiling (tabel 4.1 in Hemker, Kuhlemeier & Van Weerden, 2010); dezelfde opgaven uit de Ankerboekjes en het Toetsboekje Extra om overlap tussen de verschillende afnamejaren te creëren. De overlap bij de afzonderlijke taaltoetsen is met circa 30 opgaven redelijk groot. Bij de rekentoetsen is de overlap bij de EB wat lager (tussen de 10 en 20 opgaven per schaal). Doordat de correlaties tussen de drie rekenschalen zeer hoog zijn (latente correlaties tussen de.92 en.96) is het mogelijk om deze rekenvaardigheden gezamenlijk te schalen. De overlap is hierdoor veel groter (40 opgaven). Na deze kalibratie van de gehele rekenschaal zijn de drie afzonderlijke schalen gemaakt op basis waarvan de leerprestaties in 2008, 2009 en 2010 beschreven zijn. 21

24 In jaargroep 4 is het aantal opgaven dat leerlingen uit de verschillende afnamejaren met elkaar gemeen hebben maximaal; in 2008, 2009 en 2010 zijn dezelfde toetsen gemaakt. Enige uitzondering is de vaardigheid Woordenschat, waarbij de leerlingen in 2008 onder andere condities getoetst zijn, waardoor de vergelijking tussen 2008 en de latere jaren niet mogelijk is. Doordat de leerlingen in 2010 dezelfde toets gemaakt hebben als de leerlingen in 2009 kan in dit verslag wel een jaarvergelijking tussen de jaren 2009 en 2010 gegeven worden. De steekproeven die gebruikt zijn voor de populatieschattingen voor jaargroep 8 bevatten in totaal gegevens van leerlingen. Dit betreft leerlingen uit 2008, leerlingen uit 2009 en uit Bij deze aantallen werd het aantal van observaties per opgave niet overschreden (Zoals we in hoofdstuk 2 reeds hebben opgemerkt kan het analyseprogramma OPLM niet meer dan ongeveer observaties per opgave aan). De steekproeven zijn per jaar getrokken door 20 procent van de leerlingen uit de onderzoekspopulatie te nemen. De steekproeven zijn getrokken uit de gehele verzameling van leerlingen, zonder eerst een trekking op schoolniveau. Dit heeft tot gevolg dat iedere leerling een even grote kans had om in steekproef te komen. Een school komt dan ook naar rato voor in de steekproef: Het voordeel hiervan is dat school of klasseneffecten hierdoor geminimaliseerd worden. De verkregen steekproeven zijn vergelijkbaar met de totale onderzoekspopulatie wat betreft de verdeling van de achtergrondvariabelen en wat betreft de verdeling van de leerlingen over de drie toetsen: de reguliere Eindtoets, de Ankertoets en de Niveautoets. De verdeling van de achtergrondvariabelen van de eerdere jaren zijn gegeven in eerdere verslagen. De verdeling van de achtergrondvariabelen voor 2010 zijn gegeven in Bijlage II (Verdeling van de achtergrondkenmerken in jaargroep 8 in 2010). Doordat de verdeling van de achtergrondvariabelen in de steekproef vrijwel gelijk is aan de verdeling in de populatie is weging niet noodzakelijk. De uiteindelijke schattingen van de verdeling van de populatie zijn overigens wel gedaan met weging, maar verschillen niet van die zonder weging. De dataset voor de schatting van de populatieverdelingen in groep 8 is afzonderlijk geanalyseerd voor de zes verschillende vaardigheden, waarbij gekeken is of de eerder gevonden parameters een goede beschrijving van de data gaven. Door het grote aantal observaties per opgave (meer dan voor de EB-opgaven) is de statistische power zeer groot. Een statistische passing is in een dergelijk geval moeilijk te verkrijgen. We hebben daarom ook gekeken naar de grootte van de verschillen van de geschatte en de geobserveerde beschrijving van de opgaven. Dat is gedaan door de geschatte item response functie te vergelijken met punten op de geobserveerde item response functie (Verhelst, Glas & Verstralen, 1995; zie Bijlage I). Dan valt op dat de gevonden verschillen mogelijk wel significant zijn, maar dusdanig klein dat zij vrijwel geen effect hebben op de beschrijving van de opgaven en de schattingen van de vaardigheden. In de enkele gevallen waarbij wel opgaven uit de analyse verwijderd zijn wegens zeer ernstige afwijkingen van het model, wordt dat beschreven bij resultaten (hoofdstuk 5 tot en met 7). Voor jaargroep 4 zijn voor de schatting van de parameters en van de populatie geen aparte steekproeven genomen. De steekproef voor de populatieschattingen is een willekeurige steekproef en een aparte steekproef om de overlap in opgaven te maximaliseren is voor jaargroep 4 niet nodig. Doordat de steekproef een stuk kleiner is (ongeveer 2500 leerlingen per jaar), kunnen verschillen in de verdeling van de achtergrondvariabelen in de steekproef met die van de populatie eerder voorkomen. Dit is opgelost door bij de populatieschattingen gebruik te maken van wegingen. 4.2 De vaardigheidsschaal: rapportage van de populatie Per vaardigheid per leerjaar (jaargroep 4 en jaargroep 8) is met behulp van IRT een afzonderlijke schaal gemaakt waarin alle drie de afnamejaren gerepresenteerd zijn. Dit houdt in dat er voor jaargroep 8 zes vaardigheidsschalen zijn (drie taal- en drie rekenschalen) en voor jaargroep 4 zeven (drie taal- en vier rekenschalen). Op deze schalen worden de populaties en de opgaven van 2008, 2009 en 2010 afgebeeld. De schaalwaarden zijn per vaardigheid zo gedefinieerd dat het gemiddelde van de populatie in 2008 de waarde 250 kreeg en de standaarddeviatie gelijk was aan 50. Deze schaaltransformatie is gebruikelijk in PPON-onderzoek en is dezelfde schaal als gebruikt is in de eerdere rapporten betreffende de jaarlijkse peilingen. Hiermee zijn de populatiewaarden van 2008 de referentiewaarden geworden. De populaties van 2009 en 2010 zijn ook op deze schaal geplaatst. De uitzondering is Woordenschat in 22

25 jaargroep 4, aangezien daar geen goede referentie van 2008 voor was. Bij die schaal is het gemiddelde van 2009 gelijk gesteld aan 250, met standaarddeviatie 50. Merk overigens op dat zowel in jaargroep 8 als in jaargroep 4 het gemiddelde op 250 is gezet. Deze waarden zijn niet met elkaar vergelijkbaar aangezien de leerlingen in jaargroep 8 (uiteraard) vaardiger zijn dan in jaargroep 4. Er is echter niet voor gekozen om een ander gemiddelde te gebruiken, omdat anders misschien de indruk zou worden gewekt dat beiden leerjaren op dezelfde schaal zouden staan en de afstand tussen die gemiddelde een betekenis zou hebben. De verschillen binnen een vaardigheid en leerjaar zijn daarentegen wel goed te interpreteren. Als binnen een leerjaar en vaardigheid het gemiddelde van 2010 lager dan 250 is, dan is de populatie als geheel minder vaardig geworden in vergelijking met de referentiepopulatie (meestal dus 2008), onder de aanname van een gelijke standaarddeviatie. Ligt het gemiddelde van 2010 daarboven dan is de populatie vaardiger geworden. Niet alleen de gemiddelden van de referentiepopulatie 2008 zijn gegeven, maar ook die van 2009 zodat ook voor de opvolgende jaren 2009 en 2010 de vergelijking kan worden gemaakt. Leerlingen op de vaardigheidsschaal: de typische leerlingen Het is niet alleen interessant om te vergelijken hoe de gemiddelden van verschillende groepen zich tot elkaar verhouden, maar het is ook nuttig om de vaardigheid van typische leerlingen te beschrijven: wat kan een zeer laag vaardige leerling nog net wel en wat is precies het beheersingsniveau van een zeer hoog vaardige leerling? In het verslag van 2008 en 2009 is uitgebreid op deze wijze gerapporteerd (Hemker & Van Weerden, 2009; Hemker, Kuhlemeier & Van Weerden, 2010). Het is mogelijk om de in 2010 geobserveerde vaardigheden te vergelijken met deze referentiepunten. Aangezien de definitie van de schaal niet over de jaren veranderd is, worden de typische leerlingen door middel van exact dezelfde referentiepunten op de schaal gedefinieerd als in de vorige twee peilingen. De referentiepunten zijn gedefinieerd op de vaardigheidsschaal zoals die in 2008 is vastgesteld en staan voor verschillende kenmerkende percentielwaarden: p10, p25, p50, p75 en p90. Tabel 4.1 Definitie van de typisch leerling als positie op de vaardigheidsschaal Typische leerling Positie op de vaardigheidsschaal Percentiel (2008) Zeer laag vaardige leerling (ZLV) Laag vaardige leerling (LV) Standaard leerling (St) Hoog vaardige leerling (HV) Zeer hoog vaardige leerling (ZHV) Deze referentiepunten kunnen gebruikt worden om de gemiddelden van verschillende groepen te interpreteren. Ook bij de jaarvergelijking zijn deze referentiepunten bruikbaar. Doordat de referentiepunten onveranderd zijn kan vergeleken worden of in de verschillende jaren er juist meer of minder laag of hoog vaardige leerlingen zijn. Bij de resultaten wordt voor de typisch leerlingen aangegeven hoeveel procent van de leerlingen in de verschillende jaren op die niveaus zitten. Die resultaten worden in jaarvergelijking in de samenvatting gegeven. Opgaven op de vaardigheidsschaal Niet alleen zijn groepen van leerlingen of typische leerlingen op de schaal te plaatsen, maar ook de opgaven. De inhoud van de schaal wordt gedefinieerd door de opgaven. Dat was al gebeurd met behulp van de opgaven van 2008 en 2009 (Hemker, Kuhlemeier & Van Weerden, 2010). De nieuwe opgaven van 2010, dat zijn de EB-opgaven, zijn ook op deze schaal te plaatsen. Deze opgaven kunnen weer vergeleken worden met de typische leerlingen. 23

26 Tabel 4.2 Omschrijving van opgave als kans (P) om het item goed te beantwoorden Omschrijving van een opgave Kans om de opgave goed te beantwoorden Gemakkelijke opgave P > 0,80 Uitdagende opgave 0,50 P 0,80 Moeilijke opgave P < 0,50 Of een opgave gemakkelijk, uitdagend of moeilijk is hangt natuurlijk ook af van de vaardigheid van de leerling. Bij de resultaten van hoofdstuk 6 en 7 waar met nieuwe opgaven gewerkt wordt, wordt aangegeven hoeveel van de nieuwe opgaven gemakkelijk, uitdagend of moeilijk is voor de vijf typische leerlingen. In Bijlage III ( De eigenschappen van de nieuwe opgaven in 2010 ) is voor de EB per opgave en per type leerling precies aangegeven wat de kans is dat een dergelijke leerling die opgave goed beantwoordt. Daarnaast staan ook de posities van de opgaven op de vaardigheidsschaal. Op basis daarvan kunnen inhoudelijke experts precies duiden wat de vaardigheid op de verschillende niveaus is. 4.3 Analyse en rapportage van prestatieverschillen Naast het plaatsen van de verdelingen voor de verschillende achtergrondvariabelen op de vaardigheidsschalen, is het ook mogelijk het verschil tussen onderscheiden groepen te beschrijven met behulp van effectschattingen. Deze effectschattingen geven de grootte en betekenis van het verschil tussen de groepen, gebaseerd op de categorieën van de achtergrondvariabelen aan. Tevens kan gekeken worden of dit verschil significant is. Door het gebruik van verschillende modellen kan worden onderzocht of een bepaalde variabele een toegevoegd effect heeft. Zo kan bijvoorbeeld gekeken worden of thuistaal nog een toegevoegd effect heeft bovenop dat van het formatiegewicht. We spreken dan van gecontroleerde effecten. Bij deze analyses moeten keuzes gemaakt worden in modellen, oftewel een keuze voor welke variabele(n) in de analyse wordt meegenomen en welke als controlevariabele dient. Ongecorrigeerde en gecorrigeerde effecten Welke effecten we berekenen hangt af van het model dat we aannemen. Als we een analysemodel kiezen met slechts één enkele variabele, bijvoorbeeld afnamejaar, dan hebben we een ongecorrigeerd effect. Als in het ene jaar het gemiddelde 250 was en het jaar erop 255, met een overeenkomstige standaarddeviatie van 50, dan is dat een effect van ( )/50 =,10. Als we een extra variabele, bijvoorbeeld geslacht, in het model opnemen corrigeren we voor die variabele. In dat geval wordt het jaareffect berekend binnen de subgroepen van die toegevoegde variabele: Jongens Meisjes Jaar Jaar Dan zien we dat zowel binnen de jaargroep jongens als meisjes de groei 5 punten in de vaardigheidsschaal is (van 248 naar 253 en van 252 naar 257). Dat is precies hetzelfde als het algemene jaareffect. Heel veel levert die correctie niet op, maar als we te maken hebben met een steekproef met steekproeffluctuaties, waarbij in het ene jaar er relatief veel meer jongens wordt geselecteerd in de steekproef en in het andere jaar relatief meer meisjes, dan is de controle wel zinvol. Stel dat in procent jongens was en in procent; dan zouden de ongecorrigeerde jaargemiddelden van 2008 en 2009 op 247 en 258 uitkomen en het ongecorrigeerde jaareffect op,22 in plaats van,10 (als er gecorrigeerd wordt voor geslacht). Dergelijke verschillen zijn natuurlijk extreem. De steekproeffluctuaties in jaargroep 8 zijn met deze steekproefgrootte verwaarloosbaar. Bij jaargroep 4 is het echter wel aan te raden om met gecorrigeerde effecten te werken. 24

27 Veranderde definitie van formatiegewicht In het verslag over de peiling van 2009 (Hemker, Kuhlemeier, en Van Weerden, 2010) zijn redenen aangegeven waarom het soms tot ongelukkige resultaten kan leiden als gecorrigeerde jaareffecten berekend worden. Dat is vooral het geval wanneer we te maken hebben met grote steekproeven, zoals in jaargroep 8, waarbij we ervanuit kunnen gaan dat de geobserveerde verschuivingen in de verdeling van de achtergrondvariabelen werkelijke verschuivingen in de populatie zijn. Om die reden waren in dat verslag naast de gecorrigeerde jaareffecten ook de ongecorrigeerde jaareffecten gegeven. Bij de analyses van de peiling in 2010 voor jaargroep 8 worden alleen de ongecorrigeerde jaareffecten gegeven. Dat heeft te maken met de veranderde definitie van formatiegewicht. Door de gewijzigde definitie van formatiegewicht is het percentage leerlingen zonder gewicht gestegen, terwijl het percentage leerlingen met het hoogste gewicht juist gedaald is. Dat kunnen we constateren als we de gewichtenverdeling van de 10-jarigen in 2009 vergelijken met die van de 11-jarigen in Dit zijn namelijk exact dezelfde leerlingen, maar we zien de percentages verschuiven van 80,6 naar 85,8 procent voor de leerlingen zonder gewicht en van 10,7 naar 5,8 procent voor de leerlingen met het hoogste gewicht. Het percentage voor de leerlingen met een laag gewicht blijft redelijk constant (van 8,7 naar 8,4 procent). De leerlingen met hogere gewichten scoren bij de meeste vaardigheden gemiddeld lager. De leerlingen die naar de geen gewicht categorie verschuiven zullen in vergelijking met de leerlingen die al in 2009 geen gewicht hadden gemiddeld een lagere vaardigheid hebben. De verschoven leerlingen zullen echter relatief vaardiger zijn ten opzicht van de leerlingen die in 2010 een gewicht blijven houden: de relatief goede leerlingen uit de oude categorie met een hoog gewicht zijn die met de gewijzigde definitie uit deze categorie verdwijnen. Dat houdt in dat in binnen beide categorieën een daling geconstateerd zou kunnen worden, zonder dat er sprake van een daling is voor de gehele groep: het is namelijk exact dezelfde totale groep. Het corrigeren voor een dergelijke variabele kan dus een zeer verkeerd beeld geven van het werkelijke jaareffect. Het bovenstaande principe is ook te illustreren met behulp van een voorbeeld. Stel we vinden het volgende resultaat op vaardigheidsschaal in 2009 en 2010, met in 2009 de oude gewichten (fgw oud) en in 2010 de nieuwe gewichten (fgw nw): Gemiddelde vaardigheid per categorie formatiegewicht Categorie leerlingen 2009 (fgw oud) 2010 (fgw nieuw) Geen formatiegewicht 256 ( 1.00) 255 ( 0.00) Laag formatiegewicht 231 ( 1.25) 230 ( 0.30) Hoog formatiegewicht 221 ( 1.90) 220 ( 1.20) Er kunnen twee typen gecorrigeerde resultaten gegeven worden. Het eerste is de verschillen tussen de formatiegewichten, gecorrigeerd voor jaar. In dat geval zien we dat binnen de jaren de verschillen tussen geen, een laag en een hoog gewicht onveranderd zijn. Voor beide jaren geldt dat het verschil tussen geen en laag gewicht gelijk is aan is 2 het verschil tussen laag en hoog 10 is. Zodoende is in beide jaren het verschil tussen geen en hoog gewicht gelijk aan 35. Het tweede type gecorrigeerd verschil is het verschil tussen 2009 en 2010 gecorrigeerd voor formatiegewicht: dat betekent dat we per formatiegewicht kijken naar het verschil tussen 2009 en We zien nu dat voor zowel geen als voor laag en hoog gewicht geldt dat 2009 precies 1 vaardigheidspunt hoger scoort dan Deze resultaten zouden tot de conclusie kunnen leiden dat er geen interactie is, en dat gecorrigeerd voor formatiegewicht 2009 beter scoort dan Deze correctie zou echter alleen mogelijk zijn als de definitie in beide jaren gelijk zou zijn, en dat is dus niet het geval. Houden we rekening met deze veranderde definitie dan komen we namelijk tot een ander resultaat. 25

28 Hiervoor hebben we de populatieverdelingen van de gewichten van de leerlingen nodig. Hieronder staan de realistische verdelingen van de leerlingen van 10 jaar en ouder in het basisonderwijs: Percentage leerlingen (per jaar) 2009 (fgw oud) 2010 (fgw nieuw) Geen formatiegewicht 78 ( 1.00) 85 ( 0.00) Laag formatiegewicht 10 ( 1.25) 9 ( 0.30) Hoog formatiegewicht 12 ( 1.90) 6 ( 1.20) Hierbij is het percentage leerlingen zonder een gewicht hoger geworden in 2010 en tegelijkertijd is het percentage leerlingen met een hoog gewicht duidelijk lager geworden Deze verschuiving is alleen te wijten is aan de veranderde definitie. Met behulp van de genoemde gemiddelde scores en de verdeling van de gewichten in beide jaren kunnen de jaargemiddelden van 2009 en 2010 berekend worden. Dit levert voor 2009 een gemiddelde vaardigheid op van 249,3 (= 0,78* ,10* ,12*221) en voor 2010 een gemiddelde vaardigheid van 250,7 (= 0,85* ,09* ,06*220). Het lijkt in de bovenstaande berekening alsof er in het bovenstaande correcties zijn toegepast, maar dit zijn juist de ongecorrigeerde gemiddelden voor 2009 en Het zijn namelijk de gemiddelde die we zouden vinden als we de populatie als geheel zouden meten en alleen naar het verschil in jaar zouden kijken. Als de steekproef zeer groot is, zoals in ons onderzoek binnen jaargroep 8 het geval is, dan zou het gevonden gemiddelde in 2009 gelijk zijn aan 249,3 en in 2010 gelijk aan 250,7. De enige factor in dat geval is jaar, het verschil in jaar van toetsing. Uit deze ongecorrigeerde jaargemiddelden blijkt dat in 2010 de populatie beter presteert dan in Dit voorbeeld laat twee dingen goed zien. Ten eerste het feit dat ook als de verschillen tussen de categorieën Geen, Laag en Hoog onderling in beide jaren gelijk zijn, dit niets betekent dat de andere definitie van formatiegewicht niets uitmaakt voor het populatiegemiddelde. Die kan veranderen terwijl de verschillen constant blijven, zoals uit bovenstaand voorbeeld ook blijkt. Ten tweede wordt duidelijk dat als de definitie verandert en de steekproef groot genoeg is, de ongecorrigeerde jaareffecten gebruikt moeten worden. De gecorrigeerde jaareffecten kunnen een foutief beeld kunnen geven, als de variabele waar je voor corrigeert over de gerapporteerde jaren is veranderd. Als er voor jaargroep 8 alleen naar de resultaten van 2010 gekeken is zijn de variabelen formatiegewicht en stratum wel meegenomen in de analyse, omdat de oude definitie van formatiegewicht binnen een jaar geen rol speelt. Om de effecten van de mogelijke nieuwe stratumdefinities te evalueren zijn die ook in modellen opgenomen waarbij alleen de data van 2010 voor jaargroep 8 zijn gebruikt. Uit dit onderzoek, dat beschreven staat in Bijlage IV (Resultaten voor de verschillende definities van stratum bij jaargroep 8) bleek dat de resultaten voor de drie definities weinig van elkaar verschillen. Voor jaargroep 4 is de variabele formatiegewicht van 2009 naar 2010 juist gelijk gebleven. De wijziging van formatiegewicht heeft plaatsgevonden van 2008 naar Voor jaargroep 4 is daarom wel een correctie voor formatiegewicht mogelijk in de jaarvergelijking 2009 naar Die hebben we dan ook uitgevoerd. 4.4 Modellen voor analyse van verschillen De keuze van het model bepaalt of we al dan niet voor variabelen corrigeren. Als er naar een effect van een bepaalde variabele gekeken wordt, dan wordt er gecorrigeerd voor de overige variabelen die in het model zijn opgenomen. Het gerapporteerde effect betreft dan het additionele effect van de variabelen, rekening houdend met de overige variabelen in het model. De analyses zijn uitgevoerd met behulp van het programma SAUL (Structural Analysis of a Univariate Latent variable; Verhelst & Verstralen, 2002). Hieronder volgt het overzicht van de modellen die gekozen zijn. Het modelleren van de effecten in jaargroep 8 Voor de rapportage van de verschillende variabelen zijn verschillende modellen gekozen. De variabelen zijn hier in drie typen te verdelen: de variabele afnamejaar, de basisvariabelen (geslacht, leertijd, stratum en 26

29 formatiegewicht) en de aanvullende variabelen (soort toets, advies VO, regio, urbanisatiegraad en thuistaal). Hierbij zijn de volgende modellen gebruikt: 1 model met afnamejaar als enige variabele (2008, 2009 en 2010); 2 hoofdeffectenmodel met de basisvariabelen (2010); 3 hoofdeffectenmodel met de basisvariabelen en telkens een extra aanvullende variabele (2010). In het eerste model wordt gewerkt met data uit 2008, 2009 en Hiermee wordt het ongecorrigeerd jaareffect berekend, oftewel het geobserveerde verschil tussen de gemiddelde prestaties in 2010 met de andere twee jaren. Dat is mogelijk omdat we met een zeer grote steekproef werken, waardoor we er vanuit kunnen gaan dat een verandering in de samenstelling van de populatie ook een echte verbetering in vaardigheid kan representeren. Het ongecorrigeerde model is ook gebruikt om de verdeling van de leerlingen uit 2010 op dezelfde schaal te plaatsen als die uit Het is hierdoor mogelijk de relatieve verschuivingen te interpreteren ten opzichte van de referentiepunten op de 250-schaal, zoals de niveaus van de typische leerlingen. Zoals eerder uiteengezet was het ook niet mogelijk te corrigeren voor variabelen die veranderd zijn in definitie. In het tweede model worden alleen de data van 2010 gebruikt waardoor de veranderde definitie geen invloed heeft. Hierdoor kunnen alle basisvariabelen worden opgenomen in het hoofdeffectenmodel, waardoor we voor deze variabelen de gecorrigeerde effecten in 2010 kunnen bepalen. Dat betekent dat we met behulp van multiple regressie analyse voor elk achtergrondkenmerk nagaan wat de unieke bijdrage is van het achtergrondkenmerk aan de leerprestaties. De invloed van de andere achtergrondkenmerken in het model is hierbij constant gehouden. Het derde model betreft ook een model met alleen data uit 2010, waarbij alle basisvariabelen zijn opgenomen. Het verschilt echter van het tweede model omdat het model is aangevuld met één of twee extra variabelen. Dit zijn telkens andere variabelen, waardoor model 3 eigenlijk niet één model is maar een model met 5 varianten: een model met soort toets als extra variabele, een met advies VO als extra variabele, een met tegelijkertijd zowel regio als urbanisatiegraad als extra variabelen en ten slotte twee modellen met de basisvariabelen aangevuld met thuistaal. Dat laatste betreft twee modellen, aangezien er in jaargroep 8 gewerkt is met twee definities van thuistaal. Het modelleren van effecten in jaargroep 4 De analyses voor jaargroep 4 lijken veel op die voor jaargroep 8, maar er zijn wel een aantal verschillen: 1 hoofdeffectenmodel met afnamejaar (alleen 2009 en 2010) en de basisvariabelen; 2 hoofdeffectenmodel met de basisvariabelen (2010); 3 hoofdeffectenmodel met de basisvariabelen en telkens een extra aanvullende variabele (2010). Het eerste model is gebruikt om het jaareffect te bepalen. In dit model is, in tegenstelling tot wat bij jaargroep 8 gedaan is, wel gecorrigeerd voor de basisvariabelen. Dat was noodzakelijk aangezien de steekproef voor jaargroep 4 een stuk kleiner is dan voor jaargroep 8, waardoor de kans op steekproeffluctuaties in de verdeling van de achtergrondvariabelen veel groter is. Een verandering in die verdeling kan dan niet goed als een daadwerkelijke verandering in de populatie geïnterpreteerd worden. Het is nu gelukkig ook mogelijk te corrigeren voor de basisvariabelen omdat in jaargroep 4 de definitie van formatiegewicht niet veranderd is van 2009 naar 2010: in beide jaren is het nieuwe gewicht gebruikt. In 2008 zijn nog wel de oude gewichten gebruikt, waardoor voor het bepalen van het jaareffect in dit model alleen de data van 2009 en 2010 zijn gebruikt. Het gegeven jaareffect van 2008 naar 2009 was in een eerdere peiling berekend (Hemker, Kuhlemeier en Van Weerden, 2010), en het effect van 2008 naar 2010 is bepaald door deze twee opvolgende jaareffecten bij elkaar op te tellen. Voor het plaatsen van de verdelingen van 2010 op de 250-schaal van 2008 is gebruikgemaakt van de IRT-methode. Voor steekproeffluctuaties hebben we gecorrigeerd door middel van weging bij het bepalen van de verdelingen; groepen die zijn ondervertegenwoordigd hebben een zwaarder gewicht meegekregen. Het tweede model is ook hier weer een hoofdeffectenmodel voor de variabelen formatiegewicht, stratum, geslacht en leertijd. Net als voor jaargroep 8 worden hier alleen data van 2010 gebruikt. De verdelingen van de variabelen zijn weer door middel van een lineaire transformatie op de 250-schaal van 2008 geplaatst, gebruikmakend van het gevonden resultaat van de jaarvergelijking. 27

30 Het derde model betreft twee modellen: één met de basisvariabelen aangevuld met de variabelen regio en urbanisatiegraad en één met de basisvariabelen aangevuld met de variabele thuistaal (in jaargroep 4 is er maar een definitie van thuistaal gebruikt omdat er te weinig gegevens zijn voor het gebruik van een gedetailleerde definitie). Hoofdeffectenmodellen en interactiemodellen In het vorige verslag was er ook sprake van interactiemodellen, waarbij er een interactie tussen sommige variabelen en peilingsjaar gevonden werd. Interactiemodellen waren vorig jaar nodig, omdat in de jaarvergelijking alle basisvariabelen waren opgenomen. Hierbij waren in een aantal gevallen verschillende effecten van de basisvariabelen over de jaren heen gevonden. Een interactie met peilingsjaar was nu echter niet nodig aangezien de gerapporteerde effecten met de basisvariabelen nu alleen bepaald zijn met de data van Het is echter wel nog steeds mogelijk de effecten op de verschillende variabelen over de jaren heen met elkaar te vergelijken. Bij de presentatie van de effecten worden de eerder verkregen gegevens van 2008 en 2009 samen gegeven naast die van Dat is altijd het geval bij de variabelen geslacht en leertijd. Als er eerder een interactie gevonden was tussen 2008 en 2009 staan de gegevens voor die twee jaren afzonderlijk naast die van In het geval er bij de variabele stratum een interactie gevonden was, staan de resultaten van 2008, 2009 en 2010 naast elkaar en is in alle drie de jaren dezelfde (oude) definitie voor stratum is gebruikt: stratum blijft daardoor vergelijkbaar over de drie jaren. Bij interactie bij de variabele formatiegewicht kunnen de effecten onder elkaar staan wanneer het verschillende definities betreft en de resultaten niet rechtstreeks te vergelijken zijn. 4.5 Interpretatie van effectgrootte en significantie Een effectgrootte is een verschil tussen twee gemiddelden gedeeld door de (samengestelde) standaardafwijking van de twee groepen die onderling worden vergeleken. Bij de interpretatie van de effectgrootte hanteren we de vuistregel van Cohen (1988) die is afgebeeld in tabel 4.3. Tabel 4.3 Kwalificatie van effectgrootten Effectgrootte Kwalificatie 0,0 geen effect 0,2 of -0,2 klein effect 0,5 of -0,5 matig effect 0,8 of -0,8 groot effect In de rapportage van de resultaten wordt naast het gevonden effect ook direct de kwalificatie van het effect gegeven. Hierbij worden kwalificaties zoals gegeven in tabel 4.3 als ondergrenzen genomen. Dat betekent dat een effect van 0,4 als klein wordt gekwalificeerd, omdat het de grens van 0,5 nog niet heeft gepasseerd. De effecten tussen -0,2 en 0,2 kunnen als zodanig klein beschouwd worden dat zij geen relevantie hebben. De richting van het effect wordt bepaald door de volgorde van het contrast. Zo zijn de volgende twee effecten exact aan elkaar gelijk: Contrast Effectgrootte Meisjes Jongens 0,2 Jongens Meisjes -0,2 In beide gevallen betekent het dat er een klein effect is waarbij meisjes beter presteren dan jongens. Naast de grootte van het effect wordt er ook gekeken of het effect significant (in absolute waarde) groter is dan 0. Dat hangt af van de grootte van het effect en de grootte van de steekproef. Hoe groter de steekproef, hoe eerder een gevonden verschil statistisch significant is. Voor jaargroep 8 is de steekproef 28

31 veel groter dan voor jaargroep 4, wat betekent dat de resultaten voor jaargroep 8 eerder significant zullen zijn. In jaargroep 8 zijn dan ook alle effecten die een classificatie klein, matig of groot hebben significant met α =,0001. Er zijn ook nog veel effecten in jaargroep 8 die als geen effect worden geclassificeerd die toch significant van 0 verschillen. Welke dat zijn en op wel significantieniveau (α =,01, α =,001 of α =,0001) dat is wordt in de resultaten aangegeven. Bij jaargroep 4 zijn alle effecten die een classificatie matig of groot hebben significant met α =,001. Bij de kleine effecten kan het significantieniveau lager zijn, maar dat wordt in de resultaten aangeven. In een tweetal gevallen zijn de kleine effecten zelfs niet significant (α =,05). Bij jaargroep 4 komt het ook voor dat ondanks de relatief kleine steekproef effecten die als geen effect worden geclassificeerd toch significant van 0 verschillen. Ook dat wordt in de resultaten aangegeven. 29

32 30

33 5 Resultaten voor taalvaardigheid in jaargroep 8 In dit hoofdstuk worden de prestaties van de leerlingen in jaargroep 8 beschreven voor de taalvaardigheden. Achtereenvolgens komen resultaten van de leerlingen bij Woordenschat, Spelling en Begrijpend lezen aan bod. Per vaardigheid wordt eerst een korte beschrijving gegeven van de gemeten vaardigheid. Deze is bij deze drie vaardigheden dezelfde als de vorige twee verslagen. De beschrijving van de opgaven is korter dan in de vorige twee verslagen gegeven is. In dit hoofdstuk wordt alleen de verdeling gegeven van het type vragen (moeilijk, uitdagend, makkelijk) per typische leerling. Hierbij wordt gebruikgemaakt van de definities zoals gegeven zijn in hoofdstuk 4. Na de beschrijving van de schaal volgen de resultaten. Die worden per vaardigheid gegeven door middel van vier tabellen. De eerste tabel betreft de verdeling van de nieuwe opgaven in het onderzoek (opgaven EB 2010) voor de vijf typische leerlingen. In tegenstelling tot de eerdere verslagen worden de opgaven zelf verder niet in dit hoofdstuk beschreven. Voor een meer gedetailleerd overzicht van opgaven wordt verwezen naar Bijlage III. Voor de opgaven die in eerdere peilingen gebruikt zijn wordt verwezen naar het verslag van de peiling van het jaar waarin een dergelijke opgave voor het eerst werd gebruikt. In de tweede tabel staan de gevonden jaareffecten. Deze zijn ongecorrigeerd voor andere variabelen (zie ook hoofdstuk 4). In de derde tabel worden de gecorrigeerde effecten van de overige variabelen gegeven. Deze effecten zijn gecorrigeerd voor de basisvariabelen (geslacht, leertijd, stratum en formatiegewicht). De effecten worden aangevuld met kwalificaties van de effecten (zie hoofdstuk 4). De effecten van 2010 zijn afzonderlijk bepaald en worden gepresenteerd naast de effecten zoals die in 2008 en 2009 gevonden zijn. In de vierde tabel worden de gemiddelden per jaargroep voor 2010 gegeven op de schaal. De schaalwaarden zijn zo gedefinieerd dat het gemiddelde resultaat van 2008 gelijk is aan 250 (met standaarddeviatie 50). De peiling van 2010 is op deze schaal geplaatst, waarbij de gemiddelden per variabele niet zijn gecorrigeerd voor de effecten van de overige variabelen. Zoals in hoofdstuk 4 beschreven is, is de definitie van de variabele formatiegewicht veranderd. Zodoende zijn de resultaten van 2008 en 2009 bij deze variabele niet direct te vergelijken met die van De veranderde definitie van formatiegewicht heeft ook effect op de indeling van de strata. Om een vergelijking met de eerdere peilingen mogelijk te houden is er in dit verslag voor gekozen om de oude definitie van stratum (zie hoofdstuk 3) te gebruiken bij de presentatie van de belangrijkste resultaten. De vergelijking van de resultaten bij de verschillende definities van stratum zijn voor 2010 gegeven in Bijlage IV. Voor de gevolgde werkwijze wat betreft de gerapporteerde resultaten van 2008 en 2009 wordt verwezen naar de twee eerdere rapporten (Hemker & Van Weerden, 2008; Hemker, Kuhlemeier en Van Weerden, 2010). 5.1 Woordenschat De vaardigheid Woorden vormen de bouwstenen van onze taal en maken allerlei soorten van kennis toegankelijk. Zo vervult het beschikken over een uitgebreide woordenschat een sleutelfunctie bij het verwerven van kennis via teksten. Goed begrijpend kunnen lezen hangt voor een groot deel af van de breedte en de diepte van de woordkennis van een leerling. Bij de breedte van de woordkennis gaat het om het beheersen van veel verschillende woorden, bij een diepe woordkennis staat de vraag centraal: hoe goed kent de leerling woorden of begrippen in relatie tot andere woorden en begrippen? Dit hoogste niveau van woordkennis is belangrijk in verband met de schoolse taalvaardigheid die leerlingen vooral in de bovenbouw van de basisschool nodig hebben. Zij moeten dan over een uitgebreid netwerk van begrippen beschikken met woordkennis die snel kan worden ingezet, zodat ze, onder meer tijdens het leesproces, verbanden en principes begrijpen en problemen kunnen oplossen. Hoe meer woorden én woordbetekenissen leerlingen kennen, hoe beter en preciezer ze in staat zijn om de betekenis van nieuwe woorden in een tekst af te 31

34 leiden en om teksten te begrijpen. Omgekeerd geldt dat naarmate leerlingen meer en vlotter gaan lezen, hun woordenschatuitbreiding in steeds grotere mate bepaald wordt door de geschreven taal waarmee ze in aanraking komen: het is een zichzelf versterkend proces. Het netwerk van begrippen zal zich steeds verder uitbreiden aan de hand van nieuwe begrippen én door het leggen van steeds meer relaties tussen al aanwezige begrippen. De opgaven De schaal voor Woordenschat is gemaakt met behulp van 118 opgaven. Daarvan zijn er 98 die eerder gebruikt en beschreven zijn. De 20 nieuwe opgaven zaten allen in de EB van Tabel Verdeling van opgaven bij Woordenschat in de EB 2010 per type leerling en moeilijkheidsgraad Type opgave Typische leerling ZLV LV St. HV ZHV Gemakkelijk (P > 0,80) Uitdagend (0,50 P 0,80) Moeilijk (P < 0,50) De verdeling van de opgaven wat betreft de moeilijkheid voor de verschillende typische leerlingen is vergelijkbaar met de verdeling in Alleen voor de standaard leerling zijn er iets meer opgaven die als gemakkelijk en wat minder die als uitdagend zijn gekwalificeerd. De verdelingen en effecten In tabel is te zien dat er voor de vaardigheid Taal Woordenschat in jaargroep 8 significante verschillen zijn tussen zowel 2010 en 2009 als tussen 2010 en De grootte van het jaareffect is echter nog wel zo klein dat het geclassificeerd wordt als geen effect (zie hoofdstuk 4). Als we het gemiddelde van 2010 op dezelfde schaal zetten als dat van 2008 (met een gemiddelde van 250) scoorden de leerlingen in 2010 gemiddeld 257. In tabel is te zien dat de resultaten voor de meisjes in 2010 aanzienlijk vooruit zijn gegaan, terwijl die voor de jongens vrijwel gelijk zijn gebleven. De vooruitgang in de vaardigheid Woordenschat lijkt daarom vrijwel volledig toe te schrijven aan de meisjes. We zien dat de meisjes de achterstand in Woordenschat op de jongens hebben ingehaald en de jongens zelfs een klein beetje zijn voorbijgestreefd: gemiddeld 256 voor jongens en 258 voor meisjes in Dit zien we ook terug bij de effecten. Daar waar in 2008/2009 er nog een effect was van geslacht, is dat in 2010 verdwenen (zie tabel 5.1.3). Er is dus een interactie gevonden tussen afnamejaar en geslacht. Aangezien we op basis van de eerder gevonden resultaten in jaargroep 4 geen verschil verwachtten tussen jongens en meisjes, is het resultaat van 2010 niet zozeer opmerkelijk als wel die van 2009 en Het lijkt erop dat de jongens in voorgaande jaren met enkele woorden in de eindtoets zijn geconfronteerd waar ze beter mee overweg konden dan de meisjes. Daarbij moet worden opgemerkt dat het onderdeel Woordenschat van de EB uit 20 woorden bestaat. Dit aantal is voldoende als onderdeel van een toets met meerdere onderdelen zoals de Eindtoets Basisonderwijs, maar voor een brede dekking van het domein Woordenschat kent dit zijn beperkingen. Het effect van leertijd op de resultaten van Woordenschat is in 2010 iets kleiner geworden, maar nog wel aanwezig (zie tabel 5.1.3). Bij het effect voor stratum zien we dat bij stratum 3 (berekend volgens de oude definitie) de achterstand op de andere twee strata is toegenomen (zie tabel 5.1.3). Het blijkt dat de strata 1 en 2 zich hebben verbeterd, terwijl het gemiddelde voor stratum 3 vrijwel gelijk is gebleven (zie tabel 5.1.4). Het effect van de variabele soort toets op de vaardigheid Woordenschat is in 2010 nog steeds groot. Tabel laat ook zien dat de effecten van de variabele advies VO gelijk zijn gebleven ten opzichte van 32

35 2009 en 2008; een klein effect voor de vergelijking vmbo-gt vmbo-kb, een matig effect voor de vergelijkingen vmbo-kb vmbo-bb en havo vmbo-gt en een groot effect voor de vergelijking vwo havo. De variabelen regio en urbanisatiegraad laten in 2010, net als in voorgaande jaren, geen effect zien op de vaardigheid Woordenschat. Voor thuistaal zijn de effecten van Alleen een andere taal ten opzichte van Alleen Nederlands en Nederlands en een andere taal groter geworden; respectievelijk van een klein naar een matig effect en van geen naar een klein effect (zie tabel 5.1.3). Dit is vooral het gevolg van de geringe verbetering op de vaardigheid Woordenschat voor de groep leerlingen die thuis alleen een andere taal dan Nederlands spreekt ten opzichte van de andere twee categorieën (zie tabel 5.1.4). Voor de leerlingen die thuis Turks spreken is het gemiddelde op de vaardigheid Woordenschat zelfs helemaal gelijk gebleven, terwijl voor alle andere categorieën geldt dat er in mindere of meerdere mate verbetering zichtbaar is ten opzichte van voorgaande jaren. Tabel Jaareffect Woordenschat Variabele: Contrast Model Effectgrootte Effectkwalificatie Jaar: Alleen jaareffect -0,02 geen effect Alleen jaareffect 0,15 geen effect D Zodoende: Alleen jaareffect 0,13 geen effect D B/C/D: geclassificeerd als geen effect, maar wel significant: B: α = 0,01-0,001; C: α = 0,001-,0001; D: α < 0,

36 Tabel Effectgroottes en effectkwalificaties van achtergrondvariabelen naar peilingsjaar op de schaal Woordenschat Effectgrootte Effectkwalificatie Variabele Contrast 2008/ / anders Geslacht Meisjes Jongens -0,23 0,01 klein geen effect Leertijd Vertraagd Regulier -0,54-0,44 matig klein Stratum Stratum 2 Stratum 1-0,08-0,07 geen effect geen effect C Stratum 3 Stratum 2-0,15-0,42 geen effect klein Stratum 3 Stratum 1-0,23-0,48 klein klein Formatiegewicht F 1.25 F1.00 (2008) -0,54. matig. F 1.25 F1.00 (2009) matig F 0.30 F 0.00 (2010). -0,48 klein F 1.90 F1.25 (2008) -0,51. matig. F 1.90 F1.25 (2009) -0,20. klein. F 1.20 F0.30 (2010). -0,27. klein F 1.90 F1.00 (2008) -1,05. groot. F 1.90 F1.00 (2009) -0,76. matig. F 1.20 F0.00 (2010). -0,76. matig Soort toets NT EB -1,42-1,21 groot groot Advies VO vmbo-kb vmbo-bb 0,64 0,51 matig matig vmbo-gt vmbo-kb 0,46 0,41 klein klein havo vmbo-gt 0,77 0,71 matig matig vwo havo 1,24 1,15 groot groot Regio Oost Noord -0,02-0,07 geen effect geen effect West Noord 0,07 0,00 geen effect geen effect Zuid Noord 0,03-0,03 geen effect geen effect West Oost 0,09 0,07 geen effect geen effect B Zuid Oost 0,05 0,04 geen effect geen effect Zuid West -0,04.-0,03 geen effect geen effect Urbanisatiegraad Sterk Zeer sterk -0,04 0,03 geen effect geen effect Matig Sterk -0,01-0,05 geen effect geen effect Weinig Matig -0,06-0,04 geen effect geen effect Niet Weinig -0,04-0,10 geen effect geen effect C Thuistaal NLs+Ander Alleen NLs -0,28-0,33 klein klein Alleen ander Alleen NLs -0,47-0,66 klein matig Alleen ander NLs+Ander -0,19-0,33 geen effect klein Turks Alleen NLs -0,84-1,04 groot groot Arabisch Alleen NLs -0,48-0,55 klein matig Surinaams/Antilliaans Alleen NLs -0,44-0,46 klein klein West-Europees Alleen NLs 0,01 0,01 geen effect geen effect B/C/D: geclassificeerd als geen effect, maar wel significant: B: α = 0,01-0,001; C: α = 0,001-,0001; D: α < 0,

37 Tabel Gemiddelde (Gem) en standaarddeviatie (SD) per achtergrondvariabele en per peilingsjaar voor de schaal Woordenschat Jaar Variabele categorie Gem. SD. Gem. SD. Gem. SD. Jaar Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Stratum Stratum (oude definitie) Stratum Stratum Formatiegewicht F F F F F F Soort toets EB NT Advies VO vmbo-bb vmbo-kb vmbo-gt havo vwo Regio Noord Oost West Zuid Urbanisatiegraad Zeer Sterk Sterk Matig Weinig Niet Thuistaal Alleen NLs NLs + bu Alleen bu Turks Arabisch Surinaams/Antilliaans West-Europees

38 5.2 Spelling De vaardigheid Net als woordenschat wordt spelling als ondersteunende activiteit voor schrijfvaardigheid beschouwd. Het betreft in de vorm zoals die hier gevraagd wordt een kennisaspect, waarbij de vragen in meerkeuzevorm met vier antwoordalternatieven gesteld zijn. Bij de hier bevraagde vaardigheid Spelling gaat het om het herkennen van de (in)correcte schrijfwijze van woorden volgens de vastgelegde regels. Bij het spellen wordt onderscheid gemaakt tussen het spellen van werkwoorden en van niet-werkwoorden. Dat komt neer op een verdeling in de spelling van het lexicon (woorden met een vast woordbeeld) en de spelling van woorden met verbuigingen (morfologie). Het aantal werkwoorden en niet-werkwoorden is gelijk verdeeld. Er is voor gekozen om deze samen te nemen als één vaardigheid aangezien de samenhang tussen beide onderdelen hoog is. De opgaven De schaal voor Spelling bestaat uit 121 opgaven. Hiervan waren er 20 nieuwe opgaven, die voor het eerst in 2010 zijn afgenomen. De verdeling van opgaven in moeilijkheidsgraad is te vinden in tabel Deze verdeling is zeer vergelijkbaar met de verdeling in Welke opgaven moeilijk en makkelijk zijn staat beschreven in Bijlage III. De overige opgaven zijn beschreven in de publicaties over eerdere peilingen. Tabel Aantal opgaven bij Spelling in de Eindtoets 2010 per type leerling en moeilijkheidsgraad Type opgave Typische leerling ZLV LV St. HV ZHV Gemakkelijk (P > 0,80) Uitdagend (0,50 P 0,80) Moeilijk (P < 0,50) De verdelingen en effecten In tabel is te zien dat er voor de vaardigheid Taal Spelling in jaargroep 8 geen significant verschil en geen jaareffect is tussen 2010 en Tussen 2010 en 2009 is ook geen jaareffect, maar het verschil tussen deze twee jaren is wel licht significant (,01 > α >,001). Op de schaal van 2008 (met een gemiddelde van 250) scoorden de leerlingen in 2010 gemiddeld 252. Uit tabel blijkt dat de effecten van geslacht, leertijd en stratum nagenoeg gelijk zijn gebleven ten opzichte van voorgaande jaren; respectievelijk een klein effect, een matig effect en geen effect. Hoewel de definities voor de formatiegewichten veranderd zijn in 2010 en een vergelijking met voorgaande jaren hierdoor lastig is, lijkt het erop dat ook in de gecorrigeerde effecten voor formatiegewichten niet veel is veranderd. In 2008 en 2009 waren er kleine effecten te zien voor twee van de drie vergelijkingen; nu is dat er nog maar één (voor het verschil tussen Fg 0.00 en Fg 0.30). Opvallend is dat dat leerlingen met formatiegewicht 1.20 hoger scoren voor Spelling dan leerlingen met formatiegewicht Merk op dat in de eerdere peilingen de groep met het hogere gewicht ook hoger scoorde en dat in 2010 de afstand tussen de leerlingen met een laag en een hoog gewicht op de ongecorrigeerde gemiddelden verkleind is. Deze vergelijking tussen de lage en de hoge gewichten laat in tegenstelling tot voorgaande jaren dan ook geen effect zien, al is het gevonden verschil nog wel significant (α >,0001). Hetzelfde geldt voor de vaardigheid Rekenen-Wiskunde Getallen en bewerkingen waarvan we de resultaten in hoofdstuk 6 zullen bespreken. Voor alle andere vaardigheden is er geen significant verschil tussen deze twee formatiegewichten. Ook de effecten van soort toets en advies VO zijn in 2010 gelijk gebleven aan die van de voorgaande jaren; een groot effect van soort toets en respectievelijk twee kleine, een matig en een groot effect van de vergelijkingen tussen vmbo-kb en -BB, vmbo-gt en -KB, havo en vmbo-gt en vwo en havo. Regio, urbanisatiegraad en thuistaal laten in 2010, net als in voorgaande jaren, geen effect zien op de vaardigheid 36

39 Spelling. Ook het kleine effect dat er was bij de vergelijking van Surinaams/Antilliaans met alleen Nederlands als thuistaal is in 2010 verdwenen (zie tabel 5.2.3). Wel zijn hier en daar wat significante verschillen gevonden: Voor de vergelijking tussen de regio s West en Noord (,001 > α >,0001) en Zuid en Noord (,01 > α >,001), voor de vergelijking tussen matig en sterk verstedelijkt (,01 > α >,001) en voor de vergelijkingen tussen thuistalen Nederlands en een andere taal en Alleen Nederlands en Alleen een andere taal en Alleen Nederlands (beide α <,0001). Overigens doen (na correctie voor geslacht, leertijd, stratum en formatiegewicht) leerlingen met Nederlands en een andere taal of alleen een andere taal als thuistaal het beter op Spelling dan leerlingen met alleen Nederlands als thuistaal. Tabel Jaareffect Taal Spelling Variabele: Contrast Model Effectgrootte Effectkwalificatie Jaar: Alleen jaareffect 0,00 geen effect Alleen jaareffect 0,03 geen effect D Zodoende: Alleen jaareffect 0,03 geen effect D B/C/D: geclassificeerd als geen effect, maar wel significant: B: α = 0,01-0,001; C: α = 0,001-,0001; D: α < 0,

40 Tabel Effectgroottes en effectkwalificaties van achtergrondvariabelen naar peilingsjaar op de schaal Spelling Effectgrootte Effectkwalificatie Variabele Contrast 2008/ / Geslacht Meisjes Jongens 0,33 0,33 klein klein Leertijd Vertraagd Regulier -0,69-0,71 matig matig Stratum Stratum 2 Stratum 1-0,06-0,04 geen effect geen effect Stratum 3 Stratum 2-0,02-0,01 geen effect geen effect Stratum 3 Stratum 1-0,07-0,04 geen effect geen effect Formatiegewicht F 1.25 F 1.00 (2008) -0,41. klein. F 1.25 F 1.00 (2009) -0,38. klein. F 0.30 F 0.00 (2010). -0,31. klein F 1.90 F 1.25 (2008) 0,22. klein. F 1.90 F 1.25 (2009) 0,36. klein. F 1.20 F 0.30 (2010). 0,14. geen effect D F 1.90 F 1.00 (2008) -0,19. geen effect. F 1.90 F 1.00 (2009) -0,02. geen effect. F 1.20 F 0.00 (2010). -0,17. geen effect C Soort toets NT EB -1,04-1,04 groot groot Advies VO vmbo-kb vmbo-bb 0,47 0,43 klein klein vmbo-gt vmbo-kb 0,39 0,28 klein klein havo vmbo-gt 0,77 0,72 matig matig vwo havo 1,45 1,36 groot groot Regio Oost Noord 0,05-0,07 geen effect geen effect West Noord 0,06-0,10 geen effect geen effect C Zuid Noord 0,15-0,08 geen effect geen effect B West Oost 0,01-0,03 geen effect geen effect Zuid Oost 0,10 0,00 geen effect geen effect Zuid West 0,09 0,03 geen effect geen effect Urbanisatiegraad Sterk Zeer sterk -0,09-0,02 geen effect geen effect Matig Sterk -0,01-0,06 geen effect geen effect B Weinig Matig -0,07-0,01 geen effect geen effect Niet Weinig -0,04-0,04 geen effect geen effect Thuistaal NLs+Ander Alleen NLs 0,10 0,18 geen effect geen effect D Alleen ander Alleen NLs 0,05 0,15 geen effect geen effect D Alleen ander NLs+Ander -0,05-0,03 geen effect geen effect Turks Alleen NLs 0,08 0,12 geen effect geen effect Arabisch Alleen NLs 0,00 0,15 geen effect geen effect B Surinaams/Antilliaans Alleen NLs -0,22-0,12 klein geen effect West-Europees Alleen NLs 0,07 0,14 geen effect geen effect B/C/D: geclassificeerd als geen effect, maar wel significant: B: α = 0,01-0,001; C: α = 0,001-,0001; D: α < 0,

41 Tabel Gemiddelde (Gem) en standaarddeviatie (SD) per achtergrondvariabele en per peilingsjaar voor de schaal Spelling Jaar Variabele Niveau Gem. SD. Gem. SD. Gem. SD. Jaar Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Stratum Stratum (oude definitie) Stratum Stratum Formatiegewicht F F F F F F Soort toets EB NT Advies VO vmbo-bb vmbo-kb vmbo-gt Havo VWO Regio Noord Oost West Zuid Urbanisatiegraad Zeer Sterk Sterk Matig Weinig Niet Thuistaal Alleen NLs NLs + bu Alleen bu Turks Arabisch Surinaams/Antilliaans West-Europees

42 5.3 Begrijpend lezen De vaardigheid Leesvaardigheid betreft de vaardigheid om schriftelijke teksten te begrijpen en te gebruiken in overeenstemming met het leesdoel. Met de toetsen kan vastgesteld worden in welke mate leerlingen daar in slagen. De toetsen bestaan voor het grootste deel uit (korte) teksten met bepaalde kenmerken op woord-, zins- en tekstniveau (moeilijke woorden of niet, lange zinnen, duidelijke structuur). De opgaven proberen hierbij te achterhalen in welke mate de leerlingen de teksten begrijpen. Het begrijpen heeft betrekking op het verwerken van informatie die een schrijver expliciet vermeldt. Het gaat met andere woorden om tekst gebaseerde verwerking, dus om de verwerking van inhoud en relaties tussen tekstelementen die in de tekst terug te vinden zijn. De leerling kan het antwoord op de vraag in de tekst vinden. Ook tekstgebaseerde gevolgtrekkingen behoren tot dit aspect van leesvaardigheid. In mindere mate spelen interpreteren en reflecteren een rol in het beantwoorden van deze opgaven. De vragen bij deze opgaven zijn gesteld als meerkeuze-opgaven met vier antwoordalternatieven. Naast het type opgaven waarbij vragen over een tekst gesteld worden, is er een klein aantal vragen waarbij een vijftal zinnen gegeven wordt. Deze zinnen staan in willekeurige volgorde, maar vormen samen een kort verhaal. De leerling moet aangeven welke van deze vijf zinnen de eerste moet zijn van het verhaal. Dit is dus een vijfkeuze-opgave waarbij begrijpen en interpreteren een belangrijke rol spelen. De opgaven De schaal voor Begrijpend lezen bestaat uit 156 opgaven. Hiervan zijn 30 opgaven voor het eerst gebruikt in Tabel Aantal opgaven bij Begrijpend lezen in de EB 2010 per type leerling en moeilijkheidsgraad Type opgave Typische leerling ZLV LV St. HV ZHV Gemakkelijk (P > 0,80) Uitdagend (0,50 P 0,80) Moeilijk (P < 0,50) In vergelijking met 2009 zijn er minder gemakkelijke opgaven voor zeer laag vaardige leerlingen. Voor de laag vaardige leerlingen zijn er wat minder uitdagende opgaven en iets meer moeilijke. Voor de standaard leerling zijn er wat meer gemakkelijke opgaven. Voor de hoog en zeer hoog vaardige leerlingen is de verdeling vergelijkbaar met die van Welke opgaven moeilijk en makkelijk zijn staat beschreven in Bijlage III. De overige opgaven zijn beschreven in rapportages over de eerdere peilingen. De verdelingen en effecten Leerlingen in jaargroep 8 hebben in 2010 gemiddeld significant hoger gescoord op de vaardigheid Taal Begrijpend lezen dan leerlingen in 2008 (α <,0001). Zie daarvoor tabel Dit betekent dat de minder sterk significante verbetering van 2009 ten opzichte van 2008 (,001 > α >,0001) zich in 2010 doorzet. Op de schaal van 2008 (met een gemiddelde van 250) scoorden de leerlingen in 2010 gemiddeld 254. De gevonden jaareffecten worden echter nog wel allen als geen effect geclassificeerd. Uit tabel blijkt dat de effecten van geslacht en leertijd gelijk zijn gebleven ten opzichte van voorgaande jaren. Dat betekent dat er geen effect voor geslacht en een matig effect voor leertijd is gevonden. Wel is het verschil tussen meisjes en jongens significant in het voordeel van de meisjes (α <,0001). Voor de vergelijking tussen stratum 3 en stratum 2 (volgens de oude definitie) is het effect toegenomen van geen effect naar een klein effect in het voordeel van stratum 2. Ook voor Begrijpend lezen lijkt het erop dat er niet veel is veranderd is in de effecten van formatiegewicht. In 2008 en 2009 was er een matig effect te zien voor twee van de drie vergelijkingen; in 2010 is dat nog steeds het geval. Hieruit mag echter niet de conclusie getrokken worden dat de verandering van de definitie geen enkel effect zou hebben, zoals ook uit het voorbeeld blijkt dat gegeven in hoofdstuk 4 (paragraaf 4.3). 40

43 Ook de effecten van soort toets en advies VO zijn in 2010 gelijk gebleven aan die van de voorgaande jaren. Het effect van soort toets is in 2010 nog steeds groot en de effecten van de vergelijkingen van advies VO zijn nog steeds twee keer matig en twee keer groot. Voor regio en urbanisatiegraad zijn in 2010 geen effecten zichtbaar op Begrijpend lezen, net als in 2008 en Er zijn wel een paar significante verschillen tussen regio s: West en Noord, Zuid en Noord (voor beide α <,0001) en West en Oost (,01 > α >,001). Voor thuistaal is in 2010, net als in voorgaande jaren, een klein effect te zien op de vaardigheid Begrijpend lezen voor het vergelijk Alleen andere taal met Alleen Nederlands (zie tabel 5.3.3). Als we naar de nadere specificering van talen kijken, dan zien we dat er geen effect is van Europese talen ten opzichte van Nederlands als thuistaal, een klein effect van Turks en Arabisch ten opzichte van Nederlands en een matig effect van Surinaams/Antilliaans ten opzichte van Nederlands. Dit was zo in 2008/2009 en is in 2010 hetzelfde gebleven. Overigens zijn de verschillen tussen Alleen een andere taal en Nederlands en een andere taal en tussen Nederlands en een andere taal en Alleen Nederlands wel significant (,001 > α >,0001) in het voordeel van de laatste taal in de vergelijking. Ook het verschil tussen Europese talen en Nederlands is significant (,01 > α >,001) in het voordeel van Europese talen. Tabel Jaareffect Taal Begrijpend lezen Variabele: Contrast Model Effectgrootte Effectkwalificatie Jaar: Alleen jaareffect 0,04 geen effect Alleen jaareffect 0,04 geen effect D Zodoende: Alleen jaareffect 0,08 geen effect D B/C/D: geclassificeerd als geen effect, maar wel significant: B: α = 0,01-0,001; C: α = 0,001-,0001; D: α < 0,

44 Tabel Effectgroottes en effectkwalificaties van achtergrondvariabelen naar peilingsjaar op de schaal Begrijpend lezen Effectgrootte Effectkwalificatie Variabele Contrast 2008/ / Geslacht Meisjes Jongens 0,16 0,18 geen effect geen effect D Leertijd Vertraagd Regulier -0,60-0,60 matig matig Stratum Stratum 2 Stratum 1-0,11-0,10 geen effect geen effect D Stratum 3 Stratum 2-0,15-0,28 geen effect klein Stratum 3 Stratum 1-0,27-0,38 klein klein Formatiegewicht F 1.25 F 1.00 (2008) -0,55 matig. F 1.25 F 1.00 (2009) -0,61 matig. F 0.30 F 0.00 (2010). -0,57. matig F 1.90 F 1.25 (2008) 0,02 geen effect. F 1.90 F 1.25 (2009) -0,08 geen effect. F 1.20 F 0.30 (2010). -0,07. geen effect F 1.90 F 1.00 (2008) -0,54 matig. F 1.90 F 1.00 (2009) -0,69 matig. F 1.20 F 0.00 (2010). -0,64. matig Soort toets NT EB -1,60-1,42 groot groot Advies VO vmbo-kb vmbo-bb 0,77 0,72 matig matig vmbo-gt vmbo-kb 0,60 0,50 matig matig havo vmbo-gt 0,95 0,96 groot groot vwo havo 1,33 1,36 groot groot Regio Oost Noord 0,06 0,06 geen effect geen effect West Noord 0,11 0,13 geen effect geen effect D Zuid Noord 0,14 0,11 geen effect geen effect D West Oost 0,05 0,06 geen effect geen effect B Zuid Oost 0,07 0,05 geen effect geen effect Zuid West 0,03-0,02 geen effect geen effect Urbanisatiegraad Sterk Zeer sterk -0,06-0,01 geen effect geen effect Matig Sterk -0,01-0,02 geen effect geen effect Weinig Matig -0,07-0,05 geen effect geen effect Niet Weinig -0,06-0,07 geen effect geen effect B Thuistaal NLs+Ander Alleen NLs -0,17-0,14 geen effect geen effect C Alleen ander Alleen NLs -0,23-0,30 klein klein Alleen ander NLs+Ander -0,06-0,16 geen effect geen effect C Turks Alleen NLs -0,46-0,44 klein klein Arabisch Alleen NLs -0,33-0,27 klein klein Surinaams/Antilliaans Alleen NLs -0,53-0,58 matig matig West-Europees Alleen NLs 0,10 0,18 geen effect geen effect B B/C/D: geclassificeerd als geen effect, maar wel significant: B: α = 0,01-0,001; C: α = 0,001-,0001; D: α < 0,

45 Tabel Gemiddelde (Gem) en standaarddeviatie (SD) per achtergrondvariabele en per peilingsjaar voor de schaal Begrijpend lezen Jaar Variabele Niveau Gem. SD. Gem. SD. Gem. SD. Jaar Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Stratum Stratum (oude definitie) Stratum Stratum Formatiegewicht F F F F F F Soort Toets EB NT Advies VO vmbo-bb vmbo-kb vmbo-gt havo vwo Regio Noord Oost West Zuid Urbanisatiegraad Zeer Sterk Sterk Matig Weinig Niet Thuistaal Alleen NLs NLs + bu Alleen bu Turks Arabisch Surinaams/Antilliaans West-Europees

46 44

47 6 Resultaten voor rekenvaardigheid in jaargroep 8 In dit hoofdstuk worden de prestaties van de leerlingen in jaargroep 8 beschreven voor de rekenvaardigheden. We onderscheiden bij Rekenen-Wiskunde drie meetschalen: Getallen en bewerkingen, Breuken, procenten en verhoudingen en Meten, meetkunde, tijd en geld. Binnen een blok van 20 rekenopgaven staan de opgaven van de drie verschillende schalen door elkaar heen. Dit in tegenstelling tot de taalschalen, waarbij de opgaven per schaal gegroepeerd staan in sets van minstens tien opgaven die tot dezelfde schaal behoren. Voor Rekenen-Wiskunde wordt in de EB ieder van de drie toetsdagen een blok van 20 rekenopgaven afgenomen. Bij de eerste en de derde toetsdag mag kladpapier gebruikt worden, maar op de tweede toetsdag niet; het is dan de bedoeling dat de leerlingen hoofdrekenen. Op die dag worden geen opgaven van de schaal Meten, meetkunde, tijd en geld afgenomen. In dit hoofdstuk komen de drie rekenvaardigheidsschalen achtereenvolgens aan bod. Net zoals bij de taalvaardigheden, worden de vaardigheden kort beschreven en wordt per typische leerling een overzicht gegeven van de verdeling van de nieuwe opgaven (EB 2010) naar moeilijkheid. Na de beschrijving van de schaal volgen de resultaten. Die worden ook weer gegeven door middel van vier tabellen: de verdeling van de opgaven per type leerling en moeilijkheidsgraad; de jaareffecten; de gecorrigeerde effecten van de overige variabelen, gecorrigeerd voor de basisvariabelen (geslacht, leertijd, stratum en formatiegewicht); de verdeling van de vaardigheid over verschillende groepen. Ook hier is een directe vergelijking van formatiegewicht niet mogelijk en wordt er weer uitgegaan van de oude definitie van stratum (zie ook hoofdstuk 4 en 5). Een vergelijking van de resultaten in 2010 bij de verschillende definities van stratum wordt gegeven in bijlage IV. Net als bij de taalvaardigheden is het hoofdeffectenmodel van 2010 achtereenvolgens uitgebreid met de aanvullende achtergrondkenmerken: soort toets, advies VO, regio, urbanisatiegraad en thuistaal. Voor de gevolgde werkwijze wat betreft de gerapporteerde resultaten van 2008 en 2009 wordt verwezen naar de twee eerdere rapporten (Hemker & Van Weerden, 2008; Hemker, Kuhlemeier en Van Weerden, 2010). 6.1 Getallen en bewerkingen De vaardigheid De vaardigheid bij het onderdeel Getallen en bewerkingen betreft een aantal verschillende onderwerpen. De onderwerpen en de opgaven bij deze onderwerpen worden als volgt omschreven: Getallen en getalsrelaties. Hierbij staat centraal het doorzien van de structuur van de telrij, de structuur van getallen en de relaties tussen getallen. Hoofdrekenen: optellen en aftrekken. De opgaven bij dit onderwerp betreffen de vaardigheid om de bewerkingen optellen en aftrekken vlot, handig en inzichtelijk te kunnen uitvoeren. Daarbij kan de leerling kennis van getallen, basisoperaties en eigenschappen van bewerkingen inzetten. De leerling moet de opgaven uit het hoofd (dat is zonder uitrekenpapier) oplossen. Hoofdrekenen: vermenigvuldigen en delen. De opgaven bij dit onderwerp betreffen de vaardigheid om de bewerkingen vermenigvuldigen en delen vlot, handig en inzichtelijk uit te voeren. Daarbij kan de leerling kennis van getallen, basisoperaties en eigenschappen van bewerkingen inzetten. De opgaven moeten uit het hoofd (dat is zonder uitrekenpapier) worden opgelost. Schattend rekenen. Ook bij schattend rekenen spelen eigenschappen van bewerkingen, het kunnen uitvoeren van basisoperaties en het inzicht in getallen (onder andere in de orde van grootte, de ligging in de getallenrij en de structuur) een belangrijke rol. Vooral afronden en weten wat de orde van grootte van een getal is, zijn bij dit onderdeel erg belangrijk. Bij schattend rekenen wordt van leerlingen verwacht dat zij 45

48 bewerkingen met afgeronde getallen uitvoeren om de orde van grootte van de uitkomst aan te geven. Ook deze opgaven moeten uit het hoofd (dat is zonder uitrekenpapier) worden opgelost. Bewerkingen: optellen en aftrekken. Dit onderwerp betreft de bewerkingen optellen en aftrekken, waarbij de leerlingen wel uitrekenpapier mogen gebruiken. De getallenkeuze bij de opgaven van dit onderdeel is meestal ook zodanig dat het nodig of wenselijk is tussenuitkomsten te noteren of een standaardcijferprocedure toe te passen. Bewerkingen: vermenigvuldigen en delen. Dit onderwerp betreft de bewerkingen vermenigvuldigen en delen waarbij de leerlingen wel uitrekenpapier mogen gebruiken. De getallenkeuze bij de opgaven is ook weer zodanig dat het nodig of wenselijk is tussenuitkomsten te noteren of een standaardcijferprocedure uit te voeren. Samengestelde bewerkingen. Bij de opgaven van dit onderdeel moeten meerdere operaties (bijvoorbeeld zowel een optelling als een deling) uitgevoerd worden. Daarbij mogen de leerlingen uitrekenpapier gebruiken om tussenuitkomsten te noteren of kunnen de leerlingen een of meer standaardcijferprocedures uitvoeren. De opgaven De schaal Getallen en bewerkingen bestaat uit 110 opgaven. Hiervan zijn er 85 in de twee eerdere peilingen beschreven en zijn er 25 nieuwe opgaven, allen uit de Eindtoets De verdeling van de moeilijkheid van de opgaven is vergelijkbaar met die in Alleen zijn er voor de zeer laag vaardige leerling wat meer moeilijke en wat minder uitdagende opgaven dan in Voor de standaard leerling zijn er iets minder als gemakkelijk gekwalificeerde opgaven en meer uitdagende. Tabel Aantal opgaven bij getallen en bewerkingen in de Eindtoets 2010 per type leerling en moeilijkheidsgraad Type opgave Typische leerling ZLV LV St. HV ZHV Gemakkelijk (P > 0,80) Uitdagend (0,50 P 0,80) Moeilijk (P < 0,50) De verdelingen en effecten Leerlingen in jaargroep 8 hebben in 2010 gemiddeld significant hoger gescoord op de vaardigheid Getallen en bewerkingen dan leerlingen in 2009 en 2008 (voor beide α <,0001). De jaren 2009 en 2008 verschilden niet significant van elkaar (zie tabel 6.1.2). Er is geen betekenisvol effect van jaar op deze vaardigheid zichtbaar volgens de criteria voor waardering van de effectgrootten. Op de schaal van 2008 (met een gemiddelde van 250) scoorden de leerlingen in 2010 gemiddeld 252 (zie tabel 6.1.4). Uit tabel blijkt dat de effecten van geslacht en leertijd gelijk zijn gebleven ten opzichte van voorgaande jaren; een klein effect voor geslacht en een matig effect voor leertijd. Jongens scoren gemiddeld hoger dan meisjes op deze vaardigheid en reguliere leerlingen hoger dan vertraagde leerlingen. Voor stratum is, net als in voorgaande jaren, geen effect gevonden. Wel zijn er tussen alle strata significante verschillen: Leerlingen in stratum 1 scoren hoger dan leerlingen in stratum 2 die weer hoger scoren dan leerlingen in stratum 3. Ook in de effecten van formatiegewicht lijkt geen verandering te zijn opgetreden. In 2008 en 2009 was er een klein effect te zien voor alle drie de vergelijkingen; in 2010 is voor één van de drie vergelijkingen geen effect meer zichtbaar (de vergelijking tussen Fg 1.20 en Fg 0.30), maar er is nog wel een significant verschil tussen leerlingen met deze formatiegewichten (α <,0001). Overigens valt op dat leerlingen met formatiegewicht 1.20 hoger scoren voor Getallen en bewerkingen dan leerlingen met formatiegewicht Hetzelfde geldt voor de vaardigheid Taal Spelling waarvan we de resultaten in 46

49 hoofdstuk 5 hebben besproken. Voor alle andere vaardigheden is er geen significant verschil tussen deze twee formatiegewichten. Ook de effecten van soort toets en advies VO zijn in 2010 gelijk gebleven aan die van de voorgaande jaren; een groot effect van soort toets en drie grote effecten en één matig effect van advies VO. Voor regio, urbanisatiegraad en thuistaal zijn in 2010 net als in 2008 en 2009 geen effecten gevonden. Het kleine effect dat er in 2008/2009 was voor de vergelijking tussen de regio s Zuid en Noord is in 2010 verdwenen. Wel is er nog een significant verschil in het voordeel van regio Zuid. Als we naar de nadere specificering van thuistaal kijken, dan zien we dat het kleine effect in 2008/2009 van Surinaams/Antilliaans ten opzichte van Nederlands is toegenomen naar een matig effect in 2010 in het voordeel van leerlingen die thuis alleen Nederlands spreken. Tabel Jaareffect Rekenen-Wiskunde Getallen en bewerkingen Variabele: Contrast Model Effectgrootte Effectkwalificatie Jaar: Alleen jaareffect 0,00 geen effect Alleen jaareffect 0,05 geen effect D Zodoende: Alleen jaareffect 0,05 geen effect D B/C/D: geclassificeerd als geen effect, maar wel significant: B: α = 0,01-0,001; C: α = 0,001-,0001; D: α < 0,

50 Tabel Effectgroottes en effectkwalificaties van achtergrondvariabelen naar peilingsjaar op de schaal Getallen en bewerkingen Effectgrootte Effectkwalificatie Variabele Contrast 2008/ / Geslacht Meisjes Jongens -0,43-0,40 klein klein Leertijd Vertraagd Regulier -0,67-0,70 matig matig Stratum Stratum 2 Stratum 1-0,06-0,05 geen effect geen effect C Stratum 3 Stratum 2-0,02-0,06 geen effect geen effect D Stratum 3 Stratum 1-0,08-0,12 geen effect geen effect B Formatiegewicht F 1.25 F ,48. klein. F 0.30 F ,47. klein F 1.90 F ,24. klein. F 1.20 F ,14. geen effect D F 1.90 F ,24. klein. F 1.20 F ,34. klein Soort Toets NT EB -1,75-1,77 groot groot Advies VO vmbo-kb vmbo-bb 0,86 0,80 groot groot vmbo-gt vmbo-kb 0,61 0,54 matig matig havo vmbo-gt 0,93 1,03 groot groot vwo havo 1,27 1,26 groot groot Regio Oost Noord 0,11 0,04 geen effect geen effect West Noord 0,14 0,09 geen effect geen effect C Zuid Noord 0,24 0,14 klein geen effect D West Oost 0,03 0,05 geen effect geen effect B Zuid Oost 0,12 0,10 geen effect geen effect D Zuid West 0,09 0,05 geen effect geen effect Urbanisatiegraad Sterk Zeer sterk -0,07 0,00 geen effect geen effect Matig Sterk 0,01 0,01 geen effect geen effect Weinig Matig -0,04-0,04 geen effect geen effect Niet Weinig -0,01-0,01 geen effect geen effect Thuistaal NLs+Ander Alleen NLs 0,06 0,02 geen effect geen effect Alleen ander Alleen NLs 0,10 0,02 geen effect geen effect Alleen ander NLs+Ander 0,03 0,00 geen effect geen effect Turks Alleen NLs 0,15 0,04 geen effect geen effect Arabisch Alleen NLs 0,02 0,05 geen effect geen effect Surinaams/Antilliaans Alleen NLs -0,43-0,60 klein matig West-Europees Alleen NLs 0,03 0,15 geen effect geen effect B/C/D: geclassificeerd als geen effect, maar wel significant: B: α = 0,01-0,001; C: α = 0,001-,0001; D: α < 0,

51 Tabel Gemiddelde (Gem) en standaarddeviatie (SD) per achtergrondvariabele en per peilingsjaar voor de schaal Getallen en bewerkingen Jaar Variabele Niveau Gem. SD. Gem. SD. Gem. SD. Jaar Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Stratum Stratum (oude definitie) Stratum Stratum Formatiegewicht F F F F F F Soort Toets EB NT Advies VO vmbo-bb vmbo-kb vmbo-gt havo vwo Regio Noord Oost West Zuid Urbanisatiegraad Zeer Sterk Sterk Matig Weinig Niet Thuistaal Alleen NLs NLs + bu Alleen bu Turks Arabisch Surinaams/Antilliaans West-Europees

52 6.2 Breuken, procenten en verhoudingen De vaardigheid Verhoudingen kunnen beschreven worden in verhoudingentaal (één op de tien kinderen), in breukentaal (een kwart van de bevolking) of met procenten (20% van de aanwezigen). Begrip van verhoudingen houdt in dat de relatie kan worden gelegd tussen die verschillende beschrijvingen van verhoudingen. Bij het onderdeel Verhoudingen, breuken en procenten komen opgaven uit de volgende onderwerpen voor: Breuken. Bij dit onderwerp gaat het om basiskennis en elementaire begrippen die nodig zijn om met breuken en gemengde getallen te kunnen werken en rekenen. Concreet betekent dat onder andere: breuken op een getallenlijn plaatsen, breuken omzetten in kommagetallen, breuken vereenvoudigen en breuken als gemengd getal schrijven. Daarnaast moeten leerlingen elementaire operaties (optellen, aftrekken, vermenigvuldigen en delen) met breuken kunnen uitvoeren en die vaardigheid in contexten kunnen toepassen. De breuken en gemengde getallen die daarbij voorkomen hebben een hoge gebruikswaarde. Verhoudingen. Bij dit onderwerp moeten kinderen elementaire verhoudingsproblemen oplossen, waarbij ook berekeningen uitgevoerd moeten worden. Procenten. Bij dit onderwerp staat allereerst het begrijpen van wat procenten zijn centraal. Dat betekent, onder andere, inzien dat het geheel 100 procent is en de grootte van een deel van een geheel met procenten kunnen aanduiden. Ook moet de relatie tussen procenten enerzijds en breuken en verhoudingen anderzijds doorzien worden. Percentages worden gebruikt in allerlei contexten. Daarbij staat niet alleen centraal het begrip van en de vaardigheid in het rekenen met percentages, maar ook kennis van begrippen en afspraken in bepaalde sectoren. Naast het toepassen van de procedure waarbij eerst één procent uitgerekend wordt, is het soms efficiënter het percentage om te zetten naar een breuk of gebruik te maken van verhoudingen. De opgaven De schaal Breuken, procenten en verhoudingen is gemaakt met behulp van 92 opgaven, waarvan er 72 eerder gebruikt zijn en 20 nieuw. Ook deze 20 opgaven komen allen uit de reguliere Eindtoets van De verdeling van de moeilijkheid van de opgaven is zeer vergelijkbaar met die in De exacte moeilijkheden per opgave per type leerling zijn gegeven in bijlage III. Tabel Aantal opgaven bij breuken, procenten en verhoudingen in de Eindtoets 2010 per type leerling en moeilijkheidsgraad Type opgave Typische leerling ZLV LV St. HV ZHV Gemakkelijk (P > 0,80) Uitdagend (0,50 P 0,80) Moeilijk (P < 0,50) De verdelingen en effecten In tabel is te zien dat leerlingen in jaargroep 8 in 2010 gemiddeld significant hoger gescoord hebben op de vaardigheid Breuken, procenten en verhoudingen dan leerlingen in 2009 en 2008 (voor beide α <,0001). De jaren 2009 en 2008 verschilden niet significant van elkaar. Op de schaal van 2008 (met een gemiddelde van 250) scoorden de leerlingen in 2010 gemiddeld 254 (zie tabel 6.2.4). Het de effectgrootte van jaar op jaar is bij deze vaardigheid nog niet betekenisvol. Uit tabel blijkt dat de effecten van geslacht en leertijd gelijk zijn gebleven ten opzichte van voorgaande jaren; voor beide variabelen een matig effect in het voordeel van respectievelijk de jongens en reguliere leerlingen. Voor stratum is net als in voorgaande jaren geen effect gevonden, maar de drie verschillen zijn 50

53 wel significant (α <,0001). Ook in het effect van formatiegewicht op de vaardigheid Breuken, procenten en verhoudingen lijkt geen verandering te zijn opgetreden. In 2008 en 2009 was er een matig, een klein en geen effect te zien voor respectievelijk de vergelijkingen tussen Fg 1.25 en Fg 1.00, tussen Fg 1.90 en Fg 1.00 en tussen Fg 1.90 en Fg 1.25; in 2010 (waarbij de formatiegewichten niet helemaal vergelijkbaar zijn met voorgaande jaren) is dit voor twee effecten gelijk gebleven en het matige effect is voor de vergelijking tussen Fg 0.30 en Fg 0.00 klein geworden. Het matige effect van 2008/2009 zat overigens precies op de grens van een matig effect (-0.50), terwijl hij er in 2010 net onder valt (-0.48). Dit is dus niet echt een vermindering van het effect te noemen. Zoals eerder aangegeven mag hieruit niet de conclusie getrokken worden dat de verandering van de definitie geen enkel effect zou hebben (zie paragraaf 4.3). Ook de effecten van soort toets en advies VO zijn in 2010 grotendeels gelijk gebleven aan die van de voorgaande jaren. Voor regio, urbanisatiegraad en thuistaal zijn in 2010 geen effecten gevonden al bestaan er tussen de regio s wel wat significante verschillen. Als we naar de nadere specificering van thuistaal kijken, dan zien we dat het kleine effect in 2008/2009 van Surinaams/Antilliaans ten opzichte van Nederlands is toegenomen naar een matig effect in Dit komt waarschijnlijk doordat het gemiddelde voor de vaardigheid Breuken, procenten en verhoudingen van Surinaamse en Antilliaanse leerlingen gelijk is gebleven, terwijl die van leerlingen die thuis alleen Nederlands spreken is verbeterd. Leerlingen die thuis een West-Europese taal spreken hebben zich op deze vaardigheid overigens het meeste verbeterd. Tabel Jaareffect Rekenen-Wiskunde Breuken, procenten en verhoudingen Variabele: Contrast Model Effectgrootte Effectkwalificatie Jaar: Alleen jaareffect 0,00 geen effect Alleen jaareffect 0,08 geen effect D Zodoende: Alleen jaareffect 0,08 geen effect D B/C/D: geclassificeerd als geen effect, maar wel significant: B: α = 0,01-0,001; C: α = 0,001-,0001; D: α < 0,

54 Tabel Effectgroottes en effectkwalificaties van achtergrondvariabelen naar peilingsjaar op de schaal Breuken, Procenten en Verhoudingen Effectgrootte Effectkwalificatie Variabele Contrast 2008/ / Geslacht Meisjes Jongens -0,51-0,58 matig matig Leertijd Vertraagd Regulier -0,71-0,75 matig matig Stratum Stratum 2 Stratum 1-0,09-0,08 geen effect geen effect D Stratum 3 Stratum 2-0,07-0,10 geen effect geen effect D Stratum 3 Stratum 1-0,16-0,18 geen effect geen effect D Formatiegewicht F1.25 F1.00-0,50 matig. F 0.30 F ,48. klein F1.90 F1.25 0,15 geen effect. F 1.20 F ,10. geen effect F1.90 F1.00-0,35 klein. F 1.20 F ,38. klein Soort toets NT EB -1,76-1,64 groot groot Advies VO vmbo-kb vmbo-bb 0,83 0,78 groot matig vmbo-gt vmbo-kb 0,63 0,60 matig matig havo vmbo-gt 1,02 1,01 groot groot vwo havo 1,37 1,30 groot groot Regio Oost Noord 0,10 0,03 geen effect geen effect West Noord 0,13 0,08 geen effect geen effect B Zuid Noord 0,19 0,11 geen effect geen effect D West Oost 0,02 0,05 geen effect geen effect B Zuid Oost 0,08 0,08 geen effect geen effect D Zuid West 0,06 0,03 geen effect geen effect Urbanisatiegraad Sterk Zeer sterk -0,07-0,01 geen effect geen effect Matig Sterk 0,02 0,01 geen effect geen effect Weinig Matig -0,04-0,03 geen effect geen effect Niet Weinig -0,03-0,05 geen effect geen effect Thuistaal NLs+Ander Alleen NLs 0,00 0,00 geen effect geen effect Alleen ander Alleen NLs 0,03-0,06 geen effect geen effect Alleen ander NLs+Ander 0,02-0,06 geen effect geen effect Turks Alleen NLs 0,01-0,03 geen effect geen effect Arabisch Alleen NLs -0,01-0,02 geen effect geen effect Surinaams/Antilliaans Alleen NLs -0,50-0,65 klein matig West-Europees Alleen NLs 0,02 0,13 geen effect geen effect B/C/D: geclassificeerd als geen effect, maar wel significant: B: α = 0,01-0,001; C: α = 0,001-,0001; D: α < 0,

55 Tabel Gemiddelde (Gem) en standaarddeviatie (SD) per achtergrondvariabele en per peilingsjaar voor de schaal Breuken, procenten en verhoudingen Jaar Variabele Niveau Gem. SD. Gem. SD. Gem. SD. Jaar Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Stratum Stratum (oude definitie) Stratum Stratum Formatiegewicht F F F F F F Soort Toets EB NT Advies VO vmbo-bb vmbo-kb vmbo-gt havo vwo Regio Noord Oost West Zuid Urbanisatiegraad Zeer Sterk Sterk Matig Weinig Niet Thuistaal Alleen NLs NLs + bu Alleen bu Turks Arabisch Surinaams/Antilliaans West-Europees

56 6.3 Meten, meetkunde, tijd en geld De vaardigheid In zekere zin is deze schaal een verzamelschaal. Bij de vaardigheid Meten zijn verschillende onderwerpen te onderscheiden, waar dan de onderdelen meetkunde, tijd en geld aan toegevoegd kunnen worden. Bij de meeste van deze onderdelen kan gesteld worden dat het hier om specifieke vormen van toepassingen van rekenen gaat. De opgaven kunnen als volgt onderverdeeld worden: Lengte. Bij dit onderwerp gaat het om basiskennis en begrip, zoals het aflezen van meetinstrumenten en het onderling herleiden van lengtematen, notie van lengtematen en toepassen. Oppervlakte. Bij dit onderwerp gaat het om basiskennis en begrip met betrekking tot het meetaspect oppervlakte, zoals het afpassen met natuurlijke oppervlaktematen, onderling herleiden van enkele veel voorkomende oppervlaktematen, notie van maten en het kunnen uitvoeren van oppervlakteberekeningen. Inhoud. Bij dit onderwerp gaat het om basiskennis en begrip, afpassen met natuurlijke maten, onderling herleiden van enkele veel voorkomen inhoudsmaten, notie van maten en toepassen. Gewicht. Bij dit onderwerp gaat het om basiskennis en begrip, aflezen van meetinstrumenten, onderling herleiden van maten, notie van maten en toepassen. Meetkunde. Hierbij gaat het om eenvoudige noties en begrippen waarmee de ruimte meetkundig geordend, beschreven en verklaard kan worden. Centraal bij dit onderwerp staat de vaardigheid 'ruimtelijk redeneren. Tijd. Bij dit onderwerp gaat het om het rekenen met tijd in toepassingssituaties. Geld. Hierbij gaat het om toepassingsgericht rekenen met geld waarbij specifieke handelingen met munten en bankbiljetten uitgevoerd moeten worden. Toepassingen. Bij dit onderwerp overschrijden we de afzonderlijke meetgebieden. Dat is bijvoorbeeld het geval als een relatie gelegd moet worden tussen tijd en afstand of tussen omtrek en oppervlakte of oppervlakte en prijs. De opgaven De schaal Meten, meetkunde, tijd en geld is gemaakt met behulp van 78 opgaven, waarvan er 63 eerder gebruikt zijn en 15 nieuw. Deze 15 nieuwe opgaven komen allen uit de reguliere Eindtoets van De verdeling van de moeilijkheid van de opgaven is vergelijkbaar met die in De exacte moeilijkheden per opgave per type leerling zijn gegeven in Bijlage III. Tabel Aantal opgaven bij meten, meetkunde, tijd en geld in de EB 2010 per type leerling en moeilijkheidsgraad Type opgave Typische leerling ZLV LV St. HV ZHV Gemakkelijk (P > 0,80) Uitdagend (0,50 P 0,80) Moeilijk (P < 0,50) De verdelingen en effecten Leerlingen in jaargroep 8 hebben in 2010 gemiddeld significant hoger gescoord op de vaardigheid Rekenen/ Wiskunde Meten, meetkunde, tijd en geld dan leerlingen in 2009 en 2008 (voor beide α <,0001). De jaren 2009 en 2008 verschilden niet significant van elkaar (tabel 6.3.2). Er is geen effect van 54

57 jaar op deze vaardigheid zichtbaar, maar op de schaal van 2008 (met een gemiddelde van 250) scoorden de leerlingen in 2010 gemiddeld 254 (tabel 6.3.4). Uit tabel blijkt dat de effecten van geslacht en leertijd gelijk zijn gebleven ten opzichte van voorgaande jaren; een matig effect voor zowel geslacht (in het voordeel van de jongens) als leertijd (in het voordeel van reguliere leerlingen). Voor stratum is, net als in voorgaande jaren, alleen een klein effect gevonden voor de vergelijking tussen de strata 3 (voorheen 1.90; nu 1.20) en 1 (voorheen 1.00; nu 0.00). De andere twee verschillen tussen de strata zijn overigens wel significant (α <,0001). In de effecten van formatiegewicht lijkt zich geen noemenswaardige verandering te hebben plaatsgevonden. De effecten van soort toets en advies VO zijn in 2010 grotendeels gelijk gebleven aan die van de voorgaande jaren. Alleen het verschil tussen de adviezen vmbo-kb en vmbo-bb lijkt, na correctie van o.a. (het gewijzigde) formatiegewicht en leertijd, iets kleiner geworden. Voor regio, urbanisatiegraad en thuistaal zijn in 2010 geen effecten gevonden. Als we echter naar de nadere specificering van thuistaal kijken, dan zien we (net als voor 2008/2009) dat er een matig effect is van Surinaams/Antilliaans ten opzichte van Nederlands als thuistaal; leerlingen die thuis Nederlands spreken zijn gemiddeld beter in Meten, meetkunde, tijd en geld dan leerlingen die thuis Surinaams of Antilliaans spreken. Tabel Jaareffect Rekenen-Wiskunde Meten, meetkunde, tijd en geld Variabele: Contrast Model Effectgrootte Effectkwalificatie Jaar: Alleen jaareffect -0,01 geen effect Alleen jaareffect 0,07 geen effect D Zodoende: Alleen jaareffect 0,06 geen effect D B/C/D: geclassificeerd als geen effect, maar wel significant: B: α = 0,01-0,001; C: α = 0,001-,0001; D: α < 0,

58 Tabel Effectgroottes en effectkwalificaties van achtergrondvariabelen naar peilingsjaar op de schaal Meten, Meetkunde, Tijd en Geld Effectgrootte Effectkwalificatie Variabele Contrast 2008/ / Geslacht Meisjes Jongens -0,51-0,52 matig matig Leertijd Vertraagd Regulier -0,69-0,71 matig matig Stratum Stratum 2 Stratum 1-0,10-0,08 geen effect geen effect D Stratum 3 Stratum 2-0,10-0,17 geen effect geen effect D Stratum 3 Stratum 1-0,20-0,26 klein klein Formatiegewicht F1.25 F1.00-0,52 matig. F 0.30 F ,48. klein F1.90 F1.25 0,16 geen effect. F 1.20 F ,03. geen effect F1.90 F1.00-0,36 klein. F 1.20 F ,45. klein Soort toets NT EB -1,86-1,69 groot groot Advies VO vmbo-kb vmbo-bb 0,83 0,72 groot matig vmbo-gt vmbo-kb 0,58 0,59 matig matig havo vmbo-gt 1,03 1,06 groot groot vwo havo 1,51 1,41 groot groot Regio Oost Noord 0,09-0,03 geen effect geen effect West Noord 0,14 0,04 geen effect geen effect Zuid Noord 0,22 0,07 klein geen effect West Oost 0,05 0,07 geen effect geen effect C Zuid Oost 0,13 0,10 geen effect geen effect D Zuid West 0,08 0,03 geen effect geen effect Urbanisatiegraad Sterk Zeer sterk -0,02 0,00 geen effect geen effect Matig Sterk 0,00 0,02 geen effect geen effect Weinig Matig -0,04-0,03 geen effect geen effect Niet Weinig -0,01-0,03 geen effect geen effect Thuistaal NLs+Ander Alleen NLs -0,02-0,01 geen effect geen effect Alleen ander Alleen NLs 0,03-0,09 geen effect geen effect Alleen ander NLs+Ander 0,06-0,08 geen effect geen effect Turks Alleen NLs 0,00-0,06 geen effect geen effect Arabisch Alleen NLs -0,06-0,07 geen effect geen effect Surinaams/Antilliaans Alleen NLs -0,53-0,67 matig matig West-Europees Alleen NLs 0,01 0,11 geen effect geen effect B/C/D: geclassificeerd als geen effect, maar wel significant: B: α = 0,01-0,001; C: α = 0,001-,0001; D: α < 0,

59 Tabel Gemiddelde (Gem) en standaarddeviatie (SD) per achtergrondvariabele en per peilingsjaar voor de schaal Meten, meetkunde, tijd en geld Jaar Variabele Niveau Gem. SD. Gem. SD. Gem. SD. Jaar Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Stratum Stratum Stratum Stratum Formatiegewicht F F F F F F Soort toets EB NT Advies VO vmbo-bb vmbo-kb vmbo-gt havo vwo Regio Noord Oost West Zuid Urbanisatiegraad Zeer Sterk Sterk Matig Weinig Niet Thuistaal Alleen NLs NLs + bu Alleen bu Turks Arabisch Surinaams/Antilliaans West-Europees

60 58

61 7 Resultaten voor taalvaardigheid en rekenvaardigheid in jaargroep 4 Voor jaargroep 4 worden de resultaten op de taal- en rekenvaardigheden niet in twee hoofdstukken maar in één hoofdstuk beschreven. De beschrijvingen zijn korter dan voor jaargroep 8 het geval is. In jaargroep 4 is in 2010 bij de taalvaardigheden één vaardigheid meer gemeten dan in de eerdere peilingen en dan in jaargroep 8. Dat betreft de taalvaardigheid Technisch lezen. De overige drie vaardigheden, Begrijpend lezen, Spelling en Woordenschat, zijn ook in 2009 en in jaargroep 8 gemeten. Voor Woordenschat moest in 2009 echter een nieuwe schaal gemaakt worden. Bij de rekenvaardigheden zijn er kleine verschillen tussen jaargroep 4 en jaargroep 8. De vaardigheden die gemeten worden bij Rekenen-Wiskunde zijn echter gelijk aan wat er gemeten is bij leerjaar 4 in de eerdere peilingen. Voor de taalvaardigheden worden, net zoals bij jaargroep 8, de resultaten per vaardigheid gegeven. De samenvatting van belangrijkste resultaten wordt in hoofdstuk 8 gegeven. Bij Rekenen-Wiskunde hangen de gemeten vaardigheden onderling zodanig samen dat deze samen gepresenteerd worden: correlaties tussen de vier vaardigheidsschalen zijn met een gemiddelde van 0,92 hoog te noemen. De gevonden verschillen tussen de vier rekenschalen in jaargroep 4 zijn wat betreft de verschillen tussen de groepen en de effecten daardoor ook gering. Ook bij de analyses in 2008 en 2009 was dat het geval. De vaardigheden hoeven ook niet meer beschreven te worden met behulp van opgaven aangezien de gebruikte toetsen voor de vaardigheden hetzelfde zijn gebleven in vergelijking met de afnamen in de eerdere peilingen. Voor Woordenschat zijn de opgaven beschreven in het rapport van de peiling van 2009 (Hemker, Kuhlemeier & Van Weerden, 2010). Voor de overige vaardigheden waren de opgaven al beschreven in het rapport daarvoor (Hemker, Kuhlemeier & Van Weerden, 2008). Dat betekent ook dat de schalen en de posities van de opgaven vastliggen, omdat de populatie van 2008 (voor Woordenschat 2009) de referentiepopulatie blijft. Er is ook gevonden dat de opgaven in 2010 hetzelfde functioneren als in de eerdere peilingen. Voor de beschrijving van de vaardigheden in termen van opgaven wordt dan ook verwezen naar de eerdere rapporten. De enige uitzondering is de vaardigheid Technisch lezen. Ten eerste is deze schaal in 2010 voor het eerst meegenomen en ten tweede is bij deze vaardigheid de positie van de opgaven op zich niet relevant. De toets betreft namelijk een leestempotoets die bestaat uit 100 (ongeveer even) gemakkelijke opgaven. De score wordt hier gevormd door hoe ver men komt in 8 minuten leestijd. De latere opgaven in de tekst worden op deze wijze dus per definitie minder vaak goed gemaakt dan de eerdere opgaven. De kans om een opgave goed te maken hangt zodoende niet af van de intrinsieke moeilijkheid van de opgave, maar van de positie in de tekst. Daarover meer bij de beschrijving van leesvaardigheid. Referentiepopulatie in jaargroep 4 De verdeling van de referentiepopulatie is zo gesteld dat het gemiddelde van die populatie is gelijkgesteld aan 250 en de standaarddeviatie aan 50. Op deze schaal zijn ook weer de typische leerlingen af te beelden (zie voor de definitie hoofdstuk 4 en 5). Hierbij moet wel opgemerkt worden dat deze waarden niet dezelfde mate van vaardigheid aangeven als die in jaargroep 8. Een leerling met een vaardigheid van 250 in jaargroep 8 is, in absolute zin, vaardiger dan een leerling met een vaardigheid van 250 in jaargroep 4. Deze vaardigheidsschaal is dan ook te vergelijken met een IQ-schaal: er wordt ook niet verwacht dat een 7-jarige met een IQ van 100 precies hetzelfde kan als een 11-jarige met een IQ van 100. Net zoals het IQ bruikbaar is om te spreken over verschillen binnen een leeftijdsgroep, zo is de vaardigheidsindex die nu hier gebruikt wordt zinvol om binnen een leerjaar groepen te vergelijken. Het gevolg van deze relatieve schalen is overigens dat jaargroep 4 en jaargroep 8 niet direct met elkaar vergelijkbaar zijn. Zo kan een ZLV leerling in jaargroep 8 in absolute zin mogelijk meer dan ZHV leerling in 59

62 jaargroep 4. De definities van de typische leerlingen zijn dus relatief en gebonden aan het leerjaar waarin de leerling zit. Bij de beschrijving van de uitgevoerde analyses in hoofdstuk 4 is al aangegeven dat voor jaargroep 4, in tegenstelling tot jaargroep 8, het niet zinvol is de gemiddelden van de opeenvolgende jaren zonder meer naast elkaar te zetten. De steekproef is te klein om aan te nemen dat veranderingen in verdeling van de achtergrondvariabelen daadwerkelijke veranderingen representeren. Het zal hier eerder steekproeffluctuaties betreffen. De te observeren jaareffecten zijn zo klein dat kleine wijzigingen in de samenstelling van de steekproef al snel tot misinterpretaties van de gevonden jaarverschillen zouden kunnen leiden. Voor jaargroep 4 worden daarom alleen gecorrigeerde verschillen gegeven. We berekenen in dat geval de jaarverschillen na een correctie op de belangrijkste achtergrondvariabelen, te weten Geslacht, Formatiegewicht, Leertijd en Stratum. Hier ligt de focus van het jaareffect op het verschil tussen 2009 en 2010, omdat in beide jaren in jaargroep 4 de definitie van formatiegewicht onveranderd was (zie ook hoofdstuk 3). Net als bij jaargroep 8 analyseren we de effecten per achtergrondvariabele bij de diverse vaardigheden. Naast de effecten van de variabelen van het basismodel (geslacht, leertijd, formatiegewicht en stratum) zijn ook modellen met andere variabelen gebruikt. Dat zijn modellen aangevuld met de variabele thuistaal en de variabelen regio en urbanisatiegraad. Doordat de analyses van de effecten van alle variabelen behalve afnamejaar bepaald zijn op de data van alleen 2010, is het niet nodig een interactie-effect met Afnamejaar te bepalen. De variabelen soort toets (NT of EB) en advies VO die wel bij de analyses voor jaargroep 8 voorkomen, zijn uiteraard niet opgenomen voor jaargroep 4. Merk op dat in tegenstelling tot de schalen bij jaargroep 8 er geen nieuwe opgaven zijn bij de schalen waar een jaarvergelijking mogelijk is. Voor de beschrijving van de opgaven op de peilingsschaal en de eigenschappen van deze toets wordt verwezen naar de eerdere rapporten 7.1 Woordenschat In 2008 is Woordenschat in jaargroep 4 met een andere toets en onder andere omstandigheden gemeten dan in Bij de vorige peiling bleek dat 2008 en 2009 voor deze vaardigheid niet goed op één schaal te plaatsen waren). Hiermee was de vergelijking tussen 2008 en 2009 niet meer mogelijk en daarom is voor Woordenschat de populatie van 2009 de referentiepopulatie. De jaren 2009 en 2010 zijn wel goed op één schaal te plaatsen en een jaarvergelijking is daardoor nu wel mogelijk; in beide jaren is dezelfde toets onder vergelijkbare omstandigheden afgenomen. Het betreft de toets Woordenschat einde jaargroep 4 van het LOVS (Van Berkel & Alberts, 2009). De verdelingen en effecten Leerlingen in jaargroep 4 hebben in 2010 gemiddeld niet significant anders gescoord op de vaardigheid Woordenschat dan leerlingen in 2009 (tabel 7.1.1). Op de schaal van 2009 (met een gemiddelde van 250) scoorden de leerlingen in 2010 gemiddeld 253, maar dit verschil tussen de jaren is dus niet significant (tabel 7.1.3). Uit tabel blijkt dat de effecten van geslacht en leertijd op de vaardigheid Woordenschat gelijk zijn gebleven ten opzichte van 2009; geen effect voor geslacht en een klein effect voor leertijd. Voor de vergelijking tussen de formatiegewichten 1.20 en 0.30 is het effect afgenomen, van matig in 2009 tot geen effect in Het effect van de vergelijking tussen formatiegewichten 1.20 en 0.00 is hierdoor ook verminderd; van groot naar matig. In 2009 was er een matig effect te zien voor de vergelijking tussen stratum 3 en 1, een klein effect voor de vergelijking tussen stratum 3 en 2 en geen effect voor de vergelijking tussen stratum 2 en 1; in 2010 laten alle drie de vergelijkingen tussen de strata een klein effect zien. De veranderingen in effectgroottes zijn echter niet groot, maar zorgen voor twee van de vergelijkingen toevallig voor een verschuiving over grenzen heen (de grens tussen een matig en een klein effect is 0,50 en de grens tussen geen effect en een klein effect is 0,20). 60

63 In 2009 was er voor geen enkele vergelijking tussen regio s een effect op Woordenschat zichtbaar. In 2010 laten drie van de zes vergelijkingen tussen regio s een klein effect zien; de vergelijkingen tussen West en Noord, West en Oost en Zuid en West (in alle drie de vergelijkingen heeft West een lager gemiddelde). In 2009 was er geen effect van urbanisatiegraad op de vaardigheid Woordenschat; in 2010 is er een klein effect voor de vergelijking tussen zeer sterk en sterk verstedelijkt. Voor thuistaal is in 2010, net als in voorgaande jaren, een klein effect te zien op de vaardigheid Woordenschat voor de vergelijking tussen Nederlands en een andere taal met Alleen Nederlands en Nederlands en een andere taal met Alleen een andere taal ; opgeteld zorgt dit voor een matig effect van de vergelijking Alleen een andere taal met Alleen Nederlands. Samengevat kunnen we zeggen dat de vaardigheid in Woordenschat in het algemeen niet is veranderd ten opzichte van 2009, maar dat er wel wat verschuivingen hebben plaatsgevonden voor specifieke groepen leerlingen. Zo is het gemiddelde van leerlingen met formatiegewicht 1.20 toegenomen en dat van leerlingen met formatiegewicht 0.30 afgenomen. Hierdoor zijn deze twee groepen leerlingen dichter bij elkaar gekomen voor Woordenschat. Van de vergelijkingen tussen regio s zijn wat kleine effecten te zien in 2010, maar een duidelijke verklaring is hier niet voor te vinden; alleen het toegenomen effect van de vergelijking tussen West en Noord is te verklaren door het toegenomen gemiddelde van de regio Noord. Het gemiddelde voor leerlingen in zeer sterk verstedelijkte gebieden is ook sterk toegenomen, terwijl dat voor leerlingen in sterk verstedelijkte gebieden iets is afgenomen. Samen zorgt dit voor een klein effect van de vergelijking tussen zeer sterk en sterk verstedelijkt. De effecten van thuistaal op Woordenschat zijn in vergelijking met 2009 niet kleiner geworden, ondanks het feit dat leerlingen die thuis alleen een andere taal spreken meer zijn vooruitgegaan dan leerlingen die thuis Nederlands en een andere taal spreken. En die laatste jaargroep is weer meer vooruitgegaan dan leerlingen die thuis Nederlands spreken. In absolute zin zijn de verschillen dus wel kleiner geworden, maar na correctie heeft dit geen invloed op de effectgroottes. Tabel Effectgrootte voor Jaar bij de vaardigheid Woordenschat in jaargroep 4 Variabele: Contrast Model Effectgrootte Effectkwalificatie Jaar Hoofdeffecten 2009/2010 0,04 geen effect 61

64 Tabel Effectgroottes en effectkwalificaties van achtergrondvariabelen naar peilingsjaar op de schaal Woordenschat Effectgrootte Effectkwalificatie Variabele Contrast Stratum Stratum 2 Stratum 1-0,17-0,22 geen effect klein Stratum 3 Stratum 2-0,36-0,26 klein klein b Stratum 3 Stratum 1-0,53-0,48 matig klein Formatiegewicht Fg 0.30 Fg ,29-0,48 klein klein Fg 1.20 Fg ,52-0,07 matig geen effect Fg 1.20 Fg ,80-0,55 groot matig Geslacht Meisjes Jongens 0,04 0,06 geen effect geen effect Leertijd Vertraagd Regulier -0,27-0,33 klein klein Thuistaal NLs+Ander Alleen NLs -0,34-0,33 klein klein Alleen ander Alleen NLs -0,62-0,63 matig matig NLs+Ander Alleen ander 0,28 0,31 klein klein a Regio Oost Noord -0,05-0,19 geen effect geen effect West Noord -0,02-0,40 geen effect klein Zuid Noord 0,04-0,17 geen effect geen effect West Oost 0,03-0,21 geen effect klein Zuid Oost 0,08 0,02 geen effect geen effect Zuid West 0,05 0,23 geen effect klein Urbanisatiegraad Sterk Zeer sterk -0,02-0,38 geen effect klein Matig Sterk 0,02 0,17 geen effect geen effect A Weinig Matig 0,06-0,07 geen effect geen effect Niet Weinig 0,15 0,16 geen effect geen effect A AIs klein, matig of groot effect, dan ook significant met α < 0,001; tenzij x is: niet significant; a is: α = 0,05-0,01; b is: α = 0,01-0,001 AIs geen effect, dan ook niet significant (α > 0,05), tenzij A is: significant α = 0,05-,01; B is: significant α = 0,001-0,001 62

65 Tabel Gemiddelde (Gem) en standaarddeviatie (SD) per achtergrondvariabele en per peilingsjaar voor de schaal Woordenschat Jaar Variabele Niveau Gem. SD. Gem. SD. Jaar Gehele groep Stratum Stratum Stratum Stratum Formatiegewicht Fg Fg Fg Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Thuistaal Alleen Nederlands (NLs) NLs en een andere taal Alleen een andere taal Regio Noord Oost West Zuid Urbanisatiegraad Zeer sterk Sterk Matig Weinig Niet Ter referentie: Typische leerling Schaalwaarde (geen verschil tussen de jaren) Zeer laagvaardige leerling Laagvaardige leerling Standaard leerling Hoog vaardige leerling Zeer hoog vaardige leerling

66 7.2 Spelling Bij de vaardigheid Spelling is een jaarvergelijking tussen drie jaren mogelijk. In 2010 is exact dezelfde toets Spelling gebruikt als in 2008 en 2009 en ook de achtergrondvariabelen zijn gelijk. De toets bestaat uit een startmodule en een vervolgmodule. Er zijn twee versies van de vervolgmodule, die van elkaar verschillen in moeilijkheid. Op basis van de resultaten op de startmodule is één van de twee vervolgmodules voorgelegd. Net als bij de andere vaardigheden in jaargroep 4 zijn de aantallen leerlingen bij de metingen vergelijkbaar over de verschillende jaren (ongeveer 2500 leerlingen per jaar). De aantallen zijn echter te klein om ongecorrigeerde jaareffecten goed te kunnen schatten. Als er kleine verschuivingen in vaardigheid verwacht worden dan kunnen kleine verschuivingen in de verdeling van de achtergrondvariabelen bij de steekproeven die verschillen al versterken dan wel teniet doen. De met IRT verkregen schalen zijn vergelijkbaar met die in de eerdere peilingen. De verdelingen en effecten Leerlingen in jaargroep 4 hebben in 2010 gemiddeld niet significant anders gescoord op de vaardigheid Spelling dan leerlingen in 2008 en 2009 (tabel 7.2.1). Op de schaal van 2008 (met een gemiddelde van 250) scoorden de leerlingen in 2010 gemiddeld 253 (tabel 7.2.4). Het jaareffect wordt gekwalificeerd als geen effect. Uit tabel blijkt dat het effect van geslacht gelijk is gebleven ten opzichte van 2009; een klein effect. Meisjes scoren gemiddeld iets hoger voor Spelling dan jongens in jaargroep 4. In 2009 was er geen effect van stratum; in 2010 is er voor de vergelijking tussen stratum 2 en stratum 1 een klein effect zichtbaar. Het effect van leertijd is iets afgenomen; van een matig effect in 2008/2009 naar een klein effect in Het effect van de vergelijking tussen formatiegewichten Fg 1.20 en Fg 0.00 op Spelling is toegenomen van geen effect naar een klein effect. Het verschil tussen deze twee groepen is echter niet significant. In 2009 was er voor geen enkele vergelijking in urbanisatiegraad een effect op Spelling zichtbaar. In 2010 laten twee vergelijkingen tussen categorieën van verstedelijking een effect zien; een klein effect van de vergelijking tussen matig en sterk verstedelijkt en een matig effect van de vergelijking tussen sterk en zeer sterk verstedelijkt. Deze effecten zijn te verklaren door de sterke toename van het gemiddelde voor zeer sterk verstedelijkt en de sterke afname van het gemiddelde voor sterk verstedelijkt. Dat is ook te zien aan de gemiddelden voor die groepen (tabel 7.2.3). Effecten van Regio hebben tussen 2008/2009 en 2010 stuivertje gewisseld; de kleine effecten van de vergelijkingen tussen Oost en Noord, Zuid en Noord en West en Oost zijn verdwenen en hebben plaatsgemaakt voor kleine effecten van de vergelijkingen tussen West en Noord en Zuid en West. Voor thuistaal is in 2010, net als in voorgaande jaren, geen effect te zien op de vaardigheid Spelling. Samengevat kunnen we zeggen dat de vaardigheid Spelling niet is veranderd ten opzichte van 2008/2009, maar dat er wel wat verschuivingen hebben plaatsgevonden voor specifieke groepen leerlingen. Zo is het gemiddelde van leerlingen op scholen in stratum 2 afgenomen. Hierdoor zijn de verschillen tussen de strata 1 en 2 en die tussen de strata 2 en 3 groter geworden voor Spelling; het gemiddelde voor stratum 3 ligt in 2010 zelfs hoger dan die voor stratum 2. Van de vergelijkingen tussen regio s zijn wat kleine effecten te zien in De meeste van deze veranderingen zijn te verklaren door de sterke toename van het gemiddelde voor de regio Noord. Het gemiddelde voor leerlingen in zeer sterk verstedelijkte gebieden is ook sterk toegenomen, terwijl dat voor leerlingen in sterk verstedelijkte gebieden sterk is afgenomen. Samen zorgt dit voor een matig effect van de vergelijking tussen zeer sterk en sterk verstedelijkt; dit effect bestaat, ondanks dat er al is gecorrigeerd voor formatiegewicht en stratum. De gemiddelde score voor Spelling is voor vertraagde leerlingen iets toegenomen, waardoor het verschil tussen vertraagde en reguliere leerlingen kleiner is geworden. Het effect van leertijd is hierdoor afgenomen van matig naar klein. 64

67 Tabel Effectgrootte voor Jaar bij de vaardigheid Spelling in jaargroep 4 Variabele: Contrast Model Effectgrootte Effectkwalificatie Jaar: Hoofdeffecten 2008/2009 0,07 geen effect Hoofdeffecten 2009/2010 0,00 geen effect Zodoende: ,07 geen effect Tabel Effectgroottes en effectkwalificaties van achtergrondvariabelen naar peilingsjaar op de schaal Spelling in jaargroep 4 Effectgrootte Effectkwalificatie Variabele Contrast 2008 / / Stratum (2008) Stratum 2 Stratum 1-0,09 / 0,06-0,26 geen effect klein Stratum 3 Stratum 2-0,15 / 0,08 0,19 geen effect geen effect A Stratum 3 Stratum 1-0,24 / 0,14-0,07 klein / geen geen effect Formatiegewicht Fg 0.30 Fg ,24-0,21 klein klein a Fg 1.20 Fg ,08 0,00 geen effect geen effect Fg 1.20 Fg ,16-0,21 geen effect klein X Geslacht Meisjes Jongens 0,27 0,30 klein klein Leertijd Vertraagd Regulier -0,53-0,38 matig klein Thuistaal NLs+Ander Alleen NLs -0,08 0,05 geen effect geen effect Alleen ander Alleen NLs -0,01 0,18 geen effect geen effect NLs+Ander Alleen ander -0,07-0,13 geen effect geen effect Regio Oost Noord 0,29-0,03 klein geen effect West Noord 0,10-0,20 geen effect klein a Zuid Noord 0,27 0,07 klein geen effect West Oost -0,20-0,17 klein geen effect B Zuid Oost -0,02 0,10 geen effect geen effect Zuid West 0,17 0,27 geen effect klein Urbanisatiegraad sterk zeer sterk 0,02-0,63 geen effect matig matig sterk -0,07 0,21 geen effect klein b weinig matig 0,16 0,09 geen effect geen effect niet weinig 0,05-0,05 geen effect geen effect AIs klein, matig of groot effect, dan ook significant met α < 0,001; tenzij x is: niet significant; a is: α = 0,05-0,01; b is: α = 0,01-0,001 AIs geen effect, dan ook niet significant (α > 0,05), tenzij A is: significant α = 0,05-,01; B is: significant α = 0,01-0,001 65

68 Tabel Gemiddelde (Gem) en standaarddeviatie (SD) per achtergrondvariabele en per peilingsjaar voor de schaal Spelling Jaar Variabele Niveau Gem. SD. Gem. SD. Gem. SD. Jaar Gehele groep Stratum Stratum Stratum Stratum Formatiegewicht Fg Fg Fg Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Thuistaal Alleen Nederlands (NLs) NLs en een andere taal Alleen een andere taal Regio Noord Oost West Zuid Urbanisatiegraad Zeer sterk Sterk Matig Weinig Niet Ter referentie: Typische leerling Schaalwaarde (geen verschil tussen de jaren) Zeer laagvaardige leerling Laagvaardige leerling Standaard leerling Hoogvaardige leerling Zeer hoogvaardige leerling

69 7.3 Begrijpend lezen De toetsen voor Begrijpend lezen bestaan, net als bij Spelling in jaargroep 4 uit een startmodule en een vervolgmodule. Er zijn twee versies van de vervolgmodule, die van elkaar verschillen in moeilijkheid. Op basis van de resultaten op de startmodule wordt één van de twee vervolgmodules voorgelegd. De modelpassing voor OPLM (het gebruikte IRT-model) is bij Begrijpend lezen zelfs met 7500 waarnemingen (alle drie de jaren bij elkaar) goed te noemen. Alle opgaven gedragen zich in de drie jaren vrijwel hetzelfde. Een uitgebreidere beschrijving wordt gegeven in de eerder verschenen rapporten. De verdelingen en effecten Leerlingen in jaargroep 4 hebben in 2010 gemiddeld niet significant anders gescoord op de vaardigheid Begrijpend lezen dan leerlingen in 2008 en 2009 (7.3.1). Het jaareffect wordt als geen effect geclassificeerd. Op de schaal van 2008 (met een gemiddelde van 250) scoorden de leerlingen in 2010 gemiddeld 248 (tabel 7.3.3). Uit tabel blijkt dat het effect van leertijd gelijk is gebleven (een klein effect); vertraagde leerlingen in jaargroep 4 scoren gemiddeld iets lager op de vaardigheid Begrijpend lezen dan reguliere leerlingen. Waar er in 2008/2009 geen effect van geslacht was, is er in 2010 een klein effect; meisjes scoren gemiddeld iets hoger voor Begrijpend lezen dan jongens in jaargroep 4. In absolute zin is het effect vrijwel niet toegenomen; de grens van 0,20 is echter in 2010 net overschreden (0,21), terwijl dit in 2008/2009 net niet het geval was (0,19). In 2010 is er voor de vergelijking tussen stratum 2 en stratum 1 geen effect zichtbaar, voor de vergelijking tussen stratum 3 en stratum 2 een klein effect en voor de vergelijking tussen stratum 3 en stratum 1 een matig effect. Het effect van de vergelijking tussen formatiegewichten Fg 1.20 en Fg 0.00 op Begrijpend lezen is gelijk gebleven tussen 2008/2009 en 2010; een matig effect. Het effect van de vergelijking tussen formatiegewichten Fg 0.30 en Fg 0.00 is toegenomen van een klein naar een matig effect en het kleine effect van de vergelijking tussen Fg 1.20 en Fg 0.30 is verdwenen in In 2008/2009 waren er voor geen enkele vergelijking in mate van urbanisatie effecten zichtbaar op Begrijpend lezen. In 2010 is er een matig effect te zien van de vergelijking tussen sterk en zeer sterk verstedelijkt. Twee kleine effecten van regio in 2008/2009 zijn in 2010 verdwenen; de kleine effecten van de vergelijkingen tussen Oost en Noord en Zuid en Noord. Daarvoor in de plaats is een klein effect ontstaan van de vergelijking tussen West en Noord. Voor thuistaal is in 2010, net als in voorgaande jaren, een klein effect te zien op de vaardigheid Begrijpend lezen van de vergelijking tussen Alleen een andere taal en Alleen Nederlands. Dit effect is echter wel minder significant dan gebruikelijk (,05 > α >,01) en ondanks dat het effect nog steeds dezelfde benaming (klein) heeft is het in grootte bijna gehalveerd. Het kleine effect van de vergelijking tussen Nederlands plus een andere taal en Alleen Nederlands is in 2010 helemaal verdwenen. Samengevat kunnen we zeggen dat de vaardigheid Begrijpend lezen niet is veranderd ten opzichte van 2008/2009, maar dat er wel wat verschuivingen hebben plaatsgevonden voor specifieke groepen leerlingen. Zo is het gemiddelde van leerlingen met formatiegewicht 0.30 afgenomen. Hierdoor is het verschil voor Begrijpend lezen tussen de formatiegewichten 0.00 en 0.30 groter geworden en die tussen de formatiegewichten 0.30 en 1.20 kleiner. Van de vergelijkingen tussen regio s zijn wat kleine effecten te zien in De meeste van deze veranderingen zijn te verklaren door de sterke toename van het gemiddelde voor de regio Noord. Het gemiddelde voor leerlingen in zeer sterk verstedelijkte gebieden is ook sterk toegenomen, terwijl dat voor leerlingen in sterk verstedelijkte gebieden is afgenomen. Samen zorgt dit voor een matig effect van de vergelijking tussen zeer sterk en sterk verstedelijkt, terwijl er in 2008/2009 geen effect van deze vergelijking was. De gemiddelde score voor Begrijpend lezen is voor leerlingen die thuis Nederlands en een andere taal of alleen een andere taal spreken iets toegenomen, maar voor leerlingen die thuis Nederlands spreken gelijk gebleven, waardoor de verschillen voor de variabele thuistaal iets kleiner zijn geworden. 67

70 Tabel Effectgrootte voor Jaar bij de vaardigheid Begrijpend lezen in jaargroep 4 Variabele: Contrast Model Effectgrootte Effectkwalificatie Jaar: Hoofdeffecten 2008/2009-0,05 geen effect Hoofdeffecten 2009/2010 0,00 geen effect Zodoende: ,05 geen effect Tabel Effectgroottes en effectkwalificaties van achtergrondvariabelen naar peilingsjaar op de schaal Begrijpend lezen in jaargroep 4 Effectgrootte Effectkwalificatie Variabele Contrast 2008/ / Stratum Stratum 2 Stratum 1-0,31 / -0,14-0,16 klein / geen geen effect B Stratum 3 Stratum 2-0,31 / -0,23-0,37 klein klein Stratum 3 Stratum 1-0,62 / -0,37-0,53 matig / klein matig Formatiegewicht Fg 0.30 Fg ,40-0,55 klein matig Fg 1.20 Fg ,23-0,04 klein geen effect Fg 1.20 Fg ,64-0,59 matig matig Geslacht Meisjes Jongens 0,19 0,21 geen klein Leertijd Vertraagd Regulier -0,37-0,27 klein klein Thuistaal NLs+Ander Alleen NLs -0,29-0,14 klein geen effect A Alleen ander Alleen NLs -0,48-0,28 klein klein a NLs+Ander Alleen ander 0,19 0,14 geen effect geen effect Regio Oost Noord 0,30-0,08 klein geen effect West Noord 0,19-0,23 geen effect klein a Zuid Noord 0,21-0,12 klein geen effect West Oost -0,12-0,16 geen effect geen effect B Zuid Oost -0,10-0,04 geen effect geen effect Zuid West 0,02 0,11 geen effect geen effect Urbanisatiegraad sterk zeer sterk 0,07-0,51 geen effect matig matig sterk 0,05 0,19 geen effect geen effect A weinig matig -0,02 0,01 geen effect geen effect niet weinig 0,09-0,01 geen effect geen effect AIs klein, matig of groot effect, dan ook significant met α < 0,001; tenzij x is: niet significant; a is: α = 0,05-0,01; b is: α =0,01-0,001 AIs geen effect, dan ook niet significant (α > 0,05), tenzij A is: significant α = 0,05-,01; B is: significant α = 0,01-0,001 68

71 Tabel Gemiddelde (Gem) en standaarddeviatie (SD) per achtergrondvariabele en per peilingsjaar voor de schaal Begrijpend lezen Jaar Variabele Niveau Gem. SD. Gem. SD. Gem. SD. Jaar Gehele groep Stratum Stratum Stratum Stratum Formatiegewicht Fg Fg Fg Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Thuistaal Alleen Nederlands (NLs) NLs en een andere taal Alleen een andere taal Regio Noord Oost West Zuid Urbanisatiegraad Zeer sterk Sterk Matig Weinig Niet Ter referentie: Typische leerling Schaalwaarde (geen verschil tussen de jaren) Zeer laagvaardige leerling Laagvaardige leerling Standaard leerling Hoogvaardige leerling Zeer hoogvaardige leerling

72 7.4 Technisch lezen Het leren lezen van kinderen begint met een goede technische leesvaardigheid. Daarbij is het van belang dat zij niet alleen nauwkeurig, maar ook vlot leren lezen. Technisch lezen is een vaardigheid die dit jaar voor het eerst opgenomen is in de peiling. Deze vaardigheid wordt alleen opgenomen in de peiling voor jaargroep 4, omdat in die jaargroep de vaardigheid zich nog kan ontwikkelen en het zodoende ook echt zinvol is om te peilen. In jaargroep 8 zou een dergelijke toets weinig meten, aangezien deze vaardigheid daar door vrijwel iedereen beheerst wordt. De vaardigheid is daarom geen onderdeel van de Eindtoets. De vaardigheid Technisch lezen is in dit onderzoek gemeten met behulp van de reguliere LOVS-toets Leestempo einde jaargroep 4 (Jongen, Krom & Onna & Verhelst, 2011). Met de toets Technisch lezen wordt de technische leesvaardigheid van leerlingen gemeten door na te gaan hoe nauwkeurig en vlot zij teksten stil kunnen lezen. De toets Leestempo wordt groepsgewijs afgenomen, waarbij de leerlingen (stil) een tekst lezen. In die tekst is er per regel een keuzemoment waarbij de leerlingen moeten kiezen uit drie woorden: het juiste woord en twee daarvan afgeleide foute woorden. Deze keuze is, als er vlot en nauwkeurig gelezen wordt, niet moeilijk: Als de leerlingen ongelimiteerd de tijd zouden hebben, dan zouden de meeste leerlingen weinig fouten maken. De toets is echter een tempotoets, wat betekent dat de tijd beperkt is. De tekst bestaat uit 100 regels waarover leerlingen 8 minuten mogen doen. Hoe ver ze nauwkeurig lezend zijn gekomen wordt afgelezen uit het aantal goede antwoorden. Die zijn representatief voor het aantal nauwkeurig gelezen regels. In de Leestempo-toets zijn de opgaven zelf niet van belang, maar wel hoe ver de leerling is gekomen. De geobserveerde kans om de opgave goed te maken hangt dus niet zo zeer van de opgave zelf af, maar van de positie in de tekst. Bij het interpreteren van de score zijn twee zaken van belang: ten eerste dat bij de afname de tijd goed moet zijn bijgehouden, en ten tweede dat de leerling de nodige mate van nauwkeurigheid betracht en niet gaat gokken. Dat laatste wordt gecontroleerd door leerlingen die meer dan 85 procent van de opgaven fout gemaakt hebben geen score te geven. Als een leerling meer 85 procent fout gemaakt heeft, moet hij of zij een van de twee extra toetsen maken, waarbij de leerling er nadrukkelijk op gewezen wordt dat nauwkeurigheid ook van belang is. Deze extra toetsen zijn niet in de analyses meegenomen. De betrouwbaarheid van de gebruikte toets is 0,85. Dat is ruim voldoende voor het doel waar wij de toets voor gebruiken. Doordat de toets een tempotoets is en de eigenschappen niet van het item zelf, maar van de positie van het item afhangen, kan het IRT-model OPLM niet gehanteerd worden. De positie van de items op de vaardigheidsschaal is dan ook niet relevant. De vaardigheidsschaal is met een ander model bepaald (Jongen, 2010). Deze vaardigheidsschaal hangt lineair samen met het aantal goede antwoorden. De verdeling van de geobserveerde goede antwoorden benadert in jaargroep 4 bij deze toets de normaalverdeling. Voor de rapportage in peilingsonderzoek zijn we geïnteresseerd in de onderliggende vaardigheidsschaal. Dat houdt in dat we de geobserveerde scores corrigeren voor meetfout, en transformeren naar de peilingsschaal met een gemiddelde van 250 en met een standaarddeviatie van 50. Doordat dit het eerste jaar is dat de toets in het jaarlijkse peilingsonderzoek is opgenomen, is het gemiddelde van 2010 de referentiepopulatie, waardoor dat per definitie op 250 komt te liggen. Deze latente schaal is ook weer normaal verdeeld. De gemiddelde vaardigheden van de verschillende te onderscheiden subpopulaties zijn geplaatst op de (latente) vaardigheidsschaal. De effecten zijn ook met behulp van deze schalen bepaald. Doordat het programma OPLM niet op de gebruikelijke manier gebruikt kon worden, was het ook niet mogelijk het programma SAUL (Verhelst & Verstralen, 2002; zie ook Bijlage I) toe te passen. De effecten zijn daarom per variabele bepaald in een ongecorrigeerd model. De effectgrootten kunnen wel op dezelfde wijze geïnterpreteerd worden als bij de overige schalen. 70

73 De verdelingen en effecten De gevonden verschillen tussen de onderscheiden groepen zijn niet groot voor Technisch lezen. Dat is ook te zien aan het feit dat het grootst gevonden effect (voor de variabele leertijd) klein is: Vertraagd versus regulier = 0,34 (zie tabel 7.4.1). Zoals bij alle andere gevonden vaardigheden presteren de zittenblijvers slechter dan de reguliere leerlingen. Bij alle variabelen, behalve regio, zijn wel kleine effecten gevonden, maar de gevonden effecten zijn allen kleiner dan 0,30. De gevonden effecten betreffen stratum (stratum 1 presteert beter dan stratum 2), formatiegewicht (Fg 0.00 presteert beter dan Fg 0.30), geslacht (meisjes presteren beter dan jongens), thuistaal (leerlingen die alleen een andere taal thuis spreken, presteren slechter dan leerlingen die thuis Nederlands spreken, al dan niet met een andere taal erbij) en urbanisatiegraad (leerlingen uit sterk stedelijke gebieden presteren slechter dan leerlingen in matig en zeer sterk stedelijke gebieden). De overige effecten kregen allen de kwalificatie geen effect en waren ook niet significant. Tabel Effectgroottes en effectkwalificaties van achtergrondvariabelen op de schaal Technisch lezen in jaargroep 4 Effectgrootte Effectkwalificatie Variabele Contrast Stratum Stratum 2 Stratum 1-0,24 klein b Stratum 3 Stratum 2 0,10 geen effect Stratum 3 Stratum 1-0,14 geen effect Formatiegewicht Fg 0.30 Fg ,27 klein b Fg 1.20 Fg ,17 geen effect Fg 1.20 Fg ,10 geen effect Geslacht Meisjes Jongens 0,27 klein Leertijd Vertraagd Regulier -0,34 klein Thuistaal NLs+Ander Alleen NLs 0,01 geen effect Alleen ander Alleen NLs -0,27 klein a NLs+Ander Alleen ander -0,28 klein a Regio Oost Noord -0,03 geen effect West Noord -0,05 geen effect Zuid Noord -0,03 geen effect West Oost -0,02 geen effect Zuid Oost 0,00 geen effect Zuid West 0,02 geen effect Urbanisatiegraad sterk zeer sterk -0,29 klein matig sterk 0,22 klein b weinig matig -0,04 geen effect niet weinig 0,03 geen effect AIs klein, matig of groot effect, dan ook significant met α < 0,001; tenzij x is: niet significant; a is: α = 0,05-0,01; b is: α =0,01-0,001 AIs geen effect, dan ook niet significant (α > 0,05), tenzij A is: significant α = 0,05-,01; B is: significant α = 0,01-0,001 71

74 Het is opmerkelijk dat de leerlingen met Fg een hoger gemiddelde hebben dan de leerlingen met Fg (zie tabel 7.4.2), al is dit verschil niet significant. Een dergelijke resultaat is ook gevonden voor stratum: het gemiddelde van stratum 3 lag hoger dan dat van stratum 2 (zij het ook weer niet significant). De gemiddelden per regio liggen zeer dicht bij elkaar, wat ook het geval is bij de verschillende niveaus van verstedelijking (met uitzondering van het eerder genoemde sterk stedelijk ). Bij technische leesvaardigheid maakt het voor de prestaties niets uit of thuis naast het Nederlands ook een andere taal gesproken wordt. Tabel Gemiddelde (Gem) en standaarddeviatie (SD) per achtergrondvariabele voor de schaal Technisch lezen Jaar 2010 Variabele Niveau Gem. SD Jaar Gehele groep Stratum Stratum Stratum Stratum Formatiegewicht Fg Fg Fg Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Thuistaal Alleen Nederlands (NLs) NLs en een andere taal Alleen een andere taal Regio Noord Oost West Zuid Urbanisatiegraad Zeer sterk Sterk Matig Weinig Niet Ter referentie: Typisch leerling Percentiel Schaalwaarde Zeer laagvaardige leerling Laagvaardige leerling Standaard leerling Hoogvaardige leerling Zeer hoogvaardige leerling

75 7.5 Rekenvaardigheid Bij Rekenen-Wiskunde zijn er in jaargroep 4 vier verschillende vaardigheden onderscheiden, te weten Getallen en getalsrelaties (G/G), Optellen en aftrekken (O/A), Vermenigvuldigen en delen (V/D) en Meten, tijd en geld (MTG). Deze vier vaardigheden zijn gemeten met behulp van een rekentoets met 54 opgaven. De posities van de opgaven zijn niet veranderd ten opzichte van Voor de omschrijving van de opgaven wordt dan ook verwezen naar het verslag van 2008 (Hemker en Van Weerden, 2008). Daarin wordt ook de kwaliteit van het meetinstrument verder beschreven. Net als in de rapporten van 2008 en 2009 worden de resultaten voor deze vier schalen niet in afzonderlijke alinea s gepresenteerd. De gemeten vaardigheden hangen hoog met elkaar samen. De correlaties tussen de vaardigheden variëren tussen de 0,82 (tussen O/A en MTG) en 0,97 (tussen V/D en MTG. De gemiddelde correlatie tussen de rekenvaardigheden is 0,92. Deze correlaties zijn redelijk hoog te noemen, maar niet zo hoog dat er in het geheel geen verschillen tussen de vaardigheden gevonden worden. Merk overigens op dat dit de correlaties betreft tussen de latente schalen en niet de correlaties tussen de toetsscores. Die correlaties zijn lager, aangezien hier met korte toetsen gewerkt is. De gevonden verschillen tussen de groepen en de effecten zijn daardoor ook grotendeels gelijk voor de vier rekenschalen in jaargroep 4. Bij de eerdere analyses was dit ook het geval. De verdelingen en de effecten De gecorrigeerde jaareffecten zijn gegeven in de tabellen 7.5.1a tot en met 7.5.1d en de overige effecten in de tabellen 7.5.2a tot en met 7.5.2d. De waarden van de ongecorrigeerde gemiddelden zijn gegeven in de tabellen 7.5.3a tot en met 7.5.3d. Voor geen van de vier rekenvaardigheden zijn jaareffecten zichtbaar (tabellen 7.5.1a, b, c, d). Leerlingen in jaargroep 4 hebben in 2010 gemiddeld wel significant beter gescoord op de vaardigheden Getallen en getalsrelaties en Optellen en aftrekken dan leerlingen in 2008 en 2009 (α < 0,05). Op de schaal van 2008 (met een gemiddelde van 250) scoorden de leerlingen voor beide vaardigheden in 2010 gemiddeld 255. Uit de tabellen 7.5.2a tot en met 7.5.2d blijkt dat de effecten van geslacht en leertijd gelijk zijn gebleven; in beide gevallen is er voor alle vier de vaardigheden een klein effect; jongens scoren gemiddeld hoger dan meisjes en reguliere leerlingen scoren gemiddeld hoger dan vertraagde leerlingen. De meeste effecten van stratum zijn tussen 2009 en 2010 gelijk gebleven. Er hebben zich alleen wat verschuivingen voorgedaan omdat voor stratum 1 de gemiddelden voor O/A en voor V/D zijn toegenomen en voor stratum 3 het gemiddelde voor O/A is afgenomen. De verschillen tussen de formatiegewichten zijn in 2010 toegenomen ten opzichte van 2008/2009 voor G/G en afgenomen voor V/D en voor MTG. Dit is mogelijk te verklaren door het feit dat het gemiddelde voor G/G voor leerlingen met formatiegewicht Fg 0.00 is toegenomen en voor leerlingen met formatiegewicht Fg 1.20 is afgenomen en de gemiddelden voor V/D en voor MTG voor leerlingen met formatiegewicht Fg 0.30 zijn afgenomen (zie tabellen 7.5.3a t/m 7.5.3d). Voor alle vier de rekenvaardigheden geldt dat het gemiddelde voor regio Noord in 2010 aanzienlijk is toegenomen. Hierdoor zijn van de vergelijkingen tussen andere regio s en Noord in een aantal gevallen kleine effecten zichtbaar geworden. Voor G/G geldt dit alleen voor de vergelijking tussen West en Noord, voor O/A geldt dit voor de vergelijkingen tussen Oost en Noord en West en Noord en voor V/D en MTG geldt dit voor alle drie de vergelijkingen. Hierbij moet wel opgemerkt worden dat de regio Noord weinig leerlingen bevat. Dat heeft tot gevolg dat de gevonden resultaten door de toevallige steekproef ook makkelijker fluctueren over de jaren. Voor urbanisatiegraad is er een klein effect zichtbaar geworden voor de vergelijking tussen sterk en zeer sterk stedelijk op de schaal voor V/D en een significant verschil (maar geen effect) tussen matig en sterk stedelijk op de schaal voor MTG. Beide bevindingen zijn te verklaren doordat de gemiddelden op beide schalen voor sterk stedelijk zijn afgenomen. Daarbij is het gemiddelde voor zeer sterk stedelijk op de schaal V/D toegenomen. Voor thuistaal zijn in 2010 de effecten afwezig als in voorgaande jaren of (in significantie) afgenomen op de verschillen tussen Nederlands en een andere taal en Alleen 73

76 Nederlands na voor de schalen V/D en MTG. Deze laatste twee verschillen zijn even groot gebleven: een klein effect. De gemiddelden voor leerlingen die thuis alleen een andere taal, alleen Nederlands of Nederlands plus een andere taal spreken zijn niet noemenswaardig veranderd voor één van de vier rekenvaardigheden. De enige uitzondering is het gemiddelde voor MTG van leerlingen die thuis alleen een andere taal spreken; dit gemiddelde is in 2010 toegenomen. Dit heeft echter geen sterke invloed op de score voor deze vaardigheid. Tabel 7.5.1a Effectgrootte op de vaardigheid Rekenen: Getallen en getalsrelaties (G/G) in jaargroep 4 Variabele: Contrast Model Effectgrootte Effectkwalificatie Jaar: Hoofdeffecten 2008/2009-0,01 geen effect Hoofdeffecten 2009/2010 0,10 geen effect B Zodoende: ,09 geen effect A AIs klein, matig of groot effect, dan ook significant met α <,001; tenzij x is: niet significant; a is: α = 05-,01; b is: α = 01-,001 AIs geen effect, dan ook niet significant (α >,05), tenzij A is: significant α = 05-,01; B is: significant α =

77 Tabel 7.5.2a Effectgroottes en effectkwalificaties van achtergrondvariabelen naar peilingsjaar op de schaal Getallen en getalsrelaties (G/G) in jaargroep 4 Effectgrootte Effectkwalificatie Variabele Contrast 2008/ / Stratum (2008) Stratum 2 Stratum 1-0,35 / -0,24-0,28 klein klein Stratum 3 Stratum 2-0,39 / -0,05-0,09 klein / geen geen effect Stratum 3 Stratum 1-0,75 / -0,29-0,37 matig / klein klein Formatiegewicht Fg 0.30 Fg ,34-0,42 klein klein Fg 1.20 Fg ,11-0,31 geen effect klein a Fg 1.20 Fg ,45-0,73 klein matig Geslacht Meisjes Jongens -0,42-0,39 klein klein Leertijd Vertraagd Regulier -0,36-0,41 klein klein Thuistaal NLs+Ander Alleen NLs -0,33-0,23 klein klein X Alleen ander Alleen NLs -0,35-0,30 klein klein b NLs+Ander Alleen ander 0,02 0,07 geen effect geen effect Regio Oost Noord 0,09-0,15 geen effect geen effect West Noord 0,00-0,24 geen effect klein a Zuid Noord 0,05-0,03 geen effect geen effect West Oost -0,09-0,09 geen effect geen effect Zuid Oost -0,03 0,12 geen effect geen effect Zuid West 0,05 0,21 geen effect klein b Urbanisatiegraad sterk zeer sterk 0,04-0,05 geen effect geen effect matig sterk 0,01 0,17 geen effect geen effect weinig matig 0,00 0,05 geen effect geen effect niet weinig -0,05-0,05 geen effect geen effect AIs klein, matig of groot effect, dan ook significant met α < 0,001; tenzij x is: niet significant; a is: α = 0,05-0,01; b is: α =0,01-0,001 AIs geen effect, dan ook niet significant (α > 0,05), tenzij A is: significant α = 0,05-,01; B is: significant α = 0,01-0,001 75

78 Tabel 7.5.3a Gemiddelde (Gem) en standaarddeviatie (SD) per achtergrondvariabele en per peilingsjaar voor de schaal Getallen en getalsrelaties. Jaar Variabele Niveau Gem. SD. Gem. SD. Gem. SD. Jaar Gehele groep Stratum Stratum Stratum Stratum Formatiegewicht Fg Fg Fg Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Thuistaal Alleen Nederlands (NLs) NLs en een andere taal Alleen een andere taal Regio Noord Oost West Zuid Urbanisatiegraad Zeer sterk Sterk Matig Weinig Niet Ter referentie: Typische leerling Schaalwaarde (geen verschil tussen de jaren) Zeer laagvaardige leerling Laagvaardige leerling Standaard leerling Hoogvaardige leerling Zeer hoogvaardige leerling

79 Tabel 7.5.1b Effectgrootte op de vaardigheid Rekenen: Optellen en Aftrekken (O/A) in jaargroep 4 Variabele: Contrast Model Effectgrootte Effectkwalificatie Jaar: Hoofdeffecten 2008/2009 0,02 geen effect Hoofdeffecten 2009/2010 0,08 geen effect A Zodoende: Alleen jaareffect 0,10 geen effect B AIs klein, matig of groot effect, dan ook significant met α <,001; tenzij x is: niet significant; a is: α = 05-,01; b is: α = 01-,001 AIs geen effect, dan ook niet significant (α >,05), tenzij A is: significant α = 05-,01; B is: significant α = Tabel 7.5.2b Effectgroottes en effectkwalificaties van achtergrondvariabelen naar peilingsjaar op de schaal Optellen en Aftrekken (O/A) in jaargroep 4 Effectgrootte Effectkwalificatie Variabele Contrast 2008/ / Stratum (2008) Stratum 2 Stratum 1-0,27 / 0,02-0,12 klein / geen geen effect A Stratum 3 Stratum 2-0,27 / -0,05-0,16 klein / geen geen effect Stratum 3 Stratum 1-0,54 / -0,03-0,28 matig / geen klein b Formatiegewicht Fg 0.30 Fg ,30-0,28 klein klein b Fg 1.20 Fg ,02-0,10 geen effect geen effect Fg 1.20 Fg ,27-0,38 klein klein b Geslacht Meisjes Jongens -0,32-0,28 klein klein Leertijd Vertraagd Regulier -0,36-0,44 klein klein Thuistaal NLs+Ander Alleen NLs -0,27-0,09 geen effect geen effect Alleen ander Alleen NLs -0,13-0,12 geen effect geen effect NLs+Ander Alleen ander -0,15 0,03 geen effect geen effect Regio Oost Noord 0,14-0,24 geen effect klein a West Noord 0,11-0,22 geen effect klein a Zuid Noord 0,13-0,17 geen effect geen effect West Oost -0,03 0,02 geen effect geen effect Zuid Oost -0,01 0,07 geen effect geen effect Zuid West 0,02 0,05 geen effect geen effect Urbanisatiegraad sterk zeer sterk 0,02-0,09 geen effect geen effect matig sterk -0,01 0,15 geen effect geen effect weinig matig 0,08 0,02 geen effect geen effect niet weinig -0,08-0,11 geen effect geen effect AIs klein, matig of groot effect, dan ook significant met α < 0,001; tenzij x is: niet significant; a is: α = 0,05-0,01; b is: α = 0,01-0,001 AIs geen effect, dan ook niet significant (α > 0,05), tenzij A is: significant α = 0,05-,01; B is: significant α = 0,01-0,001 77

80 Tabel 7.5.3b Gemiddelde (Gem) en standaarddeviatie (SD) per achtergrondvariabele en per peilingsjaar voor de schaal Optellen/Aftrekken. Jaar Variabele Niveau Gem. SD. Gem. SD. Gem. SD. Jaar Gehele groep Stratum Stratum Stratum Stratum Formatiegewicht Fg Fg Fg Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Thuistaal Alleen Nederlands (NLs) NLs en een andere taal Alleen een andere taal Regio Noord Oost West Zuid Urbanisatiegraad Zeer sterk Sterk Matig Weinig Niet Ter referentie: Typische leerling Schaalwaarde (geen verschil tussen de jaren) Zeer laagvaardige leerling Laagvaardige leerling Standaard leerling Hoogvaardige leerling Zeer hoogvaardige leerling

81 Tabel 7.5.1c Effectgrootte op de vaardigheid Rekenen: Vermenigvuldigen en Delen in (V/D) jaargroep 4 Variabele: Contrast Model Effectgrootte Effectkwalificatie Jaar: Hoofdeffecten 2008/2009-0,06 geen effect Hoofdeffecten 2009/2010 0,05 geen effect Zodoende: Alleen jaareffect -0,01 geen effect Tabel 7.5.2c Effectgroottes en effectkwalificaties van achtergrondvariabelen naar peilingsjaar op de schaal Vermenigvuldigen en Delen (V/D) in jaargroep 4 Effectgrootte Effectkwalificatie Variabele Contrast 2008/ / Stratum (2008) Stratum 2 Stratum 1-0,38 / -0,06-0,22 klein / geen klein Stratum 3 Stratum 2-0,37 / -0,19-0,32 klein / geen klein Stratum 3 Stratum 1-0,75 / -0,25-0,54 matig / klein matig Formatiegewicht Fg 0.30 Fg ,31-0,44 klein klein Fg 1.20 Fg ,22 0,02 klein geen effect Fg 1.20 Fg ,54-0,42 matig klein Geslacht Meisjes Jongens -0,36-0,40 klein klein Leertijd Vertraagd Regulier -0,34-0,44 klein klein Thuistaal NLs+Ander Alleen NLs -0,23-0,25 klein klein Alleen ander Alleen NLs -0,23-0,37 klein klein b NLs+Ander Alleen ander 0,00 0,12 geen effect geen effect Regio Oost Noord 0,09-0,31 geen effect klein b West Noord -0,01-0,33 geen effect klein b Zuid Noord -0,02-0,34 geen effect klein b West Oost -0,10-0,02 geen effect geen effect Zuid Oost -0,11-0,03 geen effect geen effect Zuid West 0,00-0,01 geen effect geen effect Urbanisatiegraad sterk zeer sterk -0,04-0,23 geen effect klein a matig sterk 0,07 0,10 geen effect geen effect weinig matig -0,03 0,08 geen effect geen effect niet weinig -0,04-0,07 geen effect geen effect AIs klein, matig of groot effect, dan ook significant met α < 0,001; tenzij x is: niet significant; a is: α = 0,05-0,01; b is: α = 0,01-0,001 AIs geen effect, dan ook niet significant (α > 0,05), tenzij A is: significant α = 0,05-,01; B is: significant α = 0,01-0,001 79

82 Tabel 7.5.3c Gemiddelde (Gem) en standaarddeviatie (SD) per achtergrondvariabele en per peilingsjaar voor de schaal Vermenigvuldigen/Delen Jaar Variabele Niveau Gem. SD. Gem. SD. Gem. SD. Jaar Gehele groep Stratum Stratum Stratum Stratum Formatiegewicht Fg Fg Fg Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Thuistaal Alleen Nederlands (NLs) NLs en een andere taal Alleen een andere taal Regio Noord Oost West Zuid Urbanisatiegraad Zeer sterk Sterk Matig Weinig Niet Ter referentie: Typische leerling Schaalwaarde (geen verschil tussen de jaren) Zeer laagvaardige leerling Laagvaardige leerling Standaard leerling Hoogvaardige leerling Zeer hoogvaardige leerling

83 Tabel 7.5.1d Effectgrootte op de vaardigheid Meten, Tijd en Geld (MTG) in jaargroep 4 Variabele: Contrast Model Effectgrootte Effectkwalificatie Jaar: Hoofdeffecten 2008/2009 0,02 geen effect Hoofdeffecten 2009/2010 0,03 geen effect Zodoende: Alleen jaareffect 0,05 geen effect Tabel 7.5.2d Effectgroottes en effectkwalificaties van achtergrondvariabelen naar peilingsjaar op de schaal Meten, Tijd en Geld (MTG) in jaargroep 4 Effectgrootte Effectkwalificatie Variabele Contrast 2008/ / Stratum (2008) Stratum 2 Stratum 1-0,25 / -0,18-0,21 klein / geen klein Stratum 3 Stratum 2-0,35 / -0,17-0,25 klein / geen klein a Stratum 3 Stratum 1-0,60 / -0,35-0,46 matig / klein klein Formatiegewicht Fg 0.30 Fg ,35-0,43 klein klein Fg 1.20 Fg ,16 0,01 geen effect geen effect Fg 1.20 Fg ,52-0,42 matig klein Geslacht Meisjes Jongens -0,38-0,41 klein klein Leertijd Vertraagd Regulier -0,33-0,38 klein klein Thuistaal NLs+Ander Alleen NLs -0,26-0,26 klein klein Alleen ander Alleen NLs -0,33-0,2 klein klein a NLs+Ander Alleen ander 0,07 0,02 geen effect geen effect Regio Oost Noord 0,08-0,32 geen effect klein b West Noord -0,04-0,35 geen effect klein b Zuid Noord 0,04-0,33 geen effect klein b West Oost -0,12-0,03 geen effect geen effect Zuid Oost -0,04-0,02 geen effect geen effect Zuid West 0,08 0,01 geen effect geen effect Urbanisatiegraad sterk zeer sterk -0,06-0,12 geen effect geen effect matig sterk 0,07 0,1 geen effect geen effect A weinig matig -0,11 0,00 geen effect geen effect niet weinig 0,04-0,11 geen effect geen effect AIs klein, matig of groot effect, dan ook significant met α < 0,001; tenzij x is: niet significant; a is: α = 0,05-0,01; b is: α = 0,01-0,001 AIs geen effect, dan ook niet significant (α > 0,05), tenzij A is: significant α = 0,05-,01; B is: significant α = 0,01-0,001 81

84 Tabel 7.5.3d Gemiddelde (Gem) en standaarddeviatie (SD) per achtergrondvariabele en per peilingsjaar voor de schaal Meten, tijd en geld Jaar Variabele Niveau Gem. SD. Gem. SD. Gem. SD. Jaar Gehele groep Stratum Stratum Stratum Stratum Formatiegewicht Fg Fg Fg Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Thuistaal Alleen Nederlands (NLs) NLs en een andere taal Alleen een andere taal Regio Noord Oost West Zuid Urbanisatiegraad Zeer sterk Sterk Matig Weinig Niet Ter referentie: Typische leerling Schaalwaarde (geen verschil tussen de jaren) Zeer laag vaardige leerling Laag vaardige leerling Standaard leerling Hoog vaardige leerling Zeer hoog vaardige leerling

85 8 Samenvatting en discussie In dit hoofdstuk wordt een samenvatting gegeven van de resultaten van de analyses bij het Jaarlijks Peilingsonderzoek van het Onderwijsniveau (JPON) van De relatie tussen de achtergrondvariabelen en de prestaties op de taal- en rekentoetsen in jaargroep 8 en jaargroep 4 worden in dit hoofdstuk per achtergrondvariabele behandeld. Eerst worden de jaareffecten, dat wil zeggen, de verschillen over de jaren heen op de verschillende vaardigheden beschreven en bediscussieerd. Bij de beschrijving van deze resultaten wordt in dit hoofdstuk verder ingegaan op de vaardigheden in de drie achtereenvolgende jaren en de wijze waarop die in de populatie zijn verdeeld. Er zijn hierbij vijf typische vaardigheidsniveaus onderscheiden die als vergelijkingspunten dienen. Op deze wijze kan verder worden ingegaan op de ontwikkeling van de verschillende vaardigheden in de afgelopen drie jaar. Na de beschrijving van de jaareffecten volgt een overzicht van de effecten bij de basisvariabelen stratum, formatiegewicht, geslacht en leertijd. Tot slot worden de effecten van de extra variabelen op de verschillende vaardigheden besproken: thuistaal, regio, urbanisatiegraad, advies voortgezet onderwijs (VO) en soort toets. De volgorde van de presentatie van de resultaten is anders dan in hoofdstuk 5, 6 en 7. Daar is de beschrijving van de effecten gegeven per vaardigheid en per groep, zoals gedefinieerd door de categorisering van de achtergrondvariabele. In die hoofdstukken wordt ook een gedetailleerde omschrijving van de vaardigheden gegeven. Voor de omschrijving van het doel en de context van de analyses, de onderzoeksopzet en de onderzoeksmethode wordt verwezen naar de eerste vier hoofdstukken. In hoofdstuk 4 wordt de betekenis van de vaardigheidsschaal en de interpretatie van de effecten uiteengezet. Op deze plaats wordt alleen nog een kort overzicht gegeven van hoe de waarden op de vaardigheidsschalen moeten worden geïnterpreteerd en hoe tegen de effecten moet worden aangekeken. 8.1 Interpretatie van resultaten Een effectgrootte is het verschil tussen twee gemiddelden gedeeld door de (samengestelde) standaardafwijking van de twee groepen die onderling worden vergeleken. Bij de interpretatie van de effectgrootte hanteren we de vuistregel van Cohen (1988) die is afgebeeld in tabel Tabel Kwalificatie van effectgrootten Effectgrootte Kwalificatie 0.0 geen noemenswaardig effect 0,2 of -0,2 klein effect 0,5 of -0,5 matig effect 0,8 of -0,8 groot effect De richting van het effect wordt bepaald door de volgorde van het contrast. Zo zijn de volgende twee effecten exact aan elkaar gelijk: Contrast Effectgrootte Meisjes Jongens 0,2 Jongens Meisjes -0,2 In beide gevallen betekent het dat er een klein effect is waarbij meisjes beter presteren dan jongens. 83

86 De vaardigheidsschaal is vastgelegd in Het gemiddelde op ieder van de toen gemeten vaardigheden 3 is vastgezet op de waarde 250 en de standaarddeviatie is gelijk gesteld aan 50. Doordat deze waarde in dat jaar vastligt kan die waarde als indexwaarde beschouwd worden waar de latere metingen aan te refereren zijn. Doordat ook de standaarddeviatie vastgelegd was, zijn ook andere punten op de schaal te interpreteren. Dat is gedaan door de typische leerlingen te definiëren. De definities zijn weergegeven in tabel Tabel Interpretatie van grenspunten op de vaardigheidsschaal door typische leerlingen en percentielwaarden Vaardigheidsschaalwaarde Percentiel 2008 Interpretatie van niveau Zeer laag vaardige leerling (ZLV) Laag vaardige leerling (LV) Standaard leerling (St) Hoog vaardige leerling (HV) Zeer hoog vaardige leerling (ZHV) De waarde van de ZLV is bepaald door het niveau dat door minstens 90 procent van de leerlingen in 2008 gehaald is. Dat betekent dat in procent van de leerlingen een vaardigheid had die lager was dan 186. De waarde van de LV geeft het niveau aan dat in 2008 door 75 procent van de leerlingen gehaald werd (25% had een lagere vaardigheid). De standaard leerling is de gemiddelde leerling van Het niveau van HV en ZHV werd in 2008 gehaald door respectievelijk 25 en 10 procent (respectievelijk 75 en 90 procent zaten onder dat niveau). Doordat de vaardigheidsschaal onveranderd is in 2009 en 2010, kunnen de resultaten ook wat betreft deze vergelijkingspunten over de jaren met elkaar vergeleken worden. Zo kan bijvoorbeeld bekeken worden of er in 2010 meer of minder ZLV-leerlingen zijn dan in de voorgaande jaren. Bij de vaardigheidsschalen zijn twee opmerkingen te maken. Ten eerste moet opgemerkt worden dat deze schalen niet direct te vergelijken zijn met het reguliere PPON, de referentietoetsen, of de toetsen Basisvaardigheid in jaargroep 8, aangezien deze niet op dezelfde schaal geplaatst zijn. Ook verschillen de afnamecondities van JPON met die van bovengenoemde onderzoeken. Een tweede opmerking betreft het functioneren van de getalswaarde van de schaal. Het type waarden is vergelijkbaar met de waarden van de IQ-schaal. Daar waar IQ per leeftijd is gedefinieerd, zo is de vaardigheidsschaal per leerjaar bepaald. Zo representeert de waarde 250 in jaargroep 8 een hoger absoluut niveau van vaardigheid dan in jaargroep 4, net zoals een kind van 7 met een IQ van 100 andere dingen kan dan een kind van 11 met datzelfde IQ. 8.2 De resultaten voor de jaarvergelijking Jaarvergelijkingsresultaten resultaten voor jaargroep 8 Vonden we in 2009 nog bij enkele toetsen een klein negatief verschil, nu is dat bij alle toetsen positief; de resultaten in 2010 zijn niet alleen beter dan in 2009, maar ook dan in De relatief grootste vooruitgang zien we bij Woordenschat. De positieve effecten zijn terug te vinden bij de gemiddelden. Deze gemiddelden zijn gegeven op de schaal, waarbij in de allereerste peiling (Hemker & Van Weerden, 2009) het gemiddelde van 2008 op alle schalen op 250 is gesteld om de schalen te definiëren. 3 Er zijn twee uitzonderingen: de schaal voor Woordenschat in jaargroep 4 is vastgesteld in 2009, en de schaal voor Technisch lezen voor jaargroep 4 is vastgesteld in Dat waren de jaren dat deze vaardigheden voor het eerst met een goede meting in de peiling voorkwamen. 84

87 Tabel Gemiddelden (Gem.) en standaarddeviaties (SD) per vaardigheid voor jaargroep 8 Jaar Vaardigheid Gem. SD Gem. SD Gem. SD Taal Begrijpend lezen Spelling Woordenschat Rekenen-Wiskunde Getallen en bewerkingen Breuken, procenten en verhoudingen Meten, meetkunde, tijd en geld JPON-schaal: gemiddelde van 250, met standaarddeviatie 50 in normjaar 2008 (vet: significant) In tabel is terug te vinden dat in 2010 de vaardigheden 2 tot 7 punten hoger liggen dan in Als we kijken naar de gemiddelde gevonden taalvaardigheid, waarbij we gewogen hebben naar de aantallen opgaven in de toets, dan zien we dat het gemiddelde in 2009 gelijk is aan 251 en in 2010 gelijk aan 254. Ten opzichte van 2008, dat op 250 gesteld is, is dat een duidelijke stijging. De gemiddelde rekenvaardigheid, gewogen naar het aantal opgaven, laat zien dat er van 2008 naar 2009 geen stijging was: het gemiddelde in beide jaren was 250. In 2010 was het gewogen gemiddelde wel hoger: 253. De stijging in vaardigheid was van 2009 naar 2010 zowel bij taal als bij rekenen 3 punten. In termen van effecten is dat een effect van 0,06. Dat wordt als geen effect beoordeeld, maar het is de goede richting op en als een dergelijke stijging ieder jaar gevonden zou worden, dan telt dit bij elkaar op tot een serieus effect. In tabel is te zien wat dat betekent in termen van effectgroottes. Tabel Overzicht effecten voor jaarvergelijking jaargroep 8 ongecorrigeerd Taalvaardigheden Begrijpend Lezen 0,04 0,04 0,08 Spelling 0,03 0,00 0,03 Woordenschat 0,15-0,02 0,13 Rekenvaardigheden Getallen en bewerkingen 0,05 0,00 0,05 Breuken, procenten en verhoudingen 0,08 0,00 0,08 Meten, meetkunde, tijd en geld 0,07-0,01 0,06 De gevonden effecten van 2010 liggen dicht tegen 0 aan en zijn kleiner dan 0,20. Volgens de vuistregels die gegeven in paragraaf 8.1 zijn de effecten kleiner dan een klein effect en liggen ze dicht tegen geen effect aan. Echter, aangezien het grote aantallen leerlingen betreft en we de effecten bij alle variabelen terug zien komen kan er toch sprake zijn van een maatschappelijk relevant effect. Het was door de veranderde definitie van formatiegewicht niet mogelijk gecorrigeerde jaareffecten te berekenen waarbij alle basisvariabelen gebruikt zijn. De gecorrigeerde effecten voor de overige basisvariabelen (stratum, geslacht, leertijd) zijn echter wel uitgerekend. Die jaareffecten verschilden echter zeer weinig van de jaareffecten zoals gerapporteerd zijn in tabel Voor zou alleen bij Begrijpend lezen het effect 0,01 lager zijn en bij Woordenschat zou het effect 0,01 hoger zijn. De verschillen zijn ook te geven in termen van de referentiepunten zoals die gegeven worden door de definities van de typische leerlingen in paragraaf 8.1 (tabel 8.1.2). Door deze definitie is gegeven dat in het 85

88 referentiejaar (voor jaargroep 8 is dat altijd 2008) 10% van de leerlingen per schaal een vaardigheid had die gelijk of lager was dan dat van een Zeer Laag Vaardige (ZLV) leerling. Doordat 25% een vaardigheid heeft lager of gelijk aan een Laag Vaardige leerling (LV), heeft 15% van de leerlingen een niveau tussen dat van een ZLV en een LV. Op een zelfde manier is gegeven dat 25% van de leerlingen in 2008 een vaardigheid had tussen LV en Standaard, 25% tussen Standaard en Hoog Vaardig (HV); 15% tussen HV en ZHV, en ten slotte 10% van de leerlingen in 2008 een vaardigheid had hoger dan ZHV. Deze percentages staan ook in de laatste kolom van tabel en zijn voor alle vaardigheden gelijk. Doordat de grenswaarden op de vaardigheidsschaal vastgelegd zijn, is te onderzoeken bij welke vaardigheden welke groepen relatief groter en welke relatief kleiner worden. Tabel Percentage leerlingen in de verschillende groepen per vaardigheid in Percentage leerlingen Referentie Vaardigheid Wo* Sp* BL* G/B* BPV* MMTG* 2008 lager dan ZLV ZLV- LV LV St St HV HV ZHV hoger dan ZHV * Wo = Woordenschat, Sp = Spelling; BL = Begrijpend lezen; G/B = Getallen en bewerkingen; BPV = Breuken, procenten en verhoudingen; MMTG = Meten, meetkunde, tijd en geld De percentages leerlingen aan de onderkant (de lagere vaardigheden) is afgenomen of gelijk gebleven ten opzichte van 2008, terwijl die aan de bovenkant zijn toegenomen of gelijk gebleven. Dit is ook zichtbaar door te kijken naar de cumulatieve percentages; de percentages leerlingen die beter of gelijk presteren dan de vijf typische leerlingen. Die zijn gegeven in tabel 8.2.4, waarin ook de gegevens van 2009 zijn opgenomen. 86

89 Tabel Percentage leerlingen dat één van de vijf verschillende prestatieniveaus beheerst in 2009 en 2010 op het gebied van taal en rekenen Percentage leerlingen met minstens niveau Taalvaardigheid Referentie Woordenschat Spelling Begrijpend lezen zeer laag vaardige leerling laag vaardige leerling standaard leerling hoog vaardige leerling zeer hoog vaardige leerling Percentage leerlingen met minstens niveau Rekenvaardigheid Referentie Getallen en bewerkingen Breuken, procenten, verhoudingen Meten, meetkunde, tijd en geld zeer laag vaardige leerling laag vaardige leerling standaard leerling hoog vaardige leerling zeer hoog vaardige leerling In tabel zijn de percentages van de laag vaardige (LV) leerlingen geaccentueerd, omdat die overeenkomen met percentiel 75 in 2008: 75 procent van de leerlingen in 2008 had een vaardigheid hoger dan dat van de laag vaardige leerling. Dit percentiel komt overeen met het percentiel dat gebruikt is bij de diagnostische toetsen om het 1F-niveau aan te geven. Dit 1F-niveau is namelijk ook vastgelegd op het niveau dat 75 procent van de leerlingen uit het basisonderwijs beheerst (Expertgroep Doorlopende Leerlijnen, 2008). We kunnen echter niet stellen dat 1F, zoals gedefinieerd bij de diagnostische toetsen, zeker overeenkomt met het punt dat beheerst wordt door 75 procent van de leerlingen op de Eindtoets. De diagnostische toets wordt niet gemaakt onder high stakes condities, terwijl dat bij de Eindtoets wel het geval is: het belang dat aan de Eindtoets gehecht wordt, is groter dan het belang dat aan de diagnostische toets gehecht wordt. Doordat alle betrokken partijen (leerlingen, ouders, leraren, scholen) gebaat zijn bij een optimale prestatie, zijn de condities voor een optimale prestatie aanzienlijk gunstiger. De motivatie om op de Eindtoets goed te presteren zal bij leerlingen hoger zijn, waardoor zij serieuzer hun werk doen, beter de opgaven lezen, eerder hun antwoorden nog eens extra zullen controleren, enzovoorts. Bij de Eindtoets zal daardoor eerder sprake zijn van een optimal performance van leerlingen. Bij toetsen waar voor hen en de andere betrokkenen minder van afhangt, zal eerder een typical performance gevonden worden. Uiteraard kan dit voor individuele leerlingen nog verschillen, maar voor de groep als geheel lijkt dit zeker op te gaan. Op het ogenblik wordt onderzoek uitgevoerd om meer te weten te komen over de verschillen tussen de optimal performance en typical performance. Tabel kan ook gegeven worden in termen van verschuivingen: hoeveel meer of minder procent van de leerlingen haalt nu het niveau in vergelijking met 2008? Dat levert tabel op. Positieve verschuivingen betekenen dat er meer leerlingen het niveau halen, negatieve verschuivingen betekenen dat juist minder leerlingen het niveau halen. De tabel laat zien dat alle verschuivingen van 2009 naar 2010 alleen positief zijn. 87

90 Tabel Verschuiving in percentages leerlingen ten opzichte van de percentielpunten (2008), per jaar en per vaardigheid, met een gewogen gemiddelde voor taal en rekenvaardigheid Taalvaardigheid Woordenschat Spelling Begrijpend lezen Minstens niveau Jaar zeer laag vaardige leerling laag vaardige leerling standaard leerling hoog vaardige leerling zeer hoog vaardige leerling Rekenvaardigheid Getallen en bewerkingen Breuken, procenten, verhoudingen Meten, meetkunde, tijd en geld Minstens niveau Jaar zeer laag vaardige leerling laag vaardige leerling standaard leerling hoog vaardige leerling zeer hoog vaardige leerling Jaarvergelijkingsresultaten voor jaargroep 4 Een verschil met de analyses van jaargroep 8 is dat er bij jaargroep 4 met een kleinere steekproef gewerkt is. Bij jaargroep 4 was dat ongeveer 2500 leerlingen per vaardigheid per jaar, terwijl dit aantal voor jaargroep 8 rond de lag. Dit heeft tot gevolg dat voor het berekenen van jaareffecten in jaargroep 4 niet met ongecorrigeerde effecten gerekend kan worden in een hoofdeffectenmodel. Met andere woorden: er is niet een directe, ongecorrigeerde vergelijking te maken over de jaren heen, er zal altijd sprake moeten zijn van een correctie in verband met steekproeffluctuaties. Het jaareffect is een effect dat gecorrigeerd is voor de basisvariabelen stratum, leertijd, geslacht en formatiegewicht. Ook in jaargroep 4 is er sprake van een wijziging van de definitie van formatiegewicht. Deze vond alleen een jaar eerder plaats. Voor het effect van afnamejaar is daarom gebruikgemaakt van een model met alleen gegevens van 2009 en 2010, omdat in een dergelijk model gecorrigeerd kan worden voor formatiegewichten waarbij de definitie dezelfde is gebleven. Ook hier starten we met het weergegeven van de gemiddelden op de schaal geïndexeerd op Deze zijn gegeven in tabel Gegevens voor Woordenschat ontbreken voor 2008 en Technisch lezen komt in dit rapport voor het eerst voor. 88

91 Tabel Gemiddelden (Gem.) en standaarddeviaties (SD) per vaardigheid voor jaargroep 4 Jaar Taal Gem. SD Gem. SD Gem. SD Begrijpend lezen Spelling Woordenschat Technisch lezen Rekenen-Wiskunde Getallen en getalsrelaties Optellen en aftrekken Vermenigvuldigen en delen Meten, tijd en geld De gegevens voor 2009 verschillen iets van die in het vorige verslag (Hemker, Kuhlemeier, en Van Weerden, 2010). De verschillen worden gevonden doordat een ander model gebruikt is, waarbij beter rekening is gehouden met de veranderde definitie van formatiegewicht tussen 2008 en De gemiddelden van 2009 zijn herberekend volgens dat model. Dit leverde iets hogere waarden op in vergelijking met het vorige rapport, maar het maximum verschil is slechts één punt. De verschillen weergegeven als effectgroottes staan in tabel Tabel Overzicht effecten voor jaarvergelijking jaargroep 4 gecorrigeerd Taalvaardigheden Begrijpend lezen 0,00-0,05-0,05 Spelling 0,00 0,07 0,07 Woordenschat 0,04.. Technisch lezen... Rekenvaardigheden Getallen en getalsrelaties 0,10-0,01 0,09 Optellen en aftrekken 0,08 0,02 0,10 Vermenigvuldigen en delen 0,05-0,06-0,01 Meten, tijd en geld 0,03 0,02 0,05 Al deze effecten zijn zodanig klein dat ze volgens de gebruikelijke vuistregels als geen effect worden beoordeeld. Van deze effecten is geen enkel effect significant bij significantieniveau α van,01, behalve het effect voor Getallen en getalsrelaties van Bij significantieniveau α van,05, is ook het verschil bij Optellen en Aftrekken significant. Net als in jaargroep 8 waren er geen negatieve effecten. In jaargroep 4 gaan vooral de rekenvaardigheden vooruit ten opzicht van Bij Begrijpend lezen is er nog wel een achterstand ten opzicht van 2008, maar de achteruitgang in 2009 voor Vermenigvuldigen en delen lijkt in 2010 weer bijna ingelopen. Voor Woordenschat was alleen een jaarvergelijking mogelijk voor 2010 en Over de vaardigheid Technisch lezen wordt in dit rapport voor het eerst gerapporteerd. In het vorige rapport (Hemker, Kuhlemeier en Van Weerden, 2010) is gewerkt met interactiemodellen, onder andere vanwege de veranderde definitie van formatiegewicht. Ook in de vergelijking tussen de 2009 en 2010 zijn naast de hoofdeffecten ook interactie-effecten berekend, voor het effect afnamejaar per stratum en afnamejaar per formatiegewicht (tabel 8.2.8). Vanwege de gelijke definities van de variabelen tussen de jaren is hier alleen gekeken naar het jaareffect

92 Tabel Jaareffect ; Totaal, per stratum en per formatiegewicht Totaal Per stratum Per formatiegewicht S1 S2 S3 Fg 0.00 Fg 0.30 Fg 1.20 Taal Begrijpend lezen 0,00 0,03 0,00-0,12 0,03-0,15-0,10 Spelling 0,00 0,11-0,21-0,09 0,01-0,01-0,12 Woordenschat 0,04 0,04-0,02 0,15 0,04-0,15 0,31 Rekenen-Wiskunde Getallen en getalsrelaties 0,10 0,15 0,09-0,08 0,14-0,01-0,20 Optellen en aftrekken 0,08 0,16 0,00-0,14 0,10 0,09-0,19 Vermenigvuldigen en delen 0,05 0,14-0,04-0,17 0,08-0,14-0,06 Meten tijd en geld 0,03 0,07 0,02-0,08 0,05-0,11 0,01 De positieve effecten worden vooral gevonden binnen stratum 1 ( niet-achterstandsscholen ) en bij de leerlingen zonder formatiegewicht. Binnen de andere groepen wordt wel achteruitgang gevonden, waarbij Woordenschat een uitzondering is. De gevonden effecten per subgroep (binnen stratum of formatiegewicht) zijn echter nergens significant, waardoor deze niet direct als alarmerend gekenmerkt hoeven te worden. In paragraaf 8.3 wordt verder ingegaan op de effecten van stratum en formatiegewicht. Net zoals bij jaargroep 8 zijn de leerlingen in groepen te verdelen gebaseerd op de referentiepunten voor typische leerlingen in 2008 (het referentiejaar). Zo is te zien dat, op de vaardigheid Begrijpend lezen na, er minder leerlingen (zeer) laag vaardig zijn en meer leerlingen (zeer) hoog vaardig. Hierbij moet worden opgemerkt dat voor Woordenschat het referentiejaar 2009 was. Voor Technisch lezen wordt 2010 het referentiejaar. Deze vaardigheid is daardoor in tabel niet weergegeven. Tabel Percentage leerlingen in de verschillende vaardigheidsgroepen in 2010 Percentage leerlingen met minstens niveau Referentie Taalvaardigheid (2010) Begrijpend lezen Spelling Woordenschat zeer laag vaardige leerling laag vaardige leerling standaard leerling hoog vaardige leerling zeer hoog vaardige leerling Percentage leerlingen met minstens niveau Referentie Rekenvaardigheid (2010) Getallen en getalsrelaties Optellen en aftrekken Vermenigvuldigen en delen Meten, tijd en geld zeer laag vaardige leerling laag vaardige leerling standaard leerling hoog vaardige leerling zeer hoog vaardige leerling

93 8.3 De vergelijking op de basisvariabelen stratum, formatiegewicht, geslacht en leertijd In deze samenvatting worden de resultaten, zoals die gevonden zijn bij de analyses van de data van 2010 vergeleken met de resultaten uit de eerdere rapporten. De effecten zijn berekend met modellen waarin altijd de basisvariabelen stratum, formatiegewicht, geslacht en leertijd zijn meegenomen. Merk op dat formatiegewicht weliswaar bij de jaarvergelijking niet gebruikt kon worden, maar voor de analyses binnen een jaar is de veranderde definitie geen probleem, aangezien voor de leerlingen in hetzelfde jaar de definitie gelijk is. De extra variabelen zijn één voor één toegevoegd aan de modellen met basisvariabelen. De gemiddelden van de verschillende groepen binnen 2010 zijn ook in de samenvatting gegeven. Deze hebben echter een andere interpretatie dan de effectschattingen: bij de effectschattingen wordt altijd gecorrigeerd voor de overige variabelen in het model. Bij de gemiddelden gebeurt dat niet. De effecten worden daarom de gezuiverde effecten genoemd, terwijl de gemiddelden, ongezuiverde gemiddelden zijn. De labels voor de interpretatie van de effecten worden niet in de tabellen weergegeven, net zo min als de standaarddeviatie van de ongezuiverde gemiddelden en de verdelingen van 2008 en Deze worden wel gegeven in de tabellen in de hoofdstukken 5, 6 en 7. Merk overigens op dat in vergelijking met de tabellen in die hoofdstukken de effecten omgekeerd zijn. Zo wordt bijvoorbeeld in de samenvatting S1 S2 gegeven, terwijl in de eerdere hoofdstukken S2 S1 gegeven is. Dit heeft verder geen gevolgen voor de interpretatie of de significantie (zie ook hoofdstuk 4). Het voordeel van deze omkering is dat de meeste waarden van de effecten hierdoor positief afgebeeld kunnen worden. Dat leest gemakkelijker. In hoofdstuk 5, 6 en 7 is echter aan de originele volgorde vastgehouden, omdat die ook in de oude rapporten is gebruikt. Dat maakt de vergelijking met de oude rapporten weer gemakkelijker Effecten van stratum Bij stratum is ervoor gekozen om de oude definitie van de driedeling aan te houden. Het is ook mogelijk om op basis van de nieuwe definities voor formatiegewichten de definitie van stratum aan te passen. Daar is ook onderzoek naar gedaan. Daaruit bleek dat de verschillen tussen de oude en nieuwe definities zeer weinig van elkaar verschillen als het gaat om het effect op de indeling van scholen. Om die reden, en omdat de jaarvergelijking het best te interpreteren is met modellen waarbij de definities van de variabelen over de jaren gelijk zijn, is ervoor gekozen in dit rapport de resultaten met de oorspronkelijke definities van stratum te presenteren. Binnen deze definitie kan gesteld worden dat scholen met relatief (zeer) veel achterstandsleerlingen behoren tot stratum 3. Scholen met overwegend leerlingen die geen formatiegewicht hebben behoren tot stratum 1. De scholen die daar tussenin vallen behoren tot stratum 2. Tabel Effect van stratum bij de verschillende vaardigheden in jaargroep 8 S1 S2 S1 S3 S2 S3 Taal 08& & & Woordenschat 0,08 0,07 0,23 0,48 0,15 0,42 Spelling 0,06 0,04 0,07 0,04 0,02 0,01 Begrijpend lezen 0,11 0,10 0,27 0,38 0,15 0,28 Rekenen-Wiskunde Getallen en bewerkingen 0,06 0,05 0,08 0,12 0,02 0,06 Breuken, procenten, verhoudingen 0,09 0,08 0,16 0,18 0,07 0,10 Meten, meetkunde, tijd, geld 0,10 0,08 0,20 0,26 0,10 0,17 Het is duidelijk dat als in het model niet gecorrigeerd wordt voor de variabele formatiegewicht de verschillen tussen de groepen van scholen veel groter zouden zijn. Bij het stratumeffect gaat het om het additionele effect op de prestaties van de leerlingen, bovenop het effect van formatiegewicht van de individuele 91

94 leerlingen op die school. Het blijkt dat stratum geen additioneel effect heeft, behalve bij de vaardigheden Woordenschat en Begrijpend lezen. Het effect bij die vaardigheden is ook groter geworden in vergelijking met 2008 en Dat zou mogelijk toe te schrijven zijn aan de veranderde definitie van formatiegewicht. In de nieuwe definitie speelt thuistaal geen rol meer, terwijl thuistaal wel een groot effect heeft bij deze twee vaardigheden (zie paragraaf 8.4). Als we kijken naar de effecten van stratum in jaargroep 4, dan valt op dat ook hier weer voor Begrijpend lezen en Woordenschat een effect gevonden wordt tussen stratum 3 en de andere twee strata. Bij Spelling en Technisch lezen is dat effect afwezig. In tegenstelling tot jaargroep 8 worden er in jaargroep 4 ook effecten gevonden van stratum op de diverse rekenvaardigheden. Tabel Effect van stratum bij de verschillende vaardigheden in jaargroep 4 S1 S2 S1 S3 S2 S3 Taal Woordenschat. 0,17 0,22. 0,53 0,48. 0,36 0,26 Spelling 0,09-0,06 0,26 0,24-0,14 0,07 0,15-0,08-0,19 Begrijpend lezen 0,31 0,14 0,16 0,62 0,37 0,53 0,31 0,23 0,37 Technisch lezen.. 0,24.. 0, ,10 Rekenen-Wiskunde Getallen en getalsrelaties 0,35 0,24 0,28 0,75 0,29 0,37 0,39 0,05 0,09 Optellen en aftrekken 0,27-0,02 0,12 0,54 0,03 0,28 0,27 0,05 0,16 Vermenigvuldigen en delen 0,38 0,06 0,22 0,75 0,25 0,54 0,37 0,19 0,32 Meten, tijd en geld 0,25 0,18 0,21 0,60 0,35 0,46 0,35 0,17 0,25 Als de niet-gecorrigeerde gemiddelden van de vaardigheden bekeken worden voor 2010, dan is te zien dat de leerlingen in stratum 3 bij de meeste vaardigheden duidelijk het minst vaardig zijn, hetgeen ook te verwachten valt aangezien daar de meeste achterstandsleerlingen zitten. De enige uitzonderingen zijn Spelling en Technisch lezen in jaargroep 4: daar presteert stratum 2 het slechtst. Zoals te verwachten geldt voor alle vaardigheden dat de (ongecorrigeerde) gemiddelden het hoogst zijn bij de scholen in stratum 1. Tabel 8.3.3a Gemiddelde vaardigheid voor de verschillende strata in jaargroep 8 in 2010 Taalvaardigheid Rekenen-Wiskunde Stratum (oude definitie) WoS Sp BL GB BPV MMTG Stratum Stratum Stratum Tabel 8.3.3b Gemiddelde vaardigheid voor de verschillende strata in jaargroep 4 in 2010 Taalvaardigheid Rekenen-Wiskunde Stratum (oude definitie) WoS Sp BL TL G/G O/A V/D MTG Stratum Stratum Stratum

95 Merk overigens nogmaals op dat de vaardigheden van jaargroep 4 en jaargroep 8 niet in absolute met elkaar te vergelijken zijn. De gemiddelden zijn, net als bij IQ-scores, relatief binnen de jaargroep. De absolute vaardigheid van de leerlingen in jaargroep 8 is hoger dan in jaargroep Effecten van formatiegewicht Daar waar stratum een schoolkenmerk is, zijn de overige drie basisvariabelen persoonskenmerken. De basisvariabele formatiegewicht hangt uiteraard samen met stratum. De gevonden effecten van formatiegewicht zijn groter dan die van stratum, wat ook te verwachten is. Doordat de definitie van deze variabele veranderd is, zijn de resultaten van 2010 niet direct te vergelijken met die van 2009 en Het is overigens wel opvallend dat de effecten van de nieuwe formatiegewichten sterk lijken op die van de oude. Dit betekent echter niet dat gesteld kan worden dat het verschil in definitie dus weinig uitmaakt. Zie voor een uitleg daarvan paragraaf 4.3. Tabel Effect van formatiegewicht bij de verschillende vaardigheden in jaargroep Taal Woordenschat 0,54 0,56 0,48 0,51 0,20 0,27 1,05 0,76 0,76 Spelling 0,41 0,38 0,31-0,22-0,36-0,14 0,19 0,02 0,17 Begrijpend lezen 0,55 0,61 0,57-0,02 0,08 0,07 0,54 0,69 0,64 Rekenen-Wiskunde 2008 & & & Getallen en bewerkingen 0,48 0,47-0,24-0,14 0,24 0,34 Breuken, procenten, verhoudingen 0,50 0,48-0,15-0,10 0,35 0,38 Meten, meetkunde, tijd, geld 0,52 0,48-0,16-0,03 0,36 0,45 In jaargroep 8 zien we dat bij de meeste vaardigheden de niet-achterstandsleerlingen beter presteren dan achterstandsleerlingen. De effecten zijn klein tot matig. Opvallend is dat er weinig tot geen verschil is tussen de twee verschillende formatiegewichten. Als voor de overige variabelen gecorrigeerd wordt, presteren leerlingen met Formatiegewicht 1.20 in jaargroep 8 ongeveer even goed als die met gewicht Een uitzondering is de vaardigheid Woordenschat. De resultaten in jaargroep 4 zijn sterk vergelijkbaar met die in jaargroep 8. Merk op dat bij Technisch lezen het effect klein of afwezig is. Daar waar in 2009 voor Woordenschat nog wel een verschil gevonden was tussen leerlingen met gewicht 0.30 en 1.20 bij de vaardigheid Woordenschat, wordt dat effect in 2010 niet meer gevonden. Het omgekeerde zien we bij de rekenvaardigheid Getallen en getalsrelaties. 93

96 Tabel Effect van formatiegewicht bij de verschillende vaardigheden in jaargroep Taal Woordenschat 0,29 0,48 0,52 0,07 0,80 0,55 Spelling 0,24 0,21-0,08 0,00 0,16 0,21 Begrijpend lezen 0,40 0,55 0,23 0,04 0,64 0,59 Technisch lezen 0,27-0,17 0,10 Rekenen-Wiskunde Getallen en getalsrelaties 0,34 0,42 0,11 0,31 0,45 0,73 Optellen en aftrekken 0,30 0,28-0,02 0,10 0,27 0,38 Vermenigvuldigen en delen 0,31 0,44 0,22-0,02 0,54 0,42 Meten, tijd en geld 0,35 0,43 0,16-0,01 0,52 0,42 De verschillen tussen de ongecorrigeerde gemiddelden liggen in de zelfde lijn als die van de effecten. Leerlingen zonder formatiegewicht presteren het best. Tussen leerlingen met formatiegewichten 0.30 en 1.20 zijn de verschillen gering. Uitzonderingen zijn Woordenschat in jaargroep 8 en Getallen en getalsrelaties in jaargroep 4. Tabel Gemiddelde vaardigheid (ongecorrigeerd) per formatiegewicht in jaargroep 8 en jaargroep 4. Jaargroep 8 Taalvaardigheid Rekenvaardigheid Formatiegewicht WoS Sp BL GB BPV MMTG Jaargroep 4 Taalvaardigheid Rekenvaardigheid Formatiegewicht WoS Sp BL TL G/G O/A V/D MTG Bij de taalvaardigheden verschillen gemiddelden tussen de leerlingen zonder formatiegewicht en die met een formatiegewicht relatief veel met elkaar. De verschillen voor de rekenvaardigheden zijn kleiner Effecten van geslacht en leertijd Met betrekking tot de vaardigheidsverschillen tussen jongens en meisjes en de verschillen tussen reguliere en vertraagde leerlingen is niet veel veranderd. De resultaten van de eerdere twee jaren lijken zeer op die van Er is echter wel een opvallend verschil bij Woordenschat. Bij die vaardigheid is het gevonden verschil tussen jongens en meisjes in jaargroep 8 van de jaren ervoor in 2010 niet meer gevonden. Daar waar eerder jongens beter presteerden dan de meisjes, zijn de vaardigheden nu vrijwel gelijk. De prestaties in jaargroep 4 voor Woordenschat waren overigens in alle jaren al gelijk voor jongens en meisjes. Het eerder gevonden verschil voor jaargroep 8 in eerdere jaren is daarom opmerkelijker dan het afwezige verschil in

97 Tabel Effecten van basisvariabelen geslacht en leertijd voor jaargroep 8 jongens meisjes regulier vertraagd Taal 08& & Woordenschat 0,23-0,01 0,54 0,44 Spelling -0,33-0,33 0,69 0,71 Begrijpend lezen -0,16-0,18 0,60 0,60 Rekenen-Wiskunde Getallen en bewerkingen 0,43 0,40 0,67 0,70 Breuken, Procenten, Verhoudingen 0,51 0,58 0,71 0,75 Meten, Meetkunde, Tijd, Geld 0,51 0,52 0,69 0,71 Voor alle vaardigheden geldt dat vertraagde leerlingen duidelijk slechter presteren dan reguliere leerlingen. Merk op dat dit over reguliere en vertraagde leerlingen in dezelfde jaargroep gaat. Dat betekent dus dat vertraagde leerlingen, ondanks dat ze ouder zijn en dus langer op school zitten, nog steeds slechter presteren dan hun onvertraagde klasgenoten. De verschillen tussen reguliere en vertraagde leerlingen zijn in jaargroep 8 groter dan in jaargroep 4. Het lijkt er op dat de vertraagde leerlingen in de loop van de tijd steeds verder achter raken. Let wel: de groep vertraagde leerlingen is in jaargroep 8 ook groter dan in jaargroep 4 aangezien er gedurende de schoolloopbaan tussen jaargroep 4 en jaargroep 8 ook leerlingen blijven zitten. De groep vertraagde leerlingen verandert dus van samenstelling. Tabel Effecten van basisvariabelen geslacht en leertijd voor jaargroep 4 jongens meisjes regulier vertraagd Taal 08& & Woordenschat -0,04-0,06 0,27 0,33 Spelling -0,27-0,30 0,53 0,38 Begrijpend lezen -0,19-0,21 0,37 0,27 Technisch lezen. -0,27. 0,34 Rekenen-Wiskunde Getallen en getalsrelaties 0,42 0,39 0,36 0,41 Optellen en aftrekken 0,32 0,28 0,36 0,44 Vermenigvuldigen en delen 0,36 0,40 0,34 0,44 Meten, tijd en geld 0,38 0,41 0,33 0,38 Voor de overige taalvaardigheden kan opgemerkt worden dat meisjes beter presteren dan jongens. Voor de rekenvaardigheden geldt het omgekeerde: jongens hebben een hogere vaardigheid dan meisjes. Deze resultaten gelden zowel voor jaargroep 4 als voor jaargroep 8. 95

98 Tabel Gemiddelden van basisvariabelen geslacht en leertijd voor jaargroep 8 en jaargroep 4 Jaargroep 8 Taalvaardigheid Rekenvaardigheid WoS Sp BL GB BPV MMTG Geslacht Jongens Meisjes Leertijd Regulier Vertraagd Jaargroep 4 Taalvaardigheid Rekenvaardigheid WoS Sp BL TL G/G O/A V/D MTG Geslacht Jongens Meisjes Leertijd Regulier Vertraagd De ongecorrigeerde gemiddelde vaardigheden bevestigen de conclusies gebaseerd op de gecorrigeerde effecten. 8.4 De vergelijking op de extra variabelen Naast de basisvariabelen zijn ook extra variabelen aan het model toegevoegd. Per extra variabele in een analyse uitgevoerd, waarbij het basismodel met stratum, formatiegewicht, geslacht en leertijd telkens aangevuld werd met de extra variabele. Bij de extra variabelen gaat het hierdoor telkens om het additionele effect van deze variabele. Dat is het effect bovenop het effect van de basisvariabelen Vergelijkingsresultaten voor thuistaal Bij de extra variabele thuistaal wordt onderzocht wat het toegevoegde effect is van thuistaal binnen de groep leerlingen met een gelijk formatiegewicht, geslacht en leertijd binnen een school van hetzelfde stratum. Voor zowel jaargroep 4 als jaargroep 8 is gekeken wat het additionele effect is als je thuis alleen Nederlands, Nederlands en een andere taal of alleen een andere taal spreekt. In jaargroep 8 was het door de grote steekproef ook mogelijk te kijken naar specifieke andere talen. Hierbij is geen onderscheid gemaakt of thuis naast die taal wel of geen Nederlands gesproken wordt. 96

99 Tabel 8.4.1a Gecorrigeerde effecten van de extra variabele thuistaal voor jaargroep 8 Nederlands NLs & Anders Nederlands Andere taal NLs & Anders Andere taal Taal 08& & & Woordenschat 0,28 0,33 0,47 0,66 0,19 0,33 Spelling -0,10-0,18-0,05-0,15 0,05 0,03 Begrijpend lezen 0,17 0,14 0,23 0,30 0,06 0,16 Rekenen-Wiskunde Getallen en bewerkingen -0,06-0,02-0,10-0,02-0,03 0,00 Breuken, procenten, verhoudingen 0,00 0,00-0,03 0,06-0,02 0,06 Meten, meetkunde, tijd, geld 0,02 0,01-0,03 0,09-0,06 0,08 Voor de rekenvaardigheden in jaargroep 8 geldt dat er geen additioneel effect is van een andere thuistaal, al dan niet naast het Nederlands. Als gecorrigeerd wordt voor de basisvariabelen, levert thuistaal geen extra verschil op bij rekenen. Voor de taalvaardigheden in jaargroep 8 worden wel effecten van thuistaal gevonden. Bij Woordenschat geldt dat leerlingen die thuis alleen Nederlands spreken het beter doen dan leerlingen die daarnaast ook een andere taal spreken. Leerlingen die thuis alleen een andere taal spreken doen het nog slechter. Een dergelijk resultaat is ook gevonden voor Begrijpend lezen, maar de effecten zijn daar wel een stuk kleiner. Bij Spelling is er vrijwel geen effect. De verschillen die gevonden worden laten zien dat leerlingen met een andere thuistaal naast het Nederlands het relatief goed doen. Tabel 8.4.1b Gecorrigeerde effecten van extra variabele voor verschillende thuistalen in jaargroep 8 Turks Arabisch Surinaams of Antilliaans West Europese taal Taal 08& & & & Woordenschat 0,84 1,04 0,48 0,55 0,44 0,46-0,01-0,01 Spelling -0,08-0,12 0,00-0,15 0,22 0,12-0,07-0,14 Begrijpend lezen 0,46 0,44 0,33 0,27 0,53 0,58-0,10-0,18 Rekenen-Wiskunde Getallen en bewerkingen -0,15-0,04-0,02-0,05 0,43 0,60-0,03-0,15 Breuken, procenten, verhoudingen -0,01 0,03 0,01 0,02 0,50 0,65-0,02-0,13 Meten, meetkunde, tijd, geld 0,00 0,06 0,06 0,07 0,53 0,67-0,01-0,11 Als naar specifieke thuistalen gekeken wordt, dan wordt ook daar bij Rekenen-Wiskunde geen additioneel effect gevonden, behalve bij de leerlingen die thuis Surinaams of Antilliaans spreken. Deze leerlingen presteren aanzienlijk slechter dan vergelijkbare leerlingen die thuis Nederlands spreken. Bij de taalvaardigheden valt op dat Woordenschat bij de leerlingen die thuis Turks spreken relatief het grootste probleem is, maar ook bij leerlingen die thuis Arabisch, Surinaams of Antilliaans spreken is er een additioneel effect. Bij deze groepen wordt ook bij Begrijpend lezen een additioneel effect gevonden. Bij Spelling zijn geen effecten gevonden van een specifieke thuistaal. 97

100 Tabel Gecorrigeerde effecten van extra variabele thuistaal voor jaargroep 4 Nederlands NLs & Anders Nederlands Andere taal NLs & Anders Andere taal Taal 08& & & Woordenschat 0,34 0,33 0,62 0,63 0,28 0,31 Spelling 0,08-0,05 0,01-0,18-0,07-0,13 Begrijpend lezen 0,29 0,14 0,48 0,28 0,19 0,14 Technisch lezen -0,01 0,27 0,28 Rekenen-Wiskunde Getallen en getalsrelaties 0,33 0,23 0,35 0,30 0,02 0,07 Optellen en aftrekken 0,27 0,09 0,13 0,12-0,15 0,03 Vermenigvuldigen en delen 0,23 0,25 0,23 0,37 0,00 0,12 Meten, tijd en geld 0,26 0,26 0,33 0,28 0,07 0,02 De resultaten voor jaargroep 4 zijn voor taalvaardigheden vergelijkbaar met die van jaargroep 8. Daarbij valt voor Technisch lezen op dat er een additioneel effect is als leerlingen thuis helemaal geen Nederlands spreken; die leerlingen presteren slechter. Bij Rekenen-Wiskunde wordt in jaargroep 4 nog wel een additief effect gevonden van thuistaal. Leerlingen die thuis alleen Nederlands spreken doen het iets beter, behalve bij Optellen en aftrekken. Bij bovenstaande resultaten moet opgemerkt worden dat het de additionele effecten betreft. Dat zijn de effecten die de variabele thuistaal heeft als gecorrigeerd wordt voor de basisvariabelen. Zo kan bepaald worden wat thuistaal uitmaakt bovenop de effecten van de andere variabelen. De resultaten kunnen ook gegeven worden zonder dat voor deze basisvariabelen gecorrigeerd wordt. Dat wordt hieronder gedaan door de geobserveerde ongecorrigeerde gemiddelde vaardigheden te geven, zonder rekening te houden met de effecten van de basisvariabelen. Doordat nu relatief veel leerlingen met een laag formatiegewicht een andere taal spreken (al dan niet met Nederlands er naast), doen deze groepen het over de gehele linie slechter. Bij de vaardigheden waarbij de thuistaal geen additioneel effect heeft, ligt de oorzaak van het lager presteren waarschijnlijk niet bij de thuistaal die gesproken wordt. Tabel Ongecorrigeerde gemiddelden van de variabele thuistaal in jaargroep 8 en jaargroep 4 Jaargroep 8 Taalvaardigheid Rekenvaardigheid Thuistaal WoS Sp BL GB BPV MMTG Alleen Nederlands Nederlands en andere taal Alleen andere taal Turks Arabisch Surinaams/Antilliaans West-Europese taal Jaargroep 4 Taalvaardigheid Rekenvaardigheid Thuistaal WoS Sp BL TL G/G O/A V/D MTG Alleen Nederlands Nederlands en andere taal Alleen andere taal

101 8.4.2 Vergelijkingsresultaten voor regio en verstedelijking De additionele effecten in jaargroep 8 zijn voor regio en verstedelijking afwezig. Waar in het verleden nog wel eens een klein effect van regio gevonden werd bij rekenvaardigheid (Noord presteerde relatief slechter), zijn die in 2010 verdwenen. Voor verstedelijking zijn er, net als in voorgaande jaren, geen additionele effecten. Tabel Gecorrigeerde effecten van de extra variabele regio voor jaargroep 8 Noord Oost Noord West Noord Zuid Taal 08& & & Woordenschat 0,02 0,07-0,07 0,00-0,03 0,03 Spelling -0,05 0,07-0,06 0,10-0,15 0,08 Begrijpend lezen -0,06-0,06-0,11-0,13-0,14-0,11 Rekenen-Wiskunde Getallen en bewerkingen -0,11-0,04-0,14-0,09-0,24-0,14 Breuken, procenten, verhoudingen -0,10-0,03-0,13-0,08-0,19-0,11 Meten, meetkunde, tijd, geld -0,09 0,03-0,14-0,04-0,22-0,07 Oost West Oost Zuid West Zuid Taal 08& & & Woordenschat -0,09-0,07-0,05-0,04 0,04 0,03 Spelling -0,01 0,03-0,10 0,00-0,09-0,03 Begrijpend lezen -0,05-0,06-0,07-0,05-0,03 0,02 Rekenen-Wiskunde Getallen en bewerkingen -0,03-0,05-0,12-0,10-0,09-0,05 Breuken, Procenten, Verhoudingen -0,02-0,05-0,08-0,08-0,06-0,03 Meten, Meetkunde, Tijd, Geld -0,05-0,07-0,13-0,10-0,08-0,03 Tabel Gecorrigeerde effecten van extra variabele verstedelijking voor jaargroep 8 Zeer Sterk Sterk Sterk Matig Matig Weinig Weinig Niet Taal 08& & & & Woordenschat 0,04-0,03 0,01 0,05 0,06 0,04 0,04 0,10 Spelling 0,09 0,02 0,01 0,06 0,07 0,01 0,04 0,04 Begrijpend lezen 0,06 0,01 0,01 0,02 0,07 0,05 0,06 0,07 Rekenen-Wiskunde Getallen en bewerkingen 0,07 0,00-0,01-0,01 0,04 0,04 0,01 0,01 Breuken, Procenten, Verhoudingen 0,07 0,01-0,02-0,01 0,04 0,03 0,03 0,05 Meten, Meetkunde, Tijd, Geld 0,02 0,00 0,00-0,02 0,04 0,03 0,01 0,03 Ook bij de ongecorrigeerde gemiddelden voor jaargroep 8 zien we weinig grote verschillen voor regio. Wel zien we dat bij vier van de zes vaardigheden de regio Zuid de hoogste vaardigheid heeft. De enige twee vaardigheden waarbij Zuid niet de hoogste ongecorrigeerde gemiddelde vaardigheid heeft zijn Spelling en Woordenschat. Daar presteert Noord het best. Opvallend is dat Noord echter bij drie andere vaardigheden juist het slechtst presteert. 99

102 Bij verstedelijking is duidelijk dat als er niet gecorrigeerd wordt voor de basisvariabelen er wel verschillen gevonden worden. De gemiddelden liggen het laagst in de zeer sterk verstedelijkte gebieden. Daar zitten dan ook relatief veel leerlingen met een formatiegewicht. Tabel 8.4.6a Ongecorrigeerde gemiddelden van de extra variabele regio in jaargroep 8 Taalvaardigheid Rekenvaardigheid Regio WoS Sp BL GB BPV MMTG Noord Oost West Zuid Tabel 8.4.6b Ongecorrigeerde gemiddelden van de extra variabele verstedelijking in jaargroep 8 Taalvaardigheid Rekenvaardigheid Verstedelijking WoS Sp BL GB BPV MMTG Zeer Sterk Sterk Matig Weinig Niet Bij jaargroep 4 laten de extra variabelen regio en verstedelijking wel wat additionele effecten zien. Daar zien we de leerlingen in de noordelijke provincies relatief goed presteren, terwijl de leerlingen in de westelijke provincies juist relatief slecht presteren. Bij de resultaten van verstedelijkte gebieden zien we dat zeer sterk stedelijke gebieden relatief goed presteren en sterk stedelijke gebieden juist relatief slecht. Een verklaring is er niet. De resultaten zijn weliswaar significant, maar daarmee is nog niet duidelijk of ze stabiel zijn. De leerlingen in de noordelijke provincies worden bijvoorbeeld vertegenwoordigd door ongeveer 250 leerlingen, daar waar de aantallen in jaargroep 8 vele malen groter zijn. In eerdere jaren werden deze resultaten niet gevonden. Voordat hier stevige conclusies uit getrokken kunnen worden, moet gekeken worden of deze resultaten ook aanhouden in de komende jaren. 100

103 Tabel Gecorrigeerde effecten van extra variabele regio voor jaargroep 4 Noord Oost Noord West Noord Zuid Taal 08& & & Woordenschat 0,05 0,19 0,02 0,40-0,04 0,17 Spelling -0,29 0,03-0,10 0,20-0,27-0,07 Begrijpend lezen -0,30 0,08-0,19 0,23-0,21 0,12 Technisch Lezen 0,03 0,05 0,03 Rekenen-Wiskunde Getallen en getalsrelaties -0,09 0,15 0,00 0,24-0,05 0,03 Optellen en aftrekken -0,14 0,24-0,11 0,22-0,13 0,17 Vermenigvuldigen en delen -0,09 0,31 0,01 0,33 0,02 0,34 Meten -0,08 0,32 0,04 0,35-0,04 0,33 Oost West Oost Zuid West Zuid Taal 08& & & Woordenschat -0,03 0,21-0,08-0,02-0,05-0,23 Spelling 0,20 0,17 0,02-0,10-0,17-0,27 Begrijpend lezen 0,12 0,16 0,10 0,04-0,02-0,11 Technisch lezen 0,02 0,00-0,02 Rekenen-Wiskunde Getallen en getalsrelaties 0,09 0,09 0,03-0,12-0,05-0,21 Optellen en aftrekken 0,03-0,02 0,01-0,07-0,02-0,05 Vermenigvuldigen en delen 0,10 0,02 0,11 0,03 0,00 0,01 Meten, tijd en geld 0,12 0,03 0,04 0,02-0,08-0,01 Tabel Gecorrigeerde effecten van extra variabele verstedelijking voor jaargroep 4 Zeer Sterk Sterk Sterk Matig Matig Weinig Weinig Niet Taal 08& & & & Woordenschat 0,02 0,38-0,02-0,17-0,06 0,07-0,15-0,16 Spelling -0,02 0,63 0,07-0,21-0,16-0,09-0,05 0,05 Begrijpend lezen -0,07 0,51-0,05-0,19 0,02-0,01-0,09 0,01 Technisch lezen 0,29-0,22 0,04-0,03 Rekenen Getallen en getalsrelaties -0,04 0,05-0,01-0,17 0,00-0,05 0,05 0,05 Optellen en aftrekken -0,02 0,09 0,01-0,15-0,08-0,02 0,08 0,11 Vermenigvuldigen en delen 0,04 0,23-0,07-0,10 0,03-0,08 0,04 0,07 Meten, tijd en geld 0,06 0,12-0,07-0,17 0,11 0,00-0,04 0,11 101

104 Tabel Ongecorrigeerde gemiddelden van extra variabelen Regio en Verstedelijking in jaargroep 4 Taalvaardigheid Rekenvaardigheid Regio WoS Sp BL TL G/G O/A V/D MTG Noord Oost West Zuid Taalvaardigheid Rekenvaardigheid Verstedelijking WoS Sp BL TL G/G O/A V/D MTG Zeer Sterk Sterk Matig Weinig Niet Vergelijkingsresultaten voor advies Voortgezet Onderwijs en soort toets De variabelen advies VO en soort toets zijn twee variabelen die alleen relevant zijn bij de analyses voor jaargroep 8. Bij de variabele advies VO wordt onderscheid gemaakt tussen drie niveaus binnen vmbo, havo en vwo. De drie onderscheiden niveaus in het vmbo zijn de basisberoepsgerichte leerweg ( BB), de kaderberoepsgerichte leerweg (KB) en de gemengde en theoretische leerweg (GT). De gemengde en theoretische leerweg worden samengenomen omdat ze voor wat betreft het niveau zeer weinig van elkaar verschillen. Tabel Gecorrigeerde effecten van extra variabele advies VO voor jaargroep 8 KB BB GT KB HA GT VW HA Taal 08& & & & Woordenschat 0,64 0,51 0,46 0,41 0,77 0,71 1,24 1,15 Spelling 0,47 0,43 0,39 0,28 0,77 0,72 1,45 1,36 Begrijpend lezen 0,77 0,72 0,60 0,50 0,95 0,96 1,33 1,36 Rekenen-Wiskunde Getallen en bewerkingen 0,86 0,80 0,61 0,54 0,93 1,03 1,27 1,26 Breuken, Procenten, Verhoudingen 0,83 0,78 0,63 0,60 1,02 1,01 1,37 1,30 Meten, Meetkunde, Tijd, Geld 0,83 0,72 0,58 0,59 1,03 1,06 1,51 1,41 Bij het vergelijken van de gecorrigeerde effecten valt op dat bij de meeste vaardigheden de effecten tussen twee opeenvolgende adviezen kleiner geworden zijn. Dat betekent dat gegeven gecorrigeerde effecten van de basisvariabelen de niveaus dichter bij elkaar zijn komen te liggen. Ook de ongecorrigeerde gemiddelden kunnen met elkaar vergeleken worden(zie tabel ). Hierbij kunnen we zien of de vaardigheid van de leerlingen binnen de groepen met verschillende adviezen er sprake is van een stijging of daling. Daarbij zien we dat er gemiddeld sprake is van een zeer kleine stijging. Een uitzondering is Woordenschat waar de stijging duidelijk wat groter is. De gemiddelde stijgingen bij de vaardigheden binnen de VO-adviesgroepen zijn echter kleiner dan de ongecorrigeerde stijging die van 2009 naar 2010 gevonden is. Die extra groei wordt veroorzaakt door een verandering in de verdeling van de leerlingen naar het voortgezet onderwijs. Er zijn relatief meer leerlingen die een hoger advies krijgen en minder die een lager advies krijgen. 102

105 Tabel Ongecorrigeerde gemiddelden van extra variabele advies VO voor jaargroep Taalvaardigheid Rekenen-Wiskunde Advies Voorgezet onderwijs WoS Sp BL GB BPV MMTG vmbo-bb vmbo-kb vmbo-gt havo vwo Taalvaardigheid Rekenen-Wiskunde Advies Voorgezet onderwijs WoS Sp BL GB BPV MMTG vmbo-bb vmbo-kb vmbo-gt havo vwo Bij de effecten van soort toets worden de scores van de leerlingen die de Niveautoets gemaakt hebben vergeleken met hen die de reguliere Eindtoets hebben gemaakt. Bij de gecorrigeerde effecten van soort toets zien we dat de verschillen kleiner geworden zijn in vergelijking met 2008 en De verschillen zijn echter nog steeds zeer groot. Een mogelijke verklaring voor het kleiner worden van deze effecten kan zijn dat er in 2010 meer leerlingen de Niveautoets hebben gemaakt. Tabel Gecorrigeerde effecten van de extra variabele soort toets voor jaargroep 8 EB NT Effect in jaargroep 8 EB NT Taal 08& Rekenen-Wiskunde 08& Woordenschat 1,42 1,21 Getallen en bewerkingen 1,75 1,77 Spelling 1,04 1,04 Breuken, procenten, verhoudingen 1,76 1,64 Begrijpend lezen 1,6 1,42 Meten, meetkunde, tijd, geld 1,86 1, Samenvatting van de belangrijkste resultaten Hieronder volgen per achtergrondvariabele de belangrijkste resultaten van het onderzoek. Afnamejaar: In jaargroep 8 vinden we dat er zowel bij alle drie onderdelen van taal als bij alle drie onderdelen van Rekenen-Wiskunde een voortuitgang ten opzichte van 2008 en 2009 is. De verschillen zijn alle significant en positief. Uitgedrukt in effectgrootten zijn de verschillen per onderdeel nauwelijks betekenisvol in statistische zin. Over de hele linie bezien is er echter duidelijk een positieve trend te signaleren bij alle onderdelen tussen 2009 en In jaargroep 4 is voor taal geen significant verschil gevonden tussen 2009 en Bij Rekenen-Wiskunde in jaargroep 4 is er bij twee van de vier vaardigheden wel een significant effect gevonden: in 2010 waren de prestaties significant beter bij Getallen en getalsrelaties en bij Optellen en aftrekken. Ook hier zijn de effectgroottes echter zeer beperkt. 103

106 Stratum: In jaargroep 8 levert de variabele stratum alleen een betekenisvol verschil op bij de vaardigheden Woordenschat en Begrijpend lezen. In jaargroep 4 worden er ook effecten gevonden voor de vier onderzochte rekenvaardigheden. De effecten zijn in 2010 iets groter dan in de voorgaande jaren, maar dat zou mogelijk te verklaren zijn door het verschil in de definitie van de variabele formatiegewicht. Als er verschillen gevonden worden, dan zijn de prestaties in stratum 1 het best en die in stratum 3 het slechts. Uitzonderingen zijn de vaardigheden Spelling en Technisch lezen in jaargroep 4. Daar presteren leerlingen op scholen in stratum 3 beter dan die in stratum 2. Formatiegewicht: Ondanks de veranderde definities van formatiegewichten lijken de resultaten van 2010 wel op die van 2008 en Dit betekent echter niet dat de groepen leerlingen volgens de oude en de nieuwe definities van de formatiegewichten direct met elkaar te vergelijken zijn (zie hoofdstuk 4). Zowel in jaargroep 4 als in jaargroep 8 presteren achterstandsleerlingen, d.w.z. leerlingen met een gewicht, slechter dan niet-achterstandsleerlingen. Als naar de gecorrigeerde effecten gekeken wordt, is het verschil tussen de vaardigheden bij de leerlingen met gewicht 0.30 en die met gewicht 1.20 zeer gering. Bij Woordenschat en in iets mindere mate Begrijpend lezen in jaargroep 8 is er echter nog wel een verschil tussen de twee gewichtencategorieën. Geslacht: Bij Woordenschat presteren jongens en meisjes zowel in jaargroep 4 als jaargroep 8 even goed. Voor jaargroep 8 is dit een trendbreuk aangezien in eerdere jaren jongens beter presteerden dan meisjes. Voor de overige taalvaardigheden is in beide leerjaren gevonden dat meisjes beter presteren dan jongens. Voor de rekenvaardigheden geldt het omgekeerde: jongens presteren beter dan meisjes. Leertijd: Voor alle vaardigheden geldt dat vertraagde leerlingen slechter presteren dan reguliere leerlingen. Voor alle vaardigheden geldt dat de verschillen tussen reguliere en vertraagde leerlingen groter zijn in jaargroep 8 dan in jaargroep 4. Voor beide leerjaren geldt dat de verschillen tussen reguliere en vertraagde leerlingen iets groter zijn bij de rekenvaardigheden dan bij de taalvaardigheden. Thuistaal In jaargroep 8 heeft thuistaal geen additioneel effect bij Spelling en de rekenvaardigheden. Voor jaargroep 4 en jaargroep 8 geldt dat thuistaal wel een duidelijk additioneel effect heeft bij Woordenschat en ook, zij het in mindere mate, bij Begrijpend lezen: De jaargroep die alleen Nederlands spreekt, presteert beter dan de jaargroep die daarnaast een andere taal spreekt. Regio en Verstedelijking In jaargroep 8 worden er geen additionele effecten gevonden voor regio en verstedelijking. In vergelijking met 2008 en 2009 zijn de additionele effecten over het algemeen voor deze variabelen nog kleiner geworden. 104

107 Advies VO en Soort toets Een variabele die duidelijk wel een additioneel effect heeft is die van advies VO.: Hoe hoger het advies, hoe hoger de vaardigheid. Opvallend is dat het verschil in vaardigheid tussen leerlingen met havo- en vwo-advies groot is. De verschillen zijn het grootst bij de rekenvaardigheden, en wat kleiner bij de taalvaardigheden. De effecten zijn kleiner dan in de jaren ervoor. De verschillen tussen ongecorrigeerde gemiddelden zijn echter gelijk. De leerlingen die de Niveautoets hebben gemaakt presteren (zoals verwacht) slechter dan zij die de reguliere Eindtoets hebben gemaakt. De additionele effecten zijn het grootst bij de rekenvaardigheden. De verschillen tussen de leerlingen die de verschillende toetsen gemaakt hebben zijn kleiner dan in de jaren ervoor. Het lijkt er op dat dit komt doordat meer leerlingen de Niveautoets hebben gemaakt. 105

108 106

109 Literatuur Berkel, S. van, & N. Alberts (2009). Leerling- en onderwijsvolgsysteem: Woordenschat Groep 4. Arnhem, Cito. Berkel, S. van, F. van der Schoot, R. Engelen & G. Maris (2002). Balans van het taalonderwijs halverwege de basisschool 3. Uitkomsten van de derde peiling in PPON-reeks 20. Arnhem, Citogroep. Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (second ed.). Lawrence Erlbaum Associates. Expertgroep Doorlopende Leerlijnen (2008). Over de drempels met taal en rekenen. Eindrapport Expertgroep doorlopende leerlijnen Taal en Rekenen. Evers, A., Lucassen, W., Meijer, R., & Sijtsma, K. (2009). COTAN beoordelingssysteem voor de kwaliteit van tests (geheel herziene versie). Amsterdam: NIP. Evers, A., Van Vliet-Mulder, J. C., & Groot, C. J. (2000). Documentatie van tests en testresearch in Nederland. Deel II: Testresearch. Van Gorcum, Assen. Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. Newbury Park, CA, Sage Press Heesters, K., S. van Berkel, F. van der Schoot & B. Hemker (2007). Balans van het leesonderwijs aan het einde van de basisschool 5. Uitkomsten van de vierde peiling in PPON-reeks nr. 33. Arnhem, Cito. Hemker, B.T. & J.J. van Weerden (2009). Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 in 2008 Jaarlijks Peilingsonderzoek van het Onderwijsniveau Technische rapportage. Arnhem, Cito ( Hemker, B.T., H. Kuhlemeier en J.J. van Weerden (2010). Peiling van de rekenvaardigheid en de taalvaardigheid in jaargroep 8 en jaargroep 4 in Jaarlijks Peilingsonderzoek van het Onderwijsniveau Technische rapportage. Arnhem, Cito Jongen, I. R. Krom & M. van Onna & N. Verhelst, (2011). Wetenschappelijke verantwoording van de toetsen Technisch lezen voor groep 3 tot en met 5 uit het LOVS. Arnhem, Cito Janssen, J., F. van der Schoot, B. Hemker (2005). Balans van het rekenwiskundeonderwijs aan het einde van de basisschool 4. Uitkomsten van de vierde peiling in PPON-reeks nr. 32. Arnhem, Citogroep. Kraemer, J.-M., J. Janssen, F. van der Schoot & B. Hemker (2005). Balans van het rekenwiskundeonderwijs halverwege de basisschool 4. Uitkomsten van de vierde peiling in PPON-reeks nr. 31. Arnhem, Citogroep. Linden, W.J van der, & Hambleton, R.K. (Eds.) (1997). Handbook of modern item response theory. New York, Springer. Lord, F.M. (1980). Applications of item response theory to practical testing problems. New Jersey, Lawrence Erlbaum Associates, Inc. 107

110 Lubbe, M. van der (2008). Terugblik en resultaten Eindtoets Basisonderwijs Arnhem, Cito. Moelands, F., I. Jongen, F. van der Schoot & B. Hemker (2007). Balans over leesstrategieën in het primair onderwijs. Uitkomsten van de eerste peiling in PPON-reeks nr. 35. Arnhem, Cito Roeleveld, J., Mulder, L. & Paas, T., (2010). De gevolgen van een latere afname van de Cito Eindtoets Basisonderwijs. Nijmegen, ITS Schoot, F. van der (2008). Onderwijs op peil? Een samenvattend overzicht van 20 jaar PPON. Arnhem, The Netherlands, CITO Sijtstra J., F. van der Schoot & B. Hemker, B (2002). Balans van het taalonderwijs aan het einde van de basisschool 3. Uitkomsten van de derde peiling in PPON-reeks 19. Arnhem, Citogroep. Verhelst, N.D., & Eggen, T.J.H.M. (1989). Psychometrische en Statistische Aspecten van Peilingsonderzoek. Arnhem, The Netherlands, CITO. Verhelst, N.D., Glas, C.W., & Verstralen, H.H.F.M. (1995). OPLM: Computer program and manual. Arnhem, The Netherlands, CITO. Verhelst, N.D., & Verstralen H.H.F.M. (2002). Structural analysis of a univariate latent variable (SAUL); theory and a computer program. Arnhem, Cito. OPD Memorandum Verhelst, N. D. (1998). Estimating the Reliabilty of a Test from A Single Test Administration. Measurement & Research Department Reports. Cito, Arnhem. 108

111 Bijlage I Het gehanteerde meetmodel In het onderzoek is gebruikgemaakt van een opp de itemresponstheorie (IRT) gebaseerd meetmodel zoals dat bij Cito gebruikelijk is. Dergelijke modellen verschillen in een aantal opzichten nogal sterk van de klassiekee testtheorie (Verhelst, 1993; Verhelst & Kleintjes, 1993; Verhelstt en Glas, 1995). Bij de klassieke testtheorie staan de toets en de toetsscore centraal. Het theoretisch belangrijkste begrip in deze theorie is de zogenaamde ware score, de gemiddelde score die de persoon zou behalen indien de test een oneindig aantal keren onder dezelfde condities zou worden afgenomen. Deze klassieke testtheorie zou in dit onderzoek voor groep 8 niet gebruikt kunnen worden, aangezien niet allee leerlingen dezelfde opgaven gemaakt hebben. Voor groep 4 zou dat wel mogelijk zijn, maar er zijn ookk andere redenen om te kiezen voor een IRT model. Het gebruik van v het IRT-model heeft namelijk enkelee belangrijke voordelen. Op de eerste plaats kunnen de populatieschattingen onafhankelijk van de schattingen van dee itemparameters plaatsvinden. Dat heeft voordelen bij het wegenn van de verschillende groepen om te zorgen dat de steekproef geheel overeenkomstig de populatieverdeling is (zie ook par. 4.1). Daarna kan met deze populatieverdeling en kennis over de itemparameters precies bepaald worden welke de item- en toetskarakteristieken zijn voor de populatie. Ookk als er ontbrekende waarnemingen zijn aan het einde van een test hebben we bij dergelijke schattingen s geen last van de intrinsiekee samenhangg tussen reeksen van ontbrekende waarnemingen. Voor een overzicht van meer voordelen vann IRT boven klassieke testtheorie wordt verwezen naar Hambleton, Swaminathan n en Rogers ( 1991). In de IRT staat het te meten begrip of de te meten eigenschap centraal. De D IRT beschouwt het antwoord op een item als een indicator voor de mate waarin die eigenschap aanwezig is. Het verband tussen eigenschap en itemantwoord is van probabilistische aard en wordt weergegeven in dee zogenaamde itemresponsfunctie. Die geeft aan hoe groot de kans is op een correct antwoord als functie van de onderliggende eigenschap of vaardigheid. Formeler: zij X i de toevalsvariabele die het antwoord op item i voorstelt. X i neemt de waarde 1 aan in geval van een correct antwoord enn 0 in geval van een fout antwoord. Als symbool voor de vaardigheid kiezen k we θ (theta). We wijzen erop datt θ niet rechtstreeks observeerbaar is. Dat zijn alleen de antwoorden op de opgaven. Dat is de reden waaromm θ een 'latente' variabele wordt genoemd. De itemresponsfunctie f i (θ) is gedefinieerd als een conditionelee kans: (B.1) Een IRT-modespecifieke functionelee vorm wordt toegekend. t Een eenvoudig en zeer populair voorbeeld is het is een speciale toepassing van (X.1) waarbij aan de functie f i (θ) een meer of minder zogenaamde Raschmodel (Rasch,, 1960) waarin f i (θ) gegeven is door (B.2) waarin β i de moeilijkheidsparameter van item i is. Dat is een onbekende grootheid g die geschat wordt uit de observaties. De grafiek van (B.2) iss weergegeven in figuur B.1 voor twee items, i en j, die in moeilijkheid verschillen. Deze figuur illustreert dat de itemresponsfunctie een stijgende functie is van θ: hoe groter de vaardigheid, des te groter de kans op een juist antwoord. Indien de latente vaardigheidd precies gelijk is aan de moeilijkheidsparameter β i, krijgen we (B.3) Daaruit volgt onmiddellijk een interpretatie voor r de parameter β i : het is dee 'hoeveelheid' vaardigheidd die nodig is voor de kans van precies een half om het item i juist te beantwoorden. Uit de figuur blijkt duidelijk dat voor item j een grotere vaardigheid nodig is om diezelfdee kans te bereiken, maar dit is hetzelfdee als te 109

112 zeggen dat item j moeilijker is dan item i. We kunnen de parameter β i in dit d geval dus terecht omschrijven als de moeilijkheidsparameter van item i. De implicatie van het bovenstaande is dat 'moeilijkheid' en 'vaardigheid' op dezelfde schaal liggen. Figuur B..1 Twee itemresponscurven in het Raschmodel Formule (B.2) is geen beschrijving van de werkelijkheid, het is een hypothese over dee werkelijkheid die getoetst kan worden op haar houdbaarheid. Hoe zo n toetsing grofweg verloopt, is te verduidelijken aan de hand van figuur 2.1. Daaruit blijkt dat, voor welkk vaardigheidsniveau dan ook, de kanss om item j juist te beantwoorden steedss kleiner is dan de kans opp een juist antwoord op itemm i. Daaruit volgt de statistisch te toetsen voorspelling dat de verwachte proportiee juiste antwoorden op itemm j kleiner is dan op item i in een willekeurige steekproef van personen. Splitst men nu een grote steekproef in twee deelsteekproeven, een laaggroep, met de vijftig procent laagste scores, en een hooggroep, met de vijftig procent hoogste scores, dan kan men nagaan of de geobserveerde p-waarden van de opgaven inn beide deelsteekproeven op dezelfde wijze geordend zijn. Daarvan kan strikt genomen alleen sprake zijn als, in termen van de klassieke testtheorie uitgedrukt, alle opgaven eenzelfde discriminatie-index hebben. Dat echter blijkt lang niet altijd zo te zijn. Ook in het geval van de hier gebruikte toetsen niet. Veel van de items blijken dan ook niet te kunnen worden beschreven met het Raschmodel. Daarom is bij dit instrument gekozen voor een ander IRT-model. Alvorens het hier gebruikte model te introduceren, is eerst een kanttekening nodig bij het schatten van de moeilijkheidsparameters in het Raschmodel. Een vaak toegepaste schattingsmethodee is de conditionele grootste aannemelijkheidsmethode (in het Engels: Conditional Maximumm Likelihood, verder aangeduid als CML). Die maakt gebruik van het feit dat in het Raschmodel een afdoende steekproefgrootheid (sufficient statistic) bestaat voor de latente variabele θ, namelijk de ruwe score of het aantal correct beantwoorde items. Dat betekent grofweg dat, indien de itemparameters bekend zijn, alle a informatiee die het antwoord- niet patroon over de vaardigheid bevat, kan wordenn samengevat in de ruwe score; s het doet er dan verder meer toe welke opgaven goed en welke fout zijn gemaakt. Hieruit vloeit voort v dat de conditionele kans k op een juist antwoord op item i, gegeven de ruwe score, een functie is die alleen afhankelijk is van de item- 1992). De CML-schattingsmethodee maakt van deze functie gebruik. Dezee methode maakt geen enkele veronderstelling over de verdeling van de vaardigheid in de populatie, en is ook onafhankelijk van de wijze parameters en onafhankelijk van de waarde vann θ (zie voor een gedetailleerde uiteenzetting: Verhelst, waarop de steekproef is getrokken. De CML-schattingsmethodlogistisch model (One Parameter Logistic Model, afgekort: OPLM) is CMLL mogelijk. Dit model is, anders dan het Raschmodel, wel bestand tegen omwisseling van proporties juist in verschillende steekproeven (Glas & Verhelst, 1993; Eggen, 1993; Verhelst & Kleintjes, 1993). De itemresponsfunctie van het OPLM is is echter niet bij elkk meetmodel toepasbaar. In het zogenaamde éénparameter gegeven door 110

113 (2.4) waarin a i de zogenaamde discriminatie-index van het item is. Door deze indices te beperken tot (positieve) gehele getallen, en door ze a-prior als constanten in te voeren, is het mogelijk CML-schattingen van de itemparameters β i te maken. In figuur B.2 is de itemresponscurve weergegeven van twee items i en j, die even moeilijk zijn maar verschillend discrimineren. Figuur B..2 Twee itemresponscurven in het OPLM: zelfde moeilijkheid, verschillendee discriminatie De schattingen worden berekend met het computerprogramma OPLM (Verhelst, Glas s en Verstralen, 1995). Dit programma voert eveneens statistische toetsen uit op grond waarvan kan worden bepaald of het model de gegevens adequaat beschrijft. Omdat een aantal van deze toetsen bijzonder gevoelig is voor een verkeerde specificatiee van de discriminatie-indices, zijn de uitkomsten van deze toetsen bruikbaar als modificatie-indices: ze geven een aanwijzing in welke richting deze discriminatie-indices moeten worden aangepast om een betere overeenkomst tussenn model en gegevens te verkrijgen. Kalibratie van items volgens het OPLM is dan ook een iteratief proces waarin alternerend de modelfit van items wordt onderzocht door middel van statistische toetsingg en de waarden van de discriminatie-id indices worden aangepast op grond van de resultaten van dezee toetsen. Hoewel het OPLM aanzienlijk flexibeler is dan het Raschmodel, heeft hett met dit model toch een nadeel gemeen, waardoor het bij het kalibreren van meerkeuze-opgaven niet zonder meer bruikbaar is. Uit de formules (B.2) en (B.4) volgt dat, indien θ zeer klein is, de kans op een juist antwoord zeer dicht in de buurt van nul komt. Maar de items in hett normeringsonderzoek zijn meerkeuze-items, zodatt blind gokken een zekere kans op een juist antwoord impliceert. Er bestaan modellen die rekening houden met de raadkans (Lord & Novick, 1968) ), maar die laten geen CML-schattingsmethode toe. De ongeschiktheid van het Raschmodel of OPLM voor meerkeuzevragen iss echter relatief: indien dee items in vergelijking met de vaardigheid van de leerling niet al te moeilijk zijn, blijkt dat het effect van het raden op de overeenkomst tussen model en gegevens klein is. Door een verstandige dataverzamelingsproceduree toe te passen en met name niet te moeilijkee opgaven te selecteren in de test kan het OPLM toch toegepast worden op meerkeuzevragen, waarbij de overeenkomst tussen model en data de uiteindelijke doorslag over die geschiktheid moet geven. Alleen voor zeer laagg vaardige leerlingen kan de d kans op het goed beantwoorden van een opgave op de gokkans liggen Toetsing van het IRT-model Als een meetmodel gehanteerd wordt, moet ook onderzocht worden of het meetmodel past bij de data. De passing van het model illustreren we met figuur B.3 (zie Staphorsius, 1994, blz. 239). Daarin beelden we voor een opgave de gegevens af waarop dee zogenaamde Si -toetsen gebaseerd zijn (zie handleiding OPLM: Verhelst; 1992). Ten behoeve van dezee toetsing wordt de totale groep g van leerlingen die een verzameling opgaven gemaakt heeft, ingedeeldd in een aantal (meestal 8) ) zogenaamdee scoregroepen. 111

Nog meer weergeven