WISCAT-pabo: ontwerp, kwaliteit en resultaten van een geruchtmakende

Transcriptie

1 WISCAT-pabo: ontwerp, kwaliteit en resultaten van een geruchtmakende toets Dr. G.J.J.M. Straetmans & prof. dr. ir. Th.J.H.M. Eggen Handboek Effectief Opleiden 55/63 september

2 9.2 EFFECTMETING EN BEVORDERING VAN WERKPLEKEFFECTEN/ INSTRUMENTEN VOOR EFFECTMETING Inhoud 1 Inleiding Meetproblematiek Hoe zit WISCAT-pabo in elkaar? De opgavebank Het toetsalgoritme De rapportagemodule De kwaliteit van WISCAT-pabo De meetnauwkeurigheid De beslissingsnauwkeurigheid Validiteit De operationele resultaten Enkele ervaringen van gebruikers Moeilijk te begrijpen scoring Adaptiviteit zou stress oproepen Eenzijdige gerichtheid op resultaat Tot slot Literatuur Auteurs: Dr. G. (Gerard) J.J.M. Straetmans is toetsdeskundige bij Cito Arnhem en lector bij Saxion Deventer. Prof. dr. ir. Th. (Theo) J.H.M. Eggen is toetsdeskundige bij Cito Arnhem en hoogleraar bij de Universiteit Twente Handboek Effectief Opleiden 55/64 september 2011

3 WISCAT-pabo: ontwerp, kwaliteit en resultaten van een geruchtmakende toets 1 Inleiding Zo n dertig jaar geleden studeerde de eerste auteur van dit artikel aan een pedagogische academie. Hij tekende de volgende herinnering op: De opleiding telde toen geen vier maar drie studiejaren met in het laatste jaar ruimte voor een specialisatie. Ik koos voor rekenen omdat me dat een tamelijk belangrijke vaardigheid leek voor een onderwijzer. Ik herinner me hoe verwonderd ik toen was dat maar zo weinig studenten dezelfde keuze maakten, temeer omdat bij plenaire besprekingen van praktijkervaringen steeds opnieuw bleek dat studenten bij het geven van rekenlessen in de problemen kwamen door gebrek aan eigen rekenvaardigheid. In de decennia daarna werd de problematiek van de tekortschietende rekenvaardigheid ook buiten de opleidingen opgemerkt en werden van overheidswege steeds nieuwe maatregelen opgelegd om die te bestrijden. Sinds begin 2006 weten we meer gefundeerd dat die maatregelen niet echt geholpen hebben want toen werden onderzoeksresultaten gepubliceerd waaruit bleek dat meer dan de helft van de eerstejaars pabo-studenten onvoldoende rekenvaardig was (Straetmans & Eggen, 2005). De landelijke discussie die daarop volgde, aangewakkerd door vaak ongenuanceerde krantenkoppen die suggereerden dat er niet alleen iets mis was met de rekenvaardigheid van pabo-studenten maar met het hele Nederlandse onderwijs, leidde tot grotere daadkracht bij de besluitvormers. De HBO-raad besloot tot de ontwikkeling en verplichte afname van een gestandaardiseerde rekenvaardigheidstoets en de minister van Onderwijs gelastte een onderzoek naar de oorzaken van de tekortschietende rekenvaardigheid bij eerstejaars pabo-studenten teneinde een definitieve oplossing te kunnen bereiken. In dit artikel willen wij de lezer een indruk geven van de wijze waarop de inmiddels operationele toets functioneert. Eerst wordt globaal de meetproblematiek geschetst waarvoor de ontwikkelaars van de toets, of beter, het toetspakket zich gesteld zagen. Vervolgens komen achtereenvolgens aan de orde: de componenten van het toetspakket, de meetkwaliteit, de door de eerstejaarsstudenten behaalde toetsresultaten en hun ervaringen met het toetsconcept. 2 Meetproblematiek Buitenstaanders horen vaak vol ongeloof aan dat professionele toetsdeskundigen maanden bezig zijn om, in de terminologie van eerstgenoemden, een toetsje te maken voor een bepaald schoolvak. Doorgaans realiseert men zich onvoldoende welke barrières kunnen opdoemen als men zwaarwegende beslissingen wil nemen over personen op grond van een toetsresultaat. Maar wie kennis neemt van de volgende uitspraken van Suen (1990, p. 5-8) komt al snel tot andere gedachten: Onderwijskundig meten heeft tot doel om eigenschappen van personen te beschrijven in numerieke scores. Op het eerste gezicht een bedrieglijk eenvoudige klus die voor iedereen uitvoerbaar is. Bij het trekken van conclusies over kandidaten wordt er echter te vaak als vanzelfsprekend van uitgegaan dat de schalingsprocedure (het omzetten van itemresponsen in een score) in orde is, dat de geobserveerde score een betrouwbare afspiegeling is Handboek Effectief Opleiden 55/65 september

4 9.2 EFFECTMETING EN BEVORDERING VAN WERKPLEKEFFECTEN/ INSTRUMENTEN VOOR EFFECTMETING van de ware score en dat de ware score op zijn beurt een waarheidsgetrouwe representatie is van de mate waarin de te meten eigenschap aanwezig is. Het betoog van Suen geldt voor elke toets op grond waarvan serieuze beslissingen over kandidaten moeten worden genomen en maakt de constructie van dergelijke toetsen tot een arbeidsintensief karwei. Maar in het specifieke geval van de pabo-rekentoets speelden bepaalde problemen die de toetsconstructie extra lastig maakten. - Afnametijdstip Bij toetsen en examens worden de kandidaten vaak op hetzelfde moment getoetst. Het grote voordeel hiervan is dat men alle kandidaten dezelfde opgaven kan laten maken. Maar voor de pabo-rekentoets zijn geen vaste afnamedata vastgesteld. Het is de opleiding en meestal zelfs de individuele rekendocent die bepaalt wanneer de studenten getoetst worden. Dit brengt uiteraard een geheimhoudingsprobleem met zich mee. Waar de consequenties van toetsing groot zijn, zullen kandidaten ook op niet-geoorloofde manieren proberen om tot een voldoende resultaat te komen. Het aan elkaar doorgeven van opgaven is een voor de hand liggende en nauwelijks te bestrijden reactie van kandidaten die na elkaar in plaats van gelijktijdig worden getoetst. Alleen met voldoende toetsversies kan dit probleem afdoende worden aangepakt. - Vergelijkbaarheid van toetsprestaties De noodzaak van meerdere toetsversies introduceert direct een nieuw probleem, namelijk dat de prestaties op verschillende toetsversies niet zonder meer vergelijkbaar zijn. Een score van 8 (uit 15) goed beantwoorde opgaven op toetsversie A kan op een ander beheersingsniveau wijzen dan dezelfde score op toetsversie B als beide toetsen verschillen in moeilijkheidsgraad. De moeilijkheidsgraad van een toets hangt af van de moeilijkheidsgraad van de opgaven waaruit die toets is samengesteld. Als er veel toetsversies moeten komen, zoals in het geval van de pabo-rekentoets, zijn voor het samenstellen van zogenoemde parallelle toetsen vaak meer opgaven nodig dan die waarover men de beschikking kan krijgen binnen een bepaald tijdsbestek en budget. - Grote spreiding rekenvaardigheid De eerstejaars populatie in pabo s is zeer heterogeen qua rekenvaardigheid als gevolg van de verschillende vooropleidingen die de instromende studenten gevolgd hebben. De meeste studenten hebben een havo-diploma maar in toenemende mate schrijven zich studenten met een mbo-diploma in. Daarnaast melden zich ook personen met een vwo-diploma aan. Onderzoek heeft laten zien dat de rekenvaardigheid van deze groepen onderling flink verschilt (Straetmans & Eggen, 2005). Voor toetsconstructie is dat een lastig gegeven. Om nauwkeurige meetresultaten te krijgen moet een toets qua moeilijkheidsgraad passen bij de vaardigheid van de kandidaat. Maar als die vaardigheden zeer uiteenlopen, heeft de toetsconstructeur geen goed ijkpunt voor het bepalen van de moeilijkheidsgraad van de toets (en dus van de te construeren opgaven). De oplossing voor de hier geschetste meetproblematiek werd gezocht in een speciale toepassing van computergestuurde toetsing die in de literatuur wordt aangeduid met CAT (Computergestuurd Adaptief Toetsen). Anders dan bij andere vormen van computergestuurd toetsen gaat het bij CAT niet alleen om de Handboek Effectief Opleiden 55/66 september 2011

5 WISCAT-pabo: ontwerp, kwaliteit en resultaten van een geruchtmakende toets afname op een beeldscherm van een toets en het automatisch verwerken van de responsen, maar (vooral) om de geautomatiseerde samenstelling van een toetsopmaat uit een opgavebank. 3 Hoe zit WISCAT-pabo in elkaar? Het toetspakket voor rekenen heeft de naam WISCAT-pabo gekregen. WISCAT is een acroniem voor WISkunde/rekenen Computergestuurd Adaptief Toetspakket. De toevoeging pabo is nodig omdat voor andere doelgroepen ook WISCAT-pakketten ontwikkeld zijn of nog worden. Figuur 1 is een sterk vereenvoudigde schematische weergave van het toetspakket (waarbij de technische infrastructuur buiten beschouwing is gelaten). WISCAT-pabo bestaat uit vier componenten die samen zorgdragen voor de samenstelling, afname, beoordeling en rapportage van toetsen bij kandidaten. Dat werkt globaal als volgt: het toetsalgoritme is een computerprogramma dat regels bevat die precies specificeren hoe tijdens een computergestuurde toetsafname een toets moet worden samengesteld uit een opgavebank. In de opgavebank liggen itemteksten, bijbehorend illustratiemateriaal en kwaliteitsgegevens opgeslagen over elke afzonderlijke opgave. De afnamemodule presenteert opgaven één voor één op het scherm, scoort de gegeven antwoorden van de kandidaat als goed of fout en geeft dit resultaat steeds door aan het toetsalgoritme. Als het toetsalgoritme de toets beëindigt, zorgt de rapportagemodule voor de terugkoppeling van resultaten naar kandidaat en docent. Aan drie van deze componenten zal hierna in meer detail aandacht worden besteed, te weten de opgavebank, het toetsalgoritme en de rapportagemodule. opgavenbank toets-algoritme afnamemodule rapportagemodule Figuur 1: Schematische weergave van WISCAT-pabo 3.1 DE OPGAVEBANK De opgavebank bevatte bij aanvang van de operationele fase een kleine duizend opgaven die tezamen een operationalisatie vormen van het begrip rekenvaardigheid voor eerstejaars pabo-studenten. Tabel 1 laat zien welke domeinen met hoeveel items in de opgavebank vertegenwoordigd zijn. 1 1 De opgavebank is, na twee operationele jaren, in september 2008 deels ververst. De tweehonderd meest gebruikte opgaven zijn vervangen door circa driehonderd nieuwe opgaven. In 2011 volgt een tweede verversingsoperatie. Handboek Effectief Opleiden 55/67 september

6 9.2 EFFECTMETING EN BEVORDERING VAN WERKPLEKEFFECTEN/ INSTRUMENTEN VOOR EFFECTMETING Domein Aantal opgaven Waarvan hoofdrekenen Basisoperaties zoals optellen, aftrekken, delen, vermenigvuldigen Operaties met breuken, procenten, verhoudingen en decimale getallen Meten met enkelvoudige en samengestelde grootheden Meetkunde. Interpreteren van plattegronden en ruimtelijke figuren 113 Statistische gegevens ordenen, weergeven, samenvatten en interpreteren 33 Verbanden beschrijven met (woord)formules en daarmee rekenen. Grafieken en tabellen aflezen en interpreteren 51 Totaal Tabel 1: Beschrijving van de opgavebank van WISCAT-pabo Vraagtypen Om de docenten zo min mogelijk te belasten met extra werk heeft de opdrachtgever besloten tot een computergestuurd toetspakket. Dit legde uiteraard beperkingen op aan de te gebruiken vraagtypen. Bij de constructie van opgaven is gewerkt met twee vraagtypen die zich goed lenen voor geautomatiseerde scoring: de meerkeuzevraag en de kort-antwoordvraag. Bij dit laatste vraagtype gaat het om een opgave waarbij de kandidaat antwoord moet geven door één getal, woord of symbool in te vullen in een antwoordveld. Het zal duidelijk zijn dat het met dit type vragen niet mogelijk is om zicht te krijgen op de aanpak die kandidaten hanteren bij het oplossen van de rekenopgaven. Dat hoeft ook niet want het doel van WISCAT-pabo is het vaststellen van een minimaal noodzakelijk geacht rekenvaardigheidsniveau en niet het opsporen van eventuele leerbelemmeringen of misconcepties op rekenkundig gebied. Moeilijkheidsgraad van de opgaven Alle opgaven zijn vooraf getest bij eerstejaars pabo-studenten om zo bruikbare gegevens te krijgen over belangrijke kwaliteitsaspecten zoals de moeilijkheidsgraad. De moeilijkheidsgraad van de afzonderlijke opgaven is in hoge mate bepalend voor de meetkwaliteit van de samen te stellen toets. Het vaststellen van de moeilijkheidsgraad van een opgave is echter een kunst op zich. De meest gebruikte maat voor het beschrijven van de moeilijkheidsgraad van een item is de p-waarde. Dit is de proportie van een groep personen die het betreffende item correct beantwoord heeft. Een lage p-waarde duidt op een moeilijk item en een hoge p-waarde op een gemakkelijk item. Helaas is de p-waarde afhankelijk van het vaardigheidsniveau van de groep personen bij wie het betreffende item is afgenomen. Die eigenschap maakt de p-waarde ongeschikt als maat voor de moeilijkheidsgraad van items die bedoeld zijn voor herhaald gebruik, omdat de vaardigheden van te toetsen personen niet zelden aanzienlijk Handboek Effectief Opleiden 55/68 september 2011

7 WISCAT-pabo: ontwerp, kwaliteit en resultaten van een geruchtmakende toets afwijken van die van de personen die participeerden in het onderzoek naar de moeilijkheidsgraden van de items. Recente ontwikkelingen binnen de psychometrie hebben het probleem van de zogenoemde steekproefafhankelijke p-waarden opgelost door in een model de relatie tussen de moeilijkheidsgraad van het item en de vaardigheid van de persoon expliciet te beschrijven. Binnen deze zogeheten itemresponstheorie (IRT) zijn verschillende modellen geformuleerd waarvan we er hier één beschrijven. In dat model is de moeilijkheidsgraad van een opgave gedefinieerd als een vaardigheidsniveau dat nodig is om tot het goede antwoord te komen. Als voor de correcte beantwoording van opgave x meer vaardigheid nodig is dan voor de correcte beantwoording van opgave y, dan is opgave x moeilijker dan opgave y. Meer formeel is de moeilijkheidsgraad van een opgave uit te drukken als de vereiste vaardigheid om vijftig procent kans te hebben op een correcte beantwoording. Alhoewel ook een ander percentage gekozen zou kunnen worden, is hier sprake van een bewuste keuze omdat vijftig procent precies het omslagpunt markeert op de vaardigheidsschaal van waaraf de kansen om de opgave goed te maken groter worden dan de kansen om deze fout te maken. Een voorbeeld kan dit verduidelijken. Als we bij hoogspringen de lat exact zo hoog leggen als de sportman of -vrouw kan springen (dat wil zeggen op een hoogte die het gemiddelde is van alle lathoogtes waar die persoon in een bepaald tijdsbestek overheen gesprongen is), mogen we verwachten dat hij of zij in de helft van alle gevallen erover zal springen en in alle andere gevallen de lat eraf zal springen. Leggen we de lat hoger (de moeilijkheidsgraad neemt toe) dan dat de kandidaat kan springen dan wordt de kans op een positief resultaat kleiner dan vijftig procent (de lat wordt er vaker afgesprongen dan dat de sporter erover heen springt). Leggen we de lat lager (de moeilijkheidsgraad neemt af) dan dat de kandidaat kan springen dan wordt de kans op een positief resultaat groter dan vijftig procent (de sporter springt vaker over de lat dan dat hij deze eraf springt). Dit proces wordt in een wiskundig model beschreven waarin de kans gespecificeerd wordt op het geven van een goed antwoord door een persoon met een bepaalde vaardigheid. Deze kans is afhankelijk van itemkenmerken zoals de moeilijkheidsgraad en de discriminatiewaarde. Met dat laatste bedoelen we het vermogen van een item om personen met verschillende vaardigheidsniveaus van elkaar te onderscheiden. p ( θ ) = P( X i i exp( ai ( θ βi)) = 1 θ ) = ; 1+ exp( a ( θ β )) i i Waarbij X i = score op item i; (θ)= de vaardigheid van de persoon; β i = de moeilijkheidsgraad van item i; a i het discriminerend vermogen van item i (Verhelst, 1993). Schaalconstructie In proefafnamen bij meer dan 2500 eerstejaars pabo-studenten zijn, in een proces dat kalibreren heet, uit de afnamegegevens de moeilijkheidsgraad en het discriminerend vermogen van elk item geschat. Met de geschatte parameters is vervolgens gecontroleerd of het gekozen wiskundig model een goede beschrij- Handboek Effectief Opleiden 55/69 september

8 9.2 EFFECTMETING EN BEVORDERING VAN WERKPLEKEFFECTEN/ INSTRUMENTEN VOOR EFFECTMETING ving en voorspelling geeft van de proefafnamegegevens. In de opgavebank zijn alleen de items opgenomen die zich gedroegen volgens het model. Deze items hebben een moeilijkheidsgraad die geldig is voor elke toekomstige kandidaat uit de doelgroep. Dit maakt het mogelijk om ze te ordenen naar moeilijkheidsgraad en zo een schaal te vormen voor het meten van rekenvaardigheid. Het schaalbegrip houdt in dat een student die een bepaald item correct beantwoordt met een grotere kans ook correct zal antwoorden op items met lagere schaalwaarden. Echter, naarmate items met hogere schaalwaarden worden aangeboden zullen de kansen op een correct antwoord steeds verder afnemen. Items en studenten op dezelfde schaal Het grote voordeel van de aldus geconstrueerde rekenvaardigheidsschaal is niet alleen dat het nu mogelijk is om een gewenst beheersingsniveau te definiëren dat onafhankelijk is van de gebruikte toets (de cesuurscore op de schaal geldt voor elke uit de geschaalde opgavebank samen te stellen toets), maar ook dat de moeilijkheidsgraad van toetsopgaven en de rekenvaardigheid van personen op dezelfde schaal te positioneren zijn. Op die laatste eigenschap komen we terug bij de bespreking van het toetsalgoritme. Eerst gaan we in op het gewenste beheersingsniveau. Hoe goed moeten eerstejaars pabo-studenten kunnen rekenen? Het construeren van een rekenvaardigheidsschaal is alleen zinvol als op die schaal ook een punt aanwijsbaar is dat bereikt moet zijn om een positieve beslissing over voortzetting van de studie te kunnen nemen. Bij het ontwikkelen van zo n kwantitatieve beheersingsstandaard is uitgegaan van de in kwalitatieve termen omschreven standaard zoals die door een cesuurcommissie van pabo-rekendocenten is vastgesteld: eerstejaars pabo-studenten moeten aan het eind van het eerste inschrijvingsjaar even goed kunnen rekenen als een goede leerling uit groep 8 van het basisonderwijs. Met een goede leerling bedoelde de cesuurcommissie een leerling wiens rekenprestaties tot de beste 20 procent van leerlingen uit groep 8 behoren. Door een deel van de opgavebank ook te laten maken door een representatieve steekproef van leerlingen uit groep 8 kon de vaardigheidsverdeling van deze groep worden afgebeeld op de voor de pabo-studenten geconstrueerde schaal. Binnen die vaardigheidsverdeling is het punt op de schaal gezocht waaronder de prestaties van 80 procent van leerlingen van groep 8 vallen. Dat punt - schaalwaarde 103 op een (getransformeerde) schaal met een bereik van 0 tot is de cesuur die door WISCAT-pabo gebruikt wordt voor het nemen van zak-/slaagbeslissingen. Figuur 2 geeft het principe van de gemeenschappelijke schaal grafisch weer. Twee opgaven, beide handelend over het deelonderwerp verhoudingen, zijn afgebeeld op de schaal: een eenvoudige opgave (item A: schaalwaarde 89) en een moeilijke (item B: schaalwaarde 134). Student Wilco heeft een toets gemaakt die is samengesteld uit de geschaalde opgavebank en op grond van zijn antwoorden werd zijn vaardigheid op de schaal geschat op 89. Volgens het hiervoor beschreven wiskundig model heeft Wilco een kans van 0,50 om item A correct te beantwoorden. Naargelang opgaven met hogere schaalwaarden dan 89 worden Handboek Effectief Opleiden 55/70 september 2011

9 WISCAT-pabo: ontwerp, kwaliteit en resultaten van een geruchtmakende toets aangeboden, zal de kans op een correcte beantwoording steeds verder afnemen. Zo is Wilco s kans om item B correct te beantwoorden nog maar 0,20. Opgaven met een moeilijkheidsgraad die gelijk is aan de landelijk vastgestelde norm voor pabo-studenten zullen door Wilco met een kans van 0,36 correct beantwoord worden. Item A Arie, Bas en Chris verdelen 210 euro in de verhouding van 2 : 3 : 5. Landelijk vastgestelde norm: Item B De heer Van Dijk is 61 jaar. Hij heeft vier zonen: Jan is twee keer zo oud als Piet. Piet is twee keer zo oud als Theo. Wim is vijf jaar ouder dan Theo. De heer Van Dijk is even oud als alle zonen samen Vaardigheid van Wilco Figuur 2: Een deel van de schaal voor rekenen/wiskunde 3.2 HET TOETSALGORITME 1 Doordat de vaardigheid van personen, de moeilijkheidsgraad van opgaven en de beheersingsstandaard op één en dezelfde schaal zijn af te beelden, wordt de weg vrijgemaakt voor adaptieve toetsing. Bij een adaptieve toets wordt de moeilijkheidsgraad van de toets zorgvuldig afgestemd op de vaardigheid van de kandidaat 2. Dat is praktisch gezien alleen uitvoerbaar bij computergestuurde toetsafnamen waar toetssamenstelling en toetsafname ongeveer op hetzelfde moment kunnen plaatsvinden. Globaal werkt het adaptieve toetsalgoritme ongeveer als volgt. 1 Er wordt een opgave gepresenteerd op het beeldscherm. 2 De student geeft antwoord. 3 Het programma scoort het antwoord als goed of fout en schat op grond van alle tot dan beschikbare itemscores wat de vaardigheid is van de student. 4 Het programma beslist of de toets al beëindigd mag worden of dat er een nieuwe opgave moet worden aangeboden. 5 Als het laatste het geval is, wordt een opgave uit de opgavebank geselecteerd die zo goed mogelijk past (onder andere qua moeilijkheidsgraad) bij de geschatte vaardigheid van de betreffende student. Meer nauwkeurig geformuleerd komt het erop neer dat een opgave wordt gekozen die op dat moment in 1 Lezers die meer in detail willen weten wat adaptief toetsen is en hoe het werkt, worden verwezen naar: Straetmans & Eggen (1998a) en Eggen (2006). 2 Naarmate een toets qua moeilijkheidsgraad beter is afgestemd op het vaardigheidsniveau van de te toetsen kandidaat zal het meetresultaat nauwkeuriger zijn. Handboek Effectief Opleiden 55/71 september

10 9.2 EFFECTMETING EN BEVORDERING VAN WERKPLEKEFFECTEN/ INSTRUMENTEN VOOR EFFECTMETING de toetsafname de meeste informatie kan geven over de vaardigheid van de kandidaat. Of nog anders gezegd: een opgave die de vaardigheid van de kandidaat kan schatten met de kleinste meetfout. 6 Zodra de laatste opgave van de toets beantwoord is, krijgt de student de toetsuitslag op het scherm te zien. Een beter inzicht in wat er precies gebeurt bij een adaptieve toetsafname geeft figuur 3. Op de horizontale as staan de opgaven die achtereenvolgens geselecteerd en beantwoord zijn. Op de verticale as worden zowel de geschatte vaardigheden van de persoon (aangegeven met cirkeltjes) als de moeilijkheidsgraden van de geselecteerde opgaven (aangegeven met kruisjes) afgebeeld. De gestippelde lijn die parallel loopt aan de horizontale as geeft de prestatiestandaard weer ofwel de vaardigheid waarover kandidaten moeten beschikken voor een positieve uitslag op de toets. Een zwak punt in een adaptieve toetsafname is de start aangezien er dan nog geen informatie over de vaardigheid van de kandidaat voorhanden is en het toetsalgoritme dus geen opgave kan selecteren die daar het best bij past. Aselect trekken van de eerste opgave is een veel gekozen oplossing. Maar er zijn ook andere mogelijkheden. Zo laat het voorbeeld in figuur 3 zien dat het adaptieve proces pas begint bij de selectie van de vierde opgave. De eerste drie opgaven zijn aselect getrokken uit een deelverzameling van relatief eenvoudige opgaven. Op die manier kan men geforceerd eenvoudige opgaven aanbieden bij de start van de toets. Bijvoorbeeld om eventuele toetsangst te reduceren. 110 Vaardigheid kandidaat / moeilijkheid opgave X X + X + X X X X X X X X X O = geschatte vaardigheid kandidaat X = moeilijkheidsgraad opgave - = ondergrens betrouwbaarheidsinterval + = bovengrens betrouwbaarheidsinterval = cesuurscore Achtereenvolgens beantwoorde opgaven (onderstreept = fout beantwoord) Figuur 3: Verloop van een adaptieve toetsafname bij een (fictieve) kandidaat Handboek Effectief Opleiden 55/72 september 2011

11 WISCAT-pabo: ontwerp, kwaliteit en resultaten van een geruchtmakende toets Nadat de kandidaat de derde opgave beantwoord heeft, wordt zijn vaardigheid voor de eerste keer geschat. Uiteraard kan deze schatting na slechts drie beantwoorde opgaven niet erg nauwkeurig zijn. Het programma schat behalve de vaardigheid ook de gemaakte meetfout en gebruikt die om een betrouwbaarheidsinterval om de geschatte vaardigheid te leggen. Het min- en plusteken staan voor respectievelijk de onder- en bovengrens van dit betrouwbaarheidsinterval. Het betrouwbaarheidsinterval geeft met een zelf te kiezen zekerheid aan dat de ware vaardigheid van de kandidaat tussen de aangegeven onder- en bovengrens moet liggen. De ware vaardigheid is de vaardigheid van de persoon op de schaal. Uit figuur 3 valt eenvoudig op te maken dat de nauwkeurigheid van de vaardigheidsschattingen snel groter wordt als het aantal beantwoorde opgaven toeneemt. Er zijn diverse manieren om een adaptieve toetsafname te beëindigen. De meest eenvoudige is uiteraard dat er een vaste toetslengte is opgegeven. In het voorbeeld van figuur 3 is er gekozen voor een dynamische stopregel. Dat wil zeggen dat de toetsafname beëindigd wordt zodra het betrouwbaarheidsinterval rondom de meest recente vaardigheidsschatting in zijn geheel onder of boven de prestatiestandaard ligt. Hier doet die situatie zich voor na beantwoording van de twaalfde opgave: er kan (in dit specifieke geval) met een betrouwbaarheid van 90 procent geconcludeerd worden dat de ware vaardigheid van de kandidaat boven de gebruikte prestatiestandaard ligt. Er kan daarom met grote zekerheid geconcludeerd worden dat de kandidaat de betreffende vaardigheid beheerst. Het adaptieve karakter van de toetsafname is zichtbaar in de positioneringen van kruisjes en cirkeltjes op de schaal. Het kruisje in een bepaalde kolom heeft doorgaans een positie op de schaal die dicht in de buurt ligt van het cirkeltje in de links daarvan gelegen kolom. Door deze speciale manier van toetssamenstelling krijgt elke kandidaat een toets te maken die nauwkeurig op zijn of haar vaardigheid is afgestemd. Het belangrijkste voordeel daarvan is dat daarmee toetsen verkregen worden die nauwkeuriger meten dan traditioneel samengestelde toetsen. Dit voordeel kan uiteraard ook benut worden door een bepaalde meetnauwkeurigheid te bereiken met een kortere toets dan gebruikelijk. Verder is het zo dat elke student op zijn eigen niveau wordt uitgedaagd waardoor toetsen nooit te moeilijk of te gemakkelijk zijn. Dit heeft als bijkomend voordeel dat elke kandidaat een andere toets maakt waardoor de noodzaak vervalt om alle kandidaten op hetzelfde moment te toetsen. En ten slotte moet het voordeel van de vergelijkbaarheid van toetsprestaties genoemd worden. Doordat toetsscores worden omgezet in vaardigheidsschattingen op de geconstrueerde vaardigheidsschaal kunnen prestaties op toetsen direct met elkaar vergeleken worden. Dat is erg handig als men de voortgang wil beoordelen van kandidaten in het betreffende domein. Adaptieve toetsen die uitsluitend op deze psychometrische kenmerken items selecteren, houden geen rekening met de inhoudelijke samenstelling van een toets. Dat is voor de pabo-rekentoets een ongewenste eigenschap want er dient een profielscore gegenereerd te worden met het oog op snelle, doelgerichte remediëring in geval van onvoldoende beheersing. Handboek Effectief Opleiden 55/73 september

12 9.2 EFFECTMETING EN BEVORDERING VAN WERKPLEKEFFECTEN/ INSTRUMENTEN VOOR EFFECTMETING Om dit toch te kunnen bereiken zijn aan het adaptieve toetsalgoritme restricties opgelegd voor wat betreft toetslengte en inhoudelijke itemselectie. Er is gekozen voor een vaste toetslengte van vijftig items. Deze moeten zodanig gekozen worden dat voldoende items worden aangeboden uit alle deeldomeinen waarvoor een profielscore moet worden opgesteld: - hoofdrekenen; - basisvaardigheden; - breuken, procenten, verhoudingen en decimale getallen; - meten en meetkunde. De opgelegde restricties hebben evenwel tot gevolg dat het adaptieve toetsalgoritme niet altijd het item zal selecteren dat vanuit psychometrisch oogpunt bezien de beste keuze zou zijn. Er zijn nog andere mechanismen werkzaam die het adaptieve toetsalgoritme verhinderen om steeds het best passende item te kiezen. Die mechanismen hebben tot doel om over- en onderbenutting van de opgavebank zo veel mogelijk tegen te gaan. Van overbenutting wordt gesproken als er items zijn die heel vaak geselecteerd worden in een toets. Onderbenutting verwijst naar de situatie dat er items zijn die bijna nooit geselecteerd worden. Overbenutting is ongewenst omdat dit de geheimhouding van het toetsmateriaal ernstig bedreigt, vooral in opleidingssituaties waar cursisten na elkaar in plaats van tegelijk getoetst worden. Onderbenutting is ongewenst omdat slechts beperkt gebruik wordt gemaakt van de voorhanden zijnde items. Beide situaties versterken elkaar en zullen leiden tot een versnelde veroudering van de opgavebank. Om overbenutting tegen te gaan wordt in WISCAT-pabo een procedure toegepast die moet garanderen dat een item uit de opgavebank niet vaker dan in dertig procent van de af te nemen toetsen wordt opgenomen (Sympson & Hetter, 1985). Sympson & Hetter-achtige methoden voor afnamecontrole zijn effectief in het tegengaan van overbenutting van bepaalde items in een opgavebank, maar helpen niet (voldoende) in het tegengaan van onderbenutting van de opgavebank. Revuelta en Ponsoda (1998) hebben de zogenoemde progressieve methode voor afnamecontrole voorgesteld om onderbenutting tegen te gaan. Bij deze methode vindt itemselectie plaats op basis van een mix van aselecte trekking en maximale informatie bij de lopende vaardigheid (zie hiervoor onder punt 5 in de beschrijving van het toetsalgoritme). Deze methode heeft uiteraard als nadeel dat puur toeval een (kleine) invloed heeft op de itemselectie. Eggen (2001) heeft deze methode toepasbaar gemaakt voor situaties waarin zij slechts werkzaam is in een (nader te definiëren) eerste deel van de toets, waarna in het tweede deel wordt overgegaan op itemselectie uitsluitend op basis van maximale informatie. Het is deze variant van de door Revuelta en Ponsoda beschreven afnamecontrole die in WISCAT-pabo de onderbenutting van opgaven tegengaat Handboek Effectief Opleiden 55/74 september 2011

13 WISCAT-pabo: ontwerp, kwaliteit en resultaten van een geruchtmakende toets 3.3 DE RAPPORTAGEMODULE Zodra de laatste toetsopgave beantwoord is, krijgt de kandidaat de (voorlopige) uitslag te zien op het beeldscherm. In het eerste operationele jaar werden de resultaten gepresenteerd in de vorm van een grafisch scoreprofiel. Dat is een grafisch weergegeven overzicht van de behaalde resultaten op de hele toets en op de vier onderdelen. Helaas bleken de grafisch weergegeven schalen onvoldoende bestendig tegen de verschillende beeldschermresoluties die scholen hanteren waardoor sommige studenten tegenstrijdige informatie kregen over de uitslag. Daarom werd besloten het grafisch scoreprofiel te vervangen door een eenvoudige zakof slaagmededeling en een expliciete vermelding van het onderdeel of de onderdelen waarvan het resultaat significant achterblijft bij het resultaat op de hele toets. Voor docenten of andere supervisoren produceert de rapportagemodule meer cijfermatig georiënteerde resultaten die naar keuze per individu of per groep opgemaakt kunnen worden (zie tabel 2). Historisch overzicht per student Resultaten voor Katinka de Jonge, nr Landelijk vastgestelde norm: 103 Poging Datum afname Toetsresultaat 88 (O) 97 (O) 105 (V) Hoofdrekenen (15 items) Niet-hoofdrekenen (35 items) Basisvaardigheden (20 items Breuken, proc., enz. (15 items) Meten/meetkunde (15 items) Tabel 2: Individueel resultatenoverzicht (O = onvoldoende; V = voldoende; * = blijft significant achter bij toetsresultaat) 4 De kwaliteit van WISCAT-pabo 4.1 DE MEETNAUWKEURIGHEID In een adaptieve toets worden de items opgenomen die de meeste informatie geven over de vaardigheid van de getoetste persoon. De informatie in een item en ook in alle items die de toets vormen, hangt direct samen met de nauwkeurigheid waarmee de vaardigheid van een persoon gemeten kan worden. Hoe meer informatie een toets kan genereren over de vaardigheid van een persoon des te groter de nauwkeurigheid waarmee gemeten wordt. Handboek Effectief Opleiden 55/75 september

14 9.2 EFFECTMETING EN BEVORDERING VAN WERKPLEKEFFECTEN/ INSTRUMENTEN VOOR EFFECTMETING De nauwkeurigheid van WISCAT-pabo is op twee manieren onderzocht: - op basis van gesimuleerde afnamen; - op basis van operationele afnamen. Gesimuleerde afnamen Bij een simulatiestudie worden tijdens een toetsafname voor fictieve kandidaten (waarvan de vaardigheid gekozen wordt door de onderzoeker) op de volgende wijze de antwoorden gegenereerd. - De ware vaardigheid (het door de onderzoeker te bepalen vaardigheidsniveau waar de simulatie mee start) van de fictieve kandidaat wordt gekozen. - Het eerste aan te bieden item wordt aselect gekozen uit de opgavebank. - Met de dan beschikbare parameters wordt het gebruikte IRT-model geëvalueerd, uitmondend in een kans op correcte beantwoording van het betreffende item. - Daarna wordt een aselect getal g getrokken uit het interval (0,1). Wanneer de kans op een correcte beantwoording (zie vorige stap) groter of gelijk is aan g dan wordt aan de response de score 0 (fout) toegekend, in het andere geval de score 1 (goed). - De lopende vaardigheidsschatting (de vaardigheid zoals geschat op basis van alle tot dan gegeven correcte en incorrecte antwoorden) wordt vervolgens gebruikt voor de selectie van het volgende item. Op basis van deze simulatiestudie is de gemiddelde standaardfout voor een door WISCAT-pabo gegenereerde toets bepaald op 8,78 (uitgedrukt op de getransformeerde schaal). De standaardfout van een vaardigheidsschatting vindt een zinvolle toepassing in de constructie van een betrouwbaarheidsinterval voor de geschatte vaardigheid. Zo kan met behulp van de standaardfout berekend worden tussen welke schaalwaarden de ware vaardigheid van een persoon met een bepaalde zekerheid, bijvoorbeeld 90 of 95 procent, komt te liggen. De in de simulatiestudie bepaalde gemiddelde standaardfout kan ook gebruikt worden om een schatting te krijgen van de betrouwbaarheid van de toetsen die door het toetspakket gegenereerd worden. Deze betrouwbaarheid bedraagt 0,91, een waarde die ruimschoots voldoet aan de COTAN-normen die gelden ten aanzien van de betrouwbaarheid van toetsen voor belangrijke beslissingen (COTAN, 2004). Operationele afnamen Op grond van de afnamegegevens van kandidaten gedurende het eerste operationele jaar is de betrouwbaarheid geschat van WISCAT-pabo met een in de literatuur voor adaptieve toetsen gebruikelijke methode (Thissen, 2000). In het studiejaar werd WISCAT-pabo keer afgenomen. De op deze data gebaseerde schatting van de betrouwbaarheid bedroeg 0,90. Volgens aangelegde normen voor de betrouwbaarheid van toetsen en tests voor het nemen van zwaarwegende beslissingen is dit een goede betrouwbaarheid (Nunnally & Bernstein, 1994) Handboek Effectief Opleiden 55/76 september 2011

15 WISCAT-pabo: ontwerp, kwaliteit en resultaten van een geruchtmakende toets 4.2 DE BESLISSINGSNAUWKEURIGHEID Wat is de kwaliteit van beslissingen die over studenten genomen worden? Bij het nemen van beslissingen over studenten op basis van toetsresultaten kunnen twee fouten gemaakt worden. - De vaardigheid van de student wordt ten onrechte beoordeeld als voldoende (het resultaat op de toets voldoet aan de norm maar in werkelijkheid schiet de vaardigheid tekort). - De vaardigheid van de student wordt ten onrechte beoordeeld als onvoldoende (het resultaat op de toets voldoet niet aan de norm maar in werkelijkheid is de vaardigheid toereikend). Omdat het vaststellen van de ware vaardigheid praktisch gezien niet haalbaar is, is de kwaliteit van genoemde beslissingen moeilijk te achterhalen. Simulatiestudies kunnen een uitweg bieden. Op basis van het gekozen itemresponsmodel wordt een toetsafname gesimuleerd die de onderzoeker de beschikking geeft over zowel het ware vaardigheidsniveau (het vaardigheidsniveau dat de onderzoeker kiest en waar de simulatie mee start) als het geschatte vaardigheidsniveau (de schatting van de vaardigheid nadat de laatste toetsopgave beantwoord is) bekend zijn. Het resultaat van de vergelijking van de ware en de geschatte vaardigheid wordt geclassificeerd in een van de categorieën als weergegeven in tabel 3. Geschatte vaardigheid Onvoldoende Ware vaardigheid Onvoldoende Correcte zakbeslissing Voldoende Ten onrechte genomen slaagbeslissing Voldoende Tabel 3: Correcte en incorrecte zak-/slaagbeslissingen Ten onrechte genomen zakbeslissing Correcte slaagbeslissing Als dit een groot aantal keren wordt herhaald voor kandidaten van uiteenlopende vaardigheid, dan wordt een goed beeld verkregen van de kwaliteit van beslissingen die theoretisch haalbaar is. De uitgevoerde simulatiestudies met vijfduizend fictieve kandidaten hebben geleid tot het opstellen van een tabel voor beslissingsnauwkeurigheid (tabel 4). In deze tabel staan percentages correcte en incorrecte beslissingen gebaseerd op toetsscores die onder het gebruikte itemresponsmodel gegenereerd zijn conform de hiervoor beschreven simulatieprocedure. De percentages geven een indicatie voor de omvang van de beslissingsfouten die in reële toepassingssituaties te verwachten zijn. Handboek Effectief Opleiden 55/77 september

16 9.2 EFFECTMETING EN BEVORDERING VAN WERKPLEKEFFECTEN/ INSTRUMENTEN VOOR EFFECTMETING Geschatte vaardigheid Onvoldoende Voldoende Ware vaardigheid Onvoldoende 42,2 5,9 Voldoende 5,7 46,0 Tabel 4: Percentage correcte en incorrecte beslissingen op basis van gesimuleerde toetsafnamen volgens het WISCATpabo toetsalgoritme De tabel laat zien dat in ruim 88 procent van alle gevallen een correcte beslissing wordt genomen. Dit mag geïnterpreteerd worden als een hoge beslissingsnauwkeurigheid. 4.3 VALIDITEIT Een belangrijk kwaliteitskenmerk is de validiteit van een toets. Strikt genomen is de term valide toets verkeerd; toetsen zelf kunnen niet valide zijn. Validiteit heeft betrekking op de beslissingen die op grond van de toetsuitslag genomen worden. Dit betekent in principe dat een toets in situatie A valide kan zijn (lees: tot valide beslissingen leidt) en in situatie B niet. Daarom moet voor elke nieuwe toepassing de validiteit opnieuw onderzocht worden. Er zijn verschillende bronnen waaruit geput kan worden om een bijdrage te leveren aan het bewijs van validiteit (Messick, 1989). Inhoud-gerelateerd bewijs Voor de operationalisatie van het construct rekenvaardigheid zijn items ontwikkeld op basis van eindtermen die oorspronkelijk zijn opgesteld voor het vak rekenen/wiskunde zoals dat verzorgd wordt in de lagere niveaus van de volwasseneneducatie. Deze eindtermen zijn op hun beurt grotendeels ontleend aan de kerndoelen voor rekenen in het basisonderwijs (ministerie van Onderwijs, 1993). De documenten waarin bedoelde eindtermen en kerndoelen zijn opgenomen zijn opgesteld door rekenspecialisten uit de betrokken onderwijstypen en zijn het resultaat van vele screenings- en verbeteringsrondes. Het is daarom aannemelijk dat deze documenten een deugdelijke beschrijving geven van wat in de betreffende onderwijstypen onder rekenvaardigheid begrepen wordt. Een commissie van pabo-rekendocenten heeft bevestigd dat het betreffende eindtermendocument, na een lichte aanpassing, ook een goede beschrijving gaf van de gewenste rekenvaardigheid van eerstejaars pabostudenten. Pabo-rekendocenten hebben onder leiding van een toetsdeskundige op grond van dit aangepaste eindtermendocument honderden items geconstrueerd die tezamen het zogeheten doeldomein (Kane, 2006) vormen, ten aanzien waarvan we de verwachte score van een kandidaat willen weten. De verwachte score wordt geschat op grond van de antwoorden die de kandidaat geeft op een door WISCAT-pabo gegenereerde toets. Het gebruikte toetsalgoritme zorgt ervoor dat elke toets inhoudelijk representatief is voor dit doeldomein Handboek Effectief Opleiden 55/78 september 2011

17 WISCAT-pabo: ontwerp, kwaliteit en resultaten van een geruchtmakende toets Construct-gerelateerd bewijs Een belangrijke bron voor validering is onderzoek waaruit geconcludeerd kan worden dat de toets het construct meet waarin de toetsgebruiker geïnteresseerd is. Een construct is een hypothetische kwaliteit van een persoon (bijvoorbeeld rekenvaardigheid) die aanwezig verondersteld wordt om het gedrag van die persoon te kunnen verklaren. Het onderzoek dat in het kader van de proefafnamen werd uitgevoerd om de kwaliteit van de opgaven te beproeven, kan als bewijsbron in bedoelde zin fungeren. Dergelijk onderzoek beoogt een schaal te construeren voor het veronderstelde construct. De schaal wordt opgebouwd uit alle items die zich volgens een vooraf gespecificeerd itemresponsmodel gedragen. Van die items kan gezegd worden dat ze allemaal hetzelfde construct meten. Omdat een belangrijke eigenschap van de itemresponstheorie is dat de vaardigheid van een persoon geschat kan worden met elke willekeurige deelverzameling van items (= toets) uit de geschaalde opgavebank, kan een toetsgebruiker erop vertrouwen dat elke toets die uit de opgavebank wordt samengesteld het construct meet, mits de kandidaat deel uitmaakt van de populatie waarvoor de schaal geconstrueerd is. Omdat de toetsen die door WISCAT-pabo worden afgenomen, zijn samengesteld uit een geschaalde opgavebank mag daaruit geconcludeerd worden dat ze het construct meten dat aan de schaal ten grondslag ligt. Nader onderzoek zal uit moeten wijzen of dit construct als rekenvaardigheid getypeerd mag worden of dat er misschien (ook) een andere vaardigheid in het geding is. Vanuit de theorie over het gemeten construct kunnen bijvoorbeeld hypotheses geformuleerd worden over relaties met scores afkomstig van andere instrumenten, convergente en discriminerende validering genoemd (Messick, 1989). Dit type valideringsonderzoek werd mogelijk gemaakt door het normeringsonderzoek dat werd uitgevoerd voor de ontwikkeling van een cesuurscore voor WISCAT-pabo (zie paragraaf 3, hiervoor). In dat verband werden data verkregen waarmee intercorrelaties berekend konden worden tussen de verschillende taken, waaronder rekentaken bestaande uit WISCAT-pabo items, die proefpersonen gemaakt hadden in het kader van een proeftoetsing voor de Eindtoets Basisonderwijs Tabel 5 en 6 geven een overzicht van alle berekende intercorrelaties tussen de taken (subtoetsen) van respectievelijk Proeftoets 1 en Proeftoets 10 zoals gemaakt door leerlingen in groep 8 in het kader van de proeftoetsing Eindtoets Basisonderwijs Ten behoeve van onderhavig onderzoek naar de constructvaliditeit van WISCAT-pabo zijn taak 6 (uit Proeftoets 1) en taak 4 (uit Proeftoets 10) hier opgesplitst in subtaak A, bevattende een set rekenitems voor de Eindtoets Basisonderwijs en subtaak B, bevattende een set rekenitems voor WISCAT-pabo. Handboek Effectief Opleiden 55/79 september

18 9.2 EFFECTMETING EN BEVORDERING VAN WERKPLEKEFFECTEN/ INSTRUMENTEN VOOR EFFECTMETING Taken Taken A 6B 7 1 Begrijpend lezen 2 Woordenschat 0,56 3 Spelling 0,53 0,41 4 Informatiebewerking 0,56 0,51 0,54 5 Herkennen persoonsvorm 0,32 0,17 0,44 0,38 6A Rekenen Eindtoets Basisonderwijs 0,47 0,43 0,54 0,64 0,31 6B Rekenen pabo 0,42 0,39 0,54 0,54 0,33 0,67 7 Schrijven 0,60 0,46 0,58 0,64 0,50 0,56 0,53 Aantal proefpersonen Aantal items Tabel 5: Intercorrelaties tussen de taken in Proeftoets 1 Taken Taken A 4B Aardrijkskunde 2 Natuuronderwijs 0,43 3 Geschiedenis 0,61 0,56 4A Rekenen Eindtoets Basisonderwijs 0,46 0,43 0,47 4B Rekenen pabo 0,45 0,43 0,46 0,65 5 Natuuronderwijs 0,47 0,60 0,58 0,40 0,38 6 Aardrijkskunde 0,65 0,49 0,60 0,47 0,45 0,55 Aantal proefpersonen Aantal items Tabel 6: Intercorrelaties tussen de taken in Proeftoets 10 Dat beide rekentaken hoog met elkaar correleren (r 6A,6B = 0,67 en r 4A,4B = 0,65), terwijl de correlaties met de andere taken beduidend lager zijn, is een aanwijzing voor de constructvaliditeit van WISCAT-pabo. Nog een aanwijzing voor de constructvaliditeit van WISCAT-pabo heeft betrekking op het - tijdens de proefafname van de WISCAT-pabo opgavebank - gevonden verschil in gemiddelde toetsscore tussen mannen en vrouwen. Dit grote verschil (vrouw = 96,88; man: = 118,70) kon niet verklaard worden door de verschillen in vooropleiding. Het is bekend uit de literatuur (Van der Velden, 1996) dat rekenprestaties van mannen en vrouwen vaak significant van elkaar verschillen, in die zin dat mannen hoger scoren dan vrouwen terwijl die verschillen zich niet voordoen bij een schoolvak als bijvoorbeeld taal. Ook dit kan opgevat worden als een aanwijzing dat met de opgavebank en de toetsen die eruit worden samengesteld vooral rekenvaardigheid wordt gemeten. Een andere construct-gerelateerde bewijsbron voor de validiteit van de toetsscores die WISCAT-pabo oplevert, is gebaseerd op de proefafnamen van de opgaven uit de opgavebank. De antwoorden die proefpersonen uit diverse doelgroepen tijdens de verschillende proefafnamen gegeven hebben, werden behalve voor het schatten van de moeilijkheidsgraden van de items ook gebruikt om een beeld te krijgen van de gemiddelde vaardigheid van studenten afkomstig uit verschillende vooropleidingen Handboek Effectief Opleiden 55/80 september 2011

19 WISCAT-pabo: ontwerp, kwaliteit en resultaten van een geruchtmakende toets Vooropleiding Gemiddelde Stand. dev. mbo 84,7 30,6 havo 104,7 30,7 vwo 129,2 37,7 Totaal 100,0 30,0 Tabel 7: Gemiddelde vaardigheidsschatting eerstejaars pabo-studenten per vooropleiding (proefafname resultaten) In tabel 7 zijn de gemiddelde en standaarddeviaties van de geschatte vaardigheden van deze groepen uitgedrukt op de schaal voor rekenen/wiskunde. De gevonden verschillen tussen de gemiddelde vaardigheidsschattingen liggen in de verwachte richting: mbo ers scoren gemiddeld lager dan havisten die op hun beurt gemiddeld weer lager scoren dan vwo ers. De tienduizenden operationele afnamen vanaf de invoering in studiejaar bevestigen de bij de proefafname gevonden verschillen in rekenvaardigheid tussen de vooropleidingen (zie paragraaf 5, tabel 8). De duidelijke en statistisch significante verschillen tussen de gemiddelde vaardigheidsschattingen, in de intuïtief veronderstelde richting, zijn een steuntje in de rug voor de veronderstelling dat met deze opgaven verschillen in rekenvaardigheid tussen personen gemeten kunnen worden. 5 De operationele resultaten Vanaf studiejaar zijn inmiddels meer dan toetsen afgenomen. Hiermee is een schat aan informatie verworven over de behaalde toetsprestaties en over de ervaringen van de gebruikers. Achtereenvolgens zullen we in deze en de volgende paragraaf aandacht besteden aan deze onderwerpen. In tabel 8 zijn de gemiddelde toetsprestaties van de eerstejaars pabo-studenten opgenomen, uitgesplitst naar studiejaar en naar vooropleiding. De verschillen tussen de gemiddelde toetsprestaties van de studenten met verschillende vooropleiding zijn in de verwachte richting en zijn statistisch significant. Er is een fors effect van de vooropleiding op de WISCAT-pabo score. Ook tekende zich na het eerste studiejaar een duidelijke toename af in de gemiddelde score bij alle vooropleidingen. Het zou kunnen dat de instelling van een landelijk verplichte toets studenten met een lage rekenvaardigheid heeft weerhouden om zich in te schrijven voor de pabo. Helaas zien we dit effect niet bestendigd in het studiejaar waarin, behalve bij de studenten met een mbo-vooropleiding, de gemiddelde toetsprestaties weer wat of zelfs flink (vwo) afzwakken. Handboek Effectief Opleiden 55/81 september

20 9.2 EFFECTMETING EN BEVORDERING VAN WERKPLEKEFFECTEN/ INSTRUMENTEN VOOR EFFECTMETING Vooropleiding mbo 94,0 (27,7) N= ,9 (27,6) N= ,9 (24,9) N= ,9 (23,8) N=5158 havo 109,8 (26,4) N= ,7 (26,0) N= ,1 (24,7) N= ,7 (23,8) N=6105 vwo 137,3 (32,6) N= ,8 (34,0) N= ,4 (30,3) N= ,8 (30,1) N=1264 Onbekend 102,4 (32,96) N= ,0 (36,6) N= ,7 (34,5) N= ,9 (31,1) N=1086 Totaal 105,0 (30,2) N= ,1 (30,3) N= ,4 (28,5) N= ,8 (27,5) N=13613 Tabel 8: Gemiddelde toetsscores en standaardafwijkingen per vooropleiding en studiejaar Met het oog op de voorbereiding op de toets van nieuwe lichtingen instromers is het interessant om te kijken of bepaalde onderwerpen daarbij meer aandacht verdienen dan andere. Dat blijkt niet het geval te zijn. In geen enkel studiejaar zien we grote verschillen optreden tussen de gemiddelde scores op de deeltoetsen. Tabel 9 toont dit voor alleen het laatste studiejaar. Wel zien we dat de gemiddelde score voor het onderwerp basisvaardigheden steeds wat achterblijft; bij de mbo ers is dit effect het sterkst. Een goede verklaring daarvoor ontbreekt tot op heden. Vooropleiding Toetsscore Deelscore hoofdrekenen Deelscore basisvaardigheden Deelscore meten en meetkunde Deelscore breuken, enz. mbo 97,9 97,7 94,2 99,7 99,1 havo 110,7 112,0 108,8 109,7 112,6 vwo 136,8 138,6 134,2 136,2 138,3 Onbekend 116,9 116,4 113,5 117,3 118,5 Tabel 9: Gemiddelde scores op de deeltoetsen per vooropleiding in studiejaar Interessanter dan de gemiddelde scores, in ieder geval voor de betrokken studenten, hun docenten en de opleidingsmanagers, zijn de slaagcijfers. Hoeveel procent slaagt en hoeveel procent wordt dus gedwongen om de studie af te breken? In tabel 10 is per studiejaar en per vooropleiding aangegeven hoeveel procent van een jaargroep uiteindelijk, dat wil zeggen na maximaal drie pogingen, slaagt. Het percentage studenten dat uiteindelijk slaagt voor de toets is gedurende vier studiejaren tamelijk stabiel gebleken. Grosso modo slaagt ruim 75 procent van de kandidaten en wordt een kwart dus gedwongen om de studie te beëindigen. Ook hier zijn de verschillen tussen de vooropleidingen groot. Bijna alle vwo ers weten te slagen, van de havisten ruim 80 procent, maar van de mbo ers ligt het aantal geslaagden slechts iets boven de 60 procent. De invoering van centrale examinering in het mbo vanaf studiejaar voor de vakken taal en rekenen zal dit percentage naar verwachting flink kunnen ophogen Handboek Effectief Opleiden 55/82 september 2011

Nog meer weergeven