VISEON: VolgInstrument voor Sociaal-Emotionele Ontwikkeling

Maat: px
Weergave met pagina beginnen:

Download "VISEON: VolgInstrument voor Sociaal-Emotionele Ontwikkeling"

Transcriptie

1 VISEON: VolgInstrument voor Sociaal-Emotionele Ontwikkeling Verantwoording Frans Kamphuis (Citogroep) Willem Rosier (Citogroep) Cor Sluijter (Citogroep) Marleen van der Lubbe (Citogroep) Kees van Putten (Universiteit Leiden) Joost Meijer (SCO-Kohnstamm Instituut) Citogroep Arnhem,

2 Inhoud 1 Inleiding 3 2 Beschrijving van de instrumenten Doel en opzet van de instrumenten Het normeringsonderzoek en de schaalconstructie De inhoud van de leerkrachtlijst De inhoud van de leerlinglijst De inhoud van de toetsen 11 3 De constructie van de instrumenten De proefafnames Meetmodel en analyseprocedure Resultaten van de analyses Normering Onderzoek naar intra- en interbeoordelingsovereenstemming 25 4 De nauwkeurigheid van de instrumenten Betrouwbaarheid leerkrachtlijst Betrouwbaarheid leerlinglijst 28 5 De validiteit van de instrumenten Inhoudsvaliditeit Begripsvaliditeit 32 6 Literatuur 41 Bijlage 1 Betrouwbaarheidstabellen 42 2 Analyseren en handelen 49 2

3 1 Inleiding Deze verantwoording levert tezamen met de inhoud van het pakket Viseon alle informatie die nodig is voor een snelle en efficiënte beoordeling van de kwaliteit van dit pakket op de volgende zes aspecten: 1 Uitgangspunten bij de constructie van de twee instrumenten die het pakket bevat 2 Kwaliteit van de instrumenten en het bijbehorende materiaal 3 Kwaliteit van de handleiding 4 Wijze van normering 5 Meetnauwkeurigheid 6 Validiteit Informatie over de uitgangspunten bij de instrumentconstructie (aspect 1) is te vinden in hoofdstuk 3. Hoofdstuk 3 bevat ook de beschrijving van het normeringsonderzoek (aspect 4) en het gehanteerde meetmodel. De meetnauwkeurigheid (aspect 5) en de validiteit (aspect 6) van de instrumenten uit het pakket komt aan de orde in de hoofdstukken 4 en 5. De kwaliteit van de instrumenten, het bijbehorende materiaal en de handleiding (aspecten 2 en 3) is te bepalen door kennis te nemen van de inhoud van het pakket waar de instrumenten deel van uitmaken. 3

4 2 Beschrijving van de instrumenten 2.1 Doel en opzet van de instrumenten In de uitgangspunten en doelstellingen van het onderwijs (Wet op het Primair Onderwijs) wordt niet concreet ingegaan op de taak van het onderwijs ten aanzien van sociaal-emotionele ontwikkeling. In artikel 8 wordt aangegeven dat het onderwijs zodanig dient te worden ingericht dat leerlingen een ononderbroken ontwikkelingsproces kunnen doorlopen. Het onderwijs moet afgestemd zijn op de voortgang in de ontwikkeling van leerlingen. Dit wordt nader uitgesplitst in de gerichtheid van het onderwijs op de emotionele en verstandelijke ontwikkeling, op het ontwikkelen van creativiteit, op het verwerven van noodzakelijke kennis en van sociale, culturele en lichamelijke vaardigheden. In de kerndoelen (Besluit kerndoelen primair onderwijs, 1998) wordt een onderverdeling gemaakt in twee typen doelen, de leergebiedspecifieke en de leergebiedoverstijgende kerndoelen. Terwijl het eerste type doelen betrekking heeft op de 'schoolse' vakken, is er binnen de leergebiedoverstijgende kerndoelen ruimte voor meer algemene vaardigheden die betrekking hebben op alle leergebieden. Binnen de leergebiedoverstijgende kerndoelen hebben voornamelijk de specificaties binnen de thema s werkhouding, zelfbeeld en sociaal gedrag betrekking op de emotionele en relationele aspecten van schoolse taken en de omgang met medeleerlingen en de leerkracht. Aandacht voor het sociaal-emotioneel functioneren wordt dus als integraal onderdeel van het onderwijs gezien. Ook de onderwijsinspectie besteedt bij het Integraal Schooltoezicht aandacht aan het volgen van het sociaalemotioneel functionerenvan leerlingen. Het is dus van belang dat leerkrachten in het primair onderwijs aandacht besteden aan het sociaalemotioneel functioneren van hun leerlingen. Maar niet alleen omdat de kerndoelen voor het primair onderwijs dat aangeven. Er is ook sprake van een duidelijke wisselwerking tussen het sociaalemotioneel functioneren van een kind en zijn of haar ontwikkeling op andere terreinen (zie bijvoorbeeld Van Lier, Hoeben, & Van Lieshout; 1993). Problemen op het sociaal-emotionele vlak kunnen het onderwijsleerproces negatief beïnvloeden. Maar evenzeer is het mogelijk dat leerproblemen een storende invloed hebben op de ontwikkeling van een kind op het sociale en affectieve vlak. Als een kind bijvoorbeeld onvoldoende veiligheid en vertrouwen ervaart op school of thuis, kan dit het leren negatief beïnvloeden. Maar ook het omgekeerde kan het geval zijn. Een kind kan bijvoorbeeld beseffen dat het wat betreft de cognitieve ontwikkeling niet goed mee kan komen in de groep. En dit kan dan vervolgens leiden tot problemen op sociaal-emotioneel gebied. VISEON, het volginstrument voor sociaal-emotionele ontwikkeling, stelt leerkrachten in staat om het sociaal-emotioneel functioneren van leerlingen systematisch te volgen. Het instrument verhoogt daarmee het inzicht in de ontwikkeling van leerlingen op dit terrein en biedt leerkrachten de mogelijkheid om de samenhang met het verloop van onderwijs- en leerprocessen in kaart te brengen. VISEON bevat een observatielijst voor de leerkracht (verder: leerkrachtlijst) en een zelfbeoordelingslijst voor de leerling (verder: leerlinglijst). De leerkrachtlijst is bestemd voor de groepen 3 tot en met 8 en de leerlinglijst voor de groepen eind 5 tot en met 8. Als theoretische basis bij de ontwikkeling van de leerkrachtlijst is uitgegaan van de Big Five persoonlijkheidsstructuur (zie onder meer Kohnstamm 1992a, 1992b). De Big Five is een vijffactorstructuur die zichtbaar is in de gedragsbeoordelingen voor uiteenlopende groepen en in diverse omstandigheden. Ook in de beschrijvingen door leerkrachten van het schoolgedrag van hun leerlingen zijn deze vijf dimensies terug te vinden (Halverson, Kohnstamm en Martin, 1994). Van de Big Five dimensies Extraversion, Agreeableness; Conscientiousness, Emotional Stability en Intellect komt de laatste niet aan de orde binnen VISEON, omdat deze dimensie al meer dan voldoende gedekt wordt door alle cognitief gerichte toetsen uit het Leerlingvolgsysteem. VISEON geeft een concreet beeld van het sociaal-emotioneel functioneren van individuele leerlingen en van groepen leerlingen als geheel. De scores op beide lijsten kunnen vergeleken worden met de scores van een grote, landelijk representatieve, groep leerlingen. Door het periodiek (laten) invullen van de lijsten zijn veranderingen in het sociaal-emotioneel functioneren in kaart te brengen. De unieke combinatie van leerkrachtlijst en leerlinglijst maakt het mogelijk tot een afgewogen en genuanceerd oordeel te komen en actie te ondernemen. Bepaald gedrag dat de leerkracht als 4

5 problematisch ziet, kan door de leerling zelf niet als zodanig beschouwd worden. Of: een leerkracht signaleert geen problemen, terwijl een leerling zelf wél aangeeft problemen te ondervinden. Met behulp van de scores op de verschillende schalen voor de leerkrachtlijst is het sociaalemotioneel functioneren in de ogen van een leerkracht op een bepaald afnamemoment te bepalen. En het niveau van de leerling is te vergelijken met het niveau van een landelijke groep. Indien een leerkracht elk (half) jaar de leerkrachtlijst invult, dan maakt de schaal het mogelijk het sociaalemotioneel functioneren van een leerling in de ogen van leerkrachten in kaart te brengen vanaf groep 3 tot en met groep 8. Vanaf eind groep 5 kan men leerlingen daarnaast de leerlinglijst laten invullen. De schalen van de leerlinglijst geven inzicht in het beeld dat een leerling van het eigen sociaal-emotionele functioneren heeft. Indien een leerling elk (half) jaar de leerlinglijst invult, dan wordt het mogelijk het sociaal-emotioneel functioneren van een leerling in zijn of haar eigen ogen in kaart te brengen. Daardoor wordt het mogelijk oordelen van leerkrachten aan het eigen oordeel van de leerling te toetsen. Besloten is VISEON in de vorm van een geautomatiseerd instrument te ontwikkelen om het invullen van de lijsten voor leerkrachten en leerlingen eenvoudiger te maken en om te voorkomen dat leerkrachten zelf de responsen moeten gaan omzetten naar interpreteerbare scores. 2.2 Het normeringsonderzoek en de schaalconstructie Voor de ontwikkeling van de leerkrachtlijst en de leerlinglijst zijn voor elke halfjaarlijkse onderwijsperiode in het basisonderwijs (van medio groep 3 tot en met medio groep 8) een groot aantal items geconstrueerd. Die items zijn in de periodes november 2001 en maart 2002 op een groot aantal scholen met behulp van de computer voorgelegd aan respectievelijk een groep leerkrachten en een deel van hun leerlingen. Ook speciale scholen voor basisonderwijs zijn in het onderzoek betrokken. Er is sprake van herhaalde metingen om leerlingen te kunnen volgen in hun ontwikkeling op het terrein van het sociaal-emotioneel functionerenen om referentiegegevens ten aanzien van de ontwikkeling van landelijke normgroepen te kunnen verzamelen. Bij de analyse van de scores op de items van de leerkrachtlijst en de leerlinglijst is voor beide instrumenten nagegaan of de verschillende items een beroep doen op een en hetzelfde onderliggende persoonskenmerk. Dit heeft uiteindelijk geresulteerd in de constructie van een reeks schalen voor elk instrument die betrekking hebben op verschillende aspecten van het sociaal-emotioneel functioneren van leerlingen. De schalen zijn ontwikkeld met behulp van het One Parameter Logistic Model (OPLM) (Verhelst, 1993; Verhelst en Glas, 1995). Voor een algemene technische beschrijving van dit model en een beschrijving van de opzet en uitvoering van het normeringsonderzoek verwijzen we naar hoofdstuk 3 van deze verantwoording. 2.3 De inhoud van de leerkrachtlijst De leerkrachtlijst richt zich op direct en concreet waarneembaar gedrag van leerlingen op school, specifiek in de groep. Het betreft gedrag zoals dat tot uiting komt in het omgaan met schoolse taken, met medeleerlingen en met de leerkracht. Daarbij is de mate waarin dit gedrag verschilt tussen individuele leerlingen van belang voor de interpretatie van de scores op de leerkrachtlijst. In tegenstelling tot instrumenten als de Child Behavior Checklist (CBCL) (Verhulst, Koot, Akkerhuis & Veerman, 1990) en analoog aan instrumenten als de Schoolgedrag Beoordelingslijst (SCHOBL-R) (Bleichrodt, Resing & Zaal, 1993), is bij de ontwikkeling van de lijst niet uitgegaan van probleemgedrag. Onaangepast gedrag en probleemgedrag komen uiteraard wel aan de orde in de leerkrachtlijst, maar alleen voor zover dit soort gedrag in de normale (niet-klinische) schoolpopulatie voorkomt. Aan de leerkrachtlijst ligt de inhoud van de herziene LICOR-lijst (Aporoo, 1996; Dijckmeester, Kleingeld, Libeton, Naabourg, Pompe, Verschoor & Vreeken, 1998) ten grondslag. Deze herziene LICOR-lijst was op zijn beurt gebaseerd op een eerder onderzoeksinstrument van Van Putten (1987). Omdat gekozen is voor een bipolaire antwoordvorm, is bij elke oorspronkelijke uitspraak een tegengestelde uitspraak geformuleerd. Ook zijn er enige nieuwe items geconstrueerd. De uiteindelijke leerkrachtlijst bevat 44 paren tegengestelde uitspraken die betrekking hebben op concreet waarneembaar gedrag tijdens de alledaagse gang van zaken binnen de groep. Door het 5

6 invullen van de lijst krijgt de leerkracht een beeld van vier dimensies van het sociaal-emotioneel functioneren van een leerling. Deze dimensies zijn: - zorgvuldige werkhouding versus onzorgvuldige werkhouding; - aangenaam gedrag versus storend gedrag; - emotionele stabiliteit versus emotionele instabiliteit; en - sociaal gedrag versus teruggetrokken gedrag. De dimensie Zorgvuldige werkhouding versus onzorgvuldige werkhouding heeft betrekking op het beeld dat de leerkracht heeft van het werkgedrag van de leerling; zijn of haar houding ten aanzien van het leren op school. Enkele aspecten van deze dimensie zijn: inzet en zorgvuldigheid bij het uitvoeren van taken en het gedurende langere tijd geconcentreerd bezig kunnen zijn. De dimensie Aangenaam gedrag versus storend gedrag heeft betrekking op het beeld dat de leerkracht heeft van het gedrag van de leerling ten opzichte van zijn of haar klasgenoten en van de leerkracht zelf en de mate leerling volgens de leerkracht rekening kan houden met de omgeving. Enkele aspecten van deze dimensie zijn: het zich al dan niet houden aan regels en afspraken, en het plagen of juist in bescherming nemen van anderen. De dimensie Emotionele stabiliteit versus emotionele instabiliteit richt zich op de emotionele kant van het leerlinggedrag zoals de leerkracht dat waarneemt. In de uitspraken wordt de zekere, emotioneel stabiele leerling geplaatst tegenover de onzekere leerling die snel van slag is. Enkele aspecten van deze dimensie zijn: het al dan niet tegen kritiek kunnen, de mate leerling zich over iets vervelends heen kan zetten en het al dan niet snel van slag zijn. De dimensie Sociaal gedrag versus teruggetrokken gedrag heeft betrekking op de mate leerling volgens de leerkracht gericht is op het participeren in groepsactiviteiten en interactie met de leerkracht en de medeleerlingen. Aan de ene kant gaat het om de aanwezige, sociale leerling die open is en zelfvertrouwen heeft en zelf initiatief neemt tot het leggen van contacten. Aan de andere kant om de gesloten en teruggetrokken leerling die zich schuchter gedraagt, het liefst op de achtergrond blijft en weinig initiatieven neemt. Enkele aspecten van deze dimensie zijn: het al dan niet actief contacten leggen in de groep en het al dan niet verlegen zijn van een leerling. Het afnemen van de leerkrachtlijst Figuur 2.1 bevat een voorbeeld van een uitspraak uit de leerkrachtlijst zoals de leerkracht deze op het beeldscherm te zien krijgt. Door met de cursor op een van de bolletjes tussen de uitspraken te gaan staan en vervolgens met de muis te klikken, geeft een leerkracht aan in hoeverre één van de twee tegengestelde uitspraken van toepassing is op een leerling. Eerst bepaalt de leerkracht welke van beide uitspraken het meest van toepassing is op de betreffende leerling. Vervolgens bepaalt de leerkracht of de uitspraak geheel of gedeeltelijk van toepassing is. Is een uitspraak volledig van toepassing, dan klikt de leerkracht op het meest linkse of meest rechtse bolletje, is een uitspraak gedeeltelijk van toepassing, dan klikt de leerkracht op het tweede of derde bolletje. Er is geen middencategorie. Dit weglaten van de middencategorie heeft als gevolg dat een leerkracht moet kiezen of een leerling meer bij een uitspraak van de ene pool dan wel bij de uitspraak van de andere pool hoort. Een andere aanbeveling bij het invullen van de vragenlijst is de uitspraak dat er niet meer dan 5 leerlingen achter elkaar beoordeeld mogen worden, want anders gaan de leerlingen te veel op elkaar lijken. Een leerkracht is gemiddeld 12 minuten per leerling bezig bij het invullen van de vragenlijst. 6

7 Figuur 2.1 Voorbeeld van een uitspraak uit de leerkrachtlijst Tabel 2.1 Overzicht van de uitspraken in de leerkrachtlijst binnen de verschillende dimensies met het volgnummer van de uitspraak binnen de lijst Zorgvuldige werkhouding Onzorgvuldige werkhouding 1 Is op school meestal geïnteresseerd Is op school zelden geïnteresseerd 5 Maakt een taak meestal af Maakt een taak zelden af 9 Is niet snel afgeleid Is snel afgeleid 13 Toont meestal aandacht op school Toont zelden aandacht op school 17 Vermijdt moeilijke taken zelden Vermijdt moeilijke taken vaak 21 Doet zijn of haar best om vragen te beantwoorden Doet niet zijn of haar best om vragen te beantwoorden 25 Werkt zorgvuldig Werkt onzorgvuldig 29 Let meestal goed op in de les Let zelden goed op in de les 33 Kan lang zonder hulp of aansporing werken Kan niet lang zonder hulp of aansporing werken 37 Is meestal met het eigen werk bezig Is vaak met van alles bezig, behalve met het eigen werk 41 Heeft meestal zin om taken uit te voeren Heeft zelden zin om taken uit te voeren Aangenaam gedrag Storend gedrag 2 Maakt zelden ruzie met andere kinderen Maakt vaak ruzie met andere kinderen 6 Zit zelden aan de spullen van andere kinderen Zit vaak aan de spullen van andere kinderen 10 Leidt andere kinderen zelden af Leidt andere kinderen vaak af 14 Is een rustig kind Is een druk kind 18 Scheldt andere kinderen zelden uit Scheldt andere kinderen vaak uit 22 Bemoeit zich zelden ongevraagd met het werk van andere kinderen Bemoeit zich vaak ongevraagd met het werk van andere kinderen 26 Dringt zelden voor op andere kinderen Dringt vaak voor op andere kinderen 30 Is niet snel geërgerd tegenover de leerkracht Is snel geërgerd tegenover de leerkracht 34 Heeft aandacht voor de leerkracht Negeert de leerkracht 38 Maakt de leerkracht zelden opzettelijk boos Maakt de leerkracht vaak opzettelijk boos 43 Overtreedt de regels zelden Overtreedt de regels vaak 7

8 Emotionele stabiliteit Emotionele instabiliteit 3 Is niet snel van slag bij een slechte beoordeling Is snel van slag bij een slechte beoordeling 7 Kan goed tegen kritiek Is snel van slag bij kritiek 11 Komt heel zeker over Komt heel onzeker over 15 Gaat meestal direct aan de slag met een opdracht Wacht vaak af bij het krijgen van een opdracht 19 Is niet snel ontmoedigd als iets niet meteen lukt Is snel ontmoedigd als iets niet meteen lukt 23 Huilt zelden Huilt vaak 27 Vraagt zelden onnodig of hij of zij het wel goed doet Vraagt vaak onnodig of hij of zij het wel goed doet 31 Doet dingen het liefst zelf Wil liever geholpen worden dan het zelf te doen 35 Haar of zijn stemming is moeilijk door anderen te beïnvloeden Haar of zijn stemming wordt gemakkelijk door anderen beïnvloed 39 Is zelden te zenuwachtig om een taak goed uit te Is vaak te zenuwachtig om een taak goed uit te voeren voeren 42 Kan zich gemakkelijk over iets vervelends heen zetten Kan zich moeilijk over iets vervelends heen zetten 44 Denkt niet snel als anderen lachen dat ze het over haar of hem hebben Denkt snel als anderen lachen dat ze het over haar of hem hebben Sociaal gedrag Teruggetrokken gedrag 4 Staat graag in het middelpunt van de belangstelling Valt niet graag op 8 Stapt zelf op anderen af Wacht tot anderen naar hem/haar toekomen 12 Legt gemakkelijk contacten Laat contact maken aan anderen over 16 Kan goed voor zichzelf opkomen Vindt het moeilijk om voor zichzelf op te komen 20 Voert in de groep het hoogste woord Zegt niets in de groep 24 Is niet bang om vragen te stellen Is bang om vragen te stellen 28 Laat het duidelijk merken als hij of zij boos is Trekt zich terug als hij of zij boos is 32 Vertelt zonder schroom dingen over zichzelf Heeft moeite om iets over zichzelf te vertellen 36 Komt niet verlegen over Komt verlegen over 40 Houdt zich zelden afzijdig Houdt zich vaak afzijdig 2.4 De inhoud van de leerlinglijst De leerlinglijst richt zich op leerlingkenmerken die ten grondslag liggen aan het gedrag waar ook de leerkrachtlijst betrekking op heeft: gedrag dat tot uiting komt in het omgaan met medeleerlingen, met schoolse taken en met de leerkracht. De leerlinglijst maakt het leerlingen mogelijk concrete informatie te geven over het beeld dat zij hebben van hun eigen gedrag op het sociale en affectieve vlak. Dit gebeurt met behulp van concrete uitspraken over dat gedrag en over de eigen opvattingen. De leerlinglijst geeft dus weer welk beeld de leerling van zichzelf heeft. Uitgangspunt van de lijst is het cognitieve procesmodel van Hechkausen. Dat cognitieve motivatiemodel geeft aan dat er een aantal andere aspecten meespelen bij de informatieverwerking binnen een mens. Van belang bij de constructie van VISEON is het uitgangspunt dat de school, de leerkracht invloed heeft op het zelfconcept van leerlingen. Anders gezegd de leerkracht kan zijn gedrag afstemmen op de interne processen van leerling. De leerkracht moet dan wel zicht krijgen op de interne processen van de leerling. De gehanteerde dimensies van de leerkrachtlijst voldeden niet, omdat de leerlinglijst de leerkracht/school feedback moet geven op de afstemming tussen school en leerling (De Kuijer, 1985). Tevens is het van belang om betrouwbare informatie te krijgen over de wijze waarop de leerling naar zichzelf kijkt (zelfconcept, zelfbeeld). Bij de constructie van de items van de leerlinglijst is gekeken of de verschillende aspecten aan bod kwamen. Tevens is er op het gebied van de leerling zelf (zelfconcept) een uitsplitsing gemaakt in vier dimensies: zelfbeeld, werkhouding, persoonlijkheid en motivatie. Ten slotte zijn de dimensies zelfbeeld en werkhouding bij de psychometrische analyses overgebleven als betrouwbare schalen. Om iets te kunnen met een sociaal-emotionele lijst is het noodzakelijk om een combinatie van beide aspecten te hebben: het beeld van de leerling over zichzelf en het beeld van de leerling met betrekking tot afstemming van de pedagogische apecten van de school op de leerling. Uiteindelijk hebben de analyses geleid tot een verdeling in vijf schalen. 8

9 Het afnemen van de leerlinglijst De lijst bevat 42 uitspraken waar een leerling al dan niet mee kan instemmen. Er zijn vier antwoordalternatieven: Dat is zo, Dat is vaak zo, Dat is soms zo en Dat is niet zo. Leerlingen geven door te klikken op een van de alternatieven aan in hoeverre de uitspraak op hen van toepassing is. In de leerlinglijst komen vijf dimensies van het sociaal-emotioneel functioneren van een leerling aan de orde: - het zelfvertrouwen; - de werkhouding; - de relatie met de leerkracht; - de relatie met andere leerlingen en - het schoolbeeld: de houding van de leerling ten opzichte van de school. De dimensie Zelfvertrouwen geeft aan in welke mate het kind vertrouwen heeft in eigen kunnen en opgewassen is tegen de gestelde eisen. Het zelfvertrouwen van een leerling wordt bepaald door zijn of haar zelfbeeld. De dimensie Werkhouding heeft betrekking op de houding van de leerling ten aanzien van het leren op school. Aspecten van deze dimensie zijn onder meer: inzet bij het uitvoeren van taken, taakgerichtheid en doorzettingsvermogen. De dimensie Relatie met de leerkracht heeft betrekking op de houding van de leerling ten opzichte van zijn of haar leerkracht. Deze dimensie maakt duidelijk hoe de leerling de leerkracht ervaart; of de leerling vindt dat de leerkracht een positieve dan wel negatieve invloed op hem of haar uitoefent. De dimensie Relatie met andere leerlingen heeft betrekking op de houding van de leerling ten opzichte van zijn of haar klasgenoten. Aspecten van deze dimensie zijn onder meer: het al dan niet leuk met elkaar omgaan, het contact (durven) maken met de andere leerlingen. De dimensie Schoolbeeld heeft betrekking op het beeld dat de leerling zich van de school gevormd heeft. Voor het kind moet de school een veilige plaats zijn; een plek waar het zich thuis voelt, zichzelf durft te zijn, zich geaccepteerd weet en vertrouwen in zichzelf en anderen kan hebben. Deze dimensie maakt duidelijk of een leerling het leuk vindt op school en zich daar veilig voelt. Figuur 2.2 bevat een voorbeeld van een uitspraak uit de leerlinglijst zoals de leerling deze op het beeldscherm te zien krijgt. Door op een van de blokjes bij ieder alternatief te klikken, kan een leerling aangeven in hoeverre een uitspraak op hem of haar van toepassing is. Figuur 2.2 Voorbeeld van een uitspraak uit de leerlinglijst 9

10 Tabel 2.2 Overzicht van de uitspraken in de leerlinglijst binnen de verschillende dimensies met het volgnummer van de uitspraak binnen de lijst en aanduiding met betrekking tot de formulering Zelfvertrouwen Formulering 4 Ik denk dat de meeste kinderen uit mijn groep beter kunnen leren dan ik negatief 9 Ik ben één van de beste kinderen van mijn groep positief 14 Ik denk dat ik veel fouten maak in mijn schoolwerk negatief 19 Als de juf of meester iets uitlegt, dan snap ik het snel positief 24 Ik denk dat ik een slimme leerling ben positief 29 Ik haal goede cijfers voor toetsen positief 34 Ik denk dat mijn werk op school goed is positief Werkhouding 3 Ik kan mijn aandacht goed bij mijn werk houden positief 8 Ik werk slordig negatief 13 Als iets niet zo snel lukt, blijf ik het proberen positief 18 Ik praat tijdens de lessen negatief 23 Ik let goed op bij de lessen positief 28 Als ik klaar ben met mijn werk, kijk ik nog even of ik fouten heb gemaakt positief 33 Ik ben een rustig kind positief 37 Tijdens de les kan ik goed mijn mond houden positief 41 Als de juf of meester een opdracht geeft, begin ik meteen positief Relatie met leerkracht 5 Bij mijn juf of meester voel ik mij prettig positief 10 Mijn juf of meester wordt snel ongeduldig als zij of hij iets aan mij moet uitleggen negatief 15 Ik ben aardig tegen de juf of meester positief 20 Mijn juf of meester vindt dat ik goed mijn best doe op school positief 25 Ik luister goed naar wat de juf of meester van mij vraagt positief 30 Mijn juf of meester begrijpt mij niet negatief 35 Met mijn juf of meester kan ik goed opschieten positief 38 Van mijn juf of meester moet ik mijn werk vaak opnieuw maken negatief 42 Mijn juf of meester gaat leuk met mij om positief Relatie met andere leerlingen Formulering 1 Ik heb veel vriendjes of vriendinnetjes in de groep positief 6 Ik voel mij er in de groep een beetje buiten staan negatief 11 De meeste kinderen in de groep gaan leuk met mij om positief 16 Ik zou in mijn groep meer vriendjes of vriendinnetjes willen hebben negatief 21 Volgend jaar wil ik liever met andere kinderen in de groep zitten negatief 26 De meeste kinderen in de groep gaan leuker met elkaar om dan met mij negatief 31 Als ik hulp vraag in de groep, zijn er genoeg kinderen die willen helpen positief 36 Ik word op school gepest negatief 40 Als andere kinderen lachen, denk ik dat ze mij uitlachen negatief Schoolbeeld 2 Ik verveel me op school negatief 7 Ik vind het leuk om naar school te gaan positief 12 Ik pieker over school negatief 17 Ik vind dat we op deze school leuke dingen doen positief 22 Ik vind de lessen op deze school leuk positief 27 Ik voel me veilig op deze school positief 32 Als we gaan verhuizen, wil ik op deze school blijven negatief 39 Ik ben blij dat ik op deze school zit positief 10

11 2.5 De inhoud van de toetsen Alle uitspraken in de leerlinglijst en leerkrachtlijst zijn gekoppeld aan een dimensie. Op basis van de dimensie is een mogelijke indicatie te verkijgen waar bij leerlingen met een lage score op één of meer dimensies problemen gezocht kunnen worden. In bijlage 2 is een gedeelte uit de handleiding bewerkt en overgenomen om aan te geven op welke wijze een school aan de slag kan gaan naar aanleiding van een lage score. De leerkrachtenlijst en de leerlinglijst blijven door de leerjaren heen hetzelfde. Ook de koppeling met de dimensies is hetzelfde gelaten. De normering per geslacht en leeftijdgroep wijkt wel af. Om aan te geven of een leerling een risico- dan wel een aandachtsleerling is, wordt bij de rapporten direct in beeld gebracht. Tevens wordt dan de omschrijving van de desbetreffende dimensie weergegeven, een beschrijvining van de dimensie in concreet leerlinggedrag als een overzicht van de drie zwaarst meetellende uitspraken per dimensie. De eerste figuur bevat het leerlingrapport van een fictieve leerling voor de leerkrachtlijst. Het rapport laat zien dat de schaalscore van Samira op de dimensie Zorgvuldige werkhouding versus onzorgvuldige werkhouding in het aandachtsgebied. Het leerlingrapport geeft in dit geval een concrete omschrijving van de betreffende dimensie. Bovendien laat het leerlingrapport zien dat de leerkracht geheel of gedeeltelijk ingestemd heeft met de uitspraken dat Samira op school zelden geïnteresseerd lijkt te zijn, een taak zelden afmaakt en snel is afgeleid. Omdat de schaalscores van Samira voor de overige dimensies niet in het risico- of aandachtsgebied vallen, bevat het leerlingrapport voor deze dimensies geen extra informatie. De tweede figuur bevat het leerlingrapport van Samira voor de leerlinglijst. 11

12 Het rapport laat zien dat ook hier haar schaalscore voor de dimensie Werkhouding in het aandachtsgebied : niveau D. Het leerlingrapport geeft een concrete omschrijving van de betreffende dimensie. Bovendien laat het leerlingrapport zien dat Samira aangegeven heeft dat zij lang niet altijd goed oplet bij de lessen; dat zij haar aandacht niet goed bij haar werk kan houden en dat zij ook lang niet altijd haar mond kan houden tijdens de les. Omdat de schaalscores van Samira voor de overige dimensies niet in het risico- of aandachtsgebied vallen, bevat het leerlingrapport over die dimensies geen extra informatie. De twee voorbeelden maken duidelijk welke gegevens de leerkrachtlijst en de leerlinglijst opleveren. Door het één of twee keer per jaar (laten) invullen van de leerkracht- en leerlinglijst is het sociaalemotioneel functioneren van een leerling over de tijd te volgen. Dit maakt het mogelijk om tijdig in te grijpen bij een ongewenste ontwikkeling. Bovendien stelt het leerkrachten in staat om te bepalen of er sprake is van een zekere consistentie in het gedrag van een leerling op het sociale en affectieve vlak. Tot slot kan een leerkracht aan de hand van deze gegevens het effect bepalen van mogelijke interventies, of het sociaal-emotioneel functioneren van een leerling afzetten tegen zijn of haar prestaties op de diverse leergebieden. 12

13 3 De constructie van de instrumenten 3.1 De proefafnames In het schooljaar 2000/2001 is gestart met een landelijke steekproef. Uit de database waarin alle basisscholen van Nederland zijn opgenomen, is een aselecte steekproef van 1600 scholen voor regulier onderwijs getrokken. Ook zijn alle speciale scholen basisonderwijs aangeschreven om te komen tot een representatief deel sbo-leerlingen. Beide steekproeven zijn aangeschreven met het verzoek om aan het longitudinale onderzoek deel te nemen. De proefafnames zijn uitgevoerd van 31 oktober tot en met 30 november 2001, periode 1, en van 27 februari tot en met 29 maart 2002, periode 2. Alle afnames zijn digitaal uitgevoerd. Tabel 3.1 Overzicht regulier basisonderwijs Groep 3 Groep 4 Groep 5 Groep 6 Groep 7 Groep leerlingen 400 leerlingen 400 leerlingen 400 leerlingen 400 leerlingen 400 leerlingen 40 groepen 40 groepen 40 groepen 40 groepen 40 groepen 40 groepen Het aanbod van scholen was groot. 300 Scholen zijn in de steekproef opgenomen. 20 Scholen zijn afgeschreven. Criteria van afschrijving was aantal leerlingen, regionale spreiding, of ICT-infrastructuur van de betreffende school. De provincie Noord-Brabant blijkt oververtegenwoordigd. Bij de afgeschreven scholen kwamen eveneens de meeste scholen uit Noord-Brabant. Tabel 3.2 Verdeling van de steekproef en de populatie over Nederland bij de start van het normeringsonderzoek in het schooljaar 2000/2001, scholen basisonderwijs Regio Aantal scholen A Drenthe 12 B Flevoland 8 C Friesland 15 D Gelderland 49 E Groningen 12 F Limburg 17 G Noord-Brabant 65 H Noord-Holland 24 I Overijssel 21 J Utrecht 17 K Zeeland 11 L Zuid-Holland 49 Totaal 300 Er waren 88 sbo-scholen, toen nog 40 LOM- en 40 MLK-scholen uitgenodigd om deel te nemen. 59 Scholen hebben deelgenomen met 2350 leerlingen. Uit iedere groep werden de namen van 10 leerlingen op basis van toeval geselecteerd. Zo beperkten we de werkzaamheden voor de deelnemende leerkrachten. Een leerkracht hoefde zo immers niet alle leerlingen uit de groep te beoordelen. Bovendien verhoogt de beperking tot 10 leerlingen per groep de representativiteit van de bij de instrumenten te ontwikkelen normgegevens. Het probleem van de intraklassecorrelatie wordt op deze wijze enigszins vermeden. 13

14 Tabel 3.3 Overzicht verdeling sbo-deelnemers met reden van aanmelding op het sbo Gedragsproblemen Leerproblemen Combinatie Missing 116 leerlingen 988 leerlingen 1278 leerlingen 31 leerlingen Uit tabel 3.3 is te lezen dat in het betreffende schooljaar een groot gedeelte leerlingen alleen met leerproblemen in het sbo opgenomen zijn, maar dat leerlingen met gedragsproblemen vaak ook met leerproblemen te maken hebben. De betreffende leerkrachten hebben we het prototype van VISEON toegezonden met uitgebreide instructies ten aanzien van de installatie van het programma en de te volgen procedure bij het invullen van het instrument voor de geselecteerde leerlingen. Betrof het leerlingen uit de groepen 5 tot en met 8, dan dienden deze leerlingen het prototype van de leerlinglijst in te vullen. De leerkrachten kregen ook diskettes toegezonden om de resultaten aan ons te retourneren. Scholen bepaalden zelf wánneer de leerkrachten en de leerlingen de lijsten invulden zolang dat maar binnen de gestelde afnameperiode plaatsvond. Scholen bepaalden zelf met welke en met hoeveel groepen zij aan het onderzoek wilden deelnemen. Zij schreven zich in voor twee onderzoeksperioden: 5 november - 30 november 2001 en 4 maart - 29 maart In de eerste onderzoeksperiode (5-30 november 2001) vulde de groepsleerkracht voor 10 random geselecteerde leerlingen uit zijn of haar groep op de computer de leerkrachtlijst in. Waren dit leerlingen uit groep 5 tot en met 8, dan vulden deze zelfde 10 leerlingen de leerlinglijst in op de computer. In de tweede onderzoeksperiode (4-29 maart 2002) vulden dezelfde groepsleerkrachten wederom een vragenlijst in over dezelfde 10 leerlingen. Waren dit leerlingen uit groep 5 tot en met 8, dan dienden deze leerlingen ook de leerlinglijst opnieuw in te vullen. In de derde onderzoeksperiode (1-26 april 2002) zijn 10 duobaners bevraagd. Om onderzoek te kunnen doen naar intra- en interbeoordelaarsbetrouwbaarheid werd aan duobaanleerkrachten gevraagd om in de tweede onderzoeksperiode beiden deel te nemen en de leerkrachtlijst in te vullen. Als er sprake is van een duobaanconstructie in een deelnemende groep, dan werd de tweede leerkracht van de betreffende groep in deze onderzoeksperiode gevraagd om ook een vragenlijst in te vullen over dezelfde 10 leerlingen. Drie weken later (1-26 april 2002) werd beide leerkrachten verzocht vervolgens de vragenlijst over de 10 leerlingen nogmaals in te vullen. Het bij het onderzoek betrekken van een tweede groepsleerkracht en het doen van een 'herhaalde meting' maakte het voor ons mogelijk om de kwaliteit (betrouwbaarheid) van de vragenlijst te bepalen. Iedere deelnemende leerkracht ontving na beëindiging van het onderzoek een boekenbon van f 25,-. De leerkrachten die naast de twee reguliere onderzoeksperiodes ook deelnamen aan het onderzoek naar beoordelaarsbetrouwbaarheid, ontvingen een boekenbon van f 40,-. Aan de proefafnames voor het basisonderwijs (BAO) en speciale scholen voor basisonderwijs (SBO) nam een groot aantal scholen deel. Tabel 3.4 geeft hiervan per afnamemoment een overzicht. Tabel 3.4 Aantal deelnemende scholen per afnamemoment November 2001 Maart 2002 BAO SBO Tabel 3.5 geeft per afnamemoment een overzicht van het aantal deelnemende leerlingen naar klastype. Voor het basisonderwijs betreft dit groep 3 tot en met 8, binnen de speciale scholen voor basisonderwijs zijn de leerlingen voor het onderzoek ingedeeld in schoolverlaters (SV) en leerlingen van overige groepen (OV). 14

15 Binnen deze laatste groep hebben we de leerlingen verder onderverdeeld in leeftijdscategorieën (7-jarigen, 8-jarigen enz.). Deze uitsplitsing is in tabel 3.3 echter niet opgenomen. Tabel 3.5 Aantal deelnemende leerlingen per klastype BAO SBO November 2001 Maart 2002 Groep Groep Groep Groep Groep Groep OV SV Tijdens de proefafnames werd achter het beeldscherm door de leerkrachten van de deelnemende groepen voor 10 aselect gekozen leerlingen het prototype van de leerkrachtlijst ingevuld. Dit prototype bevatte 60 uitspraken verdeeld over de eerder beschreven vier dimensies: zorgvuldige werkhouding onzorgvuldige werkhouding, aangenaam gedrag - storend gedrag, emotionele stabiliteit - emotionele instabiliteit en sociaal gedrag - teruggetrokken gedrag. Indien de beoordeelde leerlingen in groep 5 tot en met 8 (BAO) zaten of deel uitmaakten van de schoolverlatersgroep (SBO), vulden de leerlingen de leerlinglijst in. 3.2 Meetmodel en analyseprocedure Het gehanteerde meetmodel Omwille van de eenvoud hebben we onderstaande uiteenzetting van het OPLM beperkt tot dichotoom gescoorde items. Het OPLM kent ook een uitbreiding naar polytoom gescoorde items. Voor VISEON gebruiken we juist dit polytome model. In het tweede deel van deze paragraaf zullen we dit verder bespreken. In het normeringsonderzoek is gebruik gemaakt van een op de itemresponstheorie (IRT) gebaseerd meetmodel. Dergelijke modellen verschillen in een aantal opzichten nogal sterk van de klassieke testtheorie (Verhelst, 1993; Glas & Verhelst, 1993). Bij de klassieke testtheorie staan de toets en de toetsscore centraal. Het theoretisch belangrijkste begrip in deze theorie is de zogenaamde ware score, de gemiddelde score die de persoon zou behalen indien de test een oneindig aantal keren onder dezelfde condities zou worden afgenomen. Die notie geeft een van de belangrijkste (praktische) obstakels van deze theorie voor ons onderzoek weer: het is problematisch om toetsscores te vergelijken die verkregen zijn in een onvolledig design. Hoewel er methoden bestaan binnen de klassieke testtheorie om toetsscores te equivaleren (Engelen & Eggen, 1993), schiet deze benadering te kort als het gaat om de centrale vraag: hoe weten we dat de equivalering zinvol is? Op die vraag heeft de IRT een antwoord. In de IRT staat het te meten begrip of de te meten eigenschap centraal. De IRT beschouwt het antwoord op een item als een indicator voor de mate waarin die eigenschap aanwezig is. Het verband tussen eigenschap en itemantwoord is van probabilistische aard en wordt weergegeven in de zogenaamde itemresponsfunctie. Die geeft aan hoe groot de kans is op een correct antwoord als functie van de onderliggende eigenschap of vaardigheid. Formeler: zij X i de toevalsvariabele die het antwoord op item i voorstelt. X i neemt de waarde 1 aan in geval van een correct antwoord en 0 in geval van een fout antwoord. Als symbool voor de vaardigheid kiezen we θ. We wijzen erop dat θ niet rechtstreeks observeerbaar is. Dat zijn alleen de antwoorden op de opgaven. Dat is de reden waarom θ een 'latente' variabele wordt genoemd. De itemresponsfunctie f i (θ) is gedefinieerd als een conditionele kans: 15

16 f ( θ )= P ( X i = 1 θ ) (3.1) i Een IRT-model is een speciale toepassing van (3.1) waarbij aan de functie f i (θ) een meer of minder specifieke functionele vorm wordt toegekend. Een eenvoudig en zeer populair voorbeeld is het zogenaamde Raschmodel (Rasch, 1960) waarin f i (θ) gegeven is door exp ( θ - β i ) f i( θ )= 1 + exp ( θ - β ) i (3.2) waarin β i de moeilijkheidsparameter van item i is. Dat is een onbekende grootheid die geschat wordt uit de observaties. De grafiek van (3.2) is weergegeven in figuur 3.1 voor twee items, i en j, die in moeilijkheid verschillen. Deze figuur illustreert dat de itemresponsfunctie een stijgende functie is van θ: hoe groter de vaardigheid, des te groter de kans op een juist antwoord. Indien de latente vaardigheid precies gelijk is aan de moeilijkheidsparameter β i, krijgen we exp ( β i - β i ) 1 f i( β i )= = 1 + exp ( β - β ) 1 + i i 1 = 1 2 (3.3) Daaruit volgt onmiddellijk een interpretatie voor de parameter β i : het is de 'hoeveelheid' vaardigheid die nodig is voor de kans van precies een half om het item i juist te beantwoorden. Uit de figuur blijkt duidelijk dat voor item j een grotere vaardigheid nodig is om diezelfde kans te bereiken, maar dit is hetzelfde als te zeggen dat item j moeilijker is dan item i. We kunnen de parameter β i dus terecht omschrijven als de moeilijkheidsparameter van item i. De implicatie van het bovenstaande is dat 'moeilijkheid' en 'vaardigheid' op dezelfde schaal liggen. Figuur 3.1 Twee itemresponscurven in het Raschmodel Formule (3.2) is geen beschrijving van de werkelijkheid, het is een hypothese over de werkelijkheid die getoetst kan worden op haar houdbaarheid. Hoe zo'n toetsing grofweg verloopt, maken we duidelijk aan de hand van figuur 3.1. Daaruit blijkt dat, voor welk vaardigheidsniveau dan ook, de kans om item j juist te beantwoorden steeds kleiner is dan de kans op een juist antwoord op item i. Daaruit volgt de statistisch te toetsen voorspelling dat de verwachte proportie juiste antwoorden op item j kleiner is dan op item i in een willekeurige steekproef van personen. Splitst men nu een grote steekproef in twee deelsteekproeven, een 'laaggroep', met de vijftig procent laagste scores, en een 'hooggroep', met de vijftig procent hoogste scores, dan kan men nagaan of de geobserveerde p- waarden van de opgaven in beide deelsteekproeven op dezelfde wijze geordend zijn. Daarvan kan strikt genomen alleen sprake zijn als, in termen van de klassieke testtheorie uitgedrukt, alle opgaven eenzelfde discriminatie-index hebben. Dat echter blijkt lang niet altijd zo te zijn. Ook in ons geval niet. Vele van onze items blijken dan ook niet beschreven te kunnen worden met het Raschmodel. We zijn daarom op zoek gegaan naar een ander model. 16

17 Voordat we het door ons gebruikte model introduceren, moeten we eerst een opmerking maken over het schatten van de moeilijkheidsparameters in het Raschmodel. Hoewel de literatuur verschillende schattingsmethoden beschrijft, zijn er twee die tegenwoordig veel worden gebruikt. De eerste, die wordt aangeduid als de 'marginale grootste aannemelijkheidsmethode' (in het Engels: Marginal maximum likelihood, verder afgekort als MML), veronderstelt naast (3.2) ook nog dat de vaardigheid θ in de populatie een bepaalde verdeling heeft. De meeste computerprogramma's die IRT-analyses kunnen uitvoeren, veronderstellen een normale verdeling. Bovendien stelt deze methode de voorwaarde dat de steekproef die voor de schatting gebruikt wordt uit die verdeling een aselecte steekproef is. Is aan deze dubbele veronderstelling (normaliteit en aselecte steekproef) niet voldaan, dan is het model verkeerd gespecificeerd. Dit heeft tot gevolg dat er systematische fouten kunnen optreden in de schattingen van de itemparameters. In ons design is aan de eis van aselectie zeker niet voldaan. Om die reden hebben we dan ook afgezien van de MML-schattingsmethode. De tweede vaak toegepaste schattingsmethode is de 'conditionele grootste aannemelijkheidsmethode' (in het Engels: Conditional maximum likelihood, verder aangeduid als CML). Die maakt gebruik van het feit dat in het Raschmodel een afdoende steekproefgrootheid ('sufficient statistic') bestaat voor de latente variabele θ, namelijk de ruwe score of het aantal correct beantwoorde items. Dat betekent grofweg dat, indien de itemparameters bekend zijn, alle informatie die het antwoordpatroon over de vaardigheid bevat, kan worden samengevat in de ruwe score; het doet er dan verder niet meer toe welke opgaven goed en welke fout zijn gemaakt. Hieruit vloeit voort dat de conditionele kans op een juist antwoord op item i, gegeven de ruwe score, een functie is die alleen afhankelijk is van de itemparameters en onafhankelijk van de waarde van θ 1. De CML-schattingsmethode maakt van deze functie gebruik. Het belangrijkste voordeel van deze methode is dat ze geen enkele veronderstelling maakt over de verdeling van de vaardigheid in de populatie, en dat het er niet toe doet hoe de steekproef is getrokken. Zelfs als dezelfde leerling verschillende keren aan het onderzoek deelneemt vormt dit geen enkel bezwaar (Verhelst & Kleintjes, 1993). De CML-schattingsmethode is echter niet bij elk meetmodel toepasbaar. Verhelst en Eggen (1993) stellen een meetmodel voor, het zogenaamde éénparameter logistisch model (One Parameter Logistic Model, afgekort: OPLM), waarin CML mogelijk is en dat, anders dan het Raschmodel, wel bestand is tegen 'omwisseling' van 'proporties juist' in verschillende steekproeven. De itemresponsfunctie van het OPLM is gegeven door exp [ ai ( θ - β i ) ] f i( θ )= 1 + exp [ ai ( θ - β )] i, (3.4) waarin a i de zogenaamde discriminatie-index van het item is. Door deze indices te beperken tot (positieve) gehele getallen, en door ze a-priori als constanten in te voeren, is het mogelijk CMLschattingen van de itemparameters β i te maken (Verhelst & Eggen, 1989). In figuur 3.2 is de itemresponscurve weergegeven van twee items i en j, die even moeilijk zijn maar verschillend discrimineren. De schattingen worden berekend met het computerprogramma OPLM (Verhelst, Glas & Verstralen, 1994). Dit programma voert eveneens statistische toetsen uit op grond waarvan kan worden bepaald of het model de gegevens adequaat beschrijft. Omdat een aantal van deze toetsen bijzonder gevoelig is voor een verkeerde specificatie van de discriminatie-indices, zijn de uitkomsten van deze toetsen bruikbaar als modificatie-indices: ze geven een aanwijzing in welke richting die discriminatieindices moeten worden aangepast om een betere overeenkomst tussen model en gegevens te verkrijgen. Kalibratie van items volgens het OPLM is dan ook een iteratief proces waarin alternerend de modelfit van items wordt onderzocht middels statistische toetsing en de waarden van de discriminatie-indices worden aangepast op grond van de resultaten van deze toetsen. Deze aanpassingen geschieden in de praktijk op basis van een en hetzelfde gegevensbestand. Er kan dus kanskapitalisatie optreden. Indien een steekproef een voldoende grootte heeft, is het effect van deze kanskapitalisatie echter gering (Verhelst, Verstralen en Eggen, 1991). 1 Een gedetailleerde uiteenzetting hierover kan men vinden in Verhelst,

18 Figuur 3.2 Twee itemresponscurven in het OPLM: zelfde moeilijkheid, verschillende discriminatie Zoals in het begin van deze paragraaf aangegeven maken we van het OPLM met polytoom gescoorde items gebruik in dit onderzoek. De principes en eigenschappen onder deze generalisatie van het model zijn analoog aan het OPLM met dichotome items. Het polytome model zullen we summier bespreken, de uiteenzetting is ontleend aan Verhelst (1992). Bij een dichotoom item worden twee antwoordcategorieën onderscheiden: 0 en 1. Deze categorieën worden als geordende categorieën geïnterpreteerd: een juist antwoord (1) wijst op een hogere vaardigheid dan een verkeerd antwoord (0). Bij polytome items neemt men aan dat de score op item i, m i + 1 verschillende waarden kan aannemen (0,1,, m i ), waarbij een hogere itemscore wijst op een grotere vaardigheid dan een lagere itemscore. De itemresponsfunctie bij dichotome items is de kans dat het item juist wordt beantwoord; deze functie is een monotoon stijgende functie van θ. Deze functie beschrijft de kans dat X i = 1; strikt genomen kunnen we zeggen dat de itemresponsfunctie bij een dichotoom item de categorieresponsfuntie van categorie 1 is. We hadden natuurlijk evengoed de categorieresponsfunctie van 0 kunnen kiezen als itemresponsfunctie. Omdat P ( X i = 0 θ )= 1 P ( X i = 1 θ ) kunnen we volstaan met één van beide functies; de andere ligt automatisch vast. In het polytome geval is een item gekenmerkt door m i + 1 item responsfuncties; m i is de maximum score die op het item kan behaald worden. Omdat in het polytome geval de probabiliteiten ook optellen tot 1, kunnen we volstaan met m i responsfuncties. Het polytome model is gegeven door P(X i = j )= 1 + exp [ ai (jθ - m i g = 1 exp [ a (hθ - i h= 1 g = 1 j β ig h )] θ, (j=1,, m i ), (3.5) β ig )] en door het feit dat de probabiliteiten optellen tot 1, volgt noodzakelijkerwijs dat P(X i = 0 )= 1 + m i 1 θ. (3.6) exp [ a (hθ - i h= 1 g = 1 h β ig )] De grootheid a i is als vanouds de discriminatie-index van item i. Als we m i gelijkstellen aan 1 zien we dat formule (3.5) formeel gelijk is aan formule (3.4) met β i = β i1 ; formule (3.5) is dus ook geldig voor het dichotome geval, met dien verstande dat wat we in het dichotome geval de 'moeilijkheidsparameter' van het item genoemd hebben, nu iets algemener de categorieparameter van categorie 1 van item i genoemd wordt (de eerste index van β verwijst naar het item, de tweede naar de 18

19 categorie). De interpretatie van de categorieparameters is het duidelijkst aan de hand van de grafiek van (3.5). In figuur 3.3 zijn drie functies afgebeeld voor item i met m i =2, a i =1, β i1 =-0.5 en β i2 =+0.5. β i1 is het punt op de θ-as waar de curven voor de categorieën 0 en 1 elkaar snijden: voor die waarde van θ zijn de kansen op een 0- en 1-antwoord even groot; voor β i2 geldt analoog dat de kansen op een 1- en een 2-antwoord even groot zijn. In het algemeen geldt: β ij is de waarde van θ waarvoor de kan op categorie j en j-1 even groot zijn. Figuur 3.3 Categorieresponsfuncties met mi =2, ai =1, βi1=-0.5 en βi2=+0.5 Analyseprocedure Van het OPLM met polytoom gescoorde items maken we gebruik in dit onderzoek. De items bestaan uit de uitspraken van de leerling- en leerkrachtlijst, de itemantwoorden zijn de door de leerkrachten en leerlingen toegekende oordelen. Bij de uitspraken onderscheiden we vier antwoordcategorieën: 1, 2, 3 en 4. De antwoordcategorieën van de negatief geformuleerde items keren we om zodat alle items in dezelfde richting wijzen. Aangezien het OPLM met vaste antwoordcategorieën werkt, hercoderen we de antwoordcategorieën in het gewenste formaat: 0, 1, 2 en 3. In OPLM dienen we de discriminatie-indices van de items in te stellen. In het polytome geval is dit niet anders. Een complicatie in het polytome model is dat de verhouding tussen de antwoordcategorieën niet goed is of behouden blijft na weging. Binnen OPLM kunnen we de waarden die de antwoordcategorieën kunnen aannemen voor de afzonderlijke items niet separaat instellen. Er rest ons dan alleen het samennemen van bijvoorbeeld twee antwoordcategorieën via hercodering van de data. Het OPLM hulpprogramma OPCAT (Verstralen, 1996) kan informatie verschaffen over deze zaken. OPCAT doet suggesties welke antwoordcategorieën samengevoegd kunnen worden en geeft bovendien suggesties voor de waarden van de discriminatie-indices. Aan de hand van een concreet voorbeeld kunnen we dit illustreren. Hieronder is dit verder uitgewerkt voor de dimensie zorgvuldige versus onzorgvuldige werkhouding op de leerkrachtlijst. Deze dimensie bevat 11 items. Voor alle items geldt dat de antwoordalternatieven 3 en 4 'probleemgedrag' aanduiden: 19

20 De vierde kolom bevat de gewichten toegekend aan de afzonderlijke items, de discriminatie-indices. Zo zien we dat item 1 en item 2 respectievelijk de gewichten 2 en 3 krijgen. Bij alle items, met uitzondering van item 2, zijn de vier oorspronkelijke antwoordcategorieën omgezet in het OPLMformaat: 0, 1, 2 en 3. De antwoordalternatieven 3 en 4 zijn voor item 2, beide gehercodeerd naar 2, De veronderstelde ordening van de alternatieven 3 en 4 bij item 2 wordt blijkbaar niet gehanteerd door de leerkrachten in de beoordeling. In de laatste vier kolommen staat voor elk item de uiteindelijke bijdrage van een antwoordalternatief aan de gewogen score. De eerder op inhoudelijke en theoretische gronden onderscheiden dimensies van de leerkrachtlijst en leerlinglijst vormen het startpunt voor de afzonderlijke analyses in OPLM. Voordat we voor de afzonderlijke dimensies de kalibratieprocedures starten wordt er standaard een soort voorwas uitgevoerd. Verschillende ad hoc procedures, zoals factoranalyse, homogeniteitsanalyse en klassieke testtheorie, worden toegepast op de verzamelde data van de onderhavige schaal, om een eerste indruk te krijgen over de dimensionaliteit van de data en om mogelijke fouten in de dataverzameling op te sporen. Is het resultaat van deze controles bevredigend dan start de kalibratie. Met kalibratie wordt bedoeld dat we kengetallen zoeken bij de items die de antwoorden op de uitspraken van de leerkrachten en leerlingen goed representeren. Hoe de kengetallen gezocht worden ligt deels vast door het gekozen model en hoe succesvol deze operatie is kan statistisch getoetst worden. Simplistisch gezegd, schatten we in OPLM met de CML-methode de itemparameters en controleren we of deze de data goed voorspellen. Voor een exacte beschrijving van de statistische toetsen die in OPLM gebruikt worden, hun eigenschappen en feitelijke implementatie in OPLM verwijzen we naar Verhelst(1993). Hier beperken we ons tot een korte beschrijving van de principes van de statistische toetsen die gebruikt zijn in de kalibratieprocedure. De statistische toetsen in OPLM hebben goede statistische en asymptotische eigenschappen daar OPLM behoort tot de exponentiele familie, met de gewogen somscore, k s = a i x i i= 1, als een afdoende statistiek voor de vaardigheid θ. Dit betekent dat alle informatie in de data met betrekking tot de vaardigheid in deze afdoende statistiek aanwezig is. Hiervan wordt gebruik gemaakt bij de statistische toetsen in OPLM. Het basisprincipe van de statistische toetsen in OPLM is dat op grond van de afdoende statistiek s de personen in de data kunnen worden gegroepeerd. En binnen deze groepen kan de verwachte proportie goede antwoorden op een item onder het model, p ( + s), vergeleken worden met de feitelijke geobserveerde proportie goede antwoorden, prop ( + s). In het polytome geval worden de items gedichotomiseerd, de proportie goede antwoorden verwijst dan naar de hoge itemscore (zie Verhelst, 1993, hoofdstuk 7). Via de basis vergelijking van OPLM kunnen we eenvoudig de conditionele kans op het goed beantwoorden van de items afleiden en daarmee kunnen we p ( + s) evalueren, ( s) eenvoudig te zien dat de discrepanties tussen p ( + s) en prop ( + s) duiden op schendingen van het model. Deze discrepanties vormen de basis voor de diverse statistische toetsen in OPLM. De toetsingsgrootheid voor de veronderstelde discriminatie-indices is gegeven door M = f s H ( p( + s) prop( + s)) + f s L ( prop( + s) p( + s)). prop + volgt uit de data. Het is Deze zogenaamde M-toetsen verdelen de scoregroepen in een laag deel ( L ) en een hoog deel ( H ) en f is een monotone functie. Deze M-toetsen hebben een duidelijke interpretatie: is M significant positief dan is de veronderstelde steilheid van de ICC (item krakteristieke curve) overschat in het model, is M daarentegen erg laag dan is de index te klein. Verhelst laat zien voor welke functie, f, M N(0,1). In OPLM zijn drie verschillende M-toetsen geïmplementeerd die verschillen in de definitie van de hoge en lage scoregroepen. Naast deze M-toetsen is er een algemene itemtoets die de volgende vorm heeft S f ( p( + s) prop( + s)) =. Deze zogenaamde S-toets heeft een 2 χ verdeling onder het model. Analoog hieraan is er ook een toets om vormen van vraag onzuiverheid (in het Engels item bias of differential item functioning, afgekort DIF) op te sporen 20