INHOUD. Woord vooraf. P.F. Sanders en T.J.H.M. Eggen 1 Inleiding 1. N.H. Veldhuijzen en F.G.M. Kleintjes 2 Dataverzameling 17

Vergelijkbare documenten
Officiële uitgave van het Koninkrijk der Nederlanden sinds 1814.

Toelichting Ankeronderzoek met Ankersets. Ankeronderzoek. Beschrijving ankeronderzoek

1. Gegeven zijn de itemsores van 8 personen op een test van 3 items

Officiële uitgave van het Koninkrijk der Nederlanden sinds 1814.

Toelichting Ankeronderzoek met Referentiesets. Ankeronderzoek. Beschrijving ankeronderzoek. Saskia Wools & Anton Béguin, Cito 2014

Officiële uitgave van het Koninkrijk der Nederlanden sinds 1814.

Normering met een vaardigheidsschaal bij de centrale examens Nederlandse taal en rekenen in het mbo en de Rekentoets VO (RVO)

Samenvatting (in Dutch)

Adaptief Toetsen. een oude oplossing voor nieuwe problemen. Theo Eggen

Aanvulling bij de wetenschappelijke verantwoording papieren toetsen Begrijpend lezen voor groep 7 en 8: Digitale toetsen

Wetenschappelijke verantwoording Entreetoets groep 7 Herman van Boxtel, Ronald Engelen, Servaas Frissen en Marleen van Benthem

Klassieke testtheorie en generaliseerbaarheidstheorie

Wetenschappelijke verantwoording toetsen Spelling voor speciale leerlingen Functioneringsniveaus groep 3 tot en met 5

Een overzicht van itemresponsmodellen

Methode en onderzoeksgroep

Wetenschappelijke verantwoording Begrijpend lezen voor speciale leerlingen Functioneringsniveaus groep 6 tot en met 8 Marieke Tomesen en Anke Weekers

De koppeling van de Cito kijk- en luistertoetsen moderne vreemde talen aan het Europees Referentiekader

9.1 Definitie van onzuiverheid

Wetenschappelijke verantwoording van de toetsen LOVS Rekenen-Wiskunde voor groep 3 tot en met 8. J. Janssen, N. Verhelst, R. Engelen en F.

Toepassingen van itemresponstheorie

Schalen, normen en cijfers

Itemresponstheorie. σ 2 X. σ 2 T

Wetenschappelijke verantwoording Woordenschat groep 7 en 8 Saskia van Berkel, Maartje Hilte, Inge Groenen, Ronald Engelen

2.1 Van waarnemingen tot data

Nationaal Onderzoeksinstituut voor Arbeidsomstandigheden

8.1 Overzicht equivaleren

Normering met een vaardigheidsschaal, zoals bij Rekentoets VO en COE

Wetenschappelijke verantwoording papieren toetsen Begrijpend lezen voor groep 7 en 8. Anke Weekers, Inge Groenen, Frans Kleintjes en Hiske Feenstra

Wetenschappelijke verantwoording Woordenschat Groep 5 t/m 7

Wetenschappelijke verantwoording Spelling voor groep 3 tot en met 6

Cito Volgsysteem primair en speciaal onderwijs

Wetenschappelijke verantwoording van de digitale toetsen Rekenen voor kleuters

Toets- en itemanalyse in TestVision

Inleiding. 1.1 Testindelingen

Item-responstheorie (IRT)

Vragen oefententamen Psychometrie

BLUEPRINT VOOR PSYCHOMETRISCHE VERANTWOORDING NORMERING TOETSADVIEZEN EN IJKING OP DE REFERENTIENIVEAUS Mei 2017

Wetenschappelijke verantwoording Begrijpend lezen voor groep 3 tot en met 6

Wetenschappelijke verantwoording van de toetsen Rekenen-Wiskunde voor speciale leerlingen Functioneringsniveaus groep 6 tot en met 8

Wetenschappelijke verantwoording toets Begripend lêzen Frysk voor groep 8

Wetenschappelijke verantwoording Begrijpend luisteren groep 3

TOETSEN EN TOETSVRAGEN ANALYSEREN. E-merge Digitaal toetsen 2 november 2016

Wetenschappelijke verantwoording Rekenen-Wiskunde 3.0 voor groep 5

Wetenschappelijke verantwoording Rekenen-Wiskunde 3.0 voor groep 4

3 De betrouwbaarheid van toetsscores. 3 De betrouwbaarheid van toetsscores

Cito Volgsysteem jonge kind. Wetenschappelijke verantwoording van de toets Rekenen voor peuters. Marieke op den Kamp en Jos Keuning

Marieke Tomesen, Jasper Wouda en Linda Horsels

Officiële uitgave van het Koninkrijk der Nederlanden sinds 1814.

Wetenschappelijke verantwoording Rekenen-Wiskunde 3.0 voor groep 7. Michel Hop, Jan Janssen en Ronald Engelen

Analyse van Vragenlijsten met behulp van Item Respons Theorie

Apotheken door Cliënten Bekeken : schaalanalyses en profielscores 2009

Beoordelingskader voor (reeksen van) toetsen uit leerlingvolgsystemen (LOVS).

9 Het beoordelen van toetsscores. 9 Het beoordelen van toetsscores

Toetsing en toetsanalyse

1. Uitgangspunten van de toetsconstructie

VISEON: VolgInstrument voor Sociaal-Emotionele Ontwikkeling

1. Uitgangspunten van de toetsconstructie

Psychologische diagnostiek : Proces, Betrouwbaarheid, validiteit (h 5 en 6)

1. Uitgangspunten van de toetsconstructie

Toelichting bij het lezen en interpreteren van toetsen itemanalyses voor gesloten en/of open vragen

Taal peilingen door de jaren heen

Aantekeningenbundel te gebruiken bij het onderdeel testtheorie van Grondslagen psychologische diagnostiek en testtheorie.

PSYCHOMETRIE FEEDBACKBUNDEL ACADEMIEJAAR

Over het gebruik van continue normering Timo Bechger Bas Hemker Gunter Maris

1. Uitgangspunten van de toetsconstructie

Officiële uitgave van het Koninkrijk der Nederlanden sinds 1814.

Hoofdstuk 5 Een populatie: parametrische toetsen

1. Uitgangspunten van de toetsconstructie

3 Werkwijze Voordat een CQI meetinstrument mag worden ingezet voor reguliere metingen moet het meetinstrument in twee fases getest worden.

Data analyse Inleiding statistiek

9. Lineaire Regressie en Correlatie

Wetenschappelijke verantwoording Screeningsinstrument Beginnende geletterdheid voor groep 2 en 3

Resultaten en effecten van de WISCAT-pabo

Effecten van de vernieuwde onderbouw op de prestaties van leerlingen in leerjaar 3 van het voortgezet onderwijs

Een Europees Referentiekader voor talenexamens. Een utopie?

Bijlage 4 Test- en toetsfiches

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

Margit van Aalst (CvTE) Iris Verbruggen (Cito) Overzicht presentatie. verantwoordelijkheden van het cvte

TOETSONTWIKKELING. in de praktijk HOE MAAK IK GOEDE VRAGEN EN TOETSEN?

Verantwoording Verslag van het kalibratie-, validerings- en normeringsonderzoek

Cito Primair onderwijs. Wetenschappelijke verantwoording van de Eindtoets Basisonderwijs Herman van Boxtel, Ronald Engelen, Anja de Wijs

Anke Jolink, Marieke Tomesen, Maartje Hilte, Anke Weekers en Ron Engelen

1. Uitgangspunten van de toetsconstructie

Programma. Schaalconstructie. IRT: moeilijkheidsparameter. Intro: Het model achter het LOVS Mogelijkheden die het model biedt voor interpretatie

De SVT s en de vaardigheidsscore

De Centrale Eindtoets anno nu en in de toekomst. Margit van Aalst (CvTE) Iris Verbruggen (Stichting Cito)

Met testscores bepalen we de kwaliteit van bepaalde items. De eisen voor kwaliteit zijn van groot belang voor psychologische testen.

Het meten van veranderingen

1. Uitgangspunten van de toetsconstructie

Testtheorie. Inleiding in de theorie van de psychologische test en zijn toepassingen. prof. dr. P.J.D. Drenth prof. dr. K. Sijtsma

Het samenstellen van toetsen

Statistiek voor A.I.

Onderwerp Vooronderzoek en vrije afnames van diagnostische toetsen taal en rekenen Resultaten mbo. Kenmerk. Datum november 2009

Beoordeling TNO-rapport Onderzoek naar de kwaliteit van het inburgeringsexamen buitenland (TNO-DV 2007 C053) Dr. P.F. Sanders

Kwantitatieve modellen. Harry B.G. Ganzeboom 18 april 2016 College 1: Meetkwaliteit

Psychometrie werkgroep: De antwoorden

Meten: algemene beginselen. Harry B.G. Ganzeboom ADEK UvS College 1 28 februari 2011

Wetenschappelijke verantwoording van de toetsen Taal voor kleuters voor groep 1 en 2 uit het Cito Volgsysteem primair onderwijs

Onderbouwing. AMN Eindtoets: adaptief met terugbladerfunctie. Hoe zit dat?

De rekenvaardigheid van de Nederlandse verpleegkundige

Transcriptie:

INHOUD Woord vooraf P.F. Sanders en T.J.H.M. Eggen 1 Inleiding 1 1.1 Testindelingen 1 1.2 Toetsconstructie 3 1.3 Het valideren van meetinstrumenten 9 1.4 Psychometrie in de praktijk 12 N.H. Veldhuijzen en F.G.M. Kleintjes 2 Dataverzameling 17 2.1 Van waarnemingen tot data 18 2.2 Schaalniveaus 18 2.3 Meten per fiat 21 2.4 Procedures voor dataverzameling 21 2.5 Betrouwbaarheid en validiteit 22 2.6 Steekproeven 24 2.2.1 Representativiteit van steekproeven 25 2.6.2 Nauwkeurigheid 25 2.6.3 Aselecte steekproeven 26 2.6.4 Gestratificeerde steekproeven 27 2.6.5 Getrapte steekproeven 27 2.6.6 Intraklassecorrelatie 28 2.7 Proefopzetten 30 2.8 Stimuli 31 2.9 Meetmodellen 31 N.H. Veldhuijzen, P. Goldebeld en P.F. Sanders

3 Klassieke testtheorie en generaliseerbaarheidstheorie 33 3.1 Ware score 34 3.2 De centrale formule van de klassieke testtheorie 35 3.3 Betrouwbaarheid 36 3.4 Standaardmeetfout 37 3.5 Schattingen van de ware score 38 3.6 Het schatten van de betrouwbaarheid en de standaardmeetfout 40 3.6.1 Parallelle metingen 40 3.6.2 Test-hertestmethode 42 3.6.3 Toetsverlenging 42 3.6.4 Coëfficiënt alpha 44 3.7 Toets- en itemanalyse 46 3.7.1 Toets- en itemindices bij toetsen met meerkeuzevragen 46 3.7.2 Itemindices bij toetsen met meerkeuzevragen 47 3.7.3 Toetsindices bij toetsen met meerkeuzevragen 51 3.7.4 Toets- en itemindices bij toetsen met open vragen 52 3.7.5 Itemindices bij toetsen met open vragen 53 3.7.6 Toetsindices bij toetsen met open vragen 54 3.8 Betrouwbaarheid en standaardmeetfout 54 3.8.1 Coëfficiënt alpha en de KR-20 54 3.8.2 Verschilscores 55 3.9 Nauwkeurigheid van toets- en itemindices 56 3.9.1 Standaardfout van een p-waarde 57 3.9.2 Standaardfout van een gemiddelde toetsscore en van een p -waarde 58 3.9.3 Standaardfout van een r it -waarde 58 3.9.4 Standaardfout van coëfficiënt alpha 59 3.10 Normen voor toets- en itemindices 59 3.10.1 Normen voor p- en p -waarden 60 3.10.2 Normen voor r it -waarden 60 3.10.3 Normen voor de betrouwbaarheid 61 3.11 Generaliseerbaarheidstheorie 62 3.12 Design met een facet 64 3.12.1 Generaliseerbaarheidsstudie 66 3.12.2 Decisiestudie 70 3.13 Design met twee facetten 73

3.13.1 Generaliseerbaarheidsstudie 74 3.13.2 Decisiestudie 79 3.14 Andere aspecten van de generaliseerbaarheidstheorie 81 N.D. Verhelst 4 Itemresponstheorie 83 4.1 Begrippen en algemene theorie 86 4.1.1 Het Raschmodel 89 4.1.2. Lokale stochastische onafhankelijkheid 91 4.2 Het schatten van de parameters in het Raschmodel 93 4.2.1 Grootste-aannemelijkheidsschatters: een voorbeeld 93 4.2.2 JML-schatting in het Raschmodel 99 4.2.3 CML-schatting in het Raschmodel 103 4.2.4 MML-schatting in het Raschmodel 111 4.2.5 Een voorbeeld 114 4.3 Het toetsen van het Raschmodel 118 4.3.1 De veronderstellingen van het Raschmodel 120 4.3.2 Relaties tussen het Raschmodel en het multinomiale model 124 4.3.3 Likelihood-ratio-toetsen 126 4.3.4 Wald-toetsen 131 4.3.5 Veralgemeende Pearson -toetsen 136 4.3.6 Een voorbeeld 158 4.4 Het Raschmodel en onvolledige designs 161 4.5 Het schatten van de persoonsparameters 167 4.5.1 Drie methoden om de persoonsparameter θ te schatten 169 4.5.2 Een voorbeeld 175 4.5.3 Passingsindices voor individuele antwoordpatronen 176 C.A.W. Glas en N.D. Verhelst 5 Een overzicht van itemresponsmodellen 179 5.1 Het lineair-logistische testmodel 180 5.1.1 Parameterschatting in het LLTM 181 5.1.2 Het toetsen van het LLTM 184 5.1.3 Een toepassing van het LLTM 187 5.2 Indelingsprincipes van IRT-modellen 190

5.3 Unidimensionale modellen voor dichotome items 195 5.3.1 Het twee- en drieparameter logistisch model 196 5.3.2 Het éénparameter logistisch model (OPLM) 205 5.3.3 Modellen zonder de assumptie van lokale stochastische onafhankelijkheid 208 5.4 Unidimensionale modellen voor polytome items 211 5.4.1 Het partial credit model (PCM) 213 5.4.2 Generalisaties van het partial credit model 218 5.5 Multidimensionale IRT-modellen 226 5.5.1 Een OPLM met een multivariate vaardigheidsverdeling 229 5.5.2 Het multidimensionale model van Rasch 231 5.5.3 Compensatorische IRT-modellen 233 5.5.4 Conjunctieve IRT-modellen 236 5.6 Nabeschouwing 237 T.J.H.M. Eggen 6 Itemresponstheorie en onvolledige gegevens 239 6.1 De relatie tussen onvolledige gegevens en IRT 240 6.1.1 Efficiëntie van de schattingen 241 6.1.2 Calibratie in onvolledige designs en linken 243 6.2 De datamatrices van structureel onvolledige designs 247 6.3 De stochastische structuur van structureel onvolledige designs 251 6.3.1 Gerandomiseerd onvolledig design 252 6.3.2 Meerfasen onvolledig design 253 6.3.3 Groepsgericht onvolledig design 255 6.4 Algemene voorwaarden voor calibratie in onvolledige designs 256 6.5 Voorwaarden voor calibratie in stochastische designs 259 6.5.1 MML in stochastische designs 264 6.5.2 CML in stochastische designs 272 6.6 Schatten van persoonsparameters in stochastische designs 280 6.6.1 ML- en WML-vaardigheidsschatting in stochastische designs 280 6.6.2 EAP vaardigheidsschatting in stochastische onvolledige designs 282

N.D. Verhelst en F.G.M. Kleintjes 7 Toepassingen van itemresponstheorie 285 7.1 De PPON-rekenpeiling 286 7.2 De Cito leesbaarheidsindex voor het basisonderwijs 295 7.3 De diagnostische verborgen-figurentest 304 R.J.H. Engelen en T.J.H.M. Eggen 8 Equivaleren 309 8.1 Overzicht equivaleren 310 8.1.1 Psychometrische voorwaarden voor equivaleren 312 8.1.2 Designs voor equivaleren 315 8.2 Equivaleren in de klassieke testtheorie 320 8.2.1 Basismethoden voor equivaleren 321 8.2.2 Equivaleren met behulp van het ankertoetsdesign 328 8.3 Equivaleren met itemresponstheorie 332 8.3.1 Calibratie 334 8.3.2 Verschillende vormen van equivalering in de itemresponstheorie 336 8.3.3 Equivaleren met behulp van een itembank 341 8.3.4 Quasi-multidimensionaal IRT-equivaleren 344 8.4 De kwaliteit van de equivaleermethoden vergeleken 346 C.A.W. Glas en M.J. Ouborg 9 Vraagonzuiverheid 349 9.1 Definitie van onzuiverheid 350 9.2 Methoden voor het bepalen van vraagonzuiverheid 353 9.2.1 De Mantel-Haenszel-procedure 354 9.2.2 Procedure met IRT-modellen 356 9.2.3 De relatie tussen de Mantel-Haenszel-procedure en de IRT-procedure 363 9.2.4 Een voorbeeld van het bepalen van vraagonzuiverheid met behulp van het OPLM 364 9.3 Conclusie 370

F.H. Kamphuis en R.J.H.Engelen 10 Het meten van veranderingen 371 10.1 Individuele groei 372 10.1.1 Longitudinale data en modellering 372 10.1.2 Het vaststellen van de individuele groei bij zuigelingen 373 10.1.3 Problemen bij het volgen van individuele leerlingen 375 10.2 Klassieke testtheorie en groeiscores 378 10.2.1 Artificiële longitudinale data 378 10.2.2 Statische benadering 379 10.2.3 Dynamische benadering 384 10.2.4 Evaluatie statische en dynamische benadering 390 10.2.5 Schattingen van structurele parameters 394 10.3 Itemresponstheorie en groeiscores 396 10.3.1 Schaal Vorderingen en Spellingvaardigheid 396 10.3.2 Het schatten van de latente vaardigheid 398 10.4 Epiloog 406 T.J.J.M. Theunissen, P.F. Sanders en A.J.Verschoor 11 Het samenstellen van toetsen 409 11.1 Mathematisch programmeren 410 11.2 Het samenstellen van toetsen in de itemresponstheorie 416 11.2.1 Lineaire programmeringsproblemen 417 11.2.2 Praktijkvoorbeelden 420 11.2.3 Specificeren van restricties en relaties 428 11.3 Het samenstellen van toetsen in de klassieke testtheorie 431 11.4 Het samenstellen van toetsen in de generaliseerbaarheidstheorie 438

A.P.J.M. Heuvelmans en P.F. Sanders 12 Beoordelaarsovereenstemming 443 12.1 Definitie van beoordelaarsovereenstemming 444 12.2 Beoordelaarsovereenstemming bij data van nominaal niveau 444 12.3 Beoordelaarsovereenstemming bij data van ordinaal niveau 451 12.4 Beoordelaarsovereenstemming bij data van intervalniveau 457 12.5 Lage beoordelaarsovereenstemming: oorzaken en remedies 466 12.6 Tot besluit 469 H.H.F.M. Verstralen 13 Schalen, normen en cijfers 471 13.1 Het niveau van de schaal 472 13.2 Normschalen 474 13.2.1 Cumulatieve verdelingen 475 13.2.2 Genormeerde lineaire transformaties 478 13.2.3 Genormaliseerde schalen 479 13.2.4 Ontwikkelingsschalen 483 13.2.5 De nauwkeurigheid van normschalen 485 13.3 Beheersingsschalen 486 13.4 Het rapporteren van meetnauwkeurigheid 487 13.5 De cesuur voldoende/onvoldoende en andere normen voor cijfergeving 492 13.5.1 Traditionele methoden van cesuurbepaling 492 13.5.2 Cesuurbepaling en overige cijfers binnen itemresponstheorie 503 13.6 Conclusie 509 Literatuur 511 Personenregister 529 Zakenregister 533