Samenvatting (in Dutch) Geordende latente klassen modellen voor nonparametrische itemresponstheorie Een geordend latente klassen model kan als een nonparametrisch itemresponstheorie model beschouwd worden. Dit biedt de mogelijkheid een nonparametrisch itemresponstheorie model op nieuwe manieren te schatten en te toetsen. Dit wordt in dit proefschrift nader onderzocht. Ook wordt in dit proefschrift gekeken in hoeverre een geordend latente klassen model gebruikt kan worden om de verdeling van Mokkens schalingscoefficient H te schatten. De itemresponstheorie (IRT) houdt zich bezig met de statistische modellering van antwoorden van personen op testen. Een nonparametrisch itemresponstheorie (NIRT) model, zoals hier behandeld, heeft de assumpties van unidimensionaliteit (UD), lokale onafhankelijkheid (LI) en monotoniciteit (M). De assumptie van UD houdt in dat er slechts één latente trek is die de responskansen beïnvloedt. Lokale onafhankelijkheid betekent dat de responskansen op verschillende items onafhankelijk van elkaar zijn gegeven een positie op de latente trek. De assumptie van monotoniciteit heeft betrekking op de vorm van de itemresponsfunctie (IRF). De kans op een positief antwoord is een functie van de latente trek, en wordt de IRF genoemd. Monotoniciteit vooronderstelt dat de IRF niet-dalend is in de latente trek. Deze drie assumpties samen geven de waarborg dat de somscore op een test gebruikt kan worden om personen te rangordenen naar hun posities op de latente trek. Een vierde assumptie die gangbaar is binnen de NIRT is die van non-intersectie (NI). Dit houdt in dat IRF s van verschillende items elkaar niet snijden. Het gevolg hiervan is dat
140 Samenvatting voor iedere positie op de latente trek de ordening van de itemmoeilijkheden hetzelfde is. De assumpties binnen een geordend latente klassen model zijn vergelijkbaar met die van een NIRT model. De latente klassen zijn geordend op een enkele dimensie (UD), de conditionele responskansen zijn onafhankelijk gegeven de latente klasse (LI), en orde-restricties op de conditionele responskansen kunnen ervoor zorgen dat assumpties als M en NI gewaarborgd zijn. Een onderscheid met de bovenstaande formulering van NIRT is dat de latente trek niet continu wordt opgevat, maar in een beperkt aantal latente klassen wordt opgedeeld. Stel nu dat de items niet dichotoom zijn, maar polytoom. Het aantal orderestricties neemt dan snel toe met het aantal antwoordcategorieën per item. In Hoofdstuk 2 wordt een Bayesiaans schattingsalgoritme voor een dergelijk model gepresenteerd, en verder enkele Bayesiaanse modelselectiemethoden. De Gibbs sampler, een Markov-keten Monte Carlo (MCMC) methode, doet trekkingen uit de multivariate a posteriori verdeling van de parameters onder de opgelegde restricties. Bayesiaanse modelselectie kan gedaan worden met a posteriori predictieve toetsen en met Bayes factoren. Bij de a posteriori predictieve toetsen kunnen verschillende discrepantiefuncties ingezet worden, die ieder gevoelig zijn voor een specifiek aspect van de data, zoals de frequenties van hele responspatronen, of de antwoordfrequenties op slechts twee items tegelijk. Bij modelselectie spelen twee aspecten: Ten eerste de strengheid van de assumpties, (kunnen M en NI opgelegd worden aan de data?), en ten tweede het aantal latente klassen dat gekozen moet worden. In Hoofdstuk 2 wordt een simulatiestudie beschreven waarin de toepassing van geordende latente klassen modellen met Bayesiaanse methoden geëvalueerd wordt. Ook wordt als voorbeeld een bestaande dataset met polytome items geanalyseerd. De conclusie is dat de Bayesiaanse schattingsprocedure goed functioneert onder de ongelijkheidsrestricties en de grote hoeveelheid parameters. De Bayesiaanse modelselectiemethoden zijn wel gevoelig voor de strengheid van de assumpties, maar veel minder voor het aantal latente klassen. Als een model verworpen wordt voor de data, dan is een gedetailleerde zoektocht naar de oorzaak van de verwerping aan te raden. Want als bijvoor-
Samenvatting 141 beeld slechts één item de assumptie van M schendt, is het voordeliger dat item te verwijderen uit een schaal dan om de hele schaal onbruikbaar te verklaren. In Hoofdstuk 3 worden twee NIRT methoden (een descriptieve en een inferentiële) voor de detectie van algemene en specifieke modelmisfit onderzocht met behulp van een simulatiestudie. De descriptieve methode is gebaseerd op het werk van Mokken (1971, p. 152). Beschrijvende grootheden op schaalniveau of op itemniveau kunnen duiden op misfit als ze niet binnen bepaalde grenzen vallen. De inferentiële methode is gebaseerd op de a posteriori predictieve toetsen van het geordende latente klassen model. De discrepantiefuncties worden zowel op schaalniveau als op itemniveau gedefinieerd. In Hoofdstuk 3 werd gevonden dat strikte modeltoetsing op schaalniveau het best gedaan wordt door een geordende latente klassen benadering. Echter, een inspectie van alle items afzonderlijk geeft een beter beeld van eventuele modelmisfit. Binnen de descriptieve methode, die veel sneller is dan de inferentiële methode, bleek de crit i -waarde het best dalende IRF s te detecteren, en deze te onderscheiden van het randgeval van vlakke IRF s. Vlakke IRF s zijn niet nuttig bij het rangordenen van personen, en worden ook door de descriptieve grootheid H i gedetecteerd. Specifieke methoden binnen NIRT voor meerdimensionaliteitsdetectie werden in Hoofdstuk 4 onderzocht. Verschillende soorten van meerdimensionaliteit zijn nagebootst in een simulatiestudie. In een factoranalytische opvatting van meerdimensionaliteit functioneren de dimensies compensatorisch. Dat wil zeggen dat een lage positie op één van de dimensies gecompenseerd kan worden door een hoge positie op een andere dimensie, zodat er toch een grote kans is om een item positief te beantwoorden. Een specifiek geval van een compensatorisch model is het eenvoudige factorstructuur model, waarbij ieder item op slechts één dimensie laadt. In dit geval zijn de items te clusteren in eendimensionele sets van items. Indien er niet-geregistreerde groepen van respondenten zijn, waarbinnen de relatie tussen de te meten latente trek en de responskansen (de IRF) verschilt, dan spreken we van ongeobserveerde heterogeniteit. Ook hierbij is de assumptie van UD geschonden. De vier methoden die in Hoofstuk 4 werden onderzocht zijn het detectalgoritme en bijbehorende detect-index, het clusteralgoritme van MSP, infor-
142 Samenvatting matiecriteria die een eendimensioneel latente klassen factormodel vergelijken met een tweedimensioneel latente klassen factormodel, en a posteriori predictieve toetsen van het (eendimensionele) geordende latente klassen model. De vier methoden vertoonden grote overeenkomsten op het gebied van de detectie van schendingen van UD. De meerdimensionaliteit in datasets die eenvoudige factorstructuur vertoonden werd correct gedetecteerd. Echter, twee volledig compensatorische latente trekken en ongeobserveerde heterogeniteit op een van de tien items werden niet gedetecteerd. Dit laatste resultaat was niet verontrustend in het geval van ongeobserveerde heterogeniteit, omdat de ordening van de respondenten met behulp van de somscore robuust bleek voor deze schending van UD. Echter, in het geval van compensatorische latente trekken kwam de ordening van de respondenten met behulp van de somscore niet overeen met de ordening op de eerste dimensie, die beoogd werd te meten. Wel kwam de ordening met behulp van de somscore redelijk goed overeen met de ordening op de totale test dimensie, welke de som is van de eerste en de tweede dimensie. De veelgebruikte betrouwbaarheidsindex Cronbach s alpha is een indicator van de associatie van de somscore met de totale test dimensie, maar gaf geen aanwijzingen over de dimensionele structuur van een test. In NIRT is Mokken s coëfficiënt H een schaalbaarheidsindex van een set items. Deze index geeft aan in hoeverre de respondenten geordend kunnen worden met behulp van de items. De steekproevenverdeling van coëfficiënt H geeft informatie over de spreiding van H in herhaalde steekproeven. Echter, de steekproevenverdeling van H is alleen asymptotisch en onder restrictieve condities afgeleid. Een alternatieve mogelijkheid om de variantie van H te schatten is de bootstrap methode. Ook met behulp van een geschat geordend latente klassen model kan een indruk van de stabiliteit van H verkregen worden. In Hoofdstuk 5 worden de verschillende methoden met elkaar vergeleken in een simulatiestudie. De asymptotische variantie van H kwam goed overeen met de steekproevenvariantie, ondanks steekproeven van slechts 200 respondenten en de restrictie van vaste itemvolgordes. Ook de naïeve bootstrap leverde een goede schatting van de steekproevenverdeling op. Het voordeel van de methoden
Samenvatting 143 gebaseerd op een geschat latente klassen model was dat aangegeven werd wanneer de data niet voldeden aan de NIRT assumpties. Van de methoden die gebaseerd waren op een geschat latente klassen model, gaf een plug-in interval op basis van een ML-schatting (parametrische bootstrap) het best de steekproevenverdeling weer indien aan de NIRT assumpties voldaan was in de data, al was de locatie van het interval bij iets te hoge waarden van H gelegen. Opmerkelijk was dat een model met slechts vijf latente klassen een continue latente trek voldoende kon benaderen. Een groter aantal latente klassen had geen invloed op de resultaten.