Constructie van tests en vragenlijsten. Kernbegrippen, voetangels en klemmen, en mogelijkheden voor beter meten

Transcriptie

1 1 Constructie van tests en vragenlijsten Kernbegrippen, voetangels en klemmen, en mogelijkheden voor beter meten Klaas Sijtsma Universiteit van Tilburg Lezing in het kader van de Sociaal Wetenschappelijk Sectie van de VVS Utrecht, 6 november 009

2 Ik ga in op kernbegrippen voor constructie tests & vragenlijsten voor de meting van attributen in diverse wetenschapsgebieden methodologie van het opzetten van een goede test & vragenlijst misverstanden over testtheorie en nieuwe mogelijkheden voor test- en vragenlijstconstructie onderschatte rol van goede inhoudelijke theorieën voor succesvolle test- en vragenlijstconstructie, en de dubieuze validiteit die volgt bij onderschatting hiervan

3 3 Tests en vragenlijsten zijn instrumenten voor de meting van psychologische attributen: kennis, vaardigheden ( skills ); verkeersregels (k), autorijden (v), vaderlandse geschiedenis (k), geheugen (v) cognitieve capaciteiten ( abilities ); transitief redeneren, inductief redeneren, conservering, ruimtelijk inzicht geschiktheden ( aptitudes ); concentratievermogen, precisie, snelheid persoonlijkheidstrekken ( traits ); introversie, neuroticisme, depressiviteit, rigiditeit, angst attituden, opinies; abortus (a), positieve discriminatie van vrouwen (a), milieubeleid lokale overheid (o), Balkenende weg, nieuwe verkiezingen (o)

4 4 Toepassingen Wetenschappelijk: vergelijking groepen, relaties variabelen Maatschappelijk: diagnose stoornissen, leer- en ontwikkelingsproblemen, schoolvorderingen (CITO), selectie ( jobs ) en plaatsing (o wijs) Dus, relevant onderscheid: Groepskenmerken versus Individuele scores Heeft grote gevolgen voor constructie test- of vragenlijst

5 5 Hoe maak je een meetinstrument? Definieer attribuut (= hypothetisch construct), bij voorkeur gebaseerd op inhoudelijke theorie Voorbeeld o Bestudeer theorie / theorieën over intelligentie, tevredenheid, neuroticisme, mening over abortus o Definieer het attribuut zo precies mogelijk

6 6 Definieer operationalizering: meetvoorschrift, hoe moet ik in concrete stappen het attribuut meten? Van abstracte theorie naar observeerbaar gedrag Welk gedrag is typisch / karakteristiek voor het bedoelde attribuut? o Wanneer laten mensen intelligent, tevreden, neurotisch, enzovoort, gedrag zien? En in welke situaties gebeurt dat vooral? En in reactie op welke stimuli? o Definieer domein van gedrag typisch voor intelligentie, tevredenheid, neuroticisme, en sluit andere gedragingen uit

7 7 Definieer itemdomein: o Dit zijn alle mogelijke items (= stimuli) die relevant zijn voor het oproepen van gedrag dat typisch / informatief is voor het attribuut o Attributen verschillen sterk wat betreft stimuli; vergelijk kennis, intelligentie met neuroticisme, mening over abortus; leiderschap, coöperatief gedrag o Itemdomeinen verschillen vooral mbt aantallen relevante items, waarbij het in herhaling vallen niet schadelijk is voor de meting Selecteer uit het itemdomein de beste deelverzameling van items: TEST, VRAGENLIJST

8 8 Leg test / vragenlijst voor aan representatieve steekproef van respondenten Analyseer data mbv van klassieke testtheorie & factoranalyse of PCA (meerderheid) of item-responstheorie; levert informatie over o betrouwbaarheid (nauwkeurigheid, herhaalbaarheid) o validiteit (betekenis, voorspelling) o normen (interpretatie) Construeer schaal en ken meetwaarden toe aan individuen; gebruik deze voor wetenschappelijke of maatschappelijke toepassingen

9 9 Zwakke theorie Attribuut Theorie Operationalizering Data Analyse Attribuut Theorie Sterke theorie

10 10 Onderwerpen Validiteit: Wat meet de test? Meet de test het attribuut zoals bedoeld? Betrouwbaarheid: Kan ik bij herhaling dezelfde testscore verwachten? Standaardmeetfout: Wanneer zijn scoreverschillen significant? Vragenlijstconstructie volgens PCA en IRT: Wat levert moderne testtheorie extra?

11 11 VALIDITEIT Meet de test of vragenlijst het bedoelde attribuut? Zwaar verwaarloosd onderwerp, maar veruit belangrijkste kenmerk van een test of vragenlijst Vaak neemt men genoegen met Enkele correlaties met andere variabelen; covariaten, testscores, toevallig beschikbare variabelen De ad hoc structuur van de items op basis van een PCA De passing ( fit ) van een confirmatorisch factormodel of een itemresponsmodel

12 1 Echter, het enige wat werkt, is dat de test of vragenlijst gebaseerd is op een goeddoordachte en onderzochte theorie van het attribuut Van slechts enkele attributen zijn goede theorieën beschikbaar, zodat de operationalizering hier een logische uitwerking van is Veel tests en vragenlijsten gebaseerd op gewoonte (hoe doen anderen dit?), traditie (hoe deed me dit vroeger?) en intuïtie (wat lijkt me plausibel?) Hieruit resulterende items worden voorgelegd aan steekproef, en data worden statistisch geanalyseerd Omdat data nooit random zijn, komt er altijd iets uit een statistische analyse, maar bij ontbreken theorie ondersteunt dit niet de validiteit anders dan incidenteel

13 13 Dus, meting dient vooraf te worden gegaan door theorievorming en toetsing Bijv. onderzoek Samantha Bouwmeester naar transitief redeneren Monnikkenwerk; vergelijk Felix Vening Meinesz (UU) Zonder theorie en daarop gebaseerde operationalizering levert data-analyse alleen beschrijving van de data, geen feedback over theorie die er immers niet is Aanhangen bepaalde school op gebied validiteitsonderzoek niet van belang; begin bij theorie

14 14 KLASSIEKE TESTTHEORIE Ontstaan begin 0 e eeuw (Spearman, Binet) Basis idee: X = T + E + ij i ij Waarin: X + ij : Observeerbare score persoon i testafname j T i : True score, gedefinieerd als: T i = 1 q q X j= 1 + ij ; q onafhankelijke replicaties van test E ij : Meetfout, gedefinieerd als: E ij = X + ij T i

15 15 Propensity Distributions voor twee personen 0.0 propensity Kees Marijke T Kees T Marijke True Score Testscore

16 16 BETROUWBAARHEID Welk deel van variantie van testscore X + in een groep is systematisch? ' = = X E X T XX S S S S r In hoeverre kan meting worden herhaald onder dezelfde omstandigheden? Dit is de pm-correlatie tussen parallelle testscores, + X en ' + X : ), ( ' X + X + r Definities zijn wiskundig identiek: = = = ' ' ' ' ), ( X T X T XX S S S S r X X r

17 17 Praktijk: True scores onbekend, dus ook variantie parallelle tests; dus betrouwbaarheid onbekend S T, en ook beschikt men zelden over Meest populaire oplossing: Schat ondergrens r XX ' dmv Cronbach s alfa coefficient: Waarin: k : aantal items g, h : item indices k g alfa = k 1 S C gh : covariantie item g en item h h X+ C gh

18 18 Voor berekening alfa nodig: Variantie-covariantie matrix k = 4: C 1 S 1 C 1 C 13 C 14 S C 3 C 4 3 C 31 C 3 S 3 C 34 4 C 41 C 4 C 43 S 4 Merk op: Hoofddiagonaal: varianties van items Andere cellen: covarianties tussen items Matrix symmetrisch in hoofddiagonaal

19 19 Regel: Variantie testscore X + ( = S X + ) = som van termen in variantie-covariantie matrix Formule: Als X + = k X g g = 1 X+, dan S = S + k g= 1 g g h C gh Opdracht: k = 4: Wat is waarde alfa?

20 0 Opdracht: k = 4: k = 4: Bereken alfa s Verklaar resultaat waarvan alfa afhankelijk?

21 1 Wetenswaardigheden over alfa: 1. Alfa wordt vaak aangeduid als coëfficiënt voor interne consistentie homogeniteit Suggereert dat hoge alfawaarde betekent dat items hetzelfde attribuut meten V: Is dit correct? A: Nee; zie de voorbeelden; een alfa van.8 kan naar elke factoriële samenstelling verwijzen, en alfa s van.3 of.56 kunnen dat ook

22 Algemene verklaring: Teller alfa bestaat uit som van k ( k 1) covarianties; De som is gelijk aan het aantal k ( k 1) maal de gemiddelde covariantie C ; Dus, k ( k 1) C Schrijf alfa als: alfa = k k( k 1) C k = k 1 S C X S + X + Dus, alfa hangt af van gemiddelde covariantie terwijl alle informatie over de factoriële samenstelling in de contrasten van de covarianties zit; ben je dus kwijt

23 3. Alfa is ondergrens voor betrouwbaarheid (in populatie): alfa r XX ' Is wiskundige stelling, zoals stelling van Pythagoras; is dus altijd waar Consequentie: Alfa is vertekende schatter van r XX' ; Wel nuttig omdat conservatief Praktijk: Grote steekproeven: Kleine steekproeven:? alfa < r XX '

24 4 3. Iedereen kent alfa, maar er zijn grotere ondergrenzen, zoals Guttmans lambda (lijkt op alfa, maar gebruikt meer informatie uit variantie-covariantiematrix) Probleem van het vinden van de grootste ondergrens ( GLB ) opgelost Bewezen kan worden dat alfa lambda GLB r XX ' Dus, lambda en GLB dichter bij doel; waarom dan alfa gebruikt? Alfa en lambda beide in SPSS; GLB in andere software (EQS, CITO)

25 5 Voorbeeld: 8 rating scale items, gescoord 0, 1,, 3, meten coping (aanpassen aan situatie) steekproefgrootte N = 88 factoranalyse suggereert deeltests van elk 4 items # items 8 4 (set 1) 4 (set ) alfa lambda GLB verschillen alfa en lambda klein GLB veel groter; moeite waard om GLB te schatten (grote N, kleine k)

26 6 Conclusies Alfa is geen maat voor interne consistentie, ondanks hardnekkige behandeling als zodanig is de literatuur Interne consistentie ( items meten hetzelfde attribuut ) onderzoeken mbv factoranalyse en item-responstheorie Alfa is bijna de kleinste bekende ondergrens voor de betrouwbaarheid (Guttman s lambda 1 is nog kleiner) Voor grote steekproeven (N > 1,000) en korte tests ( k 10), schat de GLB Voor andere data, schat Guttman s lambda Om strategische redenen rapporteer zowel alfa als een grotere ondergrens (Guttman s lambda of de GLB)

27 7 STANDAARDMEETFOUT en KORTE TESTS & VRAGENLIJSTEN Wat wil het nu eigenlijk zeggen dat r XX ' =.6,.7,.8,.9,. 95? Je leest vaak: alfa =.8, dus de test is voldoende betrouwbaar! Waarvoor? Hierover lees je weinig tot niets, en gerapporteerde normtabellen (verdelingen van testscores) worden niet vaak gerelateerd aan de vraag of scores wel significant verschillen (van een aftestgrens of van elkaar)

28 8 Niet betrouwbaarheid is belangrijk maar standaardmeetfout: S E = S X+ 1 rxx ' Hoort bij schatting true score ˆ T i = X + i (kan allemaal veel mooier, doen we hier niet terwille van de eenvoud) Nemen aan dat standaarmeetfout voor iedereen gelijk is (in IRT verschillend) Gaan ons nu concentreren op korte tests en vragenlijsten

29 9 Bekend: Korte tests hebben lagere betrouwbaarheid dan lange tests Tendens: onder externe druk concentratie problemen van jonge kinderen en patiënten, ongeduld klanten en managers lijken tests steeds korter te worden: k < 10 Vraag: Kan een korte test die uit items van hoge kwaliteit bestaat, nauwkeurige metingen opleveren? Voorbeelden: Medisch, gezondheidsonderzoek: k 10 Organisatie, marktonderzoek: k 5, soms k = 1 Psychologisch onderzoek: RAKIT (k > 350), NEO ( k = 40)

30 30 Relatie betrouwbaarheid en testlengte (= # items) Stel, alle items / testdelen zijn parallel, dan neemt bij verlenging test met factor K De true-score variantie De meetfoutvariantie S T kwadratisch toe in K, dus met factor S E lineair toe, dus met factor K K Omdat X+ T S = S + S E, bestaat de testscorevariantie dus naar verhouding steeds meer uit true-score variantie en steeds minder uit meetfoutvariantie Betrouwbaarheid neemt toe volgens Spearman-Brown formule (r = betr. item / testdeel): r Kr = KK 1+ ( K 1 ) r

31 31 Probleem: Verkorten test leidt tot snellere afname true-score variantie dan meetfoutvariantie, resulterend in korte schaal waarop verschillen testscores vooral gevolg van meetfouten Gebruik standaardmeetfout om betrouwbaarheidsinterval voor T te schatten: T ˆ i ± z1/ α S ; dus voor 95 E 1 α =. : X + i 1.96SE ; X + i SE Bij lange tests (lange schalen) bestrijkt dit interval een relatief klein deel van de schaal, bij korte tests is dat deel absoluut kleiner maar relatief groter Hoe zit dat precies?

32 3 Wiskundig onderzoek naar relatie testlengte, betrouwbaarheid, standaardmeetfout en schaallengte Data gesimuleerd mbv Rasch model voor dichotome items (bijv. 0 = fout, 1 = goed), P( X g = 1 θ ) exp[ a( θ δ g )] = 1+ exp[ a( θ δ )] g Waarin: θ : Latente variabele, ipv true score δ g : Moeilijkheid van item g op schaal van latente variabele (geen P-waarde) a: Discriminatie van willekeurig item; representeert kwaliteit = mate waarin item personen met lage en hoge kansen betrouwbaar onderscheid

33 33 Design met: 0 datamatrices voor elk 500 respondenten Latente variabele standaardnormaal: θ ~ N(0,1) Alle combinaties van 5 testlengten en 4 itemdiscriminatieniveaus: o k = 6, 8, 10, 1, 0 o a = 1,, 3, 4 Realistisch 1: bescheiden : goed Onrealistisch 3: erg hoog 4: extreem hoog Itemmoeilijkheden uniform verdeeld tussen 1 en 1

34 34 Lambda, Standaardmeetfout, Half Betr. Int. True Score, en Half Betr. Int. Verschil Twee True Scores. Realistisch k a Lambda S E 1.96S E 1.96 S E Yes No Yes No Yes No Yes No Yes No

35 35 Wat valt op? Voor constante k en toenemende a, neemt - Betrouwbaarheid toe, en - Standaardmeetfout af Voor k = 6 en a = 1 (bescheiden) laat zien dat 95% betr. int. gelijk is aan T ±.10, dus voor X = 4 hebben we (1.90; 6.10) (maximum = 6) i Stel, aftestscore +i X c =, 3, 4, 5, 6, dan geen significant verschil Alleen X = 0, 1 laat significant verschil toe c Voor grotere a-waarden wordt situatie gunstiger, maar niet heel veel

36 36 Voor grotere k-waarden (bijv. k = 0) nemen tov k =6 o de betrouwbaarheid toe o maar ook de standaarmeetfout en de betrouwbaarheidsintervallen Echter, de lengte van de intervallen tov van de schaallengte (0 eenheden) is kleiner dan bij k = 6: =.39 (k = 0) versus =. 70 (k = 6) 0 6 Bedenk verder dat personen op een lange schaal verder van de aftestgrens komen te liggen (of van elkaar), en dat gaat sneller dan de groei van de intervallen Hier zit de winst

37 37 PRINCIPALE COMPONENTENANALYSE of ITEM-RESPONSTHEOIE? PCA gebruikt wanneer weinig bekend over dimensionaliteit van data PCA vat zoveel mogelijk variantie uit de itemscores samen in een zo klein mogelijk aantal principale componenten (maximaal k). Scree plot of eigenwaarde-groter-dan-1 criterium om de beste M samenvatters te selecteren Loodrechte of scheve rotatie M principale componenten om betere interpretatie te verkrijgen Typische methode om data te beschrijven / samen te vatten, wordt gebruikt bij gebrek aan goede theorie over attribuut; weinig vooronderstellingen

38 38 IRT als alternatief voor klassieke testtheorie Klassieke testtheorie leidt tot tellingen van punten behaald op items, strikt genomen geen meting; betrouwbaarheid refereert aan herhaalbaarheid telling IRT bestaat uit modellen gedefineerd op basis van vooronderstellingen, die o Meeteigenschapen beschrijven (bijv., aantal dimensies in de data, relatie items en wiskundige representatie eigenschap); o Mogelijkheid bieden om in de data na te gaan of die vooronderstellingen opgaan voor de test en de populatie in kwestie; en o Bij passing model op data schaaleigenschappen impliceren, zoals ordening personen en / of items IRT kan exploratief en toetsend worden gebruikt (maar PCA eigenlijk ook)

39 39 Mokkenschaalanalyse (MSA) gebaseerd op model van monotone homogeniteit (MHM); impliceert ordinale meting van personen Test / vragenlijst meet één eigenschap itt een complexe mengsel van invloeden op itemscores die leiden tot slecht interpreteerbare testscore Eendimensionaliteit, gerepresenteerd door latente variabele θ Hoger niveau van de eigenschap θ verhoogt kans op hogere itemscores Monotonie, gerepresenteerd door stijgende kans P( X g x θ ) Respondenten benaderen ieder item alsof het geheel op zich staat, dus onafhankelijk van eerder gegeven antwoorden (bijv. sociale wenselijkheid) Lokale onafhankelijkheid, antwoordkansen alleen afhankelijkheid van niveau respondent i op θ, zodat P X x θ, y ) = P( X x θ ) ( g i i g i

40 Latent Trait Cumulative Response Probability Restscore Groups X = 1 X = X = 3 X = 4 Proportion Positive Responses per Item Step X = 1 X = X = 3 X = Restscore Groups Proportion Positive Responses per Item Step

41 41 Vooronderstellingen lijken plausibel, maar Data kunnen multidimensioneel zijn indien er diverse invloeden werkzaam zijn op de itemscores Relaties kunnen non-monotoon zijn, zeker in geval van multidimensionaliteit, en Respondenten kunnen zich laten leiden door vele andere eigenschappen en omstandigheden, zodat lokale afhankelijkheid geldt Ook hiervoor weer IRT modellen beschikbaar, maar duidelijk is dat Het geen modellen zijn van de werkelijkheid Maar gereedschappen uit een gereedschapskist waarmee je data spaarzaam kunt beschrijven (zoals elke statistische methode) Terwijl de echte modellen van de werkelijkheid de inhoudelijke theoriën van de attributen zijn; overeenkomst met structuur IRT niet dwingend

42 4 Verschillen PCA en IRT: Beide geschikt om dimensionaliteit data te onderzoeken, alleen IRT gebaseerd op meetmodel PCA pure rekentechniek waar altijd hetzelfde uitkomt (k hoofdcomponenten); het model kan niet worden verworpen; IRT modellen wel, helpt de wetenschap duidelijker vooruit

43 43 Voorbeeld: Self-Concealment Scale (SCS; geheimhoudingsschaal; k = 10, 5-punt rating scales, N = 1503 uit Nederlandse bevolking) Weinig tot geen theorie over geheimhouding als persoonlijkheidstrek 1. I have an important secret that I haven t shared with anyone.. If I shared all my secrets with my friends, they d like me less. 3. There are lots of things about me that I keep to myself. 4. Some of my secrets have really tormented me. 5. When something bad happens to me, I tend to keep it to myself. 6. I m often afraid I ll reveal something I don t want to. 7. Telling a secret often backfires and I wish I hadn t told it. 8. I have a secret that is so private I would lie if anybody asked me about it. 9. My secrets are too embarrassing to share with others. 10. I have negative thoughts about myself that I never share with anyone.

44 44 Vragenlijst laat zien dat items gebaseerd zijn op common sense Strijd in literatuur over aantal factoren in SCS-data, maar weinig besef dat Dit afhangt van de gekozen items en niet van een theorie, die er immers niet is En van de groep waarin je de data verzamelt Natuurlijk kun je uit de data wel iets leren over geheimhouding, maar uitgangspunt is gammel, dus leerproces uiterst moeizaam Men klampt zich vast aan statistiek en data-analyse Dus, meer aandacht voor theorievorming en onderzoek gewenst (is nu ook gaande)

45 45 PCA + scheve rotatie (oblimin; r =.54): corrected F1 F Item no. item-total correlations 8 (secret so private I d lie when asked) (secrets too embarrassing to share) (important secret not shared with anyone) (secrets tormented me) (friends like me less) (telling secret backfires, regret) (tend to keep bad things for myself) (afraid to reveal without wanting) (negative thoughts about myself not shared) (many things about me I keep to myself)

46 46 MSA, automatische itemselectie met verschillende ondergrenzen (c-waarden) voor kwaliteit schalen: Geselecteerde Schalen (Itemnummers gegeven) voor c-waarden die in gelijke stappen toenemen, schaal H-waarden, en niet-schaalbare items c Schaal 1 Schaal Onschaalbaar (.44) ,8,9 (.5) 6,7,10 (.44) ,8,9 (.5) 6,10 (.45) 5,7.50 1,4,8,9 (.57) 3,5 (.5),6,7, ,8,9 (.6) -7, ,9 (.74) 1-7,10

47 47 Conclusies: PCA: 1-factor oplossing (hoge item-restcorrelaties, correlatie scheve factoren =.54) MSA suggereert 1 matige tot sterke schaal (dus geschikt voor ordenen personen) Verschillen PCA en MSA betreffen o de selectie van items in de eendimensionele schaal; MSA levert hiervoor betere argumenten o MSA: items hebben sterke monotone relatie met latente variabele; dus, testscore X + kan personen nauwkeurig ordenen op latente variabele θ, en SCS kan low en high-concealers goed onderscheiden Auteurs SCS dachten dat ze drie factoren onderscheidden; lijkt onjuist Echter, auteurs van dit onderzoek vinden dat 1 dimensie de theorie geen recht doet!?

48 48 TOT SLOT Test- en vragenlijstconstructie is erg onderschat onderwerp; onderzoekers maken zich er niet druk om Goede metingen haal je niet bij de supermarkt en je plukt ze niet uit de boom DANK VOOR UW AANDACHT

49 49 LITERATUUR Emons, W. H. M., Sijtsma, K., & Meijer, R. R. (007). On the consistency of individual classification using short scales. Psychological Methods, 1, Sijtsma, K. (009). On the use, the misuse, and the very limited usefulness of Cronbach's alpha. Psychometrika, 74, Sijtsma, K. (009). Correcting fallacies in validity, reliability, and classification. International Journal of Testing, 9, Wismeijer, A. A. J., Sijtsma, K., Van Assen, M. A. L. M., & Vingerhoets, A. J. J. M. (008). A comparative study of the dimensionality of the self-concealment scale using principal components analysis and Mokken scale analysis. Journal of Personality Assessment, 90, Sijtsma, K. (009). Over misverstanden rond Cronbachs alfa en de wenselijkheid van alternatieven. De Psycholoog, 44, Sijtsma, K., & Emons, W. H. M. (007). Korte tests: Kostbare tijdwinst en onbetrouwbare beslissingen. De Psycholoog, 4,