Aantekeningenbundel te gebruiken bij het onderdeel testtheorie van Grondslagen psychologische diagnostiek en testtheorie.

Vergelijkbare documenten
1. Gegeven zijn de itemsores van 8 personen op een test van 3 items

Psychometrie werkgroep: De antwoorden

Antwoorden bij Testtheorie. Inleiding in de theorie van de psychologische test en zijn toepassingen, door P. J. D. Drenth en K.

INhOud Voorwoord Inleiding Vooronderzoek en constructieonderzoek Beschrijving van de SON-R 6-40 Normering van de testscores

Samenvatting (in Dutch)

HTS Report DESIGMA - A. Design a Matrix. Tom Billiet ID Datum Advanced 1. Editie. Hogrefe Uitgevers BV, Amsterdam

Vragen oefententamen Psychometrie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

TECHNISCHE HANDLEIDING IQ TEST

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

9. Lineaire Regressie en Correlatie

HTS Report DESIGMA - A. Design a Matrix. Jeroen de Vries ID Datum Advanced 1. Editie. Hogrefe Uitgevers BV, Amsterdam

Overzicht. Help! Statistiek! Stelling van Bayes. Hoe goed is leverscan ( test T ) voor het diagnostiseren van leverpathologie ( ziekte Z )?

Met testscores bepalen we de kwaliteit van bepaalde items. De eisen voor kwaliteit zijn van groot belang voor psychologische testen.

lengte aantal sportende broers/zussen

Oefenvragen bij Statistics for Business and Economics van Newbold

INHOUD. Woord vooraf. P.F. Sanders en T.J.H.M. Eggen 1 Inleiding 1. N.H. Veldhuijzen en F.G.M. Kleintjes 2 Dataverzameling 17

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

College 3 Interne consistentie; Beschrijvend onderzoek

Testscorerapport De heer Sjors Keij

Item-responstheorie (IRT)

Toelichting bij applicatie "betekenis geven aan cijfers"

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Citation for published version (APA): Egberink, I. J-A. L. (2010). Applications of item response theory to non-cognitive data Groningen: s.n.

Diagnosestelling en de vernieuwde IADL-vragenlijst

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor

Hebben mannen en vrouwen gelijke kansen. bij selectieproeven met intelligentietests? Samenvatting

College 2 Enkelvoudige Lineaire Regressie

Meten: algemene beginselen. Harry B.G. Ganzeboom ADEK UvS College 1 28 februari 2011

FYSIOTHERAPIE en het behandelen van patiënten met SCHOUDERKLACHTEN. Januari 2015, blok 3, Gerard Koel.

ACT Algemene Intelligentie

HTS Report. d2-r. Aandachts- en concentratietest. David-Jan Punt ID Datum Standaard. Hogrefe Uitgevers BV, Amsterdam

Experimenteel en Correlationeel Onderzoek

FYSIOTHERAPIE en het behandelen van patiënten met SCHOUDERKLACHTEN. Januari 2014, blok 3, Gerard Koel.

Statistiek ( ) eindtentamen

Data analyse Inleiding statistiek

Hoofdstuk 5 Een populatie: parametrische toetsen

Onderzoek met de SAPROF

TOL-CONGRES Moeder waarom leren wij

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

PSYCHOMETRIE FEEDBACKBUNDEL ACADEMIEJAAR

Samenvatting. geweest als de gemaakte keuzes, namelijk opereren. Het model had daarom voor deze patiënten weinig toegevoegde waarde.

Kansrekening en Statistiek

1 Constructie van tests, schalen en vragenlijsten

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Analyse van Vragenlijsten met behulp van Item Respons Theorie

Detector Ability Achtergronden bij het instrument

Capaciteitenrapport Naam: Alexander de Vries Datum: 19 juni 2008

4 Domein STATISTIEK - versie 1.2

3 Werkwijze Voordat een CQI meetinstrument mag worden ingezet voor reguliere metingen moet het meetinstrument in twee fases getest worden.

9 Het beoordelen van toetsscores. 9 Het beoordelen van toetsscores

1c Relatie tussen x en y hoeft niet perfect te zijn om een oorzaak van y te laten zijn.

Hoofdstuk I De statistiek in het onderzoek Doelstellingen: Statistiek Beschrijvende statistiek Inductieve statistiek

Leesvaardigheid en leesattitude:

College Week 3 Kwaliteit meetinstrumenten; Inleiding SPSS

Statistiek I Samenvatting. Prof. dr. Carette

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Bachelorproject II College 1: Validiteit en betrouwbaarheid: factor- en betrouwbaarheidsanalyse. Harry BG Ganzeboom 5 januari 2016 Bijgewerkt in rood

W. Magez A. Bos M. Tierens. CoVaT CHC Basisversie als cognitieve ontwikkelingsschaal

Aantekeningenbundel te gebruiken bij het onderdeel testtheorie van Grondslagen psychologische diagnostiek en testtheorie.

Formules Excel Bedrijfsstatistiek

Scoreformulier, normtabellen en computerprogramma 163

DOS-oefening 2. lengte Aantal sportende broers/zussen

Van de Schoot, et al. (2013) A black bear story. European Journal of Developmental Psychology

Rapport Reactietijden

Kansrekening en Statistiek

Examen Statistiek I Feedback

Het meetinstrument heeft betrekking op de volgende categorieën Lichaamsregio Hoofd/ hals Overig, ongespecificeerd. Communicatie, Mentale functies

Kansrekening en Statistiek

Schalen, normen en cijfers

College 3 Meervoudige Lineaire Regressie

Hoofdstuk 5 BETROUWBAARHEID EN ITEMANALYSE 5.1 INLEIDING

TSCYC. Vragenlijst over traumasymptomen bij jonge kinderen. HTS Report. Julia de Vries ID Datum Ouderversie

HTS Report. d2-r. Aandachts- en concentratietest. Jeroen de Vries ID Datum Standaard. Hogrefe Uitgevers BV, Amsterdam

Over het gebruik van continue normering Timo Bechger Bas Hemker Gunter Maris

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

A. Week 1: Introductie in de statistiek.

IST Standaard. Intelligentie Structuur Test. meneer 1

De Nederlandse doelgroep van mensen met een LVB Van Basisvragenlijst LVB naar LVB-screeningsinstrument (screener LVB)

hoofdstuk 3 Hoofdstuk 4 Hoofdstuk 5

Sociale Interpretatie Test en Lees de Ogen Test bij hoog functionerende volwassenen met ASS

Hoofdstuk 10: Regressie

Toetsanalyse. Leidraad Digitaal Toetsen FGw

Data analyse Inleiding statistiek

CDI-2. Screeningsvragenlijst voor depressie bij kinderen en jongeren. HTS Report. Meisje Test ID Datum

DOELGROEP De test richt zich tot zwangere vrouwen of vrouwen die recent bevallen zijn.

College 4 Inspecteren van Data: Verdelingen

8. Analyseren van samenhang tussen categorische variabelen

Onderzoeksmethoden: Statistiek 1

HTS Report. d2-r. Aandachts- en concentratietest. Jan Janssen ID Datum Standaard. Hogrefe Uitgevers BV, Amsterdam

Formulier voor het beoordelen van de kwaliteit van een artikel over een diagnostische test of screeningsinstrument.

Hoofdstuk 5: Steekproevendistributies

College Week 4 Inspecteren van Data: Verdelingen

NEDERLANDS INSTITUUT VAN PSYCHOLOGEN Commissie Testaangelegenheden Nederland. Beoordeling van de AMN Eindtoets 2016

Transcriptie:

Aantekeningenbundel te gebruiken bij het onderdeel testtheorie van Grondslagen psychologische diagnostiek en testtheorie. College: Transformaties, normering en (item)analyse Tentamentip: voor het tentamen moet je het volgende kennen uit de voorgeschreven stof van Reynolds: H1: Introduction to psychological measurement 8-16 H2: The basic statistics of measurement Soorten tests Er zijn verschillende soorten tests: 1. Tests voor prestatieniveau (maximum performance tests) dichotoom (0 of 1) cognitieve capaciteiten intelligentie kennis en inzicht vaardigheden bijv. gokverslaving: score op 12 vragen, met 2 antwoordcategorieën (0 en 1), max. score = 12. 2. Tests voor gedragswijzen (typical response tests) Objectieve test: helemaal mee eens helemaal niet mee eens Projectieve test: inktvlek zeggen wat je er in ziet gedrag houding persoonlijkheid bijv. rekentest van 100 opgaven, taaltest van 25 opgaven (0 = fout, 1 = goed). Ruwe testscores (X). Om de scores te kunnen gebruiken moet je een normgroep hebben om te kunnen vergelijken. (norm referenced / criterum referenced) 3. Snelheidstest (speed test) In beperkte tijd zo veel als mogelijk opgaven van zelfde (moeilijkheid beantwoorden) 4. Niveau test (power test) Opgaven in oplopende moeilijkheid zonder tijdsdruk. 13

Interpretatie testscores 1. Normgericht (norm referenced) Vergelijking testscore binnen de groep of populatie Relatief meten 2. Criteriumgericht (criterion referenced) Vergelijking testscore met vooraf gestelde maatstaf of standaard Absoluut meten 3. Normering Bepalen van verdeling van testscores in populatie. Bepalen van standaard voor beoordeling. 4. Transformeren: het omzetten van ruwe testscores naar gestandaardiseerde scores met als doel: vergelijken en beoordelen. 5. Standaard z-transformatie: z-score Z-scores Als een eigenschap in populatie theoretisch normaal verdeeld en testscores ook empirisch normaal verdeeld is, dan transformeren ruwe scores op een test naar z-scores: Z j = standaard z-score voor persoon j X i = testscore van persoon j = gemiddelde X SD X = standaardafwijking X X= ruwe score X_ = gemiddelde ruwe score SD x = standaardafwijking ruwe score SD ss = gwenste standaardafwijking X ss = Gewenst gemiddelde 14

Kenmerken Gemiddelde: 0, standaardafwijking = 1 Z-score: 0, betekent dat iemand dezelfde testscore heeft als het gemiddelde van de groep Z-score: 1, betekent dat iemand zijn testscore één standaardafwijking boven gemiddelde van de groep ligt Intervalschaal blijft na transformatie intervalschaal Vorm van verdeling blijft ongewijzigd Naar z-getransformeerde ruwe scores inter- en intra-individueel vergelijkbaar Assumptie: De testscores zijn (bij benadering) normaalverdeeld. Lineaire transformative: IQ-score / T-score Als eigenschap in populatie theoretisch normaalverdeeld en testscores ook normaalverdeeld z- scores lineair transformeren Percentielscore transformatie: Percentielscore / Percentiel Percentiel is de waarde van een testscore waarvoor geldt dat een bepaalde proportie (.25,.50,. 90) in de groep (of populatie) dezelfde of lagere testscore heeft. Voor berekenen percentielscore heb je alle scores van de groep (populatie) nodig. Percentielscore transformatie is voor variabelen van ordinaal, interval en ratio meetniveau. Percentielscore transformatie is een niet-lineaire transformatie. Percentielscore transformatie is mogelijk voor alle soorten verdelingen (normaal, bi-modaal, homogeen). Vorm van de verdeling wijzigt bij percentielscore transformatie: ruwe scoreverdeling wordt afgeplat tot homogene verdeling. Betekenis van de intervallen tussen opeenvolgende percentielscores is niet gelijk ordinaal meetniveau. Bereken geen gemiddelde of standaardafwijking van percentielscores. Percentielscore is niet gelijk aan percentiel Stanines 15

Lineaire transformatie van standaard normaal verdeelde testscores in negen even grote groepen (min of meer intervalschaal): liever niet gebruiken Zijn niet precies (score vertegenwoordigt een klasse). De intervalschaal voor stanines is discutabel. Normaliserende transformatie: Normale z-score hoef je niet te kunnen Als eigenschap in populatie theoretisch normaal verdeeld, maar testscores niet normaal verdeeld Kenmerken die niet normaal verdeeld zijn: gezichtsvermogen, concentratie, criminaliteit, reactiesnelheid. Een niet lineaire transformatie verandert de vorm van de verdeling. Het resultaat is een verdeling van normale z-scores (liever niet gebruiken) o Stappen voor normaliserende transformatie Stap 1: bepaal ruwe score persoon i Stap 2: bepaal percentielscore van i (niet afronden) Stap 3: zoek in tabel bijbehorende z-score Stap 4: ken die z-score aan persoon i toe (normale z-score) cf2 = cumulatieve frequentie bij klassemidden cp2 = cumulatieve proportie bij klassemidden Itemanalyse Personen betrouwbaar onderscheiden (onderscheid voldoende / onvoldoende wel of niet verdiend) o Beoordelen kwaliteit hele test. Betrouwbaarheid (betrouwbaarheidsanalyse) Validiteit (validiteit onderzoek) o Beoordelen karakteristieken van afzonderlijke items. Item moeilijkheid (item difficulty) Item discriminatie (item discrimination) o Beoordelen relatie afzonderlijke items en hele test. Item-total correlatie (item totalcorrelation) Analyse afleiders (disctracter analysis) p i = p-waarde = itemmoeilijkheid = de proportie van de respondenten dat het item goed heeft beantwoord. p i = aantal goed / gedeeld door fout. Hoge p-waarden: dragen niet bij aan differentiatie Lage p-waarden: mogelijk te moeilijk of een vraag buiten leerstof 16

Discriminerend vermogen: Hoe goed discrimineert of differentieert een item? Hoe goed kunnen we met een item respondenten onderscheiden? Item-totaalcorrelatie (Item-total correlation): Lineaire samenhang (r g,x) tussen afzonderlijk item (g) en testscore (X). Item-restcorrelatie (Item-rest correlation): Lineaire samenhang (r g,(x-g) tussen score op test minus het item (X - g). afzonderlijke item (g) en Afleiders analyse (Distracter analysis): Voldoen alle antwoordalternatieven? 17

College: Beslissend testgebruik Wat is de kans dat iemand werkelijk een stoornis heeft bij een positieve diagnose? Dit heet predictieve accuratesse Signaal detectie theorie Hoe goed kunnen we een signaal detecteren? Dit is de theorie over de kans op goede en foute beslissingen, met aannamen over verdelingen van testuitkomsten onder verschillende omstandigheden: Als iemand de stoornis heeft en wordt gediagnosticeerd: ware positieven (hits) Als iemand de stoornis heeft en niet wordt gediagnosticeerd: valse negatieven (misses) Als iemand de stoornis niet heeft en wel wordt gediagnosticeerd: valse positieven (false alarms) Als iemand de stoornis niet heeft en niet wordt gediagnosticeerd: ware negatieven (correct rejections) Sensitiviteit (testkenmerk): kans op positieve diagnose (D+) gegeven dat het individu de stoornis heeft (C+). Wordt berekend door a te delen door a+c (zie tabel) Specifiteit: hoe groot is de kans op een negatieve diagnose, gegeven dat iemand de stoornis niet heeft? Wordt berekend door d te delen door b+d. Positieve predictieve waarde: proportie ware positieven gegeven een positieve diagnose. Wordt berekend door a te delen door a+b Negatieve predictieve waarde: proportie ware negatieven gegeven een negatieve diagnose. Wordt berekend door d te delen door c+d De twee bovenstaande waardes zijn problematisch omdat de verhoudingen niet zijn zoals in de werkelijke representatie van de bevolking. Prevalentie: kans op aanwezigheid stoornis voor iemand uit de populatie Selectieratio: hoe groot is de kans dat iemand uit de populatie een positieve diagnose krijgt? (ware en valse positieven bij elkaar). Wordt berekend door: sensitiviteit x prevalentie + (1-specifiteit) x (1- prevalentie). Regel van Bayes voor predictieve accuratesse : hoe groot is de kans dat iemand daadwerkelijk de stoornis heeft bij positieve diagnose. Wordt berekend door: sensitiviteit x prevalentie / selectieratio Predictieve accuratesse van diagnostische test is afhankelijk van: Kwaliteit instrument (sensitiviteit en specificiteit) Voorkomen van stoornis, ziekte, trauma (prevalentie) Zelfs bij betrouwbaar instrument is bij lage prevalentie de kans op correcte beoordeling klein. Base rate neglect: het niet betrekken van (lage) prevalentie bij beoordeling van cliënt op basis van positieve diagnose en de sensitiviteit van de test. Predictieve accuratesse is bij lage prevalentie altijd laag. 18

Receiver Operating Characteristic (ROC) Voor een test zet je voor alle mogelijke grenswaarden tegen elkaar af: proportie ware positieven (sensitiviteit) proportie valse positieven (1 specificiteit) Area Under Curve Maat voor testkwaliteit Gevoeligheid van test voor onderscheiden van diagnostische categorieën (= testsensitiviteit) Grenswaarde β onafhankelijk van gekozen grenswaarde Wat is het gevolg van verplaatsen van grenswaarde voor proportie ware positieven en ware negatieven? Proportie van ware positieven gaat omglaag bij strengere grenswaarden Proportie van ware negatieven gaan omlaag bij strengere grenswaarden Gewenst: hoog percentage ware positieven en een lag percentage valse positieven. 19

College: Item-responstheorie Klassieke meetmodel Testscore wordt bepaald door ware score en meetfout. Het klassieke meetmodel heeft bepaalde onvolkomenheden die te item-responstheorie (IRT) niet heeft Schatting van psychometrische kenmerken zijn afhankelijk van de groep respondenten Bij de IRT zijn deze kenmerken afhankelijk van de groep. De testscores zeggen niks over afzonderlijke items. Bij de IRT zijn er itemscores in plaats van testscores. Meetfout is onafhankelijk van niveau respondent Bij de IRT kan de nauwkeurigheid van schatting variëren tussen respondenten. Meetniveau kan niet statistisch worden getoetst Bij de IRT zijn assumpties wel statistisch toetsbaar Klassieke testtheorie tests zijn vooral betrouwbaar voor middengroep, ontwikkeling is lastig vast te stellen. Bij de IRT is beoordeling van vooruitgang beter mogelijk. Alle respondenten moeten hele test maken, ook al hebben sommigen een hoger niveau dan anderen. Bij de IRT is testconstructie op maat mogelijk. De testscore X wordt bepaald door latente of ware score T en toevallige meetfout E. De waargenomen itemscore X wordt bepaald door de latente variabele T (theta). Dit kan een latente trek zijn (continu kenmerk; rekenvaardigheid, nervositeit etc.) of een latente klasse (discreet kenmerk; sekse, etnische achtergrond etc.). De items-responsfunctie (of item-karakteristieke functie of item-characteristic curve; ICC) geeft een relatie tussen het kenmerk (theta) en de succeskans op dat kenmerk. Er zijn twee soorten gegevens: 1. Dominantiegegevens: opgaven waar je vaardigheden kan tonen (bijv. cognitief), je kan dominant zijn over een bepaald item. 2. Preferentiegegevens: houdingen en attituden. Soorten antwoordcategorieën: 1. Continu of discreet 2. Geordend of niet geordend 3. Polytoom of dichotoom (meerdere antwoorden mogelijk / 2 antwoorden mogelijk). 20

Deterministisch model (Guttman) Item kan goed of fout worden beantwoord en is afhankelijk van het niveau dat je bezit over de vaardigheid. Als je dominant bent over een vaardigheid beantwoord je deze altijd goed en andersom beantwoord je deze altijd fout. Respons wordt beïnvloed door één latente trek (items zijn ééndimensionaal). Levert maximale discriminatie op tussen items. Probabilistisch model (Mokken, Rasch, Birnbaum) Ook ééndimensionaal. Functie is echter monotoon niet dalend (kans op goed beantwoorden van de vraag neemt toe met de latente trek). Parameters Giskans: kans op goed antwoord op item g bij zeer lage waarde van latente trek (afhankelijk van aantal alternatieven bij meerkeuze vragen). Moeilijkheid: waarde op latente trek (theta) waarvoor geldt dat de succeskans midden tussen 0 en 1 ligt. Discriminatie: onderscheidend vermogen. Itemsrespons wordt bepaald door één latente trek. Hierbij kan een item globaal afhankelijk zijn of lokaal onafhankelijk. Globaal afhankelijk: afname van test bij steekproef uit heterogene populatie: Proportie goede antwoorden is afhankelijk van gemiddelde vaardigheid in groep. Binnen hele groep positieve samenhang tussen item g en item h Lokale onafhankelijkheid: afname test in homogene subpopulatie: Kans op item g goed is onafhankelijk van item h goed. Liggen de kansen op antwoordpatronen vast. Mokkenmodel (probabilistisch) met monotone homogeniteit Aannamen: Ééndimensionaliteit (globale afhankelijkheid items, lokale onafhankelijkheid items) Succeskans p is monotoon niet-dalende functie Mokkenmodel met dubbele monotonie Met nog een extra aanname: item responsfuncties mogen elkaar ook niet snijden. 21