De genormaliseerde T-score

2010 9 MGv 65 684-695 edwin de beurs De genormaliseerde T-score Een euro voor testuitslagen Om in de gaten te houden of een behandeling goed werkt, zijn verschillende meetinstrumenten in omloop. Deze zijn echter niet compatibel, waardoor het moeilijk is om resultaten te vergelijken. De huidige behandelpraktijk meet, maar weet nog niet. Er is een standaardmaat nodig die de wisselkoersen omzeilt. In de ggz in Nederland wordt het steeds meer een goede gewoonte om regelmatig vast te stellen wat de aard of de ernst van de klachten van een patiënt zijn, en of de geboden behandeling wel het gewenste effect heeft. Daarbij worden verschillende testen ingezet. Bij de behandeling van veel voorkomende psychiatrische aandoeningen, zoals stemmings- en angststoornissen, is vooral de meetmethode met zelfrapportagevragenlijsten populair. De patiënt geeft voor een reeks symptomen of klachten aan in hoeverre deze de afgelopen periode optraden. Naast instrumenten met een generieke meetpretentie, zoals de scl-90 die geschikt is voor alle stoornissen in dit zorgdomein, is er nog een keur aan stoornisspecifieke vragenlijsten, bijvoorbeeld voor de paniekstoornis, de sociale fobie of persoonlijkheidsstoornissen. Zelfrapportage-instrumenten worden voornamelijk gebruikt bij de evaluatie van zorgprogramma s in een ambulante setting. Patiënten in ambulante zorg zijn doorgaans goed in staat hun eigen situatie of klachten te beoordelen en kunnen zo n vragenlijst dus goed invullen. Bij ernstige psychiatrische aandoeningen zoals psychotische stoornissen is dat beoordelingsvermogen vaak aangetast. In de zorg voor deze patiënten worden dan ook meestal beoordelingsschalen gebruikt, zoals de honos, mansa en can (Mulder e.a., 2010). Dit zijn vragenlijsten die worden ingevuld door de

de genormaliseerde t-score Kader 1 Soorten zelfrapportagevragenlijsten In de ggz worden generieke en stoornisspecifieke vragenlijsten gebruikt. De meest gebruikte zijn generieke vragenlijsten die naar algemene klachten vragen. De patiënt moet voor een reeks symptomen of klachten aangeven in hoeverre deze de afgelopen periode optraden. Voorbeelden hiervan zijn de Symptom Checklist (scl-90, Arrindell & Ettema, 1986) en de verkorte variant hiervan, de Brief Symptom Inventory (bsi; De Beurs & Zitman, 2006). In toenemende mate wordt tegenwoordig de Outcome Questionnaire gebruikt (oq-45; De Jong e.a., 2008). Andere vragenlijsten die worden toegepast zijn de Vier Dimensies Klachtenlijst (4dkl; Terluin, 1996), de Hospital Anxiety Depression Scale (hads; Spinhoven e.a., 1997) en de Depressie Angst Stress Schaal (dass; De Beurs e.a., 2001). Recentelijk geïntroduceerde vragenlijsten zijn de Clinical Outcomes in Routine Evaluation-Outcome Measure (core-om; Barkham e.a., 2005) en de Korte Klachten Lijst (kkl; Lange & Appelo, 2007). Er zijn ook verschillende stoornisspecifieke vragenlijsten. De vragen in deze lijsten zijn toegesneden op een bepaalde stoornis. Voor stemmingstoornissen bijvoorbeeld de bdi (Bouman e.a., 1985) of de ids (Nolen & Dingemans, 2009); voor de paniekstoornis de pol (De Beurs e.a., 2005); voor obsessieve-compulsieve stoornis de Padua (Van Oppen, 1992); voor sociale fobie de ioa (Van Dam-Baggen & Kraaimaat, 2003); voor posttraumatische stressstoornis de ies (Brom & Kleber, 1985); voor persoonlijkheidsstoornissen de dapp-bq (Van Kampen e.a., 2010) en de sipp (Verheul e.a., 2008). Voor minder vaak voorkomende stoornissen, zoals eetstoornissen, is er de edi (Van Strien, 2002). Stoornisspecifieke vragenlijsten hebben doorgaans iets betere psychometrische kenmerken (indien toegepast bij de juiste doelgroep) en zijn gevoeliger voor verandering, maar hebben een smaller toepassingsgebied dan generieke lijsten. De scl-90 en de bsi bieden naast een totaalscore die staat voor algemeen niveau van psychopathologie, ook gedetailleerde informatie over specifieke klachtgebieden zoals lichamelijke klachten, stemmingsklachten, angstklachten en fobische vermijding. De oq biedt op klachtgebied alleen een algemene score (de oq-sd), maar heeft als voordeel dat ook verbeteringen in de kwaliteit van interpersoonlijke relaties (familie, vrienden, oq-ir) en maatschappelijk functioneren (op werk of opleiding, oq-sr) uitgevraagd worden. De dass heeft naast een totaalscore specifieke schalen voor angst, depressie en stress. Met name de laatste schaal is interessant voor indicatiestelling en effectmeting van hulpverlening bij arbeidsgerelateerde problematiek (De Beurs e.a., 2010). De core-om biedt naast een algemene score voor de ernst van de klachten ook een subschaal over risico s (op terugval). De kkl is aangenaam kort met 13 items voor klachten en een open vraag, maar dit levert een wel erg globale meting op. Ten slotte is nog een belangrijk kenmerk dat sommige lijsten in het publieke domein en gratis beschikbaar zijn, terwijl andere alleen zijn te bekomen via een uitgever. De normering en documentatie van commerciële lijsten is doorgaans wat beter. Echter, naast dat het gebruik van commercieel beschikbare vragenlijsten enige kosten en administratieve last met zich meebrengt, is een groeiend probleem dat uitgevers meer en meer toestemming weigeren om vragenlijsten middels populaire (web)applicaties, zoals NetQ-rom, QuestManager of roqua aan respondenten aan te bieden. 685

de beurs behandelaar of door een onafhankelijke beoordelaar over de patiënt, meestal aan de hand van een kort interview met de patiënt. Iedere vragenlijst heeft specifieke voor- en nadelen en er zijn inhoudelijke verschillen tussen de instrumenten (zie kader 1). De uiteindelijke keuze van het instrument wordt bepaald door de doelen die met de behandeling worden nagestreefd: symptoomreductie, toegenomen vaardigheden, toegenomen kwaliteit van leven, et cetera. Behandelaars (en onderzoekers) kunnen verschillende opvattingen hebben over de doelstelling van behandeling. Maar alle behandelaars zijn het erover eens dat al deze verschillende meetinstrumenten een Babylonische spraakverwarring opleveren zodra we met elkaar uitkomsten willen uitwisselen. Een behandelaar die gewend is aan scl-90-scores communiceert niet gemakkelijk over de ernst van klachten van een patiënt met een collega die altijd de oq (Outcome Questionnaire) gebruikt. De huidige situatie in de ggz laat zich wat dat betreft vergelijken met de manier waarop in Europa over de prijzen van goederen of diensten werd gesproken voordat de euro werd ingevoerd. Sinds 2002 behoren wisselkoersen en omrekenen van geld in de euro-landen tot het verleden, en dat is ontegenzeggelijk te danken aan de invoering van de euro. Zoiets is ook wenselijk voor meetinstrumenten die gebruikt worden voor therapie-uitkomst. Vervangen van wisselkoersen voor de uitkomsten van veelgebruikte vragenlijsten door een gemeenschappelijke uitkomstmaat, zal het gebruik van meetinstrumenten in de ggz bovendien verder kunnen stimuleren. In dit artikel stel ik een nieuwe valuta, een euro voor uitkomstmaten in de ggz voor: de genormaliseerde T-score. Verschillende indelingen Testresultaten van meetinstrumenten of vragenlijsten zijn onderling niet zomaar te vergelijken, omdat ze uitgaan van verschillende schalen. De totaalscore op de scl-90 heeft een theoretisch bereik van 90 tot 450 punten (de somscore van 90 items met een mogelijke score van 1 tot 5), de oq-sd (Outcome Questionnaire-Symptom Distress subschaal) heeft een bereik van 0 tot 100 (de somscore van 25 items met een mogelijke score van 0 tot 4), en de totaalscore op de bsi (Brief Symptom Inventory) heeft een bereik van 0,00 tot 4,00 (gemiddelde score op 53 items met een mogelijke score van 0 tot 4). Deze schalen zijn betrekkelijk willekeurig gekozen en een score krijgt pas betekenis wanneer je de schaal kent en weet hoe bijvoorbeeld een gemiddelde patiënt scoort. Om een algemenere betekenis aan een uitkomst van een test te geven zijn verscheidene schaalvrije indelingen van scores voorgesteld. Met schaalvrij

de genormaliseerde t-score wordt hier bedoeld: los van de schaal van de oorspronkelijke ruwe scores op het meetinstrument. Heel bekend is de percentielscore. Deze is gebaseerd op een verdeling van scores van een populatie in honderd gelijke delen. Een percentielscore van 95 houdt bijvoorbeeld in dat de respondent in de extreme 5% van de populatie scoort en dat slechts 5% van de populatie nog hoger scoort. Andere indelingen zijn stanines (negen gelijke intervallen van elk een halve standaarddeviatie breed) of kwartielen (telkens een interval van een kwart van de populatie). Normtabellen maken eigenlijk ook gebruik van een schaalvrije indeling van scores. Daarin wordt een betekenis aan uitkomsten op een vragenlijst toegekend met begrippen als zeer hoog, hoog, bovengemiddeld et cetera. Aan deze indeling ligt vaak een percentielscore ten grondslag van respectievelijk 5% (zeer laag), 20%, 40%, 60%, 80% en 95% (zeer hoog). Ten slotte zijn er indelingen van scores gebaseerd op de schaalvrije standaardscore of Z-score. Z-scores worden berekend door van de ruwe score het populatiegemiddelde af te trekken en het resultaat te delen door de standaardafwijking. Dit resulteert in een score met een gemiddelde van 0 en een standaarddeviatie van 1.De T-score is daar een voorbeeld van. 687 De T-score Al in de jaren twintig van de vorige eeuw stelde McCall (1922) als schaalvrije score de T-score voor. De keuze voor de letter T was een eerbewijs aan Edward Tellegen en Lewis Terman, aartsvaders in de Amerikaanse psychologie die zich vooral bezighielden met meten in de onderwijspsychologie. Er zijn twee varianten van de T-score: de lineaire T-score en de genormaliseerde T-score (zie ook Klugh, 2006). Lineaire T-score De lineaire T-score is in feite een directe omzetting van de Z-score. De Z-score heeft een gemiddelde van 0 en een standaarddeviatie van 1. Een score met een gemiddelde van 0 is echter wat lastig in het dagelijks gebruik. De helft van de patiënten heeft een negatieve score en de meeste patiënten hebben een decimaal in hun score. Om tot een wat handzamere score te komen stelde McCall voor de Z-score te vermenigvuldigen met 10 en op te hogen met 50 punten: de lineaire T-score. Per definitie is het gemiddelde van de T-score dus 50 en de standaarddeviatie [10. 1 ] Uitgaande van een normaalverdeling corresponderen T-scores met percentielscores zoals weergegeven in tabel 1. De betekenis zoals vaak gebruikt in normtabellen is ook weergegeven in tabel 1: de hoogste 5% van de scores is zeer hoog, van 80 tot 95% is hoog, van 60

de beurs tot 80% is bovengemiddeld, van 40 tot 60% is gemiddeld, enzovoorts. Om gevoel te krijgen voor de betekenis van de T-score is in het rechtergedeelte van tabel 1 voor opeenvolgende T-scores weergegeven hoe hoog de bijpassende percentielscore is. De meeste patiënten hebben een T-score tussen de 30 en de 70 (95% van de patiënten); 99,73% scoort tussen 20 en 80. Scores buiten dit bereik zijn dus zeer uitzonderlijk. Tabel 1 Onderlinge verhouding van percentielscores, Z-scores en T-scores en hun betekenis Uitgaande van percentielen: Uitgaande van T-scores: Percentiel Z-score T-score Betekenis T-score Z-score Percentiel 0,01-3,090 19,10 10-4,00 0,00 0,5-2,576 24,24 15-3,50 0,02 1-2,326 26,74 Zeer laag 20-3,00 0,13 5-1,645 33,55 25-2,50 0,62 10-1,282 37,18 Laag 30-2,00 2,28 20-0,842 41,58 35-1,50 6,68 30-0,524 44,76 Beneden gemiddeld 40-1,00 15,87 40-0,253 47,47 45-0,50 30,85 50 0,000 50,00 Gemiddeld 50 0,00 50,00 60 0,253 52,53 55 0,50 69,15 70 0,524 55,24 Boven gemiddeld 60 1,00 84,13 80 0,842 58,42 65 1,50 93,32 90 1,282 62,82 Hoog 70 2,00 97,72 95 1,645 66,45 75 2,50 99,38 99 2,326 73,26 Zeer hoog 80 3,00 99,87 99,5 2,576 75,76 85 3,50 99,97 99,9 3,090 80,90 90 4,00 99,99 Het omzetten van een ruwe score naar een T-score is eenvoudig wanneer de ruwe scores normaal verdeeld zijn, dat wil zeggen als hun frequentieverdeling het bekende klokvormige beeld geeft: de meeste scores bevinden zich rond het gemiddelde en zijn symmetrisch verdeeld. Dit is bijvoorbeeld het geval bij de schaal voor Symptomatic Distress van de oq. De oq-sd-schaal heeft bij een ambulante klinische populatie 2 een gemiddelde waarde van M oq-sd = 48,5 en een standaarddeviatie van 15,9 (De Beurs e.a., 2001). De T-score wordt in dit geval berekend als T = ((ruwe score 48,5)/15,9)*10) + 50. Een oq-sd-score van 48 T=50; 64 T=60; 32 T=40, et cetera. Op de site van het MGv

de genormaliseerde t-score (www.trimbos.nl/mgv) en die van kznbenchmarking (www. kznbenchmarking. nl) staan gedetailleerdere gegevens voor de omzetting van ruwe scores, T-scores en percentielscores voor de oq-sd en andere instrumenten. Een vragenlijst met niet-normaal verdeelde scores is de bsi. Bij nietnormaal verdeelde scores is het beeld asymmetrisch. In figuur 2 op pagina 691 wordt linksboven de frequentieverdeling van bsi-totaalscores weergegeven van een omvangrijke dataset (9895 patiënten van ggz Rivierduinen met een stemmings-, angst of somatoforme stoornis, gemeten voorafgaande aan hun behandeling). De gemiddelde totaalscore is M bsi-tot =1,18, sd= 0,73. Er is een normaalverdeling over de frequentieverdeling geprojecteerd. Duidelijk is dat de verdeling van de ruwe bsi-scores niet voldoet aan het klokvormige beeld van de normaalverdeling. De theoretische range van de scores loopt van 0,00 tot 4,00. Het rekenkundige midden van de schaal ligt bij 2,00, maar slechts weinig patiënten scoren boven 2,00. De verdeling is niet symmetrisch, maar scheef naar rechts. Dit betekent dat een verschuiving in ruwe score van 3,00 naar 2,00 geringer is dan een verschuiving van 1,50 naar 0,50 in termen van de relatieve positie in de populatie. 689 Genormaliseerde T-score Bij een niet-normale verdeling van de oorspronkelijke ruwe scores geeft een lineaire omzetting naar T-scores ook niet-normaal verdeelde T-scores. De directe relatie met percentielscores gaat dan verloren. In dit geval moet een genormaliseerde T-score bepaald worden (Anastasi, 1976; Klugh 2006; McCall, 1922). Normaliseren is nodig om een standaardscore weer in het juiste perspectief te plaatsen (een T-score van 30 staat gelijk aan de laagste 2,3 % van de populatie) en is ook een voorwaarde voor eenvoudige rekenkundige bewerkingen van scores; om het effect van een behandeling te bepalen moet je een verschilscore tussen begin- en eindmeting kunnen berekenen. Zo n rekenkundige bewerking vereist op zijn minst een intervalschaal, wat betekent dat een verschuiving van 60 naar 50 van dezelfde omvang is als een verschuiving van 50 naar 40. De aanpak om ruwe scores te normaliseren is al in 1922 door McCall voorgesteld en staat in de literatuur ook wel bekend als area transformation (McCall, 1922, zie kader 2 voor een stap-voor-stap uiteenzetting van de procedure.) Op de website www.kznbenchmarking.nl is voor de meest voorkomende genormaliseerde T-scores de corresponderende ruwe score (of range van ruwe scores) op verschillende vragenlijsten weergegeven. In figuur 1 is de normaalverdeling weergegeven en daaronder de verhouding van T-scores met de schalen van de vier meest gebruikte uitkomst instrumenten, de oq-sd, de dass, de scl-90, en de bsi. Bij de totaalscores op de scl-90, bsi en dass is normalisering toegepast. In Tabel 2 worden de

de beurs formules voor de omzetting van ruwe scores naar (genormaliseerde) T-scores gegeven. Voor de oq-sd is normaliseren niet nodig en volstaat een lineaire transformatie; het effect van normalisering bij de dass-scores is eigenlijk minimaal. De ruwe scores op dit instrument zijn ook nagenoeg normaal verdeeld. Bij de scl-90 en de bsi heeft normaliseren wel een duidelijk effect. Figuur 1 Normaalverdeling, T-score en (sub)schalen van de oq, dass, scl-90 en bsi Tabel 2 Formules voor T-score-berekening voor vier meetinstrumenten Schaal omrekenfactor Bron van data bsi 2,06x 3-11,66x 2 + 31,24x + 27,89 N = 9895 van ggz Rivierduinen scl-90 31,43 * Ln(x)- 114,08 N = 1250 van ggz Ingeest oq-sd 0,63x + 19,69 N = 759 van ggz Rivierduinen dass -0,01x 2 + 0,94x + 29,89 N = 1500 van Interapy Kader 2 Van ruwe schaalscores naar genormaliseerde T-scores Het omzetten van ruwe schaalscores naar genormaliseerde T-scores bestaat uit de volgende stappen. Eerst worden alle percentielscores in de relevante populatie bepaald (percentile ranks). Dit betekent dat in de frequentieverdeling van scores gezocht wordt naar de grenswaarde waarboven 1% van de patiënten scoort, waarboven 2% scoort, enzovoorts. Elke percentielwaarde krijgt zo een bijbehorende ruwe score. De percentielscores hebben per definitie een vaste relatie met standaardscores volgens de standaardnormale verdeling (een percentielscore van 2,5 heeft een Z-waarde van 1,96; 5%=1,65; 10%=1,28; 50%=0,00 etc, zie Tabel 1). De percentielscores kunnen dus direct vertaald worden naar Z-scores. Deze Z-scores worden met 10 vermenigvuldigd en met 50 opgehoogd om uiteindelijk T-scores te krijgen. De wiskundige vergelijking voor de relatie tussen ruwe scores en genormaliseerde T-scores kan bepaald worden middels curve estimation, bijvoorbeeld met de regression module van spss. We zetten daarvoor de ruwe bsi-scores af tegen de genormaliseerde T-scores (Figuur 2, linksonder).

de genormaliseerde t-score Figuur 2 Frequentieverdeling van totaalscores op de bsi voor normalisering en erna 691 Een optimale passendheid (fit) wordt bij de bsi bereikt met een derdemachtsvergelijking. Voor de bsi-totaalscore is deze vergelijking y= 2,06x 3-11,66x 2 + 31,24x + 27,89. Hierin is x de ruwe score en y de genormaliseerde T-score. Met deze vergelijking is voor elke mogelijke score op de bsi de corresponderende genormaliseerde T-score te bepalen. De resulterende T-score heeft weer een gemiddelde van 50, een standaarddeviatie van 10 en is normaal verdeeld (zie rechtsboven in Figuur 2). De schaal is pas na normalisering te beschouwen als een echte intervalschaal en er mogen nu rekenkundige bewerkingen op toegepast worden. Zoals uit de curve linksonder in Figuur 2 valt op te maken is er voor ruwe scores tussen 1,00 en 3,00 sprake van een bijna lineaire relatie met de T-score; voor scores onder de 1,00 en boven de 3,00 is de relatie duidelijk anders. De s-vormige relatie tussen ruwe scores en genormaliseerde T-scores komt vooral tot uiting in een oprekking van de schaal in het lage scorebereik en inkrimping rond het midden. Het instrument wordt met deze ingreep dus gevoeliger gemaakt voor het scorebereik waarin de meeste patiënten scoren. Dat het ook echt klopt met de T-score wordt beschreven in Kader 3. Hier wordt aan de hand van data van een groep patiënten die zowel de oq als de bsi hebben ingevuld, geïllustreerd dat genormaliseerde T-scores op beide instrumenten goed overeenkomen en dat de samenhang tussen uitkomsten door T-score conversie nog iets toeneemt.

de beurs Kader 3 Overeenkomst tussen T-scores van de oq en de bsi Bij een groep van 759 patiënten van ggz Rivierduinen met angst-, stemmings- en somatoforme stoornissen werd voorafgaande aan de behandeling zowel de oq als de bsi afgenomen. De gemiddelde voormetingsscore op de oqsd-schaal bij deze groep patiënten is M oq-sd = 43,1 (sd=15,7); op de bsi-totaalscore is de gemiddelde score M bsitot = 0,98 (sd=0,64). De correlatie tussen de ruwe scores is r = 0,81, p < 0,001, wat de convergente validiteit van de twee instrumenten onderstreept. Na conversie in genormaliseerde T-scores bedraagt de gemiddelde T oq-sd = 47,1 (sd=9,9) en de gemiddelde T bsi-tot = 47,3 (sd=9,1). De twee T-scores komen dus goed overeen (getoetst met een t-toets voor gepaarde waarnemingen: t (758)= 1,17, p = 0,16). De correlatie tussen beide uitkomstmaten is na T-score conversie nog iets hoger: r = 0,83, p < 0,001. Dat laatste laat zich verklaren doordat de relatie tussen de ruwe scores van de oq-sd en de bsi niet lineair is (vanwege de niet-normale verdeling van de bsi-scores) en die tussen de genormaliseerde T-scores wel. Verschilscores nodig Het effect van behandeling in de ggz wordt doorgaans uitgedrukt in het verschil tussen de testscore op een vragenlijst voorafgaande aan de behandeling, en de testscore bij afsluiting. Het gaat hier dus om verschilscores. Een verandering in ruwe score op de scl-90 van 180 naar 130 (een verschilscore van 50 punten, wat betekent: minder klachten en een gebruikelijk effect van behandeling) staat gelijk aan 0,8 standaarddeviatie verschuiving. In percentielscores staat deze verschuiving gelijk aan een verschuiving van 46% naar 14% ofwel van gemiddelde score vergeleken met alle patiënten naar laag vergeleken met alle patiënten. De totaalscore op de bsi wordt met name in de lagere regionen van scores sensitiever voor verandering. Hetzelfde gaat op voor de scl-90. De omzetting in T-scores correspondeert met een pre- en postverschil in T-score van 49 naar 39, 10 punten oftewel 1,0 standaarddeviatie verschil. De effectgrootte groeit dus na T-score-omzetting van 0,8 naar 1,0. Deze toename in gevoeligheid van de behandelde patiënt voor verandering is een resultaat van oprekking van de schaal in het gebied waar de meeste respondenten scoren en maakt het meetinstrument dus geschikter om therapie-effect aan te tonen. In de inleiding werden ook beoordelingsschalen zoals de honos en de mansa genoemd. Voor dit artikel is deze groep instrumenten buiten beschouwing gebleven en niet als illustratiemateriaal gebruikt. De voorgestelde methode om te komen tot genormaliseerde T-scores en de voordelen van T-scores boven ruwe scores zijn echter net zo goed van toepassing bij beoordelingsschalen.

de genormaliseerde t-score Praktijkvoordeel De ggz-praktijk zal baat hebben bij een eenduidige maat om testuitslagen over de ernst van de klachten van een patiënt in uit te drukken. Om uitkomsten op verschillende instrumenten onderling direct te kunnen vergelijken moeten er twee bewerkingen worden toegepast op de ruwe scores: standaardiseren en normaliseren. Standaardiseren zet ruwe scores om in standaardscores (Z-scores) met een gemiddelde van 0 en een standaarddeviatie van 1. Door normaliseren krijgen scheve frequentieverdelingen een normaalverdeling en wordt de meetschaal een ware intervalschaal. Dit is een vereiste voor eenvoudige rekenkundige bewerkingen zoals het verschil berekenen tussen een voor- en een nameting rond een behandeling. De genormaliseerde T-score is zowel gestandaardiseerd als genormaliseerd, wat betekent dat er bruikbare en begrijpelijke verschillen tussen voor- en nameting van de effecten van een behandeling mee zijn te verkrijgen. De T-score heeft een gemiddelde waarde van 50 en een standaarddeviatie van 10. 95% van de patiënten heeft een score tussen de 30 en de 70. Bijkomend voordeel is dat meetinstrumenten met een niet-normale frequentieverdeling gevoeliger worden voor het detecteren van verandering in ernst van de klachten. Breed gebruik van de voorgestelde euro voor testuitslagen zal enige inspanning en gewenning vergen van het ggz-veld. Het grote voordeel is echter dat het de eenduidigheid bij het beoordelen van testuitslagen ten goede komt en er een handzame schaalvrije grootheid voor therapie-effect ontstaat. Voor het uitdrukken van intellectuele vaardigheden beschikken we al ruim een eeuw over standaardisering met de iq-score; een vergelijkbare standaardisering op het gebied van psychische klachten zal vooral voor de gebruikers van testuitslagen een welkome vooruitgang zijn. 693 n

de beurs Noten 1 We zijn allemaal vertrouwd met een vergelijkbare grootheid, de iq-score, die feitelijk een Z-score is met 15 vermenigvuldigd en met 100 punten opgehoogd. De gemiddelde Nederlander heeft een iq van 100, 68% van de Nederlanders heeft een iq tussen 85 en 115. 2 Als uitgangspunt voor standaardiseren is gekozen voor het gemiddelde en standaarddeviatie van een klinische populatie. Dat is in zekere zin arbitrair: men zou ook kunnen kiezen voor het gemiddelde en standaarddeviatie van een normale populatie, bijvoorbeeld een steekproef uit de bevolking. De reden en rechtvaardiging om toch te kiezen voor de klinische populatie is dat meetinstrumenten zoals de scl-90 en de oq vooral bedoeld zijn om de ernst van klinische fenomenen in kaart te brengen. Deze instrumenten dienen dan ook gecalibreerd te zijn op de klinische populatie en daaruit vloeit logisch voort de klinische populatie een gemiddelde Z-score van 0 toe te wijzen. Gezonde respondenten zullen dus doorgaans lager scoren (een hele tot anderhalve standaarddeviatie lager). Literatuur Anastasi, A. (1976). Psychological Testing. New York: MacMillan. Arrindell, W.A., & Ettema, J.H.M. (1986). scl-90. Handleiding bij een multidimensionele psychopathologie-indicator. Lisse: Swets & Zeitlinger. Barkham, M., Gilbert, N., Connell, J., e.a. (2005). Suitability and utility of the core-om and core-a for assessing severity of presenting problems in psychological therapy services based in primary and secondary care settings. British Journal of Psychiatry, 186, 239-246. Beurs, E. de, & Zitman, F.G. (2006). De Brief Symptom Inventory (bsi): De betrouwbaarheid en validiteit van een handzaam alternatief voor de scl-90. Maandblad Geestelijke volksgezondheid, 61, 120-141. Beurs, E. de, Hollander-Gijsman, M. den, Buwalda, V., e.a. (2005). De Outcome Questionnaire (oq-45): een meetinstrument voor meer dan alleen psychische klachten. De Psycholoog, 40, 53-63. Beurs, E. de, Smit, J.H., & Comijs, H. (2005). De Paniek Opinie Lijst (pol). De betrouwbaarheid en validiteit van een cognitieve maat voor paniekstoornis. Gedragstherapie, 38, 141-155. Beurs, E. de, Van Dyck, R., Marquenie, L.A., e.a. (2001). De dass: een vragenlijst voor het meten van depressie, angst en stress. Gedragstherapie, 34, 35-53. Beurs, E. de, Zweden, S. van, & Hamming, C. (2010). De bruikbaarheid van de dass voor evaluatie van de behandeling van arbeidsgerelateerde psychische klachten. Tijdschrift voor Bedrijfs- en Verzekeringsgeneeskunde, 18, 103-109. Bouman, T.K., Luteijn, F., Albersnagel, F.A. & van der Ploeg, F.A.E. (1985). Enige ervaringen met de Beck Depression Inventory (bdi). Gedrag, 13, 3-24. Brom, D., & Kleber, R.J. (1985). De Schok Verwerkings Lijst. Nederlands Tijdschrift voor de Psychologie, 40, 164-168. Dam-Baggen, R. van, & Kraaimaat, F.W. (2003). Inventory of Interpersonal Situations (iss). In J. Hoyer & J. Margraf (Eds.), Angstdiagnostik, pp.267-271. Berlin: Springer Verlag. Gulliksen, H. (1950). Theory of Mental Tests. New York: John Wiley & Sons. Jong, K.de, Nugter, M.A., Polak, M., e.a. (2008). De Nederlandse versie van de Outcome Questionnaire (oq-45): Een crossculturele validatie. Psychologie & Gezondheid, 36, 35-45. Kampen, D. van & de Beurs, E. (2010). dapp-bq dimensionale assessment van persoonlijkheidspathologie, inclusief Nederlandse screeningsversie. Amsterdam: Hogrefe. Klugh, H.E. (2006). Normalized T Scores. In S. Kotz, C.B. Read, N. Balakrishnan, & B. Vidakovic (Eds.),

de genormaliseerde t-score Encyclopedia of Statistical Sciences, 2nd edition. New York: John Wiley & Sons. Lange, A., & Appeloo, M. (2007). Korte klachten lijst (kkl) handleiding. Houten: Bohn Stafleu Van Lochum. McCall, W.A. (1922). How to measure in education. New York: Macmillan. Mulder, C.L., Gaag, M. van der, Bruggeman, R., e.a. (2010). Routine ontkomen monitoring voor patiënten met ernstige psychiatrische aandoeningen; een consensusdocument. Tijdschrift voor Psychiatrie, 52, 169-179. Nolen, W.A., & Dingemans, P.M.A.J. (2004). Meetinstrumenten bij stemmingsstoornissen. Tijdschrift voor Psychiatrie, 10, 681-686. Oppen, P. van (1992). Obsessions and compulsions: dimensional structure, reliability, convergent and divergent validity of the Padua Inventory. Behaviour Research and Therapy, 30, 631-637. Spinhoven, Ph., Ormel, J., Vloekers, P.P.A., e.a. (1997). A validation study of the Hospital Anxiety and Depression Scale (hads) in different groups of Dutch subjects. Psychological Medicine, 27, 363-370. Strien, T. van (2002). edi-ii Eating Disorder Inventory - ii (edi-iii-nl Nederlandse versie) Lisse: Swets Test Publishers. Terluin, B. (1996). De Vierdimensionale Klachtenlijst (4dkl). Huisarts en Wetenschap, 39, 538-547. Verheul, R., Andrea, H., Berghout, C., e.a. (2008). Severity indices of personality problems (sipp- 118): Development, factor structure, reliability and validity. Psychological Assessment, 20, 23-34 van behandelingen niet vergelijkbaar zijn. Om de communicatie te vergemakkelijken stelt de auteur een conversie van scores voor die is gebaseerd op standaardscores: genormaliseerde T-scores. Dit slaat twee vliegen in een klap: uitkomsten worden direct vergelijkbaar en de omzetting zorgt voor een score met een normale verdeling. Zo ontstaat een intervalschaal waarmee het verschil tussen een testscore voor en na de behandeling eenduidig is te interpreteren. De implicaties van deze standaardisering zijn vooral van belang voor de praktijk van alledag en voor alle behandelaars die gebruikmaken van meetinstrumenten. De T-scoreconversie wordt gedemonstreerd bij de scl-90, de bsi, de oq-45 en de dass (zie figuur 1). Op de sites (www.trimbos.nl/mgv) en www.kznbenchmarking.nl wordt een tabel geboden waarin voor elke ruwe score op deze instrumenten de bijbehorende T-score kan worden opgezocht. Personalia Dr E. de Beurs (1959) was belast met opzet en uitvoering van Routine Outcome Monitoring op het lumc en bij Rivierduinen. Hij werkt nu als inhoudelijk directeur bij Kenniscentrum Zorg Nederland (kzn) te Bilthoven. Edwin.debeurs@kznbenchmarking.nl Reageer op dit artikel via www.trimbos.nl/mgv 695 Samenvatting E. de Beurs De genormaliseerde T-score. Een euro voor testuitslagen Het documenteren van effect van behandeling in de ggz neemt toe. Er worden verschillende meetinstrumenten gebruikt die elk uitgaan van een eigen schaal, waardoor testresultaten en uitkomsten