De Effectiviteit van de Validiteitschalen van de MMPI-2 en MMPI-2-RF om het Veinzen

De Effectiviteit van de Validiteitschalen van de MMPI-2 en MMPI-2-RF om het Veinzen van een Stoornis te Detecteren bij Forensische en Arbeidsongeschiktheidsevaluaties Eindversie Annemiek Vial (6045650) Begeleider: Arjen Noordhof Datum: 29 juni 2012

Abstract De MMPI-2 en MMPI-2-RF worden gebruikt bij forensische en arbeidsongeschiktheidsevaluaties om persoonlijkheidsstoornissen en andere psychopathologie te diagnosticeren. De MMPI-2 en MMPI-2-RF hebben validiteitschalen om veinzen van een stoornis te detecteren. De effectiviteit van deze schalen bij forensische en arbeidsongeschiktheidsevaluaties wordt in dit literatuuroverzicht bekeken. De resultaten van de verschillende onderzoeken geven geen eenduidig beeld. Van de schalen van de MMPI-2 blijkt de Fake Bad Scale het effectiefst. Van de infrequency scale, infrequency-back scale, infrequency-psychopathology scale en dissimulation index varieert de effectiviteit. Het sequential model blijkt effectief, mogelijk zijn de schalen effectiever als ze gecombineerd worden. De Response Bias Scale blijkt effectief maar of de schaal incrementele validiteit heeft is nog onduidelijk. De validiteitschalen Infrequent Responses scale, Infrequent Psychopathology Responses scale en de infrequent somatic responses scale van de MMPI-2-RF blijken in de meeste onderzoeken effectief. Maar de schalen zijn minder effectief bij vrouwen, mensen die getraind zijn om een stoornis te veinzen en bij mensen met een depressie. De validiteitschalen van de MMPI-2-RF zijn het effectiefst. De MMPI-2-RF validiteitschalen kunnen als hulpmiddel gebruikt worden om veinzen van en stoornis te onderzoeken maar kunnen niet als sluitend worden gezien bij het nemen van een beslissing. 2

Een belangrijk probleem bij forensische en arbeidsongeschiktheidsevaluaties is dat de persoon er mogelijk voordeel van heeft om een diagnose van een stoornis te krijgen. Hierdoor zouden mensen mogelijk kunnen gaan proberen te doen alsof zij een stoornis hebben. Er wordt geschat dat bij 15% tot 19% van de forensische evaluaties en bij 30% van de arbeidsongeschiktheidsevaluaties te maken hebben met overdrijven van symptomen (Steffan, Morgan, Lee & Sellbom, 2010). De Minnesota Multiphasic Personality Inventory-2 (MMPI-2) is een veel gebruikte zelfrapportage vragenlijst bij forensische en arbeidsongeschiktheidsevaluatie. De MMPI-2 wordt gebruikt bij het diagnosticeren van persoonlijkheidsstoornissen en andere psychopathologie. De vragenlijst bestaat uit ruim vijfhonderd waar of niet waar items die verdeeld kunnen worden in tien klinische schalen die worden gebruikt om een diagnose te stellen. Daarnaast zijn er validiteitschalen om te kijken of de deelnemer wel consequent antwoord geeft en of er over- of onderrapportage van symptomen plaats vindt. In dit literatuuroverzicht zal het gaan over de validiteitschalen voor het detecteren van overrapportage van symptomen. Doordat het veinzen van stoornissen bij forensische en arbeidsongeschiktheidsevaluaties regelmatig voorkomt is het van belang dat de validiteitschalen bij deze populaties effectief zijn. Juist doordat deze populaties zo anders zijn dan reguliere psychologische evaluaties is het van belang dat de werking van de validiteitschalen onderzocht wordt bij de populaties zelf. De effectiviteit van de schalen zou bij de forensische en arbeidsongeschiktheidsevaluaties kunnen verschillen van de reguliere evaluaties. Dit kan van grote invloed zijn op de interpretatie van de scores van de validiteitschalen. De deelnemers van forensische en arbeidsongeschiktheidsevaluaties worden ook los van elkaar bekeken omdat deze van elkaar verschillen. De deelnemers van forensische evaluaties hebben vaker verslavingen en persoonlijkheidsstoornissen, terwijl de deelnemers van arbeidsongeschiktheidsevaluaties vaker neurologische, somatische en werkstress gerelateerde emotionele problemen hebben (Wygant, Sellbom, Gervais, Ben-Porath, Stafford en Freeman, 2010). 3

Daarnaast zijn de deelnemers van forensische evaluaties vaker mannen. Het is dus van belang dat beide populatie los van elkaar onderzocht worden. De MMPI-2 heeft vijf validiteitschalen die voor het detecteren van het veinzen van een stoornis worden gebruikt. De infrequency scale (F) kijkt of iemand regelmatig een ongewoon antwoord geeft op de 60 items van de F schaal. Een ongewoon antwoord is bepaald aan de hand van een gestandaardiseerde groep. Van die groep geeft tenminste 90% hetzelfde antwoord op de items. Als iemand vaak niet hetzelfde antwoord geeft als die groep wordt het als afwijkend gezien. De infrequency-back scale (Fb) werkt hetzelfde als de F schaal maar de items zitten aan het eind van de vragenlijst. De infrequency-psychopathology scale (Fp) werkt ongeveer hetzelfde als de F schaal maar dan is de gestandaardiseerde groep een groep met psychiatrische problemen. De items gaan over symptomen van psychische stoornissen. De dissimulation index (F-K) wordt berekend door de F schaal min de correction scale (K) te doen. De K schaal is ontwikkeld om mensen met een stoornis die geen verhoogde scorers laten zien op de MMPI-2 als nog te kunnen onderscheiden. Op die manier kan het aantal vals negatieve uitkomsten verminderend worden. De items van de K schaal gaan over subtielere klachten van psychische stoornissen. Door de F-K schaal te berekenen wordt er gekeken naar de verhouding tussen overdreven en subtiele symptomen. Daarnaast is er ook de Fake Bad Scale (FBS). De FBS is ontwikkelend door Lees-Haley, English, and Glenn (1991) om mensen die symptomen veinzen te kunnen onderscheiden. De items werden geselecteerd op basis van de inhoud en ongepubliceerd onderzoek over de frequentie van scores op de items van veinzers op de MMPI. In dit literatuuroverzicht zal worden gekeken of deze MMPI-2 validiteitschalen effectief zijn in het detecteren van het veinzen van een stoornis bij forensische en arbeidsongeschiktheidsevaluaties. In 2008 is een vernieuwde versie van de MMPI-2 uitgebracht, de MMPI-2-Restructured Form (MMPI-2-RF). Deze versie bestaat uit minder items, de schalen zijn aangepast en er is een nieuwe validiteitschaal toegevoegd. De F schaal is nu de Infrequent Responses scale (F-r), de Fp schaal is de Infrequent Psychopathology Responses scale (Fp-r) en de FBS heet nu de FBS-r. Daarnaast is er 4

nieuwe schaal, de infrequent somatic responses scale (Fs). Deze schaal is ontwikkeld om het veinzen van somatische klachten te detecteren. Dit wordt op dezelfde manier gedaan als de F en Fp schalen maar de items gaan hier over somatische klachten. De effectiviteit van de validiteitschalen van de MMPI-2-RF in het detecteren van het veinzen van een stoornis bij forensische en arbeidsongeschiktheidsevaluatie wordt in literatuuroverzicht ook bekeken. Om de effectiviteit te bepalen wordt er onder andere gekeken naar de effectsize, hitrate, sensitiviteit, specificiteit, positief voorspellende waarde en negatief voorspellende waarde. In dit literatuuroverzicht wordt steeds Cohen s d gebruikt voor de effectsize. De grootte van het effect wordt bepaald aan de hand van het verschil tussen de gemiddelden in standaard deviaties. Bij een grote effectsize is er dus een groot verschil in de scores op de validiteitschalen tussen de veinzende en de eerlijke groep. Een effectsize van 0.8 en hoger wordt als een groot effect gezien, tussen de 0.5 en 0.8 als een middelmatig effect en kleiner dan 0.5 is een klein of geen effect. De hitrate van een validiteitschaal laat zien hoe vaak de schaal iemand op basis van de score goed indeelt in de groep waar hij hoort. De sensitiviteit laat zien wat de kans is dat iemand die zich slechter voordoet op de MMPI gedetecteerd zal worden door een validiteitschaal. Hoe hoger de sensitiviteit, hoe groter de kans dat iemand die veinst gedetecteerd zal worden door de schaal. De specificiteit laat zien wat de kans is dat iemand die eerlijk antwoord geeft op de MMPI niet gedetecteerd zal worden door de validiteitschaal. De sensitiviteit en specificiteit zijn van belang om te bepalen hoe goed de vragenlijst bruikbaar is. De positief voorspellende waarde is de kans dat iemand echt veinst als de test aangeeft dat er geveinsd wordt. De negatief voorspellende waarde geeft de kans aan dat iemand eerlijk antwoord geeft als dat uit de test blijkt. Deze voorspellende waarden zijn afhankelijk van de populatie, waardoor het extra van belang is dat er voor de forensische en arbeidsongeschiktheidsevaluaties gekeken wordt naar deze waarden. Zeker omdat in deze populaties het aantal veinzers hoger is dan bij reguliere psychologische evaluaties. Hierdoor zouden de validiteitschalen bij reguliere 5

psychologische evaluaties een grote kans op vals positieven hebben. De positief en negatief voorspellende waarde zijn dus van belang om vast te kunnen stellen hoe bepalend een score op de validiteitschalen is. Daarnaast wordt er in een aantal onderzoeken gekeken naar de incrementele validiteit van de schalen ten opzichte van de andere schalen. Incrementele validiteit betreft de vraag of een bepaalde schaal de voorspellende waarde van de MMPI-2 of MMPI-2-RF verhoogt. Wanneer de schaal incrementele validiteit heeft zal die schaal er voor zorgen dat de MMPI-2 of MMPI-2-RF beter is in het vaststellen of iemand veinst. Het is dan beter om die schaal wel bij de MMPI-2 of MMPI-2- RF te hebben. Als een validiteitschaal geen incrementele validiteit heeft voegt het niets toe ten opzichte van de andere schalen en kan dan beter uit de MMPI-2 of MMPI-2-RF verwijderd worden. Als eerste zullen de onderzoeksmethodes die gebruikt zijn besproken worden. Daarna zal de effectiviteit van de MMPI-2 validiteitschalen voor het veinzen van een stoornis bekeken worden. Vervolgens wordt de Response Bias Scale (RBS) besproken, dat is een schaal die ontwikkeld is om het veinzen van cognitieve klachten te detecteren. En tot slot zal de effectiviteit van de validiteitschalen van de MMPI-2-RF besproken worden. Onderzoeksmethoden Om de effectiviteit van de validiteitschalen te meten zijn er twee onderzoeksmethoden die veel worden gebruikt; de bekende groep methode en simulatie onderzoek. Bij de bekende groep methode zitten de deelnemers in een groep waarvan bekend is dat zij mogelijk voordeel hebben bij de diagnose van een stoornis. In dit literatuuroverzicht zijn het meestal mensen die mee deden aan forensische en arbeidsongeschiktheidsevaluaties. Om te kunnen onderscheiden wie er binnen die groepen een stoornis veinsden, gebruikten de onderzoekers verschillende externe criteria. In de 6

meeste gevallen werd er gebruik gemaakt van Symptom Validity Tests. Deze tests worden gebruikt om het veinzen van cognitieve klachten te meten. De volgende Symptom Validity Tests zijn het meest gebruikt in de literatuur van deze these: Test of Memory Malingering, Word Memory Test, Computarized Assesment of Response Bias en de Victoria Symptom Validity Test. De Test of Memory Malingering (TOMM) is een visuele herkenningstest die wordt gebruikt om geveinsde geheugenproblemen te onderscheidde van echte klachten. De deelnemers krijgen plaatje te zien die ze vervolgens moeten herkennen. Door te kijken naar scores van de deelnemers die onder het kansniveau zitten en naar vloereffecten wordt er bepaald of er geveinsd wordt. De TOMM is gevalideerd in meerdere studies. De sensitiviteit varieerde tussen 82% en 89% en de specificiteit was 100% (Gervais et al., 2007). De Word Memory Test (WMT) is een verbaal geheugen test die via de computer wordt afgenomen. De deelnemers krijgen woorden te zien die zij moeten onthouden, daarna krijgen ze steeds twee woorden te zien en moeten zij het woord dat ze eerder gezien hebben kiezen. De test is uitgebreid getest voor het detecteren van geveinsde geheugen problemen. En het blijkt dat de WMT heel gevoelig is voor inzet en ongevoelig is voor psychosociale variabelen, intelligentie, psychopathologie en neurologische beschadigingen (Green et al., 2004 aangehaald in Wygant et al., 2009).De Computarized Assesment of Response Bias (CARB) is een cijfer herkenningstaak waarbij slechte inzet geassocieerd wordt met overdreven geheugen problemen. De CARB heeft een sensitiviteit van 74%, specificiteit van 91% en een hitrate van 88% (Gervais et al. 2011). De Victoria Symptom Validity Test (VSVT) is een cijfer herkenningstaak waarbij de deelnemers een keuze moeten maken. De VSVT heeft een sensitiviteit van 83% en een specificiteit van 100% (Slick et al., 1994 aangehaald in Wygant et al., 2011).. De TOMM en WMT zijn het meest gevalideerd en onderzocht van de vier tests. Een voordeel van de Symptom Validity Tests is dat het voor de deelnemers niet overkomt als een test om veinzen te meten maar om het geheugen te meten. Hierdoor kan deze test afgenomen worden zonder dat de deelnemer door heeft wat er gemeten wordt. 7

Daarnaast worden er interview methoden gebruikt om de veinzende van de niet veinzende deelnemers te scheiden. Het Structured Interview of Reported Symptoms (SIRS) is een gestructureerd interview van ongeveer een uur. Het interview bevat acht schalen met verschillende strategieën om verzonnen symptomen te detecteren. De SIRS is veel onderzocht en blijkt goede psychometrische eigenschappen te hebben. De SIRS heeft een hoge interne consistentie variërend tussen.77 en.96 en een hoge interbeoordelaarsbetrouwbaarheid varieert tussen de.97 en 1.00 (Sellbom et al. 2010). Daarnaast wordt er ook van de Miller Forensic Assesment of Symptoms Test (M-FAST) is een kort gestructureerd interview met 25 vragen. En bevat zeven schalen met verschillenden manieren om onjuiste weergave van symptomen te detecteren. De M-FAST heeft een sensitiviteit van.93, een specificiteit van.83, een positief voorspellende waarde.68 en een negatief voorspellende waarde van.97 (Miller, 2001 aangehaald in Wygant et al., 2011). Beide interview methode zijn een effectief in het selecteren van veinzende deelnemers. Naast onderzoek met de bekende groep methode wordt er gebruik gemaakt van simulatie onderzoek. Bij simulatie onderzoek worden de deelnemers gevraagd om de MMPI-2 in te vullen en te doen alsof zij een stoornis of bepaalde klachten hebben. De deelnemers kunnen dan bijvoorbeeld studenten zijn. Er wordt dan gekeken en hoeverre de validiteitschalen in staat zijn om onderscheid te maken tussen de veinzende deelnemers en de mensen die wel een stoornis hebben. Onderzoeken met een bekende groepen methode hebben een hoge externe validiteit doordat de test en deelnemers allemaal in de praktijk worden gebruikt. Maar dat gaat wel ten koste van de interne validiteit. Dat komt onder andere doordat de er geen willekeurige toewijzing plaats kan vinden en er een extern criterium is om te bepalen in welke groep de deelnemers komen. In de onderzoeken worden verschillende tests gebruikt als externe criteria, deze tests zijn niet allemaal even goed in het vaststellen van veinzen van een stoornis en zijn dus niet altijd correct. Daarom is het van belang om ook simulatie onderzoek te doen, waarbij juist de interne validiteit hoger is. Dit gaat ten koste van de externe validiteit en de generaliseerbaarheid van de resultaten doordat de 8

deelnemers de opdracht krijgen om een stoornis te veinzen zonder aankondiging. De deelnemers van echte evaluaties hebben meer tijd om zich in het veinzen te verdiepen. Daarnaast verschillen de deelnemers van een simulatie onderzoek vaak ook van de arbeidsongeschikte of forensische deelnemers. Doordat bij bekende groepen onderzoek de externe validiteit hoog is en bij simulatie onderzoek de interne validiteit vullen de twee onderzoeksvormen elkaar aan. In Tabel 1 staat van alle gebruikten onderzoeken aangeven wat voor een methode er is gebruikt en wie de deelnemers waren. De deelnemers die voornamelijk mee deden aan de onderzoeken zijn deelnemers van forensische en arbeidsongeschiktheidsevaluaties. Deze groepen worden bekeken omdat er in beide een relatief grote groep mensen zit die een stoornis veinzen. Ze worden wel los van elkaar bekeken omdat de groepen verschillen als er gekeken wordt naar de stoornissen die binnen de groepen voorkomen. Mogelijk veinzen de deelnemers uit de twee groepen ook andere stoornissen doordat zij weten wat een realistische stoornis zou zijn om te hebben. Zo zou te verwachten zijn dat deelnemers van forensische evaluaties vaker persoonlijkheidsstoornissen en verslavingen zouden veinzen. Deelnemers van arbeidsongeschiktheidsevaluaties zouden dan vaker een depressie, burnout, neurologische of somatische problemen veinzen. Mogelijke veinzen de deelnemers ook stoornissen waar ze zichzelf in zouden kunnen herkennen, dit zou ook een verschil tussen de twee groepen kunnen veroorzaken. 9

Tabel 1. De methode en deelnemers per onderzoek Onderzoek: Methode: Deelnemers: Lewis et al. 2002 Bekende groepen met SIRS werd bepaald of de deelnemers veinsde Mannen die voor strafrechtelijk proces werden geëvalueerd Nelson et al. 2010 Meta-analyse Heel veel verschillende Steffan et al. 2010 Simulatie door gevangenen vergeleken met patiënten Gevangenen en psychiatrische gevangenen. Wygant et al. 2007 Bekende groep met TOMM en WMT werd bepaald of de deelnemers veinsde Deelnemers van forensische en arbeidsongeschiktheidsevaluaties. Nelson, Sweet, Berry et al. 2007 Factoranalyse Deelnemers in compensatie zoekende context, o.a. arbeidsongeschiktheidsanalyse Gervais et al. 2007 Bekende groep met WMT, CARB en TOMM werd bepaald of de deelnemers veinsde Deelnemers van arbeidsongeschiktheidsevaluaties zonder mensen met letsel aan het hoofd. Nelson, Sweet en Heilbronner 2007 Bekende groep, groep met bijkomende voordelen vergeleken met een groep zonder Alle deelnemers werden neuropsychologisch geëvalueerd in relatie met cognitieve klachten. Wygant et al. 2010 Bekende groep met TOMM en WMT werd bepaald of de Deelnemers van forensische en 10

deelnemers veinsde arbeidsongeschiktheidsevaluaties. Gervais et al. 2011 Bekende groep met WMT, CARB, MSVT en TOMM werd bepaald of de deelnemers veinsde Deelnemers van arbeidsongeschiktheidsevaluaties. Wygant et al. 2011 Bekende groep met TOMM, VSVT, M-FAST, SIMS, SIRS werd bepaald of de deelnemers veinsde Deelnemers van arbeidsongeschiktheidsevaluaties. Wygant et al. 2009 Simulatie en bekende groep met TOMM, VSVT, WMT en CARB werd bepaald of de deelnemers veinsde Deelnemers van arbeidsongeschiktheidsevaluaties. Sellbom en Bagby 2010 Simulatie onderzoek Studenten en psychiatrisch patiënten voor vergelijking van scores. Rogers et al. 2011 Bekende groep met TOMM, VSVT en SIRS-2 werd bepaald of de deelnemers veinsde Deelnemers van arbeidsongeschiktheidsevaluaties. Sellbom et al 2010 Bekende groep met SIRS werd bepaald of de deelnemers veinsde Deelnemers van forensische evaluaties. 11

MMPI-2 Over de effectiviteit van de MMPI-2 validiteitschalen zijn veel verschillende resultaten, zie Tabel 2 en 3. De validiteitschalen F, Fb, Fp en F-K zijn volgens Lewis, Simcox en Berry (2002) in staat zijn om onderscheid te maken tussen geveinsde stoornissen en echte stoornissen. De 64 deelnemers waren mannen die in voorhechtenis psychologisch geëvalueerd werden, met het Structured Interview of Reported Symptoms werd bepaald of de deelnemers wel of niet een stoornis veinsden. Uit het onderzoek (Lewis et al., 2002) bleek voor alle 4 de schalen een hoge specificiteit, hitrate en positief voorspellende waarde (zie Tabel 2). De sensitiviteit van de F schaal laat zien dat de kans 67% is als iemand veinst dat het ook uit de F schaal naar voren komt. De specificiteit van de F schaal laat zien wat de kans 100% is dat iemand eerlijk is dat uit de F schaal ook naar voren komt dat er niet wordt geveinsd. De hitrate van de F schaal laat zien dat in 90% van de gevallen de schaal iemand goed indeelt bij de wel of niet veinzende deelnemers. De positief voorspellende waarde van de F schaal laat zien dat de kans 100% is dat iemand echt veinst als de F schaal aangeeft dat er geveinsd wordt. De negatief voorspellende waarde van de F schaal geeft weer dat de kans 87% is dat iemand eerlijk antwoord geeft als uit de F schaal blijkt dat er eerlijk antwoord word geven. Voor de overige schalen kunnen de anderen percentages ingevuld worden. Lewis et al. (2002) stellen de validiteitschalen F, Fb, Fp en F-K effectief zijn bij forensische evaluaties, maar er zijn wel een aantal belangrijke kritiekpunten. Het onderzoek heeft weinig deelnemers, er waren 31 veinzende en 24 eerlijke deelnemers. Ook verschillen de deelnemers van de veinzende en niet veinzende groep van elkaar in leeftijd, kans op een anti sociale persoonlijkheidsstoornis en minimale straf die ze op gelegd konden krijgen. Deze verschillen zouden van invloed kunnen zijn op de verschillen tussen de scores op de validiteitschalen van de twee groepen. Lewis et al. (2002) gebruikten alleen de SIRS om te bepalen of een deelnemer veinsde. Hoewel dit een effectieve methode is zou het goed zijn om te vergelijken of de schalen ook effectief zijn als er andere methodes om veinzende deelnemers te onderscheiden gebruikt worden. 12

Tabel 2. Specificiteit, sensitiviteit, hitrate, positief voorspellende waarde en negatief voorspellende waarde van de onderzoeken Onderzoek Specificiteit Sensitiviteit Hitrate Positief voorspellende waarde Negatief voorspellende waarde Lewis et al. 2002 F 1.00.67.90 1.00.87 Fb.94.83.91.86.92 Fp 1.00.50.84 1.00.81 F-K.94.79.89.86.91 Steffan et al. 2010 Sequential model.83.47.68.66.69 Correctional.63.58.61.52.68 model Meta- analyse model.74.49.64.56.68 13

Tabel 3. Effectsizes van de onderzoeken Nelson et al. 2010 Steffan et al. 2010 Gervais et al. 2007 Nelson, Sweet en Heilbronner 2007 Wygant et al. 2010 Bij forensische evaluaties: Wygant et al. 2010 Bij arbeidsongeschiktheidsevaluaties: Gervais et al. 2011 Bij mannen: Gervais et al. 2011 Bij vrouwen: Wygant et al. 2011 Wygant et al. 2009 Sellbom en Bagby 2010 Zonder coaching: Sellbom en Bagby 2010 Met coaching: Rogers et al. 2011 Sellbom et al 2010 MMPI-2 F.71.73.63.22 1.61.85 - - - - - - - - Fb.68.32 1.00.01 1.42.89 - - - - - - - - Fp.51.81.57.05 1.65.60 - - - - - - - - F-K.69.66 -.04 - - - - - - - - - - FBS.95 -.61.60 0.97 1.18 - - - - - - - - RBS - -.92.65 1.48 1.24 - - - - - - - - MMPI-2-RF F-r - - - - 1.48 1.05 1.08.99 1.63 1.60 1.37.44 2.06 2.11 Fp-r - - - - 1.46.63.84.43 1.02 1.21 2.30 1.36 2.00 2.07 Fs - - - - 1.30 1.14.90.78 1.27 1.38 1.32 0.42 1.77 1.19 FBSr - - - - 1.11 1.13 1.11 1.04 1.20 1.42.69.10 1.14 1.59 RBS - - - - - - - - 1.55 - - - 1.81-14

Nelson, Hoelzle, Sweet, Arbisi en Demakis (2010) deden een meta-analyse waarin verschillende methoden bekeken werden. Nelson et al. (2010) vonden dat de FBS het beste is om veinzen van deelnemers te signaleren. Zij deden een meta-analyse over 83 studies waarin de validiteitschalen F, Fb, Fp, F-K en FBS werden onderzocht. De onderzoeken hadden een bekende groep methode of waren simulatie onderzoek. Er werden verschillende methoden gebruikt om vast te stellen welke deelnemers veinsde. De deelnemers van de studies waren veel verschillenden, o.a. deelnemers van forensische en arbeidsongeschiktheidsevaluaties. De effectsize van de FBS bleek relatief groot. De overige schalen hadden een medium effect zie (Tabel 3). Nelson et al. (2010) stelden dat de FBS de beste validiteitschaal is om veinzen te signaleren. In de praktijk worden de schalen vaak niet los van elkaar gebruikt. Het is daarom van belang om te kijken of de schalen samen effectief zijn. Steffan, Morgan, Lee en Sellbom (2010) stellen dat er drie modellen zijn om het simuleren van een stoornis te detecteren met de MMPI-2 validiteitschalen. Het sequential model kijkt eerst naar de F schaal en als die verhoogd is worden eerst de VRIN en TRIN schalen gecontroleerd, zodra die geen afwijkende scores aangeven wordt de Fp schaal bekeken. De VRIN en TRIN schalen zijn om te controleren of de items niet willekeurig zijn ingevuld. Daarnaast is er een model dat ontwikkeld is op basis van een meta-analyse (Rogers et al., 2003 aangehaald in Steffan et al., 2010), daarin worden de Fp en de Ds schaal bekeken. Als één van de twee schalen verhoogd is zou er een verhoogde kans op het veinzen van een stoornis bestaan. En het laatste model is het correctional model, in dat model worden de F, Fp en F-K schalen bekeken. Als tenminste één van de drie schalen verhoogd zou er sprake zijn van het veinzen van een stoornis. Steffan et al. (2010) deden om de modellen te testen simulatie onderzoek waarbij door gevangenen werd gesimuleerd. Die scores werden vergeleken met psychiatrische gevangenen. Uit de resultaten kwamen middelmatige specificiteiten, sensitiviteiten, hitrates, positief voorspellende waarden en negatief voorspellende waarden naar voren (zie Tabel 2). Het sequential model heeft de hoogste specificiteit en hitrate. De sensitiviteit van het sequential model laat zien dat de kans 47% is als iemand veinst dat het ook uit het model komt. De specificiteit van het sequential model laat zien wat 15

de kans 83% is dat iemand eerlijk is dat uit het model ook naar voren komt dat er niet wordt geveinsd. De hitrate van het sequential model laat zien dat in 68% van de gevallen het model iemand goed indeelt bij de wel of niet veinzende deelnemers. De positief voorspellende waarde van het sequential model laat zien dat de kans 66% is dat iemand echt veinst als het model aangeeft dat er geveinsd wordt. De negatief voorspellende waarde van het sequential model geeft weer dat de kans 69% is dat iemand eerlijk antwoord geeft als dat uit het model blijkt. Het sequential model is daarnaast een significante voorspeller voor het wel of niet veinzen van een stoornis en blijkt incrementele validiteit te hebben ten opzichte van de validiteitschalen alleen. Steffan et al. (2010) stellen dat het sequential model het beste is om het simuleren van stoornissen te detecteren bij forensische evaluaties en ook effectiever is dan de schalen alleen. In dit onderzoek is niet gekeken naar de FBS hierdoor is het onbekend of de effectiviteit van de modellen te vergelijken zijn met de effectiviteit van de FBS. De FBS bleek uit de meta-analyse de effectiefste schaal, mogelijke zouden er met de FBS schaal effectievere modellen gevormd kunnen worden. Dit zal nog verder onderzocht moeten worden. In de voorgaande onderzoeken werd vooral gekeken naar het veinzen van psychische klachten. Terwijl cognitieve symptomen zoals geheugenverlies ook geveinsd kunnen worden. Wygant, Sellbom, Ben-Porath, Stafford, Freeman en Heilbronner (2007) bekeken de effectiviteit van de validiteitschalen om geveinsde cognitieve klachten te detecteren. Daarnaast vergelijken Wygant et al. (2007) de effectiviteit van forensische en arbeidsongeschiktheidsevaluaties. Wygant et al. (2007) gebruikten de bekende groep methode met de Symptom Validity Tests; Test of Memory Malingering en Word Memory Test werd bepaald of de deelnemers veinsde. De deelnemers werden voor forensische doeleinden of voor arbeidsongeschiktheid geëvalueerd. Het niet halen van de Symptom Validity Tests was bij arbeidsongeschiktheidsevaluaties vooral geassocieerd met somatische klachten en bij forensische evaluaties vooral met algemene overdrijving van psychopathologie en somatische klachten. Bij forensische evaluaties waren de scores op de Fp en de FBS geassocieerd met het veinzen van cognitieve symptomen. Bij de 16

arbeidsongeschiktheidsevaluaties was alleen de score op de FBS geassocieerd met het veinzen van cognitieve symptomen. De onderzoekers stellen dat de FBS bij beide evaluaties als indicator van niet geloofwaardige somatische of cognitieve klachten effectief is. Een belangrijk nadeel van dit onderzoek is dat de forensische en arbeidsongeschiktheidgroep van elkaar verschillen in geslacht, etniciteit, educatie, burgerlijke staat en leeftijd. Deze variabele zouden de verschillen in effectiviteit van de schalen kunnen beïnvloeden. Waardoor het lastig is om te zeggen wat het verschil in effectiviteit verklaart. Mogelijk zou bijvoorbeeld geslacht het verschil kunnen verklaren en heeft het niet te maken met het soort evaluatie. Het voorgaande onderzoek gaat er vanuit dat er bij veinzen van stoornissen twee verschillende constructen zijn, de cognitieve en psychologische symptomen. Uit onderzoek van Nelson, Sweet, Berry, Bryant en Granacher (2007) blijkt dat het veinzen van cognitieve symptomen een apart construct is. Zij deden een factor analyse over de MMPI-2 validiteitschalen en cognitieve inspanningstaken die waren afgenomen bij arbeidsongeschiktheidsevaluaties. Uit de factoranalyse kwamen vier factoren naar voren waarvan er drie over het veinzen van psychologische symptomen gaan en één over cognitieve inspanning. De eerste factor is onderrapportage van psychische symptomen, de tweede factor is overrapportage van neurotische symptomen, de derde factor is ontoereikende cognitieve inspanning en de laatste factor is overrapportage van psychotische symptomen en zelden voorkomende symptomen. De factor over cognitieve inspanning wordt gevormd door de scores op de Symptom Validity Tests. De MMPI heeft geen schaal die ditzelfde construct meet. Een kritiekpunt van dit onderzoek is dat de FBS niet is meegenomen in de factoranalyse, terwijl de FBS juist een schaal is die als effectief uit de andere onderzoeken naar voren komt. Mogelijk zou de FBS het cognitieve construct beter meten. De onderzoekers stellen dat er naast psychologische constructen, die in de MMPI-2 gemeten worden, een cognitief construct van belang is bij het meten van geveinsde stoornissen. In de MMPI-2 ontbreekt er nog een schaal voor het meten van het veinzen van cognitieve problemen. 17

De MMPI-2 validiteitschaal FBS komt uit de meeste onderzoeken waaronder de metaanalyse naar voren als het effectiefst in het detecteren van het veinzen van stoornissen. De FBS blijkt effectief bij zowel forensische als arbeidsongeschiktheidevaluaties. Daarnaast zijn er met betrekking tot de F, Fb, Fp en F-K schalen verschillende resultaten. Niet uit alle onderzoeken blijken deze schalen effectief onder andere uit de meta-analyse blijkt dat de effectiviteit van die schalen maar middelmatig is. Het sequential model blijkt effectief in het detecteren van het veinzen van een stoornis, in dit model wordt ook de F en de Fb schaal gebruikt. Mogelijk zijn de schalen effectiever als ze gecombineerd worden, maar dit zou verder onderzocht moeten worden. Tot slot blijkt er naast een psychisch construct ook sprake te zijn van een cognitief construct bij het detecteren van het veinzen van een stoornis. In de MMPI-2 was daar eerst nog geen schaal voor, maar in de volgende paragraaf zal een schaal die daar speciaal voor ontwikkeld is worden besproken. Response Bias Scale In de vorige paragraaf bleek dat er mogelijk een validiteitschaal nodig is die het veinzen van cognitieve klachten meet. Gervais, Ben-Porath, Wygant en Green (2007) ontwikkelde een nieuwe validiteitschaal op basis van de al bestaande items van de MMPI-2; de Response Bias Scale (RBS). De RBS is ontwikkeld om het veinzen of overdrijven van cognitieve disfuncties te detecteren. Gervais, Ben-Porath, Wygant en Green (2007) gebruikten de bekende groep methode om het vermogen van de RBS te vergelijken met de F, Fb, Fp en de Fake Bad Scale om te onderscheiden tussen goede en slechte scores op de Symptom Validity Tests. De Symptom Validity Tests die werden gebruikt zijn het veinzen van cognitieve symptomen vast te stellen waren de Test of Memory Malingering en Word Memory Test. De deelnemers werden forensisch of voor arbeidsongeschiktheid geëvalueerd. De effectsize van de RBS en Fb was hoog. De F, Fp en FBS hadden een middelmatige effectsize (zie Tabel 3). De RBS en Fb waren beter in staat dan de F, Fp en de FBS om onderscheidt te maken tussen de deelnemers die de cognitieve taken wel of niet haalden. De onderzoekers stellen dat de RBS een 18

valide schaal is om het veinzen van cognitieve klachten te meten bij forensische en arbeidsongeschiktheidsevaluaties. Opvallend is dat Gervais et al. (2007) stellen dat de RBS ook geassocieerd is met het overdrijven van emotionele symptomen terwijl de schaal daar niet voor ontwikkeld is. De RBS blijkt effectief voor het signaleren van het veinzen van psychische problemen (Nelson, Sweet en Heilbronner, 2007). In het onderzoek werden twee groepen deelnemers, een groep met bijkomende voordelen van een hogere score op de MMPI-2 en een groep zonder bijkomende voordelen met elkaar vergeleken. Alle deelnemers werden neuropsychologisch geëvalueerd bij arbeidsongeschiktheidsevaluaties. De effectsize van de RBS was het grootste, daarna volgde de FBS (zie Tabel 3). Nelson, Sweet en Heilbronner (2007) stellen dat de RBS effectief is in het onderscheiden van groepen die wel of geen bijkomende voordelen hebben van een stoornis. Belangrijk kritiekpunt van het onderzoek van Nelson, Sweet en Heilbronner (2007) is dat het van de groep met bijkomende voordelen helemaal niet zeker is of zij daadwerkelijk een stoornis veinzen, de kans is alleen relatief groot dat er meer mensen in die groep zitten die een stoornis veinzen. De effectiviteit van de schalen valt hierdoor waarschijnlijk lager uit dan wanneer de deelnemers uit die groep allemaal zouden veinzen. Daarnaast is het nog niet duidelijk of de RBS incrementele validiteit heeft. De incrementele validiteit van de RBS werd door Wygant, Sellbom, Gervais, Ben-Porath, Stafford en Freeman (2010) onderzocht. Wygant et al. (2010) onderzochten de validiteit van de RBS op basis van de MMPI-2 en de MMPI-2-RF bij arbeidsongeschiktheidsverzoeken en criminele verdachten. Er werd een bekende groep methode gebruikt, de Symptom Validity Tests; Test of Memory Malingering en Word Memory Test stelden het veinzen vast. Bij de arbeidsongeschiktheidsverzoeken was de effectsize van de RBS groot. Ook bleek er bij de arbeidsongeschiktheidsverzoeken sprake van incrementele validiteit van de RBS ten opzichte van de MMPI-2 en MMPI-2-RF validiteitschalen. Bij de criminele verdachten zorgde de RBS niet voor extra 19

informatie naast de standaard validiteitschalen van de MMPI-2 en de MMPI-2-RF. De onderzoekers concluderen dat de RBS in staat is om deelnemers die cognitieve klachten overdrijven te detecteren. Het verschil in incrementele validiteit tussen de forensische en arbeidsongeschiktheid groep kan mogelijk verklaart worden door het verschil in gemeten klachten tussen de twee groepen. De forensische groep rapporteerde meer verslaving en persoonlijkheidspathologie, terwijl de arbeidsongeschiktheidsgroep meer neurologische en somatische symptomen hadden. Maar om meer over de incrementele validiteit te kunnen zeggen zal er meer onderzoek gedaan moeten worden. De RBS is effectief in het detecteren van het veinzen van cognitieve en psychische stoornissen, maar het is nog niet zeker of de RBS incrementele validiteit heeft. Geen incrementele validiteit zou betekenen dat de RBS geen toegevoegde waarde heeft naast de MMPI-2 validiteitschalen en dus in de toekomst niet standaard aan de MMPI-2 toegevoegd hoeft te worden. Maar de RBS zal eerst meer onderzocht moeten om daar meer over te kunnen. MMPI-2-RF Bij het maken van de MMPI-2-RF is geprobeerd om de MMPI-2 te verbeteren. In deze paragraaf zal gekeken worden of de MMPI-2-RF validiteitschalen ook echt effectiever zijn dan de validiteitschalen van de MMPI-2. Gervais, Wygant, Sellbom en Ben-Porath (2011) onderzochten de associatie tussen de validiteitschalen F-r, Fp-r, Fs en de FBS-r van de MMPI-2-RF en het niet halen van de Symptom Validity Tests; Test of Memory Malingering, Word Memory Test, Computarized Assesment of Response Bias en Medical Symptom Validity Test. De Medical Symptom Validity Test is hetzelfde als de WMT, alleen is het makkelijker en korter dan de WMT. De deelnemers werden voor arbeidsongeschiktheid geëvalueerd. De scores op F-r, Fp-r, Fs en FBS-r zijn bij mannen verhoogd bij het niet halen van de Symptom Validity Tests. De F-r en FBS-r hebben de grootste effectsize (zie 20

Tabel 3). De onderzoekers stellen dat bij mannen de overrapportage van emotionele, somatisch en neurocognitieve symptomen gedetecteerd worden met de F-r, Fp-r, Fs en FBS-r schalen van de MMPI-2-RF. Daarnaast blijken de F-r en FBS-r voor het detecteren van het veinzen van een stoornis bij vrouwen ook een hoge effectsize te hebben (zie Tabel 3). Maar de Fp-r en Fs hebben een lagere effectsize, Fp-r heeft nog maar een middelmatige effectsize bij de vrouwen. Dit is een opvallend verschil, mogelijk zou dit verklaard kunnen worden doordat de schalen zijn ontwikkeld voor mannelijke populaties. Of mogelijk zijn mannen minder subtiel in het veinzen van een stoornis dan vrouwen. Echter is hier nog geen onderzoek naar gedaan, dus voor dat er meer over gezegd kan worden moet er meer onderzocht worden. Gervais et al. (2011) bepalen alleen met Symptom Validity Tests of de deelnemers veinzen. De Symptom Validity Tests zijn voornamelijk om het veinzen van cognitieve symptomen vast te stellen. Wygant, Anderson, Sellbom, Rapier, Allgeier en Granacher (2011) gebruikten daarom in hun bekende groep onderzoek ook tests om het veinzen van psychische problemen vast te stellen. De tests die werden gebruikt waren de Test of Memory Malingering, Victoria Symptom Validity Test, Structured Interview of Reported Symptoms, Miller Forensic Assessment of Symptoms Test en de Structured Inventory of Malingered Symptomatology (SIMS). De SIMS is een korte zelfrapportage vragenlijst om het veinzen van bepaalde condities te detecteren. De deelnemers werden voor arbeidsongeschiktheid geëvalueerd. De onderzoekers vonden een grote effectsize voor F-r, Fp-r, Fs, FBS-r en RBS. De F-r en RBS hadden de grootste effectsize ( zie Tabel 3). Wygant et al. (2011) stellen dat de validiteitschalen goed zijn voor het screenen naar het veinzen van stoornissen. Het voordeel van dit onderzoek dat er naar Symptom Validity Tests ook andere technieken worden gebruikt is meteen ook een nadeel, omdat er twee verschillende maten door elkaar worden gebruikt. Één maat vooral voor psychische symptomen en de andere vooral voor cognitieve symptomen. Het zou interessant zijn om te zien of er uit die twee maten verschillende effectiviteiten komen, maar door de opzet van het onderzoek is dat niet te zien. Mogelijk zijn de schalen niet even effectief in het detecteren van veinzen bij beide maten. 21

Uit de voorgaande onderzoeken met een bekende groep methode blijken de schalen effectief, maar zoals bekend hebben deze onderzoeken een hoge externe validiteit maar een lage interne validiteit. Wygant, Ben-Porath, Arbisi, Berry, Freeman en Heilbronner (2009) deden simulatie onderzoek waarbij interne validiteit hoog is en de externe validiteit laag. Dit onderzoek vult de hiervoor besproken onderzoek goed aan. Het onderzoek bevatte als controle ook een bekende groep waarbij met Test of Memory Malingering, Victoria Symptom Validity Test, Word Memory Test en Computarized Assesment of Response Bias werd bepaald of de deelnemers van arbeidsongeschiktheidsevaluaties veinsden. De deelnemers van het simulatie gedeelte van het onderzoek waren mensen die via flyers in wachtkamers van klinische specialisten en medisch centrum voor veteranen waren geworven. De deelnemers werden gevraagd om hoofdletsel te simuleren of om hun lichamelijke symptomen en hun emotionele leed te overdrijven. De schalen F-r, Fp-r, Fs, FBS-r hadden een grote effectiviteit (zie Tabel 3). De onderzoekers stellen dat de schalen overrapportage van symptomen kunnen detecteren bij arbeidsongeschiktheidsverzoeken. Bij forensische en arbeidsongeschiktheidsevaluaties is het mogelijk dat de geëvalueerde van te voren weet dat hij geëvalueerd zal worden. Hierdoor zou iemand zich voor kunnen bereiden op het veinzen van een stoornis. Daarom is de invloed van coachen op de effectiviteit van het detecteren van overrapportage van psychopathologie van de MMPI-2-RF validiteitschalen onderzocht (Sellbom en Bagby, 2010). Dit werd gedaan aan de hand van een simulatie onderzoek, waarbij de deelnemende studenten werd gevraagd om een stoornis te veinzen. Hier kreeg de helft een training. Het onderzoek bevatte ook nog een groep psychiatrisch patiënten om de scores van de studenten mee te vergelijken. De F-r, Fp-r en Fs schalen hadden bij de ongetrainde deelnemers een hoge effectsize (zie Tabel 3). De FBS-r had een middelmatige effectsize bij de ongetrainde deelnemers. Bij de getrainde deelnemers had alleen de Fp-r schaal een hoge effectsize, overige schalen hadden een lage effectsize. Sellbom en Bagby (2010) stellen dat de Fp-r schaal het beste onderscheid maakte tussen de veinzende deelnemers en de psychiatrische patiënten. Bij die schaal maakte het niet uit of de deelnemers training hadden gehad. Maar de andere schalen waren minder 22

effectief wanneer de deelnemers training hadden gehad. Dit laat zien dat de externe validiteit van de Fp-r schaal beter is dan van de andere schalen. Dat de andere schalen bij training niet meer effectief zijn heeft belangrijke gevolgen voor de interpretatie van de scores op de validiteitschalen en op het gebruik van de MMPI-2 in de praktijk. Dit zou ervoor kunnen zorgen dat de test vals negatieve uitkomsten geeft in gevallen waarbij er sprake is van training. De voorbereide geëvalueerde zou op deze manier dus makkelijker een stoornis kunnen veinzen zonder dat de MMPI-2-RF schalen dit detecteren. Naast dat het van belang is dat de schalen geen vals negatieve uitkomst geven is misschien nog wel belangrijker dat er geen vals positieve uitkomsten zijn. Dan zouden mensen met een stoornis ten onrechte van veinzen kunnen worden beschuldigd. Echter blijkt dat er validiteitschalen zijn die bij mensen met een depressie wel verhoogd zijn (Rogers, Gillard, Berry en Granacher, 2011). Dit zou kunnen betekenen dat mensen met een depressie ten onrechte van het veinzen van een stoornis beschuldigd zouden kunnen worden. Zeker bij arbeidsongeschiktheidsevaluaties is dit een belangrijk probleem omdat depressie binnen die groep veel voorkomt. Rogers et al. (2011) onderzochten of de validiteitschalen bij mensen met een post traumatische stress stoornis of depressie een verhoogde score weergeven. Daarnaast onderzochten zij ook nog de effectiviteit van de MMPI-2-RF validiteitschalen om geveinsde mentale stoornissen en cognitieve problemen te detecteren. Hiervoor werd de bekende groep methode gebruikt, met TOMM, VSVT en SIRS-2 werd bepaald of de deelnemers van arbeidsongeschiktheidsevaluaties veinsden. De schalen F-r en FBS-r waren voor de deelnemers met een depressie in tweederde van de gevallen verhoogd. Dit zou betekenen dat die schalen onterecht zouden kunnen aan geven dat iemand met een depressie veinst. Maar Rogers et al. (2011) geven ook aan dat maar in een klein deel van de gevallen er sprake was van extreme verhogen van de schalen. En de score van de Fp-r schaal was niet verhoogd bij de deelnemers met een stoornis. Daarnaast komen depressie en vergelijkbare stoornissen zoals een burn-out veel voor bij arbeidsongeschiktheidsevaluaties. Hierdoor is de arbeidsongeschiktheidspopulatie wat betreft depressie heel anders dan de populatie van forensische 23

evaluaties. Deze resultaten zijn daarom niet te generaliseren naar de populatie van forensische evaluaties. Mogelijk zouden de cut-off scores van de validiteitschalen voor arbeidsongeschiktheidspopulatie daar ook op aangepast moeten worden. Dat een stoornis voor een verhoogde score op de validiteitschalen kan zorgen is van grote invloed op de bruikbaarheid van de schalen. Er ontbreekt nog veel informatie over de invloed van stoornissen op de schalen. Het is vooral nog van belang dat er gekeken wordt naar de invloed van allerlei andere stoornissen op de scores van de validiteitschalen, bijvoorbeeld verslavingen en persoonlijkheidstoornissen bij forensische evaluaties. Om meer duidelijkheid te krijgen over hoe stoornissen de score op de validiteitschalen beïnvloeden en hoe de scores desondanks nog geïnterpreteerd kunnen worden zal er veel meer onderzoek gedaan moeten worden. Uit het onderzoek van Rogers et al. (2011) bleek ook dat de schalen F-r, Fp-r, Fs, FBS-r en RBS een hoge effectsize voor het detecteren van geveinsde mentale stoornissen hadden (zie Tabel 3). In de voorgaande onderzoeken over de MMPI-2-RF validiteitschalen hebben deelnemers mee gedaan die voor arbeidsongeschiktheid werden geëvalueerd. Maar zoals uit het onderzoek van Wygant (2010) bleek is de effectiviteit van de schalen bij forensische en arbeidsongeschiktheidsevaluaties niet altijd gelijk. Sellbom, Toomey, Wygant, Kucharski en Duncan (2010) onderzochten daarom de effectiviteit van de MMPI-2-RF schalen bij het detecteren van het veinzen van stoornissen bij criminele verdachten. Dit was een bekende groep onderzoek en het wel of niet veinzen van een stoornis door de deelnemers werd bepaald met het SIRS. De schalen F-r, Fp-r, Fs en FBS-r hadden een hoge effectsize (zie Tabel 3). De schalen F-r en Fp-r onderscheidde de simulerende deelnemers het beste van de niet simulerende deelnemers. Deze schalen waren samen de beste voorspeller. De MMPI-2-RF validiteitschalen F-r, Fp-r, Fs en FBS-r blijken in meeste gevallen effectief om het veinzen van een stoornis bij forensische en arbeidsongeschiktheidsevaluatie te onderscheiden van de oprechte stoornissen. De F-r en Fp-r blijken samen effectiever dan alleen. Maar er zijn wel 24

een aantal factoren waarbij sommige schalen niet effectief meer zijn. Zo hebben de Fp-r en Fs schaal een lagere effectsize bij vrouwen. Bij mensen die getraind zijn om een stoornis te veinzen blijkt alleen de Fp-r nog effectief. En de F-r en FBS-r schalen zijn bij mensen met een depressie onterecht verhoogd. Desondanks zijn de effectsizes van de validiteitschalen van de MMPI-2-RF groter dan de effectsizes van de validiteitschalen van de MMPI-2. En zijn de validiteitschalen van de MMPI-2-RF beter dan de validiteitschalen van de MMPI-2. Conclusie Uit de verschillende onderzoeken komen geen eenduidige resultaten over de effectiviteit van de validiteitschalen. Van de MMPI-2 komt vooral de FBS naar voren als effectief. Van de overige MMPI-2 validiteitschalen varieert de effectiviteit. Het sequential model blijkt effectief, mogelijk zijn de schalen effectiever als ze gecombineerd worden. De RBS blijkt effectief in het onderscheiden van geveinsde cognitieve klachten maar of de schaal ook incrementele validiteit heeft is nog onduidelijk. Uit de meeste onderzoeken komen de MMPI-2-RF validiteitschalen als effectief naar voren maar er zijn ook belangrijke factoren die de effectiviteit verminderen. Zo zijn de schalen minder effectief bij vrouwen, mensen die getraind zijn om een stoornis te veinzen en bij mensen met een depressie. De effectiviteit van de validiteitschalen van de MMPI-2-RF zijn groter dan van de MMPI-2. Dus om het veinzen van een stoornis te detecteren is het beter om de MMPI-2-RF te gebruiken. Dat de scores op validiteitschalen van de MMPI-2-RF bij depressie verhoogd zijn is een heel belangrijk kritiekpunt. Het zou niet zo mogen zijn dat mensen onterecht van veinzen worden beschuldigd. Dit zorgt ervoor dat de uitkomsten van de schalen zeker bij arbeidsongeschiktheidsevaluaties heel erg voorzichtig geïnterpreteerd moeten worden en zeker niet als doorslaggevend gebruikt mogen worden. Er is nu alleen nog onderzocht wat de invloed van PTSS en depressie op de validiteitschalen is. Voor andere stoornissen zoals een verslaving en een antisociale persoonlijkheidstoornis moet dit nog onderzocht worden. Om te voorkomen dat er 25

onterecht uit de scores naar voren zou komen dat iemand een stoornis veinst zouden de cut-off scores van de validiteitschalen verhoogd kunnen worden. Mogelijk zouden de cut-off scores voor bij forensische en arbeidsongeschiktheidsevaluaties hoger moeten zijn, terwijl bij reguliere psychologische evaluaties de cut-off scores niet omhoog hoeven. De cut-off scores zouden per populatie onderzocht en bepaald moeten worden. De meeste onderzoeken hebben alleen gekeken naar de effectiviteit van de schalen los van elkaar. Terwijl de schalen juist in praktijk niet los van elkaar gebruikt worden. Hierdoor is het lastig om deze resultaten in de praktijk toe te passen. Het is nu nog onduidelijk wat het betekent als een bepaalde schaal veinzen aan geeft en tegelijk een andere schaal niet verhoogd is. Daarnaast blijkt uit de onderzoeken van Sellbom et al. (2010) en Steffan et al. (2010) dat een combinatie van de schalen effectiever is dan de schalen alleen. Het zou dus waarschijnlijk effectiever en praktischer zijn om schalen met elkaar te combineren. Over het combineren van de validiteitschalen van de MMPI-2-RF is nog weinig bekend. Het sequential model bleek bij de MMPI-2 het effectiefst, het zou goed zijn om te onderzoeken of dit model ook met de MMPI-2-RF schalen het effectiefst is. Mogelijk zijn er ook nog andere combinaties van validiteitschalen en modellen met een hoge effectiviteit. Het zou goed zijn om deze modellen en combinaties van validiteitschalen van de MMPI-2-RF te onderzoeken. In een aantal van de bekende groepen onderzoeken zijn er belangrijke verschillen tussen de deelnemers die zouden veinzen en de deelnemers die eerlijk antwoord gaven. Zoals leeftijd, opleidingsniveau en geslacht. Er bleek wel uit het onderzoek van Gervais et al. (2011) dat sommige validiteitschalen voor vrouwen minder goed werken dan voor mannen. Dit zorgt ervoor dat in de praktijk de schalen minder goed bruikbaar zijn bij evaluaties van vrouwen. Mogelijk zouden de schalen voor vrouwen aangepast kunnen worden, bijvoorbeeld door de cut-off scores te veranderen. Van andere variabelen zoals leeftijd en opleidingsniveau is niet bekend wat de invloed op de validiteitschalen en de effectiviteit daarvan is. Deze variabelen zouden invloed kunnen hebben op de verschillende scores van de validiteitschalen tussen de veinzende en de niet veinzende groep. 26

Hierdoor zou de effectsize groter of juist kleiner uit kunnen vallen. Er is wel simulatie onderzoek gedaan waarbij er geen verschillen tussen de groepen zijn en er dus geen effect van die verschillen kan zijn. Er zal meer onderzocht moeten worden wat de invloed van verschillende variabelen, zoals leeftijd, opleidingsniveau en geslacht is op de scores op de validiteitschalen. Ondanks dat de MMPI-2(-RF) al in de praktijk gebruikt wordt, is er voorzichtigheid geboden bij de interpretatie van de validiteitschalen. Er is nog te veel onduidelijk over factoren die de effectiviteit beïnvloeden. De validiteitschalen van de MMPI-2-RF zijn het effectiefst. Dus om veinzen te detecteren kan het best de MMPI-2-RF gebruikt worden. De scores op de validiteitschalen kunnen als hulpmiddel gebruikt worden om erachter te komen of iemand een stoornis veinst, maar kunnen zeker nog niet als sluitend worden gezien bij het nemen van een beslissing. 27