ITS EvaluatieService LEESWIJZER TOETSRAPPORT

Transcriptie

1 ITS EvaluatieService LEESWIJZER TOETSRAPPORT ITS EvaluatieService verwerkt toetsen met meerkeuzevragen digitaal. De rapportage wordt geleverd in de vorm van een overzichtelijk toetsrapport in Microsoft Excel -formaat. Deze leeswijzer helpt u bij het lezen en interpreteren van het toetsrapport. v juli

2 1. Inhoudsopgave 1. Inhoudsopgave Inleiding Toetsrapport: waarom, wat en hoe? Waarom toetsrapportages? Het toetsrapport van ITS EvaluatieService Kwaliteitsindicatoren Interpretatie van de kwaliteitsindicatoren Praktisch gebruik van het toetsrapport Tabblad: toetsoverzicht Toetskenmerken Algemene toetskenmerken Kansscore Toetsanalyse Score = aantal goed Moeilijkheidsgraad (p) en gecorrigeerde moeilijkheidsgraad (p ) Item-restcorrelatie (Rir) Coëfficiënt alfa ( ) Standaard meetfout Toetsuitslag Tabblad: sleutel en versie Tabblad: controletabel Tabblad: scoretabel Tabblad: frequentietabel Tabblad: itemanalyse Moeilijkheidsgraad (p) en gecorrigeerde moeilijkheidsgraad (p ) De item-totaalcorrelatie (Rit) en item-restcorrelatie (Rir) Open Frequenties (f) De a-waarde (a) De z-waarde (z) Bespreking itemanalyse aan de hand van de voorbeeldtoets Tabblad: samenvatting Tabblad: score Tabblad: data Termenlijst Literatuur v juli

3 2. Inleiding ITS EvaluatieService verwerkt toetsen met meerkeuzevragen digitaal. De rapportage wordt geleverd in de vorm van een overzichtelijk toetsrapport in Microsoft Excel -formaat. Het rapport bestaat uit negen onderdelen die ieder op een apart tabblad zijn weergegeven (Figuur 1): Figuur 1: inhoudsopgave toetsrapport Deze leeswijzer helpt u bij het lezen en interpreteren van het toetsrapport, en geeft achtergrondinformatie bij de in het toetsrapport gebruikte termen. We gaan eerst in op de functie van het rapport (hoofdstuk 3). In de hoofdstukken 4 t/m 12 worden vervolgens de verschillende tabbladen uit het toetsrapport apart besproken. In hoofdstuk 13 vindt u een termenlijst. Het laatste hoofdstuk (14) geeft een overzicht van de voor deze leeswijzer geraadpleegde literatuur. VOORBEELD In deze leeswijzer worden termen uitgelegd aan de hand van een voorbeeldtoets. Deze voorbeelden zijn weergegeven in een roze kader. Het gebruikte toetsrapport van de voorbeeldtoets kunt u hier downloaden: v juli

4 3. Toetsrapport: waarom, wat en hoe? 3.1 Waarom toetsrapportages? In het hoger onderwijs wordt veel gebruik gemaakt van selectieve toetsen, ook wel summatieve toetsen genoemd. Een summatieve toets heeft de functie een oordeel over de kennis en vaardigheden van de toetsdeelnemer uit te spreken. Summatieve toetsen zijn bedoeld om beslissingen te nemen die de onderwijsloopbaan van de deelnemers raken, zoals voldoende of onvoldoende, slagen of zakken. Om betrouwbare uitspraken te kunnen doen over het zakken en slagen van deelnemers moeten de toetsvragen van hoge kwaliteit zijn en moet de toets meten wat beoogd is te meten. Een kwalitatief slechte toets vergroot de kans dat deelnemers onterecht zakken of onterecht slagen. Het toetsrapport van ITS EvaluatieService is ontwikkeld voor toetsen met een summatieve functie. Mede op grond hiervan kan iets worden gezegd over de kwaliteit van de afgenomen toets en kan deze, zo nodig, worden verbeterd. De kwaliteit van een toets wordt uitgedrukt in een aantal indicatoren. Deze kwaliteitsindicatoren zijn een instrument om eventuele knelpunten binnen een toets te signaleren. Het is aan een inhoudsdeskundige (de docent) om aan de hand van deze cijfermatige analyse de kwaliteit van de toets en de afzonderlijke vragen te bepalen. Hij of zij beslist dan ook óf, en zo ja, welke maatregelen er genomen moeten worden om die kwaliteit te verbeteren. Denk bijvoorbeeld aan het laten vervallen van een vraag of het meer dan één antwoord goed rekenen. 3.2 Het toetsrapport van ITS EvaluatieService Het toetsrapport van ITS EvaluatieService toont de resultaten van een kwantitatieve analyse na toetsafname en geeft inzicht in: - Indicatoren voor de kwaliteit van de toets in zijn geheel (Tabblad: toetsoverzicht, hoofdstuk 4) - Indicatoren voor de kwaliteit van de afzonderlijke vragen (Tabblad: itemanalyse, hoofdstuk 9 en Tabblad: samenvatting, hoofdstuk 10) - Een overzicht per deelnemer met behaalde score (aantal goed beantwoorde vragen), geordend op nummer en op score (Tabblad: scoretabel, hoofdstuk 7). - Verdeling van de toetsscores (Tabblad: frequentietabel, hoofdstuk 8) - Per deelnemer een overzicht van de fout beantwoorde vragen (Tabblad: controletabel, hoofdstuk 6) - Gegevens waarop de analyse is uitgevoerd (Tabblad: data, hoofdstuk 12) 3.3 Kwaliteitsindicatoren In het toetsrapport van ITS EvaluatieService worden de volgende indicatoren van de kwaliteit berekend. Tussen haakjes is in het blauw de verkorte aanduiding vermeld. - de moeilijkheidsgraad (p) van de toets als geheel en van de afzonderlijke toetsvragen - de gecorrigeerde moeilijkheidsgraad (p ) - de item-restcorrelatie: het onderscheidingsvermogen van de toetsvraag tussen deelnemers die de stof wel en deelnemers die de stof niet beheersen (Rir) - de betrouwbaarheid van de toets (coëfficiënt ) - de aantrekkelijkheid van de antwoordalternatieven (a) per toetsvraag v juli

5 - gemiddelde standaardtoetsscore van de deelnemers die dat alternatief hebben gekozen (z). Deze kwaliteitsindicatoren worden meer in detail toegelicht in hoofdstuk 4 en Interpretatie van de kwaliteitsindicatoren Bij de interpretatie van de gemeten waarden is het van belang om met de volgende zaken rekening te houden. NORMALE VERDELINGSVORM VAN DE TOETSSCORES IS VOORWAARDE VOOR JUISTE INTERPRETATIE Om de analyseresultaten te kunnen interpreteren als indicator voor de kwaliteit van de toets en de toetsvragen moeten de toetsscores normaal verdeeld zijn. Een normale verdeling (ook wel normaalverdeling of Gaussverdeling genoemd) is klokvormig. Eenvoudig gezegd komt het erop neer dat een meerderheid van de deelnemers een score heeft rond het gemiddelde en dat er evenveel deelnemers boven als onder het gemiddelde hebben gescoord. In hoofdstuk 8 wordt dieper op de verdelingsvorm van de toetsscores (frequentieverdeling) ingegaan. LENGTE VAN DE TOETS BEÏNVLOEDT DE BETROUWBAARHEID Over het algemeen geldt: hoe meer vragen, hoe hoger de betrouwbaarheid van de resultaten. Hoe groter het gedeelte van de te bestuderen studiestof is dat wordt bevraagd, hoe meer de toets een afspiegeling is van de totale leerstof. Een toets kan echter niet uit een oneindig aantal vragen bestaan 1. AANTAL DEELNEMERS IS VAN INVLOED OP DE INDICATOREN De stabiliteit van de moeilijkheidsgraad (p) en het onderscheidingsvermogen (item-restcorrelatie Rir) is geringer bij een klein aantal deelnemers. Per indicator gelden verschillende grenzen waaraan ten minste voldaan moet worden om als kwaliteitsmaat gebruikt te kunnen worden. In hoofdstuk 9 wordt hier aandacht aan besteed. SAMENSTELLING VAN DE GROEP DEELNEMERS BEÏNVLOEDT DE BETROUWBAARHEID EN DE MOEILIJKHEID Het niveau van de totale groep deelnemers heeft invloed op de moeilijkheidsgraad (p, zie 9.1) van de vragen. In een groep met veel herkansers is het niveau waarschijnlijk lager dan in een groep met weinig herkansers. De vragen zullen waarschijnlijk slechter gemaakt worden, waardoor de p-waarden lager kunnen uitvallen. Ook kan de groep herkansers tamelijk homogeen zijn, waardoor de betrouwbaarheid lager is. Een groep wordt homogeen genoemd wanneer de spreidingsgraad (standaarddeviatie gedeeld door het aantal toetsvragen) kleiner is dan 0,10. Een spreidingsgraad van meer dan 0,25 wijst op een heterogene groep en dat is voor summatieve toetsen gunstig. Voor de indicatoren zijn normen vastgesteld waarmee de toetsresultaten worden beoordeeld. Bij iedere norm is sprake van een onzekerheidsmarge, en verschillende auteurs hanteren enigszins verschillende normen. Naast de bovengenoemde factoren is dit een extra reden om voorzichtig te zijn met het interpreteren van de berekende waarden Praktisch gebruik van het toetsrapport Het toetsrapport geeft informatie over de kwaliteitsindicatoren van de toets als geheel en van de afzonderlijke toetsvragen. Deze informatie is bruikbaar direct na de toets, maar ook nuttig voor aanpassingen van de toets in de toekomst. 1 Berkel, H.J.M. van, & A.E. Bax (2006). Toetsen in het hoger onderwijs. Hoofdstuk 6 Toetsen met gesloten vragen gaat in op het minimaal aantal vragen dat nodig is om een acceptabele betrouwbaarheid te behalen. v juli

6 GEBRUIK DIRECT NA DE TOETS Op grond van de statistische en inhoudelijke analyse en eventueel het commentaar van de studenten bepaalt de docent direct na een toets of de score gehandhaafd blijft of dat er een heranalyse uitgevoerd moet worden. De toetsanalyse laat zien: - Hoe de toets gemaakt is (slecht/goed) ( 4.2.1) - De grootte van de spreiding van de toetsscores (veel spreiding/weinig spreiding) ( 4.2.1). - De mate van betrouwbaarheid van de toets (laag/hoog) ( 4.2.4). - De mate van nauwkeurigheid van de toetsscores ( laag/hoog) ( 4.2.5). De itemanalyse van een toets geeft signalen, bijvoorbeeld dat: - De antwoordsleutel misschien niet juist is (een verkeerd antwoordalternatief is als juist aangemerkt). - Een onjuist alternatief (afleider) misschien ook als juist antwoord mogelijk is (dus twee juiste antwoorden in plaats van één). GEBRUIK MET HET OOG OP DE TOEKOMST Daarnaast kan de informatie uit het toetsrapport nuttig zijn bij het verbeteren van de kwaliteit van de toets met het oog op toekomstig gebruik. Door beantwoording van de onderstaande vragen kan men op het spoor komen van eventuele extra verbetermogelijkheden. Toetsanalyse Waarom is de betrouwbaarheid van de toets laag of hoog? Wat betekent de nauwkeurigheid van de toetsscores voor het percentage onterechte zak- of slaagbeslissingen? Itemanalyse Waarom kiezen juist de hoogscorende deelnemers voor een bepaalde afleider? Waarom wordt een bepaalde afleider helemaal niet gekozen? Waarom wordt het juiste antwoordalternatief minder gekozen dan een bepaalde afleider? Welke vragen scheiden de hoogscorende van de laagscorende deelnemers? Welke vragen zijn heel makkelijk of juist moeilijk? v juli

7 4. Tabblad: toetsoverzicht Dit tabblad geeft een overzicht van de belangrijkste toetskenmerken ( 4.1) en de kwaliteitsindicatoren van de toets ( 4.2). 4.1 Toetskenmerken Algemene toetskenmerken Het aantal deelnemers, aantal vragen en aantal alternatieven zijn kenmerken van de toets die niet worden beïnvloed door de wijze waarop de deelnemers de toetsvragen hebben beantwoord. Zie Figuur 2. Figuur 2: toetskenmerken VOORBEELD De voorbeeldtoets is door 274 mensen gemaakt. De toets bestond uit 44 vragen. Iedere vraag heeft vier alternatieven. Na herziening is vraag 4 komen te vervallen. Er zijn nog 43 vragen over Kansscore Bij meerkeuzevragen kan men naar het antwoord raden. De kansscore geeft aan hoeveel vragen iemand goed zou kunnen beantwoorden (hoe hoog de score zou zijn) door volledig te gokken. Figuur 3: kansscore Deze score is afhankelijk van het aantal vragen in de toets en het aantal antwoordalternatieven per vraag. Bij een toetsscore gelijk aan of onder de kansscore gaat men er van uit dat de deelnemer eigenlijk geen werkelijke kennis van de stof heeft. Bij een toetsscore hoger dan de kansscore veronderstelt men pas werkelijke kennis. Zie Figuur 3. v juli

8 VOORBEELD De voorbeeldtoets bestaat uit 43 vragen met elk vier alternatieven. De kansscore is dan: 4.2 Toetsanalyse De toetsanalyse geeft kwantitatieve informatie over de prestaties van de groep deelnemers ( 4.2.1) en de kwaliteitsindicatoren van de toets als geheel ( t/m 4.2.5). Het geeft antwoord op vragen als: - Wat is de gemiddelde toetsscore van de deelnemers? - Liggen de toetsscores dicht bij het gemiddelde in de buurt? - Liggen de laagste en de hoogste toetsscore boven de kansscore? - Liggen de toetsscores in de buurt van de maximaal haalbare score? - Is er een groot verschil tussen de laagste en hoogste toetsscore? - Hoe moeilijk was de toets in zijn geheel? - Wat is de betrouwbaarheid van de toets? - Hoe groot is het onzekerheidsgebied rondom de toetsscores van de deelnemers? Onderstaande figuur laat zien hoe de indicatoren worden weergegeven in het tabblad Toetsoverzicht. De paragraafnummers waarin deze worden besproken zijn rechts toegevoegd Figuur 4: toetsanalyse Score = aantal goed GEMIDDELD De gemiddelde toetsscore ten opzichte van de maximale score toont hoe de toets gemaakt is. De maximale score is gelijk aan het totaal aantal gebruikte toetsvragen. Een gemiddelde toetsscore die in de buurt komt van de maximale score laat bijvoorbeeld zien dat de toets goed gemaakt is. STANDAARDDEVIATIE De standaarddeviatie laat zien hoe de spreiding van de toetsscores van de groep deelnemers is. De standaarddeviatie is de afwijking van alle scores (van de hele groep) ten opzichte van het gemiddelde. Dus: hoe hoger de standaarddeviatie, hoe groter het spreidingsgebied van de score. Hieraan wordt in hoofdstuk 8 meer aandacht besteed. LAAGSTE / HOOGSTE De laagste en hoogste score geven de grenzen aan waarbinnen de scores van de groep deelnemers zich bevinden. v juli

9 4.2.2 Moeilijkheidsgraad (p) en gecorrigeerde moeilijkheidsgraad (p ) GEMIDDELD De gemiddelde moeilijkheidsgraad zegt iets over de moeilijkheid van de toets als geheel voor de groep die heeft deelgenomen aan de toets. De moeilijkheidsgraad van de toets is het gemiddelde van de moeilijkheidsgraad van de afzonderlijke toetsvragen. Hoe hoger de gemiddelde waarde (maximaal 1) hoe gemakkelijker de toets. Voor de moeilijkheidsgraad wordt de term p-waarde gebruikt. De gemiddelde gecorrigeerde moeilijkheidsgraad wordt berekend om te corrigeren voor het effect van het raden naar het juiste antwoord. De gecorrigeerde moeilijkheidsgraad wordt weergegeven door p. STANDAARDDEVIATIE Bij de standaarddeviatie van de (gecorrigeerde)moeilijkheidsgraad van de toets gaat het om de spreiding in de p- en p - waarden van de toetsvragen, ofwel de afwijking van de (gecorrigeerde)moeilijkheidsgraad per vraag ten opzichte van het gemiddelde hiervan voor de gehele toets. LAAGSTE / HOOGSTE Hier gaat het om de laagste en hoogste (gecorrigeerde) moeilijkheidsgraad van de toetsvragen bij deze groep deelnemers. (STREEF)WAARDE Bij summatieve toetsing is het belangrijkste aspect dat een zo nauwkeurig mogelijke beslissing wordt genomen over het slagen en zakken van de deelnemers. Je wilt dat degenen die de stof beheersen hoge scores halen en degenen die dat niet doen lage scores krijgen. Ligt de gecorrigeerde moeilijkheidsgraad p rond 0,5 (tussen 0,4 en 0,6) dan is de aanname dat de toets daarin geslaagd is. Bij een te hoge waarde was de toets te gemakkelijk en bij een te lage waarde was hij te moeilijk (zie 9.1) Item-restcorrelatie (Rir) GEMIDDELD Voor een toets als geheel geeft de item-restcorrelatie een indicatie voor de mate waarin de toetsvragen onderscheid maken tussen goede deelnemers (de kenners) en slechte deelnemers (de niet-kenners). Het is uiteraard de bedoeling dat degenen die de stof beheersen hoge scores halen en degenen die de stof niet beheersen lage scores krijgen. STANDAARDDEVIATIE De standaarddeviatie van de item-restcorrelatie geeft aan hoe groot de spreiding in de item-restcorrelaties van de afzonderlijke vragen is. LAAGSTE / HOOGSTE De laagste en hoogste item-restcorrelatie geven de grenzen aan waarbinnen de item-restcorrelatie van de toetsvragen zich, bij deze groep deelnemers, bevinden. v juli

10 (STREEF)WAARDE Bij het maken van onderscheid tussen degenen die de stof beheersen en degenen die de stof niet beheersen is het van belang dat de vragen gemiddeld genomen goed beantwoord zijn door de hoogscoorders en slecht door de laagscoorders. Is dat het geval dan is de gemiddelde item-restcorrelatie (Rir) positief. De gevonden waarden voor de toets als geheel hangen natuurlijk nauw samen met die van de afzonderlijke vragen. In hoofdstuk 9 wordt op het niveau van de afzonderlijke toetsvragen uitgebreid aandacht besteed aan de (gecorrigeerde) moeilijkheid en de item-restcorrelatie. Aan het gebruik van deze indicatoren voor de kwaliteit van de toets zijn dezelfde voorwaarden verbonden als aan die van de afzonderlijke vragen. Ook daarvoor wordt u verwezen naar hoofstuk Coëfficiënt alfa ( ) Coëfficiënt geeft aan in hoeverre de toets betrouwbare resultaten geeft. Dat wil zeggen of bij herhaling van de toetsafname dezelfde resultaten gevonden worden. De hoogte wordt bepaald door de samenhang tussen de afzonderlijke vragen. Hoe meer de afzonderlijke vragen hetzelfde meten, hoe hoger de betrouwbaarheid van de gehele toets. (STREEF)WAARDE EN NORMEN Coëfficiënt heeft een minimale waarde van 0 en een maximale waarde van 1. Bij een summatieve toets is de streefwaarde minimaal 0,8. Bij een coëfficiënt gelijk of lager dan 0,6 is de betrouwbaarheid onvoldoende. Een van 0,0 betekent dat de uitkomst van de toets volledig onbetrouwbaar is. Is de berekende waarde 1,0 dan is de toets juist volledig betrouwbaar. Aangenomen wordt dat de uitslag dan een exacte weerspiegeling is van de kennis van de deelnemers en dus niet op toeval berust. Deze exacte weerspiegeling wordt ook wel ware score genoemd. Een lager dan 1,0 betekent dat de behaalde toetsscore niet de exacte weerspiegeling is van de kennis van de deelnemers. Er ligt een bepaald onzekerheidsgebied rondom de behaalde score, waarbinnen de ware score zich zal bevinden. Hoe lager, hoe groter dit onzekerheidsgebied. Bij een summatieve toets neemt men door vaststelling van de cesuur (de toetsscore die de grens aangeeft tussen een voldoende en een onvoldoende) een beslissing over het zakken en slagen van deelnemers. Hoe groter het onzekerheidsgebied rondom de behaalde score, hoe groter de kans dat er onterechte zak- of slaagbeslissingen worden genomen. Hoe lager de betrouwbaarheid van de toets, hoe groter de kans dat de uitslag van de toets op toeval berust en hoe groter de kans dat er onterechte zaken slaagbeslissingen worden genomen. STABILITEIT Factoren die van invloed zijn op de betrouwbaarheid en dus op de hoogte van coëfficiënt zijn onder andere: - De bijdrage die de toetsvragen leveren aan het scheiden van de laag- en hoogscorende deelnemers. Bij een extreem lage of juist hoge moeilijkheidsgraad verschillen de antwoorden van de deelnemers niet veel van elkaar (geringe variantie in scores) en is de betrouwbaarheid van de toets lager. Bij een lage betrouwbaarheid moet men zich dus afvragen of dit komt door een gebrek aan kwaliteit van de toetsvragen, een geringe toetslengte of doordat het niveau van de deelnemers niet veel van elkaar verschilt. v juli

11 - Het aantal vragen: in het algemeen geldt dat de betrouwbaarheid hoger is naarmate het aantal vragen toeneemt. Een toets kan praktisch gezien echter niet uit een oneindig aantal vragen bestaan. De docent moet bepalen welk aantal vragen qua tijd haalbaar is 2 (zie ook 3.3.1). - Samenstelling van de groep deelnemers: hoe heterogener het kennisniveau binnen de groep, hoe hoger de coëfficiënt. Dat wil zeggen hoe groter de verschillen zijn in beheersing van de stof door de deelnemers, hoe meer de toetsscores uiteenlopen (grotere variantie) en hoe hoger de betrouwbaarheid is Standaard meetfout De standaard meetfout geeft aan hoe groot het onzekerheidsgebied rondom de behaalde score van deelnemers is. Het geeft de grenzen van het gebied aan, waarbinnen de ware score (zie ook 4.2.4) zich zal bevinden. Bij een summatieve toets is het streven dat deelnemers die de studiestof beheersen, zullen slagen en dat deelnemers die niet voldoende kennis hebben, zullen zakken. Naarmate de toets betrouwbaarder is, is de standaard meetfout kleiner. Als het onzekerheidsgebied rondom de behaalde score kleiner is, is de kans dat er onterechte zaken slaagbeslissingen worden genomen kleiner! Figuur 5 laat voor een voorbeeldtoets zien waar de grenzen van het onzekerheidsgebied rondom de behaalde toetsscores van de deelnemers liggen. De donkerste lijn geeft de behaalde toetsscores weer en de lichtere lijnen de grenzen van het onzekerheidsgebied. Met 95% zekerheid kun je zeggen dat de scores van de deelnemers in het gebied tussen de onderste en de bovenste lijn zullen liggen. De lichtste lijnen geven de 68% grenzen aan. 2 Na afname van een toets kan met de Spearman-Brown formule berekend worden met welk aantal vragen de toets (bij een volgende afname) uitgebreid zou moeten worden om een bepaalde betrouwbaarheid te kunnen verkrijgen. Voor meer informatie over deze formule verwijzen we u naar Berkel, H.J.M. van (1999) Zicht op toetsen. Assen: Van Gorcum, blz v juli

12 Score met onzekerheidsgebied 40 68% 95% Toetsscore Toetsscore - 2 x standaard meetfout Toetsscore + 2 x standaard meetfout Toetsscore - 1 x standaard meetfout Toetsscore + 1 x standaard meetfout Figuur 5: score met onzekerheidsgebied VOORBEELD Een deelnemer heeft voor het tentamen een score van 25 gehaald. Bij gebruik van het interval rondom de toetsscore kun je met 95% zekerheid zeggen dat de ware score van deze deelnemer tussen 19,72 ( - ) en 30,28 ( ) zal liggen. Als de cesuur bij deze toets 22 is, kan de deelnemer dus onterecht geslaagd zijn, omdat zijn ware score mogelijk lager is: de score van 25 zou dan op toeval berusten. 4.3 Toetsuitslag Als van een toets op basis van de deelnemerscores op aanvraag ook de (rapport)cijfers zijn berekend, dan vindt u hier de toetsuitslag. De aangeleverde cesuur geeft de grens tussen geslaagd zijn en niet geslaagd zijn aan. Zie Figuur 6. Figuur 6: toetsuitslag VOORBEELD De cesuur van de voorbeeldtoets is bepaald op 70%. Dat betekent dat een deelnemer bij een minimale score van (70% x 43 vragen =) 30 punten is geslaagd. Hij heeft dan het rapportcijfer 5,5 (voldoende) behaald. Van de 274 deelnemers aan de voorbeeldtoets zijn er 141 geslaagd (51,46%). v juli

13 5. Tabblad: sleutel en versie In het tabblad sleutel en versie zijn de juiste antwoorden per vraag weergegeven. Bij een toets met meerdere versies, worden de juiste antwoorden weergegeven voor elke versie. Figuur 7: sleutel en versies VOORBEELD In de voorbeeldtoets staat bij vraag 1 van versie 3: 38. Dit betekent dat de eerste vraag in versie 3 hetzelfde is als vraag 38 in versie 1. Het antwoord op deze vraag is D. Veranderingen in de sleutel als gevolg van een herziening worden ook weergegeven: - vervallen vragen zijn grijs gemarkeerd; v juli

14 - in geval van sleutelwijziging is in de sleutelkolom voor versie 1 het goede antwoord weergegeven, gevolgd door het oorspronkelijke goede antwoord; - in geval van meerdere antwoorden mogelijk, zijn beide antwoorden weergegeven in de sleutelkolom voor versie 1. VOORBEELD Vraag 4 uit versie 1 is bij de herziening komen te vervallen. Dat zijn respectievelijk de 3 e en de 11 e vraag uit de twee afgeleide versies. Het goede antwoord voor vraag 6 uit versie 1 was D. Bij de herziening is de sleutel gewijzigd; het goede antwoord is nu C. Na analyse van de toets bleek dat bij vraag 16 zowel antwoord B als C goed waren. v juli

15 6. Tabblad: controletabel Figuur 8: controletabel In de controletabel zijn de deelnemers gesorteerd van de laagste naar de hoogste toetsscore. Per deelnemer wordt vermeld: - deelnemernummer: het nummer volgens het antwoordformulier - inleesvolgorde: de volgorde waarop de antwoordformulieren zijn gescand - toetsscore: het aantal juist beantwoorde vragen - versienummer van de toets (indien van toepassing). Als de deelnemer geen (geldig) versienummer heeft ingevuld op het antwoordformulier, is het versienummer oranje gemarkeerd. Zijn of haar toets is verwerkt als de moederversie. - antwoordinformatie: per vraag is aangegeven hoe de deelnemer deze heeft beantwoord (in letters), gemarkeerd met de kleurcoderingen uit de legenda, die hieronder wordt toegelicht. De antwoordinformatie is gecorrigeerd voor versies, dat wil zeggen dat de antwoorden terugvertaald zijn naar de volgorde van de moederversie. v juli

16 TOELICHTING LEGENDA term foutief antwoord niet mogelijk alternatief vervallen vraag goed antwoord geen antwoord Tabel 1 beschrijving De deelnemer heeft een vraag foutief beantwoord. De deelnemer op het antwoordformulier heeft gekozen voor een alternatief dat wel op het formulier staat afgedrukt maar niet tot de mogelijkheden behoort (bijvoorbeeld antwoord E terwijl de vraag maar vier alternatieven heeft). De vraag is na herziening komen te vervallen. De deelnemer heeft de vraag goed beantwoord. De deelnemer heeft de vraag niet beantwoord. Omdat de tabel gesorteerd is op toetsscore, treft u bovenaan de meeste rode vakjes aan en onderaan steeds minder. VOORBEELD De deelnemer met nummer 57 (tweede regel) heeft vraag 1 foutief beantwoord. In plaats van antwoord C (zie antwoordsleutel, hoofdstuk 5) is gekozen voor antwoord D. Deze deelnemer heeft de laagste score van alle deelnemers: alleen de vragen 12, 16, 24, 26, 29, 39 en 42 heeft hij of zij goed beantwoord. De deelnemer met nummer 2 (zevende regel) heeft vraag 36 en 37 niet beantwoord). Deelnemer 270 (derde regel) heeft vraag 3, 6 en 8 met E beantwoord. Dat is geen bestaande antwoordmogelijkheid: er waren maar vier antwoordalternatieven. De deelnemer met nummer 164 (eerste regel) heeft op het tentamenformulier het ongeldige versienummer 4 ingevuld. Het tentamen wordt dan verwerkt als versie 1. Vraag 4 is na herziening komen te vervallen. Dit geldt uiteraard voor alle deelnemers en alle versies. Omdat de tabel gecorrigeerd is voor versies, is er bij vraag 4 een verticale grijze kolom zichtbaar voor deze vraag. Door de sleutelwijziging van vraag 6 (C (was D)) zijn alle C-antwoorden wit, en alle D-antwoorden bij vraag 6 rood gemarkeerd. Bij vraag 16 zijn zowel de C- als de B-antwoorden wit gemarkeerd: bij de herziening zijn beide antwoorden goed bevonden. v juli

17 7. Tabblad: scoretabel In de scoretabel worden de toetsscores per deelnemer op twee manieren weergegeven: op nummervolgorde en op scorevolgorde. Figuur 9: scoretabel op nummervolgorde en op scorevolgorde De tabel nummervolgorde (links) is gesorteerd op deelnemernummer, waarbij het laagste nummer bovenaan staat. In deze tabel wordt per deelnemer aangegeven: - de toetsscore: het aantal juist beantwoorde vragen; - het aantal onbeantwoorde vragen; - de percentielscore: geeft aan hoeveel procent van de totale groep deelnemers een lagere score heeft dan de desbetreffende deelnemer. VOORBEELD In de voorbeeldtoets heeft deelnemer 14 een toetsscore van 33. Van de totale groep deelnemers heeft 72,63% een lagere score dan deelnemer 14 (dus een score lager dan 33). Je kunt ook zeggen dat deze deelnemer bij de beste 27% deelnemers van de gehele groep behoort ( - ). De tabel scorevolgorde (rechts) is gesorteerd op toetsscore, waarbij de laagstscorende deelnemer bovenaan staat. In deze tabel wordt per deelnemer aangegeven: - de toetsscore: het aantal juist beantwoorde vragen; - volgordenummer (#) binnen de scorevolgorde; - het cumulatief percentage: geeft per toetsscore aan welk percentage van de totale groep een score heeft die lager is dan of gelijk aan de desbetreffende score 3. - de cumulatieve frequentie: geeft per toetsccore aan hoeveel deelnemers een score hebben die lager is dan of gelijk is aan deze score; 3 Overigens is hier niet de complete tabel gebruikt, waardoor onderaan geen 100% staat. v juli

18 VOORBEELD In de voorbeeldtoets komt toetsscore 19 drie keer voor. Een toetsscore lager dan of gelijk aan 19 (hier score 7, 12, 14, 16, 17, 18 en 19,00), komt 12 keer voor: 12 deelnemers hebben dus een score gelijk of lager dan 19. Het cumulatief percentage is 4,38%. Dat betekent dat 4,38% van de totale groep een score heeft die lager of gelijk is aan 19. De tabel scorevolgorde is te gebruiken om de cesuur (= de toetsscore die de grens tussen onvoldoende en voldoende aangeeft) vast te stellen 4. Als de cesuur is vastgesteld, kan in de tabel bij deze score als het ware een denkbeeldige horizontale lijn getrokken worden. De deelnemers boven deze lijn scoren een onvoldoende. De deelnemers onder de lijn scoren een voldoende. In de rij direct boven de cesuur leest u hoeveel deelnemers een onvoldoende behalen (cumulatieve frequentie) en welk percentage dat is (cumulatief percentage). 4 Er zijn verschillende manieren om de cesuur vast te stellen. Voor meer informatie verwijzen we u naar: Berkel, H.J.M. van, & A.E. Bax (2006) Toetsen in het hoger onderwijs. Houten: Bohn Stafleu van Loghum. Dousma, T., A. Horsten & J. Brants (1997) Tentamineren. Hoger Onderwijs Reeks. Groningen: Wolters-Noordhof v juli

19 8. Tabblad: frequentietabel De frequentietabel laat zien hoe de toetsscores verdeeld zijn. Het is een compacte weergave van de scoretabel (hoofdstuk 7), omdat elke toetsscore maar één keer voorkomt. Per toetsscore is zichtbaar: - Hoeveel deelnemers deze score hebben gehaald (frequentie). - Hoeveel deelnemers een score hebben die kleiner is dan of gelijk is aan de desbetreffende score (cumulatieve frequentie). - Welk percentage van de totale groep deelnemers deze score heeft behaald (cumulatief percentage). VOORBEELD In de voorbeeldtoets hebben 4 deelnemers een toetsscore van deelnemers hebben een toetsscore lager dan of gelijk aan 20. 5,84% van de totale groep heeft een score die lager is dan of gelijk is aan 20. De frequentietabel laat zien of de scores in de buurt liggen van de maximale score of juist niet. Als een toets slecht gemaakt is, zijn er bijvoorbeeld geen (of heel weinig) deelnemers met een hoge score. Figuur 10: frequentietabel De frequentiegrafiek is een grafische weergave van de frequentietabel. Een normale verdelingsvorm (klokvormig) is voorwaarde voor een juiste interpretatie van de berekende indicatoren voor de kwaliteit van de toets als geheel en de afzonderlijke toetsvragen. Als de spreiding van de scores normaal verdeeld is, ligt ruim 68% van de scores binnen één standaarddeviatie en iets meer dan 95% binnen twee keer de standaarddeviatie van het gemiddelde. Dat komt er op neer dat het grootste gedeelte van de groep een score rondom het gemiddelde heeft en een kleiner gedeelte (veel) lager of (veel) hoger scoort. De kansscore (zie 4.1.2) en gemiddelde score (zie 4.2.1) zijn gemarkeerd met een driehoekje. v juli

20 Figuur 11: frequentiegrafiek VOORBEELD In de frequentiegrafiek van de voorbeeldtoets is te zien dat de score van de groep redelijk normaal verdeeld is. De laagst behaalde score (7) ligt lager dan de kansscore (11). De gemiddelde toetsscore (29,14) komt echter in de buurt van de maximaal haalbare score (43,00). v juli

21 9. Tabblad: itemanalyse Met behulp van de itemanalyse kan men nagaan hoe de afzonderlijke vragen van de toets hebben gefunctioneerd. De itemanalyse geeft antwoord op vragen als: - Wat is de moeilijkheidsgraad van een vraag (p)? Welk deel van de groep deelnemers heeft de vraag juist beantwoord? - Wat is de gecorrigeerde moeilijkheidsgraad van een vraag (p )? Welk deel van de groep deelnemers heeft het juiste alternatief gekozen met correctie voor raden / gokken? - Heeft een vraag discriminerend vermogen, dat wil zeggen maakt de vraag onderscheid tussen laag- en hoogscorende deelnemers (item-totaalcorrelatie, Rit en item-restcorrelatie, Rir)? - Hoe vaak is een vraag niet beantwoord? - Hoe vaak zijn de verschillende alternatieven door de deelnemers gekozen (f)? - Hoe vaak zijn de alternatieven gekozen (a)? - Is de gemiddelde score van degenen die het juiste alternatief kozen hoger dan die van degenen die de afleiders kozen (z)? Figuur 12: itemanalyse v juli

22 Figuur 13: legenda bij itemanalyse In dit hoofdstuk worden de verschillende indicatoren eerst apart besproken. Voor een juiste beoordeling van de statistische kwaliteit van een vraag is het echter noodzakelijk de indicatoren van een vraag in onderlinge samenhang te bestuderen. Dit wordt toegelicht in 9.7 aan de hand van de voorbeeldtoets. 9.1 Moeilijkheidsgraad (p) en gecorrigeerde moeilijkheidsgraad (p ) De (gecorrigeerde) moeilijkheidsgraad geeft antwoord op vragen als: - Welk deel van de groep deelnemers heeft de vraag juist beantwoord (p)? - Idem, na correctie voor raden/gokken (p )? - Heeft bijna iedereen de vraag juist beantwoord? - Heeft bijna niemand de vraag juist beantwoord? - Is de vraag door minder deelnemers juist beantwoord dan op grond van de raadkans verwacht zou worden? v juli

23 Moeilijkheidsgraad (p) van een vraag: proportie deelnemers die het juiste antwoord hebben gekozen (aantal deelnemers dat de vraag goed heeft, gedeeld door het totaal aantal deelnemers). Een moeilijkheidsgraad van 1,00 betekent dus dat een vraag door iedereen correct beantwoord is, en hoe meer deelnemers de vraag juist beantwoord hebben, des te hoger is p. Het niveau van de totale groep deelnemers heeft invloed op de p-waarde van vragen. In een groep met veel herkansers zal het niveau mogelijk lager dan in een groep met weinig herkansers. De vragen zullen waarschijnlijk slechter gemaakt worden, waardoor de p-waarden dus lager zouden uitvallen. Als de laatste vragen in een toets een lage p-waarde hebben is het ook mogelijk dat de deelnemers in tijdnood waren en om die reden de vragen slecht beantwoord hebben. Bij verschillende versies moet men er wel op bedacht zijn dat in versie 1 de laatste vragen verschillen van de laatste vragen in de andere versies. Een p-waarde alleen zegt echter weinig. Het aantal alternatieven van de vraag en het gehanteerde scoringssysteem, gedwongen raden of correctie voor raden 5, zijn van belang bij de interpretatie van een p-waarde. LET OP Gebruik de (gecorrigeerde) moeilijkheidsgraad niet als kwaliteitsmaat wanneer de toets is gemaakt door minder dan 25 personen, dit vanwege instabiliteit. De gecorrigeerde moeilijkheidsgraad (p ) van een vraag is de proportie deelnemers die het juiste antwoord hebben gegeven, gecorrigeerd voor het effect van gokken. (STREEF)WAARDEN EN NORMEN De moeilijkheidsgraad (p) heeft een minimale waarde van 0 en een maximale waarde van 1. Bij een summatieve toets (zie 3.1) streeft men naar scheiding van laag- en hoogscorende deelnemers. Alle vragen zouden daaraan moeten bijdragen. Een vraag levert een maximale bijdrage aan de summatieve functie van een toets als de p-waarde in de buurt komt van de norm. De norm voor p-waarden is afhankelijk van het aantal mogelijke antwoordalternatieven, want de norm ligt in het midden tussen de maximale p-waarde van 1 en de raadkans. De raadkans per vraag wordt bepaald door het aantal antwoordalternatieven. De raadkans geeft aan hoe groot de kans is dat een deelnemer de vraag goed beantwoord bij volledig gokken van het antwoord en wordt berekend door 1 te delen door het aantal alternatieven. De streefwaarde van de moeilijkheidsgraad is een waarde hoger dan de raadkans en lager dan 0,90. Omdat de moeilijkheidsgraad (p) afhankelijk is van het aantal antwoordalternatieven, is deze indicator niet bruikbaar voor een onderlinge vergelijking van vragen met een verschillend aantal antwoordalternatieven; daarvoor moet gecorrigeerd worden voor de raadkans. Daarom wordt de gecorrigeerde moeilijkheidsgraad (p ) gebruikt. Deze heeft een minimale waarde van -1 en een maximale waarde van 1. De ideale waarde van de gecorrigeerde moeilijkheidsgraad p is voor alle vragen (ongeacht aantal alternatieven) 0,50. Als ondergrens van p wordt ongeveer 0,25 aangehouden. 5 Bij correctie voor raden wordt bij het toekennen van de scores al gecorrigeerd voor de raadkans door verlaging van de score bij een foutief antwoord. Bij afname van de toets is dan de instructie dat bij twijfel de vraag wordt opengelaten of dat het alternatief geen antwoord wordt gekozen. v juli

24 Onderstaande tabel 6 geeft per verschillend aantal alternatieven de raadkans, de norm en de ondergrens p. soort vraag aantal antwoordalternatieven raadkans norm voor p norm voor p ondergrens voor p gesloten met één (meest) juist antwoord Tabel 2 2 0,50 0,75 0,50 0,25 3 0,33 0,68 0,50 0,25 4 0,25 0,63 0,50 0,25 5 0,20 0,40 0,50 0,25 De voor raden gecorrigeerde moeilijkheidsgraad (p ) is altijd lager dan de moeilijkheidsgraad (p), tenzij iedereen de vraag correct beantwoord heeft (p-waarde en p -waarde zijn dan beide 1). Bij een negatieve p -waarde hebben minder deelnemers de vraag goed dan op basis van de raadkans verwacht kan worden. EXTREEM LAGE WAARDEN Bij een gesloten vraag komt het niet vaak voor dat deze door (bijna) iedereen fout beantwoord is en de moeilijkheidsgraad (p) dus lager is dan de raadkans (zie Tabel 2 of p <0,25). Het is onwaarschijnlijk dat daadwerkelijk niemand het antwoord op de vraag weet. De oorzaak van dergelijke extreem lage waarden moet eerder gezocht worden in: - Onjuiste antwoordsleutel - Verkeerde literatuur - Onjuiste instructies van docent (nadrukkelijk aangegeven geen vragen te zullen stellen over het onderwerp) - De vraag is een instinkertje - Tijdgebrek bij het invullen - Onduidelijke formulering, waardoor verwarring is veroorzaakt bij de deelnemers EXTREEM HOGE WAARDEN Bij waarden van p groter dan 0,8 is de vraag door bijna iedereen correct beantwoord. Dit wordt mogelijk veroorzaakt door: - Het onderwerp is goed begrepen en goed bestudeerd - De vraag is veel te makkelijk - De onjuiste alternatieven functioneren niet als afleider - De docent heeft nadrukkelijk gezegd vragen te stellen over het onderwerp 9.2 De item-totaalcorrelatie (Rit) en item-restcorrelatie (Rir) De item-restcorrelatie wordt gebruikt om antwoord te geven op de volgende vragen: - Scheidt de vraag laagscorende van hoogscorende deelnemers (hoe is het discriminerend vermogen van de vraag)? - Meet de vraag hetzelfde als de totale toets (hoe goed past de vraag in de totale toets)? - Zijn er vragen die door laagscorende deelnemers goed beantwoord worden en fout door hoogscorende deelnemers? 6 Afgeleid van Berkel & Bax, 2006 en Dousma, Horsten & Brants, v juli

25 De item-totaalcorrelatie (Rit) en item-restcorrelatie (Rir) van een vraag geven het vermogen van de toetsvraag aan om onderscheid te maken tussen deelnemers die de stof wel en deelnemers die de stof niet beheersen. Daarbij gaat het om de correlatie tussen de vraagscores en de scores op de totale toets (Rit) min de desbetreffende vraag (Rir). LET OP Gebruik de Rit en de Rir niet als kwaliteitsmaat wanneer de toets is gemaakt door minder dan 50 personen. Er wordt berekend of een vraag afzonderlijk hetzelfde meet als de toets in zijn geheel. Bij de Rir wordt de waarde van de afzonderlijke vraag niet meegenomen in de waarde van de toets als geheel. VOORBEELD De Rit van vraag 13 geeft de correlatie tussen vraag 13 en de gehele toets. De Rir van vraag 13 geeft de correlatie tussen vraag 13 en de gehele toets min vraag 13. De item-restcorrelatie laat zien of de vraag de hoogscorende deelnemers scheidt van de laagscorende deelnemers. De verwachting is dat de hoogscorende deelnemers kiezen voor het correcte antwoord en de laagscorende deelnemers voor de afleiders. (STREEF)WAARDE EN NORM De minimale waarde van de item-restcorrelatie (Rir) is -1 en de maximale waarde +1. Een positieve waarde, gelijk aan of hoger dan 0,15 is gewenst. gevonden waarde 7 kwalificatie van de vraag toelichting 0,35 en hoger goed / zeer goed De toetsvraag heeft de deelnemers goed van elkaar gescheiden. De hoogscorende deelnemers hebben over het algemeen de vraag goed beantwoord en de laagscorende deelnemers hebben gekozen voor de afleiders. 0,25 0,35 voldoende / goed Het onderscheidend vermogen van de vraag is redelijk goed. 0,15 0,25 middelmatig / voldoende De hoog- en laagscorende deelnemers worden middelmatig tot voldoende van elkaar onderscheiden. 0,00 0,15 slecht / middelmatig De vraag maakt weinig onderscheid tussen hoog- en laagscorende deelnemers. lager dan 0,00 slecht De hoogscorende deelnemers hebben over het algemeen voor een afleider gekozen en juist de laagscorende deelnemers hebben de vraag correct beantwoord. Tabel 3 7 Berkel &Bax, 2006 v juli

26 9.3 Open VOORBEELD In de voorbeeldtoets heeft vraag 6 een negatieve Rir (-0,02). Dit betekent dat deze vraag niet discrimineert tussen hoog en laag scorende deelnemers. De vraag is slecht gemaakt: p' ligt boven de raadkans, maar beneden de ondergrens voor p' (0 > p' < 0,25) Vraag 24 heeft een negatieve Rir (- en een zeer lage p -0,30). Een grote meerderheid van de deelnemers kiest voor afleider D. Dit kan duiden op een verkeerde sleutel, een inhoudelijk niet relevante vraag, et cetera. In deze kolom staat het aantal keren dat de betreffende vraag niet is beantwoord. Is dit getal hoog bij vragen aan het einde van de toets, dan kan het zijn dat de deelnemers in tijdnood zijn gekomen. Houd er in geval van toetsen met meerdere versies rekening mee, dat de laatste vragen in de verschillende versies andere vragen zijn. 9.4 Frequenties (f) De frequenties (f) geven antwoord op vragen als: - Hoe vaak zijn de verschillende alternatieven door de deelnemers gekozen? - Is de f van het juiste alternatief het hoogst? De frequentie (f) van een antwoordalternatief is het absolute aantal deelnemers dat voor het betreffende antwoordalternatief gekozen heeft. Is de f van een afleider hoger dan de f van het juiste antwoord, dan is deze afleider zeer aantrekkelijk geweest. Dit kan onder andere duiden op een onjuiste formulering van de vraag of van het als juist aangemerkte alternatief (sleutel). Bij een goede meerkeuzevraag wordt het juiste antwoord gekozen door de deelnemers die de stof beheersen en de afleiders door de deelnemers die de stof niet beheersen. De afleiders moeten daarom even aantrekkelijk zijn. Als bij een vierkeuzevraag één antwoordalternatief helemaal niet aantrekkelijk is, is de vraag eigenlijk een driekeuzevraag. Als een deelnemer ziet dat één afleider absoluut niet waar kan zijn maar het antwoord niet weet en gokt, wordt de kans dat hij het juiste antwoord goed gokt groter. De raadkans van de toets is echter bepaald op basis van een vierkeuzevraag. 9.5 De a-waarde (a) De a-waarde zegt iets over de aantrekkelijkheid van de antwoordalternatieven en geeft antwoorden op vragen als: - Welke proportie van de deelnemers heeft een bepaalde foutieve antwoordmogelijkheid (afleider) gekozen? - Hoe aantrekkelijk zijn de afleiders? De a-waarde van een antwoordalternatief is de proportie deelnemers die kozen voor dat alternatief. De a-waarde van het goede alternatief is gelijk aan de p-waarde van de vraag. STREEFWAARDE Bij meerkeuzevragen streeft men naar even aantrekkelijke afleiders, dat wil zeggen dat de a-waarde van alle afleiders ongeveer even groot is. De ideale a-waarde is afhankelijk van de ideale p-waarde en dus afhankelijk van het aantal alternatieven binnen een vraag. De a-waarden van afleiders mogen niet te laag zijn en in ieder geval niet hoger dan de p- waarde. v juli

27 VOORBEELD Bij een vierkeuzevraag met een p-waarde van 0,64 hebben de afleiders idealiter een a-waarde van: - Als een afleider door minder dan 5% (a < 0,05) van de deelnemers is gekozen, functioneert deze niet goed. Een te gemakkelijke vraag, waarbij iedereen het juiste antwoord wist kan hiervan de oorzaak zijn. 9.6 De z-waarde (z) De z-waarde is als aanvulling op de eerdere indicatoren zinvol en geeft antwoord op vragen als: - Wordt het juiste antwoord gekozen door hoogscorende deelnemers? - Worden de afleiders van een vraag gekozen door laagscorende deelnemers? - Kiezen laagscorende of hoogscorende deelnemers voor een specifieke afleider? De z-waarde van een antwoordalternatief is de gemiddelde score van de deelnemers die dat alternatief hebben gekozen, omgezet naar een standaardscore. STREEFWAARDE De z-waarde van de afleiders moet laag zijn en in ieder geval lager dan die van het juiste antwoordalternatief. Bij een vraag met een goed onderscheidend vermogen zal de z -waarde van het juiste antwoordalternatief positief zijn en de z-waarde van de afleiders negatief. LET OP De z-waarden worden geïnterpreteerd als de Rir-waarde van een vraag te laag is (Rir < 0,15), om te ontdekken of één of meerdere alternatieven van de vraag niet functioneren. De z-waarde is dus voornamelijk geschikt als aanwijzing of de alternatieven van de vraag misschien verbeterd moeten worden. VOORBEELD In de voorbeeldtoets heeft vraag 13 een Rir van 0,03. Deze vraag discrimineert nauwelijks tussen hoog- en laagscorende deelnemers. De z-waarden voor de vier alternatieven zijn bij deze vraag: antwoordmogelijkheid A B C D z-waarde -1,09 0,33 0,02-0,77 aantal deelnemers (f) Juiste alternatief is C De z-waarde van het juiste alternatief C wijkt weinig af van 0 en is lager dan de z-waarde van afleider B. Daarvan is de z-waarde overtuigend positief en hoger dan die bij de andere alternatieven. Dat betekent dat de gemiddelde score van de 69 deelnemers die kozen voor alternatief B hoger ligt dan die bij de andere alternatieven en dus ook bij het juiste antwoordalternatief. Dit geeft aan dat deze afleider niet goed functioneert. 9.7 Bespreking itemanalyse aan de hand van de voorbeeldtoets In het voorafgaande zijn de verschillende kwaliteitsindicatoren die bij de itemanalyse gebruikt worden apart besproken. Voor een juiste beoordeling van de statistische kwaliteit van een vraag is het noodzakelijk de indicatoren per vraag samen te bestuderen. Bij de beoordeling van een vraag wordt gekeken naar een combinatie van vier verschillende waarden: - de voor raden gecorrigeerde moeilijkheidsgraad (p ) v juli

28 - de aantrekkelijkheid van de antwoordalternatieven (a-waarde) - het onderscheidend vermogen van de toetsvraag (Rir) - gemiddelde score van de deelnemers per antwoordalternatief (z-waarde) Voldoen de analysewaarden niet aan de normen dan moet een grondige inspectie van de vraag volgen. Vervolgens kan indien nodig worden besloten om de vraag te laten vervallen of de sleutel te wijzigen, Aan de hand van een drietal vragen uit de voorbeeldtoets wordt het een en ander verduidelijkt. TOETSVRAAG 20 Vraag 20 is in de itemanalyse (zie Figuur 12) rood gemarkeerd met een uitroepteken. Volgens de legenda betekent dat, dat de vraag zeer slecht is gemaakt, en beter gemaakt door laagscorende dan door hoogscorende deelnemers. Het discriminerend vermogen is dus slecht ( p < 0,25 én Rir < 0). De a- en z-waarden van de alternatieven van deze vragen geven meer inzicht. VRAAG 20 juist antwoord is A p -waarde van de vraag -0,30 Rir van de vraag -0,30 a-waarden per alternatief A = 0,02 B = 0,02 C = 0,34 D = 0,62 z-waarden per alternatief A = -2,04 B = -1,08 C = -0,09 D = 0,15 aantal deelnemers (f) Tabel 4 Slechts 2% van de deelnemers kiest voor het juiste antwoord A. De z-waarde van antwoord A is negatief en de hoogte ervan zegt dat de gemiddelde score van degenen die dit alternatief hebben gekozen veel lager is dan die bij de afleiders. Dit duidt op een kwaliteitsprobleem. Het hadden juist de hoogscoorders moeten zijn die de vraag goed zouden moeten beantwoorden. Een overgrote meerderheid (62%) kiest voor afleider D. Van D is de z-waarde positief. Ook afleider B wordt maar door 2% van de deelnemers gekozen. De z-waarden van A, B en C zijn negatief. De alternatieven A en B zijn helemaal niet aantrekkelijk en worden gekozen door deelnemers die gemiddeld lager scoorden. Aanbevelingen Kijken we alleen naar de statistische kwaliteitsindicatoren dan is er voldoende reden om de vraag te laten vervallen en de scores opnieuw te (laten) berekenen. Het gebruik van deze vraag in de toekomst wordt afgeraden. Houd bij het laten vervallen van vragen in de gaten of de toets nog wel een goede afspiegeling is van de te toetsen stof. TOETSVRAAG 44 De kwaliteitsindicatoren voor vraag 44 zijn hieronder samengevat. VRAAG 44 juist antwoord is D p -waarde van de vraag 0,00 Rir van de vraag 0,01 a-waarden per alternatief A = 0,04 B = 0,24 C = 0,47 D = 0,25 z-waarden per alternatief A = -1,26 B = -0,24 C = 0,21 D = 0,02 aantal deelnemers (f) Tabel 5 v juli

29 Afleider C wordt vaker gekozen dan het juiste antwoord D. De 129 deelnemers die kiezen voor afleider C hebben een hogere gemiddelde score (z = 0,21) dan de 68 die kiezen voor het juiste antwoord D (z = 0,02). Afleider B is ook aantrekkelijk en wordt gekozen door deelnemers die de toets gemiddeld slechter (z = -0,24) hebben gemaakt dan degenen die kiezen voor C en D. Aanbevelingen Kijken we alleen naar de statistische kwaliteitsindicatoren dan is er voldoende reden om de vraag te laten vervallen en de scores opnieuw te (laten) berekenen. Het gebruik van deze vraag in de toekomst wordt afgeraden. Houd bij het laten vervallen van vragen in de gaten of de toets nog wel een goede afspiegeling is van de te toetsen stof. TOETSVRAAG 10 Dit is een vraag die goed gemaakt is, maar die nauwelijks onderscheid maakt tussen de laagscorende deelnemers en de hoogscorende deelnemers (combinatie p > 0,4 met Rir < 0,15). Ook hier geven de a- en z-waarden meer inzicht. VRAAG 10 juist antwoord is C p -waarde van de vraag 0,45 Rir van de vraag 0,06 a-waarden per alternatief A = 0,05 B = 0,07 C = 0,59 D = 0,28 z-waarden per alternatief A = -0,5 B = -0,31 C = 0,05 D = 0,07 aantal deelnemers (f) Tabel 6 De gecorrigeerde moeilijkheidsgraad (p ) is goed, maar de Rir van de vraag en de z-waarde van het juiste antwoordalternatief C zijn laag. De alternatieven A en B zijn nauwelijks gekozen en hebben dus als afleider niet goed gefunctioneerd. Alternatief D is gekozen door 77 deelnemers die gemiddeld een hogere score hebben dan degenen die het correcte antwoord kozen. Aanbevelingen De kwaliteitsindicatoren tonen twee minpunten van deze vraag aan. De vraag wordt in het algemeen beter beantwoord door degenen die de stof minder beheersen en twee afleiders functioneren niet. Ook dit kan aanleiding zijn de vraag te laten vervallen.voor toekomstig gebruik is ook deze vraag niet geschikt. v juli

30 10. Tabblad: samenvatting De itemanalyse uit het tabblad Itemanalyse (hoofdstuk 9) is samengevat in de Samenvatting itemanalyse (zie Figuur 14). Horizontaal vindt u waarden voor de item-restcorrelatie (Rir), en verticaal de waarden voor de gecorrigeerde moeilijkheidsgraad (p ). Vraagnummers met een bepaalde combinatie van deze twee kwaliteitsindicatoren zijn vermeld in de corresponderende tabelcellen. Figuur 14: samenvatting itemanalyse De Samenvatting signalering (Figuur 15) daaronder bevat de kwantitatieve informatie over de kwaliteit van de antwoordalternatieven (f, a en z). Figuur 15: samenvatting signalering v juli

31 11. Tabblad: score Op het tabblad score worden de behaalde toetsscores weergegeven, gesorteerd op inleesvolgorde. Als van een toets op basis van de deelnemerscores op aanvraag ook de (rapport)cijfers zijn berekend, zijn deze ook weergegeven. Deze tabel is te gebruiken voor verdere verwerking van de toets. Figuur 16: scores en eventueel rapportcijfers v juli

32 12. Tabblad: data De tabel op het tabblad data (hieronder niet in zijn geheel afgebeeld) geeft een exacte weergave van de gegevens waarop de analyse is uitgevoerd (zie Figuur 17). De gegevens zijn gesorteerd op inleesvolgorde. Figuur 17: data Per deelnemer is te zien: - het deelnemernummer - de inleesvolgorde - de versie zoals door de deelnemer ingevuld op het antwoordformulier - de gegeven antwoorden VOORBEELD De deelnemer met nummer (bovenste regel) heeft op zijn antwoordformulier versie 3 genoteerd en de antwoorden op de eerste vijf waren: DCCCD. v juli

Nog meer weergeven