ITS EvaluatieService LEESWIJZER TOETSRAPPORT
|
|
- Annelies van der Wal
- 6 jaren geleden
- Aantal bezoeken:
Transcriptie
1 ITS EvaluatieService LEESWIJZER TOETSRAPPORT ITS EvaluatieService verwerkt toetsen met meerkeuzevragen digitaal. De rapportage wordt geleverd in de vorm van een overzichtelijk toetsrapport in Microsoft Excel -formaat. Deze leeswijzer helpt u bij het lezen en interpreteren van het toetsrapport. v juli
2 1. Inhoudsopgave 1. Inhoudsopgave Inleiding Toetsrapport: waarom, wat en hoe? Waarom toetsrapportages? Het toetsrapport van ITS EvaluatieService Kwaliteitsindicatoren Interpretatie van de kwaliteitsindicatoren Praktisch gebruik van het toetsrapport Tabblad: toetsoverzicht Toetskenmerken Algemene toetskenmerken Kansscore Toetsanalyse Score = aantal goed Moeilijkheidsgraad (p) en gecorrigeerde moeilijkheidsgraad (p ) Item-restcorrelatie (Rir) Coëfficiënt alfa ( ) Standaard meetfout Toetsuitslag Tabblad: sleutel en versie Tabblad: controletabel Tabblad: scoretabel Tabblad: frequentietabel Tabblad: itemanalyse Moeilijkheidsgraad (p) en gecorrigeerde moeilijkheidsgraad (p ) De item-totaalcorrelatie (Rit) en item-restcorrelatie (Rir) Open Frequenties (f) De a-waarde (a) De z-waarde (z) Bespreking itemanalyse aan de hand van de voorbeeldtoets Tabblad: samenvatting Tabblad: score Tabblad: data Termenlijst Literatuur v juli
3 2. Inleiding ITS EvaluatieService verwerkt toetsen met meerkeuzevragen digitaal. De rapportage wordt geleverd in de vorm van een overzichtelijk toetsrapport in Microsoft Excel -formaat. Het rapport bestaat uit negen onderdelen die ieder op een apart tabblad zijn weergegeven (Figuur 1): Figuur 1: inhoudsopgave toetsrapport Deze leeswijzer helpt u bij het lezen en interpreteren van het toetsrapport, en geeft achtergrondinformatie bij de in het toetsrapport gebruikte termen. We gaan eerst in op de functie van het rapport (hoofdstuk 3). In de hoofdstukken 4 t/m 12 worden vervolgens de verschillende tabbladen uit het toetsrapport apart besproken. In hoofdstuk 13 vindt u een termenlijst. Het laatste hoofdstuk (14) geeft een overzicht van de voor deze leeswijzer geraadpleegde literatuur. VOORBEELD In deze leeswijzer worden termen uitgelegd aan de hand van een voorbeeldtoets. Deze voorbeelden zijn weergegeven in een roze kader. Het gebruikte toetsrapport van de voorbeeldtoets kunt u hier downloaden: v juli
4 3. Toetsrapport: waarom, wat en hoe? 3.1 Waarom toetsrapportages? In het hoger onderwijs wordt veel gebruik gemaakt van selectieve toetsen, ook wel summatieve toetsen genoemd. Een summatieve toets heeft de functie een oordeel over de kennis en vaardigheden van de toetsdeelnemer uit te spreken. Summatieve toetsen zijn bedoeld om beslissingen te nemen die de onderwijsloopbaan van de deelnemers raken, zoals voldoende of onvoldoende, slagen of zakken. Om betrouwbare uitspraken te kunnen doen over het zakken en slagen van deelnemers moeten de toetsvragen van hoge kwaliteit zijn en moet de toets meten wat beoogd is te meten. Een kwalitatief slechte toets vergroot de kans dat deelnemers onterecht zakken of onterecht slagen. Het toetsrapport van ITS EvaluatieService is ontwikkeld voor toetsen met een summatieve functie. Mede op grond hiervan kan iets worden gezegd over de kwaliteit van de afgenomen toets en kan deze, zo nodig, worden verbeterd. De kwaliteit van een toets wordt uitgedrukt in een aantal indicatoren. Deze kwaliteitsindicatoren zijn een instrument om eventuele knelpunten binnen een toets te signaleren. Het is aan een inhoudsdeskundige (de docent) om aan de hand van deze cijfermatige analyse de kwaliteit van de toets en de afzonderlijke vragen te bepalen. Hij of zij beslist dan ook óf, en zo ja, welke maatregelen er genomen moeten worden om die kwaliteit te verbeteren. Denk bijvoorbeeld aan het laten vervallen van een vraag of het meer dan één antwoord goed rekenen. 3.2 Het toetsrapport van ITS EvaluatieService Het toetsrapport van ITS EvaluatieService toont de resultaten van een kwantitatieve analyse na toetsafname en geeft inzicht in: - Indicatoren voor de kwaliteit van de toets in zijn geheel (Tabblad: toetsoverzicht, hoofdstuk 4) - Indicatoren voor de kwaliteit van de afzonderlijke vragen (Tabblad: itemanalyse, hoofdstuk 9 en Tabblad: samenvatting, hoofdstuk 10) - Een overzicht per deelnemer met behaalde score (aantal goed beantwoorde vragen), geordend op nummer en op score (Tabblad: scoretabel, hoofdstuk 7). - Verdeling van de toetsscores (Tabblad: frequentietabel, hoofdstuk 8) - Per deelnemer een overzicht van de fout beantwoorde vragen (Tabblad: controletabel, hoofdstuk 6) - Gegevens waarop de analyse is uitgevoerd (Tabblad: data, hoofdstuk 12) 3.3 Kwaliteitsindicatoren In het toetsrapport van ITS EvaluatieService worden de volgende indicatoren van de kwaliteit berekend. Tussen haakjes is in het blauw de verkorte aanduiding vermeld. - de moeilijkheidsgraad (p) van de toets als geheel en van de afzonderlijke toetsvragen - de gecorrigeerde moeilijkheidsgraad (p ) - de item-restcorrelatie: het onderscheidingsvermogen van de toetsvraag tussen deelnemers die de stof wel en deelnemers die de stof niet beheersen (Rir) - de betrouwbaarheid van de toets (coëfficiënt ) - de aantrekkelijkheid van de antwoordalternatieven (a) per toetsvraag v juli
5 - gemiddelde standaardtoetsscore van de deelnemers die dat alternatief hebben gekozen (z). Deze kwaliteitsindicatoren worden meer in detail toegelicht in hoofdstuk 4 en Interpretatie van de kwaliteitsindicatoren Bij de interpretatie van de gemeten waarden is het van belang om met de volgende zaken rekening te houden. NORMALE VERDELINGSVORM VAN DE TOETSSCORES IS VOORWAARDE VOOR JUISTE INTERPRETATIE Om de analyseresultaten te kunnen interpreteren als indicator voor de kwaliteit van de toets en de toetsvragen moeten de toetsscores normaal verdeeld zijn. Een normale verdeling (ook wel normaalverdeling of Gaussverdeling genoemd) is klokvormig. Eenvoudig gezegd komt het erop neer dat een meerderheid van de deelnemers een score heeft rond het gemiddelde en dat er evenveel deelnemers boven als onder het gemiddelde hebben gescoord. In hoofdstuk 8 wordt dieper op de verdelingsvorm van de toetsscores (frequentieverdeling) ingegaan. LENGTE VAN DE TOETS BEÏNVLOEDT DE BETROUWBAARHEID Over het algemeen geldt: hoe meer vragen, hoe hoger de betrouwbaarheid van de resultaten. Hoe groter het gedeelte van de te bestuderen studiestof is dat wordt bevraagd, hoe meer de toets een afspiegeling is van de totale leerstof. Een toets kan echter niet uit een oneindig aantal vragen bestaan 1. AANTAL DEELNEMERS IS VAN INVLOED OP DE INDICATOREN De stabiliteit van de moeilijkheidsgraad (p) en het onderscheidingsvermogen (item-restcorrelatie Rir) is geringer bij een klein aantal deelnemers. Per indicator gelden verschillende grenzen waaraan ten minste voldaan moet worden om als kwaliteitsmaat gebruikt te kunnen worden. In hoofdstuk 9 wordt hier aandacht aan besteed. SAMENSTELLING VAN DE GROEP DEELNEMERS BEÏNVLOEDT DE BETROUWBAARHEID EN DE MOEILIJKHEID Het niveau van de totale groep deelnemers heeft invloed op de moeilijkheidsgraad (p, zie 9.1) van de vragen. In een groep met veel herkansers is het niveau waarschijnlijk lager dan in een groep met weinig herkansers. De vragen zullen waarschijnlijk slechter gemaakt worden, waardoor de p-waarden lager kunnen uitvallen. Ook kan de groep herkansers tamelijk homogeen zijn, waardoor de betrouwbaarheid lager is. Een groep wordt homogeen genoemd wanneer de spreidingsgraad (standaarddeviatie gedeeld door het aantal toetsvragen) kleiner is dan 0,10. Een spreidingsgraad van meer dan 0,25 wijst op een heterogene groep en dat is voor summatieve toetsen gunstig. Voor de indicatoren zijn normen vastgesteld waarmee de toetsresultaten worden beoordeeld. Bij iedere norm is sprake van een onzekerheidsmarge, en verschillende auteurs hanteren enigszins verschillende normen. Naast de bovengenoemde factoren is dit een extra reden om voorzichtig te zijn met het interpreteren van de berekende waarden Praktisch gebruik van het toetsrapport Het toetsrapport geeft informatie over de kwaliteitsindicatoren van de toets als geheel en van de afzonderlijke toetsvragen. Deze informatie is bruikbaar direct na de toets, maar ook nuttig voor aanpassingen van de toets in de toekomst. 1 Berkel, H.J.M. van, & A.E. Bax (2006). Toetsen in het hoger onderwijs. Hoofdstuk 6 Toetsen met gesloten vragen gaat in op het minimaal aantal vragen dat nodig is om een acceptabele betrouwbaarheid te behalen. v juli
6 GEBRUIK DIRECT NA DE TOETS Op grond van de statistische en inhoudelijke analyse en eventueel het commentaar van de studenten bepaalt de docent direct na een toets of de score gehandhaafd blijft of dat er een heranalyse uitgevoerd moet worden. De toetsanalyse laat zien: - Hoe de toets gemaakt is (slecht/goed) ( 4.2.1) - De grootte van de spreiding van de toetsscores (veel spreiding/weinig spreiding) ( 4.2.1). - De mate van betrouwbaarheid van de toets (laag/hoog) ( 4.2.4). - De mate van nauwkeurigheid van de toetsscores ( laag/hoog) ( 4.2.5). De itemanalyse van een toets geeft signalen, bijvoorbeeld dat: - De antwoordsleutel misschien niet juist is (een verkeerd antwoordalternatief is als juist aangemerkt). - Een onjuist alternatief (afleider) misschien ook als juist antwoord mogelijk is (dus twee juiste antwoorden in plaats van één). GEBRUIK MET HET OOG OP DE TOEKOMST Daarnaast kan de informatie uit het toetsrapport nuttig zijn bij het verbeteren van de kwaliteit van de toets met het oog op toekomstig gebruik. Door beantwoording van de onderstaande vragen kan men op het spoor komen van eventuele extra verbetermogelijkheden. Toetsanalyse Waarom is de betrouwbaarheid van de toets laag of hoog? Wat betekent de nauwkeurigheid van de toetsscores voor het percentage onterechte zak- of slaagbeslissingen? Itemanalyse Waarom kiezen juist de hoogscorende deelnemers voor een bepaalde afleider? Waarom wordt een bepaalde afleider helemaal niet gekozen? Waarom wordt het juiste antwoordalternatief minder gekozen dan een bepaalde afleider? Welke vragen scheiden de hoogscorende van de laagscorende deelnemers? Welke vragen zijn heel makkelijk of juist moeilijk? v juli
7 4. Tabblad: toetsoverzicht Dit tabblad geeft een overzicht van de belangrijkste toetskenmerken ( 4.1) en de kwaliteitsindicatoren van de toets ( 4.2). 4.1 Toetskenmerken Algemene toetskenmerken Het aantal deelnemers, aantal vragen en aantal alternatieven zijn kenmerken van de toets die niet worden beïnvloed door de wijze waarop de deelnemers de toetsvragen hebben beantwoord. Zie Figuur 2. Figuur 2: toetskenmerken VOORBEELD De voorbeeldtoets is door 274 mensen gemaakt. De toets bestond uit 44 vragen. Iedere vraag heeft vier alternatieven. Na herziening is vraag 4 komen te vervallen. Er zijn nog 43 vragen over Kansscore Bij meerkeuzevragen kan men naar het antwoord raden. De kansscore geeft aan hoeveel vragen iemand goed zou kunnen beantwoorden (hoe hoog de score zou zijn) door volledig te gokken. Figuur 3: kansscore Deze score is afhankelijk van het aantal vragen in de toets en het aantal antwoordalternatieven per vraag. Bij een toetsscore gelijk aan of onder de kansscore gaat men er van uit dat de deelnemer eigenlijk geen werkelijke kennis van de stof heeft. Bij een toetsscore hoger dan de kansscore veronderstelt men pas werkelijke kennis. Zie Figuur 3. v juli
8 VOORBEELD De voorbeeldtoets bestaat uit 43 vragen met elk vier alternatieven. De kansscore is dan: 4.2 Toetsanalyse De toetsanalyse geeft kwantitatieve informatie over de prestaties van de groep deelnemers ( 4.2.1) en de kwaliteitsindicatoren van de toets als geheel ( t/m 4.2.5). Het geeft antwoord op vragen als: - Wat is de gemiddelde toetsscore van de deelnemers? - Liggen de toetsscores dicht bij het gemiddelde in de buurt? - Liggen de laagste en de hoogste toetsscore boven de kansscore? - Liggen de toetsscores in de buurt van de maximaal haalbare score? - Is er een groot verschil tussen de laagste en hoogste toetsscore? - Hoe moeilijk was de toets in zijn geheel? - Wat is de betrouwbaarheid van de toets? - Hoe groot is het onzekerheidsgebied rondom de toetsscores van de deelnemers? Onderstaande figuur laat zien hoe de indicatoren worden weergegeven in het tabblad Toetsoverzicht. De paragraafnummers waarin deze worden besproken zijn rechts toegevoegd Figuur 4: toetsanalyse Score = aantal goed GEMIDDELD De gemiddelde toetsscore ten opzichte van de maximale score toont hoe de toets gemaakt is. De maximale score is gelijk aan het totaal aantal gebruikte toetsvragen. Een gemiddelde toetsscore die in de buurt komt van de maximale score laat bijvoorbeeld zien dat de toets goed gemaakt is. STANDAARDDEVIATIE De standaarddeviatie laat zien hoe de spreiding van de toetsscores van de groep deelnemers is. De standaarddeviatie is de afwijking van alle scores (van de hele groep) ten opzichte van het gemiddelde. Dus: hoe hoger de standaarddeviatie, hoe groter het spreidingsgebied van de score. Hieraan wordt in hoofdstuk 8 meer aandacht besteed. LAAGSTE / HOOGSTE De laagste en hoogste score geven de grenzen aan waarbinnen de scores van de groep deelnemers zich bevinden. v juli
9 4.2.2 Moeilijkheidsgraad (p) en gecorrigeerde moeilijkheidsgraad (p ) GEMIDDELD De gemiddelde moeilijkheidsgraad zegt iets over de moeilijkheid van de toets als geheel voor de groep die heeft deelgenomen aan de toets. De moeilijkheidsgraad van de toets is het gemiddelde van de moeilijkheidsgraad van de afzonderlijke toetsvragen. Hoe hoger de gemiddelde waarde (maximaal 1) hoe gemakkelijker de toets. Voor de moeilijkheidsgraad wordt de term p-waarde gebruikt. De gemiddelde gecorrigeerde moeilijkheidsgraad wordt berekend om te corrigeren voor het effect van het raden naar het juiste antwoord. De gecorrigeerde moeilijkheidsgraad wordt weergegeven door p. STANDAARDDEVIATIE Bij de standaarddeviatie van de (gecorrigeerde)moeilijkheidsgraad van de toets gaat het om de spreiding in de p- en p - waarden van de toetsvragen, ofwel de afwijking van de (gecorrigeerde)moeilijkheidsgraad per vraag ten opzichte van het gemiddelde hiervan voor de gehele toets. LAAGSTE / HOOGSTE Hier gaat het om de laagste en hoogste (gecorrigeerde) moeilijkheidsgraad van de toetsvragen bij deze groep deelnemers. (STREEF)WAARDE Bij summatieve toetsing is het belangrijkste aspect dat een zo nauwkeurig mogelijke beslissing wordt genomen over het slagen en zakken van de deelnemers. Je wilt dat degenen die de stof beheersen hoge scores halen en degenen die dat niet doen lage scores krijgen. Ligt de gecorrigeerde moeilijkheidsgraad p rond 0,5 (tussen 0,4 en 0,6) dan is de aanname dat de toets daarin geslaagd is. Bij een te hoge waarde was de toets te gemakkelijk en bij een te lage waarde was hij te moeilijk (zie 9.1) Item-restcorrelatie (Rir) GEMIDDELD Voor een toets als geheel geeft de item-restcorrelatie een indicatie voor de mate waarin de toetsvragen onderscheid maken tussen goede deelnemers (de kenners) en slechte deelnemers (de niet-kenners). Het is uiteraard de bedoeling dat degenen die de stof beheersen hoge scores halen en degenen die de stof niet beheersen lage scores krijgen. STANDAARDDEVIATIE De standaarddeviatie van de item-restcorrelatie geeft aan hoe groot de spreiding in de item-restcorrelaties van de afzonderlijke vragen is. LAAGSTE / HOOGSTE De laagste en hoogste item-restcorrelatie geven de grenzen aan waarbinnen de item-restcorrelatie van de toetsvragen zich, bij deze groep deelnemers, bevinden. v juli
10 (STREEF)WAARDE Bij het maken van onderscheid tussen degenen die de stof beheersen en degenen die de stof niet beheersen is het van belang dat de vragen gemiddeld genomen goed beantwoord zijn door de hoogscoorders en slecht door de laagscoorders. Is dat het geval dan is de gemiddelde item-restcorrelatie (Rir) positief. De gevonden waarden voor de toets als geheel hangen natuurlijk nauw samen met die van de afzonderlijke vragen. In hoofdstuk 9 wordt op het niveau van de afzonderlijke toetsvragen uitgebreid aandacht besteed aan de (gecorrigeerde) moeilijkheid en de item-restcorrelatie. Aan het gebruik van deze indicatoren voor de kwaliteit van de toets zijn dezelfde voorwaarden verbonden als aan die van de afzonderlijke vragen. Ook daarvoor wordt u verwezen naar hoofstuk Coëfficiënt alfa ( ) Coëfficiënt geeft aan in hoeverre de toets betrouwbare resultaten geeft. Dat wil zeggen of bij herhaling van de toetsafname dezelfde resultaten gevonden worden. De hoogte wordt bepaald door de samenhang tussen de afzonderlijke vragen. Hoe meer de afzonderlijke vragen hetzelfde meten, hoe hoger de betrouwbaarheid van de gehele toets. (STREEF)WAARDE EN NORMEN Coëfficiënt heeft een minimale waarde van 0 en een maximale waarde van 1. Bij een summatieve toets is de streefwaarde minimaal 0,8. Bij een coëfficiënt gelijk of lager dan 0,6 is de betrouwbaarheid onvoldoende. Een van 0,0 betekent dat de uitkomst van de toets volledig onbetrouwbaar is. Is de berekende waarde 1,0 dan is de toets juist volledig betrouwbaar. Aangenomen wordt dat de uitslag dan een exacte weerspiegeling is van de kennis van de deelnemers en dus niet op toeval berust. Deze exacte weerspiegeling wordt ook wel ware score genoemd. Een lager dan 1,0 betekent dat de behaalde toetsscore niet de exacte weerspiegeling is van de kennis van de deelnemers. Er ligt een bepaald onzekerheidsgebied rondom de behaalde score, waarbinnen de ware score zich zal bevinden. Hoe lager, hoe groter dit onzekerheidsgebied. Bij een summatieve toets neemt men door vaststelling van de cesuur (de toetsscore die de grens aangeeft tussen een voldoende en een onvoldoende) een beslissing over het zakken en slagen van deelnemers. Hoe groter het onzekerheidsgebied rondom de behaalde score, hoe groter de kans dat er onterechte zak- of slaagbeslissingen worden genomen. Hoe lager de betrouwbaarheid van de toets, hoe groter de kans dat de uitslag van de toets op toeval berust en hoe groter de kans dat er onterechte zak- en slaagbeslissingen worden genomen. STABILITEIT Factoren die van invloed zijn op de betrouwbaarheid en dus op de hoogte van coëfficiënt zijn onder andere: - De bijdrage die de toetsvragen leveren aan het scheiden van de laag- en hoogscorende deelnemers. Bij een extreem lage of juist hoge moeilijkheidsgraad verschillen de antwoorden van de deelnemers niet veel van elkaar (geringe variantie in scores) en is de betrouwbaarheid van de toets lager. Bij een lage betrouwbaarheid moet men zich dus afvragen of dit komt door een gebrek aan kwaliteit van de toetsvragen, een geringe toetslengte of doordat het niveau van de deelnemers niet veel van elkaar verschilt. v juli
11 - Het aantal vragen: in het algemeen geldt dat de betrouwbaarheid hoger is naarmate het aantal vragen toeneemt. Een toets kan praktisch gezien echter niet uit een oneindig aantal vragen bestaan. De docent moet bepalen welk aantal vragen qua tijd haalbaar is 2 (zie ook 3.3.1). - Samenstelling van de groep deelnemers: hoe heterogener het kennisniveau binnen de groep, hoe hoger de coëfficiënt. Dat wil zeggen hoe groter de verschillen zijn in beheersing van de stof door de deelnemers, hoe meer de toetsscores uiteenlopen (grotere variantie) en hoe hoger de betrouwbaarheid is Standaard meetfout De standaard meetfout geeft aan hoe groot het onzekerheidsgebied rondom de behaalde score van deelnemers is. Het geeft de grenzen van het gebied aan, waarbinnen de ware score (zie ook 4.2.4) zich zal bevinden. Bij een summatieve toets is het streven dat deelnemers die de studiestof beheersen, zullen slagen en dat deelnemers die niet voldoende kennis hebben, zullen zakken. Naarmate de toets betrouwbaarder is, is de standaard meetfout kleiner. Als het onzekerheidsgebied rondom de behaalde score kleiner is, is de kans dat er onterechte zak- en slaagbeslissingen worden genomen kleiner! Figuur 5 laat voor een voorbeeldtoets zien waar de grenzen van het onzekerheidsgebied rondom de behaalde toetsscores van de deelnemers liggen. De donkerste lijn geeft de behaalde toetsscores weer en de lichtere lijnen de grenzen van het onzekerheidsgebied. Met 95% zekerheid kun je zeggen dat de scores van de deelnemers in het gebied tussen de onderste en de bovenste lijn zullen liggen. De lichtste lijnen geven de 68% grenzen aan. 2 Na afname van een toets kan met de Spearman-Brown formule berekend worden met welk aantal vragen de toets (bij een volgende afname) uitgebreid zou moeten worden om een bepaalde betrouwbaarheid te kunnen verkrijgen. Voor meer informatie over deze formule verwijzen we u naar Berkel, H.J.M. van (1999) Zicht op toetsen. Assen: Van Gorcum, blz v juli
12 Score met onzekerheidsgebied 40 68% 95% Toetsscore Toetsscore - 2 x standaard meetfout Toetsscore + 2 x standaard meetfout Toetsscore - 1 x standaard meetfout Toetsscore + 1 x standaard meetfout Figuur 5: score met onzekerheidsgebied VOORBEELD Een deelnemer heeft voor het tentamen een score van 25 gehaald. Bij gebruik van het interval rondom de toetsscore kun je met 95% zekerheid zeggen dat de ware score van deze deelnemer tussen 19,72 ( - ) en 30,28 ( ) zal liggen. Als de cesuur bij deze toets 22 is, kan de deelnemer dus onterecht geslaagd zijn, omdat zijn ware score mogelijk lager is: de score van 25 zou dan op toeval berusten. 4.3 Toetsuitslag Als van een toets op basis van de deelnemerscores op aanvraag ook de (rapport)cijfers zijn berekend, dan vindt u hier de toetsuitslag. De aangeleverde cesuur geeft de grens tussen geslaagd zijn en niet geslaagd zijn aan. Zie Figuur 6. Figuur 6: toetsuitslag VOORBEELD De cesuur van de voorbeeldtoets is bepaald op 70%. Dat betekent dat een deelnemer bij een minimale score van (70% x 43 vragen =) 30 punten is geslaagd. Hij heeft dan het rapportcijfer 5,5 (voldoende) behaald. Van de 274 deelnemers aan de voorbeeldtoets zijn er 141 geslaagd (51,46%). v juli
13 5. Tabblad: sleutel en versie In het tabblad sleutel en versie zijn de juiste antwoorden per vraag weergegeven. Bij een toets met meerdere versies, worden de juiste antwoorden weergegeven voor elke versie. Figuur 7: sleutel en versies VOORBEELD In de voorbeeldtoets staat bij vraag 1 van versie 3: 38. Dit betekent dat de eerste vraag in versie 3 hetzelfde is als vraag 38 in versie 1. Het antwoord op deze vraag is D. Veranderingen in de sleutel als gevolg van een herziening worden ook weergegeven: - vervallen vragen zijn grijs gemarkeerd; v juli
14 - in geval van sleutelwijziging is in de sleutelkolom voor versie 1 het goede antwoord weergegeven, gevolgd door het oorspronkelijke goede antwoord; - in geval van meerdere antwoorden mogelijk, zijn beide antwoorden weergegeven in de sleutelkolom voor versie 1. VOORBEELD Vraag 4 uit versie 1 is bij de herziening komen te vervallen. Dat zijn respectievelijk de 3 e en de 11 e vraag uit de twee afgeleide versies. Het goede antwoord voor vraag 6 uit versie 1 was D. Bij de herziening is de sleutel gewijzigd; het goede antwoord is nu C. Na analyse van de toets bleek dat bij vraag 16 zowel antwoord B als C goed waren. v juli
15 6. Tabblad: controletabel Figuur 8: controletabel In de controletabel zijn de deelnemers gesorteerd van de laagste naar de hoogste toetsscore. Per deelnemer wordt vermeld: - deelnemernummer: het nummer volgens het antwoordformulier - inleesvolgorde: de volgorde waarop de antwoordformulieren zijn gescand - toetsscore: het aantal juist beantwoorde vragen - versienummer van de toets (indien van toepassing). Als de deelnemer geen (geldig) versienummer heeft ingevuld op het antwoordformulier, is het versienummer oranje gemarkeerd. Zijn of haar toets is verwerkt als de moederversie. - antwoordinformatie: per vraag is aangegeven hoe de deelnemer deze heeft beantwoord (in letters), gemarkeerd met de kleurcoderingen uit de legenda, die hieronder wordt toegelicht. De antwoordinformatie is gecorrigeerd voor versies, dat wil zeggen dat de antwoorden terugvertaald zijn naar de volgorde van de moederversie. v juli
16 TOELICHTING LEGENDA term foutief antwoord niet mogelijk alternatief vervallen vraag goed antwoord geen antwoord Tabel 1 beschrijving De deelnemer heeft een vraag foutief beantwoord. De deelnemer op het antwoordformulier heeft gekozen voor een alternatief dat wel op het formulier staat afgedrukt maar niet tot de mogelijkheden behoort (bijvoorbeeld antwoord E terwijl de vraag maar vier alternatieven heeft). De vraag is na herziening komen te vervallen. De deelnemer heeft de vraag goed beantwoord. De deelnemer heeft de vraag niet beantwoord. Omdat de tabel gesorteerd is op toetsscore, treft u bovenaan de meeste rode vakjes aan en onderaan steeds minder. VOORBEELD De deelnemer met nummer 57 (tweede regel) heeft vraag 1 foutief beantwoord. In plaats van antwoord C (zie antwoordsleutel, hoofdstuk 5) is gekozen voor antwoord D. Deze deelnemer heeft de laagste score van alle deelnemers: alleen de vragen 12, 16, 24, 26, 29, 39 en 42 heeft hij of zij goed beantwoord. De deelnemer met nummer 2 (zevende regel) heeft vraag 36 en 37 niet beantwoord). Deelnemer 270 (derde regel) heeft vraag 3, 6 en 8 met E beantwoord. Dat is geen bestaande antwoordmogelijkheid: er waren maar vier antwoordalternatieven. De deelnemer met nummer 164 (eerste regel) heeft op het tentamenformulier het ongeldige versienummer 4 ingevuld. Het tentamen wordt dan verwerkt als versie 1. Vraag 4 is na herziening komen te vervallen. Dit geldt uiteraard voor alle deelnemers en alle versies. Omdat de tabel gecorrigeerd is voor versies, is er bij vraag 4 een verticale grijze kolom zichtbaar voor deze vraag. Door de sleutelwijziging van vraag 6 (C (was D)) zijn alle C-antwoorden wit, en alle D-antwoorden bij vraag 6 rood gemarkeerd. Bij vraag 16 zijn zowel de C- als de B-antwoorden wit gemarkeerd: bij de herziening zijn beide antwoorden goed bevonden. v juli
17 7. Tabblad: scoretabel In de scoretabel worden de toetsscores per deelnemer op twee manieren weergegeven: op nummervolgorde en op scorevolgorde. Figuur 9: scoretabel op nummervolgorde en op scorevolgorde De tabel nummervolgorde (links) is gesorteerd op deelnemernummer, waarbij het laagste nummer bovenaan staat. In deze tabel wordt per deelnemer aangegeven: - de toetsscore: het aantal juist beantwoorde vragen; - het aantal onbeantwoorde vragen; - de percentielscore: geeft aan hoeveel procent van de totale groep deelnemers een lagere score heeft dan de desbetreffende deelnemer. VOORBEELD In de voorbeeldtoets heeft deelnemer 14 een toetsscore van 33. Van de totale groep deelnemers heeft 72,63% een lagere score dan deelnemer 14 (dus een score lager dan 33). Je kunt ook zeggen dat deze deelnemer bij de beste 27% deelnemers van de gehele groep behoort ( - ). De tabel scorevolgorde (rechts) is gesorteerd op toetsscore, waarbij de laagstscorende deelnemer bovenaan staat. In deze tabel wordt per deelnemer aangegeven: - de toetsscore: het aantal juist beantwoorde vragen; - volgordenummer (#) binnen de scorevolgorde; - het cumulatief percentage: geeft per toetsscore aan welk percentage van de totale groep een score heeft die lager is dan of gelijk aan de desbetreffende score 3. - de cumulatieve frequentie: geeft per toetsccore aan hoeveel deelnemers een score hebben die lager is dan of gelijk is aan deze score; 3 Overigens is hier niet de complete tabel gebruikt, waardoor onderaan geen 100% staat. v juli
18 VOORBEELD In de voorbeeldtoets komt toetsscore 19 drie keer voor. Een toetsscore lager dan of gelijk aan 19 (hier score 7, 12, 14, 16, 17, 18 en 19,00), komt 12 keer voor: 12 deelnemers hebben dus een score gelijk of lager dan 19. Het cumulatief percentage is 4,38%. Dat betekent dat 4,38% van de totale groep een score heeft die lager of gelijk is aan 19. De tabel scorevolgorde is te gebruiken om de cesuur (= de toetsscore die de grens tussen onvoldoende en voldoende aangeeft) vast te stellen 4. Als de cesuur is vastgesteld, kan in de tabel bij deze score als het ware een denkbeeldige horizontale lijn getrokken worden. De deelnemers boven deze lijn scoren een onvoldoende. De deelnemers onder de lijn scoren een voldoende. In de rij direct boven de cesuur leest u hoeveel deelnemers een onvoldoende behalen (cumulatieve frequentie) en welk percentage dat is (cumulatief percentage). 4 Er zijn verschillende manieren om de cesuur vast te stellen. Voor meer informatie verwijzen we u naar: Berkel, H.J.M. van, & A.E. Bax (2006) Toetsen in het hoger onderwijs. Houten: Bohn Stafleu van Loghum. Dousma, T., A. Horsten & J. Brants (1997) Tentamineren. Hoger Onderwijs Reeks. Groningen: Wolters-Noordhof v juli
19 8. Tabblad: frequentietabel De frequentietabel laat zien hoe de toetsscores verdeeld zijn. Het is een compacte weergave van de scoretabel (hoofdstuk 7), omdat elke toetsscore maar één keer voorkomt. Per toetsscore is zichtbaar: - Hoeveel deelnemers deze score hebben gehaald (frequentie). - Hoeveel deelnemers een score hebben die kleiner is dan of gelijk is aan de desbetreffende score (cumulatieve frequentie). - Welk percentage van de totale groep deelnemers deze score heeft behaald (cumulatief percentage). VOORBEELD In de voorbeeldtoets hebben 4 deelnemers een toetsscore van deelnemers hebben een toetsscore lager dan of gelijk aan 20. 5,84% van de totale groep heeft een score die lager is dan of gelijk is aan 20. De frequentietabel laat zien of de scores in de buurt liggen van de maximale score of juist niet. Als een toets slecht gemaakt is, zijn er bijvoorbeeld geen (of heel weinig) deelnemers met een hoge score. Figuur 10: frequentietabel De frequentiegrafiek is een grafische weergave van de frequentietabel. Een normale verdelingsvorm (klokvormig) is voorwaarde voor een juiste interpretatie van de berekende indicatoren voor de kwaliteit van de toets als geheel en de afzonderlijke toetsvragen. Als de spreiding van de scores normaal verdeeld is, ligt ruim 68% van de scores binnen één standaarddeviatie en iets meer dan 95% binnen twee keer de standaarddeviatie van het gemiddelde. Dat komt er op neer dat het grootste gedeelte van de groep een score rondom het gemiddelde heeft en een kleiner gedeelte (veel) lager of (veel) hoger scoort. De kansscore (zie 4.1.2) en gemiddelde score (zie 4.2.1) zijn gemarkeerd met een driehoekje. v juli
20 Figuur 11: frequentiegrafiek VOORBEELD In de frequentiegrafiek van de voorbeeldtoets is te zien dat de score van de groep redelijk normaal verdeeld is. De laagst behaalde score (7) ligt lager dan de kansscore (11). De gemiddelde toetsscore (29,14) komt echter in de buurt van de maximaal haalbare score (43,00). v juli
21 9. Tabblad: itemanalyse Met behulp van de itemanalyse kan men nagaan hoe de afzonderlijke vragen van de toets hebben gefunctioneerd. De itemanalyse geeft antwoord op vragen als: - Wat is de moeilijkheidsgraad van een vraag (p)? Welk deel van de groep deelnemers heeft de vraag juist beantwoord? - Wat is de gecorrigeerde moeilijkheidsgraad van een vraag (p )? Welk deel van de groep deelnemers heeft het juiste alternatief gekozen met correctie voor raden / gokken? - Heeft een vraag discriminerend vermogen, dat wil zeggen maakt de vraag onderscheid tussen laag- en hoogscorende deelnemers (item-totaalcorrelatie, Rit en item-restcorrelatie, Rir)? - Hoe vaak is een vraag niet beantwoord? - Hoe vaak zijn de verschillende alternatieven door de deelnemers gekozen (f)? - Hoe vaak zijn de alternatieven gekozen (a)? - Is de gemiddelde score van degenen die het juiste alternatief kozen hoger dan die van degenen die de afleiders kozen (z)? Figuur 12: itemanalyse v juli
22 Figuur 13: legenda bij itemanalyse In dit hoofdstuk worden de verschillende indicatoren eerst apart besproken. Voor een juiste beoordeling van de statistische kwaliteit van een vraag is het echter noodzakelijk de indicatoren van een vraag in onderlinge samenhang te bestuderen. Dit wordt toegelicht in 9.7 aan de hand van de voorbeeldtoets. 9.1 Moeilijkheidsgraad (p) en gecorrigeerde moeilijkheidsgraad (p ) De (gecorrigeerde) moeilijkheidsgraad geeft antwoord op vragen als: - Welk deel van de groep deelnemers heeft de vraag juist beantwoord (p)? - Idem, na correctie voor raden/gokken (p )? - Heeft bijna iedereen de vraag juist beantwoord? - Heeft bijna niemand de vraag juist beantwoord? - Is de vraag door minder deelnemers juist beantwoord dan op grond van de raadkans verwacht zou worden? v juli
23 Moeilijkheidsgraad (p) van een vraag: proportie deelnemers die het juiste antwoord hebben gekozen (aantal deelnemers dat de vraag goed heeft, gedeeld door het totaal aantal deelnemers). Een moeilijkheidsgraad van 1,00 betekent dus dat een vraag door iedereen correct beantwoord is, en hoe meer deelnemers de vraag juist beantwoord hebben, des te hoger is p. Het niveau van de totale groep deelnemers heeft invloed op de p-waarde van vragen. In een groep met veel herkansers zal het niveau mogelijk lager dan in een groep met weinig herkansers. De vragen zullen waarschijnlijk slechter gemaakt worden, waardoor de p-waarden dus lager zouden uitvallen. Als de laatste vragen in een toets een lage p-waarde hebben is het ook mogelijk dat de deelnemers in tijdnood waren en om die reden de vragen slecht beantwoord hebben. Bij verschillende versies moet men er wel op bedacht zijn dat in versie 1 de laatste vragen verschillen van de laatste vragen in de andere versies. Een p-waarde alleen zegt echter weinig. Het aantal alternatieven van de vraag en het gehanteerde scoringssysteem, gedwongen raden of correctie voor raden 5, zijn van belang bij de interpretatie van een p-waarde. LET OP Gebruik de (gecorrigeerde) moeilijkheidsgraad niet als kwaliteitsmaat wanneer de toets is gemaakt door minder dan 25 personen, dit vanwege instabiliteit. De gecorrigeerde moeilijkheidsgraad (p ) van een vraag is de proportie deelnemers die het juiste antwoord hebben gegeven, gecorrigeerd voor het effect van gokken. (STREEF)WAARDEN EN NORMEN De moeilijkheidsgraad (p) heeft een minimale waarde van 0 en een maximale waarde van 1. Bij een summatieve toets (zie 3.1) streeft men naar scheiding van laag- en hoogscorende deelnemers. Alle vragen zouden daaraan moeten bijdragen. Een vraag levert een maximale bijdrage aan de summatieve functie van een toets als de p-waarde in de buurt komt van de norm. De norm voor p-waarden is afhankelijk van het aantal mogelijke antwoordalternatieven, want de norm ligt in het midden tussen de maximale p-waarde van 1 en de raadkans. De raadkans per vraag wordt bepaald door het aantal antwoordalternatieven. De raadkans geeft aan hoe groot de kans is dat een deelnemer de vraag goed beantwoord bij volledig gokken van het antwoord en wordt berekend door 1 te delen door het aantal alternatieven. De streefwaarde van de moeilijkheidsgraad is een waarde hoger dan de raadkans en lager dan 0,90. Omdat de moeilijkheidsgraad (p) afhankelijk is van het aantal antwoordalternatieven, is deze indicator niet bruikbaar voor een onderlinge vergelijking van vragen met een verschillend aantal antwoordalternatieven; daarvoor moet gecorrigeerd worden voor de raadkans. Daarom wordt de gecorrigeerde moeilijkheidsgraad (p ) gebruikt. Deze heeft een minimale waarde van -1 en een maximale waarde van 1. De ideale waarde van de gecorrigeerde moeilijkheidsgraad p is voor alle vragen (ongeacht aantal alternatieven) 0,50. Als ondergrens van p wordt ongeveer 0,25 aangehouden. 5 Bij correctie voor raden wordt bij het toekennen van de scores al gecorrigeerd voor de raadkans door verlaging van de score bij een foutief antwoord. Bij afname van de toets is dan de instructie dat bij twijfel de vraag wordt opengelaten of dat het alternatief geen antwoord wordt gekozen. v juli
24 Onderstaande tabel 6 geeft per verschillend aantal alternatieven de raadkans, de norm en de ondergrens p. soort vraag aantal antwoordalternatieven raadkans norm voor p norm voor p ondergrens voor p gesloten met één (meest) juist antwoord Tabel 2 2 0,50 0,75 0,50 0,25 3 0,33 0,68 0,50 0,25 4 0,25 0,63 0,50 0,25 5 0,20 0,40 0,50 0,25 De voor raden gecorrigeerde moeilijkheidsgraad (p ) is altijd lager dan de moeilijkheidsgraad (p), tenzij iedereen de vraag correct beantwoord heeft (p-waarde en p -waarde zijn dan beide 1). Bij een negatieve p -waarde hebben minder deelnemers de vraag goed dan op basis van de raadkans verwacht kan worden. EXTREEM LAGE WAARDEN Bij een gesloten vraag komt het niet vaak voor dat deze door (bijna) iedereen fout beantwoord is en de moeilijkheidsgraad (p) dus lager is dan de raadkans (zie Tabel 2 of p <0,25). Het is onwaarschijnlijk dat daadwerkelijk niemand het antwoord op de vraag weet. De oorzaak van dergelijke extreem lage waarden moet eerder gezocht worden in: - Onjuiste antwoordsleutel - Verkeerde literatuur - Onjuiste instructies van docent (nadrukkelijk aangegeven geen vragen te zullen stellen over het onderwerp) - De vraag is een instinkertje - Tijdgebrek bij het invullen - Onduidelijke formulering, waardoor verwarring is veroorzaakt bij de deelnemers EXTREEM HOGE WAARDEN Bij waarden van p groter dan 0,8 is de vraag door bijna iedereen correct beantwoord. Dit wordt mogelijk veroorzaakt door: - Het onderwerp is goed begrepen en goed bestudeerd - De vraag is veel te makkelijk - De onjuiste alternatieven functioneren niet als afleider - De docent heeft nadrukkelijk gezegd vragen te stellen over het onderwerp 9.2 De item-totaalcorrelatie (Rit) en item-restcorrelatie (Rir) De item-restcorrelatie wordt gebruikt om antwoord te geven op de volgende vragen: - Scheidt de vraag laagscorende van hoogscorende deelnemers (hoe is het discriminerend vermogen van de vraag)? - Meet de vraag hetzelfde als de totale toets (hoe goed past de vraag in de totale toets)? - Zijn er vragen die door laagscorende deelnemers goed beantwoord worden en fout door hoogscorende deelnemers? 6 Afgeleid van Berkel & Bax, 2006 en Dousma, Horsten & Brants, v juli
25 De item-totaalcorrelatie (Rit) en item-restcorrelatie (Rir) van een vraag geven het vermogen van de toetsvraag aan om onderscheid te maken tussen deelnemers die de stof wel en deelnemers die de stof niet beheersen. Daarbij gaat het om de correlatie tussen de vraagscores en de scores op de totale toets (Rit) min de desbetreffende vraag (Rir). LET OP Gebruik de Rit en de Rir niet als kwaliteitsmaat wanneer de toets is gemaakt door minder dan 50 personen. Er wordt berekend of een vraag afzonderlijk hetzelfde meet als de toets in zijn geheel. Bij de Rir wordt de waarde van de afzonderlijke vraag niet meegenomen in de waarde van de toets als geheel. VOORBEELD De Rit van vraag 13 geeft de correlatie tussen vraag 13 en de gehele toets. De Rir van vraag 13 geeft de correlatie tussen vraag 13 en de gehele toets min vraag 13. De item-restcorrelatie laat zien of de vraag de hoogscorende deelnemers scheidt van de laagscorende deelnemers. De verwachting is dat de hoogscorende deelnemers kiezen voor het correcte antwoord en de laagscorende deelnemers voor de afleiders. (STREEF)WAARDE EN NORM De minimale waarde van de item-restcorrelatie (Rir) is -1 en de maximale waarde +1. Een positieve waarde, gelijk aan of hoger dan 0,15 is gewenst. gevonden waarde 7 kwalificatie van de vraag toelichting 0,35 en hoger goed / zeer goed De toetsvraag heeft de deelnemers goed van elkaar gescheiden. De hoogscorende deelnemers hebben over het algemeen de vraag goed beantwoord en de laagscorende deelnemers hebben gekozen voor de afleiders. 0,25 0,35 voldoende / goed Het onderscheidend vermogen van de vraag is redelijk goed. 0,15 0,25 middelmatig / voldoende De hoog- en laagscorende deelnemers worden middelmatig tot voldoende van elkaar onderscheiden. 0,00 0,15 slecht / middelmatig De vraag maakt weinig onderscheid tussen hoog- en laagscorende deelnemers. lager dan 0,00 slecht De hoogscorende deelnemers hebben over het algemeen voor een afleider gekozen en juist de laagscorende deelnemers hebben de vraag correct beantwoord. Tabel 3 7 Berkel &Bax, 2006 v juli
26 9.3 Open VOORBEELD In de voorbeeldtoets heeft vraag 6 een negatieve Rir (-0,02). Dit betekent dat deze vraag niet discrimineert tussen hoog en laag scorende deelnemers. De vraag is slecht gemaakt: p' ligt boven de raadkans, maar beneden de ondergrens voor p' (0 > p' < 0,25) Vraag 24 heeft een negatieve Rir (- en een zeer lage p -0,30). Een grote meerderheid van de deelnemers kiest voor afleider D. Dit kan duiden op een verkeerde sleutel, een inhoudelijk niet relevante vraag, et cetera. In deze kolom staat het aantal keren dat de betreffende vraag niet is beantwoord. Is dit getal hoog bij vragen aan het einde van de toets, dan kan het zijn dat de deelnemers in tijdnood zijn gekomen. Houd er in geval van toetsen met meerdere versies rekening mee, dat de laatste vragen in de verschillende versies andere vragen zijn. 9.4 Frequenties (f) De frequenties (f) geven antwoord op vragen als: - Hoe vaak zijn de verschillende alternatieven door de deelnemers gekozen? - Is de f van het juiste alternatief het hoogst? De frequentie (f) van een antwoordalternatief is het absolute aantal deelnemers dat voor het betreffende antwoordalternatief gekozen heeft. Is de f van een afleider hoger dan de f van het juiste antwoord, dan is deze afleider zeer aantrekkelijk geweest. Dit kan onder andere duiden op een onjuiste formulering van de vraag of van het als juist aangemerkte alternatief (sleutel). Bij een goede meerkeuzevraag wordt het juiste antwoord gekozen door de deelnemers die de stof beheersen en de afleiders door de deelnemers die de stof niet beheersen. De afleiders moeten daarom even aantrekkelijk zijn. Als bij een vierkeuzevraag één antwoordalternatief helemaal niet aantrekkelijk is, is de vraag eigenlijk een driekeuzevraag. Als een deelnemer ziet dat één afleider absoluut niet waar kan zijn maar het antwoord niet weet en gokt, wordt de kans dat hij het juiste antwoord goed gokt groter. De raadkans van de toets is echter bepaald op basis van een vierkeuzevraag. 9.5 De a-waarde (a) De a-waarde zegt iets over de aantrekkelijkheid van de antwoordalternatieven en geeft antwoorden op vragen als: - Welke proportie van de deelnemers heeft een bepaalde foutieve antwoordmogelijkheid (afleider) gekozen? - Hoe aantrekkelijk zijn de afleiders? De a-waarde van een antwoordalternatief is de proportie deelnemers die kozen voor dat alternatief. De a-waarde van het goede alternatief is gelijk aan de p-waarde van de vraag. STREEFWAARDE Bij meerkeuzevragen streeft men naar even aantrekkelijke afleiders, dat wil zeggen dat de a-waarde van alle afleiders ongeveer even groot is. De ideale a-waarde is afhankelijk van de ideale p-waarde en dus afhankelijk van het aantal alternatieven binnen een vraag. De a-waarden van afleiders mogen niet te laag zijn en in ieder geval niet hoger dan de p- waarde. v juli
27 VOORBEELD Bij een vierkeuzevraag met een p-waarde van 0,64 hebben de afleiders idealiter een a-waarde van: - Als een afleider door minder dan 5% (a < 0,05) van de deelnemers is gekozen, functioneert deze niet goed. Een te gemakkelijke vraag, waarbij iedereen het juiste antwoord wist kan hiervan de oorzaak zijn. 9.6 De z-waarde (z) De z-waarde is als aanvulling op de eerdere indicatoren zinvol en geeft antwoord op vragen als: - Wordt het juiste antwoord gekozen door hoogscorende deelnemers? - Worden de afleiders van een vraag gekozen door laagscorende deelnemers? - Kiezen laagscorende of hoogscorende deelnemers voor een specifieke afleider? De z-waarde van een antwoordalternatief is de gemiddelde score van de deelnemers die dat alternatief hebben gekozen, omgezet naar een standaardscore. STREEFWAARDE De z-waarde van de afleiders moet laag zijn en in ieder geval lager dan die van het juiste antwoordalternatief. Bij een vraag met een goed onderscheidend vermogen zal de z -waarde van het juiste antwoordalternatief positief zijn en de z-waarde van de afleiders negatief. LET OP De z-waarden worden geïnterpreteerd als de Rir-waarde van een vraag te laag is (Rir < 0,15), om te ontdekken of één of meerdere alternatieven van de vraag niet functioneren. De z-waarde is dus voornamelijk geschikt als aanwijzing of de alternatieven van de vraag misschien verbeterd moeten worden. VOORBEELD In de voorbeeldtoets heeft vraag 13 een Rir van 0,03. Deze vraag discrimineert nauwelijks tussen hoog- en laagscorende deelnemers. De z-waarden voor de vier alternatieven zijn bij deze vraag: antwoordmogelijkheid A B C D z-waarde -1,09 0,33 0,02-0,77 aantal deelnemers (f) Juiste alternatief is C De z-waarde van het juiste alternatief C wijkt weinig af van 0 en is lager dan de z-waarde van afleider B. Daarvan is de z-waarde overtuigend positief en hoger dan die bij de andere alternatieven. Dat betekent dat de gemiddelde score van de 69 deelnemers die kozen voor alternatief B hoger ligt dan die bij de andere alternatieven en dus ook bij het juiste antwoordalternatief. Dit geeft aan dat deze afleider niet goed functioneert. 9.7 Bespreking itemanalyse aan de hand van de voorbeeldtoets In het voorafgaande zijn de verschillende kwaliteitsindicatoren die bij de itemanalyse gebruikt worden apart besproken. Voor een juiste beoordeling van de statistische kwaliteit van een vraag is het noodzakelijk de indicatoren per vraag samen te bestuderen. Bij de beoordeling van een vraag wordt gekeken naar een combinatie van vier verschillende waarden: - de voor raden gecorrigeerde moeilijkheidsgraad (p ) v juli
28 - de aantrekkelijkheid van de antwoordalternatieven (a-waarde) - het onderscheidend vermogen van de toetsvraag (Rir) - gemiddelde score van de deelnemers per antwoordalternatief (z-waarde) Voldoen de analysewaarden niet aan de normen dan moet een grondige inspectie van de vraag volgen. Vervolgens kan indien nodig worden besloten om de vraag te laten vervallen of de sleutel te wijzigen, Aan de hand van een drietal vragen uit de voorbeeldtoets wordt het een en ander verduidelijkt. TOETSVRAAG 20 Vraag 20 is in de itemanalyse (zie Figuur 12) rood gemarkeerd met een uitroepteken. Volgens de legenda betekent dat, dat de vraag zeer slecht is gemaakt, en beter gemaakt door laagscorende dan door hoogscorende deelnemers. Het discriminerend vermogen is dus slecht ( p < 0,25 én Rir < 0). De a- en z-waarden van de alternatieven van deze vragen geven meer inzicht. VRAAG 20 juist antwoord is A p -waarde van de vraag -0,30 Rir van de vraag -0,30 a-waarden per alternatief A = 0,02 B = 0,02 C = 0,34 D = 0,62 z-waarden per alternatief A = -2,04 B = -1,08 C = -0,09 D = 0,15 aantal deelnemers (f) Tabel 4 Slechts 2% van de deelnemers kiest voor het juiste antwoord A. De z-waarde van antwoord A is negatief en de hoogte ervan zegt dat de gemiddelde score van degenen die dit alternatief hebben gekozen veel lager is dan die bij de afleiders. Dit duidt op een kwaliteitsprobleem. Het hadden juist de hoogscoorders moeten zijn die de vraag goed zouden moeten beantwoorden. Een overgrote meerderheid (62%) kiest voor afleider D. Van D is de z-waarde positief. Ook afleider B wordt maar door 2% van de deelnemers gekozen. De z-waarden van A, B en C zijn negatief. De alternatieven A en B zijn helemaal niet aantrekkelijk en worden gekozen door deelnemers die gemiddeld lager scoorden. Aanbevelingen Kijken we alleen naar de statistische kwaliteitsindicatoren dan is er voldoende reden om de vraag te laten vervallen en de scores opnieuw te (laten) berekenen. Het gebruik van deze vraag in de toekomst wordt afgeraden. Houd bij het laten vervallen van vragen in de gaten of de toets nog wel een goede afspiegeling is van de te toetsen stof. TOETSVRAAG 44 De kwaliteitsindicatoren voor vraag 44 zijn hieronder samengevat. VRAAG 44 juist antwoord is D p -waarde van de vraag 0,00 Rir van de vraag 0,01 a-waarden per alternatief A = 0,04 B = 0,24 C = 0,47 D = 0,25 z-waarden per alternatief A = -1,26 B = -0,24 C = 0,21 D = 0,02 aantal deelnemers (f) Tabel 5 v juli
29 Afleider C wordt vaker gekozen dan het juiste antwoord D. De 129 deelnemers die kiezen voor afleider C hebben een hogere gemiddelde score (z = 0,21) dan de 68 die kiezen voor het juiste antwoord D (z = 0,02). Afleider B is ook aantrekkelijk en wordt gekozen door deelnemers die de toets gemiddeld slechter (z = -0,24) hebben gemaakt dan degenen die kiezen voor C en D. Aanbevelingen Kijken we alleen naar de statistische kwaliteitsindicatoren dan is er voldoende reden om de vraag te laten vervallen en de scores opnieuw te (laten) berekenen. Het gebruik van deze vraag in de toekomst wordt afgeraden. Houd bij het laten vervallen van vragen in de gaten of de toets nog wel een goede afspiegeling is van de te toetsen stof. TOETSVRAAG 10 Dit is een vraag die goed gemaakt is, maar die nauwelijks onderscheid maakt tussen de laagscorende deelnemers en de hoogscorende deelnemers (combinatie p > 0,4 met Rir < 0,15). Ook hier geven de a- en z-waarden meer inzicht. VRAAG 10 juist antwoord is C p -waarde van de vraag 0,45 Rir van de vraag 0,06 a-waarden per alternatief A = 0,05 B = 0,07 C = 0,59 D = 0,28 z-waarden per alternatief A = -0,5 B = -0,31 C = 0,05 D = 0,07 aantal deelnemers (f) Tabel 6 De gecorrigeerde moeilijkheidsgraad (p ) is goed, maar de Rir van de vraag en de z-waarde van het juiste antwoordalternatief C zijn laag. De alternatieven A en B zijn nauwelijks gekozen en hebben dus als afleider niet goed gefunctioneerd. Alternatief D is gekozen door 77 deelnemers die gemiddeld een hogere score hebben dan degenen die het correcte antwoord kozen. Aanbevelingen De kwaliteitsindicatoren tonen twee minpunten van deze vraag aan. De vraag wordt in het algemeen beter beantwoord door degenen die de stof minder beheersen en twee afleiders functioneren niet. Ook dit kan aanleiding zijn de vraag te laten vervallen.voor toekomstig gebruik is ook deze vraag niet geschikt. v juli
30 10. Tabblad: samenvatting De itemanalyse uit het tabblad Itemanalyse (hoofdstuk 9) is samengevat in de Samenvatting itemanalyse (zie Figuur 14). Horizontaal vindt u waarden voor de item-restcorrelatie (Rir), en verticaal de waarden voor de gecorrigeerde moeilijkheidsgraad (p ). Vraagnummers met een bepaalde combinatie van deze twee kwaliteitsindicatoren zijn vermeld in de corresponderende tabelcellen. Figuur 14: samenvatting itemanalyse De Samenvatting signalering (Figuur 15) daaronder bevat de kwantitatieve informatie over de kwaliteit van de antwoordalternatieven (f, a en z). Figuur 15: samenvatting signalering v juli
31 11. Tabblad: score Op het tabblad score worden de behaalde toetsscores weergegeven, gesorteerd op inleesvolgorde. Als van een toets op basis van de deelnemerscores op aanvraag ook de (rapport)cijfers zijn berekend, zijn deze ook weergegeven. Deze tabel is te gebruiken voor verdere verwerking van de toets. Figuur 16: scores en eventueel rapportcijfers v juli
32 12. Tabblad: data De tabel op het tabblad data (hieronder niet in zijn geheel afgebeeld) geeft een exacte weergave van de gegevens waarop de analyse is uitgevoerd (zie Figuur 17). De gegevens zijn gesorteerd op inleesvolgorde. Figuur 17: data Per deelnemer is te zien: - het deelnemernummer - de inleesvolgorde - de versie zoals door de deelnemer ingevuld op het antwoordformulier - de gegeven antwoorden VOORBEELD De deelnemer met nummer (bovenste regel) heeft op zijn antwoordformulier versie 3 genoteerd en de antwoorden op de eerste vijf waren: DCCCD. v juli
Toetsanalyse. Leidraad Digitaal Toetsen FGw
Toetsanalyse Leidraad Digitaal Toetsen FGw Inhoudsopgave INHOUDSOPGAVE 2 1 TOETSANALYSE 3 1.1 P-waarde 3 1.2 Betrouwbaarheid Alpha/KR-20 3 2 ITEMANALYSE 5 2.1 P-waarde 5 2.2 A-waarde 5 2.3 Rit en Rir-waarde
Nadere informatiePsychometrische analyses
Psychometrische analyses Psychometrische analyses zijn kwantitatieve analyses waarbij een aantal indicatoren berekend worden die iets zeggen over de kwaliteit van de toets. Wanneer de toets is afgenomen
Nadere informatieHandOut 5a MC PLUS ontwerp - constructie afname beoordelen - evalueren Centrum voor Onderwijs en Leren
5a. Toetsanalyse Introductie Na het afnemen van het tentamen en het analyseren van de scores komt het vaststellen van de uitslag. Dat gaat eerst globaal, daarna wordt een diepgaandere analyse uitgevoerd
Nadere informatieKwantitatieve analyse toetskwaliteit
Kwantitatieve analyse toetskwaliteit Auteur: Rob Kayzel Aan de hand van de resultaten van het tentamen (de scores van de studenten) is het mogelijk om de kwaliteit van het tentamen onderzoeken. De analyse
Nadere informatieTOETSEN EN TOETSVRAGEN ANALYSEREN. E-merge Digitaal toetsen 2 november 2016
TOETSEN EN TOETSVRAGEN ANALYSEREN E-merge Digitaal toetsen 2 november 2016 INTRODUCTIE Sander Schenk Hogeschool Rotterdam sinds 1999 Instituut voor Financieel Management Docent manager beleidsadviseur
Nadere informatie1. Hoe open ik het bestand dat ik via mail van de scanmedewerker heb ontvangen? pag Hoe voeg ik een ontbrekende antwoordcategorie toe? - pag.
Leer- en Innovatie Centrum Breda, 's-hertogenbosch, Tilburg NOTITIE datum 17 november 2016 onderwerp FAQ Sonate In dit document zijn een paar veel voorkomende vragen rondom het gebruik van Sonate kort
Nadere informatieToetsen: toetssteen of dobbelsteen
15 Toetsen: toetssteen of dobbelsteen Henk van Berkel en Anneke Bax Inleiding Hoe kunnen docenten rechtvaardig toetsen? Hoe is onderscheid te maken tussen studenten die de stof wel en niet beheersen? Hoe
Nadere informatieZelfevaluatie-instrument
Zelfevaluatie-instrument voor het bepalen van de kwaliteit van een toets Faculteit Management en Bestuur Zoëzi Opleidingsadvies Drs. Hilde ter Horst Drs. Annemiek Metz Versie 4.0, 11 september 2008 1.
Nadere informatieToets- en itemanalyse in TestVision
Toets- en itemanalyse in TestVision Faculteit Onderwijs en Opvoeding (HvA) Programma Toetsen met open en gesloten vragen: scoringsregels, kansscore en cesuur Begrippen uit de klassieke testtheorie: o Toetsindices
Nadere informatieVALIDITEIT EN BETROUWBAARHEID VAN TOETSEN. Johan Jeuring Informatica Voorzitter toetsadviescommissie
VALIDITEIT EN BETROUWBAARHEID VAN TOETSEN Johan Jeuring Informatica Voorzitter toetsadviescommissie WAAROM TOETSEN? Om de student feedback te geven over zijn of haar vorderingen Om te bepalen of een student
Nadere informatieHandleiding Sonate. Schriftelijke Ondersteuning en Analyse van Tentamens
Handleiding Sonate Schriftelijke Ondersteuning en Analyse van Tentamens Versie 05-04-2012 Avans Hogeschool 2010 Auteurs: Ali Rahmati Theo Nelissen Arold Verheijen 1 Inhoudsopgave 1. Inleiding... 3 1.1
Nadere informatieHTS Report. d2-r. Aandachts- en concentratietest. David-Jan Punt ID 255-4 Datum 10.11.2015. Standaard. Hogrefe Uitgevers BV, Amsterdam
d2-r Aandachts- en concentratietest HTS Report ID 255-4 Datum 10.11.2015 Standaard d2-r Inleiding 2 / 14 INLEIDING De d2-r is een instrument voor het meten van de visuele selectieve aandacht, snelheid
Nadere informatieCesuurbepaling houdt veel meer in dan afspreken dat 55% een voldoende is
Cesuurbepaling houdt veel meer in dan afspreken dat 55% een voldoende is Door: Jolanda Soeting en Esther Haykens Stel: je hebt een volledige toets of opdracht samengesteld. De toets bestaat bijvoorbeeld
Nadere informatieTeam Mirror. Handleiding Team Mirror Rapport. Vertrouwelijk document uitgegeven door
Team Mirror Handleiding Team Mirror Rapport Vertrouwelijk document uitgegeven door www.unicorngroup.be Met deze handleiding geven we je als facilitator de nodige achtergrond om de resultaten van het Team
Nadere informatieHTS Report. d2-r. Aandachts- en concentratietest. Jeroen de Vries ID Datum Standaard. Hogrefe Uitgevers BV, Amsterdam
d2-r Aandachts- en concentratietest HTS Report ID 5107-7038 Datum 18.07.2017 Standaard d2-r Inleiding 2 / 16 INLEIDING De d2-r is een instrument voor het meten van de visuele selectieve aandacht, snelheid
Nadere informatieDie longitudinale toets
Die longitudinale toets Hoe zit dat nu eigenlijk? d l / l Commissie Longitudinale Toetsing / Toetsteam Nieuwe Curricula Giel Bosman, Michiel Kornelissen, Marc Vorstenbosch en Mieke Latijnhouwers De formaliteiten
Nadere informatieWat betekent het twee examens aan elkaar te equivaleren?
Wat betekent het twee examens aan elkaar te equivaleren? Op grond van de principes van eerlijkheid en transparantie van toetsing mogen kandidaten verwachten dat het examen waarvoor ze opgaan gelijkwaardig
Nadere informatieHTS Report. d2-r. Aandachts- en concentratietest. Jan Janssen ID 15890-10 Datum 02.05.2016. Standaard. Hogrefe Uitgevers BV, Amsterdam
d2-r Aandachts- en concentratietest HTS Report ID 15890-10 Datum 02.05.2016 Standaard d2-r Interpretatie 2 / 13 ALGEMENE TOELICHTING Informatie over de d2-r De d2-r is een instrument voor het meten van
Nadere informatieMeerkeuze-examen. 1 http://www.studielicht.be. Inhoud
Meerkeuze-examen Inhoud Hoe ziet een meerkeuze-examen eruit?... 1 Hoe bereid ik me voor op een meerkeuze-examen?... 1 Hoe pak ik een meerkeuzevraag aan?... 2 Hoe werk ik met het antwoordformulier?... 3
Nadere informatieToetsregeling MGZ-Lijntentamen
Toetsregeling MGZ-Lijntentamen Bacheloropleidingen Geneeskunde en Biomedische Wetenschappen Radboudumc Deze regeling is van kracht vanaf 3 augustus 27. ) Begripsbepaling Jaren, semesters en kwartalen Jaar
Nadere informatieTOETSTIP 10 - JANUARI 2008
TOETSTIP 10 - JANUARI 2008 Bepaling wat en waarom je wilt meten Toetsopzet Materiaal Betrouwbaarheid Beoordeling Interpretatie resultaten TIP 10: CESUURBEPALING Bij het beoordelen van de taalvaardigheid
Nadere informatieTOETSONTWIKKELING. in de praktijk HOE MAAK IK GOEDE VRAGEN EN TOETSEN?
TOETSONTWIKKELING in de praktijk HOE MAAK IK GOEDE VRAGEN EN TOETSEN? Inhoudsopgave 1. Inleiding......................................................... 7 1.1 Doel en doelgroep......................................................
Nadere informatieTIA s. Zoveel getallen dat je er hoofdpijn van kunt krijgen!
TIA s Zoveel getallen dat je er hoofdpijn van kunt krijgen! Wat heeft een docent eraan? Beoordeel en controleer de betrouwbaarheid / bruikbaarheid van een bepaald examen Gebruik ze om oefensets uit verschillende
Nadere informatieProject: Kennisdocument Onderwerp: p90 Datum: 23 november 2009 Referentie: p90 onzekerheid Wat betekent de p90 (on)zekerheid?
Project: Kennisdocument Onderwerp: p90 Datum: 23 november 2009 Referentie: p90 onzekerheid Wat betekent de p90 (on)zekerheid? De p90 onzekerheid staat in het kader van de garantieregeling voor aardwarmte
Nadere informatieToetsregeling Klinische Vraagstukken
Toetsregeling Klinische Vraagstukken Samenvatting toetsregeling Titel examenonderdeel Toetsvorm Schriftelijk tentamen. - 2 meerkeuzevragen; - gesloten boek toets; - gebruik standaardrekenmachine (Casio
Nadere informatieToelichting bij applicatie "betekenis geven aan cijfers"
Toelichting bij applicatie "betekenis geven aan cijfers" De toelichting op deze applicatie bestaat uit twee onderdelen: een praktische handleiding voor het gebruik van de applicatie; uitleg over de informatie
Nadere informatieNormen en waarderingen bij toetsen van Taal actief 3
Normen en waarderingen bij toetsen van Taal actief 3 door Geert Peeters Inleiding Taal actief geeft duidelijke normen aan bij de beoordeling van de toetsresultaten voor taal en spelling, maar die beoordelingen
Nadere informatieWorkshop Toetsmatrijs & toetsanalyse
Workshop Toetsmatrijs & toetsanalyse Inhoud Waarom? Wat is het? Hoe doe ik het? Wat doe ik er mee? Hoe kom ik meer te weten? Toets-Advies-Commissie (TAC) Farmaceutische Wetenschappen, Augustus 2018 1 Waarom?
Nadere informatieEr is niet één manier, er is niet één cesuur die altijd past.
1 Toets! Er is niet één manier, er is niet één cesuur die altijd past. door Tjeerd Haitjema psychometrisch expert & Yvonne van der Hoop toetsexpert artikel Wanneer geef ik een 5,5? Wie heeft een voldoende
Nadere informatieToetsregeling MGZ-Lijntentamen
Toetsregeling MGZ-Lijntentamen Samenvatting toetsregeling ingangsdatum september 28 Titel examenonderdeel Q: Mechanismen van gezondheid en ziekte, inleiding & overzicht (MED-BMGZK) Q2: Mechanismen van
Nadere informatiesamenstelling Philip Bogaert
Dag van de wiskunde 14 november 2015 Meerkeuzetoetsen een leuke toepassing kansrekening samenstelling Philip Bogaert Giscorrectie versus standard setting, kansrekening voor iedereen 1. Giscorrectie 1.1.
Nadere informatieCheck Je Kamer Rapportage 2014
Check Je Kamer Rapportage 2014 Kwantitatieve analyse van de studentenwoningmarkt April 2015 Dit is een uitgave van de Landelijke Studenten Vakbond (LSVb). Voor vragen of extra informatie kan gemaild worden
Nadere informatieSONATE staat voor Schriftelijke ONdersteuning en Analyse van Tentamens en ondersteunt de volgende twee doelen:
#$ Overzicht van Sonate Help: SONATE staat voor Schriftelijke ONdersteuning en Analyse van Tentamens en ondersteunt de volgende twee doelen: Efficiëntere bedrijfsvoering door automatische verwerking van
Nadere informatieTools voor itemanalyse
Tools voor itemanalyse Wido La Heij Cognitieve Psychologie laheij@fsw.leidenuniv.nl Klazine Verdonschot ICT en Onderwijscoach kverdonschot@fsw.leidenuniv.nl De weg naar het Grade Center Menu van de toetskolom
Nadere informatieWHITEPAPER GEBRUIKEN VAN BEOORDELINGSSCHALEN VOOR OPDRACHTEN BEOORDELINGSSCHALEN VOOR CHECKLISTS EN RUBRICS, 24 VOORBEELDEN HOE GEBRUIK JE ZE?
WHITEPAPER GEBRUIKEN VAN BEOORDELINGSSCHALEN VOOR OPDRACHTEN BEOORDELINGSSCHALEN VOOR CHECKLISTS EN RUBRICS, HOE GEBRUIK JE ZE? 24 VOORBEELDEN maart 2017 Harry Molkenboer, toetsdeskundige bureau@toetsen-beoordelen.nl
Nadere informatieToelichting op de resultaten van de korte enquête (quick scan) René Alberts juni 2011
Toelichting op de resultaten van de korte enquête (quick scan) René Alberts juni 2011 Inleiding In deze toelichting wordt eerst een kopie van de korte enquête getoond zodat helder is welke vragen aan de
Nadere informatieSleuteltermen Stappenplan, belevingswereld, motivatie, boxenstelsel, economie Bibliografische referentie
ONTWERPRAPPORT Naam auteur Elles Lelieveld Vakgebied Economie Titel De juiste stappen, een onderzoek naar de problemen en oplossingen van opgaven over het boxenstelsel Onderwerp Het aanleren van een stappenplan
Nadere informatieVerslag van de vragenlijstafname
Faculteit: ACTA Opleiding: Tandheelkunde Studieonderdeel: Lijn Stage Ma2 Docent(en)/Begeleider(s): Marleen Klaassen Code: 25.2994 Vakcode: 0 Cursusjaar/studiefase: Master 2 Datum afname: juni 2013 Datum
Nadere informatieVondelschool Bussum. Leerlingtevredenheidspeiling Basisonderwijs Haarlem, april 2016
Vondelschool Bussum Leerlingtevredenheidspeiling Basisonderwijs 2016 Haarlem, april 2016 Scholen met Succes Postbus 3386 2001 DJ Haarlem www.scholenmetsucces.nl info@scholenmetsucces.nl tel: 023 534 11
Nadere informatieGesloten vraagvormen in TestVision
Gesloten vraagvormen in TestVision Vaak denken we bij gesloten vragen alleen aan meerkeuzevragen. Multiple choice of mc-vragen, noemen sommige mensen dat. Maar er kan intussen, dankzij digitaal toetsen,
Nadere informatieOnderzoek naar toetsvragen die effectief discrimineren tussen studenten, en het verwerken van inzichtsvragen in meerkeuze toetsen.
Voorblad Naam auteur(s) Vakgebied Titel Onderwerp Profiel Opleiding Doelgroep Sleuteltermen Bibliografische referentie Drs. L.H.Helder Maatschappijwetenschappen Discriminerend Toetsen Onderzoek naar toetsvragen
Nadere informatieAnalyse van de cursus De Kunst van het Zorgen en Loslaten. G.E. Wessels
Analyse van de cursus De Kunst van het Zorgen en Loslaten G.E. Wessels Datum: 16 augustus 2013 In opdracht van: Stichting Informele Zorg Twente 1. Inleiding Het belang van mantelzorg wordt in Nederland
Nadere informatieTIP 10: ANALYSE VAN DE CIJFERS
TOETSTIP 10 oktober 2011 Bepaling wat en waarom je wilt meten Toetsopzet Materiaal Betrouw- baarheid Beoordeling Interpretatie resultaten TIP 10: ANALYSE VAN DE CIJFERS Wie les geeft, botst automatisch
Nadere informatieToelichting rapportages Entreetoets 2014
Toelichting rapportages Entreetoets 2014 Cito verwerkt de antwoordbladen en berekent de scores van de leerlingen. In tweevoud ontvangt u automatisch de papieren leerlingprofielen op school; één voor de
Nadere informatie(V)SO De Piramide Den Haag. Leerlingtevredenheidspeiling Basisonderwijs Haarlem, februari 2018
(V)SO De Piramide Den Haag Leerlingtevredenheidspeiling Basisonderwijs 2018 Haarlem, februari 2018 Scholen met Succes Postbus 3386 2001 DJ Haarlem www.scholenmetsucces.nl info@scholenmetsucces.nl tel:
Nadere informatieEen laatmiddeleeuwse (ca. 1300) voorstelling van drie soorten muziek (Bibliothèque Médicis Florence)
EXAMEN kunst (algemeen) havo 2016 Hugo Gitsels, toetsdeskundige, Cito Op maandag 23 mei maakten ongeveer 6.800 kandidaten het examen kunst (havo). De N-term werd vastgesteld op 1,0.. Slechts enkele van
Nadere informatieFysieke Vaardigheid Toets DJI
Fysieke Vaardigheid Toets DJI Naar normering van toetstijden dr. R.H. Bakker dr. G.J. Dijkstra TGO, februari 2013 TGO Fysieke Vaardigheid Toets DJI: naar normering van toetstijden 1 TGO Fysieke Vaardigheid
Nadere informatieToetsregeling Longitudinaal Tentamen
Toetsregeling Longitudinaal Tentamen Bacheloropleidingen Geneeskunde en Biomedische Wetenschappen Radboudumc Deze regeling is van kracht vanaf 3 augustus 25. ) Begripsbepaling Jaren, semesters en kwartalen
Nadere informatieLegenda. Sterrentabellen. Thema s en ervaringsvragen. Waarderingsvragen
Legenda Bij de overzichten van de resultaten van de ervaringsvragen en thema s worden onderstaande standaardkleuren gebruikt: Totale Populatie ZA-2 ZA-3 ZA-4 De legenda staat altijd weergegeven rechts
Nadere informatieToetsregeling Klinische Vraagstukken
Toetsregeling Klinische Vraagstukken Bacheloropleidingen Geneeskunde Radboudumc Deze regeling is van kracht vanaf september 27. Begripsbepaling De tentamens Klinische vraagstukken niveau t/m 5 bestaan
Nadere informatie8. Analyseren van samenhang tussen categorische variabelen
8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde
Nadere informatieO.G. Heldringschool Den Haag. Leerlingtevredenheidspeiling Basisonderwijs Haarlem, november 2018
O.G. Heldringschool Den Haag Leerlingtevredenheidspeiling Basisonderwijs 2018 Haarlem, november 2018 Scholen met Succes Postbus 3386 2001 DJ Haarlem www.scholenmetsucces.nl info@scholenmetsucces.nl tel:
Nadere informatieKlanttevredenheidsonderzoek Bureau Wbtv 2015
Klanttevredenheidsonderzoek Bureau Wbtv 1 Juni 1 Doel van het onderzoek is het verkrijgen van inzicht in de huidige mate van tevredenheid van tolken en vertalers, afnemers van tolk- en vertaaldiensten
Nadere informatieUitleg van de figuren VO 1
Uitleg van de figuren VO 1 Uitleg van de figuren - VO In dit document worden de verschillende figuren nader toegelicht die in het NCO rapport Waar blijven uw oud-leerlingen? worden getoond. Voor ieder
Nadere informatieHoofdstuk 3 Statistiek: het toetsen
Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.
Nadere informatieTips voor het construeren van een toets en het verbeteren van de toetskwaliteit Faculteit Management en Bestuur
Tips voor het construeren van een toets en het verbeteren van de toetskwaliteit Faculteit Management en Bestuur Zoëzi Opleidingsadvies Drs. Hilde ter Horst Drs. Annemiek Metz Versie 4.0, 11 september 2008
Nadere informatieResultaten instaptoetsen Rekenen en Nederlands 2010 Rapportage aan de Profijtscholen
Resultaten instaptoetsen Rekenen en Nederlands 2010 Rapportage aan de Profijtscholen Rapportage: Analyse en tabellen: 4 Februari 2011 Mariëlle Verhoef Mike van der Leest Inleiding Het Graafschap College
Nadere informatie1. Reductie van error variantie en dus verhogen van power op F-test
Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De
Nadere informatieRKBS Bocholtz Bocholtz. Leerlingtevredenheidspeiling Basisonderwijs Haarlem, mei 2018
RKBS Bocholtz Bocholtz Leerlingtevredenheidspeiling Basisonderwijs 2018 Haarlem, mei 2018 Scholen met Succes Postbus 3386 2001 DJ Haarlem www.scholenmetsucces.nl info@scholenmetsucces.nl tel: 023 534 11
Nadere informatieBijlage bij de Terugkoppeling Leerresultaten PO in het Internet Schooldossier
Bijlage bij de Terugkoppeling Leerresultaten PO in het Internet Schooldossier Alle besturen en scholen vinden in hun Internet Schooldossier (ISD) onder Archief
Nadere informatieOptimaal zicht op spelling
Cito Spelling LVS Team Werken met de LVS-toetsen en hulpboeken Optimaal zicht op spelling Kim heeft midden groep 5 bij de LVS-toets Spelling een vaardigheidsscore gehaald van 122. Haar leerkracht weet
Nadere informatieTERUGBLIK CENTRAAL EXAMEN NASK 1 VMBO EERSTE TIJDVAK 2013
TERUGBLIK CENTRAAL EXAMEN NASK 1 VMBO EERSTE TIJDVAK 2013 Inleiding Quickscan Via WOLF (Windows Optisch Leesbaar Formulier) geven examinatoren per vraag de scores van hun kandidaten voor het centraal examen
Nadere informatieAnalyseformulieren bij de toets: wat levert het op?
Analyseformulieren bij de toets: wat levert het op? Uit de toetsen van het Cito Volgsysteem primair onderwijs komt een vaardigheidsscore. Deze kun je gebruiken om in kaart te brengen hoe een leerling scoort
Nadere informatieRapportage Ervaringsonderzoek WOT's
Rapportage Ervaringsonderzoek WOT's Versie 5.0.0 Drs. J.J. Laninga December 2015 www.triqs.nl Voorwoord Met genoegen bieden wij u hierbij de rapportage aan over het uitgevoerde ervaringsonderzoek naar
Nadere informatieCorrectievoorschrift HAVO 2016
Correctievoorschrift HAVO 06 tijdvak wiskunde A (pilot) Het correctievoorschrift bestaat uit: Regels voor de beoordeling Algemene regels 3 Vakspecifieke regels 4 Beoordelingsmodel 5 Inzenden scores Regels
Nadere informatieDEM Toets Beoordelingsformulier
Toets Beoordelingsrapport Algehele Conclusies Naam van het vak: Opleiding: Sterke punten: Aandachtspunten: Aanbeveling(en): Beoordeeld door: Datum: 1 Bijlage: Kopie van de Vakbeschrijving (BOE) / (BPO)
Nadere informatieOnline toetsing met Question Mark Perception aan de EhB
Online toetsing met Question Mark Perception aan de EhB Arnout Horemans 5 juni 2007 Online toetsing met QMP - A. Horemans 1 Inhoud Wat? Voor en nadelen Perception in EhB Voorbeeld formatieve toets Feedback
Nadere informatieHet blijkt dat dit eigenlijk alleen lukt met de exponentiële methode.
Verificatie Shen en Carpenter RDEC methodiek voor de karakterisering van asfaltvermoeiing; vergelijking van verschillende methoden voor het berekenen van de parameters. Jan Telman, Q-Consult Bedrijfskundig
Nadere informatieTabellen tussenopbrengsten CITO LOVS versie januari 2018 Leerlingniveau (ten bate van de individuele analyse van de leerlingen)
Tabellen tussenopbrengsten CITO LOVS versie januari 2018 Leerlingniveau (ten bate van de individuele analyse van de leerlingen) Inleiding In dit document staan voor de meest voorkomende CITO-toetsen van
Nadere informatieBBL-4, topklinisch traject RdGG Pagina 1 van 7 Persoonlijke ontwikkeling Studievaardigheden
BBL-4, topklinisch traject RdGG Pagina 1 van 7 Inleiding en leerdoelen Leren en studeren is een belangrijk onderdeel in je opleiding tot verpleegkundige. Om beter te leren studeren is het belangrijk niet
Nadere informatieTabellen tussenopbrengsten CITO LOVS versie januari 2017 Leerlingniveau (ten bate van de individuele analyse van de leerlingen)
Tabellen tussenopbrengsten CITO LOVS versie januari 2017 Leerlingniveau (ten bate van de individuele analyse van de leerlingen) Inleiding In dit document staan voor de meest voorkomende CITO-toetsen van
Nadere informatieTaalresultaten Giessenlanden. Toetsresultaten basisscholen en
Taalresultaten Giessenlanden Toetsresultaten basisscholen 2014-2015 en 2015-2016 1 Taalresultaten Giessenlanden Toetsresultaten basisscholen 2014-2015 en 2015-2016 Rotterdam, juni 2016 CED-Groep: Ellen
Nadere informatieOm de kwaliteit van ons onderwijs te bewaken en de vorderingen van uw kind te volgen, nemen wij in iedere groep niet-methode gebonden toetsen af.
Leerlingvolgsysteem. Leerkrachten volgen de ontwikkeling van de kinderen in hun groep nauwgezet. Veel methoden die wij gebruiken, leveren toetsen die wij afnemen om vast te stellen of het kind de leerstof
Nadere informatie4e Montessori Pinksterbloem Amsterdam. Leerlingtevredenheidspeiling Basisonderwijs Haarlem, oktober 2018
4e Montessori Pinksterbloem Amsterdam Leerlingtevredenheidspeiling Basisonderwijs 2018 Haarlem, oktober 2018 Postbus 3386 2001 DJ Haarlem www.scholenmetsucces.nl info@scholenmetsucces.nl tel: 023 534 11
Nadere informatieOpdracht 2: Data analyseren en interpreteren op groepsniveau (technisch lezen voor leerkrachten van groep 3 (Opdracht 2a) en groep 4 (Opdracht 2b))
Opdracht 2: Data analyseren en interpreteren op groepsniveau (technisch lezen voor leerkrachten van groep 3 (Opdracht 2a) en groep 4 (Opdracht 2b)) Met behulp van onderstaande opdracht kun je met behulp
Nadere informatieOpleiding Geneeskunde
Academisch Medisch Centrum Universiteit van Amsterdam Opleiding Geneeskunde Nieuwe richtlijnen Bonuspunten toetsing in het AMCurriculum 2012 Team Onderwijsontwikkeling & Kwaliteitszorg Afdeling Onderwijs
Nadere informatieNormering en schaallengte
Bron: www.citogroep.nl Welk cijfer krijg ik met mijn score? Als je weet welke score je ongeveer hebt gehaald, weet je nog niet welk cijfer je hebt. Voor het merendeel van de scores wordt het cijfer bepaald
Nadere informatieToetsregeling Praktijk en Principes van de Geneeskunde, eerste semester (MED-B1PPGSE1)
Toetsregeling Praktijk en Principes van de Geneeskunde, eerste semester (MED-B1PPGSE1) Bacheloropleiding Geneeskunde Radboudumc Deze regeling is van kracht vanaf 1 september 2018. 1. Begripsbepaling Het
Nadere informatieAntwoorden bij Testtheorie. Inleiding in de theorie van de psychologische test en zijn toepassingen, door P. J. D. Drenth en K.
Antwoorden bij Testtheorie. Inleiding in de theorie van de psychologische test en zijn toepassingen, door P. J. D. Drenth en K. Sijtsma Opmerking vooraf: Enkele docenten hebben ons laten weten dat zij
Nadere informatieA. Week 1: Introductie in de statistiek.
A. Week 1: Introductie in de statistiek. Populatie en steekproef. In dit vak leren we de basis van de statistiek. In de statistiek probeert men erachter te komen hoe we de populatie het beste kunnen observeren.
Nadere informatieHoofdstuk 3. Het onderzoek van dyslectische leerlingen
Hoofdstuk 3. Het onderzoek van dyslectische leerlingen Inleiding In de voorgaande twee hoofdstukken hebben wij de nieuwe woordleestoetsen en van Kleijnen e.a. kritisch onder de loep genomen. Uit ons onderzoek
Nadere informatieResultaat Toetsing TNO Lean and Green Awards
ID Naam Koploper Datum toetsing 174 M. Van Happen Transport BV 2-4-2012 Toetsingscriteria 1. Inhoud en breedte besparingen 2. Nulmeting en meetmethode 3. Haalbaarheid minimaal 20% CO2-besparing na 5 jaar
Nadere informatie3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.
3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. Absolute verandering = Aantal 2004 Aantal 1994 = 1625 3070 = -1445 Relatieve verandering = Nieuw Oud Aantal
Nadere informatiecse s muziek 2016 in cijfers
cse s muziek 2016 in cijfers De centraal schriftelijke eindexamens muziek waren dit jaar voor alle niveaus aan de pittige kant. Dit bleek uit de reacties van de examinatoren tijdens de evaluatievergaderingen
Nadere informatieCQi Kortdurende ambulante geestelijke gezondheidszorg of verslavingszorg (Verkort)
CQi Kortdurende ambulante geestelijke gezondheidszorg of verslavingszorg (Verkort) Uitkomsten voor Centrum Ambulante Geestelijke Gezondheidszorg Buitenpost Resultaten CQi Kortdurende ambulante geestelijke
Nadere informatieTestscorerapport De heer Sjors Keij
Testscorerapport De heer Sjors Keij Kandidaat: De heer Sjors Keij Programma: Capaciteitentestprogramma Afname: 16 november 2015 Leeswijzer Dit rapport geeft de resultaten weer van het assessment programma
Nadere informatie3 De betrouwbaarheid van toetsscores. 3 De betrouwbaarheid van toetsscores
3 De betrouwbaarheid van toetsscores 3 De betrouwbaarheid van toetsscores 3 De betrouwbaarheid van toetsscores Piet Sanders De betrouwbaarheid van toetsscores is het onderwerp van dit hoofdstuk. Wat in
Nadere informatieEvaluatierapport Project Mechatronica MOD8
Evaluatierapport Project Mechatronica MOD8 201400151 dr.ir. J. van Dijk 90% geslaagd na eerste poging De evaluatiecommissie heeft Project Mechatronica via een e-mailenquête geëvalueerd. De enquête is naar
Nadere informatieHet Almeerse basisonderwijs
dit is een LEA plus project -www.lea.almere.nl- -Dit is een LEA plus project-www.leaplusalmere.nl Het Almeerse basisonderwijs Monitor Taal, Lezen en Rekenen 2013/2014 April 2015 Gemeente Almere, Onderzoek
Nadere informatieCorrectievoorschrift HAVO 2015
Correctievoorschrift HAVO 205 tijdvak 2 wiskunde A Het correctievoorschrift bestaat uit: Regels voor de beoordeling 2 Algemene regels 3 Vakspecifieke regels 4 Beoordelingsmodel 5 Inzenden scores Regels
Nadere informatieCorrectievoorschrift HAVO
Correctievoorschrift HAVO 2008 tijdvak 2 wiskunde A,2 Het correctievoorschrift bestaat uit: Regels voor de beoordeling 2 Algemene regels 3 Vakspecifieke regels 4 Beoordelingsmodel 5 Inzenden scores Regels
Nadere informatieUw kind duidelijk in beeld
Primair en speciaal onderwijs Cito Volgsysteem Uw kind duidelijk in beeld Informatiefolder voor ouders Uw kind duidelijk in beeld Informatiefolder voor ouders Om de ontwikkeling van uw zoon of dochter
Nadere informatieHoe bereken je het cijfer voor een toets met meerkeuzevragen
Over beoordelingscijfers en het berekenen ervan Cees Swagerman juni 2018 - pag. 1 van 5 Inhoud Hoe bereken je het cijfer voor een toets met meerkeuzevragen... 1 Rekenformules voor cijferbeoordeling meerkeuze-toetsen...
Nadere informatieTabellen tussenopbrengsten CITO LOVS versie: januari 2018 Groepsniveau (ten bate van de groepsanalyse)
Tabellen tussenopbrengsten CITO LOVS versie: januari 2018 Groepsniveau (ten bate van de groepsanalyse) Inleiding In dit document staan voor de meest voorkomende Cito-toetsen van het leerlingvolgsysteem
Nadere informatieTabellen tussenopbrengsten CITO LOVS versie: Januari 2015 Leerlingniveau (ten bate van de individuele analyse van de leerlingen)
2015 Tabellen tussenopbrengsten CITO LOVS versie: Januari 2015 Leerlingniveau (ten bate van de individuele analyse van de leerlingen) Inleiding In dit document staan voor de meest voorkomende CITO-toetsen
Nadere informatieCorrectievoorschrift HAVO 2014
Correctievoorschrift HAVO 04 tijdvak wiskunde A Het correctievoorschrift bestaat uit: Regels voor de beoordeling Algemene regels 3 Vakspecifieke regels 4 Beoordelingsmodel 5 Inzenden scores Regels voor
Nadere informatieInterpretatie van de data
Interpretatie van de data De volgende paragraaf geeft verdere uitleg over de interpretatie van de grafieken en tabellen met fictieve data die gebruikt worden in dit document. PROM pre score In Tabel 1
Nadere informatieCorrectievoorschrift HAVO 2016
Correctievoorschrift HAVO 06 tijdvak wiskunde B (pilot) Het correctievoorschrift bestaat uit: Regels voor de beoordeling Algemene regels Vakspecifieke regels Beoordelingsmodel 5 Inzenden scores Regels
Nadere informatie