Enkele determinanten van peer review

Vergelijkbare documenten

Vragenlijst Beoordelen van wetenschappelijke manuscripten

Masterproef oktober 2009

Een Artikel Schrijven. Prof. dr. Paul A. Kirschner Coördinator Onderzoek

Bijlagen ( ) Eisen aan het onderzoeksvoorstel

De sociale psychologie van waargenomen rechtvaardigheid en de rol van onzekerheid

Management Summary. Auteur Tessa Puijk. Organisatie Van Diemen Communicatiemakelaars

Rapportage Ervaringsonderzoek WOT's

Hoofdstuk 2: Kritisch reflecteren 2.1. Kritisch reflecteren: definitie Definitie: Kritisch reflecteren verwijst naar een geheel van activiteiten die

Inspectie Jeugdzorg. Belevingsonderzoek naar klanttevredenheid 2014

Op de vraag of men de artikelen zelf in het Engels schrijft, gaf één wetenschapper het volgende aan:

Vitamine B12 deficiëntie

Disseminatie: artikels schrijven, presenteren en publiceren. Katrien Struyven

ANALYSE PATIËNTERVARINGEN ELZ HAAKSBERGEN

Bijlagen BIJLAGEN BIJLAGE 1. UITKOMSTMATEN VRAGENLIJST BIJLAGE 2. PROEFPERSONEN... 41

Waarom is een nieuw tijdschrift nodig?

IMPACTMETING VAN MONEYMATTERS

Burgerpanel Horst aan de Maas - Meting 3

Samenvatting, conclusies en discussie

Toelichting op de resultaten van de korte enquête (quick scan) René Alberts juni 2011

Huiswerk, het huis uit!

IMPACTMETING VAN BRIGHT ABOUT MONEY

Computeraffiniteit belangrijk op kantoor

Draagvlakmonitor huisvesting vluchtelingen. Rapportage derde meting juni 2016

Rapport voor deelnemers M²P burgerpanel

Biowalking voor ouderen

Klanttevredenheidsonderzoek Bureau Wbtv 2015

Samenvatting. Samenvatting 8. * COgnitive Functions And Mobiles; in dit advies aangeduid als het TNO-onderzoek.

Samenvatting en rapportage Klanttevredenheidsonderzoek PPF 2011/2012

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Proeftuinplan: Meten is weten!

Innovatie van dienstverlening via Loket. Reden voor gebruik en gebruikerstevredenheid.

Formulier voor het beoordelen van de kwaliteit van een systematische review. Behorend bij: Evidence-based logopedie, hoofdstuk 2

Het onderzoeksverslag

Memo. Datum: 19 oktober 2015 Onderwerp: Enquête Studieadvies

Citation for published version (APA): Verbakel, N. J. (2007). Het Chronische Vermoeidheidssyndroom, Fibromyalgie & Reuma.

Omgekeerd Inzamelen. Datum: 11 augustus Versie 3.0. drs. S. Buitinga & de heer R. Sival, BSc. Mevr M. Stam

Bijlage 5: Kwantitatieve analyse

Evaluatie Back to Basics: De Nieuwe Koers

Onderzoeksvoorstel voor wetenschappelijk onderzoek in het kader van de Onderzoeksagenda Veteranenzorg Defensie

Effect publieksvoorlichting

Informatie over de deelnemers

3.1 Itemanalyse De resultaten worden eerst op itemniveau bekeken. De volgende drie aspecten dienen bekeken te worden:

BEGRIP VAN BEWIJS. vrije Universiteit amsterdam. Instituut voor Didactiek en Onderwijspraktijk. Vragenlijst. Herman Schalk

Onderzoek burgerinitiatief. Tevredenheid van indieners

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Fort van de Democratie

Internetpanel over de lokale media

EINDRAPPORTAGE OUDERTEVREDENHEIDSONDERZOEK 2017

Spelen in het groen. Agnes van den Berg Roderik Koenis Magdalena van den Berg

Tabellenboek 'Bekendheid van verzekerden met de polisvoorwaarden en de inhoud van de zorgverzekering

Strategie en resultaat

Hardell: mobiel bellen en hersentumoren aan de belzijde

Leerlingtevredenheidsonderzoek

Samenvatting Nederlands

Invloed van IT uitbesteding op bedrijfsvoering & IT aansluiting

Opdrachten speciaal herontworpen voor eerstejaars studenten

De dienstverlening van SURFnet Onderzoek onder aangesloten instellingen. - Eindrapportage -

KLANTTEVREDENHEIDSONDERZOEK

DATA-ANALYSEPLAN (20/6/2005)

Klanttevredenheid consultatiebureaus Careyn

Deelrapportage "Apotheken door Cliënten Bekeken" Vorige en huidige meting Apotheek Den Hoorn

Twee en een half jaar Kwaliteitsmeting in de Fysiotherapie

AOS docentonderzoek. Rapporteren en presenteren

Geven en ontvangen van steun in de context van een chronische ziekte.

Wat motiveert u in uw werk?

Thematische behoeftepeiling. Uitkomsten en conclusies van een brede enquête onder patiëntenorganisaties

3 Werkwijze Voordat een CQI meetinstrument mag worden ingezet voor reguliere metingen moet het meetinstrument in twee fases getest worden.

13.6. Onderzoeksresultaten: Betekenis voor verander- en

Klanttevredenheidsonderzoek Wmo 2012 Wmo-hulpmiddelen onder de loep. Gemeente Ubbergen Juni 2013

EMPO voor Ouders en Jongeren versie 2.0

nee -> einde vragenlijst nee -> einde vragenlijst % ja % v01 0 0% %

Rapport 834 Oud, W., & Emmelot, Y. (2010). De visitatieprocedure cultuurprofielscholen. Amsterdam: Kohnstamm Instituut.

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

MANTELZORG, GOED GEVOEL

Uitwisseling tussen teamleden in sociale teams cruciaal voor prestatie

Beschrijving van de gegevens: hoeveel scholen en hoeveel leerlingen deden mee?

Samenvatting. Dutch Summary.

EINDRAPPORTAGE OUDERTEVREDENHEIDSONDERZOEK 2017

Inventarisatie enquête over het gebruik van videofragmenten bij het onderwijs van Inleiding Staats- en Bestuursrecht

04 Uitkomsten meting. 1 Inleiding. 2 De ontvangen zorg

Programma. - Construct-> dimensies -> indicatoren -> items vragenlijst. - Pilot met de vragenlijst. - Plannen van het onderzoek.

Onderzoek naar de beste behandeling van epilepsie-achtige hersenactiviteit na reanimatie

Rapportage Deelnemerservaringsonderzoek

Voorbeeldtentamen Statistiek voor Psychologie

Internetpanel Dienst Regelingen

Analyse van de cursus De Kunst van het Zorgen en Loslaten. G.E. Wessels

ALCOHOLKENNIS OVERGEDRAGEN

Meerderheid kent het EKO-keurmerk Onderzoek naar de waarde van het EKO-keurmerk onder Nederlandse boodschappers

Hoofdstuk 1 is de algemene inleiding van dit proefschrift. Samenvattend, depressie is een veelvoorkomende stoornis met een grote impact op zowel het

Reglement Bachelorscriptie Geschiedenis Vastgesteld op , verbeterd en goedgekeurd door de examencommissie op

Operationaliseren van variabelen (abstracte begrippen)

De kwaliteit van educatieve activiteiten meten. Universiteitsmuseum Utrecht

Opzet en uitvoering onderzoek 'Motie Straus'

Studiehadleiding. Opleiding: hbo-masteropleiding Islamitische Geestelijke Verzorging

feedback Flexibel en online Robuust 360º Werkboek Robuus Hartelijk dank voor het gebruiken van Robuust 360º Haal het maximale uit 360º

Rapportage cliëntervaringsonderzoek WMO Gemeente Aalburg

1. Soorten wetenschappelijke informatiebronnen

SAMENVATTING. Samenvatting

Transcriptie:

Enkele determinanten van peer review Geert Wissink Doctoraalwerkstuk Psychologische Methodenleer Afdeling Psychologie Faculteit der Maatschappij en Gedragswetenschappen Universiteit van Amsterdam Amsterdam, december 2003 Studentnummer: 9341781 Supervisie Drs. Maarten Speekenbrink Prof. Dr. Johan Hoogstraten

Enkele determinanten van peer review - 2 - december 2003 Inhoudsopgave SAMENVATTING... 4 1 INLEIDING... 5 1.1 DE CONTROLE VAN DE POORTWACHTER...5 1.2 VAN MANUSCRIPT TOT PUBLICATIE...6 1.3 DE WETENSCHAPPELIJKE WAARDE VAN EEN ARTIKEL...7 1.4 FACTOREN DIE EEN ROL SPELEN BIJ DE BEOORDELING...8 1.5 PERCEPTIE VAN ANDEREN...8 1.6 VRAAGSTELLING...9 2 METHODE... 10 2.1 ONAFHANKELIJKE VARIABELE...10 2.2 AFHANKELIJKE VARIABELEN...11 2.2.1 Eerste afhankelijke variabele: Waardering voor manuscript...11 2.2.2 Tweede afhankelijke variabele: Mate van publiceerbaarheid...12 2.2.3 Derde afhankelijke variabele: Perceptie van het oordeel van anderen...12 2.2.4 Exit vragen...12 2.3 PROCEDURE...12 2.3.1 Studenten...13 2.3.2 Wetenschappers...13 2.4 HYPOTHESES EN EXPLORATIES...14 3 RESULTATEN... 15 3.1 PROEFPERSONEN...15 3.2 PSYCHOMETRISCHE ANALYSE VRAGENLIJST...16 3.2.1 Betrouwbaarheden itemverzamelingen...17 3.2.2 Spreiding van de afhankelijke variabelen...19 3.3 HYPOTHESE 1: EFFECT VAN EXPERIMENTELE UITKOMST OP BEOORDELING...20 3.3.1 Verschil condities op itemniveau...21 3.3.2 Verschil tussen groepen...21 HYPOTHESE 2: VERSCHILLEN TUSSEN EIGEN BEOORDELING EN DE PERCEPTIE VAN HET OORDEEL VAN ANDEREN23 WELKE EIGENSCHAPPEN VAN HET MANUSCRIPT ZIJN VAN INVLOED OP DE UITEINDELIJKE BEOORDELING?...26 3.3.3 Structuur vragenlijst over groepen en condities...26 3.3.4 Regressie analyse...27 3.3.5 Studenten: Eigenschappen die van invloed zijn op de beoordeling...27 3.3.6 Wetenschappers: Eigenschappen die van invloed zijn op de beoordeling...28 3.3.7 Invloed van sexe, conditie en leeftijd...30 4 DISCUSSIE... 31 4.1 CONCLUSIES...31

Samenvatting - 3 - Geert Wissink 4.1.1 De twee groepen...32 4.2 METHODOLOGISCHE ASPECTEN...32 4.2.1 Manuscript...32 4.2.2 Vragenlijst...33 4.2.3 Manipulatie...33 4.2.4 Proefpersonen en procedure...34 4.3 CONSEQUENTIES ONDERZOEK...34 5 LITERATUUR... 36 BIJLAGEN... 38

Enkele determinanten van peer review - 4 - december 2003 Samenvatting De meest gebruikelijke manier van het beoordelen van wetenschappelijke manuscripten is peer review. Verschillende zaken kunnen echter een invloed uitoefenen op het uiteindelijke oordeel over een manuscript. In dit onderzoek is getoetst of de experimentele uitkomst van invloed is op de beoordeling. Wordt een manuscript met significante resultaten als beter beoordeeld dan een manuscript zonder significante resultaten? Daarvoor is een manuscript in twee versies, één met significante resultaten en één zonder significante resultaten voorgelegd aan twee groepen proefpersonen, wetenschappers en studenten. Voor beide groepen geldt dat het niet-significante en het significante manuscript niet anders zijn beoordeeld op kwaliteit en publiceerbaarheid. Er is wel een verschil gevonden in beoordeling tussen de groep studenten en wetenschappers. Bij studenten lijkt bij afwezigheid van significante resultaten algemene eigenschappen als schrijfstijl en originaliteit van belang worden voor de uiteindelijke beoordeling op kwaliteit en publiceerbaarheid. Bij een manuscript met significante resultaten is de uiteindelijke beoordeling meer afhankelijk van de beschrijving van het onderzoeksdesign. Het patroon dat naar bovenkomt wat betreft de kwaliteit bij de groep wetenschappers is dat de theoretische inbedding van het manuscript en de mate van originaliteit voor een groot deel de uiteindelijke beoordeling op wetenschappelijke waarde bepalen. Daarnaast lijkt schrijfstijl lijkt van invloed te zijn op de publiceerbaarheid, niet op de kwaliteit. Het onderzoek laat hiermee zien dat er meer onderzoek nodig is naar de subjectieve hantering van wetenschappelijke criteria die de waarde bepalen van een wetenschappelijk manuscript.

Inleiding - 5 - Geert Wissink 1 Inleiding Het belang van publiceren binnen de wetenschap is anno 2003 onverminderd groot. Het is moeilijk zich het beoefenen van de wetenschap voor te stellen zonder het verschijnen van publicaties, reacties, weerwoorden en verhitte discussies in een van de duizenden tijdschriften die de wetenschap rijk is. Publiceren dient vooral eerst een duidelijk doel: communicatie tussen wetenschappers. Door artikelen van vakgenoten te lezen weten onderzoekers waar anderen in het veld mee bezig zijn en kunnen zij zich laten inspireren door de onderzoeksresultaten. De laatste paar decennia dient publiceren nog een tweede doel: het bewaken van de wetenschappelijke kwaliteit en vooruitgang binnen de wetenschap. Ten slotte dient publiceren nog een derde doel: het behouden van de wetenschappelijke aanstelling. In Nederland hanteren het NWO en het KNAW strenge eisen aan het aantal publicaties in internationale tijdschriften dat hun leden moet halen. De meeste onderzoeksscholen in de psychologie vragen van hun leden gemiddeld één internationale tijdschriftpublicatie per jaar in een aaneengesloten periode van 3 tot 5 jaar (Ellemers, Németh & de Gilder, 1998). De tijdschriftredacties vormen de huidige poortwachters van de wetenschap. Zij filteren de enorme hoop onderzoeksverslagen die wekelijks op hun bord verschijnen, eisen revisies ten opzichte van leesbaarheid en argumentatie, of sturen een onderzoeker naar huis om de verslaggeving grondig te herzien. De tijdschriftredacties zorgen ervoor dat alleen goed en gedegen onderzoek een plek verdient in de dikke jaargangen vol kennis die digitaal en via bibliotheken ontsloten wordt. Wie controleert echter de poortwachter? Hoe gaan ze te werk? En wat is goed en gedegen onderzoek? 1.1 De controle van de poortwachter Om te zien of tijdschriftredacties hun werk goed doen zijn verschillende maten ontwikkeld. De belangrijkste vormt de impactfactor, die door velen wordt gezien als een maat van de kwaliteit van een tijdschrift (Campanario, 1996; Rushton & Roediger, 1978). De impactfactor is het aantal citaties dat de artikelen van een tijdschrift in een bepaalde jaar halen gedeeld door het totaal aantal artikelen dat in dat jaar in het tijdschrift verschijnt. Voor de sociale wetenschappen wordt dit alles bijgehouden voor meer dan 1500 internationale tijdschriften in de Social Science Citation Index (http://jcrweb.com). Zie het als een jaarlijks rapportcijfer voor het tijdschrift. Andere maten die gehanteerd worden zijn de zelfcitaties van tijdschriften, het percentage referenties dat verwijst naar artikelen die oorspronkelijk in het tijdschrift zijn verschenen, en de immediacy index. De laatste maat geeft aan hoe snel de artikelen in een tijdschrift worden gelezen en geciteerd. De samenhang tussen de wetenschappelijke kwaliteit van de afzonderlijke artikelen die verschijnen en de impactfactor wordt echter wel in twijfel getrokken door sommige onderzoekers (Hoogstraten en van Wijck, 1998). In het onderzoek van Hoogstraten en Van Wijk kregen de proefpersonen zes verschillende artikelen te lezen afkomstig uit tijdschriften met een hoge, gemiddelde en lage impactfactor. Met een vragenlijst werd naar een oordeel over de wetenschappelijke kwaliteit van het artikel gevraagd. Er bleek geen enkel verband naar boven te komen tussen de impactfactor en het oordeel over wetenschappelijke kwaliteit. Toch bestaat er binnen de wetenschappelijke wereld een consensus over de hoogte van de impactfactor en de status van de onderzoeker. Publiceren in The Journal of Social and Personal Psychology (impact-factor

Enkele determinanten van peer review - 6 - december 2003 3.661, http://jcrweb.com, 2002) is beter voor carrière en aanzien dan publiceren in het tijdschrift Motivation and Emotion (impact-factor 0.538, http://jcrweb.com, 2002). 1.2 Van manuscript tot publicatie De weg van manuscript naar artikel begint in de meeste gevallen met het doornemen van de richtlijnen van de American Psychological Association (APA). Verreweg het merendeel van de tijdschriften in de psychologie hanteert de richtlijnen van deze organisatie. De APA-manual (APA Manual, 2001) geeft zeer gedetailleerde informatie voor de auteur over de opbouw, taalgebruik, structuur en zelfs het lettertype van een manuscript. Het beoordelen van de wetenschappelijke waarde van de inhoud wordt aan de tijdschriftredacties voorbehouden. Deze kiest meestal voor een systeem van peer review. Een editor ontvangt het manuscript, en stuurt deze na een voorlopige inspectie op algemene punten (zoals paragraaf- en hoofdlettergebruik) door naar één of meerdere reviewers, meestal zijn dit er twee (APA manual, 2001). Het review proces verloopt veelal gestructureerd. De reviewer wordt geïnformeerd over de criteria (schrijfstijl, theoretische ontwikkeling, onderzoek design, meten, etc.) die gehanteerd moeten worden bij het beoordelen van een artikel. Uiteindelijk wordt hun gevraagd een oordeel te vellen over het wel of niet publiceren van een artikel. De editor neemt weer contact op met auteur en geeft aan wat er besloten is over het manuscript. Nieuwenhuis en Hoogstraten (1998) hebben dit proces voor Nederlandse tijdschriften in de Psychologie in kaart gebracht, waarbij de bovengenoemde procedure als standaard kan worden beschouwd. Ondanks het feit dat het merendeel van de psychologen het systeem van peer review goedkeurt, zijn hun ervaringen daarmee toch van een hele andere orde. Bradley (1980) publiceert nogal schokkende resultaten, gebaseerd op een vragenlijst verstuurd naar ettelijke honderden leden van de APA. De vragenlijst behelsde de ervaringen met het laatst gereviewde artikel van de respondenten, en dan natuurlijk vooral de aard en soort van de wijzigingen. Schokkend kan genoemd worden dat 8% van de respondenten aangaven zaken veranderd te hebben in hun manuscript naar de aanwijzingen van de reviewer hoewel ze wisten dat deze wijzigingen fout waren. Hiermee hangt waarschijnlijk de hoge percentages ervaringen met druk om iets te wijzigen (76%), foute kritiek (73%), kennis beneden de maat (67%), behandeld worden als minderwaardig (43%) en slordig lezen (40%). Al met al geen pleidooi voor de objectiviteit van het peer review proces. Nader onderzoek werd ook uitgevoerd door Coles & Coles (1981). Coles en Coles waren aangesteld om het toekennen van fondsen door de National Science Foundation nader onder de loep te leggen. Een van de studies behelsde het onderzoeken van peer review. Om dit te meten, lieten ze 150 voorstellen nog een keer beoordelen door andere reviewers, en ze lieten deze reviewers tevens beslissen over het wel of niet toekennen van een fonds. De tweede ronde beoordelaars waren iets strenger, wat een test artefact geweest kan zijn aangezien deze beoordelaars wisten dat ze niet echt over de carrière van een wetenschapper hoefden te beslissen. Maar aangezien er een groep voorstellen bestond die een score behaalde rondom de beslissende waarde, en dat die plek verantwoordelijk was voor de toekenning van een fonds (wel of niet), bleek uiteindelijk in 25% van de gevallen sprake van willekeur. Vertaald naar het toekennen van een voorstel, blijkt dat de helft wordt bepaald door de eigenschappen van het voorstel en de beoordelaar, en de andere helft wordt bepaald door geluk bij de keuze van een beoordelaar. Aan de ene kant is dit misschien niet goed voor de enkele wetenschapper, die gefrustreerd moet toezien dat zijn voorstel sneuvelt door hele andere oorzaken

Inleiding - 7 - Geert Wissink dan de interne kwaliteit. Zie bijvoorbeeld ook het onderzoek van Fiske en Fogg (1990) naar de lage interbetrouwbaarheid tussen reviewers met de sprekende titel But the Reviewers are Making Different Criticisms of My Paper!. Of het de voortgang van de wetenschap ten nadele beïnvloedt is de vraag, een bepaalde mate van willekeurigheid kan juist leiden tot bijzondere en onverwachte ontdekkingen. Is er eigenlijk wel consensus over welke onderdelen van een artikel van belang zijn voor de wetenschappelijke waarde? 1.3 De wetenschappelijke waarde van een artikel De meeste onderzoekspublicaties bestaan uit vier verschillende onderdelen: Een inleiding, een beschrijving van de gebruikte methoden en technieken, een samenvatting van de resultaten en een interpretatie of discussie van de data (Mahoney, 1977). Bij een blind-review procedure (waarbij de naam van de auteur en het instituut waar de auteur werkzaam is niet wordt getoond aan de reviewer) zijn deze vier onderdelen, aangevuld met een abstract en een bibliografie, de elementen waarop een reviewer zijn oordeel moet baseren. Vanuit een epistemologisch oogpunt mag men hopen dat de inleiding en de beschrijving van de methoden en technieken als belangrijkste determinanten worden gezien bij het beoordelen van de kwaliteit van een artikel (Popper, 1972). Als de onderzoeksvraag relevant is voor de wetenschap en de gebruikte methoden in orde zijn, dan is de uitkomst ongeacht van wat zij is belangrijk voor de wetenschap. Elke bevinding voegt dan iets toe aan de kennis over een bepaald onderwerp, mits de gehanteerde methoden geschikt zijn. Mahoney (1977) stelt dat factoren als schrijfstijl en aangedragen conclusies best een rol mogen spelen in het beoordelingsproces, maar dat deze duidelijk ondergeschikt moeten zijn aan de relevantie en de geschiktheid van de methoden. De praktijk wijst uit dat verschillende eigenschappen belangrijk worden gevonden bij het bepalen van de wetenschappelijke waarde van een artikel. Gilliland & Cortina (1997) namen 823 originele manuscripten die waren ingediend bij het Journal of Applied Psychology grondig onder de loep. Ze keken hierbij naar verschillende eigenschappen van de auteur, het artikel, het commentaar van de reviewers en de beslissingen van de editor. Het bleek dat de reviewers vooral de geschiktheid van het research design, de operationalisatie van de constructen en de theoretische ontwikkeling van belang vonden. Deze drie dimensies zijn ook naar boven gekomen in eerder onderzoek (Wolf, 1970; Gottfredson, 1977). Hoogstraten en Jacobs (1981) kwamen met vergelijkbare dimensies die belangrijk worden geacht bij het reviewen van een manuscript. Ten eerste gaan redacties en beoordelaars na of het manuscript betrekking heeft op het specialisme dat bestreken wordt door het tijdschrift. Ten tweede wordt de wetenschappelijke waarde als essentieel gezien. Ten slotte komen criteria die betrekking hebben op het onderzoeksdesign, de geschiktheid van de statistische methoden en de mate waarin het manuscript bijdraagt aan de wetenschap als geheel naar boven. Chase (1970) merkte op dat de technische aspecten van een publicatie (stijl en dergelijke) net zo zwaar wegen als het belang van de publicatie voor de toenemende kennis binnen de wetenschap. De zachte wetenschappers, waar ook de psychologen tot behoren volgens Chase, leggen de nadruk op interne logica, theoretisch belang en toegepast belang. De meest gedetailleerde opsomming van belangrijke eigenschappen komt voort uit de bevindingen van Gottfredson (1978). Om te bepalen wat reviewers belangrijk vinden stuurde Gottfredson een vragenlijst met 83 waarderingsaspecten naar 545 editors en reviewers van negen grote psychologische tijdschriften. Met een factoranalyse wist hij uiteindelijk 9 componenten te destilleren uit de vragenlijsten:

Enkele determinanten van peer review - 8 - december 2003 1. De Don ts: fouten die een auteur moet zien te vermijden 2. Inhoudelijke Do s: vereisten van wetenschappelijke aard 3. Stylistische Do s: vereisten ten opzichte van taalgebruik en stijl 4. Originaliteit: Het onderzoek moet iets nieuws laten zien 5. Trivialiteit: De auteur moet geen open deuren intrappen 6. Suggesties voor verder onderzoek 7. Beschrijving van de data: De ruwe data moet niet in zijn geheel worden gepresenteerd, maar op een slimme wijze worden weergegeven 8. Aha-onderzoek: Geen onderzoek naar wat we al weten 9. Grootte van het probleem: Het te onderzoeken probleem mag niet een te klein gebied bestrijken. Deze complete lijst onderschrijft goed wat de objectieve criteria zijn van een manuscript. Over veel criteria zal overeenstemming bestaan tussen wetenschappers. Toch zijn deze criteria wel degelijk vatbaar voor een subjectieve hantering. Wat bijvoorbeeld voor de één een origineel en oorspronkelijk onderzoek is, is voor de ander een triviaal werk. Daarnaast zijn er nog andere factoren die een rol kunnen spelen bij het beoordelen van andermans werk. 1.4 Factoren die een rol spelen bij de beoordeling Eerder onderzoek wijst uit dat een andere weergave van de resultaten van invloed is op de waardering van de proefpersonen voor andere onderdelen van het manuscript (Mahoney, 1978). Ook blijkt uit ander onderzoek dat men eerder geïnteresseerd is in significante resultaten dan in niet-significante resultaten (Van Heerden & Hoogstraten, 1978; Rowney, 1978). Mahoney (1977) vroeg aan 75 tijdschrift reviewers om manuscripten te beoordelen die dezelfde experimentele procedures volgden. Centraal bij het onderzoek stond de inhoud van de gerapporteerde data en de daarop volgende interpretatie. Hij voerde verschillende manipulaties uit op de gerapporteerde data. De inleiding en methodensectie bleef overal gelijk, maar de resultaten- en de discussiesectie werden veranderd of weggelaten. Twee belangrijke conclusies kunnen worden getrokken uit zijn experiment. Ten eerste wordt de waardering van een reviewer in belangrijke mate beïnvloed door factoren als de experimentele uitkomst en 2) de overeenstemming tussen de verschillende beoordelaars is erg laag. De lage betrouwbaarheid tussen beoordelaars is een herhaaldelijk geobserveerd verschijnsel (Hargens, 1988; Cichetti, 1991; Fiske & Fogg, 1990). Ook Rowney en Zenisek (1980) vonden dat naast de reputatie van de auteur de significantie van de resultaten een belangrijke rol speelt bij de mate van waardering. Daarnaast werd replicatie onderzoek en onderzoek wat eerder was gepresenteerd op een congres of seminar als minder waardevol beschouwd. 1.5 Perceptie van anderen

Inleiding - 9 - Geert Wissink We kunnen de wetenschap wel enigszins vangen in objectieve criteria, maar het toepassen van deze criteria op andermans werk blijkt niet zonder gevaren. Dit brengt ons op een volgende interessante veronderstelling. Is een beoordeling beter als we niet zelf deze criteria toepassen, maar ons proberen voor te stellen hoe andere wetenschappers een artikel zouden beoordelen? Neemt de interbetrouwbaarheid tussen wetenschappers toe wanneer we ze vragen naar hun perceptie van de gemiddelde mening van andere wetenschappers? Verschillende aspecten van de perceptie over meningen van anderen spelen hierbij een rol. Het is niet altijd bekend wat anderen vinden van een bepaald onderwerp, of in dit geval een manuscript. Men zal een schatting geven van hetgeen men denkt dat de gemiddelde waardering van de groep zal zijn. In eerder onderzoek komt naar voren dat er een normalisatie effect optreedt. De verdelingen van percepties lijken meer op normale verdelingen (Den Boon, 1989). Ook zal de item non-response groter zijn bij perceptievragen dan bij eigen oordelen omdat de respondenten vaak moeite hebben met zich te verplaatsen in een ander. Deze eigenschappen van perceptie gelden voor de groep als geheel. Op individueel niveau komen andere eigenschappen naar boven. Ten eerste blijkt er vaak een sterk verband te zijn tussen eigen oordelen en de perceptie. Bij het beantwoorden van individuele percepties over de groep treedt er vaak een false consensus effect op waarbij de eigen mening als typerend voor de groep wordt gezien. Ten tweede zullen perceptievragen conservatiever beantwoord worden ten opzichte van de eigen mening (men ziet zichzelf als beter dan het gemiddelde, de groep presteert volgens het voorgestelde gemiddelde). 1.6 Vraagstelling Uit het bovenstaande is naar voren gekomen dat het belang van het geplaatst krijgen van manuscripten groot is voor zowel de auteur als voor de wetenschap. De weg van manuscript naar publicatie is echter lang en niet zonder gevaar. De meest gehanteerde methode bij het beoordeling van een manuscript is peer review waarop verschillende factoren een invloed kunnen uitoefenen. Een van die factoren die een rol kunnen spelen is het belang van de experimentele uitkomst voor de uiteindelijke beoordeling. In dit onderzoek gaan we in navolging van Mahoney (1977) onderzoeken in hoeverre de resultaten van invloed zijn op de beoordeling van het manuscript. Dit doen we door éénzelfde manuscript in twee versies, met significante resultaten en zonder significante resultaten, voor te leggen aan twee groepen proefpersonen, studenten en wetenschappers. Eerder onderzoek beperkte zich voornamelijk tot de groep wetenschappers, in dit onderzoek nemen we ook een groep studenten mee om te kijken in hoeverre zij gevoelig zijn voor het effect van significante of niet-significante resultaten. Ook proberen we iets meer over het lees en beoordeel gedrag van studenten te kunnen achterhalen met dit onderzoek. Wat betreft de groep wetenschappers gaan we bekijken of we de resultaten van Mahoney kunnen repliceren. Uiteindelijk kan zo ook gekeken worden naar het verschil in beoordeling tussen de groep wetenschappers en de groep studenten. Daarnaast willen we kijken welke eigenschappen van een manuscript belangrijk gevonden voor de uiteindelijke beoordeling van de kwaliteit en publiceerbaarheid van een manuscript. Tot slot kijken we naar de perceptie van het oordeel van anderen binnen de wetenschap. Mogelijk zijn vragen naar de perceptie van het oordeel van anderen een betere voorspeller van het gemiddelde totale oordeel dan vragen naar het eigen oordeel.

Enkele determinanten van peer review - 10 - december 2003 2 Methode 2.1 Onafhankelijke variabele Er is gezocht naar een kort, algemeen, niet al te bekend artikel om te dienen als het te beoordelen manuscript. Het artikel moest een algemeen psychologisch onderwerp behandelen om te voorkomen dat er effecten ontstaan tussen reviewers met meer of minder kennis van een specialistisch onderwerp. Het artikel moest ook niet al te lang zijn om de proefpersonen niet al te veel werk te bezorgen bij het beoordelen van het manuscript. Tevens is ook gezocht naar een manuscript met een duidelijke experimentele opzet waarvan de resultaten op een eenvoudige wijze zijn te manipuleren. Uiteindelijk is gekozen voor het artikel Pretesting as Determinant of Attitude Change in Evaluation Research van J. Hoogstraten, verschenen in het tijdschrift Applied Psychological Measurement in 1979. Om een idee te geven van de inhoud van het artikel is hieronder de Nederlandse vertaling van de samenvatting opgenomen: Twee experimenten zijn uitgevoerd om de bias effecten van een voormeting op daarop volgende nametingen te onderzoeken. De taak van het eerste experiment was het beoordelen van een lesboek statistiek dat eerstejaars psychologen gebruiken. Het experiment maakte gebruik van een separate sample pretest-posttest design en liet zien dat een pretest met overwegend negatieve stellingen over het gebruikte lesmateriaal de resultaten van de posttest beïnvloedde. Het tweede experiment, waarin een andere behandeling werd gebruikt, onderzocht de pretest effecten van positieve en negatieve stellingen. De positieve versie werkte contra de ontwikkeling van negatieve gevoelens over de behandeling. De negatieve versie liet hetzelfde effect op de ontstane gevoelens niet zien. De laatste uitkomst werd als een gevolg gezien van het nogal omstreden karakter van de behandeling en de verplichte deelname van de proefpersonen. De negatieve stellingen bevestigden misschien reeds bestaande attitudes. Drie suggesties om de sensibiliserende werking van de pretest te voorkomen werden genoemd: 1) maak gebruik van onderzoek-designs met controle groepen; (2) scheidt de pretest fase van de posttest fase; en (3) leg meer de nadruk op designs zonder pretests. De naam van de auteur en de literatuurlijst zijn weggelaten. Bij de verwijzingen in de tekst van het artikel zijn de namen van de auteurs vervangen door xxx en is het jaartal van publicatie met 20 verhoogd. Het laatste is gedaan om te suggereren dat het om een recent onderzoek gaat om eventuele effecten van de leeftijd van het artikel te voorkomen. Ook zijn verwijzingen naar de naam van de universiteit (Universiteit van Amsterdam) en specifieke herkenbare namen van de onderzoekssetting (testweek) weggehaald. Dit resulteerde uiteindelijk in een manuscript van zes pagina s dat verder bewerkt is. Er zijn twee verschillende versies van het manuscript gemaakt. De eerste versie bestond uit het originele manuscript met significante resultaten waarin de hypotheses bevestigd worden. In de tweede versie zijn enkele resultaten aangepast waardoor de resultaten niet meer significant waren en de hypothesen niet bevestigd worden. In deze niet-significante versie zijn daarop volgend de samenvatting, een vooruitwijzende zin in de inleiding, onderdelen van de resultaten en de discussie herschreven zodat de tekst de nietsignificante bevindingen weerspiegelden. De twee manuscripten zijn opgenomen in bijlage 5 en 6.

Methode - 11 - Geert Wissink 2.2 Afhankelijke variabelen Hoogstraten en Jacobs (1981) hebben op basis van de componenten van Gottfredson (1978) een lijst met 22 stellingen opgesteld waarvan de proefpersoon kon aangeven in hoeverre zij het eens was met de stelling. Om het experiment niet te lang te laten duren is een selectie gemaakt uit de 22 stellingen. De verkozen stellingen zijn geselecteerd op basis van onderscheidingsvermogen, er is met zo min mogelijk stellingen gepoogd zoveel mogelijk aspecten van het manuscript te vatten. Dit resulteerde in 10 stellingen die gebruikt zijn in deze vragenlijst. Vervolgens zijn ook 4 vragen opgenomen over kwaliteit, publiceerbaarheid, bekendheid met het manuscript en interesse in het onderwerp. In tabel 2.1 staan alle 14 stellingen en vragen genoemd. Tabel 2-1 De 14 items van de vragenlijst A.Betreffende de inleiding van het manuscript 1. Het verband tussen de probleemstelling en de theoretische achtergrond is in voldoende mate aangegeven. 2. De probleemstelling wordt op juiste wijze vertaald in een onderzoekbare vraagstelling. B. Betreffende de gebruikte methoden in het manuscript 3. De onderzoeksopzet (design) geeft in voldoende mate de mogelijkheid tot beantwoording van de vraagstelling. 4. De beschrijving van de onderzoeksprocedure is duidelijk en volledig. C. Betreffende de beschreven resultaten in het manuscript 5. De statistische verwerking van de gegevens is op controleerbare wijze weergegeven 6. De onderzoeksresultaten zijn duidelijk -in tekst, tabellen of figuren- weergegeven D.Betreffende de discussie van het manuscript 7. In de discussie zijn in voldoende mate aanwijzingen gegeven voor vervolgonderzoek. 8. In de discussie worden de gestelde hypothesen en theoretische implicaties in voldoende mate behandeld. E. Algemene vragen betreffende het manuscript 9. De schrijfstijl is duidelijk en helder 10. Het manuscript is in voldoende mate origineel 11. Wat is uw algemene oordeel over de wetenschappelijke kwaliteit? 12. Stel u bent redacteur van een wetenschappelijk tijdschrift. Wanneer u een aanbeveling zou moeten doen voor publicatie van dit manuscript wat zou uw oordeel dan zijn? 13. Was u reeds bekend met het betreffende manuscript? 14. In hoeverre sluit het onderwerp aan bij uw interessegebied? 2.2.1 Eerste afhankelijke variabele: Waardering voor manuscript De eerste afhankelijke variabele in dit onderzoek is de waardering die de proefpersonen hebben voor het manuscript. Deze waardering is uitgewerkt op drie manieren:

Enkele determinanten van peer review - 12 - december 2003 Item 1 tot en met 8: De waardering voor de inleiding, methoden, resultaten en discussie van het manuscript werd door middel van 2 stellingen per onderdeel onderzocht (in totaal 8 stellingen, zie tabel 2.1). De proefpersoon kon op een vijf-punts Likert schaal aangeven in hoeverre zij of hij het eens was met de stelling. Item 9 en 10: De schrijfstijl en mate van originaliteit werden gemeten met stellingen die op een vijf-punts Likert schaal gescoord werden. Item 11: Een vraag over de waardering op kwaliteit, in een vijf-punts keuze schaal. Bij de vragenlijst voor de groep wetenschappers zijn nog vijf open vragen opgenomen waarin de wetenschapper respectievelijk opmerkingen over de inleiding, methoden, resultaten, discussie en het manuscript in het algemeen kwijt kon. 2.2.2 Tweede afhankelijke variabele: Mate van publiceerbaarheid De tweede afhankelijke variabele is de vraag over de publiceerbaarheid van het manuscript (item 12). Deze vraag wordt vaak gesteld aan reviewers van een tijdschrift. Exploratief werd de proefpersoon gevraagd of deze reeds bekend was met het artikel en of het artikel aansloot bij het interessegebied van de proefpersoon (item 13 en 14). 2.2.3 Derde afhankelijke variabele: Perceptie van het oordeel van anderen De derde afhankelijke variabele is de perceptie die de proefpersoon heeft over hoe anderen het manuscript zouden beoordelen. Deze perceptie is met de review vragenlijst uit tabel 2.1 onderzocht, waarbij gevraagd werd hoe andere proefpersonen / wetenschappers de vragen zouden beantwoorden. Aangezien we ook willen meten met deze vragenlijst in hoeverre er overeenkomst is tussen de oordelen van de proefpersonen wordt deze lijst hierna aangeduid als de perceptie vragenlijst (item 15 t/m 28). 2.2.4 Exit vragen In de exitvragenlijst werd eerst naar de leeftijd en de sexe van de proefpersoon gevraagd. Vervolgens werd gevraagd wat volgens de proefpersoon de bedoeling van het onderzoek is, wat de wetenschappelijke waarde van het onderzoek is en of de proefpersoon nog opmerkingen naar aanleiding van het onderzoek heeft. Dit alles werd gevraagd met open vragen. De groep wetenschappers werd nog gevraagd naar het soort aanstelling, aan welke universiteit de wetenschapper verbonden was en hoeveel ervaring de wetenschapper met het reviewen van manuscripten had. Tenslotte werd de proefpersoon hartelijk bedankt voor de medewerking, en als de proefpersoon interesse stelde in de resultaten van het onderzoek kon de proefpersoon zijn of haar emailadres invullen. In bijlage 1 staan alle vragen en alle antwoordcategorieën vermeld. 2.3 Procedure

Methode - 13 - Geert Wissink Het onderzoek is uitgevoerd onder twee groepen. De eerste groep bestond uit eerstejaars psychologie studenten en de tweede groep uit wetenschappers werkzaam in de psychologie bij een universiteit in Nederland. 2.3.1 Studenten De eerste groep bestond uit 65 eerstejaars psychologie studenten. Deze studenten kregen in ruil voor deelname aan het onderzoek studiepunten die ze nodig hadden om een verplicht onderdeel van de propedeuse te behalen. De studenten zijn geworven door een inschrijflijst op te hangen op de Universiteit van Amsterdam. De naam van het onderzoek was Kritisch lezen. Bij de instructie werd de studenten verteld dat het onderzoek ging over kritisch lezen, en of ze het manuscript grondig wilden doorlezen. De studenten zijn in groepen van 1 tot 8 personen getest in een klassikale opstelling onder toezicht van een proefleider. Ze werden op volgorde van binnenkomst toegekend aan conditie 1 of aan conditie 2. In conditie 1, de significante conditie, kregen ze het originele manuscript te lezen. In conditie 2, de niet-significante conditie, kregen ze het bewerkte manuscript voorgelegd. De studenten kregen eerst het manuscript overhandigd. Er werd hen gevraagd het manuscript rustig en grondig door te lezen, er mochten aantekeningen gemaakt worden op het manuscript. Als ze dit hadden gelezen, kregen ze de eerste vragenlijst bestaande uit de review-stellingen overhandigd. Na het invullen van vragenlijst 1, kregen ze van de proefleider de perceptievragenlijst en exitvragenlijst overhandigd. In tabel 3.1 staat de verdeling van de studenten over de twee condities. De studenten hebben 20 minuten tot een uur over het experiment gedaan. 2.3.2 Wetenschappers De tweede groep bestond uit 33 wetenschappers. Bij de review vragen zijn vijf open vragen opgenomen waar eventuele opmerkingen over de verschillende onderdelen van het manuscript vermeld konden worden (zie bijlage 1 voor een overzicht van de vragen en de uitkomstmaten). In de exit vragenlijst werd nog gevraagd naar het vakgebied, de ervaring met reviewen, de soort aanstelling en de naam van de universiteit waaraan de wetenschapper verbonden was. Om het invullen van de vragenlijst zo eenvoudig mogelijk te maken is er een website opgezet waarop de vragenlijst ingevuld kon worden. Na het invullen van alle verplichte items en het emailadres werden de gegevens van de vragenlijst verstuurd naar het mailadres van de proefleider. Vier AIO s (assistenten in opleiding) van de Universiteit van Amsterdam hebben de vragenlijst in een pilotexperiment ingevuld, waarbij getest werd of de online vragenlijst goed werkte en het onderzoek duidelijk was voor de deelnemers. Dit bleek het geval te zijn. Voor het experiment zijn 851 wetenschappers werkzaam op een psychologie faculteit in Nederland benaderd via e-mail. Hun e-mail adressen zijn gevonden op de websites van de zeven universiteiten met een afdeling of faculteit Psychologie in Nederland. De persoon werd geclassificeerd als wetenschapper als er drs, dr of prof. voor de naam stond en het duidelijk was dat de persoon niet behoorde tot het ondersteunend personeel. De email-adressen zijn willekeurig toegewezen aan de condities waarna ze een e-mail werd gestuurd met een verzoek om mee te doen aan een onderzoek. De naam van het experiment was Onderzoek naar het beoordelen van wetenschappelijke manuscripten. In de bijbehorende instructie werd verteld dat het doel van het experiment was om een review-vragenlijst te valideren, en dat het onderzoek ongeveer een uur in beslag zou nemen. Het manuscript was bijgevoegd als pdf document, en de wetenschappers konden de

Enkele determinanten van peer review - 14 - december 2003 vragenlijst online invullen op de website. Hier konden ze ook een pdf-versie van de vragenlijst downloaden die ze per email of uitgeprint per post terug konden sturen. Na twee weken kregen de wetenschappers die nog niet hadden meegewerkt aan het onderzoek een herhalingsmail. In totaal leverde deze twee mailings na een maand 34 afwijzingen, en 20 ingevulde vragenlijsten op. Hiervan zijn 18 vragenlijsten via de website ingevuld en 2 kwamen uitgeprint binnen per post. Om toch nog wat meer respondenten te krijgen zijn alle personen aan de afdeling Psychologie van de Universiteit van Amsterdam die nog niet gereageerd hadden en waar drs. voor de naam stond ook telefonisch benaderd. In twee weken zijn 81 personen telefonisch benaderd, waarvan 26 personen afzagen van deelname, 21 personen na 3 keer bellen niet zijn bereikt, 8 personen uit dienst bleken te zijn en 26 personen toezegden mee te werken aan het onderzoek. In totaal leverde dit 13 extra reacties op waardoor experiment uiteindelijk 33 proefpersonen telde. Bijna alle personen die afzagen van deelname gaven als argument dat ze geen tijd hadden aan een onderzoek dat een uur duurt. De overige personen die afzagen van deelname gaven aan dat ze geen affiniteit hadden met het onderwerp van het manuscript. 2.4 Hypotheses en exploraties De hoofdvraag is of er een verschil is van experimentele uitkomst op de beoordeling van het manuscript. Dat meten we voor de drie afhankelijke variabelen. We verwachten dat de niet-significante versie van het manuscript slechter zal worden beoordeeld dan de significante versie van het manuscript. We kijken ook op itemniveau of er verschillen zijn. De tweede vraag is of er een verschil is in het eigen oordeel en de perceptie van het oordeel van anderen. We verwachten dat de perceptie van het oordeel van anderen minder streng zal zijn en ook minder spreiding zal vertonen. Dit meten we door de eerste twee afhankelijke variabelen voor de twee groepen met elkaar te vergelijken tussen de review en perceptie items. Daarna kijken we met een MANOVA herhaalde metingen naar de verschillen binnen de proefpersoon. Als laatste bekijken we welke eigenschappen van het manuscript van invloed zijn op de uiteindelijke beoordeling. Dit meten we met een regressie analyse van de gemiddelde somscores van de review en perceptie-items op de items kwaliteit en publiceerbaarheid. We zullen hierbij ook op itemniveau kijken welke items het sterkste verband vertonen met de afhankelijke variabelen.

Resultaten - 15 - Geert Wissink 3 Resultaten 3.1 Proefpersonen In tabel 3.1 staat de verdeling van de proefpersonen over de condities en geslacht en de gemiddelde leeftijd. Bij de groep studenten is er een verschil in sexe tussen de twee condities (χ 2 = 5.55, p=.02). Geslacht zal meegenomen worden in de analyses als covariaat om te corrigeren voor eventuele sexe-verschillen. Tabel 3-1 Verdeling leeftijd en geslacht proefpersonen over condities Gemiddelde leeftijd M (sd) Sexe % (aantal) vrouw Sexe % (aantal) man Studenten Niet-significante conditie (n=32 ) 20.77 (0.49) 62.5 % (20) 37.5 % (12) Significante conditie (n= 33 ) 20.50 (0.61) 87.9 % (29) 12.1 % (4) Wetenschappers Niet-significante conditie (n=15 ) 34.26 (13.78) 60 % (9) 40 % (6) Significante conditie (n= 18 ) 37.78 (14.48) 27.8 % (5) 72.2 % (13) We hebben de groep wetenschappers ook gevraagd naar de aanstelling, ervaring en vakgebied (zie bijlage 2). Hieruit komt naar voren dat meer dan de helft van de deelnemende wetenschappers de positie bekleedt van Assistent in Opleiding. Hierop sluit aan dat bijna de helft nog nooit een manuscript gereviewd heeft, maar toch een kwart van de respondenten 10 of meer manuscripten heeft gereviewd. Opvallend is verder dat bijna de helft van de groep wetenschappers de cognitieve psychologie als vakgebied heeft, terwijl deze groep over het algemeen 20% van de totale populatie wetenschappers werkzaam in de psychologie inneemt.

Enkele determinanten van peer review - 16 - december 2003 3.2 Psychometrische analyse vragenlijst Alvorens de hoofdvragen te beantwoorden kijken we eerst naar de psychometrische eigenschappen van de vragenlijst. Hiervoor kijken we naar de spreiding van de items, betrouwbaarheid, en de spreiding van de afhankelijke variabelen. Tabel 3-2 Gemiddelden en standaardeviaties alle items Studenten (n=65) Wetenschappers (n=33) niet-significant significant niet-significant significant review items M SD M SD M SD M SD 1 inleiding (theoretische achtergrond) * 3.41 0.91 3.48 0.87 2.93 1.16 3.28 0.96 2 inleiding (vraagstelling) * 2.91 0.96 3.09 0.84 2.80 0.86 3.00 1.14 3 methoden (onderzoeksdesign) * 3.09 0.89 3.36 0.86 3.13 0.83 2.94 1.03 4 methoden (beschrijving procedure) * 3.16 1.08 3.24 0.94 2.67 1.05 2.53 1.01 5 resultaten (beschrijving statistiek) * 3.42 0.96 3.61 0.86 3.40 0.91 3.44 0.98 6 resultaten (weergave resultaten) * 3.72 0.89 3.94 0.66 3.47 0.99 3.22 1.00 7 discussie (vervolgonderzoek) * 3.53 0.92 3.48 0.87 3.47 0.74 3.11 1.18 8 discussie (theoretische implicaties) * 3.41 0.91 3.58 0.83 3.13 0.99 3.17 0.99 9 algemeen (schrijfstijl) * 2.81 1.12 2.76 0.79 2.40 1.12 3.17 1.20 10 algemeen (originaliteit) * 2.84 0.92 3.15 0.67 2.60 0.63 3.00 0.84 11 kwaliteit *** 3.16 0.81 3.27 0.63 2.27 0.88 2.22 0.81 12 publiceerbaarheid ** 2.66 0.79 2.79 0.55 1.93 0.88 2.22 0.65 13 bekendheid **** 2.00 0.00 2.00 0.00 2.00 0.00 2.00 0.00 14 interesse ***** 2.31 0.82 2.03 0.77 2.00 1.00 2.29 0.99 perceptie items M SD M SD M SD M SD 15 inleiding (theoretische achtergrond) * 3.34 0.94 3.36 0.70 3.07 1.07 2.81 0.91 16 inleiding (vraagstelling) * 3.13 0.83 3.27 0.67 3.07 0.92 2.75 0.93 17 methoden (onderzoeksdesign) * 3.34 0.83 3.45 0.79 3.07 1.00 3.13 0.96 18 methoden (beschrijving procedure) * 3.25 0.92 3.15 0.83 3.07 0.92 2.69 1.01 19 resultaten (beschrijving statistiek) * 3.41 0.91 3.48 0.67 3.29 1.14 3.50 0.97 20 resultaten (weergave resultaten) * 3.75 0.80 4.00 0.56 3.50 0.85 3.44 0.63 21 discussie (vervolgonderzoek) * 3.52 0.89 3.36 0.93 3.50 0.76 2.94 1.12 22 discussie (theoretische implicaties) * 3.45 0.57 3.50 0.76 3.00 0.88 2.88 0.89 23 algemeen (schrijfstijl) * 3.16 0.99 2.85 0.87 2.64 1.08 3.19 1.11 24 algemeen (originaliteit) * 2.94 0.84 3.09 0.77 2.79 0.70 3.25 0.86 25 kwaliteit *** 3.09 0.64 3.55 0.67 2.36 0.93 2.44 0.81 26 publiceerbaarheid ** 2.06 0.56 2.00 0.66 2.21 0.58 2.25 0.68 27 bekendheid **** 1.97 0.18 1.94 0.24 1.86 0.36 1.88 0.34 28 interesse ***** 2.81 0.69 2.79 0.60 3.21 0.89 2.81 0.75 * scores liggen tussen 1 (zeer oneens) en 5 (zeer eens) ** scores liggen tussen 1 (definitief afwijzen) en 4 (in deze vorm accepteren) *** scores liggen tussen 1 (slecht) en 5 (uitstekend) **** scores zijn 1 (bekend) en 2 (onbekend) ***** scores liggen tussen 1 (slecht) en 5 (heel veel)

Resultaten - 17 - Geert Wissink Op itemniveau kijken we eerst naar de antwoorden voor de groep studenten (tabel 3.2). Iedereen geeft aan bij item 13 (bekendheid met het manuscript) het manuscript niet te kennen. Bij het bekijken van de verdeling van de antwoorden van de groep wetenschappers zien we dat niemand aangeeft bekend te zijn met het manuscript, net zoals dat het geval is binnen de groep studenten. Gevraagd naar de mening van andere wetenschappers denken drie proefpersonen dat andere wetenschappers het manuscript wel kennen. In de niet-significante conditie vertoonden item 2 (vraagstelling), 3 (design), 5 (statistiek), 7 (vervolgonderzoek), 10 (originaliteit) een geringe spreiding, slechts 3 antwoordcategorieën werden hierbij gekozen. In de significante conditie gaat dit op voor item 14 (publiceerbaarheid). Drie respondenten gaven in de exitvragen aan de perceptie vragen niet in te kunnen vullen en daarom neutrale antwoorden gegeven te hebben. Ze gaven aan in de exitvragen zich geen oordeel over de mening van anderen te kunnen vormen. Eén respondent antwoordde: Als ik in de hoofden van andere mensen kon kijken dan had mijn leven er heel anders uitgezien. De antwoorden van deze respondenten op de perceptie items zijn uit de verdere analyses gehaald. Verder vinden we met een principale componenten analyse zowel binnen en over de groepen zeven of meer factoren met een eigenwaarde groter dan 1. Dit ondersteunt de veronderstelling dat meerdere eigenschappen van het manuscript verantwoordelijk zijn voor de beoordeling. Ook blijkt dat de vragenlijsten overwegend normaal verdeeld zijn, zowel voor de groep studenten als de groep wetenschappers (zie bijlage 3). 3.2.1 Betrouwbaarheden itemverzamelingen De betrouwbaarheden van de gebruikte vragenlijst is goed te noemen (zie tabel 3.3). Wat opvalt is dat de betrouwbaarheden hoger zijn voor de groep wetenschappers. Tabel 3-3 Betrouwbaarheden afhankelijke variabelen niet-significant significant item(s) Cronbachs alpha Cronbachs alpha studenten waardering item 1-11 0.69 0.60 met publiceerbaarheid item 1-12 0.74 0.63 perceptie item 1-11 (perceptie) 0.60 0.70 wetenschappers waardering item 1-11 0.80 0.79 publiceerbaarheid item 1-12 0.82 0.81 perceptie item 1-11 (perceptie) 0.83 0.81 We kijken ook op item niveau naar de correlatie tussen de items en de gehele test, aangezien deze maat een goede maat vormt voor het discriminerend vermogen van het item. In het algemeen wordt een item die lager scoort dan.20 als een slecht item beschouwd (Van den Brink & Mellenbergh, 1998, p. 350). Wat betreft de groep studenten zou dit betekenen dat in beide condities item 5 (resultaten: statistische verwerking) een slecht item is (zie tabel 3.4). Ook voldoet item 10 (algemeen: originaliteit) in de significante conditie niet bij de review vragen en item 11 (kwaliteit) niet bij de perceptie vragen in de significante conditie van de perceptievragen.

Enkele determinanten van peer review - 18 - december 2003 Tabel 3-4 Betrouwbaarheden itemverzamelingen studenten REVIEW PERCEPTIE niet-significant significant niet-significant significant Rc* α-i** Rc* α-i** Rc* α-i** Rc* α-i** 1 inleiding 1 0.47 0.71 0.19 0.63 0.27 0.62 0.36 0.71 2 inleiding 2 0.31 0.73 0.51 0.56 0.42 0.59 0.63 0.67 3 methoden 1 0.22 0.73 0.28 0.61 0.12 0.65 0.51 0.68 4 methoden 2 0.41 0.71 0.35 0.60 0.49 0.58 0.38 0.70 5 resultaten 1 0.12 0.75 0.03 0.66 0.06 0.66 0.09 0.74 6 resultaten 2 0.32 0.72 0.16 0.63 0.10 0.65 0.31 0.71 7 discussie 1 0.39 0.71 0.16 0.64 0.51 0.57 0.28 0.72 8 discussie 2 0.20 0.74 0.50 0.57 0.16 0.64 0.47 0.69 9 algemeen 1 0.59 0.68 0.47 0.57 0.34 0.61 0.45 0.69 10 algemeen 2 0.38 0.72 0.01 0.65 0.29 0.62 0.28 0.72 11 kwaliteit 0.43 0.71 0.38 0.60 0.30 0.62 0.18 0.73 12 publiceerbaarheid 0.62 0.69 0.40 0.60 0.43 0.60 0.38 0.70 Cronbachs α = 0.74 Cronbachs α = 0.63 Cronbachs α = 0.64 Cronbachs α = 0.72 * Rc = Item-test correlatie ** α test bij verwijdering item *** vet gedrukt: Rc<0.20 De betrouwbaarheden van de itemverzamelingen voor de groep wetenschappers laten een wat verspreider beeld zien (tabel 3.5). Item 10 (originaliteit) voldoet niet in de niet-significante conditie voor zowel de review als perceptievragen. Tabel 3-5 Betrouwbaarheden itemverzamelingen wetenschappers REVIEW PERCEPTIE niet-significant significant niet-significant significant Rc* α-i** Rc* α-i** Rc* α-i** Rc* α-i** 1 inleiding 1 0.71 0.79 0.49 0.79 0.67 0.82 0.64 0.78 2 inleiding 2 0.51 0.81 0.57 0.78 0.57 0.83 0.72 0.78 3 methoden 1 0.30 0.82 0.31 0.81 0.30 0.85 0.28 0.82 4 methoden 2 0.33 0.82 0.39 0.80 0.69 0.82 0.30 0.82 5 resultaten 1 0.35 0.82 0.37 0.80 0.26 0.86 0.44 0.80 6 resultaten 2 0.35 0.82 0.46 0.79 0.27 0.85 0.07 0.82 7 discussie 1 0.60 0.80 0.08 0.83 0.75 0.82 0.64 0.78 8 discussie 2 0.64 0.80 0.61 0.78 0.58 0.83 0.66 0.78 9 algemeen 1 0.65 0.79 0.60 0.78 0.61 0.83 0.54 0.79 10 algemeen 2-0.02 0.84 0.45 0.79 0.02 0.86 0.40 0.80 11 kwaliteit 0.71 0.79 0.76 0.77 0.89 0.81 0.54 0.79 12 publiceerbaarheid 0.56 0.80 0.60 0.79 0.76 0.83 0.29 0.81 Cronbachs α = 0.81 Cronbachs α = 0.81 Cronbach s α = 0.84 Cronbach s α = 0.81 * Item-test correlatie ** α test bij verwijdering item *** vet gedrukt: Rc<0.20

Resultaten - 19 - Geert Wissink 3.2.2 Spreiding van de afhankelijke variabelen Bij het bekijken van de gemiddelden valt op dat deze tussen de beide condities weinig uiteen lopen. De scores op de eerste en de derde afhankelijke variabele liggen rond het midden van de schaal (3), wat een neutrale mening over de stellingen inhoudt. Bij de tweede afhankelijke variabele over de publiceerbaarheid liggen de scores tussen afwijzen, aanmoedigen tot ingrijpende revisies (score 2) en accepteren met wijzigingen (score 3). Verder liggen de scores van de groep wetenschappers in beide condities lager. De scores voor de eigen waardering en de perceptie van het oordeel van anderen liggen weinig uit elkaar (zie tabel 3.6). Tabel 3-6 Gemiddelden en standaarddeviaties afhankelijke variabelen Niet-significant Significant Studenten (n=65) M SD M SD Waardering voor manuscript (gem. somscore item 1-11)* 3.24 0.47 3.36 0.36 Mate van publiceerbaarheid (item 12)** 2.66 0.79 2.79 0.55 Perceptie van het oordeel van anderen (gem. somscore item 1-11) * 3.30 0.38 3.38 0.38 Wetenschappers (n=33) M SD M SD Waardering voor manuscript (gem. somscore item 1-11) 2.93 0.54 3.02 0.59 Mate van publiceerbaarheid (item 12) 1.93 0.88 2.22 0.65 Perceptie van het oordeel van anderen (gem. somscore 3.03 0.57 3.00 0.55 item 1-11) * scores liggen tussen 1 (zeer oneens) en 5 (zeer eens) ** scores liggen tussen 1 (definitief afwijzen) en 4 (in deze vorm accepteren)

Enkele determinanten van peer review - 20 - december 2003 3.3 Hypothese 1: Effect van experimentele uitkomst op beoordeling De eerste hypothese van dit onderzoek is dat een manuscript met significante resultaten een hogere wetenschappelijke kwaliteit toegedicht zal krijgen dan een manuscript zonder significante resultaten. In tabel 3.7 staan de gemiddelden en standaarddeviaties van de drie afhankelijke variabelen. Voor beide groepen geldt dat de gemiddelden in de significante conditie hoger liggen dan in de niet-significante conditie (behalve voor de somscores van item 1-11 van de perceptievragenlijst bij de groep wetenschappers). Het verschil is over het algemeen echter klein en blijkt ook niet significant. Met een ANOVA (groep x conditie) gecorrigeerd voor geslacht zijn er geen significante verschillen gevonden binnen de groep studenten in waardering (F=1.97, p=0.17), en perceptie van waardering (F=0.68, p=0.41). Er is ook geen verschil gevonden binnen de groep wetenschappers in waardering (F=1.94, p=0.66) en perceptie van waardering (F=0.03, p=0.88). We vinden ook geen verschillen tussen de condities voor de items over publiceerbaarheid als we deze vergelijken met een chi-kwadraat toets (zie tabel 3.8). We kunnen stellen dat de manuscripten met niet-significante en significante resultaten niet anders zijn beoordeeld in beide groepen. Tabel 3-7 Gemiddelden, standaarddeviaties afhankelijke variabelen niet-significant significant item(s) Mean SD Mean SD studenten waardering gemiddelde somscore item 1-11 3.54 0.52 3.70 0.40 perceptie gemiddelde somscore item 1-11 (perceptie) 3.63 0.42 3.72 0.42 wetenschappers waardering gemiddelde somscore item 1-11 3.23 0.60 3.32 0.64 perceptie gemiddelde somscore item 1-11 3.34 0.62 3.30 0.61 Tabel 3-8 Chi-kwadraat toets item 11 en 26 Studenten (n=65) Value df Sig. (2-sided) Item 12 (publiceerbaarheid) 3.411 3 0.33 Item 26 (perceptie publiceerbaarheid) 5.86 3 0.12 Wetenschappers (n=33) Item 12 (publiceerbaarheid) 4.58 3 0.21 Item 26 (perceptie publiceerbaarheid) 0.662 2 0.72 * Significant bij α = 0.05

Resultaten - 21 - Geert Wissink 3.3.1 Verschil condities op itemniveau We vergelijken de verschillende groepen met elkaar met een MANOVA op alle items. Aangezien bij de studenten sexe scheef verdeeld is over de condities nemen we sexe voor deze groep mee als covariaat. We vinden geen verschillen binnen de items tussen de twee condities, zowel voor de groep studenten als de groep wetenschappers (ziet tabel 3.9). Item 4 (methoden 2) (F=2.61, p=0.08) en item 10 (algemeen: originaliteit) (F=2.40, p=0.10) bij de groep studenten en item 9 (algemeen schrijfstijl) (F=3.81, p=0.06) bij de groep wetenschappers vertonen een neiging tot verschil waarbij het significante manuscript beter wordt beoordeeld. Tabel 3-9 Multivariate Tests Groep x Conditie Effect Value F Hypothesis df Error df p-waarde Intercept Wilks' Lambda 0.05 40.00 27 61 0.00 Hotelling's Trace 17.71 40.00 27 61 0.00 E_SEXNUM Wilks' Lambda 0.72 0.89 27 61 0.62 Hotelling's Trace 0.39 0.89 27 61 0.62 CON_NUM Wilks' Lambda 0.70 0.98 27 61 0.51 Hotelling's Trace 0.43 0.98 27 61 0.51 GROEP Wilks' Lambda 0.49 2.35 27 61 0.00 Hotelling's Trace 1.04 2.35 27 61 0.00 CON_NUM * GROEP Wilks' Lambda 0.74 0.80 27 61 0.74 Hotelling's Trace 0.35 0.80 27 61 0.74 3.3.2 Verschil tussen groepen Er is met een MANOVA wel een verschil gevonden tussen de groepen (zie tabel 3.10) op alle drie de afhankelijke variabelen. Aangezien sexe scheef verdeeld is tussen de condities is deze meegenomen als covariaat. Op itemniveau zien we dat dit groepsverschil naar voren komt in de items 4 (methoden 2), 6 (resultaten 2) en item 11 (kwaliteit). Wat betreft de perceptie-items komt het verschil naar voren op de items 20 (perceptie, resultaten 2), 22 (perceptie, discussie 2), 25 (perceptie, kwaliteit) en 26 (perceptie, publiceerbaarheid). In alle gevallen beoordelen de wetenschappers de manuscripten negatiever dan de studenten. Tabel 3-10 Univariate verschillen tussen groepen variabele F a Studenten M (SD) Wetenschappers M (SD) Waardering voor manuscript (gem. somscore item 1-11) 8.89 0.00 3.29 (0.42) 2.98 (0.56) Mate van publiceerbaarheid (item 12) 16.32 0.00 2.72 (0.62) 2.09 (0.77) Perceptie van het oordeel van anderen (gem. somscore item 1-11) 10.74 0.00 3.34 (0.38) 3.02 (0.55) Item niveau 4 methoden 2 8.33 0.00 3.20 (1.00) 2.59 (1.01) 6 resultaten 2 5.75 0.02 3.83 (0.78) 3.33 (0.99) 11 kwaliteit 26.22 0.00 3.22 (0.72) 2.24 (0.83)