Pilot Data Reviews. peer-reviewed research data. Data Archiving and Networked Services (DANS) DANS Studies in Digital Archiving



Vergelijkbare documenten
Toelichting op de Algemene gebruiksvoorwaarden

Algemene gebruiksvoorwaarden

Geodata: registreren, ontsluiten, archiveren

De Praktijk: licenties van DANS. Heiko Tjalsma Beleidsmedewerker. Seminar Onderzoeksdata SurfAcademy 24 januari 2012

Citation for published version (APA): Verbakel, N. J. (2007). Het Chronische Vermoeidheidssyndroom, Fibromyalgie & Reuma.

Dataveiligheid bij DANS

BA 3 Pol PoWe_13-14_Leiden_BA_33_Pol_Part_Dem_Ennser-Jedenastik (6443PPD13) No. of responses = 14

ECHTE MANNEN ETEN GEEN KAAS PDF

Zorgen rondom IVF Boekaar, J.; Riemersma, M.

LONDEN MET 21 GEVARIEERDE STADSWANDELINGEN 480 PAGINAS WAARDEVOLE INFORMATIE RUIM 300 FOTOS KAARTEN EN PLATTEGRONDEN

Online survey ten behoeve van de Studiemiddag Digitale Duurzaamheid van Geodata

University of Groningen

Data-notitie DANS versie

Van 'gastarbeider' tot 'Nederlander' Prins, Karin Simone

Onderzoek naar Chinese bedrijven sinds 2007

Citation for published version (APA): Egberink, I. J-A. L. (2010). Applications of item response theory to non-cognitive data Groningen: s.n.

Citation for published version (APA): de Boer, H. (2009). Schoolsucces van Friese leerlingen in het voortgezet onderwijs. Groningen: s.n.

Understanding the role of health literacy in self-management and health behaviors among older adults Geboers, Bas

Mensen met een verstandelijke handicap en sexueel misbruik Kooij, D.G.

Karen J. Rosier - Brattinga. Eerste begeleider: dr. Arjan Bos Tweede begeleider: dr. Ellin Simon

SAMPLE 11 = + 11 = + + Exploring Combinations of Ten + + = = + + = + = = + = = 11. Step Up. Step Ahead

De Baseline Informatiebeveiliging En Kleine Gemeenten

Emotioneel Belastend Werk, Vitaliteit en de Mogelijkheid tot Leren: The Manager as a Resource.

Goede zorg voor onderzoeksdata, goede data voor zorgonderzoek: de DMP-checklist van ZonMw

Enquête Dienstverlening in het stadhuis

Geslacht, Emotionele Ontrouw en Seksdrive. Gender, Emotional Infidelity and Sex Drive

Verplichting kwaliteitmanagement is prima, maar wel een kostbare zaak!

Rapportage cliëntervaringsonderzoek WMO Gemeente Aalburg

ICARUS Illumina E653BK on Windows 8 (upgraded) how to install USB drivers

Tevredenheidsonderzoek Dienst inburgeren Studiecentrum Talen Eindhoven bv

een kopie van je paspoort, een kopie van je diploma voortgezet onderwijs (hoogst genoten opleiding), twee pasfoto s, naam op de achterkant

BIJBEL IN GEWONE TAAL PDF

University of Groningen. Stormy clouds in seventh heaven Meijer, Judith Linda

Bouwen op een gemeenschappelijk verleden aan een succesvolle toekomst Welling, Derk Theodoor

RECEPTEERKUNDE: PRODUCTZORG EN BEREIDING VAN GENEESMIDDELEN (DUTCH EDITION) FROM BOHN STAFLEU VAN LOGHUM

Rapportage tevredenheidsonderzoek onder cliënten en opdrachtgevers van. InterLuceo

NARCIS in internationale context: OpenAIRE

Ius Commune Training Programme Amsterdam Masterclass 15 June 2018

Ius Commune Training Programme Amsterdam Masterclass 16 June 2016

University of Groningen. Vrije en reguliere scholen vergeleken Steenbergen, Hilligje

University of Groningen

TAAL ACTIEF GROEP 8 SPELLING 2 PDF

Get Instant Access to ebook Nbg Vertaling PDF at Our Huge Library NBG VERTALING PDF. ==> Download: NBG VERTALING PDF

Online Resource 1. Title: Implementing the flipped classroom: An exploration of study behaviour and student performance

Vragen gesteld in het evaluatieformulier + Antwoorden

Tevredenheid over Dynamo

Anymeta training Advanced User Module

De grondbeginselen der Nederlandsche spelling / Regeling der spelling voor het woordenboek der Nederlandsche taal (Dutch Edition)

NMOZTMKUDLVDKECVLKBVESBKHWIDKPDF-WWUS Page File Size 9,952 KB 29 May, 2016

Coronary heart disease from a psychosocial perspective Skodova, Zuzana

Wat is de Modererende Rol van Consciëntieusheid, Extraversie en Neuroticisme op de Relatie tussen Depressieve Symptomen en Overeten?

Evaluatieverslag / Evaluation Report Human Library Bergen

Tevredenheidsonderzoek Dienst inburgeren Universiteit van Amsterdam, INTT

Expertise seminar SURFfederatie and Identity Management

Klanttevredenheidsonderzoek afdeling Sociale Zaken Westerveld?

Pure-coördinatoren bijeenkomst

Nieuws en informatie over de gemeente

Toelichting op de licentieovereenkomst van DANS

Procesevaluatie van het Navigator project Jager, John Mike

Uw mening over gaswinning uit het Groningen-gasveld: Onderzoeksresultaten fase 2 Hoekstra, Elisabeth; Perlaviciute, Goda; Steg, Emmalina

Stappenplan ONLINE OUDERTEVREDENHEIDSPEILING

De Relatie Tussen de Gehanteerde Copingstijl en Pesten op het Werk. The Relation Between the Used Coping Style and Bullying at Work.

Welke factoren beïnvloeden het gezamenlijk leren door leraren? Een systematische literatuurreview Thurlings, M.C.G.; den Brok, P.J.

University of Groningen. Eerste Hulp vaker ter plaatse Verhage, Vera

Ben jij klaar voor RDM-ondersteuning?

University of Groningen. Quantitative CT myocardial perfusion Pelgrim, Gert

Openingstijden Stadswinkels 2008

Citation for published version (APA): Scheepstra, A. J. M. (1998). Leerlingen met Downs syndroom in de basisschool Groningen: s.n.

University of Groningen. Inferior or superior Carmona Rodriguez, Carmen

Evaluatieverslag / Evaluation Report Human Library Castricum

Samenvatting en rapportage Klanttevredenheidsonderzoek PPF 2011/2012

University of Groningen. Symptoms of Distress and Imbalance in Children Nijboer, J.M.

Burgerpanel Horst aan de Maas - Meting 3

Installatie ArcGIS Desktop Basis, ArcGIS Engine en Download ArcGIS Server

De Relatie tussen Lichamelijke Gezondheid, Veerkracht en Subjectief. Welbevinden bij Inwoners van Serviceflats

ALL-CRM Gebruikershandleiding AC-DataCumulator

Opvoeding op school en in het gezin. Onderzoek naar de samenhang tussen opvoeding en de houding van jongeren ten opzichte van sociale grenzen

Clixmaster Studio R3.7. Wat is nieuw in Clixmaster Studio? Release notes R3.7 Support 1/3

Lamotrigine in bipolar depression Loos, Marcus Lambertus Maria van der

Laat maar zitten Janssen, Janine Hubertina Lambertha Joseph

Ius Commune Training Programme Amsterdam Masterclass 22 June 2017

Tilburg University. Energiebesparing door gedragsverandering van Raaij, Fred; Verhallen, T.M.M. Published in: Psychologie. Publication date: 1982

UvA-DARE (Digital Academic Repository)

De betrouwbaarheid van kleinschalige methoden voor waterzuivering Kaaij, Rachel van der

Multiple sclerose Zwanikken, Cornelis Petrus

Resultaat tevredenheidsonderzoek externe relaties Odion

Zit de online burger wel online op u te wachten? Door: David Kok

Tevredenheidsonderzoek Jobcoach organisatie Trace Daelzicht

Toetsen in Blackboard

Citation for published version (APA): Crane, L. M. A. (2011). Intraoperative fluorescence imaging in cancer Groningen: s.n.

Tilburg University. Hoe psychologisch is marktonderzoek? Verhallen, T.M.M.; Poiesz, Theo. Published in: De Psycholoog. Publication date: 1988

JOB OPENING OPS ENGINEER

Emotionele Arbeid, de Dutch Questionnaire on Emotional Labor en. Bevlogenheid

Samen data delen. Samenvatting strategienota DANS

Quantitative STIR MRI as prognostic imaging biomarker for nerve regeneration Viddeleer, Alain

University of Groningen. Up2U Harder, Annemiek T.; Eenshuistra, Annika

ANGSTSTOORNISSEN EN HYPOCHONDRIE: DIAGNOSTIEK EN BEHANDELING (DUTCH EDITION) FROM BOHN STAFLEU VAN LOGHUM

University of Groningen

MyDHL+ Van Non-Corporate naar Corporate

Understanding and being understood begins with speaking Dutch

Transcriptie:

Pilot Data Reviews peer-reviewed research data Data Archiving and Networked Services (DANS) DANS Studies in Digital Archiving 5

2011 Data Archiving and Networked Services (DANS) Sommige rechten zijn voorbehouden / Some rights reserved Voor deze uitgave zijn gebruiksrechten van toepassing zoals vastgelegd in de Creative Commons licentie. [Naamsvermelding 3.0 Nederland]. Voor de volledige tekst van deze licentie zie http://www.creativecommons.org/licenses/by/3.0/nl/ ISBN: 978-94-90531-07-2 Data Archiving and Networked Services (DANS) Postbus 93067 2509 AB The Hague T 070 3446 484 F 070 3446 482 info@dans.knaw.nl www.dans.knaw.nl Redactie: M. Grootveld, J. van Egmond en B. Sørensen Vormgeving en druk: vijfkeerblauw, Rijswijk Jeff van Egmond en Marjan Grootveld (c) DANS, juni 2011 2

1 Aanleiding 1. Aanleiding Het reviewen van data is een oude wens van de directeur van DANS. Deze latente wens werd acuut na gesprekken met SURFfoundation over datakwaliteit. Zoals de kwaliteitsbewaking van wetenschappelijke publicaties plaats vindt door peer review, zo zouden ook datasets gereviewd kunnen worden. Reviews kunnen ook aanleiding geven tot verdere discussie over datasets, en zo bijdragen aan de vorming van communities van onderzoekers rond datacollecties. Natuurlijk gaat het reviewen van data anders dan het reviewen van boeken of artikelen. Alleen al het feit dat het online moet gebeuren, beïnvloedt de wijze van het reviewen van datasets. Dataset reviews lijken meer op gebruikersreviews van producten zoals digitale camera s of van hotels. De hotelreviews van Booking.com zijn een goed voorbeeld van hoe reviews ingezet kunnen worden. Sinds eind 2010 wordt een pilot uitgevoerd onder afnemers van datasets uit het online archiverings systeem EASY: een groeiende groep afnemers kreeg het verzoek om een door hen gedownloade dataset te beoordelen. Dit rapport beschrijft de opzet van de pilot, de uitkomsten en aanbevelingen. Rond die tijd is overigens ook de rapportage verschenen van een veel breder opgezet onderzoek naar datakwaliteit in opdracht van SURFfoundation1. Dit bevat de aanbeveling om te stimuleren dat afnemers ( hergebruikers ) commentaar over kwaliteit toevoegen aan datasets. 1. van der Graaf en L. Waaijers: Over kwaliteit van onderzoeksdata. M Stichting SURF, december 2010. Te vinden op http://www.surffoundation.nl/nl/ publicaties/pages/verkennendonderzoek.aspx In een enquête onder bijna 400 universitaire hoogleraren en universitaire hoofddocenten uit verschillende disciplines zijn negen mogelijke kwaliteitstoetsen voorgelegd, zoals peer review van datasets, trainingen inzake datamanagement en het becommentariëren van de datasets door hergebruikers. Deze laatste optie bleek in alle disciplines een van de drie populairste opties. 1

2 Opzet van de pilot 2. Opzet van de pilot Hoewel het bij gebruikers-reviews gebruikelijk is om kort na afname van het product de klant om een beoordeling te vragen, hebben we voor de pilot ervoor gekozen om dit met terugwerkende kracht over een langere periode te doen. Dit levert in korte tijd meer beoordelingen op; dat is niet alleen leerzaam, maar ook wenselijk voor het tonen ervan op de website, bij de datasets in kwestie. 2.1. Survey We hebben gekozen voor een online-survey met SurveyMonkey2, omdat dit het best aansluit bij de beoogde manier om de beoordelingen te vergaren. Afnemers ontvingen een e-mail met, in de algemene tekst, de naam van de betreffende dataset en een unieke link naar de survey. Achter de schermen is de link gelegd tussen de individuele afnemer, de specifieke dataset en de unieke surveylink. Zo is duidelijk op welke dataset bepaalde beoordelingen betrekking hebben. Afnemers konden kiezen tussen een Nederlandse en een Engelse versie. De vragen waren in SurveyMonkey gerubriceerd naar website, dataset en onderzoek. Deel 3 van dit rapport benoemt alle vragen en de verkregen antwoorden of scores waarbij we de talen combineren. 2.2. Presentatie van resultaten Na het sluiten van de survey is een deel van de uitkomsten gepubliceerd in EASY, en wel bij de betreffende dataset. Op dit moment zijn per e-mail ook degenen geïnformeerd die deze datasets oorspronkelijk in EASY hebben gedeponeerd, zodat zij kunnen zien welke beoordelingen anderen aan hun dataset geven. 1 2 http://www.surveymonkey.com/

2.3. Respondenten en responses In twee rondes (december 2010 en mei 2011) zijn mensen aangeschreven die tussen oktober 2009 en april 2011 datasets uit EASY hebben gedownload. Afnemers die in de genoemde periode meer dan één dataset hebben gedownload, hebben meer beoordelingsverzoeken ontvangen (maximaal drie). In totaal heeft DANS 1937 e-mails verstuurd. Uiteindelijk, na een herinnering per e-mail, hebben 279 personen datasets beoordeeld; 210 van hen hebben de survey afgemaakt. Afbeelding 1 In EASY wordt verwezen naar de beschikbare reviews 3

3 Uitkomsten 3. Uitkomsten 3.1. Overkoepelende percentages 279 personen hebben de survey geheel of gedeeltelijk ingevuld: 57% is onderzoeker, 7,5% student, 5% beleidsmedewerker en 31% vervult een andere functie, zoals archeoloog of docent. Dit is een respons van 14,4%. Bij de geaggregeerde scores hierna staat op hoeveel antwoorden ze gebaseerd zijn3. 100 % van de gesloten (score-)vragen is beantwoord, doordat de opzet van de survey een antwoord afdwong. Voor de s corevragen hebben we een vijfpuntsschaal gebruikt, plus de mogelijkheid om niet van toepassing te kiezen. Inhoudelijk bevatte de survey verschillende soorten open vragen: vragen waar in principe iedereen iets zou kunnen invullen, bijvoorbeeld de vraag naar trefwoorden. De vraag naar de reden om de dataset te downloaden is duidelijk vaker beantwoord (85%) dan de overige open vragen (tussen 21% en 54%). vragen van het type waarom niet?, dat wil zeggen, vervolgvragen die slechts werden voorgelegd aan een deel van de respondenten. Binnen deze subgroepen was de respons erg hoog (84% tot 100%). Hierna geven we per vraag voorbeelden van antwoorden; de bijlage bevat nog meer antwoorden. Wanneer we de relevantie van de antwoorden op open vragen als maatstaf voor kwaliteit nemen, mogen we stellen dat de kwaliteit van de antwoorden hoog is. 3 4 Indien in SurveyMonkey onduidelijk is hoeveel respondenten een vraag voorgelegd hebben gekregen tussen 279 en 210 berekenen we percentages op basis van 210. Verder tellen we bij de open vragen antwoorden zoals n.v.t. niet mee.

3.2. Datasets Gestelde vraag: Dataset refers to the data files that together constitute one study, even if you may have downloaded just a single file. How would you judge the downloaded data on the following aspects? Afbeelding 2 toont hoe vaak de verschillende scores zijn gegeven. Aggregated scores for dataset aspects Aspect Very good (5) Good (4) Neither good nor bad (3) Insufficient (2) Bad (1) N/A (0) Average rating N = Data quality 57 144 1 0 18 4,14 documentation 52 138 27 9 1 17 4,02 227 Completeness of the data 53 126 33 7 0 25 4,03 219 31 92 30 2 0 89 3,98 155 30 99 30 6 0 79 3,93 165 129 19 11 4 20 4,04 224 24 226 Quality of the Consistency of the dataset (if applicable) Structure of the dataset (if applicable) Usefulness of the file formats 61 Afbeelding 2 Geaggregeerde scores voor dataset-aspecten Wanneer we bij deze vraag de gemiddelde scores van de onderzoekers vergelijken met die van de gezamenlijke respondenten, blijken de onderzoekers vaak iets positiever: 5

4,25 4,20 4,15 4,10 4,05 4,00 3,95 3,90 3,85 s fo rm e fil so ft U se fu ln es uc tu re St r he he of t he of t nc y te Co ns is researchers (N=120) at (if as da t as da t he so ft ne s et (if et da t a tio n en ta te pl e Co m Q ua l ity of t he D at do cu m a qu al ity 3,80 all respondents (N=244) Afbeelding 4 Gemiddelde datasetscores van onderzoekers en allen Gestelde vraag: Which keywords would you assign to the downloaded dataset such that it is found more easily by other researchers? 51% van de respondenten heeft gemiddeld 2,9 trefwoorden ingevuld; het merendeel is van inhoudelijke aard en daarmee in principe informatief voor andere onderzoekers. Waardeoordelen zijn nauwelijks gegeven. Bij deze vraag werd gevraagd de trefwoorden te scheiden door komma s. Dat dit niet altijd duidelijk is gebeurd (sommige lange trefwoorden zijn open voor meerdere uitleg en wonen verhuizen woonwensen lijkt toch echt een opsomming van drie trefwoorden), vertekent de resultaten enigszins. Wat opvalt is dat verreweg de meeste trefwoorden slechts eenmaal zijn ingevoerd. Sommige daarvan lijken echter veel op elkaar, zoals steentijd en steentijden. 6

Gestelde vraag: What do you like about the dataset? 53% van de respondenten heeft deze vraag beantwoord. Een samenvatting is niet te geven, omdat de datasets varieerden. Enkele voorbeelden van antwoorden zijn: het longitudinale aspect; goed gescand, goede metadatabeschrijving erbij; PDF formaat is altijd makkelijk omdat daar een goede zoekfunctie in het document zit. Gestelde vraag: In using the dataset, what aspects if any are you not satisfied with? 52 personen (bijna 25%) hebben deze vraag beantwoord. Enkele antwoorden: Omdat sommige vragen niet altijd gesteld worden; met name de policy position van alle partijen op alle issues zou altijd gevraagd moeten worden. Geen Engelstalige documentatie; Het zou prettiger zijn als het bestand niet was opgesplitst in 2 periodes, maar het is al geweldig dat dit geheel ontsloten is. Gestelde vraag: Would you recommend this dataset to other researchers? 91% van de respondenten heeft deze vraag bevestigend beantwoord. Dit is een erg fraaie score. 7

3.3. Website EASY Gestelde vraag: How would you judge the following aspects of the EASY website...? toont hoe vaak de verschillende scores zijn gegeven. Aggregated number of reviews of the website Aspect Very good (5) Good (4) Neither good nor bad (3) Insufficient (2) Bad (1) Clarity 28 133 52 14 1 1 3,76 N/A (0) 228 Information about the data 31 160 28 9 0 1 3,93 228 Finding the data 25 110 58 32 3 1 3,54 228 Availability of the data 40 139 35 11 3 1 3,89 228 Afbeelding 5 Geaggregeerde beoordelingen van de website Bij alle vier de onderdelen is de groep goed -zeggers het grootst. Het onderdeel Het vinden van data krijgt verhoudingsgewijs de meeste lage scores (onvoldoende of slecht). De scores voor de website-aspecten liggen iets lager dan de scores voor de datasets (zie Afbeelding 2). Opnieuw zijn de onderzoekers gemiddeld iets positiever dan de gehele populatie, maar het verschil is kleiner dan bij de kwaliteit van de datasets. Gestelde vraag: Do you have comments on the website or suggestions for improvement? 44 personen hebben deze vraag beantwoord. Een behoorlijk deel van de antwoorden betreft de zoekfunctionaliteit en metadata in EASY; deels hiermee samenvallend heeft ook een behoorlijk deel betrekking op archeologische datasets. Een aantal voorbeelden: Google zoekmachine aanbieden i.p.v. zelfgemaakte zoekmachine. Wat er nu zit werkt redelijk tot goed, maar de Google engine is sneller en werkt toch wat beter. Het kost me net wat te lang om de NKO data te vinden. Zoekfunctie werkt matig. 8 Average rating N =

Aan het eind van de survey hebben we gevraagd welke informatie we in EASY over de respondent mogen vermelden bij de beoordeling van de betreffende dataset. Enerzijds is dat de functie, zoals onderzoeker (57%) of student (8%). Anderzijds zijn dat naam en organisatie van de betrokkene. 55% van de respondenten wil anoniem blijven; de anderen gaan ermee akkoord als de gegevens waarmee ze zich bij EASY hebben geregistreerd hier zichtbaar zijn. 3.4. Onderzoek Gestelde vraag: What was the most important reason for downloading this dataset? 178 personen hebben deze vraag beantwoord. Vervolgens hebben we zelf de antwoorden gerubriceerd als voor onderzoek (113 maal), uit interesse (19 maal), voor studie of onderwijs (12) en overig (34). Enkele voorbeelden: GIS onderzoek naar verkiezingsresultaten populistische partijen; Document geeft opgravingsverslag van een project in mijn woonplaats; Scriptieonderzoek; My library does not have the relevant papers. Gestelde vraag: Was the dataset helpful in answering your research questions? 69% van de respondenten heeft deze vraag bevestigend beantwoord, 10,2% ontkennend. ( niet van toepassing werd aangeboden voor respondenten met een ander doel dan onderzoek.) De ontkennende groep kreeg vervolgens de multiplechoicevraag gepresenteerd Zo nee, waarom niet?. Antwoorden hierop waren the contents of the dataset are not what I expected (43%), not relevant enough (38%), en not up-todate enough (5%). De vrije antwoorden waren: ontoegankelijk; niet gedetailleerd genoeg voor wat ik zocht; 9

pure nieuwsgierigheid. Het is duidelijk dat gebrek aan actualiteit van de data niet aan de orde is. Gestelde vraag: Have you used the dataset for a publication? 16% van 200 personen heeft deze vraag bevestigend beantwoord. In totaal hebben we referenties ontvangen van 11 verschenen en 5 te verschijnen publicaties. 58% van de respondenten is bovendien van plan om alsnog of nogmaals te publiceren met gebruikmaking van de dataset. 10

4 Conclusies en aanbevelingen 4. Conclusies en aanbevelingen 4.1. Samenvatting en conclusies De respons op ons verzoek tot data reviewing is 14,4%. Als we dit beperken tot de 210 mensen die de survey helemaal hebben ingevuld, ligt het responspercentage bij 10,8%. De gemiddelde scores voor de bevraagde aspecten van de datasets liggen rondom de 4 op een schaal van 1 tot 5, met kwaliteit van de data op de eerste plaats (4,14). Dat is iets om blij mee te zijn. Bij de onderzoekers (57% van de respondenten) liggen de meeste gemiddelden nog een fractie hoger. Maar liefst 91% van de respondenten zou de dataset aan anderen aanbevelen, wat een krachtige indruk geeft van de kwaliteit van de datasets. Datasets worden in 64% van de gevallen gedownload voor onderzoek. In bijna 70% van de gevallen helpt de dataset om de onderzoeksvragen te beantwoorden; een dataset die afwijkt van de verwachtingen en gebrek aan relevantie zijn de voornaamste oorzaken wanneer de dataset hier niet aan bijdraagt. 16% van de respondenten heeft de dataset al gebruikt voor publicaties, terwijl ruim de helft (58%) van plan is om dit alsnog of nogmaals te doen. De datasetscores liggen enigszins boven de scores voor de website. In deze rubriek staat het aspect informatie over data (3,91) bovenaan, terwijl het vinden van data relatief laag wordt gewaardeerd met 3,44. Dit laatste cijfer komt overeen met het grote aandeel opmerkingen over de zoekfunctionaliteit van EASY; dit is duidelijk een terrein waar onze afnemers wensen hebben. De voorbeelden die respondenten geven in de open vragen wijzen op een hoge mate van betrokkenheid: men neemt de datasets, het reviewen van datasets en EASY serieus. Het aantal respondenten dat tags (trefwoorden) heeft toegekend, ligt op 51%. Opmerkelijk is dat de tweede surveyronde (in 2011) verhoudingsgewijs meer tags heeft opgeleverd dan de eerste. 11

4.2. Overwegingen en voornemens DANS is van plan om een continue vorm van datareviewing door afnemers van datasets in te voeren. Zowel de medewerking aan de pilot als het hiervoor genoemde onderzoek van SURFfoundation wijzen in die richting. Deze toekomstige functionaliteit van EASY kan deels profiteren van materiaal uit de pilot en moet deels verder worden ontworpen. Proces Een goede mogelijkheid lijkt om, net als bij een hotelboeking, een week na het downloaden van een dataset de afnemer een online reviewformulier te sturen. Bij automatisering hiervan is het essentieel dat er een link wordt gelegd tussen de dataset en de afnemer, om de scores bij de juiste dataset te kunnen presenteren. Ook het automatisch attenderen van depositors op reviews van hun datasets valt te overwegen. Het is overigens niet de bedoeling dat beoordelingen automatisch in EASY verschijnen. Het is beter om een terugkerende redactionele taak in te voeren voor het controleren van beoordelingen. In de pilot hebben we geen ongepaste uitingen gezien, maar bijvoorbeeld wel trefwoorden die feitelijk suggesties zijn voor metadatavelden, zoals plaatsnaam. Vragenlijst Het is praktisch om de bestaande vragenlijst constant te houden, al is het niet wenselijk om frequente downloaders telkens de EASYwebsite te laten beoordelen. De vraag naar publicaties op basis van de dataset vervalt wanneer de vragenlijst kort na het downloaden wordt verstuurd. Met ingang van de tweede ronde is de survey in het Nederlands en in het Engels beschikbaar. Het is nog de vraag of ook de presentatie van beoordelingen en dergelijke tweetalig zou moeten zijn. 12

Koppeling aan EASY en presentatie van reviews In de pilot is de beoordeling van een dataset toegankelijk gemaakt via het metadataveld Relation (zie Afbeelding 1). De presentatie van de beoordelingen is zelf geen onderwerp van de data review geweest, dus we weten niet hoe toegankelijk en informatief gebruikers dit vinden. Afbeelding 5 Een voorbeeld van de resultaten van de datareviews Het verschil tussen open en restricted access hebben we in de pilot genegeerd. DANS is van plan om ook reviews van datasets met restricted access algemeen zichtbaar te maken, zelfs voor bezoekers die niet zijn ingelogd. Dan zijn ze namelijk maximaal informatief voor geïnteresseerden. Reviews tonen we pas als de betreffende dataset minstens tweemaal is beoordeeld. Het is onduidelijk wat het meest wervend is: überhaupt een score tonen, of pas als die een solide basis heeft, of zelfs pas als een solide aantal datasets een solide scoringsbasis heeft. Het aantal scores waarop het gemiddelde is gebaseerd is in elk geval belangrijke informatie voor geïnteresseerden. 13

Diverse websites presenteren tag clouds als navigatie-instrument. Dat is ook voor EASY een overweging, mits er een voldoende representatieve tagverzameling is gegroeid. Voor representativiteit zal het nodig zijn de afzonderlijk toegekende trefwoorden te aggrereren, bijvoorbeeld door spellingvariatie te beperken. Het consolidatieproces van een tagverzameling is bovendien te bevorderen door automatisch tagsuggesties aan te bieden, zodat gebruikers tags niet zelf hoeven bedenken en intypen. 14

Bijlage: enkele antwoorden op open vragen Bijlage: enkele antwoorden op open vragen Deze bijlage geeft een indruk van de antwoorden op de open vragen. Gestelde vraag: What do you like about the dataset? Hoge kwaliteit data bijzonder compleet uitgebreide gegevens over wonen Het is gewoon een erg interessante, diepgravende en uitputtende dataset voor het onderzoeksgebied en de periodes. Goed gescand, goede metadatabeschrijving Hoeveelheid historische data, bruikbaar formaat veel documentatie erbij compleet; volledig definitief rapport Makkelijk op te vragen uitgebreid, diverse thema s Gestelde vraag In using the dataset, what aspects if any are you not satisfied with? Naamgeving Het online analyseren vind ik niet prettig Alleen shapefile formaat. Provincies alleen in stappen van 10 jaren. De reden en het verschil van de verschillende versies zijn niet duidelijk iets meer economische kenmerken (over werk en werklocatie) van onderzoeksgroep zou handig zijn Geen Engelstalige documentatie Het zou prettiger zijn als het bestand niet was opgesplitst in 2 periodes (1958-1990 en 1991-2004), maar het is al geweldig dat dit geheel ontsloten is. 15

Gestelde vraag: What was the most important reason for downloading this dataset? Interesse in alles wat met prehistorische archeologie te maken heeft. nieuwsgierigheid kijken of het nuttig is deze te koppelen aan eigen data sets GIS onderzoek naar verkiezingsresultaten populistische partijen Ik wilde gegevens van mijn eigen respondenten kunnen vergelijken met een nationale steekproef Promotieonderzoek, scriptieonderwerpen voor studenten controle/vergelijking Om de data ook digitaal te hebben Gestelde vraag: Which keywords would you assign to the downloaded dataset such that it is found more easily by other researchers? Dataset: De steentijd van Nederland Raw tags: archeologie, culturen, geologie, mesolithicum, nederland, neolithicum, overzicht, paleolithicum, prehistorie (2x), regionaal, steentijd (2x), steentijden Dataset: WoON2009: release 1.2 - Woononderzoek Nederland Raw tags: energieverbruik, hypotheken, ouderen, wonen (2x), wonen verhuizen woonwensen, woningbehoefte onderzoek, woningen, woon (2x), woonlasten, woonwensen 16

17

Sinds eind 2010 voert DANS een pilotonderzoek uit om het reviewen van onderzoeksdata te stimuleren. Bijna 300 mensen hebben de kwaliteit beoordeeld van de dataset(s) die zij uit het EASYarchief hadden gedownload. Ruim 90% van de respondenten zou de dataset aan anderen aanbevelen. De gemiddelde scores voor verschillende aspecten zoals kwaliteit van data en documentatie en structurering binnen de dataset liggen rond de 4 op een schaal van 1 tot 5; kwaliteit van de data staat bovenaan met 4,14. Data Archiving and Networked Services (DANS) bevordert duurzame toegang tot digitale onderzoeksgegevens. Hiertoe stimuleert DANS dat wetenschappelijke onderzoekers gegevens duurzaam archiveren en hergebruiken, bijvoorbeeld via het online archiveringssysteem EASY. Tevens biedt DANS met Narcis.nl toegang tot duizenden wetenschappelijke datasets, e-publicaties en andere onderzoeksinformatie in Nederland. Daarnaast verzorgt het instituut training en advies en doet het onderzoek naar duurzame toegang tot digitale informatie. Gedreven door data zorgt DANS er met zijn dienstverlening en deelname in (inter)nationale projecten en netwerken voor dat de toegang tot digitale onderzoeksgegevens verder verbetert. Kijk op www.dans.knaw.nl voor meer informatie en contactgegevens. DANS is een instituut van KNAW en NWO.