Verslag derde bijeenkomst van de LCRDM Werkgroep Faciliteiten en Datainfrastructuur, 19 september 2016, SURF Utrecht, 11.00 16.00 uur Aanwezig: Peter Doorn (DANS, voorzitter), Paul Hofman (TUE, voorzitter), Ingeborg Verheul (LCRDM, notulen), Arnoud van der Maas (RUMC), Eric Balster (CentERdata), Joost van der Nat (NCDD), Taco de Bruin (NIOZ), Joyce Nijkamp (UvA), Ed Simons (RU), Axel Berg (SURFsara), Laurents Sesink (UBL), Boudewijn van den Berg (LCRDM, notulen), Jeroen Roodhart (UvA), Renze Brandsma (UBA/HvA). Afwezig (alfabetisch): Sebastiaan Derks (Huygens ING), Gertjan Filarski (Huygens ING), Erik Flikkenschild (LUMC), Rob van Nieuwpoort (escience Center), Ariaan Siezen (RU), Jeff Templon (NIKHEF), Haije Wind (RUG). Agenda 1. Welkom door de voorzitter, wijzigingen samenstelling werkgroep 2. Vaststelling concept-agenda (document) 3. Vaststelling concept-verslag Tweede bijeenkomst, 30 mei 2016 (document) 4. Presentatie van de subwerkgroepen (activiteiten, plannen, wensen) a) Joyce Nijkamp en Arnoud van der Maas, architectuur b) Laurents Sesink, dienstencatalogus c) Plenaire discussie d) Goedkeuring en definitief besluit door de groep e) Verdere taakverdeling t.b.v. voortgang 5. Vaststelling Werkagenda van de Werkgroep (document) a) focus b) op te pakken onderwerpen Lunch 6. Werksessie subgroepjes (mits uit agendapunt 4e concrete onderwerpen voortvloeien) 7. Plenaire terugkoppeling (mits de werksessie gehouden wordt) 8. Wat verder ter tafel komt 9. Volgende vergaderdata Verslag 1. Welkom door de voorzitter, wijzigingen samenstelling werkgroep Paul Hofman zit de vergadering voor en heet de aanwezigen welkom, in het bijzonder hen die vandaag voor het eerst aanwezig zijn. Co-voorzitter en dito trekker Marnix van Berchum heeft DANS verlaten en daarmee ook de WG, hij richt zich nu onder meer op zijn promotie. Peter Doorn van DANS neemt zijn rol over. Peter Doorn stelt zich voor, evenals de WG-leden die nog niet eerder de gelegenheid hebben gehad zich voor te stellen: Eric Balster (CentERdata), Ed Simons (RU) en Axel Berg (SURFsara). Peter Doorn benadrukt het streven van DANS het dienstenaanbod nog beter te laten aansluiten bij de universiteiten, Eric Balster benadrukt het alsmaar toenemende belang van de opslag van onderzoeksdata, Ed Simons benadrukt het belang van vindbaarheid en onderlinge koppelingen van data en producten zoals publicaties. Bij de RU zijn CRIS en data-toegang goed met elkaar verbonden. Axel Berg benadrukt dat hij niet aanwezig is als SURF-programmamanager Duurzame Data, maar als SURFsara CTO voor technologie en innovatie en EUDAT-betrokkene. Hij benadrukt het belang van een gemeenschappelijke taal wat betreft architectuur. Tevens licht Berg de European Science Cloud pilot toe, waarin SURFsara en DANS samenwerken. De verwachting is dat het project doorgaat. Het betreft een oproep van het DG Research Open Science van de EU omtrent de inrichting van een open science cloud. De hoofdpunten die hierbij een rol 1
spelen zijn governance (toegang, financiering, business model), policy (FAIR data bijvoorbeeld) en diensten (niet zozeer de levering van diensten maar hoe maak je aan onderzoekers duidelijk welke diensten er in Europa beschikbaar zijn). Concrete use cases moeten laten zien wat de waarde van een European Science Cloud is en welke kwesties dringend opgelost moeten worden. 2. Vaststelling concept-agenda De concept-agenda wordt vastgesteld. De agenda na de lunch kan desgewenst anders ingevuld, net waar de behoefte op dat moment ligt. 3. Vaststelling concept-verslag Tweede bijeenkomst, 30 mei 2016 Taco de Bruin heeft naar aanleiding van het verslag enkele punten, maar deze komen aan de orde bij de presentaties. Het verslag van de Tweede bijeenkomst van de Werkgroep wordt vastgesteld zonder wijzigingen. 4. Presentatie van de subwerkgroepen (activiteiten, plannen, wensen) a) Joyce Nijkamp en Arnoud van der Maas, architectuur Arnoud van der Maas en Joyce Nijkamp presenteren enkele slides en houden een betoog om organisatie-aspecten in de architectuur mee te laten nemen. De achtergrond daarvan is de ervaring bij het Radboud UMC waar waarborging van de veiligheid van data voorop staat. Toegang tot (bepaalde) data is er (fysiek) alleen in bepaalde ruimtes. Immers, veilig opslaan is één, veilige transacties is een minstens zo belangrijke tweede. Wat betreft dat laatste (en wat betreft digitale data): alleen in een virtuele ruimte waarvoor een onderzoeker zich moet aanmelden is bij te houden wie wat met de data doet en het transport van data is alleen naar zo n virtuele ruimte goed te beveiligen. Samen met Laurents Sesink is gekeken naar de Leidse DoDo als basis voor standaarden. In de DoDo worden datamanagementtools geclassificeerd waarbij onder meer de FAIR principes worden betrokken. Daarnaast is er echter altijd nog het onderzoeksproces zelf en de organisatie van het onderzoek. Heeft dit invloed op de compliance? Het voorstel is dat in de op te stellen generieke architectuur ook de organisatie van onderzoek betrokken wordt, zodat wordt voorkomen dat bepaalde praktische uitwerkingen van FAIR en veilig databeheer onmogelijk of onnodig duur worden. Virtuele ruimtes spelen een wezenlijke rol, waarvoor met leveranciers van data-gerelateerde diensten algemenere afspraken gemaakt worden zodat niet per instelling per onderzoek per leverancier per keer aparte interfaces ontworpen hoeven worden. De kwestie is in hoeverre de onderzoeksinstelling een FAIRe en veilige omgang met data wil sturen tijdens het faciliteren van het gebruik (en de productie) van data en in welke mate de onderzoeker zelf moet zorgen voor het naleven van wetten en voorschriften wat data, datagebruik en traceability betreft. Indien het belang van een tools- en dienstenaanbod waarin veilige omgang met data reeds is verwerkt eenmaal ingezien wordt, zouden de instellingen vervolgens gezamenlijk moeten optrekken bij de ontwikkeling van dit aanbod. Het pleidooi is dat de WG de organisatie van de omgang met data nu al meeneemt in de architectuurvoorstellen. Het betoog roept onder meer de vraag op of het nodig is om een typologie op te stellen die de (bestaande) samenwerkingen tussen onderzoekers beschrijft - per discipline en in termen van geografie/localiteit en mate van sharing. De subwerkgroep beoogt echter eerst puur een vaststelling van de dimensies die in de architectuur meegenomen zouden moeten worden, de dimensies samenstelling (van de teams van onderzoekers), locatie en risicoprofiel van de data. Daarbij moeten ook workspaces tot RDM gerekend worden. Onderzoeksorganisatie stelt immers eisen aan de ICTondersteuning die solution building blocks aanbiedt en zonder duidelijke eisen zijn oplossingen en diensten niet efficiënt te ontwerpen en in te richten. In de groep wordt opgemerkt dat sommige 2
disciplines vaste workflows kennen. De vraag is dan of deze workflows door governance worden bepaald of niet. Ook wordt gesteld dat er ruimte moet blijven om onderzoek traditioneel of hybride in te richten, in de zin van dat de onderzoeker zelf moet/mag bepalen hoe FAIR en traceable een en ander zal zijn (aangezien aan alles een prijskaartje hangt). Aan de hand van de slides (zie Hand Out in bijlage 1 slide 1 t/m 15) wordt de denkrichting van de subwerkgroep weergegeven: per onderzoek een netwerkorganisatie van onderzoekers die ieder via hun lokale dienst gebruik maakt van een virtuele organisatie die door meerdere instellingen gezamenlijk is ingericht met daarin geïntegreerd diensten door derden. Die ene virtuele organisatie kan er een van meerdere zijn binnen een grotere overkoepelende virtuele organisatie. CLARIAH functioneert bijvoorbeeld anders, want biedt diensten aan die kunnen bestaan zonder een eigen aandeel of inbreng van de klant of instelling. EUDAT is evenzeer anders, het levert infrastructuur buiten onderzoeksbeleid om. Naar aanleiding van de presentatie volgt een discussie op specifieke onderwerpen: De organisatie van onderzoekers en het sturen via het dienstenaanbod zou ook gescheiden kunnen blijven. Maar: hoe slim en efficiënt is het is om veel te variëren bij oplossingen die voortvloeien uit de eisen die aan RDM worden gesteld? Geconcludeerd wordt dat de organisatie van het onderzoek van invloed is op de organisatie/inrichting van RDM en de daaraan verboden kosten. Een suboptimale organisatie van het onderzoek leidt tot een inefficiëntere en duurdere RDM oplossing. De WG vraagt zich echter af of de organisatie van de vraagkant (onderzoeksorganisatie) onderdeel zou moeten zijn van / gemodelleerd zou moeten in het architectuurmodel. Beschikt de WG over de expertise heeft op het terrein van organisatie? Wordt de scope hierdoor niet te groot? Hierover wordt verder van gedachte gewisseld. Enkele leden van de subgroep stellen voor de architectuur algemeen te houden en alleen de belangrijkste consequenties van het aspect organisatie te benoemen, in samenwerking met samenwerkende onderzoekers (middels enkele te houden sessies). Het uitwerken van enkele voorbeelden, voor de volgende bijeenkomst, zou de discussie kunnen verhelderen. Bijkomende vraag: kan universiteiten een onderzoeksorganisatievorm wel opgelegd worden? Vanuit een architectuurmodel zou wel inzichtelijk gemaakt kunnen worden wat de consequenties (en invloed op kosten) hiervan zijn. Een inventarisatie van de suboptimale constellaties brengt voor de WG aanzienlijk veel werk met zich mee. De architectuur is niet prescriptief. Integendeel, de architectuur laat zien dat er verschillende oplossingen mogelijk zijn - maar kan tegelijk ook laten zien welke gevolgen onderzoeksorganisatie heeft voor het aanbod van oplossingen. Lunch. Ed Simons verlaat het overleg. Na de lunch stelt de voorzitter voor dat voor de volgende bijeenkomst enkele concrete voorbeelden van samenwerkingsvormen worden uitgewerkt waarbij wordt aangegeven of de WG binnen redelijke tijd met suggesties omtrent organisatie zou kunnen komen. De voorbeelden worden uitgewerkt door de subwerkgroep. Actie: Joyce Nijkamp, Jeroen Roodhart, Arnoud van der Maas, Jeff Templon, Haije Wind (input per mail gegeven), Erik Flikkenschild. Het LCRDM heeft regelmatig aanbiedingen van mensen die graag in de werkgroepen participeren. Er komt een lijst van mensen met specialisaties. 3
Hans van den Berg van het AMC is via deze weg al betrokken als extern adviseur bij de subwerkgroep Architectuur. Tip: gebruik voor use cases ook het rapport van de commissie Schuyt (2012) naar aanleiding van de kwestie Stapel (is eveneens te vinden op de subsite van de Werkgroep). De voorzitter benadrukt dat DoDo als tweede werkstroom van de WG uiteraard gehandhaafd blijft. b) Laurents Sesink, infrastructuurcatalogus De Subwerkgroep Infrastructuurcatalogus wil op basis van de Leidse DoDo: Datamanagement ondersteuning en diensten voor onderzoekers (https://vre.leidenuniv.nl/vre/lrd), onderzoekers voorzien van informatie over bestaande voorzieningen voor datamanagement, lacunes in de voorzieningen detecteren en een goede samenwerking met landelijke partners bevorderen. Bij het aanbieden van informatie over voorzieningen hoort het mogelijk maken van een verantwoorde keuze. En vice versa, leveranciers van voorzieningen worden op de hoogte gesteld van eisen waaraan voorzieningen moeten voldoen. Voor onderzoekers is een dergelijke catalogus interessant omdat deze gebruikt kan worden om het RDM-plan in te vullen; als generieke datamanagementplannen gekoppeld kunnen worden via een beslisboom aan de DODO, is het ook voor andere doelgroepen zoals ondersteuners interessant. Laurents Sesink geeft een presentatie om de eerste denkstappen van de subwerkgroep uiteen te zetten (zie bijlage voor de Hand-Out, slides 16-20). Naar aanleiding van de presentatie komen de volgende punten naar voren: Is duidelijk welke criteria gehanteerd moeten worden om te kunnen beoordelen of voorzieningen voldoen aan gestelde eisen (binnen de verschillende contexten als tijdens en na het onderzoek)? De suggestie wordt gedaan om ook de fysieke datacenters na te gaan wat betreft hun dienstenovereenkomsten. Wordt er een inhoudelijk oordeel gegeven bij de getoonde dienstencatalogus? Dat is niet het geval: het is een meetlat, de betrokkene bepaalt zelf of en welke beoordelingen meewegen. Er wordt ook niet meegegeven of de ene dienst duurder is dan de ander. Er is nog harmonisatie nodig op bijvoorbeeld het terrein van encryptie: UU slaat alleen versleutelde data op, bij de UT hoeft alleen de toegang versleuteld te zijn. Ook is de vraag of typen data bij de diverse instellingen gelijk worden geclassificeerd. Bij catalogi als deze komt altijd de kwestie van onderhoud naar voren, beoordelingen kunnen moeten veranderen op grond van aangepaste dienstenovereenkomsten, er kan zich een uitbreiding van het aanbod voordoen. Waar het gaat om uitbreidingen moet er, naast het verwerken van binnengekomen aanmeldingen, ook actief zelf gespeurd worden naar aanmeldingen. Instellingen zouden zelf hun portfolio kunnen onderhouden. Gesuggereerd wordt lokale diensten zichtbaar te houden voor iedereen, en dienstverlening niet lokaal te houden. Anderzijds leert ervaring dat in het geval waarbij min of meer gelijke diensten gaan concurreren met elkaar, de betrokken instellingen nieuwe criteria zullen aanvragen waarmee ze als beter dan de ander uit de geautomatiseerde selectie willen komen. Afstemming hierover kan jaren duren. Te prefereren is het aangeven van preferred services per onderzoekseenheid of type. 4
Laurents Sesink meldt dat de praktijk bij de Universiteit Leiden is om ieder zo vrij mogelijk te laten, zolang er maar aan de eisen van RDM wordt voldaan. Bijvoorbeeld de keuze voor Figshare, mits niet voor de lange termijn. De conclusie is dat men al doende leert en criteria gaandeweg zullen groeien. Verder wordt te berde gebracht: Het moet alleen om zinvolle faciliteiten gaan en hoeft niet elk statistisch softwarepakket beschreven te worden. Bij rood/groen/oranje-aanduidingen geeft de kleur aan dat de WG veronderstelt dat 80% van de instellingen deze beoordeling onderschrijft. Voeg toelichtingen aan classificaties toe, met een advies om rekening te houden met specifieke bepalingen uit de voorwaarden van de leverancier zodat consequenties duidelijk zijn. Afgesproken wordt dat de subwerkgroep Infrastructuurcatalogus de fase van inventarisatie en onderzoek voort zet aan de hand van de analyse die de UKB-werkgroep Research Data reeds heeft gedaan en dat uit te bouwen vanuit het infrastructuur-perspectief van de landelijke WG. De subwerkgroep zal dieper ingaan op het stappenplan richting catalogus en er zal gewerkt worden aan een beschrijving van functies van de catalogus per doelgroep (die dan de tool in passende views aangeboden zullen krijgen t.z.t.). De samenhang met de architectuur blijft van belang (via subwerkgroep architectuur). Daarnaast wordt de groep breder getrokken: actie: Laurents Sesink, Taco de Bruin, Joost van der Nat, UB-vrijwilligers. 8. Rondvraag Peter Doorn verzoekt FAIR op de agenda te plaatsen. De implementatie van de principes is onduidelijk maar de principes spelen wel een belangrijke rol bij de architectuur. Er kan te zijner tijd een bijeenkomst belegd worden met de subwerkgroep FAIR data van de WG Onderzoeksondersteuning en Advies. Verzoek wordt gehonoreerd. Peter zal voor de volgende vergadering een korte presentatie voorbereiden. 9. Volgende vergadering De volgende vergadering wordt vastgesteld op maandag 31 oktober 2016, van 10-14u, SURF - Utrecht. Met 1 bijlage: Hand Out presentatie subgroepen Architectuur en Infrastructuurcatalogus 5
6
7
8
9
10
11
12
13
14
15
16
17