CATCHPlus gemeenschappelijke diensten Hennie Brugman Technisch coordinator 1
Overzicht 1. Introductie en algemeen overzicht (20+10 minuten) 2. Inzoomen op individuele diensten (5 x 10 min) 3. Beschikbaarheid, duurzame exploitatie, hosting (5 min) 4. Discussie (maximaal 30 min) 2
WP 1: Gemeenschappelijke diensten CATCHPlus opzet WP 2: Deelprojecten Erfgoedinstellingen Projectbureau Museumplus Checkers StitchPlus Choralplus Scratch4all Witchcraftplus Multiply Chip API WP 3: Framework en interoperabiliteit Projectbureau 3
De uitdaging van CATCHPlus Samenhang tussen heel verschillende tools en diensten realiseren Toepasbaarheid over grenzen van collecties en instellingen bevorderen Resultaten gedistribueerd en online op het web beschikbaar maken Samen ontwikkelen waar dat kan Bijdragen aan infrastructuur voor het Nederlands digitaal erfgoed Duurzame exploitatie en hosting 4
Benadering Uniform omgaan met 4 soorten data Terminologie (vocabulaires) Annotaties Catalogi (metadata) Digitale objecten Duurzame verwijzingen (persistent identifiers) Breed inzetbare componenten opwaarderen tot gemeenschappelijke diensten 5
Uniform omgaan met 4 soorten data Terminologie (vocabulaires) Annotaties Catalogi (metadata) Digitale objecten Vocabulaire en Alignment Repository Uniform representeren, publiceren Duurzame verwijzingen (persistent identifiers) en doorzoekbaar maken Breed inzetbare componenten opwaarderen tot gemeenschappelijke diensten van thesauri door middel van web services 6
Uniform omgaan met 4 soorten data Terminologie (vocabulaires) Annotaties Catalogi (metadata) Digitale objecten Annotation & Recommendation Uniform representeren, opslaan, doorzoekbaar en uitwisselbaar maken van Duurzame verwijzingen (persistent identifiers) Breed inzetbare componenten opwaarderen tot uiteenlopende annotaties van gemeenschappelijke diensten (delen van) bronnen op het web 7
Uniform omgaan met 4 soorten data Terminologie (vocabulaires) Annotaties Catalogi (metadata) Digitale objecten Standaard toegang dmv OAI data providers Duurzame verwijzingen Ondersteuning (persistent van identifiers) Breed inzetbare componenten opwaarderen tot gemeenschappelijke diensten publicatie van metadata mbv OAI-PMH bij deelnemende erfgoedinstellingen 8
Uniform omgaan met 4 soorten data Terminologie (vocabulaires) Annotaties Catalogi (metadata) Digitale objecten Diensten voor gebruik en beheer van persistente identifiers Duurzame verwijzingen (persistent identifiers) Breed inzetbare componenten opwaarderen tot gemeenschappelijke diensten ontkoppelen van object-namen en object-locaties ter ondersteuning van duurzame verwijzingen 9
Workspaces User Profile Repository Persoonlijke, tijdelijke opslag van data sets. Tijdelijk verlenen van Terminologie (vocabulaires) toegangsrechten tot die data sets Annotaties Verzamelen van profiel-informatie Catalogi (metadata) door en over gebruikers. Tijdelijk Digitale objecten verlenen van toegang tot die Uniform omgaan met 4 soorten data Duurzame verwijzingen informatie (persistent aan identifiers) webdiensten Breed inzetbare componenten opwaarderen tot gemeenschappelijke diensten 10
Vocabulaire en Alignment Service WP 1: gemeenschappelijke diensten Annotation Repository Workspaces User Profile Repository WP 3: framework en interoperabiliteit Metadata harvesting met OAI-PMH Persistente Identifiers 11
Het landschap 12
Uitgangspunten Open set van samenwerkende bouwstenen (versus monolyten) componenten ook bestaansrecht op zichzelf of in andere context Samenwerking met anderen hergebruik waar mogelijk bestaande oplossingen Sluit aan/draag bij aan gerelateerde initiatieven Standaardisatie en uniformering RESTful web services Liever wat beperkter in scope dan geen draagvlak eerst interne en externe belanghebbenden op één lijn draagvlak belangrijk voor duurzame exploitatie 13
Verbindingen door gemeenschappelijke diensten: voorbeelden Intern: tussen individuele deelprojecten Extern: bijdragen aan infrastructuur digitaal cultureel erfgoed, diensten zijn in potentie breed inzetbaar 14
Workspace toepassingen Primair toegepast tbv Scratch4All (images) In tweede instantie voor één of meer CATCHPlus cases (spraak, sets van zoekresultaten) verbindend tussen CATCHPlus deelprojecten leidt tot uniforme web services Model voor persoonlijke, tijdelijke hosting, met name tbv toegang door web services potentieel onderdeel van veel (erfgoed-)web applicaties 15
OAI en PIDs BenG: metadata publicatie met OAI-PMH Neveneffect: toekenning en publicatie van persistente identifiers Landingspagina s PIDs en OAI vallen samen Bijdrage aan Nederlands Erfgoed: Digitaal!, daarna aan NL Aggregator CATCHPlus diensten op metadata eenvoudig te generaliseren (bv zoeken ihkv MuseumPlus) bijdrage aan digitale infrastructuur nederlands cultureel erfgoed en Europeana 16
Multiply/DSS Metadata OAI-PMH Vocabulaire Repository Search for Advanced search Afghanistan Search results: Immix results Immix title1 Immix title2 Immix title3 Show all Annotations: Immix metadata Context results Show all AT14nov06-text AT14nov06-website Context document 3 Context documents 1 2 Context document metadata Document type Text Primary language Dutch Show annotations Edit Creation date 09/23/2006 Archiving date 11/14/2006 Recommendations militairen regeringen krijgsgevangenen ministers-presidenten ministers ambtenaren Options Text Repository gevangenissen democratisering kampen stemmen missie akkoorden Add context document Show graph Annotatie Repository Annotatie Services Recommendation Ranking services Video Repository 17
Stand van zaken Een aantal al gerealiseerde diensten is toenemend succesvol Breed gedragen wensen tav tweede versies Vertragingen hebben wel geleid tot Duidelijke plannen en specificaties Meer draagvlak onder mogelijke stakeholders Frequente contacten en afstemming met gerelateerde projecten Nu is de tijd van implementatie 18
stakeholders ZieOok CHIP+ RMA /AM MUSEUM+ GM OAI-PMH RDE Annotation Repository User Profile Repository MULTIPLY BenG NA Scratch4all Choral+ Multiply Open Annotation Consortium RMA AM BenG RCE GridLine ZieOok RCE Naturalis CHECKERS Trezorix Uni. Tilburg NA Scratch4all GAR Choralplus BenG Multiply MI Witchcraft+ GM Museumplus WORKSPACES SARA BIGGRID TARGET CLARIN SURF Persistent Identifiers TIN MCN WITCHCRAFT+ MI BenG DEN RCE Kennisnet NA MI Surf SARA EPIC CLARIN Europeana UU Clarin/Clavas Europeana KB GAR BenG NA Fotomuseum Werkgroep Erfgoedthesauri RKD DEN OCLC Vocabulairebank Adlib Pictura Trezorix Deventit TMS RCE MI Clarin-NL NED! NL Aggregators Europeana Standaardisatie OAI Seecr STITCH+ KB Target RUG OCLC Radio Rijnland Uni. Twente CHORAL+ GAR X-MI NA BenG SCRATCH4ALL NA Gelders archief Groninger archieven Stadsarchief Leuven 19
Vragen en discussie Onze vragen Deugen ambities, aanpak en benaderingswijze? Ontbreken er diensten, of zijn er overbodige? Zijn er (betere) bestaande oplossingen? Zijn er nieuwe toepassingen denkbaar? 20
21
Vocabulaire en Alignment Service WP 1: gemeenschappelijke diensten Annotation Repository Workspaces User Profile Repository WP 3: framework en interoperabiliteit Metadata harvesting met OAI-PMH Persistente Identifiers 22
Vocabulary and Alignment Service ( VocabulaireBank ) 23
Visie CATCHPlus Tools en diensten bouwen met één uniforme, externe dienst voor terminologie-gebruik Eenvoudig gebruik van elkaars thesauri Breder Linked Data++ Laagdrempelig (her)publiceren van thesauri (her)gebruiken van thesauri zonder tussenkomst van toolbouwers Eenvoudig gebruik van gepubliceerde thesauri vanuit tools en diensten 24
VAS doelen Standaard formaat en access methoden SKOS, SKOS gebaseerde REST API Web publicatie van vocabulaires Als Linked Open Data Als doorzoekbare en browse-bare dataset REST API Te gebruiken voor duurzame referenties naar concepten persistente identifiers Te harvesten door middel van OAI-PMH Bevorderen semantische interoperabiliteit door het ondersteunen van alignments Stimuleren van Open licenties 25
SKOS Term: Economic cooperation Used For: Economic co-operation Broader terms: Economic policy Narrower terms: Economic integration, European economic cooperation, European industrial cooperation, Industrial cooperation Related terms: Interdependence Scope Note: Includes cooperative measures in banking, trade, industry etc., between and among countries. 26
VAS doelen Standaard formaat en access methoden SKOS, SKOS gebaseerde REST API Web publicatie van vocabulaires Als Linked Open Data Als doorzoekbare en browse-bare dataset REST API Te gebruiken voor duurzame referenties naar concepten persistente identifiers Te harvesten door middel van OAI-PMH Bevorderen semantische interoperabiliteit door het ondersteunen van alignments Stimuleren van Open licenties 27
Linked Open Data Een methode om data te tonen, delen en verbinden via dereferencable URIs op het Web. 28
VAS doelen Standaard formaat en access methoden SKOS, SKOS gebaseerde REST API Web publicatie van vocabulaires Als Linked Open Data Als doorzoekbare en browse-bare dataset REST API Te gebruiken voor duurzame referenties naar concepten persistente identifiers Te harvesten door middel van OAI-PMH Bevorderen semantische interoperabiliteit door het ondersteunen van alignments Stimuleren van Open licenties 29
Use cases (t.a.v. REST API) Use cases uit CATCHPlus en Cultureel Erfgoed Publiceer je thesaurus: importeer een SKOS vocabulaire, dan krijg je er REST toegang, tool support en Linked Data gratis bij Selecteer het juiste concept om een object te beschrijven autocompletion Gebruik voor browsen en zoeken (naar terminologie en/of collectie-data) VAS repository als een topic map voor erfgoedcollecties Thesaurus-onderhouds-taken door online gemeenschappen Vertalen, verfijnen, generaliseren van zoekvragen 30
Wat is inmiddels gebouwd? Repository voor SKOS data (inclusief alignment data) RDF store (Virtuoso) REST API (search, autocomplete, upload, download), gebaseerd op het SKOS data model De repository bevat 12 verschillende thesauri (niet vrij toegankelijk, niet meer up-to-date m.u.v. GTAA) 31
Client tools en diensten CATCHPlus cases (semantische annotatie, ranking, art recommender, ) CLARIN(-NL) CLAVAS project Pictura gebruikt de API voor toegang tot de Beeld en Geluid GTAA thesaurus (Memorix) Generieke browse- en zoek- web applicatie (gebruikt REST API) Q42 32
33
VAS, versie 2 Gedurende half jaar intensief - nieuwe functies overlegd door CATCHPlus, RCE, Adlib, Pictura, - mooier RESTful Trezorix Op initiatief van RCE - performance, schaalbaarheid - gedistribueerd - authenticatie en authorisatie - betere manieren om content te beheren Mede naar aanleiding van VAS, versie 1 Doel: tools en omgevingen op elkaar aansluiten mbt vocabulaires/kennisstructuren VAS versie 2 conform de uitkomsten van dit overleg 34
Gezamenlijke visie 35
REST specificatie Concept resolve API URI, bv http://id.loc.gov/authorities/sh95000541 Find API /find/concepts /find/conceptschemecollections /find/conceptschemes /map/concept /map/object /concept 36
Toekomst Online zetten en promoten gezamenlijke API specs Implementatie Repository service, versie 2 Nieuwe API Harvesting dmv OAI-PMH Upload van SKOS bestanden Linken met nieuwe DEN inventarisatie van erfgoedthesauri Actualiseren en uitbreiden van de inhoud Stimuleren van open licenties (ODbL) Duurzame hosting op één of meer plaatsen 37
stakeholders Clarin/Clavas Europeana KB GAR BenG NA Fotomuseum Werkgroep Erfgoedthesauri RKD DEN RCE Vocabulairebank Adlib Pictura Trezorix Deventit TMS 38
39
Workspaces 40
Visie CATCHPlus Gebruikspatroon {inloggen, documenten uploaden/verzamelen en organiseren, tool daarop laten werken} maar één keer bouwen Spaart werk Biedt gedeelde oplossing voor inloggen,. Legt vast hoe tools en diensten verbonden kunnen worden Breder Nieuw model voor flexibele hosting Virtuele collecties Bouwsteen binnen web service gebaseerde infrastructuren 41
Potentieel Legt vast hoe web services veilig op data kunnen werken tijdelijk delegeren van toegangsrechten Goede plek om Single Sign On mee te verbinden Goede home base voor geïntegreerde applicatieomgevingen (b.v. Virtual Research Environments) Cloud hosting aspect: tijdelijke, persoonlijke, veilige opslag op het web, met flexibele toegankelijkheid voorportaal voor digitale archiving data curatie toekenning persistente identifiers Ontwikkeld door partijen, die over veel opslagcapaciteit en bandbreedte beschikken 42
Deliverables Workspace repository (Target Holding) RESTful API (Target Holding) Webapps voor workspace beheer en workspace repository beheer (Target Holding) Authenticatie en Autorisatie oplossing (BigGrid?) 2-4 toepassingen binnen CATCHPlus 43
Implementatie ikhv Scratch4All 44
Status Implementatie Workspaces en aansluiting op Scratch4All is gestart Afronding: december 2011 Gesprekken over Authenticatie en Autorisatie module zijn gaande Waarschijnlijk ook toegepast ihkv CLARIN, ten behoeve van data uitwisseling tussen web services 45
stakeholders NA Scratch4all GAR Choralplus BenG Multiply MI Witchcraft+ GM Museumplus WORKSPACES SARA BIGGRID TARGET CLARIN 46
47
Metadata harvesting 48
Wat? Publiceren van metadata volgens standaard formaten (Dublin Core, qualified Dublin Core, bredere standaard formaten, proprietaire formaten) Publiceren op standaard manier (OAI-PMH) 49
Status Implementatie bij B en G afgerond Een aantal deelnemers heeft inmiddels zelf OAI-PMH NED!, NL Aggregators en Europeana Beheer van persistente identifiers kan worden gekoppeld aan publicatie van metadata 50
stakeholders MI Clarin-NL NED! NL Aggregators Europeana Standaardisatie OAI CQ2 51
Annotation Repository 52
Visie CATCHPlus Uitwisselen en doorzoekbaar maken van uiteenlopende annotaties van (delen van) bronnen op het web Stap voor stap verrijken van data Breder Annotatie repository als collectie- en instellingoverstijgende index 53
Requirements Annotatie van onderdelen van teksten, xml/xhtml, pdf, audio, video, melodie, images (komen allemaal in CATCHPlus projecten voor) Annotatie van annotaties en waarden van annotaties ( gelaagde annotatie ) Semantische waarden Web gebaseerd en uitbreidbaar data model Opslaan en doorzoeken in repository met REST API 54
Voorbeeld: gelaagde annotaties Voorbeeld workflow: Document scan [automatische line strip detectie service] [repository] [document transcriptie tool] [entity recognition service] [repository] 55
Deliverables Annotatie uitwissel-formaat Annotatie Repository REST API voor opslaan en doorzoeken 56
Open Annotation model/formaat Generiek model uit CATCH: AMM (Annotation Meta Model) Grote overlap in requirements en uitwerking met Open Annotations (www.openannotion.org) Voorstel: pas OAC model toe (en draag daar eventueel aan bij) Annotation is web document met URI Body annoteert een Target Verschillende auteurs/eigenaren Body en Target kan alles zijn Iedere resource kan target van andere annotatie zijn Voorzieningen voor onderdelen van documenten 57
Status Annotation model en formaat aanbeveling binnenkort beschikbaar, inclusief toets aan CATCHPlus cases Implementatie-proces moet nog beginnen Toepassing in eerste instantie waarschijnlijk gekoppeld aan workspaces 58
stakeholders ZieOok Annotation Repository Open Annotation Consortium 59
60
User Profile Repository 61
Visie CATCHPlus Verzamelen van profiel-informatie door en over gebruikers. Tijdelijk verlenen van toegang tot die informatie aan webdiensten Primair ten dienste van Art Recommender. Apart ontwikkeld met oog op bredere toepasbaarheid Breder Gebruikers single-sign-on bieden, en baas maken van hun eigen profieldata Collectie aanbieders beschikken over brede profielinformatie, zonder dat zelf bij te hoeven houden 62
Wat is het? Profielen bevatten personalia, voorkeursobjecten en concepten, ratings, gebruiks-statistieken e.d. Repository met RESTful API voor Beheer van profielen Tijdelijke toegang voor toevoegen objecten en gebruiksstatistieken Opvragen van profiel informatie door collectie-aanbieders Web applicatie voor profielbeheer Widgets voor website-bouwers Login Rating 63
Toepassing CHIP API deelproject Bestond oorspronkelijk uit een recommendation engine (Art Recommender), een Rating tool en een User Profile Repository UPR is gepromoveerd tot gemeenschappelijke dienst Art Recommender wordt gerealiseerd op basis van de ZieOok recommendation engine Amsterdam Museum sinds kort de uitvoerder/collectie-aanbieder Toepassen op andere collecties is relatief eenvoudig 64
Relatie met ZieOok ZieOok Is een generieke recommendation engine voor erfgoedcollecties Gebouwd door Beeld en Geluid Werkt op basis van statistiek Collecties te importeren mbv OAI-PMH Heeft (nog) geen generieke oplossing om met gebruikersen gebruiksinformatie om te gaan Art Recommender is voor ZieOok een extra toepassing, UPR een generieke bouwsteen ZieOok biedt zicht op brede toepassing van CATCHPlus UPR 65
Profile Editor User Profile Repository Users User profiles Favorite objects & concepts Ratings Usage statistics store profile store statistics REST API store profile login widget profile info Dashboard modify profile store profile grant access rating widget Recommender widget REST API recommend webapp webapp webapp RMA Collection Collection collection info ZieOok/ Art Recommender collection info Collection ED!T collection OAI harvest harvest OAI 66
Status Begin juli kickoff Streven: implementatie eind 2011 afgerond Implementator (o.v.): Gridline 67
Stakeholders RMA AM RCE User User Profile Profile Repository Repository GridLine ZieOok 68
69
Persistente Identifiers 70
Visie Oorspronkelijke opdracht OCW: biedt een zo breed mogelijke oplossing voor persistente identifiers aan. Vertaald naar de volgende taken: Kies robuuste, duurzame technologie Laagdrempelig toekennen en beheren van PIDs Duurzaam, betaalbaar en betrouwbaar model voor hosting en exploitatie 71
Probleem en basisoplossing Steeds meer digitale objecten, met steeds meer identifiers In web context: identifier = URL Steeds vaker extern aangeboden (web) Steeds meer verwijzingen naar objecten Contextualisering Samenwerkingsverbanden Virtuele collecties en tentoonstellingen Identifiers zijn vaak niet uniek Identifiers zijn vaak niet persistent Verwijzingen worden gemakkelijk ongeldig (broken links)
Probleem object_1 http://.../object_1 new_object_1
Basisoplossing Ontkoppel naam/identifier en locatie(s) Registreer combinaties van identifiers met locaties in een tabel Externe referenties gebruiken de identifier
Basisoplossing id1 http://.../object_1 id1 object_1 new_object_1
Basisoplossing (resolver) id1 http://.../new_object_1 id1 new_object_1
Requirements (1) Software support Goede resolving service beschikbaar Bewezen technologie, stabiel en100% betrouwbaar Schaalbaar Globaal werkende oplossing gedistribueerde hosting en dienstverlening mogelijk Identificatie van onderdelen van objecten Mogelijkheid om metadata met een identifier te associëren Actionable : identifiers kunnen worden ge-resolved met behulp van een http URI 77
CATCHPlus keuze: Handles als basis Handle technologie Voldoet (verreweg) het best aan onze eisen http://handle.net/ Eén Local Handle System en Handle prefix per deelnemende Naming Authority Hosting van Local Handle Systems door SARA, gemirrored door internationale partners (EPIC) 78
79
Requirements (2) Identifier beheer Identifier beheer moet onafhankelijk zijn van System management Web server management Hosting van resolution services Moet kunnen worden gedaan vanuit de context van een collectie-beheer-systeem Typisch door de verantwoordelijke collectie beheerder Is efficient, krachtig en eenvoudig Is veilig 80
CATCHPlus oplossing: identifier beheer REST web service Voor zoeken, creëren en beheren van Handles (behorend bij je eigen Naming Authority) over internet ook ondersteuning voor batch operaties ( verplaats collectie ) SARA heeft eerste versie voor CATCHPlus gebouwd Wordt in de praktijk door een aantal instellingen gebruikt 81
Methoden voor identifier beheer Neveneffect van collectie beheer Actie in collectie-beheer-systeem triggert een PID beheer REST call Neveneffect van collectie publicatie Update van je gepubliceerde data set (bv OAI data provider s interne database) triggert een PID beheer REST call 82
Requirements (3) Organisatie en beleid Welke keuzen zijn gemaakt door je partner instituten? (hoe minder smaken, hoe beter) Betrouwbaarheid en duurzaamheid van de service providers Quality of Service: redundantie, 24/7 beschikbaarheid, performantie, vermogen op te schalen Beperkte en beheersbare kosten Vrijheid om te wisselen van service provider Invloed van gebruikersgemeenschap 83
CATCHPlus oplossing: organisatie EPIC (European Persistent Identifier Consortium) SARA (Nederland), CSC (Finland), GWDG (MPG, Duitsland) Redundante en betrouwbare PID services voor escience en eculture in Europa Contracten mbt Europese mirror van Global Handle Repository Directe samenwerking met CNRI Stakeholders overleg met erfgoedpartijen en SARA Samen met DEN Business cases, business model en contractvormen 84
Toekomstperspectief EPIC brede REST API Verbeteringen en toevoegingen aan huidige API Uitbreidbaar, policies afdwingbaar Specificatie is klaar Implementatie (o.v.) door SARA, met bijdrage GWDG Introductie-trajecten bij erfgoedinstellingen Businessmodel en contracten 85
stakeholders BenG RCE NA MI DEN Kennisnet Surf Persistent Identifiers SARA EPIC CLARIN Europeana 86
87
Beschikbaarheid, exploitatie en hosting: enkele opmerkingen 88
Beschikbaarheid Broncode komt onder Open source licentie en online beschikbaar (GitHub) We promoten Open Database licenties en Creative Commons We promoten vrij gebruik van services, of tegen kostprijs 89
Hosting en exploitatie Regelen duurzame hosting, onderhoud en doorontwikkeling valt binnen scope van CATCHPlus Business modellen middagprogramma Ook techniek kan misschien kostenbesparend werken Workspaces Dynamisch deployment van web services 90
Vragen, opmerkingen, kritiek, suggesties? 91
Vragen van onze kant Ontbreekt er iets in het CATCHPlus dienstenpakket? Nut en noodzaak van de gemeenschappelijke diensten? Zijn er op- of aanmerkingen in technologische zin? B.v., we zijn begonnen met REST (+mash ups). Is er een reden SOAP (+ service bus) te ondersteunen? Visie op onderhoud en doorontwikkeling van tools, diensten en data op langere termijn? Inschatting kansen op overleven na CATCHPlus? Wie zouden de aanbieders van die diensten uiteindelijk moeten zijn? Ondersteunen deze diensten de CATCHPlus deelprojecten voldoende? Realistisch of te ambitieus? 92