Research Information Linked Open Data (RILOD) Departement Economie, Wetenschap en Innovatie IBM



Vergelijkbare documenten
Research Information Linked Open Data Store

Op zoek naar onderzoek in Vlaanderen? 5 principes om een portaalsite te bouwen. FELNET studiedag milieu in formatie uitformatie, 20 oktober 2016

FLANDERS RESEARCH INFORMATION SPACE. researchportal.be

Kadaster Data Platform

Het Vlaams Onderzoeksnetwerk. Een breedbandproject van departement EWI en Agentschap Wegen en Verkeer

studie waarmee we de principes van de analyse willen demonstreren. Een volledig beschrijving van de algoritmen en de resultaten zijn te vinden in

Oracle Application Server Portal Oracle Gebruikersgroep Holland Oktober 2003

Stappenplan Linked (Open) Data voor Archieven

Uw data op het Web van Data

1 Deelproject Spraakherkenning: SHoUT Audio Indexering Service

Data Governance van visie naar implementatie

Ontwikkeling van een Verkeersveiligheidsmonitor. Diederik Tirry (KULEUVEN SADL)

, 2018 Martien Vos. Presentatie RedForce

Metadata management. Hoe grip te krijgen op de betekenis van de datahuishouding?

Systeemarchitecturen en opslag van gegevens

Semantiek (met de BAG als voorbeeld) Dienstverlening in verbinding Wetgeving in verbinding 12 maart 2014 Marco Brattinga

CATCHPlus D2.7.2 Lokale triple store DELIVERABLE. D Lokale triple store. René van der Ark Sara van Bussel

Het data platform van de toekomst. Kwaliteitsdashboard BAG

Software Design Document

Vereenvoudiging Onderzoeksverslaggeving FRIS portaalsite. Ann Peters UHasselt Pascale Dengis Dept. EWI

Verkenning adoptie W3C rdf/owl technologie voor IMxx/NEN modellen

FAIR Data & Personal Health Train

Mijn kennismaking met SAP BusinessObjects Cloud

Hierbij wordt het werk van mijn college s Anuja Dangol, Thérèse Steenberghen en mezelf voorgesteld, met medewerking van Diederik Tirry.

Ontwikkelaars van BIR Open BIM Standaarden en softwareleveranciers

Notitie Doel en noodzaak conceptueel (informatie)model

De combinatie van verrijkingen, machine learning en crowd sourcing

OpenSKOS / VocabulaireBank

Kennissessie INSPIRE. Algemene vereisten & architectuur Metadata View Services Download Services Ondersteuning vanuit Geonovum.

Op weg naar de Digitale Collectie Nederland 30 september Pieter Vijn Beeld& Geluid

Product marketing met

Vereenvoudiging Onderzoeksverslaggeving Classificatiesystemen. Ann Peters UHasselt Pascale Dengis Dept. EWI Stijn Verleyen FWO

Lokale besluiten als gelinkte Open Data #LBLOD

Wat kan linked data betekenen voor de Basisregistratie Grootschalige Topografie?

FORUM STANDAARDISATIE

Data-notitie DANS versie

Linked Data: stap voor stap, deel 4 Table of Contents

SIG Research Information & SURF programma Open Access OPTIMAAL BENUTTEN DOOR AFSTEMMING

IHW Netwerkdag DD API DD API DD API DD API. Algemene informatie over deze workshop Algemene informatie over programma Digitale Delta

Datascience als Advies drager Crowe Foederer B.V. 1

OTL-IMBOR. COINS IMGeo integratie met linked data. Dr.ir. Hans Schevers

Open standaarden: ook voor het onderwijs! Stefaan Ternier

Omgeving van de zaak in kaart. Modellen. Naamgeving. Omgeving van de zaak in kaart #KVAN11 1

Plone user case:

Case EWI. Pascale Dengis

Europese puzzel: op zoek naar goede praktijken als antwoord op noden van studenten

Ondersteuning van de onderzoek(sgegevens)cyclus en de bijbehorende applicaties

Het belang van. Data Modellering. GEMINIT Training. Data Modellering. Frédéric BARBIER

Client Applicaties (Browser+Desktop) http/https. Apache Webserver. http proxy. WMS WFS Adm SLD Tomcat. Tomcat. GeoServer. PostGIS

Workflows voor SharePoint met forms en data K2 VOOR SHAREPOINT

Een hoge kwaliteit van de gegevenshuishouding is nodig voor goede dienstverlening aan

Presentatie Rapportage Met SAP Business Objects

Leertechnologiestandaarden in ROC s en AOC s

Business Intelligence. Toepassing BI Database en Datawarehouse BI proces BI Organisatie Implementatie BI

Base24 database suite

EEN COMPLEET NIEUWE FELNET-WEBSITE: WEGWIJS VOOR EN ACHTER DE SCHERMEN

Historische informatie in een Spatial Dynamisch Data Warehouse. Wil de Jong Enterprise Architect

FRESNEL FORMS. Een Protégé plugin voor het genereren van datasysteeminterfaces van datamodellen op het Semantic Web ABI TEAM 30

Gegevenswoordenboek Stedelijk Water (GWSW)

Introductie ArchiMate

Jouw data in Geopunt, metadata zijn de sleutel. Geraldine Nolf Expert Metadata - AGIV

DATAMODELLERING ARCHIMATE DATA- & APPLICATIEMODELLERING

Case7: Sensordata. Arnoud de Jong en Matthijs Vonder. 12 maart 2014

DATA-AQUILAE. Slimmer met DATA Miniseminar Gebiedsmodellen CORSTENS INFORMATIE-ARCHITECTUUR 31 maart 2015

Click to edit Master subtitle style NOIV Congres 2011 GIS Open In Verbinding. Marcel de Rink

Kennis na het volgen van de training. Na het volgen van deze training bent u in staat:

WG 2: uitwisselingsprotocollen GT 2: Protocoles d'échanges. Protocollen 27/03/2017

Aandachtspunten bij de transitie naar een Big Data-omgeving

Linked Open Data en EDM. Jacco van Ossenbruggen Centrum Wiskunde & Informatica (CWI) Vrije Universiteit Amsterdam

Van 6 weken naar 6 minuten. met. OpenSource. Jan-Taeke Schuilenga Infrastructuur Architect Jantaeke.schuilenga@duo.nl

Het Onderzoeksdossier & Research Datamanagement Hoe doen wij dat?

CLARIN-NL Metadataproject

GEOPUNT VLAANDEREN HET NIEUWE GEOPORTAAL VAN DE VLAAMSE OVERHEID. Infosessie Geopunt Voorjaar 2015

Koninklijke Bibliotheek Nationale bibliotheek van Nederland

universiteitsbibliotheek Rapportages Oktober 2016

RESEARCH DATA MANAGEMENT INNOVATIE & SURF

ENUM. Introductie en status ISOC SIPSIG Antoin Verschuren Technisch Adviseur SIDN ENUM. ISOC SIPSIG Den Haag

AFO 653 RSS Nieuwsfeeds

Kadaster Data Platform. Architectuur & techniek

Haaglanden Medisch Centrum

Microsoft s platform voor projectorganisaties. EPM 2007 en straks Wil Jansen Gwen Schilte

API management Frank Terpstra. Landelijk Architectuur Congres

Metadata, informatiestromen

VULNERABILITY ANALYTICS & MANAGEMENT PORTAL

OSLO Open Standaarden voor Lokale Overheden

Linked data als klittenband voor de Basisregistraties en meer!

BIBLIO VAKGROEP GE55 KENNISCENTRUM VOOR DE GEZONDHEIDSZORG GENT

Bibliotheek Sociale Wetenschappen 2018

Magnutude 2012 Efficient BI. 18 september Joost de Ruyter van Steveninck

15 mei Inspire richtlijn van kracht

VAARWEL ARCHITECTUUR DOCUMENT WELKOM ARCHITECTUUR REPOSITORY INZETTEN VAN ENTERPRISE ARCHITECT ALS ALTERNATIEF VOOR ARCHITECTUURDOCUMENTEN

Linked Open Data pilot. Reijer Copier

ORCID EEN UNIEKE, PERSISTENTE IDENTIFIER VOOR ONDERZOEKERS. Niels van Dijk, SURFnet John Doove, SURFmarket

Real Time Monitoring & Adaptive Cyber Intelligence SBIR13C038

Werkgroep URI Strategie. Bijeenkomst

TARA. of een open architectuur voor archieven. een verkenning door Karin van der Heiden en Ivo Zandhuis

Canonieke Data Modellering op basis van ArchiMate. Canonieke Data Modellering op basis van Archimate Bert Dingemans

LSP Connect en HL7v3

Oproepen middelzware apparatuur

Transcriptie:

Click to add text Research Information Linked Open Data (RILOD) Departement Economie, Wetenschap en Innovatie IBM Een actueel resultaatoverzicht 11 oktober 2013

Inhoudstafel Doelstelling en achtergrond Actuele resultaten Vooruitzicht

Doelstelling en achtergrond Uit bestek nr. EWI/2012/9: het realiseren van een performante omgeving om onderzoeksinformatie in Vlaanderen volgens Linked Open Data principes te ontsluiten Achtergrond: Het huidige onderzoeksportaal kent een aantal beperkingen in de onderbouw en de gegevenstoevoer die een grens stellen aan de correctheid, volledigheid en doelmatigheid van de aangeboden informatie. Verder blijken de eenvoudige zoek- en visualisatiefuncties van het huidige portaal onvoldoende en blijven de meer interessante verbanden en inzichten alsnog verborgen in de gegevensruimte. Nochtans zijn deze inzichten van cruciaal belang voor een doelmatig beleid en om een gericht antwoord te bieden aan de noden van de verschillende innovatieactoren. Met kennis van de actuele beperkingen en de toekomstige noden is beslist om RILOD als nieuwe en performante informatieomgeving op te richten. Na een succesvol Extreme Blue project in 2010 werd in de periode januari tot mei van 2013 een pilootproject uitgevoerd in samenwerking met IBM. Deze presentatie geeft een actueel overzicht van de resultaten en biedt een vooruitzicht op de toekomst van RILOD.

Actuele resultaten (informatie-soorten) Een aantal heterogene informatiebronnen zijn samengebracht in een geïntegreerde ruimte van semantisch-gerefereerde en gelinkte informatieobjecten Hergebruik van de onderzoeksportaal data (FRIS) Aangevuld met publicatie metadata vanuit enkele grote publieke repositories van onderzoeksinstellingen in Vlaanderen en een extract van de VABB publicatiedatabank Aangevuld met publicatieteksten en abstracten, voor zover publieke versies beschikbaar zijn Aangevuld met publicatie metadata ontgonnen via tekstanalyse, meerbepaald auteurs met hun affiliatie Deze veelzijdige aanpak levert een rijker, contextueel beeld op van de informatieobjecten uit FRIS Opent de deur voor Research Intelligence ; nieuwe, meer geavanceerde toepassingen, visualisaties, verbandenanalyses en inzichten Behoudt de traditionele Business Intelligence mogelijkheden voor rapportage en monitoring Het probleem van entiteitsontdubbeling kan doelmatiger worden aangepakt

Actuele resultaten Architectuur Schaalbaarheid Aantal bronnen heterogene informatie modellen: CERIF, VIVO, MODS, DC Informatie extractie ongestructureerde data (bvb tekst) concept extractie Semantisch onderbouw Beheerde semantiek Data Goverance Center Flexibele gegevensrepresentatie geen meta data model lock in vertalingen en relaties tussen begrippen cross-platform linken in een (bvb CERIF - VIVO) meerdere ontologieën

Actuele resultaten Eenvoudige toegangspunten gestandaardiseerd Beschikbaar voor de ontwikkeling van diensten door externe partijen Proef visualisaties Maximale interoperabiliteit Gebruik van standaarden: CERIF, VIVO, MODS, SBVR, UIMA, Connectie met open platformen: DATATANK Entity Resolving Ontdubbelen van informatie objecten Cross mapping van gekende identifiers

Actuele resultaten (informatie-breedte) Geïntegreerde onderzoeksinformatie vanuit meerdere bronnen Er werd in het pilootproject gekozen om te verrijken met externe publicatiegegevens, aangezien deze momenteel ontbreken in FRIS (behoudens HOG) KULeuven OAI-PMH UGent OAI-PMH UA OAI-PMH UH OAI-PMH 304.044 publicaties 159.821 publicaties 82.375 publicaties 13.567 publicaties RILOD VABB bestand 45.326 publicaties KUL: 18.996 UG: 13.326 UA: 6.585 VUB: 5.025 UH: 965 andere: 429 Full tekst 181.035 documenten over 155.210 publicaties FRIS DB 22.006 personen 2.022 orgunits 24.634 projecten 3.596 publicaties (HOG)...

Actuele resultaten (informatie-details) Aantallen vanuit een semantisch web perspectief Informatie Semantiek 200.000.000+ feiten FRIS data 5.000.000 feiten OAI-PMH Full tekst 145.000.000 feiten 1059 objectrelatie concepten 646 classificatie concepten 107 rol concepten... 60.000.000 feiten Aantal feiten (triples) Aantal ontologie objecten

Actuele resultaten (informatie-volledigheid) Het verzamelen van ISI publicaties... een volledigheidstoets (gevalstudie: KULeuven) publicaties onderzoekers Deze toets is uitgevoerd met KULeuven publicatiegegevens (april 2013) omdat toegang tot de interne Lirias database voorhanden was. Deze studie kan uitgebreid worden naar alle instellingen die in het ISI bestand voorkomen. Web of Science Synchroon RILOD ECOOM KULeuven Lirias 128.000 ISI publicaties KULeuven OAI-PMH 110.000 ISI publicaties RILOD 110.000 ISI publicaties, dit is een derde van het aantal OAI-gecrawlede KULeuven publicaties 88% van de ISI publicaties (ongeveer 4500 op 5000 jaarlijks) is door ISI lookup terug te vinden in Lirias Dit % is stabiel de afgelopen 5 jaar Verklaring: Terugkoppeling op een later tijdstip op basis van een matching algoritme 18.000 extra ISI publicaties zijn geregistreerd in Lirias, maar niet opgenomen in (crawlbaar via) de OAI interface. Verklaring: withdrawn items categorie in Lirias, o.a. duplicate records die niet weerhouden zijn in OAI Zelfde verhouding voor andere instellingen

RILOD Pilootproject Informatieruimte RILOD Platform FRIS Harvesting Repository Harvesting RILOD TripleStore Open Toegangs punten Full text Crawling Full text Analyse Identiteits beheer Ontologie vertaling Informatie Semantiek BSG gestuurde ontologie CERIF gebaseerde ontologie Logfile Visualisaties Roadmap Schaalbaarheid Technische documentatie

Architectuur elementen die aanleiding geven tot business schaalbaarheid Informatie objecten Architectuur elementen Techn. Personen Organisaties Projecten Onderzoeksoutput Publicatieteksten Projectfinanciering (gesloten) Addressen Identificaties (o.a. ISI) Een Semantisch Web ontologie gebaseerd op CERIF, vrij uitbreidbaar naar andere types van informatie-objecten BSG voor herbruik semantische begrippen Database-naar-RDF omzetting voor herbruik EWI onderzoeksportaal data Entiteitsmatching voor uniek herkennen van objecten Repository harvesting voor het zo breed mogelijk verzamelen van onderzoeksinformatie Crawling- en analyseframework voor het ophalen en analyseren van ongestructureerde onderzoeksinformatie (publicatieteksten) Ontologiemapping voor het cross-platform linken in een internationale context (bvb VIVO) Startpunt voor het connecteren met andere (open) data initiatieven/platformen, zoals bvb DataTank OWL SKOS CERIF BSG D2R SILK OAI-PMH MODS ICA UIMA R2R LDIF SPARQL REST

Alle informatie wordt beschreven in een formeel en uniform begrippenkader een deelruimte van de RILOD ontologie (basisconcepten)

Architectuur voor het crawlen van OAI-PMH bibliotheken Crawler beheer UGent UHasselt VABB O A I- P M H X M L Crawler MODS naar CERIF omzetting C E R IF d at a b a s e D2 R tran sfor mat ie

Informatie extractie uit ongestructureerde inhoud IBM Content Analytics

Architectuur

Architectuur Tooling & Standaarden BSG SBVR CERIF Java OWL Oracle SKOS RDFS D2R RDF Jena TDB SPARQL FUSEKI SILK WEB 2.0 TOMCAT Java HTTP REST APACHE ICA ICC HARVESTER OAI-PMH UIMA MODS R2R LDIF SIEVE

Actuele resultaten (informatie-toegankelijkheid) Enkele eenvoudige proefvisualisaties Gerelateerde personen vanuit meerdere instellingen, op basis van de inhoud van hun publicaties, geclusterd rond een centraal gekozen persoon Woordenwolk van kenmerkende termen (specifiek en veelvoorkomend) in de publicaties van een persoon of instituut

Actuele resultaten (informatie-toegankelijkheid) Enkele eenvoudige proefvisualisaties Hiërarchie van onderzoeksgroepen binnen de Vrije Universiteit Brussel

Actuele resultaten (informatie-toegankelijkheid) Enkele eenvoudige proefvisualisaties Community of practice rond een centraal gekozen persoon, op basis van gelinkte entiteiten (personen, publicaties, projecten) Tijdsverloop van het aantal publicaties in een gekozen discipline, met een gekozen onderverdeling (bijv. instelling)

Vooruitzicht Co-creatie van meerwaarde diensten en visualisaties RILOD is reeds publiek toegankelijk voor open data / visualisatieontwikkelaars Zie overzicht van mogelijke en toekomstige visualisaties Verdere opschaling van de informatieruimte, ondermeer: Aansluiting van meer repositories en informatiesystemen, bijv. de Hogescholen en de Strategische OnderzoeksCentra (SOCs) op de korte termijn industriële activiteiten, opportuniteiten en noden Internationaal (bvb. VIVO, CASRAI) Inbedding in International Researcher Network ( http://nrn.cns.iu.edu/# ) Andere types van informatieobjecten, bijv. onderzoeksdatasets, met de toevoeging van geografisch-temporele dimensies, die een ander soort van bevragingen en visualisaties toelaten Inwinnen van meer informatie vanuit de tekstbronnen (woordpatronen, themas, eigennamen, relaties, context, betekenis,... ) voor informatieverrijking en dynamische categorisaties en bevragingen Opschakeling naar meerdere, verweven ontologieën over dezelfde informatieruimte Voor het cross-platform en cross-community linken en uitwisselen van gegevens Verder uitkristalliseren van de architectuur Operationaliseren van een component voor globale entiteitsontdubbeling, eveneens nodig voor het linken met nog niet aangesloten of internationale gegevensplatformen Aansluiting met de nieuwe FRIS architectuur (componenten voor entiteitsontdubbeling, master data management, validatie, incrementele, real-time gegevensaansturing)

RILOD toegangspunten D2R Views FRIS: http://ewisclod3.vlaanderen.be/d2rq/fris/ OAI-PMH: http://ewisclod3.vlaanderen.be/d2rq/oai/ Tekstontginning: http://ewisclod3.vlaanderen.be/d2rq/tm/ SPARQL Test pagina: http://ewisclod3.vlaanderen.be/ewilod/html/sparql-test.html Endpoint (enkel query): http://ewisclod3.vlaanderen.be/ewilod/sparql RESTful API (GET) Resource basis URL: http://ewisclod3.vlaanderen.be/ewilod/lod/0.1/resource/ Ontologie basis URL: http://ewisclod3.vlaanderen.be/ewilod/lod/0.1/ontology LDIF Status monitor: http://ewisclod3.vlaanderen.be/ldif/status/ Silk Workbench: http://localhost:8080 (via SSH tunnel) Visualisaties Index pagina: http://ewisclod3.vlaanderen.be/ewilod/html/vis/index.html Woordenwolk: http://ewisclod3.vlaanderen.be/words/ Gerelateerde personen: http://ewisclod3.vlaanderen.be/persons/

Click to add text Vragen?