SVCN en het Semantische Web een eerste exploratie Guus Schreiber, VU Jacco van Ossenbruggen, CWI Overzicht Zoeken in grote virtuele webcollecties Principes van het Semantische Web Welke technieken kunnen helpen? Web demonstrator: Zoeken in een virtuele kunstcollectie Zoeken in SVCN collecties: RVM en KIT NB: werk van een paar dagen 1
Dankbetuiging MultimediaN E-Culture Project: Alia Amin, Mark van Assem, Victor de Boer, Lynda Hardman, Michiel Hildebrand, Laura Hollink, Zhisheng Huang, Marco de Niet, Borys Omelayenko, Ronny Siebes, Jos Taekema, Anna Tordai, Jan Wielemaker, Bob Wielinga http://e-culture.multimedian.nl ICN: Annemiek Teesing, Marie-France van Orsouw Rijksmuseum Amsterdam RMV en KIT medewerkers die ons geholpen hebben met de SVCN collectiedata en thesaurus Zoeken in grote virtuele webcollecties Problemen en wensen 2
Virtueel Cultuur Web 3
Zoeken in virtuele collecties Een kind zoekt naar foto s van een oranje aap Een collectie dierenfoto's bevat beelden die geannoteerd zijn met orangoetang De zoekmachine vindt deze foto s, ondanks het feit dat oranje en aap niet in de annotatie voorkomen 4
Principes van het Semantische Web 5
Principe 1: semantisch annoteren Beschrijven van webobjecten met behulp van begrippen uit gezamenlijk vocabulaire Dit is feitelijk al standaard in erfgoedcollecties! Principe 2: semantisch zoeken Zoek naar objecten die via begrippen aan elkaar gekoppeld Gebruik de begrippen om de zoekresultaten betekenisvol te groeperen aap mensaap orang-oetang oranje 6
Principe 3: de mythe van een geünificeerde thesaurus In grote virtuele collecties heb je altijd te maken met meerdere thesauri In meerdere talen Iedere thesaurus heeft haar eigen invalshoek; je kunt ze niet samenvoegen Maar je kunt de thesauri best samen gebruiken door middel van een beperkte verzameling links Het is verassend wat je met die beperkte verzameling kunt doen! Additionele bron: geografische thesauri 7
Additionele bron: lexicale thesauri Voorbeeld Tokugawa AAT stijl/periode Edo (Japanese period) Tokugawa SVCN periode Edo 8
A link tussen twee thesauri Is hier een webstandaard voor? Ja! RDF is een XML-gebaseerde webstandaard voor het beschrijven van begrippen en hun relaties Elk begrip en elke relatie hebben een webadres (URI)! auteur pers05 ISBN... 9
SKOS: een webstandaard voor de beschrijving van thesauri Vereenvoudigt het gezamenlijk gebruik Meertaligheid is een belangrijke eigenschap 10
Technieken voor het verrijken van thesauri en van annotaties Leren van links tussen thesauri Voorbeeld: leren van relaties tussen kunstenaars in ULAN en kunststijlen in AAT met behulp van kunsthistorische teksten 11
MATISSE, Henri Le Bonheur de vivre DERAIN, Andre The Turning Road Extraheren van extra kennis uit scope notes in thesauri 12
NWO programma CATCH: Continuous Access to Cultural Heritage STITCH subproject richt zich volledig op het vinden van inter-thesauri links Voorbeeld: Iconclass ARIA CHOICE: automatisch genereren van kandidaatindexeringstermen uit bijbehorende teksten (Beeld & Geluid) Ondersteuning van het indexeren van TV programma s door informatie-extractie Handmatige annotatie niet haalbaar voor grootschalige digitale archieven Context documenten zijn beschikbaar, bijv. Tv-gids informatie Doel CHOICE: genereren van kandidaatindexeringstermen Gebruik van andere bronnen naast de eigen GTAA thesaurus 13
Automatisch identificeren van kleur van objecten <Kleur> Vereist betrouwbare segmentatie <Kleur> E-Culture: een demonstrator voor virtuele erfgoedcollecties 14
16 Nov 2006 Culture Web demonstrator http://e-culture.multimedian.nl 15
16
17
Virtuele collecties moeten met grote hoeveelheden data om kunnen gaan Nieuwe zoekparadigma s: Vinden van betekenisvolle relaties tussen twee objecten/personen/.? 18
Take home message Thesaurus van zeven musea is een uitstekende basis Het nut van SVCN kan nog groter worden door haar te verbinden met andere thesauri beloning van het monnikenwerk! Belang van het gebruik van open webstandaarden en niets anders dan. 19