CLARIN-NL Metadataproject

Vergelijkbare documenten
MIMORE. Demonstratieproject CLARIN-NL. Folkert de Vriend. Meertens Instituut, Amsterdam 26/08/2010

Onderzoeksdata en toegangsrechten

Enterprisearchitectuur

! GeoNetwork INSPIRE Atom!

Hieronder staat een voorstel voor het kennismodel voor de vernieuwde EAR wiki.

Betekent SOA het einde van BI?

HR metadata repository. André de Boer (BZK/CBS) (op persoonlijke titel)

Nummer VGA Datum versie: 0.5

Tilburg University. Energiebesparing door gedragsverandering van Raaij, Fred; Verhallen, T.M.M. Published in: Psychologie. Publication date: 1982

Wat is een corpus en waarvoor wordt het gebruikt?

Developing an adaptive, diagnostic test of. English writing skills

Handleiding Geogedeeld licentiegenerator v1.0

Published in: Onderwijs Research Dagen 2013 (ORD2013), mei 2013, Brussel, Belgie

Begrip image kent in wetenschap allerlei uiteenlopende definities Verhallen, T.M.M.

1 Deelproject Spraakherkenning: SHoUT Audio Indexering Service

Handleiding Geogedeeld licentiegenerator v1.0

Hoe kan wetenschappelijk onderzoek versneld worden met de diagnosethesaurus? Jan Verschuuren. Symposium DHD 24 september 2015

Tilburg University. Dienstenkeurmerken misbruikt Roest, Henk; Verhallen, T.M.M. Published in: Tijdschrift voor Marketing. Publication date: 1999

Tilburg University. Technieken van kwalitatief onderzoek 1 Verhallen, T.M.M.; Vogel, H. Published in: Tijdschrift voor Marketing

TOEGANG VOOR NL / ENTRANCE FOR DUTCH : lator=c&camp=24759

Het opschorten van de handel op de Amsterdamse Effectenbeurs Kabir, M.R.

Markt- en marketingonderzoek aan Nederlandse universiteiten Verhallen, T.M.M.; Kasper, J.D.P.

Welke factoren beïnvloeden het gezamenlijk leren door leraren? Een systematische literatuurreview Thurlings, M.C.G.; den Brok, P.J.

Pure introductie voor facultaire coördinatoren

Risk & Requirements Based Testing

University of Groningen. Who cares? Kamstra, Aafke

Tilburg University. Hoe psychologisch is marktonderzoek? Verhallen, T.M.M.; Poiesz, Theo. Published in: De Psycholoog. Publication date: 1988

Technisch Ontwerp W e b s i t e W O S I

INSPIRE ruimtelijke datadiensten. INSPIRE Kennissessie Amersfoort, 5 juli 2016

GeoKey en Catalog Services

BIJBEL IN GEWONE TAAL PDF

Supplement. Treatment Letter

Procrustes analyse (1) Steenkamp, J.E.B.M.; van Trijp, J.C.M.; Verhallen, T.M.M.

Tilburg University. Technieken van kwalitatief onderzoek 2 Verhallen, T.M.M.; Vogel, H.P. Published in: Tijdschrift voor Marketing

Tilburg University. Huishoudelijk gedrag en stookgasverbruik van Raaij, Fred; Verhallen, T.M.M. Published in: Economisch Statistische Berichten

Professionalisering van de personeelsfunctie: Een empirisch onderzoek bij twintig organisaties

epack - Importeren verpakkingsfiches via XML

Biodiversity responses to climate and land-use change: A historical perspective Aguirre Gutierrez, J.

Publishing WWII aerial photographs within geographical & library information systems

openelectronic Health Record

BIM-validatietool Toetst data bij aanlegprojecten

Tilburg University. Huisvuilscheidingsproeven in Nederland Pieters, Rik; Verhallen, T.M.M. Published in: Beswa-Revue. Publication date: 1985

Understanding and being understood begins with speaking Dutch

Tilburg University Het voorkomen van merkverwarring General rights Take down policy

Gebruik en gebruikers STEVIN en TST-Centrale

Tilburg University. Canonische analyse in markt- en marketingonderzoek Kuylen, A.A. A.; Verhallen, T.M.M. Published in: Tijdschrift voor Marketing

Published in: Aansluitmonitor wiskunde VO-HO: Zicht op de cursusjaren en

FOD VOLKSGEZONDHEID, VEILIGHEID VAN DE VOEDSELKETEN EN LEEFMILIEU 25/2/2016. Biocide CLOSED CIRCUIT

OSLO Open Standaarden voor Lokale Overheden

ECHTE MANNEN ETEN GEEN KAAS PDF

MyDHL+ Van Non-Corporate naar Corporate

UvA-DARE (Digital Academic Repository) Health targets: navigating in health policy. van Herten, L.M. Link to publication

OSLO Open Standaarden voor Lokale Overheden. werkgroep MOVI

Workflow Management MIS 3TI

Windchill Document Management. - Digitaliseren van documenten en processen -

2019 SUNEXCHANGE USER GUIDE LAST UPDATED

MyDHL+ ProView activeren in MyDHL+

Open Onderwijs API. De open standaard voor het delen van onderwijs data. 23 juni 2016 Frans Ward - SURFnet Architectuurraad - Utrecht

Piratenbibliotheken en hun rol in de kenniseconomie: 'ignoti et quasi occulti' Bodó, B.

The next step in CX; aandacht voor mens en maatschappij

Metadata management. Hoe grip te krijgen op de betekenis van de datahuishouding?

Network of networks: Uncovering the secrets of entrepreneurs' networks

WFS 3.0 De geo-api van de toekomst. Linda van den Brink, Geonovum 13 februari #DataToBuildOn

Datasynchronisatie m.b.v. GDC Connect

Consequences of success in pediatrics: young adults with disability benefits as a result of chronic conditions since childhood Verhoof, Eefje

Mondeling tentamen Havo - ERK niveau B1 / B1 +

Marketing. De uitgebreide marketingmix Hoorcollege 5

ZorgMail Address Book SE Documentation

LDA Topic Modeling. Informa5ekunde als hulpwetenschap. 9 maart 2015

Begin Bij Het Eind Met Smart Requirements Synergio

Wilco te Winkel, Liesbeth Mantel Erasmus University Rotterdam,NL

Tilburg University. Deelname aan huisvuilscheidingproeven Pieters, Rik; Verhallen, T.M.M. Published in: Toegepaste sociale psychologie 1

Generiek framework voor administratieve toepassingen in een webgeörienteerde omgeving

ELEKTRONISCH FACTUREREN MET UBL IN EEN EUROPEES KADER. Dennis Krukkert

Tilburg University. Psychologisch marktonderzoek Verhallen, T.M.M. Publication date: Link to publication

studie waarmee we de principes van de analyse willen demonstreren. Een volledig beschrijving van de algoritmen en de resultaten zijn te vinden in

ZO GAAT DAT IN RUSLAND PDF

Uitnodiging Security Intelligence 2014 Dertiende editie: Corporate IAM

Open Access voor wetenschappelijke data in VLIZ Archiveren, documenteren, publiceren en herverdelen

BIBLIOTHEEK SOCIALE WETENSCHAPPEN JSTOR. Arts & Sciences I, II, III, IV, V, VI, VII & Complement; Ireland; 19th Century British Pamphlets.

TAAL ACTIEF GROEP 8 SPELLING 2 PDF

2010 Integrated reporting

De invloed van preferente beschermingsaandelen op aandelenkoersen Cantrijn, A.L.R.; Kabir, M.R.

Tilburg University. Domein-specifieke marktsegmentatie van Raaij, Fred; Verhallen, T.M.M. Published in: Handboek marketing, 3e ed.

Kennissessie INSPIRE. Algemene vereisten & architectuur Metadata View Services Download Services Ondersteuning vanuit Geonovum.

Ontwikkeling Care Provision in de perinatologie

Citation for published version (APA): Oderkerk, A. E. (1999). De preliminaire fase van het rechtsvergelijkend onderzoek Nijmegen: Ars Aequi Libri

Interface tussen Stuurbediening en Sony autoaudio

"Our subcultural shit-music": Dutch jazz, representation, and cultural politics Rusch, L.

Oracle Application Server Portal Oracle Gebruikersgroep Holland Oktober 2003

Van 'gastarbeider' tot 'Nederlander' Prins, Karin Simone

Gevangen. in de Wolken. 25e sambo-ict conferentie Tilburg, 18 januari Fabrice Mous

LSP Connect en HL7v3

WG4: De gebruikerservaring. Service Design Lesweek 5 Aranea Felëus

Process Mining and audit support within financial services. KPMG IT Advisory 18 June 2014

Een model voor personeelsbesturing van Donk, Dirk

GOOD CORPORATE GOVERNANCE

University of Groningen

Ethno-territorial conflict and coexistence in the Caucasus, Central Asia and Fereydan

Transcriptie:

CLARIN-NL Metadataproject Griet Depoorter griet.depoorter@inl.nl Instituut voor Nederlandse Lexicologie 19/02/2010

Projectpartners Daan Broeder Dieter Van Uytvanck Folkert de Vriend Laura van Eerten Griet Depoorter

Structuur presentatie Traditionele en componentmetadata Componentmetadata binnen CLARIN CMD-componenten: eigenschappen, principes, praktijk en problemen XML-toolkit en ISOcat DC registry: werking en ervaringen 3

Componentmetadata (1) Traditionele metadata - Veel verschillende standaarden - Niet flexibel - Niet onderling uitwisselbaar - Vaak beperkt tot / gericht op specifieke soort resource 4

Componentmetadata (2) Componentmetadata - Flexibiliteit: gebruiker kiest / maakt zelf componenten - Geschikt voor verschillende soorten resources - Conceptlinks naar datacategorieën (ISOcat data category registry) en relation registry - Andere standaarden kunnen uitgedrukt worden in componentmetadata 5

Componentmetadata (3) Terminologie: - Element = kerneenheid (een veld ) bv. Age - Component = een verzameling van 1 of meerdere elementen (en componenten) bv. Speaker - Profiel = een verzameling van componenten bv. een lexiconprofiel - Schema = formele grammatica die een profiel beschrijft bv. olac.xsd - Instantie = een metadatabeschrijving bv. PAROLE.xml 6

Componentmetadata (4) 7

Componentmetadata binnen CLARIN (1) 8

Componentmetadata binnen CLARIN (2) Search Service Semantic Mapping Joint Metadata Repository Relation Registry ISOcat Concept Registry DCMI Concept Registry Other Concept Registry CLARIN Component Registry Metadata Repository Metadata Repository (MPI, Austrian Academy, Språkbanken Univ. Gothenburg, DFKI, IDS) 9

CMD-componenten (1) Hergebruik stimuleren project, locatie, taal, 10

CMD-componenten (2) Hiërarchisch wat de inhoud betreft Generieke metadata, van toepassing op breed spectrum resources Specifieke metadata, van toepassing op bepaald soort resource 11

CMD-componenten (3) Collections Collectietype, naam, versie, project Corpus (Hoeveelheid) talen, validatie, Database Dimensies (sociale fenomenen, tijd, ruimte), Speech Corpus Annotaties, aantal sprekers, duur van de spraak Text Corpus Character encoding, oorsprong teksten, 12

CMD-componenten (5) Hiërarchisch opgebouwd (granulariteit) Collectie Vb. Tekstcorpus Deelcorpus 1 Deelcorpus 2 Tekst1 Tekst2 Tekst3 Tekst4 Tekst5 13

CMD-componenten (6) JASMIN-corpusprofiel JASMIN-HMI-corpusprofiel JASMIN-sessies Collection Is Part Of Collection Is Part Of Has Part Session1 Corpus Speech Corpus Has Part Corpus Speech Corpus Is Part Of Has Part Session2 14

CMD-componenten (7) Gebaseerd op bestaande metadata (DC, IMDI, OLAC) Ongeveer 65 componenten (lexica/woordenboeken, spraakcorpora, tekstcorpora, databanken) Componenten worden aangepast n.a.v. concrete metadata-instanties 15

CMD-componenten - problemen (1) Granulariteit: wanneer maak je deelcollecties aan? - Als de onderdelen voldoende onderscheidende kenmerken hebben - Als de deelresource een geheel vormt en zinvol is - Als de resourcecreator wil dat een deelresource apart gevonden/geciteerd moet kunnen worden 16

CMD-componenten - problemen (2) Projectspecifieke codes (vb. leeftijdscategorieën): projectspecifieke componenten Onderscheid data metadata kan problematisch zijn vb. Boedelbank 17

CMD-componenten - problemen (3) Duplicatie van metadata-informatie vb. meertalig Dutch Parallel Corpus: taalinformatie op corpusniveau en op tekstniveau 18

XML-toolkit - werking (1) 19

XML-toolkit - werking (2) 20

XML-toolkit - werking (3) 21

XML-toolkit - ervaringen Minimale kennis van XML vereist Niet echt gebruikersvriendelijk door technische stappen Maar: goede XML-editor kan ongemakken opvangen 22

ISOcat DC registry werking Metadata: 217 datacategorieën beschikbaar Doorzoekbaar DC s creëren: - private workspace - toegang voor beperkte groep - public en standaardisatieproces 23

ISOcat DC registry ervaringen (1) Nieuwe datacategorieën: bv. Legal Owner en Mother Tongue Dubbele entry s: bv. Source: A complete citation of the bibliographic information pertaining to a document or other resource. http://www.isocat.org/datcat/dc-1968 en DC-471 Naam data category = definitie bv. Unknown en Unspecified (http://www.isocat.org/datcat/dc-2591 en DC-2592) 24

ISOcat DC registry ervaringen (2) Inconsequente definities: vb. Contactinformatie - DC-2512: The name of the person who was participating in the creation project. - DC-2454: The name of the person that can be contacted to get access to the resource or to the tool/service. - DC-2505: The address of an organization that was/is involved in creating, managing and accessing resource or tool/service. - DC-2521: The email address of a person or an organization that is involved in creating, managing or accessing resources or tools/services. - DC-2459: The organization that was leading the creation project or that is responsible for accessing the resource and the contact person is affiliated with. - DC-2461: The telephone number of a person or an organization that is involved in creating, managing or accessing the resource. 25

Ten slotte ISOcat data category registry: http://www.isocat.org CLARIN-NL-componenten: http://www.clarin.eu/cmd/components/clarin-nl/ XML-toolkit: http://www.clarin.eu/toolkit Best Practicesdocument 26

Einde 27