Blauwdruk voor onderhoud, beheer en distributie van door de overheid gefinancierde digitale materialen.



Vergelijkbare documenten
Maken van een woordenboek:4 hoofdfasen

IPR regelingen binnen het STEVIN-programma

VvL-Adviescontract voor digitale publicaties

Intellectueel eigendom en software. Voor de digitale economie

Tekst aangenomen door de plenaire vergadering. van het ontwerp van decreet

Auteursrecht op software

Wat is een corpus en waarvoor wordt het gebruikt?

Inleiding. Strekking van de eisen

Raad van de Europese Unie Brussel, 14 september 2017 (OR. en)

Socofi Algemene voorwaarden

Handleiding Nederlandse Besteksystematiek

Licentievoorwaarden. Werkingssfeer:

1.2 Afwijkingen van deze Algemene Voorwaarden zijn slechts rechtsgeldig indien deze schriftelijk zijn overeengekomen.

Juridische uitgangspositie. SURF/NWO, 24 januari 2012 Prof. mr. dr. Madeleine de Cock Buning (UU)

Project Fasering Documentatie Applicatie Ontwikkelaar

Privacy Bijsluiter Digitale Leermiddelen Basisonderwijs (Dr. Digi), Noordhoff Uitgevers

eisen voor programmatuur die gebruikt wordt bij de berekening van de uitslag van verkiezingen die vallen onder de werking van de Kieswet

Gebruikersovereenkomst

Overzicht van taken en competenties. Demandmanager-rol

Algemene Voorwaarden Jortt BV

DISCLAIMER Dairy Training Centre

Privacy Verklaring Definities Toegang tot Innerview

Woordenboekencomponent van de Geïntegreerde Taalbank (GTB): het WNT en VMNW met andere databestanden geïntegreerd in 1 zoeksysteem demo gtb.inl.

PROCEDURES BETREFFENDE DE VERWERVING DOOR HET EUROPEES PARLEMENT VAN PRIVEARCHIEVEN VAN LEDEN EN VOORMALIGE LEDEN

Sectoraal Comité van de Sociale Zekerheid en van de Gezondheid Afdeling «Sociale Zekerheid»

ICT Beheermodel informatiesystemen Drechtsteden Baseline inrichting ICT beheermodel Drechtsteden

Ontwikkelaar ICT. Context. Doel

Formulier Datamanagementplan

Medewerker audiovisuele technieken (regie)

Gedragscode voor Onderzoek & Statistiek. Gedragscode op basis van artikel 25 Wet bescherming persoonsgegevens

Het indienen van ICT- projecten

GEHEIMHOUDINGSOVEREENKOMST

SBS BROADCASTING B.V. ALGEMENE VOORWAARDEN PROGRAMMA PARTICIPATIE Inhoudsopgave

BELEID VOOR COOKIES OP DE WEBSITE EN PRIVACY

Service Level Agreement (SLA)

Nieuwsflits praktijkgroep Technologie, Media en Entertainment

Algemene voorwaarden Versie 1.2 Therapieland B.V. Nieuwendammerdijk BX Amsterdam

LICENTIEOVEREENKOMST

Openbare licentie van de Europese Unie

Deze PowerPoint is bedoeld voor het onderwijs. Alle informatie in deze Powerpoint, in welke vorm dan ook (teksten, afbeeldingen, animaties,

<NAAM HOGESCHOOL>> MODELCONTRACT VOOR HET IN LICENTIE UITGEVEN VAN EDUCATIEF OF WETENSCHAPPELIJK WERK

Notitie Detachering aan derden Publicatie 15 april 2016

OVEREENKOMST. 1. de publiekrechtelijke bedrijfsorganisatie Bedrijfschap Horeca en Catering, waarvan de zetel is

Privacy beleid. Welke persoonsgegevens verwerken wij?

Plan van aanpak. Project : Let s Drop. Bedrijf : DropCo BV

NEDERLANDS PATENT IN 6 STAPPEN

Convenant Eenvormige Toetsing Gezondheidsonderzoek vanuit het Parelsnoer Instituut

Gedragscode Fondsenwerving

Beoordelingscriteria scriptie Nemas HRM

De 'verantwoordelijke' voor dataprotectie bij C-ITS toepassingen

Kosten indicatoren / Begrotingen

ABONNEMENTSVOORWAARDEN BOUW!

Open Data. Themamiddag Actieve Openbaarheid

CAG/13/12.12/DOC.104 bijlage 1

Ontwikkeltafel Proces en organisatie Voorstel werkgroep Lastenverlichting-1 (contract: afspraken en tarieven)

Nulmeting van de e-depotvoorziening van het Noord-Hollands Archief aan de hand van het toetsingskader ED3

van onderwijs en onderwijsondersteuning binnen Directeur onderwijsinstituut

Resultaten en Beschikbaarheid 1e Ronde projecten, SPRAAK en CORNETTO Jan Odijk i.s.m. TST-Centrale

Bijlage Risicoanalyse steekproeftrekking

ALGEMENE LEVERINGS- EN BETALINGSVOORWAARDEN VAN AAA VERTAALBUREAU LA FRANCE. te Andijk Generaal de Wetlaan 17

Plan

LEERDOELEN MEDIAVORMGEVER 4

LICENTIEOVEREENKOMST/VOORWAARDEN

Subsidiebeleid Stichting Zorg en Zekerheid

Algemene Voorwaarden Fotogeliek

1.) Definities. 2.) Toepasbaarheid

ALGEMENE VOORWAARDEN AGILE MARKETING AGENCY. 1. Definities/begripsbepalingen. Agile Marketing Agency: Agile Marketing Agency B.V.,

Auteursrecht en STABU. STABU Bezoekadres: Telefoonweg 32 Postbus GC EDE. Tel Website:

Officiële uitgave van het Koninkrijk der Nederlanden sinds 1814.

Handleiding Geogedeeld licentiegenerator v1.0

Beoordelingscriteria scriptie Nemas HRM

Oplossingsvrij specificeren

Aanvullende voorwaarden bij interactieve ontwerpen

/// Gebruiksvoorwaarden en -bepalingen Adpf - Administratieve percelen fiscaal, toestand 01/01/ correctie

Algemene Voorwaarden De Dansfotografe

GEBRUIKSVOORWAARDEN THE SIRIUS PROGRAM. Versie d.d. 12 april 2015.

INFORMER VERWERKERSOVEREENKOMST ZOALS VASTGESTELD OP 20 APRIL 2018

en/of haar partners toebehoren. U mag deze content uitsluitend gebruiken om van de website en de daarop aangeboden diensten gebruik te maken.

Randvoorwaarden Privacy & Security

VERWERKERSOVEREENKOMST VOOR MAKELAARS MET BETREKKING TOT DMP EN FINJIM

In 8 stappen naar bedrijfskundig FM. Van FM-specialist tot strategisch businesspartner

Voorwaarden Repper-account

Sectoraal Comité van de Sociale Zekerheid en van de Gezondheid Afdeling «Sociale Zekerheid»

Juridische valkuilen bij cloud computing

GEBRUIKERSOVEREENKOMST Versie december 2011

Hoofdlijnen van beleid management onderzoeksdata Universiteit voor Humanistiek

Een kwaliteitshandboek voor de juridische bibliotheek

Overeenkomst: de overeenkomst van opdracht tussen Fotograaf en Opdrachtgever.

Wijziging van de Auteurswet en de Wet op de naburige rechten in verband met de aanpassing van het auteurscontractenrecht

Directeur onderzoeksinstituut

Model bedrijfsplan voor bovenschoolse voorzieningen

Licentieovereenkomst ADLIB

Modellicenties Open Data. Skype: opendataforum_ LinkedIn: Open Data Group

Privacy Verklaring versie

/// Gebruiksvoorwaarden en -bepalingen Digitaal Hoogtemodel Vlaanderen II, DTM, raster, 5m, testdata

Algemene voorwaarden Ruimtes in Beeld. 1. Definities. 2. Toepassing. 3. Offerte. 4. Vergoeding

NL In verscheidenheid verenigd NL. Amendement. Julia Reda namens de Verts/ALE-Fractie

Auteursrecht voor Wikipedianen. WCN 2013 Sjo Anne Hoogcarspel Klos Morel Vos & Schaap

Transcriptie:

Blauwdruk voor onderhoud, beheer en distributie van door de overheid gefinancierde digitale materialen. Piet van Sterkenburg, Truus Kruyt en Peter van der Kamp Instituut voor Nederlandse Lexicologie December 2001 Met medewerking van: Diana Binnenpoorte Speech Processing Expertise Centre (SPEX) November 2002 1

Voorwoord. Deze Blauwdruk is een pleidooi voor hergebruik van door de overheid gefinancieerde digitale materialen. Daarom is in de Blauwdruk beschreven welke verschillende aspecten van verwerving, bewerking, administratie, verrijking, beheer, onderhoud en distributie van TSTmaterialen van vitaal belang zijn om tot een solide basis te komen waarop productontwikkeling en onderzoek kunnen plaatsvinden. De Blauwdruk werd geschreven in opdracht van de Nederlandse Taalunie in de periode september 2000-31 december 2001. Het onderzoek werd begeleid door Elisabeth D'Halleweyn (Nederlandse Taalunie), Hans Bennis (Meertensinstituut), Theo van den Heuvel (Polderland Language and Speech Technology), Cees Klapwijk (Digitale Bibliotheek voor de Nederlandse Letteren), Willy Martin (Commissie lexicografische Vertaalvoorzieningen) en Frieda Steurs (Lessius Hogeschool). Wij danken de leden van de begeleidingscommissie voor hun commentaar tijdens vier bijeenkomsten waarin de eerste concepten van de verschillende hoofdstukken werden besproken. Deze Blauwdruk zou niet binnen zo'n relatief korte periode tot stand zijn gekomen als niet zo veel medewerkers van het Instituut voor Nederlandse Lexicologie hun medewerking zo belangenloos hadden verleend. Zij verdienen hier daarom een eresaluut: Jeannine Beeken, Marjolijn van Bennekom, Petra Coppens, Katrien Depuydt, Sonja Deutekom, Jesse de Does, Tilly Dutilh, Dirk Geirnaert, Bart Hoogeveen, Dennis Schenk, Rob van Strien, Paulette Tacx, Rob Tempelaars, Boukje Verheij, John van der Voort van der Kleij en Roald Wiegeraad. Leiden, december 2001 Piet van Sterkenburg, Truus Kruyt en Peter van der Kamp Addendum Op verzoek van de Nederlandse Taalunie heeft SPEX, in de persoon van Diana Binnenpoorte, in de loop van 2002 de Blauwdruk bekeken vanuit het perspectief van de spraakwereld. Dit heeft geresulteerd in aanvullingen en wijzigingen waarover overeenstemming bestaat tussen SPEX en het INL. De paragrafen die integraal door SPEX zijn toegevoegd zijn 2.3.2.2., 3.3., 3.3.1., 3.3.2, 3.3.3., 4.2.3.3., 4.2.3.3.1., 4.2.3.3.2. en 4.2.3.3.3. Verder leverde SPEX bijdragen aan de paragrafen 1.2., 2.5., 2.5.2., 2.8., 2.8.1.,3.4., 4.2.3., 4.2.6.3., 4.3.3., 4.5., 6.2., 6.2.1., 6.2.2., 6.7. en 7.4. Leiden, november 2002 Piet van Sterkenburg, Truus Kruyt, Peter van der Kamp en Diana Binnenpoorte 2

Inhoudsopgave 1 INLEIDING... 8 1.1 ALGEMEEN... 8 1.2 OM WELKE MATERIALEN GAAT HET?... 8 1.3 CONCENTRATIEPUNT VAN DE BLAUWDRUK... 9 1.4 MOGELIJKE GEBRUIKERS... 9 1.5 DOELSTELLINGEN BLAUWDRUK... 10 2 VERWERVING... 15 2.1 INLEIDING... 15 2.2 SCENARIO'S VOOR VERWERVING... 15 2.2.1 Individueel... 15 2.2.2 Institutioneel... 15 2.2.3 Collectief... 16 2.3 SPECIFIEKE EISEN... 16 2.3.1 Juridische aspecten... 16 2.3.2 Financiële aspecten... 19 2.3.2.1 Ontwikkeling van een elektronische tekstenverzameling... 19 2.3.2.2 Ontwikkeling van een elektronische verzameling spraak... 22 2.3.2.3 Kosten van door derden ontwikkelde data... 24 2.4 SELECTIE VAN EEN ELEKTRONISCHE VERZAMELING TEKSTEN... 25 2.4.1 Algemeen... 25 2.4.2 Selectie door een non-profitorganisatie... 26 2.4.3 Selectie door individuele onderzoekers... 27 2.4.4 Selectie door taal- en spraaktechnologen... 27 2.5 ONTWIKKELING VAN EEN ELEKTRONISCHE VERZAMELING SPRAAK... 28 2.5.1 Algemeen... 28 2.5.2 Selectie door een non-profitorganisatie... 29 2.5.3 Selectie door individuele onderzoekers... 32 2.6 PRODUCTIE EN VERWERVING VAN DIGITALE TEKSTBESTANDEN... 32 2.6.1 Scannen... 33 2.6.2 Overtypen... 34 2.6.3 Verwerving van teksten via Internet... 34 2.6.4 Verwerving van databases... 35 2.6.5 Verwerving software... 36 2.7 TECHNISCHE ASPECTEN VAN AANLEVERING VAN VERWORVEN DIGITALE TEKSTEN... 36 2.7.1 Aanlevering op magnetische en optische media... 36 2.7.2 Aanlevering van teksten via Internet... 36 2.7.3 Aanlevering van verworven databases... 38 2.7.4 Aanlevering van verworven software... 38 2.7.4.1 Aanlevering als binary... 38 2.7.4.2 Aanlevering als broncode... 39 2.8 PRODUCTIE EN VERWERVING VAN DIGITALE SPRAAKOPNAMEN... 39 2.8.1 Verwerving van reeds bestaande digitale opnamen... 41 2.9 CONCLUSIES EN AANBEVELINGEN VOOR BELEIDSORGANISATIES... 41 2.10 BIJLAGEN BIJ HOOFDSTUK 2... 44 2.10.1 Overeenkomst tussen rechthebbende en TST-centrale... 44 2.10.2 Overdrachtsovereenkomsten bij de opbouw van een spraakcorpus... 44 2.10.3 Licentieovereenkomst computerprogrammatuur... 45 2.10.4 Gekozen teksten en corpus... 47 3 VERWERKING EN BEWERKING VAN VERWORVEN DATA... 50 3.1 INLEIDING... 50 3.2 VERWERKING EN BEWERKING VAN DATA VOOR EEN ELEKTRONISCHE TEKSTENVERZAMELING... 50 3.2.1 Procedures... 51 3.2.1.1 Procedure voor bestanden uit tekstverwerkers... 52 3.2.1.2 Procedure voor zetbestanden... 52 3.2.1.3 Procedure voor ASCII-bestanden... 53 3.2.1.4 Procedure voor SGML-, XML- en HTML-coderingen... 53 3.2.1.5 Procedure voor overige bestanden... 54 3

3.2.1.6 Procedure voor databases... 54 3.3 VERWERKING EN BEWERKING VAN DATA VOOR EEN ELEKTRONISCHE VERZAMELING SPRAAK... 55 3.3.1 Opnameapparatuur en digitalisering... 55 3.3.2 Metadata... 56 3.3.3 Annotaties... 56 3.3.4 Voorbeeld uit het Corpus Gesproken Nederlands... 57 3.4 DE DIRECTORY OF DIRECTORYSTRUCTUUR... 57 3.5 ADMINISTRATIE... 59 3.5.1 Van aangeleverde data... 60 3.5.2 Van de verwerking en bewerking van verworven data... 60 3.6 CONCLUSIES EN AANBEVELINGEN VOOR BELEIDSORGANISATIES... 61 4 TAALKUNDIGE BEWERKING VAN TAALMATERIAAL... 63 4.1 INLEIDING... 63 4.2 INHOUDELIJKE EN VORMELIJKE ASPECTEN VAN VERRIJKING... 66 4.2.1 Algemene aspecten... 66 4.2.1.1 Niveaus en soorten van verrijking... 66 4.2.1.2 Relatie tussen verrijking en de gebruiker... 67 4.2.1.3 Standaarden... 68 4.2.1.4 Procedurele en personele aspecten... 70 4.2.2 Verrijking van corpora van geschreven taal...71 4.2.2.1 Verrijking van het corpus als geheel... 72 4.2.2.2 Verrijking van afzonderlijke teksten... 73 4.2.2.3 Verrijking van tekststructurele eenheden binnen de tekst... 74 4.2.2.4 Verrijking van taalkundige eenheden binnen de tekst... 75 4.2.2.4.1 Morfologische eigenschappen... 76 4.2.2.4.2 Morfosyntactische eigenschappen... 76 4.2.2.4.3 Lemma (trefwoord)... 77 4.2.2.4.4 Syntactische eigenschappen... 77 4.2.2.4.5 Semantische eigenschappen... 78 4.2.2.4.6 Pragmatische eigenschappen... 79 4.2.3 Verrijking van corpora van gesproken taal en spraakcorpora... 79 4.2.3.1 Verrijking van het corpus als geheel en van de afzonderlijke getranscribeerde gesproken-taalfragmenten 80 4.2.3.2 Verrijking van eenheden binnen getranscribeerde gesproken-taalfragmenten... 80 4.2.3.3 Verrijking van spraakcorpora... 81 4.2.3.3.1 Verrijking algemeen... 81 4.2.3.3.2 Andere mogelijke verrijkingen, annotatielagen... 81 4.2.3.3.3 Standaarden en evaluatie... 84 4.2.4 Verrijking van digitale woordenboeken... 85 4.2.4.1 Verrijking van een woordenboekcorpus als geheel en van de afzonderlijke woordenboeken... 85 4.2.4.2 Verrijking van eenheden binnen een woordenboek... 85 4.2.5 Computationeel lexicon... 86 4.2.6 Stappenplannen met werklast en kostenberekening... 87 4.2.6.1 Algemene uitgangspunten... 87 4.2.6.2 Stappenplan met werklast voor de verrijking van een corpus van geschreven taal... 89 4.2.6.2.1 Verrijking van tekststructurele eenheden in de tekst... 89 4.2.6.2.2 Verrijking van taalkundige eenheden in de tekst... 91 4.2.6.3 Stappenplan met werklast voor de verrijking van een spraakcorpus...96 4.2.6.4 Stappenplan met werklast voor de verrijking van een digitaal woordenboek... 97 4.2.6.5 Stappenplan met werklast voor de ontwikkeling van een computationeel lexicon... 100 4.3 VERRIJKINGSSOFTWARE... 104 4.3.1 Overzicht... 104 4.3.1.1 Algemene zaken... 104 4.3.1.2 Stand van zaken: kort overzicht... 105 4.3.2 Verrijkingssoftware voor corpora van geschreven taal... 109 4.3.2.1 Software voor tekstclassificatie... 109 4.3.2.2 Software voor verrijking van tekststructurele eenheden... 110 4.3.2.3 Software voor verrijking van taalkundige eenheden... 110 4.3.2.3.1 Tokeniseren... 110 4.3.2.3.2 Zinsgrenzen... 111 4.3.2.3.3 Morfosyntactische analyse en lexiconlook-up... 111 4.3.2.3.4 Woordsoorttagging... 113 4.3.2.3.5 Lemmatiseren... 116 4.3.2.3.6 Het herkennen van woordgroepen... 116 4

4.3.2.3.7 Syntactische annotatie... 117 4.3.3 Verrijkingssoftware voor spraakcorpora en corpora van gesproken taal... 121 4.3.3.1 Software voor tekstclassificatie... 122 4.3.3.2 Software voor verrijking van tekststructurele eenheden... 122 4.3.3.3 Software voor verrijking van taalkundige eenheden... 122 4.3.3.3.1 Tokeniseren en zinsgrensdetectie... 122 4.3.3.3.2 Toekenning van woordsoorttags... 123 4.3.3.3.3 Lemmatiseren... 123 4.3.3.3.4 Postprocessing en lexicon... 123 4.3.3.3.5 Syntactische annotatie... 123 4.3.3.3.6 Semantische en pragmatische annotatie... 124 4.3.3.3.7 Prosodische annotatie... 124 4.3.3.4 Overige automatische verrijking van spraakcorpora... 124 4.3.4 Software voor de codering van informatiecategorieën in woordenboeken... 124 4.3.5 Software voor de ontwikkeling van een computationeel lexicon... 125 BIJLAGEN BIJ 4.3... 125 4.3.A Korte uitleg van een aantal classificatieprocedures... 125 4.3.B Informatie over genoemde datasets... 127 4.4 CRITERIA VOOR KEUZES BIJ PROGRAMMATUURONTWIKKELING... 129 4.4.1 Criteria voor de keuze van hardwareplatform en besturingssysteem... 129 4.4.1.1 Verspreiding van programmatuur... 129 4.4.1.2 Usances binnen het vakgebied... 129 4.4.1.3 Leveranciersregelingen... 129 4.4.1.4 Beschikbaarheid van ontwikkelprogrammatuur... 130 4.4.1.5 Beschikbare middelen... 130 4.4.1.6 Programmatuureisen... 130 4.4.2 Criteria voor de keuze van te gebruiken programmeertalen... 130 4.4.2.1 Beoogde duurzaamheid van de programmatuur... 130 4.4.2.2 Hergebruik... 131 4.4.2.3 Oplossingsmethodiek... 131 4.4.2.4 Integrabiliteit en interoperabiliteit... 132 4.4.2.5 Gebruiksaspecten van de programmeeromgevingen... 132 4.4.2.6 Verkrijgbaarheid van compilers; platformonafhankelijkheid... 133 4.4.2.7 Snelheid... 133 4.4.2.8 Kosten... 133 4.4.3 Richtlijnen op het niveau van programmeren: namen van variabelen, functies, etc... 133 4.4.3.1 Naamgeving... 133 4.4.3.2 Eenmaligheid van codering... 134 4.4.4 Documentatie... 134 4.4.4.1 Het opbouwen van documentatie m.b.v. daarvoor beschikbare gereedschappen... 134 4.4.4.2 Zonder documentatiegereedschappen... 134 4.4.4.3 Commentaar in de broncode en aparte (technische) documentatie... 135 4.4.5 Het gebruik van ontwikkelmethoden... 135 4.4.5.1 Algemeen... 135 4.4.5.2 Toepasbaarheid... 135 4.4.5.3 Integratie in bestaande/toekomstige infrastructuren (uniformiteit)... 136 4.4.5.4 Bijdrage aan kwaliteit... 136 4.4.5.5 Relatie onderhoudskosten van de programmatuur... 136 4.4.5.6 Ontwikkelingskosten... 136 4.4.5.7 Probleemoplossend vermogen... 137 4.4.6 Richtlijnen voor het opbouwen en gebruiken van testprocedures... 137 4.4.6.1 Inleiding... 137 4.4.6.2 Organisatie... 137 4.4.6.3 Planning van het testen... 138 4.4.6.4 Testomgeving... 138 4.4.6.5 Het testen zelf... 138 BIJLAGE BIJ 4.4.... 139 4.5 EVALUATIE VAN TST-BASISMATERIALEN... 143 4.6 INFRASTRUCTURELE VOORZIENINGEN... 143 4.7 FINANCIËLE ASPECTEN... 145 4.8 AANBEVELINGEN VOOR BELEID... 145 5 BEHEER... 148 5.1 INLEIDING... 148 5.2 BEHEER UITBESTEDEN VS. ZELF BEHEREN... 148 5

5.3 PERSONEEL... 149 5.4 TECHNISCH BEHEER... 149 5.4.1 Beheer apparatuur... 150 5.4.2 Beheer data en software... 150 5.4.2.1 Versiebeheer data... 151 5.4.2.2 Versiebeheer software... 152 5.4.2.3 Archivering... 153 5.4.2.3.1 Systeembeheer... 154 5.4.2.3.2 Onderhoudspersoneel... 154 5.4.3 Conversie van informatiedragers/digitale duurzaamheid... 154 5.5 BEVEILIGING... 155 5.5.1 Beveiliging tijdens opslag en verwerking van gegevens... 156 5.5.1.1 Toegangsbeveiliging... 156 5.5.1.2 Back-up... 156 5.5.1.3 Restore... 157 5.5.1.4 Fysieke beveiliging... 157 5.5.2 Beveiliging tijdens transport van gegevens... 157 5.5.2.1 Netwerkbeveiliging... 157 5.5.2.1.1 Beveiliging netwerktoegang... 158 5.5.2.1.2 Beveiliging gegevens op netwerk... 158 5.5.3 Controle beveiligingsmaatregelen... 158 5.6 ADMINISTRATIE... 159 5.6.1 Met betrekking tot beheer apparatuur... 159 5.6.2 Met betrekking tot beheer data en software... 159 5.6.3 Met betrekking tot beveiliging... 160 5.6.4 Met betrekking tot back-up/restore... 160 5.6.5 Met betrekking tot archivering... 160 5.7 KOSTEN BEHEER... 160 5.8 CONCLUSIES EN AANBEVELINGEN VOOR HET BELEID... 161 BIJLAGEN BIJ HOOFDSTUK 5... 162 Bijlage 1. Onderwerpen in een SLA... 162 Bijlage 2. De verschillende rechten t.b.v. beveiliging... 162 Bijlage 3. Back-upprocedure... 162 6 ONDERHOUD... 164 6.1 INLEIDING... 164 6.2 ONDERHOUD VAN DATA... 164 6.2.1 De eigenlijke data... 164 6.2.2 Annotaties bij de data en hun taalkundige formats... 166 6.2.3 Onderhoud technische formats... 168 6.3 ONDERHOUD VAN TAALKUNDIGE SOFTWARE EN DATA DIE DOOR DIE SOFTWARE GEBRUIKT WORDEN.. 169 6.3.1 Taalkundige software... 169 6.3.2 Data voor taalkundige software... 169 6.4 ONDERHOUD SYSTEEM- EN APPLICATIESOFTWARE, COMPUTERPLATFORMS EN INFORMATIEDRAGERS... 170 6.4.1 Systeem- en applicatiesoftware... 170 6.4.1.1 Systeemsoftware... 171 6.4.1.2 Applicatiesoftware... 171 6.4.2 Computerplatforms... 173 6.4.3 Informatiedragers... 174 6.4.4 Administratie... 174 6.5 JURIDISCH ONDERHOUD... 174 6.6 KOSTEN... 175 6.7 AANBEVELINGEN VOOR BELEID... 176 7 DISTRIBUTIE... 177 7.1 INLEIDING... 177 7.2 SCENARIO'S VOOR DISTRIBUTIE... 177 7.2.1 Institutioneel... 177 7.2.2 Uitbesteding... 177 7.3 SPECIFIEKE EISEN... 178 7.3.1 Juridische aspecten... 178 7.3.2 Financiële aspecten... 180 6

7.4 TECHNISCHE ASPECTEN VAN DISTRIBUTIE VAN TST-MATERIAAL... 181 7.5 PRAKTISCHE ASPECTEN VAN DISTRIBUTIE... 182 7.6 CONCLUSIES EN AANBEVELINGEN VOOR BELEIDSORGANISATIES... 183 7.7 BIJLAGEN BIJ HOOFDSTUK 7... 186 7.7.1 Overeenkomst tussen distributeur en gebruiker... 186 7.7.2 Contract tussen leverancier en ELDA... 188 7.7.3 Contract tussen eindgebruiker en ELDA... 190 7.7.4 Contract tussen een 'value-added reseller' en Elda... 192 8 GEBRUIKERSONDERSTEUNING... 194 8.1 INLEIDING... 194 8.2 WEBSITE... 194 8.3 MAILINGLIJST... 195 8.4 HELPDESK... 196 8.4.1 Helpdesksoftware... 196 8.4.2 Personele organisatie... 197 8.5 LEVERING VAN SOFTWARE EN DATA 'OP MAAT'... 197 8.6 SOFTWARESERVICES... 198 8.7 ADVISERING... 198 8.8 KOSTEN... 199 8.9 BELEIDSAANBEVELINGEN... 199 9 BELEIDSAANBEVELINGEN... 200 9.1 INLEIDING... 200 9.2 AANBEVELINGEN... 200 BIBLIOGRAFIE... 204 7

1 Inleiding 1.1 Algemeen Op 19 april 1999 werd door de Nederlandse Taalunie een Nederlands-Vlaams platform voor de Nederlandse taal- en spraaktechnologie (TST) ingesteld. In dit platform zijn de beleidsorganisaties vertegenwoordigd die in Nederland en Vlaanderen verantwoordelijk zijn voor het beleid ten aanzien van taal- en spraaktechnologie. Naast de Nederlandse Taalunie zijn dit in Nederland: het Ministerie van Onderwijs, Cultuur en Wetenschappen, het Ministerie van Economische Zaken, de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) en Senter; in Vlaanderen: het Ministerie van de Vlaamse Gemeenschap/Administratie Wetenschap en Innovatie (AWI), het Instituut voor de Bevordering van het Wetenschappelijk-Technologisch Onderzoek in de Industrie (IWT) en het Fonds voor Wetenschappelijk Onderzoek (FWO). Dit platform stelde in 1999 het Actieplan voor het Nederlands in taal- en spraaktechnologie vast, waarin vier actielijnen, A, B, C en D, gedefinieerd zijn. Actielijn A streeft een betere samenwerking tussen industrie, academia en beleidsinstanties na en wil de zichtbaarheid van het veld verbeteren. Actielijn B heeft als taak te definiëren wat de BATAVO (Basis-Taal&Spraak-Voorziening) voor het Nederlands moet inhouden, welke materialen met voorrang dienen te worden ontwikkeld (prioriteitenlijst) en welke kosten daaraan verbonden zijn. Actielijn C heeft als doel een lijst met criteria op te stellen waaraan basismaterialen moeten voldoen en stelt standaarden op voor de validatie van de materialen. Actielijn D uit het Actieplan betreft het laten uitwerken van een Blauwdruk voor verwerving, onderhoud, beheer en distributie van door de overheid gefinancierde digitale materialen. Waarom zo'n Blauwdruk? Verschillende organisaties worden in de praktijk geconfronteerd met verwerving, beheer, onderhoud en distributie van TST-materialen. Instanties financieren vaak alleen het ontwikkelen van materialen en voelen zich niet meer verantwoordelijk na afloop van het project. Materialen die niet worden onderhouden, verminderen echter snel in waarde en onduidelijke auteursrechtelijke afspraken kunnen exploitatie bemoeilijken. 1.2 Om welke materialen gaat het? Om elk misverstand uit te sluiten benadrukken wij dat het hier hoofdzakelijk gaat om materialen voor taal- en spraaktechnologie die met overheidsgelden buiten een permanente institutionele infrastructuur gemaakt worden. De Nederlandse Taalunie heeft gevraagd bij de uitwerking van de Blauwdruk het hoofdaccent op juist die materialen te leggen. De consequentie van die keuze is dat de Blauwdruk slechts incidenteel en wanneer dat om contrastieve redenen onvermijdelijk is, in kan gaan op aspecten die buiten deze focus vallen. Zo zullen er wel raakvlakken zijn met bijvoorbeeld de wijze waarop literaire corpora verworven, beheerd en gedistribueerd kunnen worden, maar hoe een tekst literair verrijkt kan of bij voorkeur dient te worden, zal men er niet in vinden. Ook de problematiek waarvoor bijvoorbeeld een instelling als het Meertens-Instituut geplaatst is met zijn grote hoeveelheden met de hand ingevulde dialectvragenlijsten valt buiten het kader van deze Blauwdruk. Hetzelfde geldt voor het beheren van twee- of meertalige bestanden en voor terminologieën. Wat expliciet uitgesloten is in de Blauwdruk zijn de digitale materialen van archieven en bibliotheken. Dat geldt, op verzoek van Taalunie, voorlopig ook voor de materialen en methoden die ontwikkeld zijn door het bedrijfsleven. 8

De materialen die wel onderwerp van bespreking zijn, zijn primair corpora van geschreven en gesproken Nederlands, spraakcorpora 1, computationele lexica, elektronische traditionele woordenboeken en software voor taal- en spraaktechnologie; in het vervolg TSTmaterialen genoemd, of specifieker TST-data en TST-software. 1.3 Concentratiepunt van de Blauwdruk De Blauwdruk houdt rekening met algemene, internationale tendensen en geeft nadruk aan wat op binationaal niveau (Nederland en Vlaanderen) wordt nagestreefd. Dat betekent dat de vigerende internationale hoofdstromen ten aanzien van materialen en methoden van verwerving, taalkundige verrijking, opslag en beheer e.d. besproken zullen worden. In nauwe aansluiting daarbij zullen als leidraad voor deze beschrijving dienen de vigerende nationale aanbevelingen uit de rapporten van Viskil (1999) en Bouma en Schuurman (1998), alsmede het Actieplan voor het Nederlands in Taal- en Spraaktechnologie (1999) van de Nederlandse Taalunie, zeer in het bijzonder Actielijn D. Rekening houden met algemene, internationale tendensen impliceert echter niet dat er geen andere of zelfs betere protocollen denkbaar zijn. Zo is wat er geschreven wordt over de grote multifunctionele corpora van geschreven taal met al hun faciliteiten voor selectie van subcorpora wel een internationale tendens, maar wordt die beschrijving niet als het ultieme protocol aangeboden van de manier waarop corpora opgebouwd dienen te worden. Ook worden er voorbeelden gegeven zonder dat ze als standaard bepleit worden. Zo is wat gezegd wordt van het Corpus Gesproken Nederlands slechts een voorbeeld van hoe je een spraakcorpus naar analogie van het British National Corpus kunt opbouwen. In de Blauwdruk wordt door de stellers ervan verantwoord hoe dingen elders gedaan worden en hoe zij zelf hun oplossingen inrichten. Het is evident dat elke andere instelling haar eigen protocollen naar eigen inzichten zal hanteren. Wat hier gepresenteerd wordt, is informatief beschrijvend en geen wet. 1.4 Mogelijke gebruikers Gebruikers kunnen vanuit diverse invalshoeken beschouwd worden: 1) Wie zijn degenen die gebruik willen maken van TST-materiaal dat met overheidsgelden buiten een permanente institutionele infrastructuur gemaakt is? 2) Voor welke doeleinden willen ze dat materiaal gebruiken? 3) Welke status heeft de gebruiker? 4) Welke relatie heeft de gebruiker tot andere betrokkenen? De impliciete achtergrond van (1) is dat genoemd materiaal het meest rendeert als zo veel mogelijk gebruikers van hetzelfde TST-materiaal gebruik maken. De relatie die beoogd wordt tussen gebruikers en hergebruik van TST-materialen is gebaseerd op multifunctionaliteit. Een Europese studie naar wie die gebruikers zijn en waaraan ze behoefte hebben, was onderdeel 1 Corpora bestaande uit getranscribeerde lopende spraak worden in de corpuslinguïstiek 'corpora van gesproken taal' of 'gesproken-taalcorpora' genoemd, als tegenhanger van de veel frequenter voorkomende corpora van geschreven taal. In de spraakwereld wordt een andere terminologie gehanteerd. Onder de corpora van gesproken taal worden de corpora die naast de orthografische transcripties ook de bijbehorende spraakfiles bevatten spraakcorpora genoemd. Een spraakcorpus is mitsdien een verzameling van spraakbestanden, met minstens een orthografische transcriptie in elektronische vorm, met bijbehorende documentatie (labelfiles en transcriptieconventies) en eventueel met een lexicon. Deze moeten zijn opgeslagen in een formaat dat leesbaar en bereikbaar is met een computer. Het onderscheid in terminologie werd duidelijk tijdens de bijdrage van SPEX aan de Blauwdruk; hoewel de nodige aanpassingen zijn aangebracht, is inconsistent gebruik van de terminologie niet uitgesloten. Vgl. ook 4.2.3. 9

van o.a. het NERC-project (Teubert 1995). Een dergelijke studie gericht op de huidige situatie voor het Nederlandse taalgebied valt buiten het bestek van deze Blauwdruk. Niettemin kunnen wel een aantal gebruikersgroepen genoemd worden: (a) Taal- en spraaktechnologen, waaronder we al diegenen rekenen die zich op welke wijze dan ook bezig houden met natuurlijke-taalverwerking door computers, dus onderzoekers die onderzoeken hoe je komt tot de beste automatische taalontleders (in de meest ruime zin: van spellingcheckers tot automatische semantische analyse), tot automatische spraakherkenning en spraaksynthese, maar ook commerciële ontwikkelaars van natuurlijke-taalverwerkende (modules van) systemen voor bijvoorbeeld automatisch vertalen, automatisch samenvatten, documentretrieval, mens-machinecommunicatie, informatieretrieval, natuurlijke-taalgeneratie, tekst-naar-spraakomzetting, etc. Hieronder kunnen ook begrepen worden ontwikkelaars van hulpmiddelen voor bepaalde categorieën gehandicapten. (b) De onderwijssector, waar TST-materiaal gebruikt wordt als lesmateriaal. Onder andere via Kennisnet worden digitale bestanden verworven en gebruikt. (c) Onderzoekers, overheidsinstellingen, geïnteresseerde particulieren, documentalisten en anderen die TST-data willen bevragen als een kennisbank. (d) Deze opsomming laat zien dat TST-materiaal voor zeer diverse doeleinden gebruikt wordt. Vanuit de tweede invalshoek is de volgende indeling in gebruikersgroepen relevant vanwege potentiële juridische en financiële consequenties voor het gebruik van het materiaal: (a) Gebruikers die onderzoek doen met TST-materiaal zonder enig winstoogmerk en zonder dat een commerciële toepassing die uit dit gebruik kan voortkomen waarschijnlijk is. (b) Gebruikers die onderzoek doen met als oogmerk de ontwikkeling van commerciële toepassingen, diensten of (half)producten. In dit stadium wordt winst beoogd maar nog niet verkregen. (c) Onderzoekers en (overheids-, onderwijs-)instellingen die TST-materiaal gebruiken in en voor commerciële toepassingen, diensten of (half)producten. Vanuit de derde invalshoek zijn de volgende gebruikersgroepen te onderscheiden, eveneens vanwege potentiële juridische en financiële consequenties voor het gebruik van het materiaal: (a) De gebruiker is een individu. (b) De gebruiker is werkzaam in een onderzoeksgroep of (dienstverlenende) nonprofitorganisatie. (c) De gebruiker is werkzaam in het bedrijfsleven. (d) De gebruiker is een onderzoeksinstelling of (dienstverlenende) non-profitorganisatie. (e) De gebruiker is een commercieel bedrijf. Vanuit de vierde invalshoek is er onderscheid tussen: (a) De gebruiker is geheel en al de maker van het TST-materiaal. (b) De gebruiker is de bewerker van materiaal van anderen. (c) De gebruiker betrekt zijn materiaal van een beherende en/of distribuerende instantie. 1.5 Doelstellingen Blauwdruk Op grond van bovenstaande constateringen wil de hier voorliggende Blauwdruk beantwoorden aan de volgende doelstellingen: 10

1) Hij moet informatie leveren en evaluatiecriteria aanreiken waarop beleidsorganisaties zich kunnen baseren bij het beoordelen van projectaanvragen die betrekking hebben op het ontwikkelen van TST-materialen. 2) Hij moet informatie leveren waarop beleidsorganisaties zich kunnen baseren bij het opstellen van beleidsplannen en begrotingen waarin verwerving, onderhoud, beheer en distributie van TST-materialen een rol spelen. 3) Hij moet praktische informatie leveren aan organisaties die in de praktijk geconfronteerd worden met verwerving, onderhoud, beheer en/of distributie van TST-materialen. 4) Hij moet een antwoord geven op de vragen hoe TST-materiaal na voltooiing van grote projecten, nationaal en internationaal hergebruikt kan worden en aan welke prioriteiten moet worden voldaan om die doelstelling te verwezenlijken. 5) De gevraagde informatie over het ontwikkelen, beheren, onderhouden en distribueren zal in acht hoofdstukken worden uitgewerkt. Hoofdstuk 2 Verwerving In dit hoofdstuk wordt aandacht besteed aan scenario's voor de verwerving van materialen voor taal- en spraaktechnologie (2.2.). Vervolgens worden specifieke juridische (zie 2.3.1.) en financiële (2.3.2.) eisen besproken. Deze paragrafen betreffen aspecten die algemeen gelden voor TST-materialen (TST-data en TST-software). Daarom worden die aspecten voorop geplaatst in de uitwerking van dit hoofdstuk. Voorts wordt meer specifiek aandacht besteed aan de selectie van een elektronische tekstenverzameling (zie 2.4.) en aan die van een elektronische verzameling spraak (2.5.). Bij beide dataverzamelingen komen zaken van selectie en ontwikkeling aan de orde, die achtereenvolgens vanuit het perspectief van een non-profitorganisatie, maar ook vanuit dat van de individuele onderzoeker zullen worden besproken. Vervolgens wordt aandacht gevraagd voor zaken als: verwerving, productie en aard van de digitale tekstbestanden dan wel technische aspecten bij aanlevering van digitale bestanden (2.6. en 2.7.) en de productie en verwerving van (digitale) opnamen van spraakcorpora (2.8.). De ontwikkeling van andere TST-data (zoals bijvoorbeeld corpusgebaseerde computationele lexica, trainingscorpora, (multimodale) corpora) en van TST-software (zoals bijvoorbeeld woordsoorttaggers, automatische zinsontleders, annotatiesoftware) komt aan de orde in hoofdstuk 4. In 2.9., dat weer een algemener karakter heeft, zullen omtrent de verwerving van TSTmaterialen aanbevelingen worden gedaan aan beleidsorganisaties. In bijlagen worden modellen van juridische overeenkomsten toegevoegd (2.10.). Hoofdstuk 3 Verwerking en bewerking van verworven data In dit hoofdstuk staan verwerking, bewerking en administratie van TST-data centraal, in het bijzonder die van verzamelingen teksten en spraak. In paragraaf 3.2. beschrijven wij procedures voor de wijze waarop data voor een elektronische tekstenverzameling verwerkt, bewerkt en geadministreerd worden. Paragraaf 3.3. besteedt aandacht aan de verwerking en bewerking van data in een elektronische verzameling spraak. Zoals zal blijken, spelen conversie- en adaptatieprocedures in dit hoofdstuk een belangrijke rol (3.2.1. en 3.3.1.). Waarom het opzetten van een goed gestructureerde directory van vitaal belang is bij de opslag van verworven data wordt beschreven in 3.4. Ten slotte worden de voordelen van een inzichtelijke en functionele administratie in 3.5. besproken. In paragraaf 3.6. worden conclusies getrokken en aanbevelingen voor beleidsorganisaties gedaan. 11

Hoofdstuk 4 Taalkundige bewerking van taalmateriaal Dit hoofdstuk gaat over taalkundige bewerking van taalmateriaal, dat wil zeggen het toevoegen van taalkundige informatie aan digitaal taal- en spraakmateriaal ('verrijking)'. Het digitale materiaal betreft corpora van geschreven en gesproken taal (dat verworven en technisch bewerkt is als uiteengezet in de hoofdstukken 2 en 3), spraakcorpora, digitale woordenboeken, computationele lexica, uitspraaklexica, etc.. In de inleiding (4.1.) wordt het nut van verrijking uitgelegd en wordt een gedetailleerde opzet van dit hoofdstuk gegeven. 4.2. gaat over de inhoudelijke en vormelijke aspecten van verrijking. De opzet van deze paragraaf is van algemeen naar specifiek. 4.2.1. is bedoeld voor lezers die een globaal beeld willen hebben van wat aan de orde is bij verrijking. De volgende vier paragrafen, 4.2.2. 4.2.5., bieden nadere informatie aan lezers die hun weg willen vinden in de wereld van resp. de verrijking van geschreven-taalcorpora en spraakcorpora, de verrijking van digitale woordenboeken tot elektronische woordenboeken en de ontwikkeling van computationele lexica, (multimodale) spraakcorpora, etc. 4.2.6. geeft stappenplannen om te komen tot resp. een verrijkt tekstcorpus (4.2.6.2.), een verrijkt of geannoteerd spraakcorpus (4.2.6.3.), een elektronisch woordenboek (4.2.6.4.) en een computationeel lexicon (4.2.6.5.), met daarbij het type personeel dat nodig is en indicaties van de werklast. Deze paragraaf is bedoeld voor wie deze typen verrijkte data wil gaan ontwikkelen, voor de beoordelaars van dergelijke dataontwikkelingsprojecten en voor wie verrijkte data moet onderhouden. Tevens is deze paragraaf de basis voor kostenramingen betreffende het onderhoud van dergelijke data (vgl. 6.6.) 4.3. gaat over taalkundige programmatuur waarmee verschillende vormen van verrijking, zoals behandeld in 4.2., automatisch kunnen worden aangebracht. Ook deze paragraaf heeft een opzet van algemeen naar specifiek. Deze paragraaf is bedoeld voor taaltechnologen die zich op het Nederlands richten. In 4.3.1. worden algemeen geldige aspecten behandeld. Deze paragraaf is bedoeld voor genoemde taaltechnologen en voor wie een project waarin automatische taalkundige verrijking beoogd wordt, wil opzetten of beoordelen. In 4.3.2.-4.3.5. wordt meer in detail aandacht besteed aan resp. software voor de verschillende vormen van verrijking van corpora van geschreven en gesproken taal, software voor de codering van informatiecategorieën in digitale traditionele woordenboeken en software voor de ontwikkeling van een computationeel lexicon. De werklast van automatische taalkundige verrijking is verwerkt in 4.2.6. 4.4. gaat in op keuzes die een organisatie die TST-materialen ontwikkelt moet maken bij de ontwikkeling en het testen van taalkundige programmatuur. Die keuzes betreffen hardwareplatforms, besturingssystemen, programmeertalen. Ook komen richtlijnen voor het programmeren, documentatieaspecten, het gebruik van ontwikkelmethoden en criteria voor het opbouwen en gebruiken van testprocedures aan de orde. Deze paragraaf is bedoeld voor automatiseringsdeskundigen en op onderdelen voor computerlinguïsten. 4.5. geeft de stand van zaken weer met betrekking tot de evaluatie van de dataverzamelingen en taalkundige software die in de voorgaande paragrafen besproken zijn. 4.6. gaat over infrastructurele voorzieningen, op internationaal, nationaal en lokaal niveau. 4.7. behandelt financiële aspecten, gebaseerd op 4.2.6. en op 4.6. 4.8. biedt aanbevelingen voor beleid, vanuit het perspectief van dit hoofdstuk en de taken van de TST-centrale daarbij. 12

Hoofdstuk 5 Beheer In dit hoofdstuk staat het beheer centraal van de verzameling digitale teksten en/of de verzameling spraak, hierna aangeduid met 'data', alsook het beheer van software. Onder software wordt in dit hoofdstuk verstaan: TST-programmatuur, al dan niet in eigen beheer ontwikkeld en overige software zoals bijvoorbeeld systeemprogrammatuur. Het optimaal gebruik van data en software valt of staat met goed beheer. De uitval van een computer waarop data zijn opgeslagen die snel beschikbaar moeten zijn, is op zich al vervelend, maar kan ernstige vormen aannemen als bijv. blijkt dat het onderhoud van de betreffende computer niet goed is geregeld. Over dit soort aspecten gaat het onder meer in dit hoofdstuk. De indeling van dit hoofdstuk is als volgt. Eerst zal in 5.2. aandacht worden besteed aan de vraag of het beheer moet worden uitbesteed of dat het in eigen hand moet worden gehouden. In aansluiting daarop wordt in 5.3. ingegaan op de kwalificaties voor het personeel dat de beheertaken moet uitvoeren. In 5.4. zal het technische beheer worden besproken. Onderdelen van deze paragraaf zijn beheer van de apparatuur (5.4.1.), beheer van data en software en archiveringskwesties (5.4.2.) en de conversie van informatiedragers (5.4.3.). In 5.5. staat beveiliging centraal. Hierbij wordt onderscheid gemaakt tussen beveiliging tijdens opslag en verwerking (5.5.1.) en beveiliging tijdens transport van gegevens (5.5.2.). In 5.6. zal de administratie m.b.t. beheer aan de orde komen. In 5.7. worden kosten genoemd die met beheer samenhangen. Het hoofdstuk wordt afgesloten met conclusies en aanbevelingen voor beleidsorganisaties (5.8.). Hoofdstuk 6 Onderhoud Eenmaal verworven of ontwikkelde taalmaterialen voor TST vereisen onderhoud om hun bruikbaarheid te behouden. In de planning van tijdelijke projecten waarin taalmateriaal wordt ontwikkeld, is het aspect onderhoud veelal afwezig of onderbelicht (ook financieel), mede doordat onderhoud vooral speelt na afloop van een project. Dit leidt op den duur tot kapitaalvernietiging doordat de taalmaterialen niet meer bruikbaar zijn. In het kader van de actielijnen van het TST-platform is het zaak voor de Nederlands Taalunie om aan het onderhoudsaspect voldoende aandacht te geven. Dit hoofdstuk biedt daartoe de instrumenten. Onderhoud omvat (a) technisch onderhoud, (b) inhoudelijk onderhoud en (c) juridisch onderhoud. Hetgeen onderhoud vereist zijn data, eventuele annotaties daarbij en hun taalkundige en technische formats (6.2.), taalkundige software en data die door die software gebruikt worden (6.3.) systeemsoftware, computerplatforms en informatiedragers (6.4.) en contracten met leveranciers, ontwikkelaars, distributeurs, gebruikers en sprekers (6.5.). Bij al deze onderwerpen zijn er relaties met andere hoofdstukken. Dit hoofdstuk wordt besloten met een financiële paragraaf (6.6.) en beleidsaanbevelingen (6.7.). Hoofdstuk 7 Distributie De distributie van materialen ten behoeve van taal- en spraaktechnologie (TST-materialen) kan geschieden volgens verschillende scenario's (7.2.). In paragraaf 7.3.1. worden juridische eisen besproken die bij de distributie van TST-materialen vervuld moeten worden. De financiële zaken die samenhangen met distributie wordt geschetst in paragraaf 7.3.2. Hoe de data technisch gedistribueerd kunnen worden staat te lezen in paragraaf 7.4. In 7.5. worden andere randvoorwaarden voor distributie behandeld met een praktisch karakter, zoals het voorzien in een handleiding en documentatie bij het gedistribueerde product. Ook komen daar overwegingen aan de orde voor het maken van technische keuzen en de automatische 13

financiële verrekening en afhandeling. Dit hoofdstuk wordt afgesloten met conclusies en aanbevelingen voor beleidsmakers (7.6.) en modelcontracten (7.7.). Hoofdstuk 8 Gebruikersondersteuning Distributie impliceert gebruikersondersteuning: gebruikers moeten terecht kunnen met vragen en verzoeken. De beschreven ondersteuning betreft een website met on-line helpinformatie (8.2.), een helpdesk (8.3.), een mailinglijst (8.4.), de levering van software en data 'op maat' (8.5.), softwareservices (8.6.) en advisering (8.7.). Paragraaf 8.8. gaat in op het kostenaspect en 8.9. geeft enige aanbevelingen voor beleid. Hoofdstuk 9 Beleidsaanbevelingen Op basis van het voorgaande worden in dit hoofdstuk een achttal aanbevelingen gedaan. In de eerste aanbeveling wordt de instelling van een zogeheten TST-centrale bepleit. De tweede betreft de vorm van de TST-centrale en de rol van de Nederlandse Taalunie. De derde bespreekt de taken van de TST-centrale, onderscheiden in hoofd- en neventaken. De vierde en vijfde gaan over de kosten die door resp. de overheid en de gebruikers van de TST-centrale gedragen moeten worden. De overige gaan achtereenvolgens over de voorwaarden van acceptatie van TST-materialen door de TST-centrale, internationale participatie en de ontwikkeling en het behoud van TST-expertise. 14

2 Verwerving 2.1 Inleiding Het verwerven van materialen voor taal- en spraaktechnologie kan geschieden volgens verschillende scenario's (2.2.) en stelt bovendien zijn specifieke juridische (zie 2.3.1.) en financiële (2.3.2.) eisen. Deze paragrafen betreffen aspecten die algemeen gelden voor TSTmaterialen (TST-data en TST-software). Daarom zullen wij die aspecten voorop plaatsen in de uitwerking van dit hoofdstuk. Voorts zullen wij meer specifiek aandacht besteden aan de selectie van een elektronische tekstenverzameling (zie 2.4.) en aan die van een elektronische verzameling spraak (2.5.). Bij beide dataverzamelingen komen zaken van selectie en ontwikkeling aan de orde, die achtereenvolgens vanuit het perspectief van een non-profitorganisatie, maar ook vanuit dat van de individuele onderzoeker zullen worden besproken. Vervolgens wordt aandacht gevraagd voor zaken als: verwerving, productie en aard van de digitale tekstbestanden dan wel technische aspecten bij aanlevering van digitale bestanden (2.6. en 2.7.) en de productie en verwerving van (digitale) opnamen van spraak (2.8.). Voor de ontwikkeling van andere TST-data (zoals corpusgebaseerde computationele lexica, trainingscorpora voor taalkundige toepassing, (multimodale) corpora, etc.) en van TSTsoftware (zoals woordsoorttaggers, automatische zinsontleders, annotatiesoftware, etc.) verwijzen wij naar hoofdstuk 4. In 2.9., dat weer een algemener karakter heeft, zullen omtrent de verwerving van TSTmaterialen aanbevelingen worden gedaan aan beleidsorganisaties. In bijlagen worden modellen van juridische overeenkomsten toegevoegd (2.10.). 2.2 Scenario's voor verwerving 2.2.1 Individueel Elke onderzoeker kan met kennis van zaken en via persoonlijke contacten proberen zelf zijn weg te vinden in de her en der (toevallig) beschikbare, al dan niet gedocumenteerde TSTmaterialen. Bij veel onderzoekers is evenwel niet altijd bekend of en waar er voor hun onderzoek geschikte TST-materialen beschikbaar zijn. En zijn zij al beschikbaar, dan ontbreekt vaak een goed inzicht in de kwaliteit en gebruiksvoorwaarden daarvan. Regelmatig zijn onderzoekers ook niet bekend met belendende problemen van juridische, financiële en technische aard. In veel gevallen is het dan ook niet zonder risico om bij de acquisitie van TST-materialen alleen op het eigen kompas te varen. 2.2.2 Institutioneel De onderzoeker kan grote juridische en financieel-economische problemen voorkomen door TST-materiaal te betrekken van of te laten aanmaken door een reeds bestaande nationale of internationale organisatie die met overheidsgelden binnen een permanente institutionele infrastructuur TST-materialen aanmaakt en verwerft. Ook kan zo'n instelling voorzien in technische aspecten (computerplatform, formaat, conversie e.d.). Binnen het veld van taal- en spraaktechnologie is er evenwel enige aarzeling om één instelling verantwoordelijk te stellen voor de verwerving en aanmaak van TST-materialen. Die aarzeling wordt vooral gevoed doordat zo'n instelling vaak zeer gespecialiseerd is in slechts een beperkt domein van taal- en spraaktechnologie, zoals bijvoorbeeld in de aanleg 15

van corpora van geschreven taal of van spraakcorpora, in de ontwikkeling van taalkundige software of van bevragingssoftware etc. 2.2.3 Collectief Instellingen die beschikken over een permanente institutionele infrastructuur en die tevens duidelijk afgebakende statutaire doelstellingen hebben zouden samen één rechtspersoon moeten vormen (een consortium bijvoorbeeld) die zich verantwoordelijk stelt voor de verwerving en aanmaak van TST-materialen. Iedere instelling die aangesloten is bij zo'n consortium blijft de kwalitatief goede TST-materialen ontwikkelen waarin ze gespecialiseerd is. De onderlinge afstemming en samenwerking tussen de leden van het consortium wordt geregeld door een coördinerende instantie. Een dergelijke constructie, in het vervolg de TSTcentrale genoemd, zal het meest renderen voor het taal- en spraaktechnologisch onderzoek. 2.3 Specifieke eisen 2.3.1 Juridische aspecten Op TST-materialen, of het nu gaat om TST-data of TST-software, berust auteursrecht. "Aan elk werk van letterkunde, wetenschap of kunst is van rechtswege vanaf zijn ontstaan een exclusief beschikkingsrecht voor de maker verbonden. Dit exclusieve beschikkingsrecht omvat onder andere de rechten om te beslissen over openbaarmaking en verveelvoudiging (exploitatierechten), om als maker te worden aangemerkt en om te beslissen over wijzigingen in het werk (persoonlijkheidsrechten). Voor auteursrechtelijke bescherming moet het betreffende werk wel een voldoende oorspronkelijk karakter hebben. De exploitatierechten zijn overdraagbaar. Persoonlijkheidsrechten zijn in principe niet overdraagbaar, de rechthebbende kan wel te kennen geven dat hij zich niet op bedoeld recht zal beroepen." (Bouma en Schuurman 1998: 16). Als TST-materialen auteursrechtelijk beschermd zijn, mogen ze zelden zonder voorafgaande afspraken door derden gebruikt worden. Het is verboden ze 'openbaar te maken' en te 'vermenigvuldigen', behalve onder bepaalde condities en voor strikt persoonlijk gebruik. Het auteursrecht laat anderzijds alles toe waarover overeenstemming bereikt is tussen de gebruiker of een intermediërende instantie enerzijds en de auteursrechthebbende(n) anderzijds. De centrale vraag is dus hoe wij de toestemming voor hergebruik van TST-materialen kunnen verwerven. Daarbij moet duidelijk zijn waar de rechten op die materialen liggen en wat er onder gebruik en hergebruik wordt verstaan. Wat de verschillende rechten betreft, blijken die te vaak niet ondubbelzinnig te zijn vastgelegd. Zo is de feitelijke maker bijvoorbeeld niet de juridische maker als het werk volgens een nauw omschreven opdracht wordt gemaakt of als het werk gemaakt wordt door een werknemer die hiervoor in dienst is genomen. De rechten komen dan niet toe aan de werkelijke maker van een werk (de werknemer-auteur), maar aan degene die door de wet als fictieve maker (de werkgever) wordt beschouwd. (Bouma en Schuurman 1998: 18). Een complicerende factor is nog of die werknemer is tewerkgesteld bij een universiteit of een andere kennisinstelling, dan wel een bedrijf en of het daarbij wel of niet gaat om een project gefinancierd door derden (bijvoorbeeld EU). Daarnaast moet niet worden vergeten dat personen die hun spraak lenen aan de verzameling van een spraakcorpus de eigenaar blijven van het bestand waarin hun spraak is opgeslagen. Zij kunnen dit recht overdragen aan de maker van het corpus door het tekenen van een zogenoemde vrijgaveverklaring. 16

In elk taalgebied worden door zowel professionelen als amateurs TST-materialen ontwikkeld. De makers van die materialen zijn de rechthebbenden in de zin van de auteurswet. Zij kunnen dat auteursrecht overdragen aan een uitgever of aan een andere rechtverkrijgende, dan wel een gebruikslicentie verlenen. "Met het verlenen van een licentie wordt aan een niet-rechthebbende de toestemming gegeven om het auteursrechtelijk beschermde werk op een andere wijze openbaar te maken of te verveelvoudigen. Het auteursrecht zelf blijft in handen van de licentiegever. In geval van niet-exclusieve licentie blijft de auteursrechthebbende ook zelf gerechtigd tot het zelfstandig exploiteren van het werk en kan hij ook anderen een soortgelijke toestemming geven. Bij een exclusieve licentie verplicht hij zich tegenover de licentienemer om aan anderen geen soortgelijke toestemming te verlenen." (Bouma en Schuurman 1998: 16). Met uitzondering van commerciële ondernemers, ontwikkelen de meeste rechthebbenden hun TST-materialen voor eigen behoeften en vaak voor ad-hocgebruik. Het geschikt maken voor hergebruik, het op peil houden en valideren van die TST-materialen behoort meestal niet tot de kern van hun activiteiten. Om die reden is een TST-centrale nodig die rechthebbenden stimuleert om dergelijke TST-materialen onder nader overeen te komen voorwaarden ter beschikking te stellen van anderen. Toestemming van de rechthebbende(n) moet vooraf verkregen worden voordat werk, d.w.z. tijd en geld, besteed wordt aan de bewerking van geselecteerd en verworven TST-materiaal. Dit geldt ook ingeval een individuele onderzoeker TST-materiaal aanlevert aan de TSTcentrale. Het verdient aanbeveling die toestemming schriftelijk te verkrijgen in de vorm van een contract. Bij voorkeur wordt gewerkt met een standaardmodel voor dat contract tussen de recht- of licentieverwervende en de rechthebbende(n), met verschillende opties of verschillende contractvarianten voor de diverse typen van gebruik c.q. gebruikers (vgl. 1.4.). Dit maakt enerzijds de administratieve afwikkeling efficiënter, anderzijds perkt het een diversiteit aan gebruikscondities in. Zo'n standaardmodel bevat onder meer clausules die vastleggen wat door wie wanneer met de TST-materialen gedaan mag worden. De formulering hiervan vergt een uiterste zorgvuldigheid. Expliciet moet voorzien worden in een nauwkeurige beschrijving van het type gebruik of gebruiker. De voorwaarden moeten bij voorkeur zo geformuleerd worden, dat voorkomen wordt dat in een later stadium opnieuw toestemming moet worden gevraagd voor een ander type gebruik of gebruiker. De formulering van de condities op het gebruik van TST-materialen moet dus enerzijds heel expliciet zijn en anderzijds voldoende ruimte laten om niet voorzien gebruik te dekken. In het contract met rechthebbenden moet bepaald worden of een gebruikersovereenkomst uitsluitend met individuen gesloten zal worden of ook met onderzoeksgroepen respectievelijk instellingen. Contracten die de verantwoordelijkheden en verplichtingen regelen van beide partijen dienen door zo'n TST-centrale opgesteld te worden. In het volgende schema, dat wij ontlenen aan de European Language Resources Association (Choukri, Mance & Mapelli 2000: 69), wordt rekening gehouden met het belang van beide partijen, t.w. rechthebbende(n) en gebruikers. 17

rechthebbende(n) TST-centrale gebruikers zonder winstoogmerk gebruikers t.b.v. productontwikkeling, nog zonder winst gebruikers t.b.v. productontwikkeli ng, met winst Indien wij het model verwoorden, dan worden er contracten gesloten tussen de TST-centrale en de rechthebbende(n) van TST-materialen enerzijds en tussen de TST-centrale en de gebruiker van de TST-materialen anderzijds. Het kan ook voorkomen dat de TST-centrale een contract sluit met een gebruiker die de TST-materialen, na ze verrijkt te hebben, doorverkoopt. Belangrijk is dat de TST-centrale verifieert of aanbieders van TST-materialen de rechten bezitten die berusten op het aangeboden materiaal. Zij dient dus de voorwaarden die door de rechthebbenden gesteld zijn, recht te doen. In de praktijk wordt meestal onderscheiden tussen de volgende soorten gebruikers (vgl. 1.4.): (a) Onderzoekers, particulieren en (onderwijs)instellingen die onderzoek doen of anderszins gebruikmaken van TST-materialen zonder enig winstoogmerk en zonder enige commercieel denkbare toepassing die uit dat gebruik kan voortkomen. (b) Onderzoekers en instellingen die TST-materialen gebruiken ten behoeve van de ontwikkeling van commerciële toepassingen, diensten en (half)producten. In dit stadium wordt winst beoogd, maar nog niet verkregen. (c) Onderzoekers en instellingen die TST-materialen gebruiken in en voor commerciële toepassing, diensten of (half)producten. De voorwaarden waaronder een overeenkomst wordt gesloten, verschillen al naar gelang het type gebruik(er). Dit geldt zowel voor de rechthebbende die een overeenkomst sluit met de TST-centrale als intermediaire leverancier (2.10.1.) als voor de TST-centrale die een overeenkomst sluit met de gebruiker (7.7.1.). Buiten beschouwing moet hier blijven de juridisch buitengewoon gecompliceerde situatie die zich voor kan doen in geval van verwerving van TST-materialen met vele rechthebbenden, zoals complete corpora (vgl. hieronder). Complexe relaties waarvoor een juridische regeling dringend noodzakelijk is, maar die in deze Blauwdruk niet uitgewerkt kunnen worden, zijn die tussen universiteiten en bedrijfsleven, tussen tools, halfproducten en producten, tussen werknemers van een universiteit en andere werknemers. Bij voorkeur de Nederlandse Taalunie zou als intergouvernementele verdragsorganisatie in Nederland en 18

Vlaanderen haar binnen het project CGN opgedane expertise ook kunnen aanwenden voor genoemde domeinen. We gaan nu in op enige bijzonderheden ten aanzien van corpora en TST-software. Bij het opbouwen van een spraakcorpus zijn er vele rechthebbenden (sprekers, opnameleiders, transcribenten en vele andere medewerkers). Hun aantal kan zelfs groter zijn dan bij een gevarieerd samengesteld corpus van geschreven taal met vele tekstleveranciers. Om de logistieke problemen die gemoeid zijn met het voeren van onderhandelingen met en het contracteren van vele rechthebbenden te vergemakkelijken, is het raadzaam, waar mogelijk, de auteursrechten zoveel mogelijk in één rechtspersoon te concentreren. "Bij het ontwikkelen van nieuwe materialen is het ( ) belangrijk al bij de start van een project bindende afspraken te maken met alle eventuele rechthebbenden zodat de materialen zonder ongewenste auteursrechtelijke beperkingen kunnen worden gedistribueerd." (Bouma en Schuurman 1998: 18). Om die reden is reeds bij de start van het CGN besloten dat alle rechten op dat corpus zullen worden ondergebracht bij de Nederlandse Taalunie, die die rol zou moeten relateren aan de werking van de TST-centrale (zie 2.9. en hoofdstuk 9). Tenslotte wordt nog vermeld dat volgens ter zake deskundige juristen bij voorkeur zogenaamde aktes van rechtenoverdracht worden toegepast, indien men from scratch begint met de aanleg van een verzameling spraak. Zie verder paragraaf 2.10.2. TST-software is net als TST-data auteursrechtelijk beschermd, maar bij de verwerving hoeft het gebruik minder vaak expliciet contractueel geregeld te worden. In het algemeen worden bij software de rechten en plichten van de gebruiker geregeld in een zogenaamde licentie. Niet-commerciële software wordt echter ook beschikbaar gesteld onder de GNU General Public Licence (GPL). De software mag dan vrijelijk worden verspreid, mits dat gebeurt met gebruikmaking van de GNU GPL. De consequentie is dat eenieder de software kan omvormen tot een commercieel product waarop dan weer wel copyright rust. De tekst van de GNU GPL-licentie is beschikbaar op http://www.gnu.org/copyleft/gpl.txt. Meer informatie over GNU-licenties is te vinden op http://www.gnu.org/philosophy/license-list.html. Zie verder hoofdstuk 7. 2.3.2 Financiële aspecten 2.3.2.1 Ontwikkeling van een elektronische tekstenverzameling In deze paragraaf beperken wij ons tot de directe personele en materiële kosten die gemoeid zijn met het aanleggen van een elektronische tekstenverzameling en tot een doorberekening van de afschrijving van de benodigde apparatuur. Indirecte kosten voor wat betreft huisvesting en administratieve ondersteuning blijven buiten beschouwing. Voorts gaan wij uit van het gegeven dat de TST-centrale, wier activiteiten uit publieke, academische en andere fondsen gefinancierd worden (zie hoofdstuk 9), de garantie geeft dat teksten tegen een billijk tarief toegankelijk zijn voor gebruik. Onderstaande kostenspecificatie vormt een basis voor de berekening van de totale kosten van de aanleg van een elektronische tekstenverzameling, waarbij de mate van dekking door overheid respectievelijk gebruikers buiten beschouwing gelaten wordt. Zie voor een omschrijving van de werkzaamheden verbonden aan diverse kostenposten: 2.6. en 2.7. Als directe personele kosten kunnen worden aangemerkt: Voorbereiden document Voorbereiden scanning 19

Voorbereiden codering Scanning en OCR Keyboarding Correctie Tekstcodering Als directe materiële kosten kunnen worden aangemerkt: Kosten van verwerving van teksten (op papier of (semi--)elektronisch beschikbaar Aankoop en ontwikkeling van applicatiesoftware Juridische kosten Als indirecte kosten kunnen worden aangemerkt: Afschrijving gebruikte apparatuur en software Materiaalopslag Beveiligingskosten Voor onvoorzien kan een opslag van 10% gehanteerd worden. Alvorens deze kosten kunnen worden verwerkt in de voorcalculatie dienen de volgende gegevens ingeschat te worden of bekend te zijn: (1) Inhoud van de totale opdracht: - Onderscheid in teksten en boeken welke bewerkt moeten worden en externe materialen. - Onderscheid in de staat waarin het materiaal zich bevindt. - Aantal pagina's per boek of tekst - Gemiddeld aantal woorden per pagina - Aantal karakters (inclusief spaties en leestekens) per woord (2) De bewerkingen die de verschillende materialen moeten ondergaan, zijn: 1. Scannen en OCR 2. Keyboarding 3. Correctie van scanning en keyboarding 4. Tekstcodering 5. Conversie extern materiaal 6. Voorbewerking van teksten rekeninghoudend met de reeds aanwezige formele kenmerken in het bestand. 7. Ontwikkeling van software 8. Controlewerkzaamheden 9. Daadwerkelijke conversie (3) Locatie(s) waar de bewerkingen zullen plaatsvinden: Extern in lageloonlanden Extern in eigen land Intern bij instelling/non-profitorganisatie (4) Een inschatting per bewerking: hoeveel karakters, woorden of pagina's per uur verwerkt kunnen worden.. 20