DUTCH PARALLEL CORPUS EN SONAR



Vergelijkbare documenten
Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken Hogeschool Gent

DPC. Dutch Parallel Corpus. Corpus Design. Lidia Rura

Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken LT 3 Hogeschool Gent

TAALTECHNOLOGIE 2.0: SENTIMENTANALYSE EN

SNELHEID VS. KWALITEIT: SCHUILT ER WEL WINST IN HET

[Dossier] Taal- en spraaktechnologie in Vlaanderen: dood of levend? Els Lefever en Lieve Macken. <foto s auteurs: zie gelijknamig bestand>

Curriculum vitae. Opleiding. Stage en scriptie. Klaar Vanopstal

HOE MEETBAAR IS LEESBAARHEID?

Vervolg op het STEVIN Programma

DPC (Dutch Parallel Corpus) een multitalig multifunctioneel corpus

Resultaten en Beschikbaarheid 1e Ronde projecten, SPRAAK en CORNETTO Jan Odijk i.s.m. TST-Centrale

Sentimentanalyse voor online politieke berichtgeving

Parse and Corpus-based Machine Translation. STEVIN Programmadag

Het Nederlands en Taal en Spraaktechnologie

curriculum vitae bart decadt November 2004

Wat is een corpus en waarvoor wordt het gebruikt?

Automatic lexico-semantic acquisition for question answering Plas, Marie Louise Elizabeth van der

Zoeken in een Afrikaans corpus: baie maklik! Liesbeth Augustinus Ineke Schuurman Vincent Vandeghinste Peter Dirix Frank Van Eynde

Taalkunde en Computertaalkunde in de Lage Landen: een verhouding die eerst spannend was, dan gespannen en nu gewoon ontspannen

syllabilijst 1819 eerste sem lesgever opleidingsonderdeel code titel cursus auteurs opmerkingen

Het I*Teach project. Innovative Teacher BG/05/B/P/PP Nico van Diepen Universiteit Twente

Automatisch Vertalen SMT

Het World Wide Web als corpus

TERMINOLOGICAL VARIATION IN

Translation-driven mapping of semantic fields of inceptiveness

Enquête crowdsourcing knaw voor onderzoekers en collectiebeheerders

De toekomst van de Tax Assurance Provider

Vakgroep Vertalen, Tolken en Communicatie

TERMINOLOGIE: OP HET SNIJVLAK VAN AMBACHT EN

GernEdiT The GermaNet Editing Tool

xxxx xxxx AMiCA Brainstorm 18 oktober 2010 xxxx xxxx

Daar het bestreden vonnis de huurovereenkomst ontbindt op de dag. van de uitspraak ervan zonder daarbij vast te stellen dat de na de

Natuurlijke-taalverwerking 1. Daniël de Kok

Sourcing & Technologie. Gerard Mulder, Commercieel directeur, mulder@textkernel.nl,

De combinatie van verrijkingen, machine learning en crowd sourcing

Disseminatie: artikels schrijven, presenteren en publiceren. Katrien Struyven

Technisch rapport SumNL corpus

Gebruik en gebruikers STEVIN en TST-Centrale

MACHINE LEREN VOOR E-DISCOVERY

CLARIN-NL Metadataproject

Inhoud: de eerste verzameling van Nederlandstalige gesproken en geschreven teksten,

Master in het vertalen. E.Snauwaert en P.Pauwels

Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016


SHICO: SHIFTING CONCEPTS OVER TIME

Today's talented youth field hockey players, the stars of tomorrow? Gemser, Marije

De automatische analyse van subjectiviteit en causale samenhang in tekst

Digital municipal services for entrepreneurs

Curriculum Informatica 2003/04

Choral + Spraaktechnologie: ingezet voor de ontsluiting van audiovisuele

De rol van de multinationale taaldienstenonderneming in dekwaliteitsproductie.

Onderzoeksplan bachelorscriptie

PDF hosted at the Radboud Repository of the Radboud University Nijmegen

DOWNLOAD OR READ : VAN DALE HANDWOORDENBOEK ENGELS NEDERLAN PDF EBOOK EPUB MOBI

Inleiding Wat zijn paradata en welke data voor welk gebruik. verzamelen?

Volwassenheid en effectiviteit van enterprise

University of Groningen. Safe and Sound van den Bosch, Kirsten Anna-Marie

Process Mining and audit support within financial services. KPMG IT Advisory 18 June 2014

Maken van een woordenboek:4 hoofdfasen

UGENT opleidingen op de Verderstudeerbeurs

IPR regelingen binnen het STEVIN-programma

Meertalige communicatie Tolken Vertalen. Toegepaste taalkunde op masterniveau

GASTLEZING: DISTRIBUTIONELE VECTOREN IN ALTERNANTIEONDERZOEK. Dirk Pijpops, Nederlandse Taalkunde: Hedendaagse stromingen, UCL, Louvain-La-Neuve

Stan Buis & Jirka Born

UNECE/UNESCAP Workshop on. Electronic Trade Documents. Ulaanbaatar, Mongolia, October 2009

Vertaling van SNOMED CT: Aanpak, processen en tools

Doelstellingen van de Workshop

E-learning maturity model. Hilde Van Laer

Taalkundige verrijking in relatie tot PAROLE Corpus maar ook in ruimer kader

Citation for published version (APA): Egberink, I. J-A. L. (2010). Applications of item response theory to non-cognitive data Groningen: s.n.

Leesbaarheid verkeersborden voor connected car

PERSOONLIJKE GEGEVENS WERKERVARING

studie waarmee we de principes van de analyse willen demonstreren. Een volledig beschrijving van de algoritmen en de resultaten zijn te vinden in

OEM SENSORS for HD MAPS. Peter Defreyne, IxorTalk Julie Maes, Belgisch Instituut voor de Verkeersveiligheid

1 JOURNALISTIEK. Opleidingsonderdeel andere instelling

Deze presentatie. Gebruik bronnen. Wat voor bronnen? ZOEKEN VAN WETENSCHAPPELIJKE LITERATUUR

Van Batenburg, E., & Schaik, M. (2013). Kennis op de werkvloer: wat helpt de docent en de

Wat is nieuw in Enterprise Guide

Michiel Kroon & Stijn Hulshof

Media en creativiteit. Winter jaar vier Werkcollege 7

Machine Learning voor een persoonlijker Blendle. Martijn Spitters

Stijn Hoppenbrouwers en Tom Heskes. Onderzoeksmethoden (vervolg)

Intelligente Systemen (2007/2008), 6EC, Groep: 3I, 3IK Lerende en Redenerende Systemen (2006/2007), 6EC, Groep: 3I, 3IK

COAVA. Gebruikershandleiding. Gebruikershandleiding bij de COAVA web applicatie CLARIN-NL

David Weenink. Instituut voor Fonetische Wetenschapen ACLC Universiteit van Amsterdam. Spraakverwerking per computer.

Een vertaalworkflow simuleren en evalueren. Departement Toegepaste Taalkunde Erasmushogeschool Brussel

Enterprise Language Processing [Nederlandse titel?] Aanzet voor een nieuw programma


Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands (STEVIN)

Master in het vertalen

Het nieuwe INT. Frieda Steurs Wetenschappelijk Directeur/ Bestuurder


Turn-key platform Newz. Big Content & Semantics

Taal- en spraaktechnologie voor het onderwijs in en van het Nederlands

Creatief Europa subprogramma Cultuur

Vragenlijsten kwaliteit van leven

CASE een elektronische omgeving voor het zoeken naar en analyseren van uitspraken

COST: European cooperation in science and technology. NETLAKE COST Action ES1201

januari TTNWW Handleiding TST tools voor het Nederlands als Web services in een Workflow Meertens Instituut, Joan Muyskensweg 25, 1096 CJ Amsterdam

HET ZOEKEN VAN WETENSCHAPPELIJKE LITERATUUR. Hans Bodlaender

Transcriptie:

163 DUTCH PARALLEL CORPUS EN SONAR Lieve Macken, Orphée de Clercq, Bart Desmet & Véronique Hoste Tekstcorpora spelen een belangrijke rol in verscheidene onderzoeksdomeinen en tal van toepassingen. Zo wordt in de corpustaalkunde taal bestudeerd aan de hand van een verzameling authentiek (eentalig) tekstmateriaal. Onderzoekers uit het domein van de contrastieve taalkunde en de vertaalkunde maken dan weer gebruik van meertalige tekstcorpora. Ook in het (vreemde)talenonderwijs hebben corpora hun nut bewezen, vooral in het computerondersteund talenonderwijs (CALL, Computer-Assisted Language Learning). In de taaltechnologie zijn corpora gewoonweg onmisbaar. Ze zijn cruciaal voor de ontwikkeling van allerlei toepassingen. Statistische en andere zelflerende systemen gebruiken immers corpora als trainingsmateriaal voor het leren of induceren van regels en/of modellen. Het is dan ook niet verwonderlijk dat het onderzoeks- en stimuleringsprogramma STEVIN ( Spraak en Taaltechnologische Essentiële Voorzieningen In het Nederlands ) verschillende corpusprojecten heeft gefinancierd. Het Language and Translation Technology Team van de huidige vakgroep Vertalen, Tolken en Communicatie (LT 3 ) was betrokken bij twee corpusprojecten: DPC (Macken et al., 2011, Paulussen et al., 2013) en SoNaR (Oostdijk et al., 2013). Het DPC (Dutch Parallel Corpus) is een parallel corpus van 10 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans. Het is bidirectioneel het Nederlands is zowel bron- als doeltaal en bevat zinsgealigneerde teksten die behoren tot vijf verschillende teksttypes.

164 SoNaR staat voor Stevin Nederlandstalig Referentiecorpus (zeg maar de Nederlandse tegenhanger van het British National Corpus, of BNC) en bevat 500 miljoen woorden. De teksten zijn afkomstig uit verschillende domeinen en genres en gaan over zeer uiteenlopende onderwerpen. Aan kennisinstellingen worden door individuele onderzoekers en onderzoeksgroepen ontzettend veel corpora ad-hoc aangelegd. In de meeste gevallen zijn die dataverzamelingen echter niet vrij toegankelijk. Aangezien de opbouw van een corpus een arbeidsintensief (en dus duur) proces is, was het een absolute vereiste van STEVIN, de financierder van zowel DPC als SoNaR, dat voor alle teksten die opgenomen werden in de corpora auteursrechtelijke toestemming werd verkregen. Dit is een belangrijke voorwaarde om de corpora later te kunnen verspreiden. In samenwerking met de juridische experten van de TST-centrale (centrale voor Taal- en SpraakTechnologie) werden er vier soorten IPR-overeenkomsten opgesteld. De verschillende stappen in het dataacquisitieproces en de moeilijkheden bij de onderhandelingen over auteursrecht staan beschreven in De Clercq & Montero Perez (2010) voor DPC, en in De Clercq & Reynaert (2010) voor SoNaR. Een andere eigenschap van beide corpora is dat ze gebalanceerd zijn volgens bepaalde criteria die vastgelegd werden tijdens de respectievelijke ontwerpfases. Het DPC bevat twee taalparen (Nederlands-Engels en Nederlands- Frans), vier vertaalrichtingen (Nederlands-Engels, Engels-Nederlands, Nederlands-Frans en Frans-Nederlands) en vijf tekstgenres (administratieve, instructieve, journalistieke, en literaire teksten en teksten voor externe communicatie), en is gebalanceerd volgens vertaalrichting en tekstgenre. Het materiaal in SoNaR bestaat uit hedendaags geschreven Nederlands (vanaf 1954) en weerspiegelt de verhouding van het

165 aantal inwoners in het Nederlandse taalgebied: één derde van het tekstmateriaal is afkomstig uit Vlaanderen; twee derde uit Nederland. Het corpus bevat teksten uit zeer uiteenlopende domeinen en genres alsook data afkomstig uit nieuwe media (emails, blogs, chats en sms). Alle beschikbare informatie over het opgenomen tekstmateriaal (zoals genre, tekstleverancier, taalpaar, vertaalrichting) werd geregistreerd in de metadatabestanden. Deze gegevens laten gebruikers toe om zelf teksten te selecteren uit het volledige corpus. De teksten die u kunt raadplegen in beide corpora hebben een lange weg afgelegd. Het tekstmateriaal werd aangeleverd in veel verschillende formaten (pdf, Word-documenten, html, xml, ) en werd genormaliseerd tot één standaardformaat. Vervolgens werden de teksten opgesplitst in zinnen, en in het geval van het DPC werden bron- en doelzinnen met elkaar gealigneerd. Alle teksten werden verrijkt met woordsoortinformatie en lemmata. Eén miljoen woorden van SoNaR (het SoNaR-1 deelcorpus) werd van diepere annotaties voorzien in de vorm van syntactische annotaties, Named Entities, coreferentierelaties, semantische rollen en temporele en ruimtelijke entiteiten. Een deel van de annotaties werden manueel geverifieerd. In het kader van Sonar zijn er drie taaltechnologische modules ontwikkeld binnen LT 3 : een systeem dat Named Entities herkent (Desmet & Hoste, 2013), een systeem dat coreferentierelaties opspoort in Nederlandse teksten (De Clercq et al., 2011) en een systeem dat semantische rollen toekent (De Clercq et al., 2012). Binnen het TTNWW-project[1] dat kadert binnen het pan-europese CLARIN netwerk, zijn er webservices ontwikkeld voor alle taaltechnologische componenten uit het SoNaR-project, zodat die modules op een gebruiksvriendelijke manier beschikbaar worden voor andere onderzoekers.

166 Dat corpora nuttig zijn voor onderzoek, bewijst volgend overzicht. Zowel het DPC als SoNaR zijn al veelvuldig gebruikt binnen de vakgroep Vertalen, Tolken en Communicatie voor verschillende onderzoeksdoeleinden: - In het domein van de corpusvertaalkunde is het DPC gebruikt voor het bestuderen van de verschillen tussen vertaalde en niet-vertaalde taal (Delaere et al., 2012; De Sutter et al., 2012) - In het domein van de vertaaltechnologie is het DPC gebruikt om testdata te selecteren voor het benchmarken van verschillende vertaalgeheugensystemen (Macken, 2009) en om taalpaarafhankelijke vertaalpatronen te extraheren (Macken & Daelemans, 2010). - In het domein van de vertaalwetenschap is het DPC gebruikt binnen het ROBOT-project[2] om tekstmateriaal te selecteren voor het opzetten van een vergelijkende studie tussen manueel vertalen en het post-editen van automatische vertalingen (Daems et al., 2013). - De manueel geverifieerde annotaties binnen het DPC en SoNaR zijn gebruikt als trainingsmateriaal om PoS taggers te ontwikkelen voor vier talen: Nederlands, Frans, Engels en Duits (Van de Kauter et al., 2014). - Door frequentie-informatie uit DPC en SoNaR te vergelijken met dat van domeinspecifieke corpora bepaalt het door LT3 ontwikkelde terminologie-extractiesysteem TExSIS de specificiteit van termen (Macken et al., 2013). - SoNaR werd gebruikt binnen de distributionele benadering voor hyperniemdetectie binnen het MUST-project[3] (Schropp et al., 2013). - In het Hendi-project[4] werden de teksten voor het leesbaarheidsonderzoek geselecteerd uit SoNaR-1 (De Clercq et al., 2013).

167 - Het sms-corpus uit SoNaR ligt aan de basis van de normalisatiemodule die ontwikkeld wordt binnen het AMiCA-[5] en PARIS-project[6] (De Clercq et al., 2013) Het DPC en SoNaR zijn gratis beschikbaar voor niet-commerciële doeleinden via de TST-centrale. Beide corpora worden geleverd in XML-formaat. Binnen het DPC-project is er voor het DPC ook een webinterface ontwikkeld die eveneens verkrijgbaar is via de TSTcentrale[7]. In het vervolgproject OpenSoNaR zal er een gebruikersinterface ontwikkeld worden voor SoNaR. Referenties Daems, J, Macken, L., & Vandepitte, S. (2013). Quality as the sum of its parts: A two-step approach for the identification of translation problems and translation quality assessment for HT and MT+PE. In S. O Brien, M. Simard & L. Specia (Eds.), Proceedings of MT Summit XIV Workshop on Post-editing Technology and Practice (pp. 63-71). European Association for Machine Translation, Nice, France. De Clercq, O., Hoste, V., Desmet, B., van Oosten, P., De Cock, M., & Macken, L. (2013). Using the Crowd for Readability Prediction. Natural Language Engineering, 1-33. Cambridge Journals Online. De Clercq, O., Schulz, S., Desmet, B., Lefever, E., & Hoste, V. (2013). Normalization of Dutch User-Generated Content. Proceedings of the 9th International Conference on Recent Advances in Natural Language Processing (RANLP 2013). Hissar, Bulgaria. De Clercq, O., Hoste, V., & Monachesi, P. (2012). Evaluating Automatic Cross-Domain Semantic Role Annotation. Proceedings of the 8th Language Resources and Evaluation Conference (LREC'12), 88-93. Istanbul, Turkey. De Clercq, O., & Montero Perez, M. (2010). Data collection and IPR in multilingual parallel corpora : Dutch parallel corpus. In N. Calzolari, K. Choukri, B. Maegaard, J. Mariani, J. Odijk, S. Piperidis et al. (Eds.),

168 Proceedings of the seventh International Conference on Language Resources and Evaluation (LREC'10). European Language Resources Association, Valletta, Malta. De Clercq, O., & Reynaert, M. (2010). SoNaR Acquisition Manual, version 1.0. LT3 Technical Report - LT3 10.02. De Clercq, O., Hoste, V., & Hendrickx, I. (2011). Cross-Domain Dutch Coreference Resolution. Proceedings of the 8th International Conference on Recent Advances in Natural Language Processing (RANLP 2011). Hissar, Bulgaria. Delaere, I., De Sutter, G.& Plevoets, K. (2012). Is translated language more standardized than non-translated language? Using profilebased correspondence analysis for measuring linguistic distances between language varieties. Target, 24(2), 203-224. Desmet, B., & Hoste, V. (2013, in press). Fine-Grained Dutch Named Entity Recognition. Language Resources and Evaluation. De Sutter, G., Delaere, I. & Plevoets, K. (2012). Lexical lectometry in corpus-based translation studies. Combining profile-based correspondence analysis and logistic regression modeling. In M. Oakes,&.,M. Ji, (Eds.), Quantitative Methods in Corpus-Based Translation Studies. A Practical Guide To Descriptive Translation Research (pp. 325 345). Amsterdam: John Benjamins. Macken, L., In search of the recurrent units of translation (2009). In W. Daelemans & V. Hoste, (Eds.), Evaluation of Translation Technology. LANS 8/2009 (pp. 195 212). Brussels: Academic and Scientific Publishers. Macken, L., De Clercq, O., & Paulussen, H. (2011). Dutch Parallel Corpus: a Balanced Copyright-Cleared Parallel Corpus. Meta, 56(2), 374-390.

169 Macken, L. & Daelemans, W. (2010). A Chunk-Driven Bootstrapping Approach to Extracting Translation Patterns. Proceedings of the 11th International Conference on Intelligent Text Processing and Computational Linguistics (Iasi, Romania). Lecture Notes in Computer Science, vol. 6009, pp. 394 405. Berlin/ Heidelberg: Springer. Macken, L., Lefever, E., & Hoste, V. (2013). TExSIS: Bilingual Terminology Extraction from Parallel Corpora Using Chunk-based Alignment. Terminology, 19(1), 1-30. Oostdijk, N., Reynaert, M., Hoste, V., & Schuurman, I. (2013). The construction of a 500-million-word reference corpus of contemporary written Dutch. In P. Spyns & J. Odijk (Eds), Essential Speech and Language Technology for Dutch, Theory and Applications of Natural Language Processing (pp. 219-247). Berlin/ Heidelberg: Springer. Paulussen, H., Macken, L., Vandeweghe, W., & Desmet, P. (2013). Dutch Parallel Corpus: a Balanced Parallel Corpus for Dutch-English and Dutch-French. In P. Spyns and J. Odijk (Eds.), Essential Speech and Language Technology for Dutch, Theory and Applications of Natural Language Processing (pp. 185-199). Berlin/ Heidelberg: Springer. Schropp, G.Y.R., Lefever, E., & Hoste, V. (2013). A combined patternbased and distributional approach for automatic hypernym detection in Dutch. Proceedings of the 9th International Conference on Recent Advances in Natural Language Processing (RANLP 2013). Hissar, Bulgaria. Van de Kauter, M., Coorman, G., Lefever, E., Desmet B., Macken L., & Hoste V. (2014). LeTs Preprocess: the Multilingual LT3 Linguistic Preprocessing Toolkit. Computational Linguistics in the Netherlands Journal. Project websites [1] http://www.lt3.ugent.be/en/projects/ttnww/

170 [2] http://www.lt3.ugent.be/en/projects/robot/ [3] http://www.lt3.ugent.be/en/projects/must/ [4] http://www.lt3.ugent.be/en/projects/hendi/ [5] http://www.lt3.ugent.be/en/projects/amica/ [6] http://www.lt3.ugent.be/en/projects/paris/ [7] Een demo-versie van de webinterface is beschikbaar via http://dpc.inl.nl/indexd.php