DUTCH PARALLEL CORPUS EN SONAR

Transcriptie

1 163 DUTCH PARALLEL CORPUS EN SONAR Lieve Macken, Orphée de Clercq, Bart Desmet & Véronique Hoste Tekstcorpora spelen een belangrijke rol in verscheidene onderzoeksdomeinen en tal van toepassingen. Zo wordt in de corpustaalkunde taal bestudeerd aan de hand van een verzameling authentiek (eentalig) tekstmateriaal. Onderzoekers uit het domein van de contrastieve taalkunde en de vertaalkunde maken dan weer gebruik van meertalige tekstcorpora. Ook in het (vreemde)talenonderwijs hebben corpora hun nut bewezen, vooral in het computerondersteund talenonderwijs (CALL, Computer-Assisted Language Learning). In de taaltechnologie zijn corpora gewoonweg onmisbaar. Ze zijn cruciaal voor de ontwikkeling van allerlei toepassingen. Statistische en andere zelflerende systemen gebruiken immers corpora als trainingsmateriaal voor het leren of induceren van regels en/of modellen. Het is dan ook niet verwonderlijk dat het onderzoeks- en stimuleringsprogramma STEVIN ( Spraak en Taaltechnologische Essentiële Voorzieningen In het Nederlands ) verschillende corpusprojecten heeft gefinancierd. Het Language and Translation Technology Team van de huidige vakgroep Vertalen, Tolken en Communicatie (LT 3 ) was betrokken bij twee corpusprojecten: DPC (Macken et al., 2011, Paulussen et al., 2013) en SoNaR (Oostdijk et al., 2013). Het DPC (Dutch Parallel Corpus) is een parallel corpus van 10 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans. Het is bidirectioneel het Nederlands is zowel bron- als doeltaal en bevat zinsgealigneerde teksten die behoren tot vijf verschillende teksttypes.

2 164 SoNaR staat voor Stevin Nederlandstalig Referentiecorpus (zeg maar de Nederlandse tegenhanger van het British National Corpus, of BNC) en bevat 500 miljoen woorden. De teksten zijn afkomstig uit verschillende domeinen en genres en gaan over zeer uiteenlopende onderwerpen. Aan kennisinstellingen worden door individuele onderzoekers en onderzoeksgroepen ontzettend veel corpora ad-hoc aangelegd. In de meeste gevallen zijn die dataverzamelingen echter niet vrij toegankelijk. Aangezien de opbouw van een corpus een arbeidsintensief (en dus duur) proces is, was het een absolute vereiste van STEVIN, de financierder van zowel DPC als SoNaR, dat voor alle teksten die opgenomen werden in de corpora auteursrechtelijke toestemming werd verkregen. Dit is een belangrijke voorwaarde om de corpora later te kunnen verspreiden. In samenwerking met de juridische experten van de TST-centrale (centrale voor Taal- en SpraakTechnologie) werden er vier soorten IPR-overeenkomsten opgesteld. De verschillende stappen in het dataacquisitieproces en de moeilijkheden bij de onderhandelingen over auteursrecht staan beschreven in De Clercq & Montero Perez (2010) voor DPC, en in De Clercq & Reynaert (2010) voor SoNaR. Een andere eigenschap van beide corpora is dat ze gebalanceerd zijn volgens bepaalde criteria die vastgelegd werden tijdens de respectievelijke ontwerpfases. Het DPC bevat twee taalparen (Nederlands-Engels en Nederlands- Frans), vier vertaalrichtingen (Nederlands-Engels, Engels-Nederlands, Nederlands-Frans en Frans-Nederlands) en vijf tekstgenres (administratieve, instructieve, journalistieke, en literaire teksten en teksten voor externe communicatie), en is gebalanceerd volgens vertaalrichting en tekstgenre. Het materiaal in SoNaR bestaat uit hedendaags geschreven Nederlands (vanaf 1954) en weerspiegelt de verhouding van het

3 165 aantal inwoners in het Nederlandse taalgebied: één derde van het tekstmateriaal is afkomstig uit Vlaanderen; twee derde uit Nederland. Het corpus bevat teksten uit zeer uiteenlopende domeinen en genres alsook data afkomstig uit nieuwe media ( s, blogs, chats en sms). Alle beschikbare informatie over het opgenomen tekstmateriaal (zoals genre, tekstleverancier, taalpaar, vertaalrichting) werd geregistreerd in de metadatabestanden. Deze gegevens laten gebruikers toe om zelf teksten te selecteren uit het volledige corpus. De teksten die u kunt raadplegen in beide corpora hebben een lange weg afgelegd. Het tekstmateriaal werd aangeleverd in veel verschillende formaten (pdf, Word-documenten, html, xml, ) en werd genormaliseerd tot één standaardformaat. Vervolgens werden de teksten opgesplitst in zinnen, en in het geval van het DPC werden bron- en doelzinnen met elkaar gealigneerd. Alle teksten werden verrijkt met woordsoortinformatie en lemmata. Eén miljoen woorden van SoNaR (het SoNaR-1 deelcorpus) werd van diepere annotaties voorzien in de vorm van syntactische annotaties, Named Entities, coreferentierelaties, semantische rollen en temporele en ruimtelijke entiteiten. Een deel van de annotaties werden manueel geverifieerd. In het kader van Sonar zijn er drie taaltechnologische modules ontwikkeld binnen LT 3 : een systeem dat Named Entities herkent (Desmet & Hoste, 2013), een systeem dat coreferentierelaties opspoort in Nederlandse teksten (De Clercq et al., 2011) en een systeem dat semantische rollen toekent (De Clercq et al., 2012). Binnen het TTNWW-project[1] dat kadert binnen het pan-europese CLARIN netwerk, zijn er webservices ontwikkeld voor alle taaltechnologische componenten uit het SoNaR-project, zodat die modules op een gebruiksvriendelijke manier beschikbaar worden voor andere onderzoekers.

4 166 Dat corpora nuttig zijn voor onderzoek, bewijst volgend overzicht. Zowel het DPC als SoNaR zijn al veelvuldig gebruikt binnen de vakgroep Vertalen, Tolken en Communicatie voor verschillende onderzoeksdoeleinden: - In het domein van de corpusvertaalkunde is het DPC gebruikt voor het bestuderen van de verschillen tussen vertaalde en niet-vertaalde taal (Delaere et al., 2012; De Sutter et al., 2012) - In het domein van de vertaaltechnologie is het DPC gebruikt om testdata te selecteren voor het benchmarken van verschillende vertaalgeheugensystemen (Macken, 2009) en om taalpaarafhankelijke vertaalpatronen te extraheren (Macken & Daelemans, 2010). - In het domein van de vertaalwetenschap is het DPC gebruikt binnen het ROBOT-project[2] om tekstmateriaal te selecteren voor het opzetten van een vergelijkende studie tussen manueel vertalen en het post-editen van automatische vertalingen (Daems et al., 2013). - De manueel geverifieerde annotaties binnen het DPC en SoNaR zijn gebruikt als trainingsmateriaal om PoS taggers te ontwikkelen voor vier talen: Nederlands, Frans, Engels en Duits (Van de Kauter et al., 2014). - Door frequentie-informatie uit DPC en SoNaR te vergelijken met dat van domeinspecifieke corpora bepaalt het door LT3 ontwikkelde terminologie-extractiesysteem TExSIS de specificiteit van termen (Macken et al., 2013). - SoNaR werd gebruikt binnen de distributionele benadering voor hyperniemdetectie binnen het MUST-project[3] (Schropp et al., 2013). - In het Hendi-project[4] werden de teksten voor het leesbaarheidsonderzoek geselecteerd uit SoNaR-1 (De Clercq et al., 2013).

5 167 - Het sms-corpus uit SoNaR ligt aan de basis van de normalisatiemodule die ontwikkeld wordt binnen het AMiCA-[5] en PARIS-project[6] (De Clercq et al., 2013) Het DPC en SoNaR zijn gratis beschikbaar voor niet-commerciële doeleinden via de TST-centrale. Beide corpora worden geleverd in XML-formaat. Binnen het DPC-project is er voor het DPC ook een webinterface ontwikkeld die eveneens verkrijgbaar is via de TSTcentrale[7]. In het vervolgproject OpenSoNaR zal er een gebruikersinterface ontwikkeld worden voor SoNaR. Referenties Daems, J, Macken, L., & Vandepitte, S. (2013). Quality as the sum of its parts: A two-step approach for the identification of translation problems and translation quality assessment for HT and MT+PE. In S. O Brien, M. Simard & L. Specia (Eds.), Proceedings of MT Summit XIV Workshop on Post-editing Technology and Practice (pp ). European Association for Machine Translation, Nice, France. De Clercq, O., Hoste, V., Desmet, B., van Oosten, P., De Cock, M., & Macken, L. (2013). Using the Crowd for Readability Prediction. Natural Language Engineering, Cambridge Journals Online. De Clercq, O., Schulz, S., Desmet, B., Lefever, E., & Hoste, V. (2013). Normalization of Dutch User-Generated Content. Proceedings of the 9th International Conference on Recent Advances in Natural Language Processing (RANLP 2013). Hissar, Bulgaria. De Clercq, O., Hoste, V., & Monachesi, P. (2012). Evaluating Automatic Cross-Domain Semantic Role Annotation. Proceedings of the 8th Language Resources and Evaluation Conference (LREC'12), Istanbul, Turkey. De Clercq, O., & Montero Perez, M. (2010). Data collection and IPR in multilingual parallel corpora : Dutch parallel corpus. In N. Calzolari, K. Choukri, B. Maegaard, J. Mariani, J. Odijk, S. Piperidis et al. (Eds.),

6 168 Proceedings of the seventh International Conference on Language Resources and Evaluation (LREC'10). European Language Resources Association, Valletta, Malta. De Clercq, O., & Reynaert, M. (2010). SoNaR Acquisition Manual, version 1.0. LT3 Technical Report - LT De Clercq, O., Hoste, V., & Hendrickx, I. (2011). Cross-Domain Dutch Coreference Resolution. Proceedings of the 8th International Conference on Recent Advances in Natural Language Processing (RANLP 2011). Hissar, Bulgaria. Delaere, I., De Sutter, G.& Plevoets, K. (2012). Is translated language more standardized than non-translated language? Using profilebased correspondence analysis for measuring linguistic distances between language varieties. Target, 24(2), Desmet, B., & Hoste, V. (2013, in press). Fine-Grained Dutch Named Entity Recognition. Language Resources and Evaluation. De Sutter, G., Delaere, I. & Plevoets, K. (2012). Lexical lectometry in corpus-based translation studies. Combining profile-based correspondence analysis and logistic regression modeling. In M. Oakes,&.,M. Ji, (Eds.), Quantitative Methods in Corpus-Based Translation Studies. A Practical Guide To Descriptive Translation Research (pp ). Amsterdam: John Benjamins. Macken, L., In search of the recurrent units of translation (2009). In W. Daelemans & V. Hoste, (Eds.), Evaluation of Translation Technology. LANS 8/2009 (pp ). Brussels: Academic and Scientific Publishers. Macken, L., De Clercq, O., & Paulussen, H. (2011). Dutch Parallel Corpus: a Balanced Copyright-Cleared Parallel Corpus. Meta, 56(2),

7 169 Macken, L. & Daelemans, W. (2010). A Chunk-Driven Bootstrapping Approach to Extracting Translation Patterns. Proceedings of the 11th International Conference on Intelligent Text Processing and Computational Linguistics (Iasi, Romania). Lecture Notes in Computer Science, vol. 6009, pp Berlin/ Heidelberg: Springer. Macken, L., Lefever, E., & Hoste, V. (2013). TExSIS: Bilingual Terminology Extraction from Parallel Corpora Using Chunk-based Alignment. Terminology, 19(1), Oostdijk, N., Reynaert, M., Hoste, V., & Schuurman, I. (2013). The construction of a 500-million-word reference corpus of contemporary written Dutch. In P. Spyns & J. Odijk (Eds), Essential Speech and Language Technology for Dutch, Theory and Applications of Natural Language Processing (pp ). Berlin/ Heidelberg: Springer. Paulussen, H., Macken, L., Vandeweghe, W., & Desmet, P. (2013). Dutch Parallel Corpus: a Balanced Parallel Corpus for Dutch-English and Dutch-French. In P. Spyns and J. Odijk (Eds.), Essential Speech and Language Technology for Dutch, Theory and Applications of Natural Language Processing (pp ). Berlin/ Heidelberg: Springer. Schropp, G.Y.R., Lefever, E., & Hoste, V. (2013). A combined patternbased and distributional approach for automatic hypernym detection in Dutch. Proceedings of the 9th International Conference on Recent Advances in Natural Language Processing (RANLP 2013). Hissar, Bulgaria. Van de Kauter, M., Coorman, G., Lefever, E., Desmet B., Macken L., & Hoste V. (2014). LeTs Preprocess: the Multilingual LT3 Linguistic Preprocessing Toolkit. Computational Linguistics in the Netherlands Journal. Project websites [1]

8 170 [2] [3] [4] [5] [6] [7] Een demo-versie van de webinterface is beschikbaar via