PaCo-MT Parse and Corpus-based Machine Translation STEVIN Programmadag 2010 1
Project: PaCo-MT 2008-2011 Gesponsord door NL EN NL FR Consortium partners CCL KULeuven Alfa-Informatics RUGroningen OneLiner bvba Translation Services STEVIN Programmadag 2010 2
Parse & Corpus-based MT In SMT wordt geleerd op basis van Parallelle teksten Doeltaalteksten In PaCo-MT wordt geleerd op basis van Parallelle treebanks Doeltaaltreebanks STEVIN Programmadag 2010 3
Treebanks Automatische syntactische annotatie (parsing) van teksten NL: Alpino (van Noord 2006) EN: Stanford parser (Klein & Manning 2003) FR: Malt parser (Nivre 2007) Getraind op French Treebank (Abeillé 2003) Dit zijn gratis beschikbare parsers! STEVIN Programmadag 2010 4
Corpora Parallel Europarl (Koehn 2005) DGT-TM (Steinberger 2007) DPC Translation Memories (OneLiner) Mono British National Corpus STEVIN projects: Dcoi / Lassy / Sonar (+ CGN) Alpino treebank (van Noord) French treebank (Abeillé 2003) Much more STEVIN Programmadag 2010 5
Alignering Zinsalignering Europarl zinsaligner Hunalign Woordalignering GIZA++ (Och & Ney) Moses (Koehn et al) Knoopalignering Lingua::Align (eigen werk: Tiedemann & Kotzé 2009) Verschillende algorithmes worden experimenteel getest STEVIN Programmadag 2010 6
Aligneringsvoorbeeld <alignment weight="0.96621248522159230987"> <sl id="1_504" tlid="1_503" cat="pp" rel="prep"> <node id="1_5" tlid="1_1" pos="in" rel="hd" root="of" token="of" /> <node id="1_506" tlid="1_505" cat="np" rel="pobj"> <node id="1_7" tlid="1_2" pos="dt" rel="det" root="the" token="the" /> <node id="1_8" tlid="1_3" pos="nnps" rel="hd" root="minutes" token="minutes"/> </node> </sl> <tl id="1_503" cat="pp" rel="mod"> <node id="1_1" pos="prep" rel="hd" root="van" token="van" /> <node id="1_505" cat="np" rel="obj1"> <node id="1_2" pos="det" rel="det" root="de" token="de" /> <node id="1_3" pos="name" rel="hd" root="notulen" token="notulen" /> </node> </tl> </alignment> STEVIN Programmadag 2010 7
Transfer Uit gealigneerde knopen worden automatisch stochastische TRANSFER- regels afgeleid Frequentie van transferpatroon in data Aligneringsgewicht De brontaalboom wordt omgezet in een doeltaalwoud Verschillende transfer-mechanismen worden onderzocht NP[DET N PP[PREP NP]] => NP[NP[DET N] PP[PREP NP]] MWU[MWP[Europese] MWP[Unie] => NP[ADJ[European] N[Union]] STEVIN Programmadag 2010 8
Doeltaalsynthese In de transfermodule wordt abstractie gemaakt van de volgorde van dochterknopen onder de moederknoop Het doeltaalmodel selecteert de meest waarschijnlijke volgorde(s) volgens de doeltaaltreebank Verschillende features worden onderzocht op hun kwaliteit om de volgorde te voorspellen Dependency relaties Hoofden / Lemmas van hoofden Categorieën / parts-of-speech / subcategorisatie-frames Combinaties STEVIN Programmadag 2010 9
Doeltaalsynthese sv1 -- top -- Herschrijfregels top: sv1 punct sv1: verb adv np pp np: det noun hd obj1 mod np det hd mod verb adv det noun pp punct zie ook het kaartje hieronder. STEVIN Programmadag 2010 10
Integratie Al deze prototype-componenten worden met elkaar verbonden, ook al draaien ze op verschillende machines Ontwikkeling van een eengemaakt configuratiemechanisme Parse parameters Transfer parameters Synthese parameters Ontwikkeling POSIX wrapper Java + apache.commons Glassfish application server STEVIN Programmadag 2010 11
Glassfish Platform STEVIN Programmadag 2010 12
Grafische User Interface Drupal module ontwikkeling voor elke module Maakt distributie en configuratie makkelijker STEVIN Programmadag 2010 13
Drupal module configuratie voor Alpino STEVIN Programmadag 2010 14
Grafische user interface STEVIN Programmadag 2010 15
Post-editing Interface Work in progress Staat toe om gegenereerde vertalingen te verbeteren Houdt rekening met verschillende alternatieve vertalingen en staat toe om delen te kiezen uit andere vertalingen Wordt teruggekoppeld aan corpus-informatie zodat PaCo-MT bijleert STEVIN Programmadag 2010 16
Stand van zaken Momenteel hebben we een geintegreerd taalonafhankelijk basissysteem Meer linguistische data wordt nog toegevoegd Er worden van de verschillende componenten verschillende settings uitgeprobeerd om te bepalen wat de beste resultaten geeft Er wordt nog gewerkt om de snelheid van het systeem te verhogen Er wordt nog gewerkt aan een krachtiger transferformalisme STEVIN Programmadag 2010 17
Publicaties Martens, S., and Vandeghinste V. (2010). An Efficient, Generic Approach to Extracting Multi-Word Expressions from Dependency Trees. In Proceedings of the CoLing Workshop: Multiword Expressions: From Theory to Applications (MWE 2010). Vandeghinste, V., and Martens, S. (2010). Bottom-up transfer in Example-based Machine Translation. In Proceedings of EAMT 2010. European Association for Machine Translation. Saint-Raphael Tiedemann, J. & Kotzé, G. (2009). Building a Large Machine-Aligned Parallel Treebank. Proceedings of TLT-8. Vandeghinste, V. & Martens, S. (2009). Top-down Transfer in Example-based MT. Proceedings of 3rd Workshop on EBMT. Dublin. pp. 69-76. Tiedemann, J., & Kotzé, G. (2009). A Discriminative Approach to Tree Alignment. Proceedings of RANLP. Van den Bogaert, J. (2009). The emergence of hybrid machine translation systems and their integration into business processes. Berkeley Globalization Conference. Journal of Internationalisation and Localisation. Vandeghinste, V. (2009). Tree-based Target Language Modeling. In EAMT-2009: Proceedings of the 13th Annual Conference of the European Association for Machine Translation, ed. Lluís Màrquez and Harold Somers, 14-15 May 2009, Universitat Politècnica de Catalunya, Barcelona, Spain; pp.152-159. STEVIN Programmadag 2010 18