Parse and Corpus-based Machine Translation. STEVIN Programmadag 2010 1



Vergelijkbare documenten
Alpino and Corpus Linguistics

Informatiekunde in Groningen

Taalkunde en Computertaalkunde in de Lage Landen: een verhouding die eerst spannend was, dan gespannen en nu gewoon ontspannen

Inconsistenties in dependency treebanks

Resultaten en Beschikbaarheid 1e Ronde projecten, SPRAAK en CORNETTO Jan Odijk i.s.m. TST-Centrale

DUTCH PARALLEL CORPUS EN SONAR

DPC. Dutch Parallel Corpus. Corpus Design. Lidia Rura

User experience voor projecten

Inleiding. Syntaxis: de combinaties van woorden tot woordgroepen en zinnen.

Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken Hogeschool Gent

Volwassenheid en effectiviteit van enterprise

Gebruik en gebruikers STEVIN en TST-Centrale

Fries in data-gestuurde automatische vertaling


Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken LT 3 Hogeschool Gent

Neurale Netwerken en Deep Learning. Tijmen Blankevoort

Itsme masterclass Freely usable Siemens AG 2016 siemens.com/tia-portal

Het is een verticaal geïntegreerd bedrijf, dat zowel actief is in de productie van grondstoffen en halffabrikaten als van afgewerkte producten.

Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands (STEVIN)

Syllabus Natuurlijke-Taalverwerking I. Gosse Bouma Afdeling Informatiekunde Rijksuniversiteit Groningen

Toekomstbestending maken van selectie tool Rekening houdend met strikte privacy wetgeving

Software Design Document

Natuurlijke-taalverwerking 1. Daniël de Kok

MS Dynamics 365 voor MKB

Studentnummer: Inleiding Taalkunde 2013 Eindtoets Zet op ieder vel je naam en studentnummer!

Test Automatisering? Mislukken Slagen gegarandeerd! Ruud Teunissen - Polteq Test Services BV

SNELHEID VS. KWALITEIT: SCHUILT ER WEL WINST IN HET

Issues in PET Drug Manufacturing Steve Zigler PETNET Solutions April 14, 2010

Installatie SQL Server 2012

Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands (STEVIN)

Installatie SQL Server 2014

Technisch rapport SumNL corpus

Support Center GIS-Flanders

De automatische analyse van subjectiviteit en causale samenhang in tekst

AkzoNobel Paints and Coatings Internet of Things platform Performance portal

Software Processen. Ian Sommerville 2004 Software Engineering, 7th edition. Chapter 4 Slide 1. Het software proces

APEX en JasperReports

Inleiding: Combinaties

Proces to model en model to execute

Maximo Tips and Tricks

Innovatie instrument en financierings mogelijkheden

1 Deelproject Spraakherkenning: SHoUT Audio Indexering Service

DB architectuur.

Thinking of development

Technische implementatie De infrastructuur rondom Transit kent de volgende rollen:

Business & IT Alignment deel 1

ContentSearch. Deep dive

De ontleding van het Corpus Gesproken Nederlands

Klant. Klant - Branche: Industrie - > employees - Vestigingen in > 25 landen. Specifiek - Profitabele, kosten gedreven strategy

SHICO: SHIFTING CONCEPTS OVER TIME

Zelftest Java EE Architectuur

Vraag 1. Vraag 1a TERUGKOPPELING PROEFTENTAMEN. Software architecture

De Lync naar Het Nieuwe Werken. Utrecht - 25 januari 2011

The OSI Reference Model

Een inleiding tot taaltechnologie

Risico s van Technologisch Succes in digitale transformatie S T R A T E G I C A D V I S O R

Natuurlijke-Taalverwerking 1

Organiseer uw verschillende SOAP services in één scenario

Perceptive Process. Release Notes. Versie: 3.7.x

Plug and Play in de machinebouw. Zelf configurerende machines

Open Enterprise Server 2 en vsphere Best Practises. Michael Wilmsen

KNX Professionals 24 juni KNX en visualisatie

Responsive web applicaties op Oracle

Een brede computationele grammatica voor het Nederlands

VERA LIPS - Klantendag Ondersteuning LIPS Evolutie Dali-Platform

C-value method for multi-word term extraction

Delft-FEWS & Web Services

Risk & Requirements Based Testing

TAALTECHNOLOGIE 2.0: SENTIMENTANALYSE EN

Data Driven Strategy The New Oil Using Innovative Business Models to Turn Data Into Profit

Enterprise Portfolio Management

Er bestaat een excel voor RETURN-ON-INVESTMENT van de vending kast (gemiddeld 1 jaar) Hoe groter het verbruik van gereedschappen, hoe interessanter.

Zelftest Java concepten

Transcriptie:

PaCo-MT Parse and Corpus-based Machine Translation STEVIN Programmadag 2010 1

Project: PaCo-MT 2008-2011 Gesponsord door NL EN NL FR Consortium partners CCL KULeuven Alfa-Informatics RUGroningen OneLiner bvba Translation Services STEVIN Programmadag 2010 2

Parse & Corpus-based MT In SMT wordt geleerd op basis van Parallelle teksten Doeltaalteksten In PaCo-MT wordt geleerd op basis van Parallelle treebanks Doeltaaltreebanks STEVIN Programmadag 2010 3

Treebanks Automatische syntactische annotatie (parsing) van teksten NL: Alpino (van Noord 2006) EN: Stanford parser (Klein & Manning 2003) FR: Malt parser (Nivre 2007) Getraind op French Treebank (Abeillé 2003) Dit zijn gratis beschikbare parsers! STEVIN Programmadag 2010 4

Corpora Parallel Europarl (Koehn 2005) DGT-TM (Steinberger 2007) DPC Translation Memories (OneLiner) Mono British National Corpus STEVIN projects: Dcoi / Lassy / Sonar (+ CGN) Alpino treebank (van Noord) French treebank (Abeillé 2003) Much more STEVIN Programmadag 2010 5

Alignering Zinsalignering Europarl zinsaligner Hunalign Woordalignering GIZA++ (Och & Ney) Moses (Koehn et al) Knoopalignering Lingua::Align (eigen werk: Tiedemann & Kotzé 2009) Verschillende algorithmes worden experimenteel getest STEVIN Programmadag 2010 6

Aligneringsvoorbeeld <alignment weight="0.96621248522159230987"> <sl id="1_504" tlid="1_503" cat="pp" rel="prep"> <node id="1_5" tlid="1_1" pos="in" rel="hd" root="of" token="of" /> <node id="1_506" tlid="1_505" cat="np" rel="pobj"> <node id="1_7" tlid="1_2" pos="dt" rel="det" root="the" token="the" /> <node id="1_8" tlid="1_3" pos="nnps" rel="hd" root="minutes" token="minutes"/> </node> </sl> <tl id="1_503" cat="pp" rel="mod"> <node id="1_1" pos="prep" rel="hd" root="van" token="van" /> <node id="1_505" cat="np" rel="obj1"> <node id="1_2" pos="det" rel="det" root="de" token="de" /> <node id="1_3" pos="name" rel="hd" root="notulen" token="notulen" /> </node> </tl> </alignment> STEVIN Programmadag 2010 7

Transfer Uit gealigneerde knopen worden automatisch stochastische TRANSFER- regels afgeleid Frequentie van transferpatroon in data Aligneringsgewicht De brontaalboom wordt omgezet in een doeltaalwoud Verschillende transfer-mechanismen worden onderzocht NP[DET N PP[PREP NP]] => NP[NP[DET N] PP[PREP NP]] MWU[MWP[Europese] MWP[Unie] => NP[ADJ[European] N[Union]] STEVIN Programmadag 2010 8

Doeltaalsynthese In de transfermodule wordt abstractie gemaakt van de volgorde van dochterknopen onder de moederknoop Het doeltaalmodel selecteert de meest waarschijnlijke volgorde(s) volgens de doeltaaltreebank Verschillende features worden onderzocht op hun kwaliteit om de volgorde te voorspellen Dependency relaties Hoofden / Lemmas van hoofden Categorieën / parts-of-speech / subcategorisatie-frames Combinaties STEVIN Programmadag 2010 9

Doeltaalsynthese sv1 -- top -- Herschrijfregels top: sv1 punct sv1: verb adv np pp np: det noun hd obj1 mod np det hd mod verb adv det noun pp punct zie ook het kaartje hieronder. STEVIN Programmadag 2010 10

Integratie Al deze prototype-componenten worden met elkaar verbonden, ook al draaien ze op verschillende machines Ontwikkeling van een eengemaakt configuratiemechanisme Parse parameters Transfer parameters Synthese parameters Ontwikkeling POSIX wrapper Java + apache.commons Glassfish application server STEVIN Programmadag 2010 11

Glassfish Platform STEVIN Programmadag 2010 12

Grafische User Interface Drupal module ontwikkeling voor elke module Maakt distributie en configuratie makkelijker STEVIN Programmadag 2010 13

Drupal module configuratie voor Alpino STEVIN Programmadag 2010 14

Grafische user interface STEVIN Programmadag 2010 15

Post-editing Interface Work in progress Staat toe om gegenereerde vertalingen te verbeteren Houdt rekening met verschillende alternatieve vertalingen en staat toe om delen te kiezen uit andere vertalingen Wordt teruggekoppeld aan corpus-informatie zodat PaCo-MT bijleert STEVIN Programmadag 2010 16

Stand van zaken Momenteel hebben we een geintegreerd taalonafhankelijk basissysteem Meer linguistische data wordt nog toegevoegd Er worden van de verschillende componenten verschillende settings uitgeprobeerd om te bepalen wat de beste resultaten geeft Er wordt nog gewerkt om de snelheid van het systeem te verhogen Er wordt nog gewerkt aan een krachtiger transferformalisme STEVIN Programmadag 2010 17

Publicaties Martens, S., and Vandeghinste V. (2010). An Efficient, Generic Approach to Extracting Multi-Word Expressions from Dependency Trees. In Proceedings of the CoLing Workshop: Multiword Expressions: From Theory to Applications (MWE 2010). Vandeghinste, V., and Martens, S. (2010). Bottom-up transfer in Example-based Machine Translation. In Proceedings of EAMT 2010. European Association for Machine Translation. Saint-Raphael Tiedemann, J. & Kotzé, G. (2009). Building a Large Machine-Aligned Parallel Treebank. Proceedings of TLT-8. Vandeghinste, V. & Martens, S. (2009). Top-down Transfer in Example-based MT. Proceedings of 3rd Workshop on EBMT. Dublin. pp. 69-76. Tiedemann, J., & Kotzé, G. (2009). A Discriminative Approach to Tree Alignment. Proceedings of RANLP. Van den Bogaert, J. (2009). The emergence of hybrid machine translation systems and their integration into business processes. Berkeley Globalization Conference. Journal of Internationalisation and Localisation. Vandeghinste, V. (2009). Tree-based Target Language Modeling. In EAMT-2009: Proceedings of the 13th Annual Conference of the European Association for Machine Translation, ed. Lluís Màrquez and Harold Somers, 14-15 May 2009, Universitat Politècnica de Catalunya, Barcelona, Spain; pp.152-159. STEVIN Programmadag 2010 18