DPC (Dutch Parallel Corpus) een multitalig multifunctioneel corpus

Vergelijkbare documenten
Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken LT 3 Hogeschool Gent

Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken Hogeschool Gent

DPC. Dutch Parallel Corpus. Corpus Design. Lidia Rura

Flexibiliteit en Duurzaamheid: Teksttechnologie en Museumdocumentatie

DUTCH PARALLEL CORPUS EN SONAR

Wat is een corpus en waarvoor wordt het gebruikt?

XML Introductie.

Rd 1 MULTIMEDIA DEEL2

FRANEL en STUDIO FRANEL

NOUS PARLONS LES MÊMES LANGUES PARTNERS IN TAAL

Schrijven voor het web. 1TIN Internettechonologie les 02 1

DTD - Inleiding. Document Type Definitions (DTDs)

Project Software Engineering XML parser: Parsen van een xml CD catalogus

Inhoud: de eerste verzameling van Nederlandstalige gesproken en geschreven teksten,

De mogelijkheden van XML voor de langdurige bewaring van digitale documenten. DAVID studiedag 30 nov 2000

Correspondentie inzake overnemen of reproductie kunt u richten aan:

Correspondentie inzake overnemen of reproductie kunt u richten aan:

Zelftest XML Basis. Document: n1006test.fm 25/01/2017. ABIS Training & Consulting P.O. Box 220 B-3000 Leuven Belgium

Website beoordeling zsdudova.sk

XML & XSLT voor DMO. Datamodellering Een XML datamodel. conceptueel model logisch / fysiek model: platform afhankelijk

XML Introductie.

Software 1. Basis HTML. bachelor grafische en digitale media cross-media ontwerp & grafimediatechnologie academiejaar semester 1

Info-books. Toegepaste Informatica. Deel 35: XML - XSL HO35. Jos Gils Erik Goossens

Zoeken in een Afrikaans corpus: baie maklik! Liesbeth Augustinus Ineke Schuurman Vincent Vandeghinste Peter Dirix Frank Van Eynde

BEFDSS. Het Belgische uitwisselingsformaat voor onderzoekgegevens afkomstig van visueel rioolonderzoek. 1/12/ / 6

Website review kamernet.nl

MIMORE. Demonstratieproject CLARIN-NL. Folkert de Vriend. Meertens Instituut, Amsterdam 26/08/2010

CLARIN-NL Metadataproject

Systeemarchitecturen en opslag van gegevens

open standaard hypertext markup language internetprotocol transmission control protocol internet relay chat office open xml

DocBook XML documenten bewerken

Corinth: Corpus Interactionele Humor

Website beoordeling windowsrepublic.com.au

Ontologie, classificatie, terminologie en codificatie in de Authentieke Bron Geneesmiddelen voor het e-health Platform in België

Website beoordeling google.com

Oefenvragen OMI eerste helft

[Dossier] Taal- en spraaktechnologie in Vlaanderen: dood of levend? Els Lefever en Lieve Macken. <foto s auteurs: zie gelijknamig bestand>

SNELHEID VS. KWALITEIT: SCHUILT ER WEL WINST IN HET

XML & XSLT voor DMO. Een XML datamodel. Van ERD naar XML schema. XML en XSLT DMO Datamodellering 2008

Website beoordeling akcpdistributor.de.cutestatvalue.com

EndNote BLITS INFORMATIESESSIE - 17/02/2017 I N F O R M AT I E M E D E W E R K E R K C G G V E R O N I Q U E. D E S P O D U G E N T.

Neurostimulation in alcohol dependence: The effect of repetitive transcranial magnetic stimulation on cognitive functioning and craving Jansen, Jochem

Website beoordeling pre-r.com

SEO Content. Creditcard aanvragen? Dé beste creditcards vergelijken.

PDF hosted at the Radboud Repository of the Radboud University Nijmegen

PDF hosted at the Radboud Repository of the Radboud University Nijmegen

Spreekvaardigheidstraining met behulp van Automatische Spraak-Herkenning (ASH)

Website beoordeling seo.sololaki.com

Impactanalyse Samenwerkende Catalogi 4.0. Wat zijn de wijzigingen met de komst van SC 4.0 ten opzichte van SC 2.1

Resultaten en Beschikbaarheid 1e Ronde projecten, SPRAAK en CORNETTO Jan Odijk i.s.m. TST-Centrale

Website beoordeling monitoringhardware.com.websiteoutlook.co

1 JOURNALISTIEK. Opleidingsonderdeel andere instelling

SEPA formaten - inleiding tot XML. versie maart ing.be/sepa

Slimme algoritmes om burn-out en depressie te monitoren via draagbare technologie Deborah Piette Promotor: Prof. Dr.

TradeTracker. Handleiding voor implementatie productfeeds in het CSV of XML formaat INT 09-M023_NL

Website beoordeling skillers.tech

Y.S. Lubbers en W. Witvoet

Resultaten van de eerste MIM Snomed Hackathon

Website beoordeling didactum-s ecurity.com.websiteoutlook.com

Website beoordeling fibreclick.co.uk

Extra: Hoe u uw website met HTML kunt verbeteren

Website beoordeling feedbackvote.com

Gebruiksaanwijzing Idefix en SHA256-hashing

XML. Alle tekortkomingen op een rijtje! (en een paar pluspunten...) Marc de Graauw

informatie architectuur 30 september 2010 IAM V

Vervolg op het STEVIN Programma

Website beoordeling siteoptimer.com

Website beoordeling didactum.com.w3snoop.com

Website beoordeling cozytime.ca

Website beoordeling namefacts.com

EVRM, Minderjarigheid En Ouderlijk Gezag: A Whole Code Of Juvenile Law (Dutch Edition) By M. L. C. C. de Bruijn-Luckers

Rowley, MA: Newbury House. In S. M. Gass & C. G. Madden (Eds.), Input in second language acquisition (p ).

Website review nieuws-feiten.nl

Bio-informatica Computers and networks. Peter De Rijk

Het E-depot. Orville Mac Donald, medewerker standaarden en richtlijnen. Afd. Archief en collectiebeheer, Sectie Digitaal beheer. Informatiekundige.

Website beoordeling statchest.com

David Weenink. Instituut voor Fonetische Wetenschapen ACLC Universiteit van Amsterdam. Spraakverwerking per computer.

BibTeXML in DocBook XML gebruiken om wetenschappelijke artikelen te schrijven

SAMENWERKING DGT- VERTAALOPLEIDINGEN

SHICO: SHIFTING CONCEPTS OVER TIME

Website beoordeling liveseoaudit.com

Website beoordeling proplantdesign.com

Archiefwetenschap, Erfgoed En Politisering (Vor Geesteswetenschappen) (Dutch Edition) By Theo Thomassen

Plone user case:

Website beoordeling akcpsensor.de.ipaddress.com

Website beoordeling akcpdistributor.de.ipaddress.com

antwerp management school

Leen Poppeliers VOV-beurs Leuven, 16 november 2007 met steun van

DAVID - Een archiveringssysteem voor dynamische en interactieve informatiesystemen

universiteitsbibliotheek Rapportages Oktober 2016

Informatiekunde in Groningen

Joomla! Modules. Iedereen kan ze maken!

Website beoordeling hnb.net

WEBSECURITY INFORMATICA STUDENTENWERKING. Gemaakt door Bryan De Houwer en Yuri Moens

MASTER OF ARTS IN HET. VER TALEN ECTS

Website beoordeling checksiteworthonline.eu

Biblio BLITS INFORMATIESESSIE - 08/06/2018 I N F O R M AT I E M E D E W E R K E R K C G G V E R O N I Q U E. D E S P O D U G E N T.

ICT-standaarden voor het archiefwezen. Ivo Zandhuis

ICALT. E-learning. Een gratis training in het gebruik van een lesobservatie-instrument

SEO plan. Bart Janssen Semester 4 Fontys ICT & Media Design

Transcriptie:

DPC (Dutch Parallel Corpus) een multitalig multifunctioneel corpus Hans Paulussen & Julia Trushkina K.U.Leuven / K.U.Leuven Campus Kortrijk ALT Research Center on CALL

Overzicht Situering DPC Tekststandaardisering Toepassingsvoorbeeld: corpuscall

DPC: Dutch Parallel Corpus Parallel corpus Gealigneerd op zinsniveau 10 miljoen woorden NL-FR & NL-EN Kwaliteitscontrole Compatibel met D-COI

1 Situering

Voorgeschiedenis K.U.Leuven Campus Kortrijk parallel corpus als didactisch hulpmiddel REBECA (samenwerking FUNDP, Namur) HoGent Departement Vertaalkunde parallel corpus als vertaalhulpmiddel

Groeiende vraag naar corpora Engels / andere talen Geschreven / gesproken Referentie / monitor Monolinguaal / multilinguaal Parallel / comparable

NL in meertalige corpora OMC: 170.000 NL woorden Namur Corpus: 700.000 MLCC: 7.100.000 Europarl: > 29.000.000

2 Dutch Parallel Corpus

DPC doelstellingen Evenwichtige compositie verschillende teksttypes in fictie en non-fictie Annotatie PoS, lemmata kwaliteitscontrole verschillende niveau's beschikbaarheid TST-centrale

Samenstelling corpus

Kwaliteitsvereisten Gedistribueerd Tekstkwaliteit & vertaalkwaliteit Annoteringskwaliteit Kwaliteitslabel

Kwalitatieve tekstleveranciers Teksttypes (non fictie) Journalistiek Essayistisch Zakelijk Technisch Ambtelijk Sector Kranten en tijdschriften Uitgeverijen Bank & verzekering ICT & medisch Government

Annotatie Zinnen Woorden Lemmata Woordsoorten Syntactisch

Metadata Vertaalrichting Vertaalmodaliteiten Directe vs. indirecte vertalingen Kwaliteitslabel

Kwaliteitslabel Manueel geverifiëerd Spot checking Automatische controleprocedures e.g. automatische vergelijking van output van verschillende aligneringsprogramma's

Corpusontsluiting Databank Bevraagbaar via webinterface Bilinguale concordantie Volledige teksten XML-bestanden (TEI)

Gebruikers en toepassingen Taaltechnologische toepassingen Automatische vertaling / terminologie-extractie Training- en testmateriaal Ondersteuningstoepassingen Vertaalhulp Dicactische ondersteuning (CALL) Uitbreiding vertaalwoordenboeken Fundamenteel onderzoek Vertaalwetenschap / contrastieve taalkunde Multitalig corpusonderzoek

DPC kernteam K.U.Leuven Campus Kortrijk Prof. Dr. Piet Desmet Dr. Hans Paulussen Dr. Julia Trushkina Lic. Antoine Besnehard HoGent Departement Vertaalkunde Prof. Dr. Willy Vandeweghe Dra. Lieve Macken Lic. Lidia Rura

DPC Onderzoekspartners Rijksuniversiteit Groningen Radboud universiteit Nijmegen Universiteit van Tilburg K.U.Leuven Universiteit Antwerpen Universiteit Gent

DPC gebruikersgroep Geconsulteerd bij belangrijke ontwerpbeslissingen Industriële partners, CALL, vertaaldiensten, Terminologie-extractie, Informatie-extractie Academische partners Taaltechnologie Vertaalwetenschappen Contrastieve taalkunde

3 Tekststandaardisering

tekststandaardisering XML (extensible Markup Language) well-formed eenduidigheid formaat XML tags valide beantwoordt aan DTD (documentgrammatica)

XML well-formed (1) Het document bevat één root-element dat alle andere elementen omvat. (2) Elke begintag heeft een overeenkomstige eindtag. <book> <chapter>...</chapter> </book>

XML-validatie DTD: document type definition Documentgrammatica

DTD book <!DOCTYPE book [ <!ELEMENT book (title, chapter+)> <!ELEMENT chapter (heading, paragraph*)> <!ELEMENT title (#PCDATA)> <!ELEMENT heading (#PCDATA)> <!ELEMENT paragraph (#PCDATA)> <!ATTLIST book language CDATA #REQUIRED author CDATA #REQUIRED > ]>

book.xml <?xml version ="1.0" encoding="iso-8859-1"?> <!DOCTYPE book SYSTEM "book.dtd"> <book language="en" author="ernest Hemingway"> <title>a Farewell to Arms</title> <chapter> <heading>chapter One</heading> <paragraph>... <paragraph> <paragraph>... <paragraph> </chapter> <chapter> <heading>chapter Two</heading> <paragraph>... <paragraph> <paragraph>... <paragraph> </chapter> </book>

DTD poème <?xml version="1.0" encoding="iso-8859-1"?> <!DOCTYPE poème [ <!ELEMENT poème (préambule, corps)> <!ELEMENT préambule (titre, recueil?, date?, auteur)> <!ELEMENT titre (#PCDATA)> <!ELEMENT recueil (#PCDATA)> <!ELEMENT date (#PCDATA)> <!ELEMENT auteur (#PCDATA)> <!ELEMENT corps (stance ligne)+> <!ELEMENT stance (ligne)+> <!ELEMENT ligne (#PCDATA r)*> <!ELEMENT r EMPTY> ]>

TEI & CES TEI (Text Encoding Initiative) is een standardformaat om teksten te structureren in SGML of XML CES (Corpus Encoding Initiative) is een gelijkaardige standaard

TEI DTD <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE TEI.2 PUBLIC "-//TEI P4//DTD Main Document Type//EN" [ <!ENTITY % TEI.XML 'INCLUDE'> <!--enable XML processing--> <!ENTITY % TEI.prose 'INCLUDE'> <!--base tag set for prose --> <!ENTITY % TEI.analysis 'INCLUDE'> <!--linguistic analysis--> <!ENTITY % TEI.linking 'INCLUDE'> <!--pointer mechanisms--> ]>

TEI unitary document <TEI.2> <teiheader> [ TEI Header information ] </teiheader> <text> <front> [ front matter... ] </front> <body> [ body of text... ] </body> <back> [ back matter... ] </back> </text> </TEI.2>

TEI composite document <TEI.2> <teiheader> [ header information for the composite ] </teiheader> <text> <front> [ front matter for the composite ] </front> <group> <text> <front> [ front matter of first text ] </front> <body> [ body of first text ] </body> <back> [ back matter of first text ] </back> </text> <text> <front> [ front matter of second text] </front> <body> [ body of second text ] </body> <back> [ back matter of second text ] </back> </text> [ more texts or groups of texts here ] </group> <back> [ back matter for the composite ] </back> </text> </TEI.2>

teicorpus <teicorpus> <teiheader> [header information for the corpus]</teiheader> <TEI.2> <teiheader>[header information for first text]</teiheader> <text> [first text in corpus] </text> </TEI.2> <TEI.2> <teiheader>[header information for second text]</teiheader> <text> [second text in corpus] </text> </TEI.2> </teicorpus>

4 Toepassingsvoorbeeld : CorpusCALL

Corpora voor CALL /1 Corpora voor leeractiviteiten Corpora als referentiemateriaal

Corpora voor CALL /2 Corpora voor leeractiviteiten voor: voorbereiding van oefeningen tijdens: corpusmateriaal als onderdeel van leeractiviteit na: corpusmateriaal als feedback

Corpora voor CALL /3 Corpora als referentiemateriaal leerwoordenboeken DAFLES: dictionnaire d'apprentissage du français langue étrangère ou seconde leergrammatica's ALFAGRAM

REBECA Resources électroniques bilingues extraites de corpus alignés Corpusondersteuning NEDERLEX-project (FUNDP Namur) Webapplicatie leesoefeningen Nederlands met ondersteuning van parallel corpusmateriaal Automatische corpusselectie

Informatie ALT http://www.kuleuven-kortrijk.be/alt DPC http://www.kuleuven-kortrijk.be/dpc