DUTCH PARALLEL CORPUS EN SONAR
|
|
|
- Paula Smit
- 10 jaren geleden
- Aantal bezoeken:
Transcriptie
1 163 DUTCH PARALLEL CORPUS EN SONAR Lieve Macken, Orphée de Clercq, Bart Desmet & Véronique Hoste Tekstcorpora spelen een belangrijke rol in verscheidene onderzoeksdomeinen en tal van toepassingen. Zo wordt in de corpustaalkunde taal bestudeerd aan de hand van een verzameling authentiek (eentalig) tekstmateriaal. Onderzoekers uit het domein van de contrastieve taalkunde en de vertaalkunde maken dan weer gebruik van meertalige tekstcorpora. Ook in het (vreemde)talenonderwijs hebben corpora hun nut bewezen, vooral in het computerondersteund talenonderwijs (CALL, Computer-Assisted Language Learning). In de taaltechnologie zijn corpora gewoonweg onmisbaar. Ze zijn cruciaal voor de ontwikkeling van allerlei toepassingen. Statistische en andere zelflerende systemen gebruiken immers corpora als trainingsmateriaal voor het leren of induceren van regels en/of modellen. Het is dan ook niet verwonderlijk dat het onderzoeks- en stimuleringsprogramma STEVIN ( Spraak en Taaltechnologische Essentiële Voorzieningen In het Nederlands ) verschillende corpusprojecten heeft gefinancierd. Het Language and Translation Technology Team van de huidige vakgroep Vertalen, Tolken en Communicatie (LT 3 ) was betrokken bij twee corpusprojecten: DPC (Macken et al., 2011, Paulussen et al., 2013) en SoNaR (Oostdijk et al., 2013). Het DPC (Dutch Parallel Corpus) is een parallel corpus van 10 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans. Het is bidirectioneel het Nederlands is zowel bron- als doeltaal en bevat zinsgealigneerde teksten die behoren tot vijf verschillende teksttypes.
2 164 SoNaR staat voor Stevin Nederlandstalig Referentiecorpus (zeg maar de Nederlandse tegenhanger van het British National Corpus, of BNC) en bevat 500 miljoen woorden. De teksten zijn afkomstig uit verschillende domeinen en genres en gaan over zeer uiteenlopende onderwerpen. Aan kennisinstellingen worden door individuele onderzoekers en onderzoeksgroepen ontzettend veel corpora ad-hoc aangelegd. In de meeste gevallen zijn die dataverzamelingen echter niet vrij toegankelijk. Aangezien de opbouw van een corpus een arbeidsintensief (en dus duur) proces is, was het een absolute vereiste van STEVIN, de financierder van zowel DPC als SoNaR, dat voor alle teksten die opgenomen werden in de corpora auteursrechtelijke toestemming werd verkregen. Dit is een belangrijke voorwaarde om de corpora later te kunnen verspreiden. In samenwerking met de juridische experten van de TST-centrale (centrale voor Taal- en SpraakTechnologie) werden er vier soorten IPR-overeenkomsten opgesteld. De verschillende stappen in het dataacquisitieproces en de moeilijkheden bij de onderhandelingen over auteursrecht staan beschreven in De Clercq & Montero Perez (2010) voor DPC, en in De Clercq & Reynaert (2010) voor SoNaR. Een andere eigenschap van beide corpora is dat ze gebalanceerd zijn volgens bepaalde criteria die vastgelegd werden tijdens de respectievelijke ontwerpfases. Het DPC bevat twee taalparen (Nederlands-Engels en Nederlands- Frans), vier vertaalrichtingen (Nederlands-Engels, Engels-Nederlands, Nederlands-Frans en Frans-Nederlands) en vijf tekstgenres (administratieve, instructieve, journalistieke, en literaire teksten en teksten voor externe communicatie), en is gebalanceerd volgens vertaalrichting en tekstgenre. Het materiaal in SoNaR bestaat uit hedendaags geschreven Nederlands (vanaf 1954) en weerspiegelt de verhouding van het
3 165 aantal inwoners in het Nederlandse taalgebied: één derde van het tekstmateriaal is afkomstig uit Vlaanderen; twee derde uit Nederland. Het corpus bevat teksten uit zeer uiteenlopende domeinen en genres alsook data afkomstig uit nieuwe media ( s, blogs, chats en sms). Alle beschikbare informatie over het opgenomen tekstmateriaal (zoals genre, tekstleverancier, taalpaar, vertaalrichting) werd geregistreerd in de metadatabestanden. Deze gegevens laten gebruikers toe om zelf teksten te selecteren uit het volledige corpus. De teksten die u kunt raadplegen in beide corpora hebben een lange weg afgelegd. Het tekstmateriaal werd aangeleverd in veel verschillende formaten (pdf, Word-documenten, html, xml, ) en werd genormaliseerd tot één standaardformaat. Vervolgens werden de teksten opgesplitst in zinnen, en in het geval van het DPC werden bron- en doelzinnen met elkaar gealigneerd. Alle teksten werden verrijkt met woordsoortinformatie en lemmata. Eén miljoen woorden van SoNaR (het SoNaR-1 deelcorpus) werd van diepere annotaties voorzien in de vorm van syntactische annotaties, Named Entities, coreferentierelaties, semantische rollen en temporele en ruimtelijke entiteiten. Een deel van de annotaties werden manueel geverifieerd. In het kader van Sonar zijn er drie taaltechnologische modules ontwikkeld binnen LT 3 : een systeem dat Named Entities herkent (Desmet & Hoste, 2013), een systeem dat coreferentierelaties opspoort in Nederlandse teksten (De Clercq et al., 2011) en een systeem dat semantische rollen toekent (De Clercq et al., 2012). Binnen het TTNWW-project[1] dat kadert binnen het pan-europese CLARIN netwerk, zijn er webservices ontwikkeld voor alle taaltechnologische componenten uit het SoNaR-project, zodat die modules op een gebruiksvriendelijke manier beschikbaar worden voor andere onderzoekers.
4 166 Dat corpora nuttig zijn voor onderzoek, bewijst volgend overzicht. Zowel het DPC als SoNaR zijn al veelvuldig gebruikt binnen de vakgroep Vertalen, Tolken en Communicatie voor verschillende onderzoeksdoeleinden: - In het domein van de corpusvertaalkunde is het DPC gebruikt voor het bestuderen van de verschillen tussen vertaalde en niet-vertaalde taal (Delaere et al., 2012; De Sutter et al., 2012) - In het domein van de vertaaltechnologie is het DPC gebruikt om testdata te selecteren voor het benchmarken van verschillende vertaalgeheugensystemen (Macken, 2009) en om taalpaarafhankelijke vertaalpatronen te extraheren (Macken & Daelemans, 2010). - In het domein van de vertaalwetenschap is het DPC gebruikt binnen het ROBOT-project[2] om tekstmateriaal te selecteren voor het opzetten van een vergelijkende studie tussen manueel vertalen en het post-editen van automatische vertalingen (Daems et al., 2013). - De manueel geverifieerde annotaties binnen het DPC en SoNaR zijn gebruikt als trainingsmateriaal om PoS taggers te ontwikkelen voor vier talen: Nederlands, Frans, Engels en Duits (Van de Kauter et al., 2014). - Door frequentie-informatie uit DPC en SoNaR te vergelijken met dat van domeinspecifieke corpora bepaalt het door LT3 ontwikkelde terminologie-extractiesysteem TExSIS de specificiteit van termen (Macken et al., 2013). - SoNaR werd gebruikt binnen de distributionele benadering voor hyperniemdetectie binnen het MUST-project[3] (Schropp et al., 2013). - In het Hendi-project[4] werden de teksten voor het leesbaarheidsonderzoek geselecteerd uit SoNaR-1 (De Clercq et al., 2013).
5 167 - Het sms-corpus uit SoNaR ligt aan de basis van de normalisatiemodule die ontwikkeld wordt binnen het AMiCA-[5] en PARIS-project[6] (De Clercq et al., 2013) Het DPC en SoNaR zijn gratis beschikbaar voor niet-commerciële doeleinden via de TST-centrale. Beide corpora worden geleverd in XML-formaat. Binnen het DPC-project is er voor het DPC ook een webinterface ontwikkeld die eveneens verkrijgbaar is via de TSTcentrale[7]. In het vervolgproject OpenSoNaR zal er een gebruikersinterface ontwikkeld worden voor SoNaR. Referenties Daems, J, Macken, L., & Vandepitte, S. (2013). Quality as the sum of its parts: A two-step approach for the identification of translation problems and translation quality assessment for HT and MT+PE. In S. O Brien, M. Simard & L. Specia (Eds.), Proceedings of MT Summit XIV Workshop on Post-editing Technology and Practice (pp ). European Association for Machine Translation, Nice, France. De Clercq, O., Hoste, V., Desmet, B., van Oosten, P., De Cock, M., & Macken, L. (2013). Using the Crowd for Readability Prediction. Natural Language Engineering, Cambridge Journals Online. De Clercq, O., Schulz, S., Desmet, B., Lefever, E., & Hoste, V. (2013). Normalization of Dutch User-Generated Content. Proceedings of the 9th International Conference on Recent Advances in Natural Language Processing (RANLP 2013). Hissar, Bulgaria. De Clercq, O., Hoste, V., & Monachesi, P. (2012). Evaluating Automatic Cross-Domain Semantic Role Annotation. Proceedings of the 8th Language Resources and Evaluation Conference (LREC'12), Istanbul, Turkey. De Clercq, O., & Montero Perez, M. (2010). Data collection and IPR in multilingual parallel corpora : Dutch parallel corpus. In N. Calzolari, K. Choukri, B. Maegaard, J. Mariani, J. Odijk, S. Piperidis et al. (Eds.),
6 168 Proceedings of the seventh International Conference on Language Resources and Evaluation (LREC'10). European Language Resources Association, Valletta, Malta. De Clercq, O., & Reynaert, M. (2010). SoNaR Acquisition Manual, version 1.0. LT3 Technical Report - LT De Clercq, O., Hoste, V., & Hendrickx, I. (2011). Cross-Domain Dutch Coreference Resolution. Proceedings of the 8th International Conference on Recent Advances in Natural Language Processing (RANLP 2011). Hissar, Bulgaria. Delaere, I., De Sutter, G.& Plevoets, K. (2012). Is translated language more standardized than non-translated language? Using profilebased correspondence analysis for measuring linguistic distances between language varieties. Target, 24(2), Desmet, B., & Hoste, V. (2013, in press). Fine-Grained Dutch Named Entity Recognition. Language Resources and Evaluation. De Sutter, G., Delaere, I. & Plevoets, K. (2012). Lexical lectometry in corpus-based translation studies. Combining profile-based correspondence analysis and logistic regression modeling. In M. Oakes,&.,M. Ji, (Eds.), Quantitative Methods in Corpus-Based Translation Studies. A Practical Guide To Descriptive Translation Research (pp ). Amsterdam: John Benjamins. Macken, L., In search of the recurrent units of translation (2009). In W. Daelemans & V. Hoste, (Eds.), Evaluation of Translation Technology. LANS 8/2009 (pp ). Brussels: Academic and Scientific Publishers. Macken, L., De Clercq, O., & Paulussen, H. (2011). Dutch Parallel Corpus: a Balanced Copyright-Cleared Parallel Corpus. Meta, 56(2),
7 169 Macken, L. & Daelemans, W. (2010). A Chunk-Driven Bootstrapping Approach to Extracting Translation Patterns. Proceedings of the 11th International Conference on Intelligent Text Processing and Computational Linguistics (Iasi, Romania). Lecture Notes in Computer Science, vol. 6009, pp Berlin/ Heidelberg: Springer. Macken, L., Lefever, E., & Hoste, V. (2013). TExSIS: Bilingual Terminology Extraction from Parallel Corpora Using Chunk-based Alignment. Terminology, 19(1), Oostdijk, N., Reynaert, M., Hoste, V., & Schuurman, I. (2013). The construction of a 500-million-word reference corpus of contemporary written Dutch. In P. Spyns & J. Odijk (Eds), Essential Speech and Language Technology for Dutch, Theory and Applications of Natural Language Processing (pp ). Berlin/ Heidelberg: Springer. Paulussen, H., Macken, L., Vandeweghe, W., & Desmet, P. (2013). Dutch Parallel Corpus: a Balanced Parallel Corpus for Dutch-English and Dutch-French. In P. Spyns and J. Odijk (Eds.), Essential Speech and Language Technology for Dutch, Theory and Applications of Natural Language Processing (pp ). Berlin/ Heidelberg: Springer. Schropp, G.Y.R., Lefever, E., & Hoste, V. (2013). A combined patternbased and distributional approach for automatic hypernym detection in Dutch. Proceedings of the 9th International Conference on Recent Advances in Natural Language Processing (RANLP 2013). Hissar, Bulgaria. Van de Kauter, M., Coorman, G., Lefever, E., Desmet B., Macken L., & Hoste V. (2014). LeTs Preprocess: the Multilingual LT3 Linguistic Preprocessing Toolkit. Computational Linguistics in the Netherlands Journal. Project websites [1]
8 170 [2] [3] [4] [5] [6] [7] Een demo-versie van de webinterface is beschikbaar via
Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken Hogeschool Gent
Dutch Parallel Corpus Multilinguaal & multifunctioneel Lieve Macken Hogeschool Gent Dutch Parallel Corpus Parallel corpus Teksten + vertaling Gealigneerd op zinsniveau 10 miljoen woorden Nederlands Engels
DPC. Dutch Parallel Corpus. Corpus Design. Lidia Rura
DPC Dutch Parallel Corpus Corpus Design Lidia Rura Geschiedenis corpora Engelstalige corpora (Brown 1961, LOB 1961) Nederlandstalige corpora (Eindhoven Corpus of Corpus Uit den Boogaart 1960-1973) EN referentiecorpora
Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken LT 3 Hogeschool Gent
Dutch Parallel Corpus Multilinguaal & multifunctioneel Lieve Macken LT 3 Hogeschool Gent Dutch Parallel Corpus Parallel corpus Teksten + vertaling Gealigneerd op zinsniveau 10 miljoen woorden Nederlands
TAALTECHNOLOGIE 2.0: SENTIMENTANALYSE EN
157 TAALTECHNOLOGIE 2.0: SENTIMENTANALYSE EN NORMALISATIE Bart Desmet, Orphée De Clercq, Marjan Van de Kauter, Sarah Schulz, Cynthia Van Hee & Véronique Hoste De opkomst van het internet voor en door iedereen,
SNELHEID VS. KWALITEIT: SCHUILT ER WEL WINST IN HET
141 SNELHEID VS. KWALITEIT: SCHUILT ER WEL WINST IN HET GEBRUIK VAN AUTOMATISCHE VERTAALSYSTEMEN? Joke Daems, Lieve Macken & Sonia Vandepitte De toenemende globalisatie zorgt voor een snel evoluerende
[Dossier] Taal- en spraaktechnologie in Vlaanderen: dood of levend? Els Lefever en Lieve Macken. <foto s auteurs: zie gelijknamig bestand>
[Dossier] Taal- en spraaktechnologie in Vlaanderen: dood of levend? Els Lefever en Lieve Macken Zo n kleine tien jaar geleden spatte de financiële luchtbel rond
Curriculum vitae. Opleiding. Stage en scriptie. Klaar Vanopstal
Curriculum vitae Klaar Vanopstal Steenakker 12-9000 GENT 0486 49 36 90 [email protected] 25 februari 1981 in Brugge Opleiding Doctoraatsopleiding UGent Doctoral School: Arts, Humanities and Law
HOE MEETBAAR IS LEESBAARHEID?
147 HOE MEETBAAR IS LEESBAARHEID? Orphée De Clercq & Véronique Hoste In een maatschappij waar communicatie centraal staat en we dagelijks bestookt worden met tekstmateriaal allerhande speelt leesbaarheid
Resultaten en Beschikbaarheid 1e Ronde projecten, SPRAAK en CORNETTO Jan Odijk i.s.m. TST-Centrale
Resultaten en Beschikbaarheid 1e Ronde projecten, SPRAAK en CORNETTO Jan Odijk i.s.m. TST-Centrale STEVIN Programmabijeenkomst, Hoeven, 11 september 2008 Autonomata COREA D-Coi IRME JASMIN-CGN SPRAAK CORNETTO
Sentimentanalyse voor online politieke berichtgeving
1 Sentimentanalyse voor online politieke berichtgeving Tom De Smedt Doctoraatsstudent Kunsten Computational Linguistics Research Group Universiteit Antwerpen TAALKUNDE Experimental Media Research Group
Parse and Corpus-based Machine Translation. STEVIN Programmadag 2010 1
PaCo-MT Parse and Corpus-based Machine Translation STEVIN Programmadag 2010 1 Project: PaCo-MT 2008-2011 Gesponsord door NL EN NL FR Consortium partners CCL KULeuven Alfa-Informatics RUGroningen OneLiner
Het Nederlands en Taal en Spraaktechnologie
Het Nederlands en Taal en Spraaktechnologie Amsterdam 18 Oktober 2012 Jan Odijk 1 Overzicht META-NET Studie Het Nederlands in de META-NET studie Het Nederlands in Nuance Spraaktechnologie De ontwikkeling
curriculum vitae bart decadt November 2004
curriculum vitae bart decadt November 2004 mijn gegevens Datum en plaats van geboorte : 13 november 1977 Nationaliteit : Belg Beroep : onderzoeksassistent Burgerlijke stand : ongehuwd, samenwonend met
Wat is een corpus en waarvoor wordt het gebruikt?
Wat is een corpus en waarvoor wordt het gebruikt? Een corpus is een verzameling teksten of getranscribeerde geproken taal met een samenstelling en proportionering van teksttypen die geschikt is voor een
Taalkunde en Computertaalkunde in de Lage Landen: een verhouding die eerst spannend was, dan gespannen en nu gewoon ontspannen
Taalkunde en Computertaalkunde in de Lage Landen: een verhouding die eerst spannend was, dan gespannen en nu gewoon ontspannen Frank Van Eynde Centrum voor Computerlinguïstiek KULeuven CLIN 25, Antwerpen,
syllabilijst 1819 eerste sem lesgever opleidingsonderdeel code titel cursus auteurs opmerkingen
lesgever opleidingsonderdeel code titel cursus auteurs opmerkingen Christophe Wybraeke Duits: Taalpraktijk A A703021 Einführungskurs AEL&ERASMUS EXCHANGE STUDENTS Christophe Wybraeke Duits: Taalpraktijk
Het I*Teach project. Innovative Teacher BG/05/B/P/PP-166 038. Nico van Diepen Universiteit Twente
Het I*Teach project Innovative Teacher B Nico van Diepen Universiteit Twente Overzicht Het project De doelen De resultaten De plannen Het project Internationaal / EU Leonardo Partners - Sofia University
TERMINOLOGICAL VARIATION IN
FACULTEIT Letteren en Wijsbegeerte Vakgroep Toegepaste Taalkunde TERMINOLOGICAL VARIATION IN MULTILINGUAL EUROPE. THE CASE OF ENGLISH ENVIRONMENTAL TERMINOLOGY TRANSLATED INTO DUTCH AND FRENCH Proefschrift
Enquête crowdsourcing knaw voor onderzoekers en collectiebeheerders
Bijlage 1: Enquête crowdsourcing knaw voor onderzoekers en collectiebeheerders Algemene informatie: 59 reacties in 4 weken Geachte collega s, Binnen de geesteswetenschappen van de knaw ontwikkelt een consortium
De toekomst van de Tax Assurance Provider
De toekomst van de Tax Assurance Provider Tax Data Science & Tax Assurance Vakmanschap 2022 RTAP-dag John Piepers 14 juni 2017 Interne beheersing 2 De wereld globaliseert... 3 versnelt, zapt en is on-line!
Vakgroep Vertalen, Tolken en Communicatie
Onderzoek vormt naast onderwijs en dienstverlening één van de drie kerntaken van de vakgroep Vertalen, Tolken en Communicatie. De vakgroep wil onderzoek voeren dat op internationaal niveau kan meedingen.
TERMINOLOGIE: OP HET SNIJVLAK VAN AMBACHT EN
179 TERMINOLOGIE: OP HET SNIJVLAK VAN AMBACHT EN TECHNOLOGIE Klaar Vanopstal, Lieve Macken, Els Lefever, Marjan Van de Kauter, Joost Buysschaert & Véronique Hoste Terminologie is niet weg te denken uit
xxxx xxxx AMiCA Brainstorm 18 oktober 2010 xxxx xxxx
AMiCA Brainstorm 18 oktober 2010 10:00 15:00 Plantijnzaal Lindner Hotel & City Lounge Antwerpen Programma 10u Walter Daelemans (UA): Welkomstwoord en introductie Introductie deelnemers Carine Lucas (IWT):
Natuurlijke-taalverwerking 1. Daniël de Kok
Natuurlijke-taalverwerking 1 Daniël de Kok Natuurlijke-Taalverwerking Het college Natuurlijke-taalverwerking is een inleiding in de computationele taalkunde en maakt deel uit van het curriculum van Informatiekunde
Sourcing & Technologie. Gerard Mulder, Commercieel directeur, [email protected], 06-26064090
Sourcing & Technologie Gerard Mulder, Commercieel directeur, [email protected], 06-26064090 Textkernel introductie Agenda Wat is sourcing? Hoe kan Textkernel technologie sourcing ondersteunen? Demo
Disseminatie: artikels schrijven, presenteren en publiceren. Katrien Struyven
Disseminatie: artikels schrijven, presenteren en publiceren Katrien Struyven Ervaringen Wie heeft pogingen ondernomen of reeds een artikel geschreven? Hoe heb je dit ervaren? Wie heeft er reeds deelgenomen
Technisch rapport SumNL corpus
Technisch rapport SumNL corpus Iris Hendrickx CNTS - Language Technology Group, University of Antwerp, Universiteitsplein 1, Antwerp Belgium [email protected] 1 Introductie Het SumNL corpus is ontwikkeld
Gebruik en gebruikers STEVIN en TST-Centrale
Gebruik en gebruikers STEVIN en TST-Centrale Verleden, heden en toekomst Remco van Veenendaal, TST-Centrale STEVIN-programmadag 2009 De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt
MACHINE LEREN VOOR E-DISCOVERY
MACHINE LEREN VOOR E-DISCOVERY Hans Henseler Lector E-Discovery, HvA Symposium E-Discovery Robotisering van Informatiemanagement 21 april 2016, Congrescentrum van de Gemeente Amsterdam 1 KENNISKRING E-DISCOVERY
Inhoud: de eerste verzameling van Nederlandstalige gesproken en geschreven teksten, 1960-1973
1 1 Nederlandstalige corpora 1.1 Eindhoven Corpus (EHC) of Corpus Uit den Boogaart Inhoud: de eerste verzameling van Nederlandstalige gesproken en geschreven teksten, 1960-1973 Omvang: geschreven taal:
Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016
Artificial Intelligence in uw dagelijkse praktijk Hilversum, 22 September 2016 Agenda 09:30 Welkom en introductie 09:35 Artificial Intelligence, al meer dan 50 jaar een actief onderzoeksgebied Jaap van
Marjo Maas: fysiotherapeut / docent / onderzoeker Peer assessment De impact van peer assessment op het klinische redeneren en het klinisch handelen van fysiotherapeuten in opleiding en fysiotherapeuten
SHICO: SHIFTING CONCEPTS OVER TIME
SHICO: SHIFTING CONCEPTS OVER TIME Tracing Concepts in Dutch Newspaper Discourse using Sequential Word Vector Spaces Melvin Wevers Translantis Project Digital Humanities Approaches to Reference Cultures:
Today's talented youth field hockey players, the stars of tomorrow? Gemser, Marije
University of Groningen Today's talented youth field hockey players, the stars of tomorrow? Gemser, Marije IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF) if you wish
De automatische analyse van subjectiviteit en causale samenhang in tekst
De automatische analyse van subjectiviteit en causale samenhang in tekst Wilbert Spooren Met dank aan: Erwin Komen, Micha Hulsbosch, Iris Hofstra, Patrick Sonsma Jet Hoek, Ted Sanders Clariah Subjectiviteit
Digital municipal services for entrepreneurs
Digital municipal services for entrepreneurs Smart Cities Meeting Amsterdam October 20th 2009 Business Contact Centres Project frame Mystery Shopper Research 2006: Assessment services and information for
Choral + Spraaktechnologie: ingezet voor de ontsluiting van audiovisuele
Choral + Spraaktechnologie: ingezet voor de ontsluiting van audiovisuele archieven De benadering Doel van het NWO CATCH project CHoral (2006-2011): onderzoek en ontwikkel geautomatiseerde annotatieen zoek
De rol van de multinationale taaldienstenonderneming in dekwaliteitsproductie.
Lezing voor de studenten vertaling van HONIM www.honim.be Brussel 6 May 2002 De rol van de multinationale taaldienstenonderneming in dekwaliteitsproductie. De herlokalisatie van de productie van talen:
DOWNLOAD OR READ : VAN DALE HANDWOORDENBOEK ENGELS NEDERLAN PDF EBOOK EPUB MOBI
DOWNLOAD OR READ : VAN DALE HANDWOORDENBOEK ENGELS NEDERLAN PDF EBOOK EPUB MOBI Page 1 Page 2 van dale handwoordenboek engels nederlan van dale handwoordenboek engels pdf van dale handwoordenboek engels
Inleiding Wat zijn paradata en welke data voor welk gebruik. verzamelen?
Inleiding Wat zijn paradata en welke data voor welk gebruik Ann Carton verzamelen? Discussiemiddag paradata, Nederlandstalig Platform voor Survey-Onderzoek Brussel, 11 maart 2010 Wat zijn paradata? Data»Gegevens
Volwassenheid en effectiviteit van enterprise
Volwassenheid en effectiviteit van enterprise architectuur http://igitur-archive.library.uu.nl/dissertations/2011-0609- 200519/steenbergen.pdf Marlies van Steenbergen Even voorstellen Principal Consultant
University of Groningen. Safe and Sound van den Bosch, Kirsten Anna-Marie
University of Groningen Safe and Sound van den Bosch, Kirsten Anna-Marie IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF) if you wish to cite from it. Please check the
Process Mining and audit support within financial services. KPMG IT Advisory 18 June 2014
Process Mining and audit support within financial services KPMG IT Advisory 18 June 2014 Agenda INTRODUCTION APPROACH 3 CASE STUDIES LEASONS LEARNED 1 APPROACH Process Mining Approach Five step program
Maken van een woordenboek:4 hoofdfasen
Maken van een woordenboek:4 hoofdfasen 1. het maken van een concept + het testen van het concept door middel van proefartikelen hoe moet je woordenboek er inhoudelijk uitzien? 2. opbouw van een materiaalverzameling
UGENT opleidingen op de Verderstudeerbeurs
UGENT opleidingen op de Verderstudeerbeurs Open Universiteit Universitair Centrum voor Talenonderwijs Innoverend ondernemen voor ingenieurs Wijsbegeerte Research Master Philosophy Moraalwetenschappen Tolken
Meertalige communicatie Tolken Vertalen. Toegepaste taalkunde op masterniveau
Meertalige communicatie Tolken Vertalen Antwerpen Brussel Toegepaste taalkunde op masterniveau Rijke talencombinaties o Nederlands o + Engels, Frans of Duits o + Engels, Frans, Duits, Spaans, Italiaans,
Stan Buis & Jirka Born
Toetsen van groepsproducten Toetsen van groepsproducten Stan Buis & Jirka Born Doelen workshop Theoretische achtergrond van toetsen van groepsproducten Beoordelingswijze van groepswerk kritisch onder de
Vertaling van SNOMED CT: Aanpak, processen en tools
1 Vertaling van SNOMED CT: Aanpak, processen en tools Nathalie De Sutter Projectmedewerker Terminologie AP13-2 FOD Volksgezondheid, Veiligheid van de Voedselketen en Leefmilieu Belgische extensie beschikbaar
E-learning maturity model. Hilde Van Laer
E-learning maturity model Hilde Van Laer E-learning maturity model (emm) Self-assessment van online en blended leren met e-learning maturity model (emm) A driver for change? http://www.utdc.vuw.ac.nz/research/e
Taalkundige verrijking in relatie tot PAROLE Corpus maar ook in ruimer kader
Taalkundige verrijking in relatie tot PAROLE Corpus maar ook in ruimer kader type verrijking: woordsoort en trefwoord/lemma syntactische, semantische verrijking doel: retrieval op verschillende niveau
Citation for published version (APA): Egberink, I. J-A. L. (2010). Applications of item response theory to non-cognitive data Groningen: s.n.
University of Groningen Applications of item response theory to non-cognitive data Egberink, Iris IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF) if you wish to cite
Leesbaarheid verkeersborden voor connected car
Leesbaarheid verkeersborden voor connected car Verkeersbordendatabank voor snelheidsassistentie en duurzame routering? Niet zo n gek idee! 15 maart 2017 Overzicht 1. Verkeersbordenherkenningsproces 2.
studie waarmee we de principes van de analyse willen demonstreren. Een volledig beschrijving van de algoritmen en de resultaten zijn te vinden in
Bio-informatica kan omschreven worden als het toepassen van algoritmen om meerwaarde te verkrijgen uit data afkomstig van biomedisch en/of biologisch onderzoek. In bio-informatica wordt onderzoek gedaan
OEM SENSORS for HD MAPS. Peter Defreyne, IxorTalk Julie Maes, Belgisch Instituut voor de Verkeersveiligheid
OEM SENSORS for HD MAPS Peter Defreyne, IxorTalk Julie Maes, Belgisch Instituut voor de Verkeersveiligheid 2008 Vlaamse regering Alle verkeersborden op de Vlaamse wegen 2 Ecosysteem verkeersbordendata
1 JOURNALISTIEK. Opleidingsonderdeel andere instelling
Artesis Hogeschool (nu UA) Bachelor in de productontwikkeling Algemene economie 3 Economische inzichten Artesis Hogeschool (nu UA) Bachelor in de productontwikkeling Bedrijfseconomie 3 Economische inzichten
Deze presentatie. Gebruik bronnen. Wat voor bronnen? ZOEKEN VAN WETENSCHAPPELIJKE LITERATUUR
Deze presentatie 2 Wat voor soort literatuur bestaat er? Hoe vind je relevante literatuur? ZOEKEN VAN WETENSCHAPPELIJKE LITERATUUR Hans Bodlaender Onderzoeksmethoden Gebruik bronnen Wat voor bronnen? 3
Van Batenburg, E., & Schaik, M. (2013). Kennis op de werkvloer: wat helpt de docent en de
Van Batenburg, E., & Schaik, M. (2013). Kennis op de werkvloer: wat helpt de docent en de vmbo-leerling. In: J. K. Van der Waals & M. Van Schaik (Eds.), Het VMBO van dichtbij. Bewegen tussen theorie en
Wat is nieuw in Enterprise Guide
Enterprise Guide 42 4.2 Lieve Goedhuys Copyright 2009 SAS Institute Inc. All rights reserved. Wat is nieuw in Enterprise Guide Vereenvoudigde interface Gebruikersinterface i Project recovery Conditionele
Michiel Kroon & Stijn Hulshof
IJBURGCOLLEGE.NL Profielproduct Verantwoording & 02-06-2012 Activiteiten Voor het tot stand komen van dit profielproduct zijn de volgende stappen doorlopen (zie ook figuur 1): 1. Literatuuranalyse van
Media en creativiteit. Winter jaar vier Werkcollege 7
Media en creativiteit Winter jaar vier Werkcollege 7 Kwartaaloverzicht winter Les 1 Les 2 Les 3 Les 4 Les 5 Les 6 Les 7 Les 8 Opbouw scriptie Keuze onderwerp Onderzoeksvraag en deelvragen Bespreken onderzoeksvragen
Stijn Hoppenbrouwers en Tom Heskes. Onderzoeksmethoden (vervolg)
Stijn Hoppenbrouwers en Tom Heskes Onderzoeksmethoden 1 Operationaliseren Dataverzameling Data analyse Onderzoeksplan schrijven Onderzoeksmethoden 2 Specifieke onderzoeksmethoden die ingezet (kunnen) worden
COAVA. Gebruikershandleiding. Gebruikershandleiding bij de COAVA web applicatie CLARIN-NL
CLARIN-NL COAVA Gebruikershandleiding Gebruikershandleiding bij de COAVA web applicatie M e e r t e n s I n s t i t u u t, J o a n M u y s k e n s w e g 2 5, 1 0 9 6 C J A m s t e r d a m Gebruikershandleiding
David Weenink. Instituut voor Fonetische Wetenschapen ACLC Universiteit van Amsterdam. Spraakverwerking per computer.
Instituut voor Fonetische Wetenschapen ACLC Universiteit van Amsterdam AMSTERDAM CENTER FOR LANGUAGE AND C O M M U N I C A T I O N 5000 4000 3000 Hz 2000 1000 0 de vrouw loopt met haar dure schoenen 0.3
Een vertaalworkflow simuleren en evalueren. Departement Toegepaste Taalkunde Erasmushogeschool Brussel
Een vertaalworkflow simuleren en evalueren Departement Toegepaste Taalkunde Erasmushogeschool Brussel Wat? cursus (ver)taaltechnologie voor Masterjaar van keuzevak in 06-07 naar verplicht vak in 07-08
Enterprise Language Processing [Nederlandse titel?] Aanzet voor een nieuw programma
Inleiding Enterprise Language Processing [Nederlandse titel?] Aanzet voor een nieuw programma In deze notitie, die gemaakt is in opdracht van de Nederlandse Taalunie, beschrijven wij de contouren van een
Samenvatting De belangrijkste onderzoeksvraag waarop het werk in dit proefschrift een antwoord probeert te vinden, is welke typen taalkundige informatie het nuttigst zijn voor de lexicale desambiguatie
Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands (STEVIN) http://taalunieversum.org/stevin
Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands (STEVIN) http://taalunieversum.org/stevin STEVIN Jaarverslag 2009 In dit jaarverslag is een overzicht opgesomd van de activiteiten
Master in het vertalen
ANTWERPEN t Master in het vertalen Faculteit Letteren Welkom aan de KU Leuven, de grootste en oudste universiteit van België. Je kunt hier je studietraject verderzetten en verrijken, ook als je elders
Samenvatting De hoofdonderzoeksvraag van dit proefschrift is vast te stellen hoe term- en relatie-extractietechnieken kunnen bijdragen tot het beantwoorden van medische vragen. Deze vraag is ingegeven
Turn-key platform Newz. Big Content & Semantics
Introduction Michel de Ru Solution architect @ Dayon 16 years experience in publishing Among others Wolters-Kluwer, Sdu (ELS) and Dutch Railways Specialized in Content related Big Data challenges Specialized
Taal- en spraaktechnologie voor het onderwijs in en van het Nederlands
Ronde 1 Catia Cucchiarini & Rintse van der Werf Nederlandse Taalunie / Edia Educatie Technologie Contact: [email protected] [email protected] Taal- en spraaktechnologie voor het onderwijs
Vragenlijsten kwaliteit van leven
Click for the English version Vragenlijsten kwaliteit van leven TNO heeft een aantal vragenlijsten ontwikkeld om de gezondheidsrelateerde kwaliteit van leven te meten van kinderen, jongeren en jong-volwassenen.
CASE een elektronische omgeving voor het zoeken naar en analyseren van uitspraken
CASE een elektronische omgeving voor het zoeken naar en analyseren van uitspraken Antoinette J. Muntjewerff Afdeling Algemene Rechtsleer Faculteit der Rechtsgeleerdheid [email protected] http://www.lri.jur.uva.nl/~munt
COST: European cooperation in science and technology. NETLAKE COST Action ES1201
Name NETLAKE COST Action ES1201 COST: European cooperation in science and technology DOEL: Onderzoeken en oplossen van internationale vraagstukken MIDDEL: Coördineren en afstemmen van onderzoek middels
HET ZOEKEN VAN WETENSCHAPPELIJKE LITERATUUR. Hans Bodlaender
HET ZOEKEN VAN WETENSCHAPPELIJKE LITERATUUR Hans Bodlaender Deze presentatie 2 Wat voor soort literatuur bestaat er? Hoe wordt die gemaakt? Hoe vind je relevante literatuur? Gebruik bronnen 3 Voordat je
