DUTCH PARALLEL CORPUS EN SONAR
|
|
- Paula Smit
- 8 jaren geleden
- Aantal bezoeken:
Transcriptie
1 163 DUTCH PARALLEL CORPUS EN SONAR Lieve Macken, Orphée de Clercq, Bart Desmet & Véronique Hoste Tekstcorpora spelen een belangrijke rol in verscheidene onderzoeksdomeinen en tal van toepassingen. Zo wordt in de corpustaalkunde taal bestudeerd aan de hand van een verzameling authentiek (eentalig) tekstmateriaal. Onderzoekers uit het domein van de contrastieve taalkunde en de vertaalkunde maken dan weer gebruik van meertalige tekstcorpora. Ook in het (vreemde)talenonderwijs hebben corpora hun nut bewezen, vooral in het computerondersteund talenonderwijs (CALL, Computer-Assisted Language Learning). In de taaltechnologie zijn corpora gewoonweg onmisbaar. Ze zijn cruciaal voor de ontwikkeling van allerlei toepassingen. Statistische en andere zelflerende systemen gebruiken immers corpora als trainingsmateriaal voor het leren of induceren van regels en/of modellen. Het is dan ook niet verwonderlijk dat het onderzoeks- en stimuleringsprogramma STEVIN ( Spraak en Taaltechnologische Essentiële Voorzieningen In het Nederlands ) verschillende corpusprojecten heeft gefinancierd. Het Language and Translation Technology Team van de huidige vakgroep Vertalen, Tolken en Communicatie (LT 3 ) was betrokken bij twee corpusprojecten: DPC (Macken et al., 2011, Paulussen et al., 2013) en SoNaR (Oostdijk et al., 2013). Het DPC (Dutch Parallel Corpus) is een parallel corpus van 10 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans. Het is bidirectioneel het Nederlands is zowel bron- als doeltaal en bevat zinsgealigneerde teksten die behoren tot vijf verschillende teksttypes.
2 164 SoNaR staat voor Stevin Nederlandstalig Referentiecorpus (zeg maar de Nederlandse tegenhanger van het British National Corpus, of BNC) en bevat 500 miljoen woorden. De teksten zijn afkomstig uit verschillende domeinen en genres en gaan over zeer uiteenlopende onderwerpen. Aan kennisinstellingen worden door individuele onderzoekers en onderzoeksgroepen ontzettend veel corpora ad-hoc aangelegd. In de meeste gevallen zijn die dataverzamelingen echter niet vrij toegankelijk. Aangezien de opbouw van een corpus een arbeidsintensief (en dus duur) proces is, was het een absolute vereiste van STEVIN, de financierder van zowel DPC als SoNaR, dat voor alle teksten die opgenomen werden in de corpora auteursrechtelijke toestemming werd verkregen. Dit is een belangrijke voorwaarde om de corpora later te kunnen verspreiden. In samenwerking met de juridische experten van de TST-centrale (centrale voor Taal- en SpraakTechnologie) werden er vier soorten IPR-overeenkomsten opgesteld. De verschillende stappen in het dataacquisitieproces en de moeilijkheden bij de onderhandelingen over auteursrecht staan beschreven in De Clercq & Montero Perez (2010) voor DPC, en in De Clercq & Reynaert (2010) voor SoNaR. Een andere eigenschap van beide corpora is dat ze gebalanceerd zijn volgens bepaalde criteria die vastgelegd werden tijdens de respectievelijke ontwerpfases. Het DPC bevat twee taalparen (Nederlands-Engels en Nederlands- Frans), vier vertaalrichtingen (Nederlands-Engels, Engels-Nederlands, Nederlands-Frans en Frans-Nederlands) en vijf tekstgenres (administratieve, instructieve, journalistieke, en literaire teksten en teksten voor externe communicatie), en is gebalanceerd volgens vertaalrichting en tekstgenre. Het materiaal in SoNaR bestaat uit hedendaags geschreven Nederlands (vanaf 1954) en weerspiegelt de verhouding van het
3 165 aantal inwoners in het Nederlandse taalgebied: één derde van het tekstmateriaal is afkomstig uit Vlaanderen; twee derde uit Nederland. Het corpus bevat teksten uit zeer uiteenlopende domeinen en genres alsook data afkomstig uit nieuwe media ( s, blogs, chats en sms). Alle beschikbare informatie over het opgenomen tekstmateriaal (zoals genre, tekstleverancier, taalpaar, vertaalrichting) werd geregistreerd in de metadatabestanden. Deze gegevens laten gebruikers toe om zelf teksten te selecteren uit het volledige corpus. De teksten die u kunt raadplegen in beide corpora hebben een lange weg afgelegd. Het tekstmateriaal werd aangeleverd in veel verschillende formaten (pdf, Word-documenten, html, xml, ) en werd genormaliseerd tot één standaardformaat. Vervolgens werden de teksten opgesplitst in zinnen, en in het geval van het DPC werden bron- en doelzinnen met elkaar gealigneerd. Alle teksten werden verrijkt met woordsoortinformatie en lemmata. Eén miljoen woorden van SoNaR (het SoNaR-1 deelcorpus) werd van diepere annotaties voorzien in de vorm van syntactische annotaties, Named Entities, coreferentierelaties, semantische rollen en temporele en ruimtelijke entiteiten. Een deel van de annotaties werden manueel geverifieerd. In het kader van Sonar zijn er drie taaltechnologische modules ontwikkeld binnen LT 3 : een systeem dat Named Entities herkent (Desmet & Hoste, 2013), een systeem dat coreferentierelaties opspoort in Nederlandse teksten (De Clercq et al., 2011) en een systeem dat semantische rollen toekent (De Clercq et al., 2012). Binnen het TTNWW-project[1] dat kadert binnen het pan-europese CLARIN netwerk, zijn er webservices ontwikkeld voor alle taaltechnologische componenten uit het SoNaR-project, zodat die modules op een gebruiksvriendelijke manier beschikbaar worden voor andere onderzoekers.
4 166 Dat corpora nuttig zijn voor onderzoek, bewijst volgend overzicht. Zowel het DPC als SoNaR zijn al veelvuldig gebruikt binnen de vakgroep Vertalen, Tolken en Communicatie voor verschillende onderzoeksdoeleinden: - In het domein van de corpusvertaalkunde is het DPC gebruikt voor het bestuderen van de verschillen tussen vertaalde en niet-vertaalde taal (Delaere et al., 2012; De Sutter et al., 2012) - In het domein van de vertaaltechnologie is het DPC gebruikt om testdata te selecteren voor het benchmarken van verschillende vertaalgeheugensystemen (Macken, 2009) en om taalpaarafhankelijke vertaalpatronen te extraheren (Macken & Daelemans, 2010). - In het domein van de vertaalwetenschap is het DPC gebruikt binnen het ROBOT-project[2] om tekstmateriaal te selecteren voor het opzetten van een vergelijkende studie tussen manueel vertalen en het post-editen van automatische vertalingen (Daems et al., 2013). - De manueel geverifieerde annotaties binnen het DPC en SoNaR zijn gebruikt als trainingsmateriaal om PoS taggers te ontwikkelen voor vier talen: Nederlands, Frans, Engels en Duits (Van de Kauter et al., 2014). - Door frequentie-informatie uit DPC en SoNaR te vergelijken met dat van domeinspecifieke corpora bepaalt het door LT3 ontwikkelde terminologie-extractiesysteem TExSIS de specificiteit van termen (Macken et al., 2013). - SoNaR werd gebruikt binnen de distributionele benadering voor hyperniemdetectie binnen het MUST-project[3] (Schropp et al., 2013). - In het Hendi-project[4] werden de teksten voor het leesbaarheidsonderzoek geselecteerd uit SoNaR-1 (De Clercq et al., 2013).
5 167 - Het sms-corpus uit SoNaR ligt aan de basis van de normalisatiemodule die ontwikkeld wordt binnen het AMiCA-[5] en PARIS-project[6] (De Clercq et al., 2013) Het DPC en SoNaR zijn gratis beschikbaar voor niet-commerciële doeleinden via de TST-centrale. Beide corpora worden geleverd in XML-formaat. Binnen het DPC-project is er voor het DPC ook een webinterface ontwikkeld die eveneens verkrijgbaar is via de TSTcentrale[7]. In het vervolgproject OpenSoNaR zal er een gebruikersinterface ontwikkeld worden voor SoNaR. Referenties Daems, J, Macken, L., & Vandepitte, S. (2013). Quality as the sum of its parts: A two-step approach for the identification of translation problems and translation quality assessment for HT and MT+PE. In S. O Brien, M. Simard & L. Specia (Eds.), Proceedings of MT Summit XIV Workshop on Post-editing Technology and Practice (pp ). European Association for Machine Translation, Nice, France. De Clercq, O., Hoste, V., Desmet, B., van Oosten, P., De Cock, M., & Macken, L. (2013). Using the Crowd for Readability Prediction. Natural Language Engineering, Cambridge Journals Online. De Clercq, O., Schulz, S., Desmet, B., Lefever, E., & Hoste, V. (2013). Normalization of Dutch User-Generated Content. Proceedings of the 9th International Conference on Recent Advances in Natural Language Processing (RANLP 2013). Hissar, Bulgaria. De Clercq, O., Hoste, V., & Monachesi, P. (2012). Evaluating Automatic Cross-Domain Semantic Role Annotation. Proceedings of the 8th Language Resources and Evaluation Conference (LREC'12), Istanbul, Turkey. De Clercq, O., & Montero Perez, M. (2010). Data collection and IPR in multilingual parallel corpora : Dutch parallel corpus. In N. Calzolari, K. Choukri, B. Maegaard, J. Mariani, J. Odijk, S. Piperidis et al. (Eds.),
6 168 Proceedings of the seventh International Conference on Language Resources and Evaluation (LREC'10). European Language Resources Association, Valletta, Malta. De Clercq, O., & Reynaert, M. (2010). SoNaR Acquisition Manual, version 1.0. LT3 Technical Report - LT De Clercq, O., Hoste, V., & Hendrickx, I. (2011). Cross-Domain Dutch Coreference Resolution. Proceedings of the 8th International Conference on Recent Advances in Natural Language Processing (RANLP 2011). Hissar, Bulgaria. Delaere, I., De Sutter, G.& Plevoets, K. (2012). Is translated language more standardized than non-translated language? Using profilebased correspondence analysis for measuring linguistic distances between language varieties. Target, 24(2), Desmet, B., & Hoste, V. (2013, in press). Fine-Grained Dutch Named Entity Recognition. Language Resources and Evaluation. De Sutter, G., Delaere, I. & Plevoets, K. (2012). Lexical lectometry in corpus-based translation studies. Combining profile-based correspondence analysis and logistic regression modeling. In M. Oakes,&.,M. Ji, (Eds.), Quantitative Methods in Corpus-Based Translation Studies. A Practical Guide To Descriptive Translation Research (pp ). Amsterdam: John Benjamins. Macken, L., In search of the recurrent units of translation (2009). In W. Daelemans & V. Hoste, (Eds.), Evaluation of Translation Technology. LANS 8/2009 (pp ). Brussels: Academic and Scientific Publishers. Macken, L., De Clercq, O., & Paulussen, H. (2011). Dutch Parallel Corpus: a Balanced Copyright-Cleared Parallel Corpus. Meta, 56(2),
7 169 Macken, L. & Daelemans, W. (2010). A Chunk-Driven Bootstrapping Approach to Extracting Translation Patterns. Proceedings of the 11th International Conference on Intelligent Text Processing and Computational Linguistics (Iasi, Romania). Lecture Notes in Computer Science, vol. 6009, pp Berlin/ Heidelberg: Springer. Macken, L., Lefever, E., & Hoste, V. (2013). TExSIS: Bilingual Terminology Extraction from Parallel Corpora Using Chunk-based Alignment. Terminology, 19(1), Oostdijk, N., Reynaert, M., Hoste, V., & Schuurman, I. (2013). The construction of a 500-million-word reference corpus of contemporary written Dutch. In P. Spyns & J. Odijk (Eds), Essential Speech and Language Technology for Dutch, Theory and Applications of Natural Language Processing (pp ). Berlin/ Heidelberg: Springer. Paulussen, H., Macken, L., Vandeweghe, W., & Desmet, P. (2013). Dutch Parallel Corpus: a Balanced Parallel Corpus for Dutch-English and Dutch-French. In P. Spyns and J. Odijk (Eds.), Essential Speech and Language Technology for Dutch, Theory and Applications of Natural Language Processing (pp ). Berlin/ Heidelberg: Springer. Schropp, G.Y.R., Lefever, E., & Hoste, V. (2013). A combined patternbased and distributional approach for automatic hypernym detection in Dutch. Proceedings of the 9th International Conference on Recent Advances in Natural Language Processing (RANLP 2013). Hissar, Bulgaria. Van de Kauter, M., Coorman, G., Lefever, E., Desmet B., Macken L., & Hoste V. (2014). LeTs Preprocess: the Multilingual LT3 Linguistic Preprocessing Toolkit. Computational Linguistics in the Netherlands Journal. Project websites [1]
8 170 [2] [3] [4] [5] [6] [7] Een demo-versie van de webinterface is beschikbaar via
Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken Hogeschool Gent
Dutch Parallel Corpus Multilinguaal & multifunctioneel Lieve Macken Hogeschool Gent Dutch Parallel Corpus Parallel corpus Teksten + vertaling Gealigneerd op zinsniveau 10 miljoen woorden Nederlands Engels
Nadere informatieDPC. Dutch Parallel Corpus. Corpus Design. Lidia Rura
DPC Dutch Parallel Corpus Corpus Design Lidia Rura Geschiedenis corpora Engelstalige corpora (Brown 1961, LOB 1961) Nederlandstalige corpora (Eindhoven Corpus of Corpus Uit den Boogaart 1960-1973) EN referentiecorpora
Nadere informatieDutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken LT 3 Hogeschool Gent
Dutch Parallel Corpus Multilinguaal & multifunctioneel Lieve Macken LT 3 Hogeschool Gent Dutch Parallel Corpus Parallel corpus Teksten + vertaling Gealigneerd op zinsniveau 10 miljoen woorden Nederlands
Nadere informatieTAALTECHNOLOGIE 2.0: SENTIMENTANALYSE EN
157 TAALTECHNOLOGIE 2.0: SENTIMENTANALYSE EN NORMALISATIE Bart Desmet, Orphée De Clercq, Marjan Van de Kauter, Sarah Schulz, Cynthia Van Hee & Véronique Hoste De opkomst van het internet voor en door iedereen,
Nadere informatieSNELHEID VS. KWALITEIT: SCHUILT ER WEL WINST IN HET
141 SNELHEID VS. KWALITEIT: SCHUILT ER WEL WINST IN HET GEBRUIK VAN AUTOMATISCHE VERTAALSYSTEMEN? Joke Daems, Lieve Macken & Sonia Vandepitte De toenemende globalisatie zorgt voor een snel evoluerende
Nadere informatie[Dossier] Taal- en spraaktechnologie in Vlaanderen: dood of levend? Els Lefever en Lieve Macken. <foto s auteurs: zie gelijknamig bestand>
[Dossier] Taal- en spraaktechnologie in Vlaanderen: dood of levend? Els Lefever en Lieve Macken Zo n kleine tien jaar geleden spatte de financiële luchtbel rond
Nadere informatieCurriculum vitae. Opleiding. Stage en scriptie. Klaar Vanopstal
Curriculum vitae Klaar Vanopstal Steenakker 12-9000 GENT 0486 49 36 90 klaar.vanopstal@ugent.be 25 februari 1981 in Brugge Opleiding Doctoraatsopleiding UGent Doctoral School: Arts, Humanities and Law
Nadere informatieHOE MEETBAAR IS LEESBAARHEID?
147 HOE MEETBAAR IS LEESBAARHEID? Orphée De Clercq & Véronique Hoste In een maatschappij waar communicatie centraal staat en we dagelijks bestookt worden met tekstmateriaal allerhande speelt leesbaarheid
Nadere informatieVervolg op het STEVIN Programma
Vervolg op het STEVIN Programma Onderzoek en Ontwikkeling Internationaal Europa Focus op Multilingual en Cross-lingual Information Processing Meer development dan Research Kan verschuiven in de komende
Nadere informatieDPC (Dutch Parallel Corpus) een multitalig multifunctioneel corpus
DPC (Dutch Parallel Corpus) een multitalig multifunctioneel corpus Hans Paulussen & Julia Trushkina K.U.Leuven / K.U.Leuven Campus Kortrijk ALT Research Center on CALL Overzicht Situering DPC Tekststandaardisering
Nadere informatieResultaten en Beschikbaarheid 1e Ronde projecten, SPRAAK en CORNETTO Jan Odijk i.s.m. TST-Centrale
Resultaten en Beschikbaarheid 1e Ronde projecten, SPRAAK en CORNETTO Jan Odijk i.s.m. TST-Centrale STEVIN Programmabijeenkomst, Hoeven, 11 september 2008 Autonomata COREA D-Coi IRME JASMIN-CGN SPRAAK CORNETTO
Nadere informatieSentimentanalyse voor online politieke berichtgeving
1 Sentimentanalyse voor online politieke berichtgeving Tom De Smedt Doctoraatsstudent Kunsten Computational Linguistics Research Group Universiteit Antwerpen TAALKUNDE Experimental Media Research Group
Nadere informatieParse and Corpus-based Machine Translation. STEVIN Programmadag 2010 1
PaCo-MT Parse and Corpus-based Machine Translation STEVIN Programmadag 2010 1 Project: PaCo-MT 2008-2011 Gesponsord door NL EN NL FR Consortium partners CCL KULeuven Alfa-Informatics RUGroningen OneLiner
Nadere informatieHet Nederlands en Taal en Spraaktechnologie
Het Nederlands en Taal en Spraaktechnologie Amsterdam 18 Oktober 2012 Jan Odijk 1 Overzicht META-NET Studie Het Nederlands in de META-NET studie Het Nederlands in Nuance Spraaktechnologie De ontwikkeling
Nadere informatiecurriculum vitae bart decadt November 2004
curriculum vitae bart decadt November 2004 mijn gegevens Datum en plaats van geboorte : 13 november 1977 Nationaliteit : Belg Beroep : onderzoeksassistent Burgerlijke stand : ongehuwd, samenwonend met
Nadere informatieWat is een corpus en waarvoor wordt het gebruikt?
Wat is een corpus en waarvoor wordt het gebruikt? Een corpus is een verzameling teksten of getranscribeerde geproken taal met een samenstelling en proportionering van teksttypen die geschikt is voor een
Nadere informatieAutomatic lexico-semantic acquisition for question answering Plas, Marie Louise Elizabeth van der
Automatic lexico-semantic acquisition for question answering Plas, Marie Louise Elizabeth van der IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF) if you wish to cite
Nadere informatieZoeken in een Afrikaans corpus: baie maklik! Liesbeth Augustinus Ineke Schuurman Vincent Vandeghinste Peter Dirix Frank Van Eynde
Zoeken in een Afrikaans corpus: baie maklik! Liesbeth Augustinus Ineke Schuurman Vincent Vandeghinste Peter Dirix Frank Van Eynde Colloquium Afrikaans - 23 oktober 2015 AFRIBOOMS PROJECT Syntactisch geannoteerd
Nadere informatieTaalkunde en Computertaalkunde in de Lage Landen: een verhouding die eerst spannend was, dan gespannen en nu gewoon ontspannen
Taalkunde en Computertaalkunde in de Lage Landen: een verhouding die eerst spannend was, dan gespannen en nu gewoon ontspannen Frank Van Eynde Centrum voor Computerlinguïstiek KULeuven CLIN 25, Antwerpen,
Nadere informatiesyllabilijst 1819 eerste sem lesgever opleidingsonderdeel code titel cursus auteurs opmerkingen
lesgever opleidingsonderdeel code titel cursus auteurs opmerkingen Christophe Wybraeke Duits: Taalpraktijk A A703021 Einführungskurs AEL&ERASMUS EXCHANGE STUDENTS Christophe Wybraeke Duits: Taalpraktijk
Nadere informatieHet I*Teach project. Innovative Teacher BG/05/B/P/PP-166 038. Nico van Diepen Universiteit Twente
Het I*Teach project Innovative Teacher B Nico van Diepen Universiteit Twente Overzicht Het project De doelen De resultaten De plannen Het project Internationaal / EU Leonardo Partners - Sofia University
Nadere informatieAutomatisch Vertalen SMT
Automatisch Vertalen SMT Véronique Hoste (met dank aan Lieve Macken) Hoe leert een computer vertalen? Woordverwerving in SMT 鱼 汤 糖 醋 老 鸭 yú tāng táng cù lǎo yā Co-occurrence frequency 鸡 汤 jī tāng
Nadere informatieHet World Wide Web als corpus
Het World Wide Web als corpus Typen gebruik van het WWW: - het downloaden van teksten of hun URLs - het doorzoeken van het web als gigantische en multilinguale tekstenverzameling - onderzoek naar kenmerken
Nadere informatieTERMINOLOGICAL VARIATION IN
FACULTEIT Letteren en Wijsbegeerte Vakgroep Toegepaste Taalkunde TERMINOLOGICAL VARIATION IN MULTILINGUAL EUROPE. THE CASE OF ENGLISH ENVIRONMENTAL TERMINOLOGY TRANSLATED INTO DUTCH AND FRENCH Proefschrift
Nadere informatieTranslation-driven mapping of semantic fields of inceptiveness
Translation-driven mapping of semantic fields of inceptiveness Using bidirectional parallel corpus data for measuring and visualizing distances between lexemes in the semantic field of inceptiveness Lore
Nadere informatieEnquête crowdsourcing knaw voor onderzoekers en collectiebeheerders
Bijlage 1: Enquête crowdsourcing knaw voor onderzoekers en collectiebeheerders Algemene informatie: 59 reacties in 4 weken Geachte collega s, Binnen de geesteswetenschappen van de knaw ontwikkelt een consortium
Nadere informatieDe toekomst van de Tax Assurance Provider
De toekomst van de Tax Assurance Provider Tax Data Science & Tax Assurance Vakmanschap 2022 RTAP-dag John Piepers 14 juni 2017 Interne beheersing 2 De wereld globaliseert... 3 versnelt, zapt en is on-line!
Nadere informatieVakgroep Vertalen, Tolken en Communicatie
Onderzoek vormt naast onderwijs en dienstverlening één van de drie kerntaken van de vakgroep Vertalen, Tolken en Communicatie. De vakgroep wil onderzoek voeren dat op internationaal niveau kan meedingen.
Nadere informatieTERMINOLOGIE: OP HET SNIJVLAK VAN AMBACHT EN
179 TERMINOLOGIE: OP HET SNIJVLAK VAN AMBACHT EN TECHNOLOGIE Klaar Vanopstal, Lieve Macken, Els Lefever, Marjan Van de Kauter, Joost Buysschaert & Véronique Hoste Terminologie is niet weg te denken uit
Nadere informatieGernEdiT The GermaNet Editing Tool
GernEdiT The GermaNet Editing Tool Verena Henrich and Erhard Hinrichs University of Tübingen Department of Linguistics LREC 2010, Malta, May 2010 Introduction GernEdiT (GermaNet Editing Tool) User-friendly
Nadere informatiexxxx xxxx AMiCA Brainstorm 18 oktober 2010 xxxx xxxx
AMiCA Brainstorm 18 oktober 2010 10:00 15:00 Plantijnzaal Lindner Hotel & City Lounge Antwerpen Programma 10u Walter Daelemans (UA): Welkomstwoord en introductie Introductie deelnemers Carine Lucas (IWT):
Nadere informatieDaar het bestreden vonnis de huurovereenkomst ontbindt op de dag. van de uitspraak ervan zonder daarbij vast te stellen dat de na de
Daar het bestreden vonnis de huurovereenkomst ontbindt op de dag van de uitspraak ervan zonder daarbij vast te stellen dat de na de rechtsvordering verrichte prestaties niet voor teruggave in aanmerking
Nadere informatieNatuurlijke-taalverwerking 1. Daniël de Kok
Natuurlijke-taalverwerking 1 Daniël de Kok Natuurlijke-Taalverwerking Het college Natuurlijke-taalverwerking is een inleiding in de computationele taalkunde en maakt deel uit van het curriculum van Informatiekunde
Nadere informatieSourcing & Technologie. Gerard Mulder, Commercieel directeur, mulder@textkernel.nl, 06-26064090
Sourcing & Technologie Gerard Mulder, Commercieel directeur, mulder@textkernel.nl, 06-26064090 Textkernel introductie Agenda Wat is sourcing? Hoe kan Textkernel technologie sourcing ondersteunen? Demo
Nadere informatieDe combinatie van verrijkingen, machine learning en crowd sourcing
Verbetering vindbaarheid en bruikbaarheid van de digitale content van de KB De combinatie van verrijkingen, machine learning en crowd sourcing Theo van Veen, 31-1-2017 Theo van Veen, 31-1-2017 Verrijken:
Nadere informatieDisseminatie: artikels schrijven, presenteren en publiceren. Katrien Struyven
Disseminatie: artikels schrijven, presenteren en publiceren Katrien Struyven Ervaringen Wie heeft pogingen ondernomen of reeds een artikel geschreven? Hoe heb je dit ervaren? Wie heeft er reeds deelgenomen
Nadere informatieTechnisch rapport SumNL corpus
Technisch rapport SumNL corpus Iris Hendrickx CNTS - Language Technology Group, University of Antwerp, Universiteitsplein 1, Antwerp Belgium iris.hendrickx@ua.ac.be 1 Introductie Het SumNL corpus is ontwikkeld
Nadere informatieGebruik en gebruikers STEVIN en TST-Centrale
Gebruik en gebruikers STEVIN en TST-Centrale Verleden, heden en toekomst Remco van Veenendaal, TST-Centrale STEVIN-programmadag 2009 De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt
Nadere informatieMACHINE LEREN VOOR E-DISCOVERY
MACHINE LEREN VOOR E-DISCOVERY Hans Henseler Lector E-Discovery, HvA Symposium E-Discovery Robotisering van Informatiemanagement 21 april 2016, Congrescentrum van de Gemeente Amsterdam 1 KENNISKRING E-DISCOVERY
Nadere informatieCLARIN-NL Metadataproject
CLARIN-NL Metadataproject Griet Depoorter griet.depoorter@inl.nl Instituut voor Nederlandse Lexicologie 19/02/2010 Projectpartners Daan Broeder Dieter Van Uytvanck Folkert de Vriend Laura van Eerten Griet
Nadere informatieInhoud: de eerste verzameling van Nederlandstalige gesproken en geschreven teksten, 1960-1973
1 1 Nederlandstalige corpora 1.1 Eindhoven Corpus (EHC) of Corpus Uit den Boogaart Inhoud: de eerste verzameling van Nederlandstalige gesproken en geschreven teksten, 1960-1973 Omvang: geschreven taal:
Nadere informatieMaster in het vertalen. E.Snauwaert en P.Pauwels
Master in het vertalen E.Snauwaert en P.Pauwels Algemeen profiel van de opleiding Talen! Nederlands + Engels, Frans of Duits + Engels, Frans, Duits, Spaans, Italiaans, Pools (Bxl), Arabisch (A pen), Russisch
Nadere informatieArtificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016
Artificial Intelligence in uw dagelijkse praktijk Hilversum, 22 September 2016 Agenda 09:30 Welkom en introductie 09:35 Artificial Intelligence, al meer dan 50 jaar een actief onderzoeksgebied Jaap van
Nadere informatieMarjo Maas: fysiotherapeut / docent / onderzoeker Peer assessment De impact van peer assessment op het klinische redeneren en het klinisch handelen van fysiotherapeuten in opleiding en fysiotherapeuten
Nadere informatieSHICO: SHIFTING CONCEPTS OVER TIME
SHICO: SHIFTING CONCEPTS OVER TIME Tracing Concepts in Dutch Newspaper Discourse using Sequential Word Vector Spaces Melvin Wevers Translantis Project Digital Humanities Approaches to Reference Cultures:
Nadere informatieToday's talented youth field hockey players, the stars of tomorrow? Gemser, Marije
University of Groningen Today's talented youth field hockey players, the stars of tomorrow? Gemser, Marije IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF) if you wish
Nadere informatieDe automatische analyse van subjectiviteit en causale samenhang in tekst
De automatische analyse van subjectiviteit en causale samenhang in tekst Wilbert Spooren Met dank aan: Erwin Komen, Micha Hulsbosch, Iris Hofstra, Patrick Sonsma Jet Hoek, Ted Sanders Clariah Subjectiviteit
Nadere informatieDigital municipal services for entrepreneurs
Digital municipal services for entrepreneurs Smart Cities Meeting Amsterdam October 20th 2009 Business Contact Centres Project frame Mystery Shopper Research 2006: Assessment services and information for
Nadere informatieCurriculum Informatica 2003/04
Curriculum Informatica 2003/04 Curriculumcommissie Informatica 18 juni 2003 Inleiding, toelichting De voornaamste veranderingen ten opzicht van het curriculum 2002/03 staan hieronder aangeduid. Nieuwe
Nadere informatieChoral + Spraaktechnologie: ingezet voor de ontsluiting van audiovisuele
Choral + Spraaktechnologie: ingezet voor de ontsluiting van audiovisuele archieven De benadering Doel van het NWO CATCH project CHoral (2006-2011): onderzoek en ontwikkel geautomatiseerde annotatieen zoek
Nadere informatieDe rol van de multinationale taaldienstenonderneming in dekwaliteitsproductie.
Lezing voor de studenten vertaling van HONIM www.honim.be Brussel 6 May 2002 De rol van de multinationale taaldienstenonderneming in dekwaliteitsproductie. De herlokalisatie van de productie van talen:
Nadere informatieOnderzoeksplan bachelorscriptie
Onderzoeksplan bachelorscriptie Begeleider: Joost van Doremalen j.vandoremalen@let.ru.nl Auteur: Robin Oostrum (0609803) robinoostrum@student.ru.nl 1 april 2011 Begeleider: Theo Schouten t.schouten@cs.ru.nl
Nadere informatiePDF hosted at the Radboud Repository of the Radboud University Nijmegen
PDF hosted at the Radboud Repository of the Radboud University Nijmegen The following full text is a publisher's version. For additional information about this publication click this link. http://hdl.handle.net/2066/142381
Nadere informatieDOWNLOAD OR READ : VAN DALE HANDWOORDENBOEK ENGELS NEDERLAN PDF EBOOK EPUB MOBI
DOWNLOAD OR READ : VAN DALE HANDWOORDENBOEK ENGELS NEDERLAN PDF EBOOK EPUB MOBI Page 1 Page 2 van dale handwoordenboek engels nederlan van dale handwoordenboek engels pdf van dale handwoordenboek engels
Nadere informatieInleiding Wat zijn paradata en welke data voor welk gebruik. verzamelen?
Inleiding Wat zijn paradata en welke data voor welk gebruik Ann Carton verzamelen? Discussiemiddag paradata, Nederlandstalig Platform voor Survey-Onderzoek Brussel, 11 maart 2010 Wat zijn paradata? Data»Gegevens
Nadere informatieVolwassenheid en effectiviteit van enterprise
Volwassenheid en effectiviteit van enterprise architectuur http://igitur-archive.library.uu.nl/dissertations/2011-0609- 200519/steenbergen.pdf Marlies van Steenbergen Even voorstellen Principal Consultant
Nadere informatieUniversity of Groningen. Safe and Sound van den Bosch, Kirsten Anna-Marie
University of Groningen Safe and Sound van den Bosch, Kirsten Anna-Marie IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF) if you wish to cite from it. Please check the
Nadere informatieProcess Mining and audit support within financial services. KPMG IT Advisory 18 June 2014
Process Mining and audit support within financial services KPMG IT Advisory 18 June 2014 Agenda INTRODUCTION APPROACH 3 CASE STUDIES LEASONS LEARNED 1 APPROACH Process Mining Approach Five step program
Nadere informatieMaken van een woordenboek:4 hoofdfasen
Maken van een woordenboek:4 hoofdfasen 1. het maken van een concept + het testen van het concept door middel van proefartikelen hoe moet je woordenboek er inhoudelijk uitzien? 2. opbouw van een materiaalverzameling
Nadere informatieUGENT opleidingen op de Verderstudeerbeurs
UGENT opleidingen op de Verderstudeerbeurs Open Universiteit Universitair Centrum voor Talenonderwijs Innoverend ondernemen voor ingenieurs Wijsbegeerte Research Master Philosophy Moraalwetenschappen Tolken
Nadere informatieIPR regelingen binnen het STEVIN-programma
In deze figuur is getracht informatiestromen (zwarte lijnen) en de overeenkomsten die moeten worden afgesloten (oranje pijlen) naast elkaar te leggen. Binnen een STEVINproject (gesymboliseerd door het
Nadere informatieMeertalige communicatie Tolken Vertalen. Toegepaste taalkunde op masterniveau
Meertalige communicatie Tolken Vertalen Antwerpen Brussel Toegepaste taalkunde op masterniveau Rijke talencombinaties o Nederlands o + Engels, Frans of Duits o + Engels, Frans, Duits, Spaans, Italiaans,
Nadere informatieGASTLEZING: DISTRIBUTIONELE VECTOREN IN ALTERNANTIEONDERZOEK. Dirk Pijpops, Nederlandse Taalkunde: Hedendaagse stromingen, UCL, Louvain-La-Neuve
GASTLEZING: DISTRIBUTIONELE VECTOREN IN ALTERNANTIEONDERZOEK Dirk Pijpops, Nederlandse Taalkunde: Hedendaagse stromingen, UCL, Louvain-La-Neuve Rationele paradigma Empirische paradigma Simulatieparadigma
Nadere informatieStan Buis & Jirka Born
Toetsen van groepsproducten Toetsen van groepsproducten Stan Buis & Jirka Born Doelen workshop Theoretische achtergrond van toetsen van groepsproducten Beoordelingswijze van groepswerk kritisch onder de
Nadere informatieUNECE/UNESCAP Workshop on. Electronic Trade Documents. Ulaanbaatar, Mongolia, October 2009
/UNESCAP Workshop on Electronic Trade Documents Ulaanbaatar, Mongolia, October 2009 Presentation Need for digital paper documents Developing Electronic documents for SW Using Digital Paper in Supply Chains
Nadere informatieVertaling van SNOMED CT: Aanpak, processen en tools
1 Vertaling van SNOMED CT: Aanpak, processen en tools Nathalie De Sutter Projectmedewerker Terminologie AP13-2 FOD Volksgezondheid, Veiligheid van de Voedselketen en Leefmilieu Belgische extensie beschikbaar
Nadere informatieDoelstellingen van de Workshop
Doelstellingen van de Workshop 1 2 Context Europa is fundamenteel meertalig 24 officiële EU talen + nog 2 in CEF Talen zijn de kern van de rijke diversiteit aan cultuur en identiteit in Europa Meertaligheid
Nadere informatieE-learning maturity model. Hilde Van Laer
E-learning maturity model Hilde Van Laer E-learning maturity model (emm) Self-assessment van online en blended leren met e-learning maturity model (emm) A driver for change? http://www.utdc.vuw.ac.nz/research/e
Nadere informatieTaalkundige verrijking in relatie tot PAROLE Corpus maar ook in ruimer kader
Taalkundige verrijking in relatie tot PAROLE Corpus maar ook in ruimer kader type verrijking: woordsoort en trefwoord/lemma syntactische, semantische verrijking doel: retrieval op verschillende niveau
Nadere informatieCitation for published version (APA): Egberink, I. J-A. L. (2010). Applications of item response theory to non-cognitive data Groningen: s.n.
University of Groningen Applications of item response theory to non-cognitive data Egberink, Iris IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF) if you wish to cite
Nadere informatieLeesbaarheid verkeersborden voor connected car
Leesbaarheid verkeersborden voor connected car Verkeersbordendatabank voor snelheidsassistentie en duurzame routering? Niet zo n gek idee! 15 maart 2017 Overzicht 1. Verkeersbordenherkenningsproces 2.
Nadere informatiePERSOONLIJKE GEGEVENS WERKERVARING
PERSOONLIJKE GEGEVENS Naam: David Reza Shahanawaz Hidajattoellah Adres: Voordek 35, 1034ST, Amsterdam Mobiel: 06 20424688 E-mail: davidhidaj@gmail.com Geboren: 21 januari 1971 te Amsterdam (Nederland)
Nadere informatiestudie waarmee we de principes van de analyse willen demonstreren. Een volledig beschrijving van de algoritmen en de resultaten zijn te vinden in
Bio-informatica kan omschreven worden als het toepassen van algoritmen om meerwaarde te verkrijgen uit data afkomstig van biomedisch en/of biologisch onderzoek. In bio-informatica wordt onderzoek gedaan
Nadere informatieOEM SENSORS for HD MAPS. Peter Defreyne, IxorTalk Julie Maes, Belgisch Instituut voor de Verkeersveiligheid
OEM SENSORS for HD MAPS Peter Defreyne, IxorTalk Julie Maes, Belgisch Instituut voor de Verkeersveiligheid 2008 Vlaamse regering Alle verkeersborden op de Vlaamse wegen 2 Ecosysteem verkeersbordendata
Nadere informatie1 JOURNALISTIEK. Opleidingsonderdeel andere instelling
Artesis Hogeschool (nu UA) Bachelor in de productontwikkeling Algemene economie 3 Economische inzichten Artesis Hogeschool (nu UA) Bachelor in de productontwikkeling Bedrijfseconomie 3 Economische inzichten
Nadere informatieDeze presentatie. Gebruik bronnen. Wat voor bronnen? ZOEKEN VAN WETENSCHAPPELIJKE LITERATUUR
Deze presentatie 2 Wat voor soort literatuur bestaat er? Hoe vind je relevante literatuur? ZOEKEN VAN WETENSCHAPPELIJKE LITERATUUR Hans Bodlaender Onderzoeksmethoden Gebruik bronnen Wat voor bronnen? 3
Nadere informatieVan Batenburg, E., & Schaik, M. (2013). Kennis op de werkvloer: wat helpt de docent en de
Van Batenburg, E., & Schaik, M. (2013). Kennis op de werkvloer: wat helpt de docent en de vmbo-leerling. In: J. K. Van der Waals & M. Van Schaik (Eds.), Het VMBO van dichtbij. Bewegen tussen theorie en
Nadere informatieWat is nieuw in Enterprise Guide
Enterprise Guide 42 4.2 Lieve Goedhuys Copyright 2009 SAS Institute Inc. All rights reserved. Wat is nieuw in Enterprise Guide Vereenvoudigde interface Gebruikersinterface i Project recovery Conditionele
Nadere informatieMichiel Kroon & Stijn Hulshof
IJBURGCOLLEGE.NL Profielproduct Verantwoording & 02-06-2012 Activiteiten Voor het tot stand komen van dit profielproduct zijn de volgende stappen doorlopen (zie ook figuur 1): 1. Literatuuranalyse van
Nadere informatieMedia en creativiteit. Winter jaar vier Werkcollege 7
Media en creativiteit Winter jaar vier Werkcollege 7 Kwartaaloverzicht winter Les 1 Les 2 Les 3 Les 4 Les 5 Les 6 Les 7 Les 8 Opbouw scriptie Keuze onderwerp Onderzoeksvraag en deelvragen Bespreken onderzoeksvragen
Nadere informatieMachine Learning voor een persoonlijker Blendle. Martijn Spitters
Machine Learning voor een persoonlijker Blendle Martijn Spitters Blendle In het kort Missie Je helpen s werelds beste journalistiek te ontdekken en te steunen Microbetaalplatform artikelen, issues, abonnementen
Nadere informatieStijn Hoppenbrouwers en Tom Heskes. Onderzoeksmethoden (vervolg)
Stijn Hoppenbrouwers en Tom Heskes Onderzoeksmethoden 1 Operationaliseren Dataverzameling Data analyse Onderzoeksplan schrijven Onderzoeksmethoden 2 Specifieke onderzoeksmethoden die ingezet (kunnen) worden
Nadere informatieIntelligente Systemen (2007/2008), 6EC, Groep: 3I, 3IK Lerende en Redenerende Systemen (2006/2007), 6EC, Groep: 3I, 3IK
Curriculum Vitae Persoonsgegevens Naam: Perry Groot Geboortedatum: 6 Mei 1975 Geboorteplaats: Alkmaar Burgerlijke staat: Gehuwd Nationaliteit: Nederlands Adres: Harpdreef 21, 4876ZV Etten-Leur Telefoonnummer:
Nadere informatieCOAVA. Gebruikershandleiding. Gebruikershandleiding bij de COAVA web applicatie CLARIN-NL
CLARIN-NL COAVA Gebruikershandleiding Gebruikershandleiding bij de COAVA web applicatie M e e r t e n s I n s t i t u u t, J o a n M u y s k e n s w e g 2 5, 1 0 9 6 C J A m s t e r d a m Gebruikershandleiding
Nadere informatieDavid Weenink. Instituut voor Fonetische Wetenschapen ACLC Universiteit van Amsterdam. Spraakverwerking per computer.
Instituut voor Fonetische Wetenschapen ACLC Universiteit van Amsterdam AMSTERDAM CENTER FOR LANGUAGE AND C O M M U N I C A T I O N 5000 4000 3000 Hz 2000 1000 0 de vrouw loopt met haar dure schoenen 0.3
Nadere informatieEen vertaalworkflow simuleren en evalueren. Departement Toegepaste Taalkunde Erasmushogeschool Brussel
Een vertaalworkflow simuleren en evalueren Departement Toegepaste Taalkunde Erasmushogeschool Brussel Wat? cursus (ver)taaltechnologie voor Masterjaar van keuzevak in 06-07 naar verplicht vak in 07-08
Nadere informatieEnterprise Language Processing [Nederlandse titel?] Aanzet voor een nieuw programma
Inleiding Enterprise Language Processing [Nederlandse titel?] Aanzet voor een nieuw programma In deze notitie, die gemaakt is in opdracht van de Nederlandse Taalunie, beschrijven wij de contouren van een
Nadere informatieSamenvatting De belangrijkste onderzoeksvraag waarop het werk in dit proefschrift een antwoord probeert te vinden, is welke typen taalkundige informatie het nuttigst zijn voor de lexicale desambiguatie
Nadere informatieSpraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands (STEVIN) http://taalunieversum.org/stevin
Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands (STEVIN) http://taalunieversum.org/stevin STEVIN Jaarverslag 2009 In dit jaarverslag is een overzicht opgesomd van de activiteiten
Nadere informatieMaster in het vertalen
ANTWERPEN t Master in het vertalen Faculteit Letteren Welkom aan de KU Leuven, de grootste en oudste universiteit van België. Je kunt hier je studietraject verderzetten en verrijken, ook als je elders
Nadere informatieHet nieuwe INT. Frieda Steurs Wetenschappelijk Directeur/ Bestuurder
Het nieuwe INT Frieda Steurs Wetenschappelijk Directeur/ Bestuurder Het INT : algemene doelstelling o een breed toegankelijk wetenschappelijk instituut op het gebied van het Nederlands. o een centrale
Nadere informatieSamenvatting De hoofdonderzoeksvraag van dit proefschrift is vast te stellen hoe term- en relatie-extractietechnieken kunnen bijdragen tot het beantwoorden van medische vragen. Deze vraag is ingegeven
Nadere informatieTurn-key platform Newz. Big Content & Semantics
Introduction Michel de Ru Solution architect @ Dayon 16 years experience in publishing Among others Wolters-Kluwer, Sdu (ELS) and Dutch Railways Specialized in Content related Big Data challenges Specialized
Nadere informatieTaal- en spraaktechnologie voor het onderwijs in en van het Nederlands
Ronde 1 Catia Cucchiarini & Rintse van der Werf Nederlandse Taalunie / Edia Educatie Technologie Contact: ccucchiarini@taalunie.org rintse.vanderwerf@edia.nl Taal- en spraaktechnologie voor het onderwijs
Nadere informatieCreatief Europa subprogramma Cultuur
Creatief Europa subprogramma Cultuur Samenwerkingsprojecten Hoe een aanvraag indienen? J. Willemsens Stappen 1. Maak je (i.e. projectleider en partners) Participant Identification Code (PIC) aan 2. Genereer
Nadere informatieVragenlijsten kwaliteit van leven
Click for the English version Vragenlijsten kwaliteit van leven TNO heeft een aantal vragenlijsten ontwikkeld om de gezondheidsrelateerde kwaliteit van leven te meten van kinderen, jongeren en jong-volwassenen.
Nadere informatieCASE een elektronische omgeving voor het zoeken naar en analyseren van uitspraken
CASE een elektronische omgeving voor het zoeken naar en analyseren van uitspraken Antoinette J. Muntjewerff Afdeling Algemene Rechtsleer Faculteit der Rechtsgeleerdheid muntjewerff@lri.jur.uva.nl http://www.lri.jur.uva.nl/~munt
Nadere informatieCOST: European cooperation in science and technology. NETLAKE COST Action ES1201
Name NETLAKE COST Action ES1201 COST: European cooperation in science and technology DOEL: Onderzoeken en oplossen van internationale vraagstukken MIDDEL: Coördineren en afstemmen van onderzoek middels
Nadere informatiejanuari TTNWW Handleiding TST tools voor het Nederlands als Web services in een Workflow Meertens Instituut, Joan Muyskensweg 25, 1096 CJ Amsterdam
januari 2013 TTNWW Handleiding TST tools voor het Nederlands als Web services in een Workflow Meertens Instituut, Joan Muyskensweg 25, 1096 CJ Amsterdam Table of Contents Inleiding... 3 Gebruik van de
Nadere informatieHET ZOEKEN VAN WETENSCHAPPELIJKE LITERATUUR. Hans Bodlaender
HET ZOEKEN VAN WETENSCHAPPELIJKE LITERATUUR Hans Bodlaender Deze presentatie 2 Wat voor soort literatuur bestaat er? Hoe wordt die gemaakt? Hoe vind je relevante literatuur? Gebruik bronnen 3 Voordat je
Nadere informatie