Taalkundige verrijking in relatie tot PAROLE Corpus maar ook in ruimer kader



Vergelijkbare documenten
Wat is een corpus en waarvoor wordt het gebruikt?

Maken van een woordenboek:4 hoofdfasen

Woordenboekencomponent van de Geïntegreerde Taalbank (GTB): het WNT en VMNW met andere databestanden geïntegreerd in 1 zoeksysteem demo gtb.inl.

RETRIEVALSYSTEMEN VOOR TAALKUNDIG ONDERZOEK Wat biedt het INL nu en in de toekomst? Instituut voor Nederlandse Lexicologie

Het World Wide Web als corpus


Grammaticaboekje NL. Om een beeld te krijgen van de inhoud: De inhoudsopgave, een paar onderwerpen en de eerste bladzijde van de trefwoorden.

Een hele eenvoudige benadering van de oplossing van dit probleem die men wel voorgesteld heeft, is de volgende regel:

De ontleding van het Corpus Gesproken Nederlands

curriculum vitae bart decadt November 2004

Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken Hogeschool Gent

handelingswijzer redekundig ontleden zinsdelen

Leerstofoverzicht Watenhoe-nt2 cursus drie

Nieuwe zoekfuncties SUBTLEX-NL

Lexicografie en lexicologie

Inhoud: de eerste verzameling van Nederlandstalige gesproken en geschreven teksten,

Sentimentanalyse voor online politieke berichtgeving

Natuurlijke-taalverwerking 1. Daniël de Kok

Cover Page. The handle holds various files of this Leiden University dissertation.

53. Anders ga je met pensioen!

Zoeken in een Afrikaans corpus: baie maklik! Liesbeth Augustinus Ineke Schuurman Vincent Vandeghinste Peter Dirix Frank Van Eynde

Nederlandse TaalUnie. Vertrouwelijk GridLine B.V., 2012 Pagina 1 van 52

Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken LT 3 Hogeschool Gent

Finite-state pre-processing for natural language analysis Prins, Robbert

Het sem metrix. metrix-project. De profielgebaseerde meting van lexicale. University of Leuven RU Quantitative Lexicology and Variational Linguistics

Enquête crowdsourcing knaw voor onderzoekers en collectiebeheerders

FESLI. Gebruikershandleiding. Gebruikershandleiding bij de FESLI web applicatie CLARIN-NL

COAVA. Gebruikershandleiding. Gebruikershandleiding bij de COAVA web applicatie CLARIN-NL

Over de Nederlandse spreektaal

Semantische. Eindwerkstuk voor Information Retrieval Wybo Wiersma, s

Inleiding. Syntaxis: de combinaties van woorden tot woordgroepen en zinnen.

De bovenkamer. Het gebruik van De bovenkamer bij Taal actief. Josée Coenen. een kleurrijke grammatica van het Nederlands

Verkenning van semasiologische variatie in verkeerstermen in het Nederlands

Inleiding: Combinaties

handelingswijzer taalkundig ontleden woordsoorten

WERKEN MET HET WOORDENBOEK. Een trainingsprogramma in woordenboekgebruik

Tijd en aspect in L2

Overview. Tijd en aspect in L2. Visies op L2 acquisitie. Tweede taal-acquisitie: termen. L2 Acquisition. Temporaliteit in L2. Marieke Schouwstra

OPLEIDINGEN MAATSCHAPPELIJKE ZORG AVENTUS APELDOORN / DEVENTER / ZUTPHEN STUDIEWIJZER

Data-driven identification of fixed expressions and their modifiability Villada Moirón, María Begoña

Resultaten en Beschikbaarheid 1e Ronde projecten, SPRAAK en CORNETTO Jan Odijk i.s.m. TST-Centrale

DUTCH PARALLEL CORPUS EN SONAR

The expression of modifiers and arguments in the noun phrase and beyond van Rijn, M.A.

Gebruikersinterface Osiris 6. Casussen deel 2

Inhoud. Endnote X7 Handleiding Mediacentrum maart 2015 Page 2

Herfstvergadering Koninklijke Zuid-Nederlandse Maatschappij voor Taal- en Letterkunde en Geschiedenis, 24 oktober 2014, Gent

PDF hosted at the Radboud Repository of the Radboud University Nijmegen

EEN COMPUTATIONELE GRAMMATICA CORPUS GESPROKEN NEDERLANDS

Daar het bestreden vonnis de huurovereenkomst ontbindt op de dag. van de uitspraak ervan zonder daarbij vast te stellen dat de na de

Natuurlijke Taalverwerking I shift-reduce en chart parsing

Taal- en Spraaktechnologie Ambiguïteit

In dit boekje staan verschillende mogelijkheden om iets op te lossen.

Inleveropdracht 1: Morfologie & Syntaxis

Antwoorden Nederlands Ontleding

Intra-author variation in negation: the letters of P.C. Hooft

Thema Slecht weer. Cursus drie, week zes. Prentenboek Koen wil een wolk. Josée Coenen en Ans Drubbel. d.d. juni 2016

Op weg naar moderne analyse van historische teksten. Een onderzoek naar automatische taalverwerking van zeventiende-eeuwse Nederlandse prozateksten

Thema Dokters. Cursus drie, week vier. Josée Coenen en Ans Drubbel. d.d. juni cursus drie, week vier

Nederlandse Filologie

Natuurlijke-taalverwerking

Référence bibliographique. "Prosodie en vreemdetaalverwerving : accentdistributie in het Frans en in het Nederlands als vreemde taal" Rasier, Laurent

Een brede computationele grammatica voor het Nederlands

RAAK PRO IMDEP INNOVATIE BOUWPROCES. M. Stevens. EINDSYMPOSIUM RAAK PRO IMDPEP / WP A1.3 & WP A3.2 Heerlen, 19 januari 2016

Mogelijke elementen van de microstructuur:

Naam: Mijn doelenboekje. Grammatica. Werelden - Eilanden - Dorpen 5 / 6 / 7 / 8.

instapkaarten taal verkennen

Homework assignment 7 (Intensionality)

GernEdiT The GermaNet Editing Tool

Word Sense disambiguation. Taal en Spraak Maaike Harbers 1 mei 2006

ENGELS. Maak oefeningen lesson 1 Leer: words lesson 1, onr. ww. 1 t/m 10. Extra opdrachten Unit 5: Niveau 1, 2/ Niveau 2, 3.

Spiekkaart. Persoonsvorm - p.v.

David Weenink. Instituut voor Fonetische Wetenschapen ACLC Universiteit van Amsterdam. Spraakverwerking per computer.

Samenstellingen en tussenklanken.

Technisch rapport SumNL corpus

Parse and Corpus-based Machine Translation. STEVIN Programmadag

Standard Parts Installatie Solid Edge ST3

Topics in Corpus-Based Dutch Syntax Beek, Leonoor Johanneke van der

Alle opgaven tellen even zwaar, 10 punten per opgave.

universiteitsbibliotheek Rapportages Oktober 2016

Wat hebben de lexicograaf en de foneticus elkaar te vertellen? Truus Kruyt

Handouts - lesson 4 - #dutchgrammar - 9 april the verb. het werkwoord. regular verb conjugation

Thema Wie niet sterk is. Prentenboek Zwemmie. Cursus twee, week vijf. Josée Coenen en Ans Drubbel. d.d. 12 maart 2016

Informatie over kerndoelen en leerdoelen Alles-in-1 en Alles-Apart

Praktische gebruiksaanwijzing

DE AAN HET INFINITIEF-CONSTRUCTIE IN HET NEDERLANDS

Verwerking van achttiende-eeuws Nederlands met Frog

Masterexamen Nederlands

Informatie over het examen Nederlands als Tweede Taal niveau 6

1e Deeltentamen Inleiding Taalkunde

PDF hosted at the Radboud Repository of the Radboud University Nijmegen

Het WNT: een Waarlijk Nuttige Tool? Jack Hoeksema, RU Groningen

De automatische analyse van subjectiviteit en causale samenhang in tekst

Niemand hoeft verlegen te zijn

DNA Profile. DNA profielen. DNA profielen. DNA profielen. DNA profielen

Exposure Control Efficacy Library (ECEL)

Question Answering. College Natuurlijke Taalinterfaces. Januari 2002

Informatiekunde in Groningen

Lexicale convergentie in de Nederlandse woordenschat

Part of Speech Tagging en Lemmatisering

Automatic lexico-semantic acquisition for question answering Plas, Marie Louise Elizabeth van der

Transcriptie:

Taalkundige verrijking in relatie tot PAROLE Corpus maar ook in ruimer kader type verrijking: woordsoort en trefwoord/lemma syntactische, semantische verrijking doel: retrieval op verschillende niveau s: (woordvorm/type) woordsoort ( Part of Speech : POS ) trefwoord combinaties te maken keuzes: welk woordsoortenstelsel ( tagset ) welke representatie van de tagset welke methode van toepassen van de tagset

Principe: verrijking (annotatie) bepalend voor retrieval (1) Digitale tekst : zoek alle woorden (types) eindigend op -ig -> aardig, big, dienovereenkomstig, groenig, lig, nevelig, tuig, wig, Verrijkt met woordsoort : zoek alle adjectieven eindigend op -ig -> aardig, groenig, nevelig Verrijkt met trefwoord : zoek alle types van het trefwoord aardig -> aardig, aardige, aardiger, aardigst, aardigste

Principe: verrijking (annotatie) bepalend voor retrieval (2) Verrijkt (geannoteerd) tekstfragment ontleend aan een (oud) INLcorpus: trefwoord en uitsluitend hoofdwoordsoort Ondanks_v{ondanks} de_l{de} uitwijzing_z{uitwijzing} en_c{en} de_l{de} politieke_a{politiek} spanningen_z{spanning} die_p{die} ze_p{ze} tot_v{tot} gevolg_z{gevolg} hebben_w{hebben}, biedt_w{bieden} Rabins_a{Rabins#} premierschap_z{premierschap} de_l{de} Palestijnen_z{Palestijn} nog_b(nog) altijd_b{altijd} de_l{de} beste_a{best} kansen_z{kans} om_v{om} ETC.

Principe: verrijking (annotatie) bepalend voor retrieval (3) Verrijkt (geannoteerd) tekstfragment ontleend aan het zoeksysteem voor het PAROLE-corpus, met subcategorisatie (EAGLES)

Taalkundige verrijking te maken keuzes: welk woordsoortenstelsel ( tagset ) welke representatie van de tagset welke methode van toepassen van de tagset EAGLES/PAROLE: lettercodes op vaste posities: Rgp Internet-PAROLE: begrijpelijker notatie: ADV(type=general,degree=pos) kenmerk n.v.t.: NOU(type=comm,gender=fm,number=sg,constr=-)

Taalkundige verrijking te maken keuzes: welk woordsoortenstelsel ( tagset ) welke representatie van de tagset welke methode van toepassen van de tagset 2 mogelijkheden: functionele methode bijv. nw. als bijw. gebruikt: bijw Dat is een mooi gedrukte tekst mooi: bijw. transcategorisatie lexicale methode bijv. nw. in alle contexten: bijv.nw. Dat is een mooi gedrukte tekst mooi: bijv.nw.

Transcategorisatie: verandering van lexicale woordsoort Bij sommige mensen gaat hun hart sneller kloppen als het hen te druk is niet: ADJ(type=quali,degree=com,infl=basic,construct=-) maar: ADV(type=general,degree=com,construct=-) Vragen uit de praktijk van het taggen van een corpus: - Kan elke POS transcategoriseren naar een andere POS? - Indien niet: welke wel en welke niet? - Indien wel: naar welke POS kan een woord transcategoriseren en op basis van welke criteria?

Kan elke POS transcategoriseren naar een andere POS? Voorbeelden Kan een znw. transcategoriseren naar bijw.? znw. bijw.? eind deze week functie: bijw vergelijk: aan het eind van deze week znw. Kan een znw. transcategoriseren naar bijv. nw.? znw. bijv.nw.? hij is meer mens dan vis znw/bijv.nw? Kan een telw. transcategoriseren naar znw., bijv.nw., det.? hij is de zevende vandaag znw. hij is zevende geworden bijv.nw. hij is zes jaar bijv.nw.?/det.?? hij is nu zes telw./bijv.nw.?

Indien transcategorisatie toegestaan: naar welke POS kan een woord transcategoriseren en op basis van welke criteria? Voorbeelden Welk criterium bepalend voor functie als znw.: hoofd van NP of hoofd van NP + lidw./det.? hij is kandidaat bnw./znw? hij is onze kandidaat znw. Wat na íets : bijv.nw. of znw.? iets moois bijv.nw./znw.? Welke criterium bepalend voor functie als bijv.nw.? hij komt als geroepen / als advocaat bijv.nw.? hij is iemand/iets bijv.nw.?

Functionele methode in de PAROLE-praktijk (1) Nominalisaties : 1. bijv.nw. znw. wij zagen mooie en lelijke bloemen bijv.nw. wij zagen mooie bloemen en lelijke znw. 2. inf. ww. znw. ze gaan de schoorsteen afbreken ww. wat wij zien als het afbreken van rechten znw. 3. telw. znw. ik heb er drie telw. ik prefereer die drie van gisteren znw. ik kies voor de derde optie telw. de derde van links werkt beter znw.

Functionele methode in de PAROLE-praktijk (2) 4. det. poss. znw. ik zag jouw moeder det. geef me de jouwe! znw. Andere transcategorisaties: 5. bijv.nw. bijw. het boek is mooi bnw. de pianist speelt mooi bijw. 6. volt. deelw. ww. bnw. John heeft hard gewerkt Vpart de gewerkte uren bnw. ik tel die uren als gewerkt bnw.

Evaluatie wijzigingen in de tagset (1) vereenvoudigingen werkwoorden: main verb function (trans., intrans. onpers., reflexief): not applicable echte bijwoorden en pronominale bijwoorden: degree (pos., comp., superl.): not applicable geslacht zelfst. naamw.: reductie tot de en het not applicable in achternamen getalsymbolen: meervoud not applicable

Evaluatie wijzigingen in de tagset (2) toegevoegd, o.a. construction (sepvrb, sepadv) bij scheidbare werkwoorden en pronominale bijwoorden nieuwe types voor Residual: trunc, acronym, acro-proper, other

Woordsoorttoekenning in historisch Nederlands tagset en tagmethode in diachroon perspectief keuze tussen enkelvoudige versus meervoudige woordsoorttags aan elkaar geschreven woorden versus los geschreven woorddelen gebruik van de historische woordenboeken VMNW, MNW en WNT voor de woordsoort gebrek aan consensus onder linguïsten

Automatische taalkundige verrijking met POS en lemma (zie corpusdocumentatie PAROLE) trainingcorpus (100.000 tokens) combinatie van statistische taggers selectieve handmatige correctie opnieuw taggen met door de correctie verbeterde combinatietagger regelgebaseerde correctie en verfijning (toevoeging van features) automatisch lemmatiseren m.b.v. lexicon evaluatie aanpassingen tagset en tagmethode waarschuwingen aan de gebruiker PAROLE-corpus

Literatuur Dutilh, T. & J.G. Kruyt (2002), Implementation and Evaluation of PAROLE PoS in a National Context. In: Proceedings of the Third International Conference on Language Resources & Evaluation, pp. 1615-1621. Ook op www.inl.nl. Decorte, S.F.T. (2003). Taalkundige verrijking in historische corpora in relatie tot de Geïntegreerde Taalbank. INL Working Papers 2003-01. Leiden : INL. Ook op www.inl.nl. Decorte, S.F.T., Dutilh-Ruitenberg, T. & Kruyt, T. (2005). Language change and linguistic annotation in the Integrated Language Database of 8th- to 21st-Century Dutch. In Pusch, C.D., Kabatek, J. & Raible, W. (eds.), Romanistische Korpuslingustik II: Korpora und diachrone Sprachwissenschaft. Tübingen : pp. 293-302. Ook op www.inl.nl.

Does, J. de, Voort van der Kleij, J. van der (2002). Tagging the Dutch PAROLE Corpus. In Theune, M. et al. (eds.), Computational Linguistics in the Netherlands 2001; Selected Papers from the Twelfth CLIN Meeting. Amsterdam - New York : Rodopi, pp. 62-76. Ook op www.inl.nl. Corpusdocumentatie bij PAROLE-corpussysteem