Taalkundige verrijking in relatie tot PAROLE Corpus maar ook in ruimer kader type verrijking: woordsoort en trefwoord/lemma syntactische, semantische verrijking doel: retrieval op verschillende niveau s: (woordvorm/type) woordsoort ( Part of Speech : POS ) trefwoord combinaties te maken keuzes: welk woordsoortenstelsel ( tagset ) welke representatie van de tagset welke methode van toepassen van de tagset
Principe: verrijking (annotatie) bepalend voor retrieval (1) Digitale tekst : zoek alle woorden (types) eindigend op -ig -> aardig, big, dienovereenkomstig, groenig, lig, nevelig, tuig, wig, Verrijkt met woordsoort : zoek alle adjectieven eindigend op -ig -> aardig, groenig, nevelig Verrijkt met trefwoord : zoek alle types van het trefwoord aardig -> aardig, aardige, aardiger, aardigst, aardigste
Principe: verrijking (annotatie) bepalend voor retrieval (2) Verrijkt (geannoteerd) tekstfragment ontleend aan een (oud) INLcorpus: trefwoord en uitsluitend hoofdwoordsoort Ondanks_v{ondanks} de_l{de} uitwijzing_z{uitwijzing} en_c{en} de_l{de} politieke_a{politiek} spanningen_z{spanning} die_p{die} ze_p{ze} tot_v{tot} gevolg_z{gevolg} hebben_w{hebben}, biedt_w{bieden} Rabins_a{Rabins#} premierschap_z{premierschap} de_l{de} Palestijnen_z{Palestijn} nog_b(nog) altijd_b{altijd} de_l{de} beste_a{best} kansen_z{kans} om_v{om} ETC.
Principe: verrijking (annotatie) bepalend voor retrieval (3) Verrijkt (geannoteerd) tekstfragment ontleend aan het zoeksysteem voor het PAROLE-corpus, met subcategorisatie (EAGLES)
Taalkundige verrijking te maken keuzes: welk woordsoortenstelsel ( tagset ) welke representatie van de tagset welke methode van toepassen van de tagset EAGLES/PAROLE: lettercodes op vaste posities: Rgp Internet-PAROLE: begrijpelijker notatie: ADV(type=general,degree=pos) kenmerk n.v.t.: NOU(type=comm,gender=fm,number=sg,constr=-)
Taalkundige verrijking te maken keuzes: welk woordsoortenstelsel ( tagset ) welke representatie van de tagset welke methode van toepassen van de tagset 2 mogelijkheden: functionele methode bijv. nw. als bijw. gebruikt: bijw Dat is een mooi gedrukte tekst mooi: bijw. transcategorisatie lexicale methode bijv. nw. in alle contexten: bijv.nw. Dat is een mooi gedrukte tekst mooi: bijv.nw.
Transcategorisatie: verandering van lexicale woordsoort Bij sommige mensen gaat hun hart sneller kloppen als het hen te druk is niet: ADJ(type=quali,degree=com,infl=basic,construct=-) maar: ADV(type=general,degree=com,construct=-) Vragen uit de praktijk van het taggen van een corpus: - Kan elke POS transcategoriseren naar een andere POS? - Indien niet: welke wel en welke niet? - Indien wel: naar welke POS kan een woord transcategoriseren en op basis van welke criteria?
Kan elke POS transcategoriseren naar een andere POS? Voorbeelden Kan een znw. transcategoriseren naar bijw.? znw. bijw.? eind deze week functie: bijw vergelijk: aan het eind van deze week znw. Kan een znw. transcategoriseren naar bijv. nw.? znw. bijv.nw.? hij is meer mens dan vis znw/bijv.nw? Kan een telw. transcategoriseren naar znw., bijv.nw., det.? hij is de zevende vandaag znw. hij is zevende geworden bijv.nw. hij is zes jaar bijv.nw.?/det.?? hij is nu zes telw./bijv.nw.?
Indien transcategorisatie toegestaan: naar welke POS kan een woord transcategoriseren en op basis van welke criteria? Voorbeelden Welk criterium bepalend voor functie als znw.: hoofd van NP of hoofd van NP + lidw./det.? hij is kandidaat bnw./znw? hij is onze kandidaat znw. Wat na íets : bijv.nw. of znw.? iets moois bijv.nw./znw.? Welke criterium bepalend voor functie als bijv.nw.? hij komt als geroepen / als advocaat bijv.nw.? hij is iemand/iets bijv.nw.?
Functionele methode in de PAROLE-praktijk (1) Nominalisaties : 1. bijv.nw. znw. wij zagen mooie en lelijke bloemen bijv.nw. wij zagen mooie bloemen en lelijke znw. 2. inf. ww. znw. ze gaan de schoorsteen afbreken ww. wat wij zien als het afbreken van rechten znw. 3. telw. znw. ik heb er drie telw. ik prefereer die drie van gisteren znw. ik kies voor de derde optie telw. de derde van links werkt beter znw.
Functionele methode in de PAROLE-praktijk (2) 4. det. poss. znw. ik zag jouw moeder det. geef me de jouwe! znw. Andere transcategorisaties: 5. bijv.nw. bijw. het boek is mooi bnw. de pianist speelt mooi bijw. 6. volt. deelw. ww. bnw. John heeft hard gewerkt Vpart de gewerkte uren bnw. ik tel die uren als gewerkt bnw.
Evaluatie wijzigingen in de tagset (1) vereenvoudigingen werkwoorden: main verb function (trans., intrans. onpers., reflexief): not applicable echte bijwoorden en pronominale bijwoorden: degree (pos., comp., superl.): not applicable geslacht zelfst. naamw.: reductie tot de en het not applicable in achternamen getalsymbolen: meervoud not applicable
Evaluatie wijzigingen in de tagset (2) toegevoegd, o.a. construction (sepvrb, sepadv) bij scheidbare werkwoorden en pronominale bijwoorden nieuwe types voor Residual: trunc, acronym, acro-proper, other
Woordsoorttoekenning in historisch Nederlands tagset en tagmethode in diachroon perspectief keuze tussen enkelvoudige versus meervoudige woordsoorttags aan elkaar geschreven woorden versus los geschreven woorddelen gebruik van de historische woordenboeken VMNW, MNW en WNT voor de woordsoort gebrek aan consensus onder linguïsten
Automatische taalkundige verrijking met POS en lemma (zie corpusdocumentatie PAROLE) trainingcorpus (100.000 tokens) combinatie van statistische taggers selectieve handmatige correctie opnieuw taggen met door de correctie verbeterde combinatietagger regelgebaseerde correctie en verfijning (toevoeging van features) automatisch lemmatiseren m.b.v. lexicon evaluatie aanpassingen tagset en tagmethode waarschuwingen aan de gebruiker PAROLE-corpus
Literatuur Dutilh, T. & J.G. Kruyt (2002), Implementation and Evaluation of PAROLE PoS in a National Context. In: Proceedings of the Third International Conference on Language Resources & Evaluation, pp. 1615-1621. Ook op www.inl.nl. Decorte, S.F.T. (2003). Taalkundige verrijking in historische corpora in relatie tot de Geïntegreerde Taalbank. INL Working Papers 2003-01. Leiden : INL. Ook op www.inl.nl. Decorte, S.F.T., Dutilh-Ruitenberg, T. & Kruyt, T. (2005). Language change and linguistic annotation in the Integrated Language Database of 8th- to 21st-Century Dutch. In Pusch, C.D., Kabatek, J. & Raible, W. (eds.), Romanistische Korpuslingustik II: Korpora und diachrone Sprachwissenschaft. Tübingen : pp. 293-302. Ook op www.inl.nl.
Does, J. de, Voort van der Kleij, J. van der (2002). Tagging the Dutch PAROLE Corpus. In Theune, M. et al. (eds.), Computational Linguistics in the Netherlands 2001; Selected Papers from the Twelfth CLIN Meeting. Amsterdam - New York : Rodopi, pp. 62-76. Ook op www.inl.nl. Corpusdocumentatie bij PAROLE-corpussysteem