Woordenboekencomponent van de Geïntegreerde Taalbank (GTB): het WNT en VMNW met andere databestanden geïntegreerd in 1 zoeksysteem demo gtb.inl.nl: basiszoeken en uitgebreid zoeken links vanuit een artikel naar andere databestanden gebruik van operatoren EN en OF gebruik van wildcards * en? Twee andere voorbeelden: Mittelhochdeutsche Wörterbücher im Verbund http://germazope.uni-trier.de/projects/mwv/wbb+ Wörterbuchnetz met andere woordenboeken, o.a. Deutsche Wörterbuch internetwoordenboekensysteem www.onelook.com
Verschillen tussen VMNW en WNT die de opvraagbaarheid bepalen: 1. verschillen in inhoud: niet alle informatiecategorieën dezelfde 2. structuur van de digitale versie: VMNW: (relationele) database, waardoor alle informatiecategorieën expliciet en ondubbelzinnig voor de computer herkenbaar zijn WNT: niet volledig gestructureerd tekstbestand, waarin NIET alle informatiecategorieën expliciet en ondubbelzinnig voor de computer herkenbaar zijn door coderingen in het tekstbestand
Van gedrukte tekst naar gestructureerd bestand: WNT GEDRUKTE TEKST optical character recognition (OCR) of tekstverwerking DIGITAAL TEKSTBESTAND automatische codering van informatiecategorieën GESTRUCTUREERD DIGITAAL TEKSTBESTAND
Automatische codering: principe het automatisch plaatsen van een begin- en eindcode om een stuk tekst dat een bepaald type informatie geeft (bijv. de informatiecategorie trefwoord, citaat, datering etc.) op basis van: vormkenmerken van de tekst typografie, tekens, cijfers specifieke tekst context structuur van het artikel plaats in de structuur in combinatie met elkaar
Automatische codering: complicerende factoren groot aantal potentieel te coderen informatiecategorieën complexe, fijnmazige structuur van grote artikelen typografische ambiguïteit en complexiteit lexicografische praktijk: variatie (inconsistentie): formeel en redactioneel ruimtegebrek -> middelen om de tekst te bekorten Consequenties: Niet alle informatiecategoriën zijn automatisch te coderen, waardoor de gebruiker van het woordenboek niet of niet precies vindt wat hij zoekt. Veel handmatig werk nodig voor verdere automatische codering.
Gebruik van digitale woordenboeken voor natuurlijke-taal verwerkende computersystemen zoals: intelligente spelling- en grammaticacheckers systemen voor automatisch of computerondersteund vertalen mens-machinecommunicatiesystemen systemen voor automatische termextractie of informatie-extractie systemen voor information retrieval MAAR: alleen de informatie is geschikt, niet de vorm -> automatische extractie van informatie uit digitale woordenboeken voor het maken van een computationeel lexicon dat door een computer gelezen kan worden
Nederlandse PAROLE-lexicon (computationeel lexicon) verkrijgbaar via TST-centrale: www.inl.nl / producten Morfologische informatie woordsoortinformatie, verbogen vormen, verkorte vorm eventueel: variante vormen eventueel: gebruiksinformatie (zeldzaam, archaïsch, informeel etc.) eventueel: geografische informatie Syntactische informatie: valentiepatronen complementcategorieën (zoals werkwoord, zelfst. naamwoord e.d.) + eventuele specificatie functie van de complementen (bijv. zin na zelfst. naamwoord) onderlinge posities van lemma en complementen
Voorbeelden van valentiepatronen in een formele interne notatie @#5. potje # Een potje babyvoeding ART+DET_1[NDETERMINATIVE] {1<SELF} (N_2:COMMON[NAPPOSITION]) {SELF<2} @#9. vraag # De vraag of hij komt ART+DET_1[NDETERMINATIVE] {1<SELF} (Clause_2{of}[NCLAUSCOMP]) {SELF<2}
Formele PAROLE-notatie in SGML van de vraag of hij komt (alleen om een idee te geven) <SynU id="usyn6794" description="description6794"></synu> <Description id="description6794" example="de vraag of hij komt" self="self0" construction="syntagme_nt_c856"> <Construction id="syntagme_nt_c856" syntlabel="np" selfinsertion=""> <InstantiatedPositionC range="0"
optional="no_o" positionc="position_c0"> <InstantiatedPositionC range="1" optional="yes_o" positionc="position_c1"> </Construction> n <PositionC id="position_c0" function="ndeterminative" syntagmacl="syntagme_t0 "> <PositionC id="position_c1" function="nclauscomp" syntagmacl="syntagme_nt_c1 "> <SyntagmaT id="syntagme_t0"
syntlabel="art"> <SyntagmaNTC id="syntagme_nt_c1" syntlabel="clause" featurel="trait_lex2"> <LexFeature id="trait_lex2" value="of" mu="um123" saturesynt="yessa">
Literatuur Van Sterkenburg (2003): 4.3, 5.1, 5.3 Kruyt, J.G. & J.J. van der Voort van der Kleij (1992-1993), Towards a computerized historical dictionary of Dutch. In: Acta Linguistica Hungarica 41 (1-4), Hungarian Academy of Sciences, Budapest, 159-174. Kruyt, J.G. (1989). Gecomputeriseerde woordenboeken voor mens en computer. Jaarboek Instituut voor Nederlandse Lexicologie. Leiden : pp. 53-72. Kruyt, J.G. (1998). Elektronische woordenboeken en tekstcorpora voor Europese taaltechnologie. In: Trefwoord 12, jaargang 12, afl. 1, Jaarboek Lexicografie 1997-1998, pp. 28-42. Ook op www.inl.nl