Woordenboekencomponent van de Geïntegreerde Taalbank (GTB): het WNT en VMNW met andere databestanden geïntegreerd in 1 zoeksysteem demo gtb.inl.



Vergelijkbare documenten
Lexicografie en lexicologie

Maken van een woordenboek:4 hoofdfasen

Wat is een corpus en waarvoor wordt het gebruikt?

RETRIEVALSYSTEMEN VOOR TAALKUNDIG ONDERZOEK Wat biedt het INL nu en in de toekomst? Instituut voor Nederlandse Lexicologie

Taalkundige verrijking in relatie tot PAROLE Corpus maar ook in ruimer kader

Het World Wide Web als corpus

OCR Technieken OCR Optical Character Recognition ICR Intelligent Character Recognition OMR Optical Mark Recognition Barcode Handschrift

Nieuwe zoekfuncties SUBTLEX-NL

Inleiding Informatiekunde I

Doorlopende lexicografie: vier historische woordenboeken van het Nederlands in één databank

Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken Hogeschool Gent

1.1 medline. 1.2 PubMed

Onderdeel: Spelling Algemene informatie: Wat moet je kennen: Wat moet je kunnen: Toetsing:

MIDDELNEDERLANDSCH WOORDENBOEK

Onderdeel: Spelling - ANV Algemene informatie: Wat moet je kennen: Wat moet je kunnen: Toetsing:

Basisfunctionaliteit van gestructureerde zoeksystemen. Illustratie aan de hand van het zoeksysteem van Ebsco.

Programma van Inhoud en Toetsing (PIT)

Knoppen: = drop down menu, = naar tabel, = heen en weer tussen records en *=wildcard (shift 8)

Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken LT 3 Hogeschool Gent

Mogelijke elementen van de microstructuur:

Programma van Inhoud en Toetsing

Natuurlijke-taalverwerking. Week 2

Onderdeel: Spelling Algemene informatie: Wat moet je kennen: Wat moet je kunnen: Toetsing:

D-kwadraat: digitale databanken en digitaal gereedschap voor WBD en WLD

tip! in leerjaar 1, is nog weinig verschil; mavo mag deze samenvatting ook gebruiken

Research & development

Literatuur zoeken en verwijzen

COAVA. Gebruikershandleiding. Gebruikershandleiding bij de COAVA web applicatie CLARIN-NL

Onderdeel: Spelling - ANV Algemene informatie: Wat moet je kennen: Wat moet je kunnen: Toetsing:

PHCC-G Walk-in. Optical Music recognition (niets? voor niets?) een samenvatting van een onderzoek uit 2008/2009

Programma van Inhoud en Toetsing

IRIS heeft TEC Documents geselecteerd als één van haar beste resellers. Om dat te vieren doet TEC u een bijzondere aanbieding.

CLARIN-NL Metadataproject

Advies voor het verwijderen van Dimensions v1.0 van de pas toe of leg uit lijst en het wijzigen van het functioneel toepassingsgebied van XBRL v2.

Redactionele en bibliografische aanwijzingen voor publicaties in wetenschappelijke series van IRiLiS

Blauwdruk voor onderhoud, beheer en distributie van door de overheid gefinancierde digitale materialen.

WERKEN MET HET WOORDENBOEK. Een trainingsprogramma in woordenboekgebruik

Programma van Inhoud en Toetsing (PIT)

Enquête crowdsourcing knaw voor onderzoekers en collectiebeheerders

Tussendoelen Gevorderde Geletterdheid. 1. Tussendoelen lees- en schrijfmotivatie. 2. Tussendoelen technisch lezen

Literatuur: zoeken en verwijzen

Gebruikershandleiding BNM-I

een onmisbaar hulpmiddel bij het maken van een artikel of scriptie

Handleiding zoeken in de digitale kranten

Zoeken naar medische literatuur Marianne van der Heijden Bureau Andromeda 19 januari 2006

E Invoicing, wat is het nu precies en wat zijn de ontwikkelingen? dé P2P specialist van Nederland

Automatic lexico-semantic acquisition for question answering Plas, Marie Louise Elizabeth van der

Web of Science: SCI, SSCI en AHCI

Eindverslag Onderzoekstraject Tekstontsluiting

AN, BN, NN en een snuifje SN. Regionale variatie in het Nederlands

Documenten scannen met OCR

ANTON DE KOM UNIVERSITEIT VAN SURINAME DE BIBLIOTHEEK: AANBOD VAN WETENSCHAPPELIJKE INFORMATIE

Redactionele en bibliografische aanwijzingen voor publicaties in de wetenschappelijke series van het ILRS

4 manieren voor het verbeteren van uw

! " # % $ # & ' " ( % ) '# *+,+--.

INSTRUMENTEN TER ONDERSTEUNING VAN SCRIPTIESTUDENTEN

Referentiële onzekerheid, computermodellen en semantische kindertaalcorpora

Functionele aspecten van de gecomputeriseerde lexicografie

Ontstaan Rekentuin en Taalzee. Rekentuin. Taalzee. Demonstratie. Rekentuin & Taalzee Spelenderwijs oefenen en toetsen

Resultaten en Beschikbaarheid 1e Ronde projecten, SPRAAK en CORNETTO Jan Odijk i.s.m. TST-Centrale

E-service «JMONNET» via MyminfinPro Versie Demo toegang tot e-service "JMONNET" via MyminfinPro versie. Date : 05/08/2013 Page 1 sur 14

Kyoto: multilinguale terminologie op basis van Wordnets

Data-driven identification of fixed expressions and their modifiability Villada Moirón, María Begoña

SIMPLIFYSCAN. A sharp choice in intelligent scanning

Handleiding Gebruikers 20/20 Xspend

Schrijven over literatuur: over de taal in waarderende teksten. Clary Ravesloot

Doorlopende toetslijn Nederlandse taal en rekenen TAAL EN REKENEN IN EXAMINERING ONDERWERPEN

GEEN ZIN IN OVERTYPEN?

OVERZICHT TUSSENDOELEN GEVORDERDE GELETTERDHEID. 1. Lees- en schrijfmotivatie

Verwerking van elektronische facturen in uw brandweer- en politieboekhouding

M IC 438 M IC G441 - M IC G442 -

Wat hebben de lexicograaf en de foneticus elkaar te vertellen? Truus Kruyt

Kroniek van de taalkunde 2007

JAARGANG 8 / NUMMER 9 MEI Mede mogelijk dankzij:

Stappenplan zoeken en verwerken van informatie

De Digitale Bibliotheek. Toegang tot databases en e-journals digitallibrary.leidenuniv.nl

Welkom 2008/2009. Module Re5. Actuarieel Instituut Module Re5 1

BRONNENONDERZOEK 2010/2011


Informatie voor profielwerkstukken (laatst bijgewerkt op 13 november 2018)

Handleiding voor het zoeken in de NVBS-beeldbank

Een trainingsprogramma in woordenboekgebruik

Een hele eenvoudige benadering van de oplossing van dit probleem die men wel voorgesteld heeft, is de volgende regel:

Spraaktechnologie. Gerrit Bloothooft.

LTX016B05. Nieuwe ontwikkelingen in de syntaxis. College 12

Documentuitwisseling (1) Documenten

PDF hosted at the Radboud Repository of the Radboud University Nijmegen

Inhoud: de eerste verzameling van Nederlandstalige gesproken en geschreven teksten,

Profiel Academische Taalvaardigheid PAT

ISP-Invoice. Elektronische factuurverwerking. Highlights. ISP-Invoice biedt de oplossing. isprojects.nl

RUBRIC VERGELIJKEN. Toelichting

Booleaanse operatoren en de nabijheidsoperator

Zelfstandig naamwoord

Entry Point Retrieval

Over Betrouwbaarheid van Computersystemen

ELEKTRONISCH DOCUMENT MANAGEMENT

Hoofdstuk 2 Internet, www en zoeksystemen technisch en functioneel verklaard / 35

Elektronische waardepapieren: fata morgana of reële mogelijkheid? NTHR Symposium 2019 Frank Stevens

v o o r b e t e r l e z e n e n l e r e n!

IRISPen Air 7. Verkorte handleiding. (ios)

Transcriptie:

Woordenboekencomponent van de Geïntegreerde Taalbank (GTB): het WNT en VMNW met andere databestanden geïntegreerd in 1 zoeksysteem demo gtb.inl.nl: basiszoeken en uitgebreid zoeken links vanuit een artikel naar andere databestanden gebruik van operatoren EN en OF gebruik van wildcards * en? Twee andere voorbeelden: Mittelhochdeutsche Wörterbücher im Verbund http://germazope.uni-trier.de/projects/mwv/wbb+ Wörterbuchnetz met andere woordenboeken, o.a. Deutsche Wörterbuch internetwoordenboekensysteem www.onelook.com

Verschillen tussen VMNW en WNT die de opvraagbaarheid bepalen: 1. verschillen in inhoud: niet alle informatiecategorieën dezelfde 2. structuur van de digitale versie: VMNW: (relationele) database, waardoor alle informatiecategorieën expliciet en ondubbelzinnig voor de computer herkenbaar zijn WNT: niet volledig gestructureerd tekstbestand, waarin NIET alle informatiecategorieën expliciet en ondubbelzinnig voor de computer herkenbaar zijn door coderingen in het tekstbestand

Van gedrukte tekst naar gestructureerd bestand: WNT GEDRUKTE TEKST optical character recognition (OCR) of tekstverwerking DIGITAAL TEKSTBESTAND automatische codering van informatiecategorieën GESTRUCTUREERD DIGITAAL TEKSTBESTAND

Automatische codering: principe het automatisch plaatsen van een begin- en eindcode om een stuk tekst dat een bepaald type informatie geeft (bijv. de informatiecategorie trefwoord, citaat, datering etc.) op basis van: vormkenmerken van de tekst typografie, tekens, cijfers specifieke tekst context structuur van het artikel plaats in de structuur in combinatie met elkaar

Automatische codering: complicerende factoren groot aantal potentieel te coderen informatiecategorieën complexe, fijnmazige structuur van grote artikelen typografische ambiguïteit en complexiteit lexicografische praktijk: variatie (inconsistentie): formeel en redactioneel ruimtegebrek -> middelen om de tekst te bekorten Consequenties: Niet alle informatiecategoriën zijn automatisch te coderen, waardoor de gebruiker van het woordenboek niet of niet precies vindt wat hij zoekt. Veel handmatig werk nodig voor verdere automatische codering.

Gebruik van digitale woordenboeken voor natuurlijke-taal verwerkende computersystemen zoals: intelligente spelling- en grammaticacheckers systemen voor automatisch of computerondersteund vertalen mens-machinecommunicatiesystemen systemen voor automatische termextractie of informatie-extractie systemen voor information retrieval MAAR: alleen de informatie is geschikt, niet de vorm -> automatische extractie van informatie uit digitale woordenboeken voor het maken van een computationeel lexicon dat door een computer gelezen kan worden

Nederlandse PAROLE-lexicon (computationeel lexicon) verkrijgbaar via TST-centrale: www.inl.nl / producten Morfologische informatie woordsoortinformatie, verbogen vormen, verkorte vorm eventueel: variante vormen eventueel: gebruiksinformatie (zeldzaam, archaïsch, informeel etc.) eventueel: geografische informatie Syntactische informatie: valentiepatronen complementcategorieën (zoals werkwoord, zelfst. naamwoord e.d.) + eventuele specificatie functie van de complementen (bijv. zin na zelfst. naamwoord) onderlinge posities van lemma en complementen

Voorbeelden van valentiepatronen in een formele interne notatie @#5. potje # Een potje babyvoeding ART+DET_1[NDETERMINATIVE] {1<SELF} (N_2:COMMON[NAPPOSITION]) {SELF<2} @#9. vraag # De vraag of hij komt ART+DET_1[NDETERMINATIVE] {1<SELF} (Clause_2{of}[NCLAUSCOMP]) {SELF<2}

Formele PAROLE-notatie in SGML van de vraag of hij komt (alleen om een idee te geven) <SynU id="usyn6794" description="description6794"></synu> <Description id="description6794" example="de vraag of hij komt" self="self0" construction="syntagme_nt_c856"> <Construction id="syntagme_nt_c856" syntlabel="np" selfinsertion=""> <InstantiatedPositionC range="0"

optional="no_o" positionc="position_c0"> <InstantiatedPositionC range="1" optional="yes_o" positionc="position_c1"> </Construction> n <PositionC id="position_c0" function="ndeterminative" syntagmacl="syntagme_t0 "> <PositionC id="position_c1" function="nclauscomp" syntagmacl="syntagme_nt_c1 "> <SyntagmaT id="syntagme_t0"

syntlabel="art"> <SyntagmaNTC id="syntagme_nt_c1" syntlabel="clause" featurel="trait_lex2"> <LexFeature id="trait_lex2" value="of" mu="um123" saturesynt="yessa">

Literatuur Van Sterkenburg (2003): 4.3, 5.1, 5.3 Kruyt, J.G. & J.J. van der Voort van der Kleij (1992-1993), Towards a computerized historical dictionary of Dutch. In: Acta Linguistica Hungarica 41 (1-4), Hungarian Academy of Sciences, Budapest, 159-174. Kruyt, J.G. (1989). Gecomputeriseerde woordenboeken voor mens en computer. Jaarboek Instituut voor Nederlandse Lexicologie. Leiden : pp. 53-72. Kruyt, J.G. (1998). Elektronische woordenboeken en tekstcorpora voor Europese taaltechnologie. In: Trefwoord 12, jaargang 12, afl. 1, Jaarboek Lexicografie 1997-1998, pp. 28-42. Ook op www.inl.nl