Kyoto: multilinguale terminologie op basis van Wordnets

Vergelijkbare documenten
Enquête huurdersportalen woningcorporaties. Marnix van Welie Arne Freriks 25 juni 2013

Het sem metrix. metrix-project. De profielgebaseerde meting van lexicale. University of Leuven RU Quantitative Lexicology and Variational Linguistics

Inhoudsopgave (onderaan deze bladzijde:) korte informatie over de auteur(s) (30 woorden over loopbaan en huidige betrekking)

Onderzoeksresultaten in detail

Beleid vaststellen t.a.v. handen wassen en gebruik handdoeken. Protocol vaststellen t.a.v. handen wassen en gebruik handdoeken

INTEGRATIE PLATFORM IN DE PRAKTIJK. G100 Marco Bakker Project Manager 27 September 2016 De Efteling - Kaatsheuvel

Europese Unie Bingo. Oorlog voorkomen. Brussel. De voorzitter van de Europese Commissie. De Europese Raad. De Europese Commissie

DRIVING BUSINESS. Werkplaats orders genereren met Social Media

c l e u r e n _ m e r k e n RUIMTELIJKE PLANNING EN ARCHITECTUUR

Resultaten. Eenvoudige statistieken Vragenlijst 'Landelijke dagbladen en online nieuws' Vragenlijst 21747

Jongeren ten opzichte van hun eerste job

Resultaten. Eenvoudige statistieken Vragenlijst 'Landelijke dagbladen en online nieuws' Vragenlijst 21747

Theorie:blz. 7 t/m 41 Toets 2001D nee ICT 1 ja Toets 2002D nee ICT 1 ja Toets 2003D nee ICT 1 ja Toets 2009E ja ICT 5 ja

Factsheet persbericht. Student stelt eisen aan stage bij

ROHA handleiding OZIS ketenzorgkoppeling

Resultaten KlantTevredenheidsOnderzoek Alympus Personeelsadvies B.V.

EDLnet: deelname van de Vlaamse gemeenschap

behandeld: cursusboek blz 18 tot en met blz 38 volgende keer meenemen cursusboek drupal2 i.v.m.views (zie blz 39)

Handleiding Zorgportaal

Multi Gemeenten inrichting

Sourcing & Technologie. Gerard Mulder, Commercieel directeur, mulder@textkernel.nl,

Het profiel van West

Curriculum Vitae. Personalia: Samenvatting: Chris van der Scheer Geboortedatum:

VERDRIJVING)VAN)DE)GLAMOUR)VAN)HET)MATERIALISME

WEBBASED SERVICES 2016 INTRODUCTIE & TOELICHTING OP ONLINE E-LEARNING & E-GAP ANALYSIS

ZA4884 Flash Eurobarometer 248 (Towards a safer use of the Internet for children in the EU a parents' perspective)

Heb je een vraag over de Mobiles for Good Challenge? Stuur dan een naar:

het digitale landschap van de zorg in 2016

Woordenboekencomponent van de Geïntegreerde Taalbank (GTB): het WNT en VMNW met andere databestanden geïntegreerd in 1 zoeksysteem demo gtb.inl.

Workshop IP-Herkenning

EIB-Groep. Klachtenregeling. Verantwoording afleggen aan de burger

ICT training centrum is een onderdeel van:

22 oktober Onderzoek: Klantvriendelijkheid Banken

Waarmaken van Leibniz s droom

Zelfcertificeringsvragen ZegelGezond

everbinding de MKB oplossing binnen Simplerinvoicing

DE CB-NL DE CONCEPTEN BIBLIOTHEEK VOOR DE GEBOUWDE OMGEVING

De status van mobiel intranet

engineering / techniek / ICT

Handleiding. KERN enquête systemen

HET WETTELIJK DEPOT VAN NUMERIEKE

Onderzoek Stemmen vanaf je 16e?

(zakelijke ) 42 Fictie K8 P2 Nvt 1 Nee 45 Blok 1 K3 T1 60 minuten 2 Ja

Start Onze doelen Het nieuwe itslearning Wanneer Wat Wie Waarom

Handleiding Mijn Bibliotheek- Administratie

- Exact Basis! - Exact Premium! - Exact Handel! - Exact Handel ERP!

Laat Beveiliging niet over aan Beveiligers! Presentatie voor EAM 2014

De stille revolutie van technologie

MultimediaN E-Culture en Prenten Kabinet Online

FRESNEL FORMS. Een Protégé plugin voor het genereren van datasysteeminterfaces van datamodellen op het Semantic Web ABI TEAM 30

Handleiding. Autotaal Easy-work

Checklist Presentatie geven 2F - handleiding

Projectwerk programmeren. met mijlpalen; opdrachtformulering, analyse stappen, code

SHIFTING GEARS IN DIGITAL MARKETING VERSTAND VAN DATA. GEVOEL VOOR MARKETING.

WORKSHOP 1W7. Persoonlijke leerschema s: tussen dromen en werkelijkheid

Linked data, NDE en Nationaal Archief

MULTISITE, WHY? HÉT E-COMMERCE BUREAU

HBO-I: DE ANDERE SKILLS PROJECTSCHOLEN OPDRACHT WERKGROEP DE ANDERE SKILLS

Betreft: Verzoek tot Offerte AmersfoortBreed Cultuureducatie / Website Scholen in de Kunst Datum: 10 oktober 2011

Rapportage onderzoek vmbo. Marlou Slaghuis Mei, 2014

Reactie op de openbare consultatie voor CZP van de volgende partij: - Surf Foundation. Geachte heer, mevrouw,

Stimuleringsregeling Promotietrajecten Hogeschool der Kunsten Den Haag

ICT: HOOFDROLSPELER OF BACKSTAGE ASSISTANT? Steven Van Uffelen INCA Networks NV

Krachtenveld. Masterprogramma Content & Knowledge Engineering. Ministerie OCW. ß-faculteit. onderwijsvisitatie. bacheloropleidingen.

Ontwikkelingen naar een duurzame energiemarkt. Klaas Hommes, TenneT 28 juni 2014

PiCarta NCC en deelcatalogi, Online Contents, Kluwer en Speciale bestanden Nieuw in versie 7.2. Publicatiedatum: 19 augustus 2014

Kanker en naasten: 'Vergeet ons niet te lezen'

lancering UNIT4 Multivers versie 2012

Vragenlijst beginsituatie leerlingen

Leerlingenhandleiding

Gesprek voeren met degene in de vestiging die verantwoordelijk is voor ICT zaken.

Inleiding: De vragenlijst wordt afgesloten met de vraag om uw kennisvraag 2 ledig in maximaal 100 woorden te formuleren.

Light + Building 2014 wereldwijd de toonaangevende vakbeurs voor architectuur en techniek

Resultaten vragenlijst Flexmarkt November 2013

4orange Connect. 4orange, Hogehilweg CD Amsterdam Zuidoost

3. Behoeften van patiënten aan zelfmanagement

Invulling van het profiel VECON BUSINESS SCHOOL Naam school: Bernardinus College

Onderzoek Trekt de woningmarkt weer aan?

Zoekstrategieën voor succesvol zoeken

Stb Nalatenschappen

Wat zijn de spelregels rondom het gebruik van persoonsgegevens?

Wat. nou. cloud?! De zin én onzin! CSP

Factsheet Monuta Draaiboek

Onderzoek. Het provisieverbod & gebruik financieel adviseurs

FASTER FORWARD ELEMENTS RELEASENOTES 9.3.1

Resultaten online enquête Kennisknooppunt Stadslandbouw

Prof. dr. Pieter Verdegem (MICT)! Het meten van sociale mediawijsheid meet #(sociale)mediawijsheid2.0!

INFORMATIEBEHOEFTEN EN INFORMATIEZOEKGEDRAG IN RELATIE TOT SPORT. In opdracht van NOC*NSF

GernEdiT The GermaNet Editing Tool

ICT bedrijvigheid in de stad. Aandeel van de ICT sector in de stad. Bron: LISA Almere. Amsterdam. Den Haag. Deventer

Effectenstudie toename verhard oppervlak op bermsloot A67

OVERZICHT LEERGANG. De zes standaardmodules vormen het basisprogramma, deze zijn verplicht. De instapmodules en verdiepende modules zijn optioneel.

Titanpad. Answergarden. Wordle. Tricider. Resultaten Workshop ICT & Aps


Portals en Leernetwerken

in het agrifood domein 1 VIAS-symposium

Transcriptie:

Kyoto:multilingualeterminologieopbasisvan Wordnets RoxaneSegers 1,WauterBosma 2,PiekVossen 2 1FaculteitExacteWetenschappen,VrijeUniversiteitAmsterdam 2FaculteitderLetteren,VrijeUniversiteitAmsterdam Samenvatting HetKyotoprojectontwikkelteenplatformwaarmeedomeinexpertsuitverschillende taalgebiedenhunkennisenterminologiekunnendelenenspecificeren.omdeuitwisselingvan cultuurspecifiekekennismogelijktemaken,iserinhetprojecteensysteemontworpenwaarmee domeinexpertsvoorverschillendetalendomeinwordnetskunnenmaken.dezedomeinwordnets zijnaanelkaarverbondendoordetermenindezewordnetstekoppelenaanééngedeeldeen taalonafhankelijkeontologie.dedomeinwordnetsendeontologiewordenvervolgensgebruikt omnaarspecifiekeinformatieintekstentezoekenwaarbijdegebruikerdekeuzeheeftom vergelijkbaregegevenstevindeninverschillendetalen.hetkyotoprojectrichtzichophet mileudomeinenontwikkelthetplatformvoorhetengels,nederlands,spaans,baskisch,italiaans, JapansenChinees. 1.Inleiding HetdoelvanhetKyotoproject 1 (2008 2011)isomeenonlineengebruiksvriendelijk platformteontwikkelendatdoordomeinexpertsuitverschillendetaalgebiedenkan wordengebruiktvoorhetorganiserenendelenvanvakkennis,gebaseerdopdetermen diebinnenhetdomeineenbelangrijkerolspelen.hetplatformbiedtdaarnaasttoegang totuitgebreidetekstcollectiesdiesemantischdoorzochtkunnenworden;datbetekent daternietalleenopeentermgezochtkanworden,maarookopspecifiekerelaties tussentermen,bijvoorbeeldtussenbeheersmaatregel,grotegrazersenafschot. AchterdetermorganisatieenzoekfunctionaliteitenvanhetKyotoplatformgaateen omvangrijkearchitectuurschuilwaarintweecomponenteneencentralerolspelen.de eerstecomponentindearchitectuurzijndedomeinwordnetsdievoorzeventalen wordenontwikkeld.eenwordnetiseensemantischlexiconwaarbijwoordendie hetzelfdeconceptuitdrukkeneensynsetvormen.dezesynsetszijnvervolgensaan elkaarverbondendoorverschillendesemantischerelatieswaarvandehiërarchischeis a relatiedebelangrijksteis.desynset{vis}bijvoorbeeld,heefteenis aof hyperoniemrelatietot{organisme}eneenheeft deel relatietot{kieuw}.ineen domeinwordnetwordtvolgensdezelfdeprincipesdeterminologievaneenbepaald vakgebiedbeschreven.hetdomeinwordnetstaatnietopzichzelf,maarwordtalseen extensieverbondenmethetgeneriekewordnetvandedesbetreffendetaal.daardoor profiteerthetdomeinwordnetvanalleconceptendieinhetgeneriekewordnetal beschrevenzijn. EentweedebelangrijkecomponentuitdeKyoto architectuurisdeontologie.een ontologieisteomschrijvenalseenformeleentaalonafhankelijkespecificatievan conceptenineenbepaalddomein(studer,1998).ookeenontologieishiërarchisch gemodelleerd,maaronderscheidtzichvaneenwordnetdoordatdeorganisatievande conceptenlosstaatvanofenhoezeineentaalwordengelexicaliseerd.ineen 1 KYOTO (acroniem van Knowledge Yielding Ontologies for Transition-based Organisation) is een Europees- Aziatisch project gefinancierd door de EU onder projectnummer 211423 in het 7 de Framework in the area of Digital Libraries: FP7-ICT-2007-1, Objective ICT-2007.4.2: Intelligent Content and Semantics. Zie ook: http://www.kyoto-project.eu voor meer informatie en de laatste demo s.

(domein)wordnetwordensynsetsgeorganiseerdzoalszeineentaalworden geconceptualiseerd;hetengelseofchinesewordnetheeftdaardooreenandere organisatievandesynsetsdanhetnederlandsewordnet.eenvoorbeeldvaneen verschillendeorganisatievansynsetsinhetengelseennederlandsewordnetishet Engelsecontainerwaarsynsetsonderhangenalsspoon,envelopeenrefrigirator.Inhet NederlandsbestaatgeenequivalentvanhetEngelsecontainerwaardoorlepel,envelop enkoelkastinhetnederlandsewordnetgeensemantischegroepvormen,maarelkop verschillendeplaatsenindehiërarchiestaan.ineenontologiedaarentegenkunnen conceptueleonderscheidingenenovereenkomstenexplicietentaalonafhankelijk wordengemodelleerd.doordesynsetsuitdeverschillende(domein)wordnetsniet rechtstreeksaanelkaarmaarviaeenonafhankelijkeontologiemetelkaarteverbinden, ontstaatereennetwerkmetexplicieteenformelerelatieswaarinprecieskanworden uitgedrukthoeeensynsetmeteenconceptuitdeontologieenmetsynsetsinandere domeinwordnetsverbondenis. DearchitectuurvanhetKyotoplatformisontwikkelddoortechnicientaalkundigen maarwordtingebruikgenomendoordomeinspecialisten.datbetekentdat domeinspecialistenookzelfhunterminologiebeschrijven.indevisievanhet Kyotoprojectzijndegebruikersvanhetplatformexpertsinhuneigenvakterminologie maarontbreekthethenaandemiddelenomdezezelftebeschrijvenenteonderhouden. HetKyotoplatformbiedtdearchitectuurendehulpmiddelenwaarmeevakexpertshun terminologiezelfkunnenbeschrijven.omditprocestefaciliteren,zijnerdiverse ondersteunendecomponenteninhetplatformopgenomenzoalseenontologie, geëxtraheerdetermlijstenvoorhetvormenvandedomeinwordnets,eneen editomgevingwaarindetermenkunnenwordengeorganiseerdenbeschreven. Degebruikersvanhetplatformbeschrijvenhunterminologiemeteenspecifiekdoel, namelijkhetdelenvaninformatieenhetsemantischdoorzoekenvanvaktekstenop relevanteinformatie.voorelketermdieeenvakspecialisttoevoegtaanhet domeinwordnet,geldtdatermeteennaarspecifiekeinformatieronddezetermgezocht kanworden.indiezinwordtdegebruikermeteenvoorzijninspanningbeloonddoordat hijdirectbeterezoekresultatenterugkrijgt. Ditartikelisverderalsvolgtgeorganiseerd:inparagraaftweebeschrijvenweaande handvanvoorbeeldenuithetmilieudomeinhetbelangvaneenintelligentzoeksysteem datkanzoekenopbetekenisenrelaties.inparagraafdriepresenterenwedealgemene architectuurvanhetkyotoplatformeninparagraafvierenvijfgaanweinop respectievelijkdriecomponentenvandearchitectuur,tewetendetermextractie,de domeinwordnetsendecentraleontologie.inparagraafzesbeschrijvenwedemanier waaropinkyotosemantischkanwordengezocht.inparagraafachtbesluitenwemet enigealgemeneopmerkingenoverdestatusvandekyotoprojecten architectuur. 2.Multilingualeterminologieensemantischzoeken Dedagelijksepraktijkvanexpertsinhetmilieudomeinbestaatuithetverzamelenvan gegevensenhetschrijvenvanbeleids enaanbevelingsrapporten.informatiekomt steedsvakerbeschikbaarviagedigitaliseerdetekstdocumenten,maarombijvoorbeeld complexevragenrondomdebiodiversiteitineenbepaalderegiotebeantwoorden,zijn talvangegevensnodigdieuitverschillendedocumentenmoetenwordenbetrokken. Domeinexpertswordendaardoorgeconfronteerdmethetbekendeprobleemdat gegevensmetdebeschikbarezoeksystemenmoeilijktevindenzijn.eeninventarisvan demanierwaaropdedomeinexpertsaangeventewillenzoeken,maaktduidelijkwaar demeestesystemennietinkunnenvoorzien. BetekenisgerichtzoekenDemeestebeschikbarezoeksystemenzoekenopvormen nietopdebetekenisvandeopgegevenzoektermen.wiebijvoorbeeldbinneneen

tekstcollectieofophetinternetopzoekgaatnaarinformatieoverdepopulatiewilde eendeninnederland,krijgtalleenresultatenterugwaarindezezoekwoorden voorkomen.relevantedocumentenwaarinwordtgesprokenoverwintertalingenen Gelderland,wordenalleengevondenalsdeopgegevenzoekwoordenindecontextstaan. Overhetalgemeenbeschikkenzoeksystemennietoverdekennisdateenwintertaling eensoorteendis,waardoorrelevanteinformatienietoftoevalligwordtgevonden.een zoeksysteemdatnietzoektopvormmaaropbetekenis,kandezeinformatiewélvinden. RelationeelzoekenEenanderproblematischaspectisdatderelatietussende zoektermennietkanwordengespecificeerdindezoekopdrachtwaardoorde zoekresultatenveelirrelevantegegevensopleveren.wieinformatiezoektoverziektes diebedreigendzijnvoorvleermuizen,kandezespecifiekerelatietussendetermenniet opgeven.hetzoekresultaatgeefttekstenterugwaardezetermeninvoorkomen,maar eengrootgedeeltezalgaanoverbedreigendeziektesdievleermuizenopmensen kunnenoverbrengen. VolledigeindexeringEenderdeprobleemisdatveelzoeksystemenwebpagina sen documentennietvolledigindexeren.eenzoekmachinealsgooglegebruiktslechtseen deelvandewebsiteendedaarbeschikbaredocumentenvoorzijnzoekindex.watniet wordtgeïndexeerdkanooknietwordengevonden.daarbijzijndezoekresultaten gerangschiktophetaantalin enuitgaandelinksvaneenwebpagina.opdiemanierkan eendocumentzonderlinksmaarmetrelevanteinformatieopeenpositieindelijst zoekresultatenbelandenwaarniemandmeerkijkt.meteenplatformalskyotokunnen gebruikersallebelangrijkeenrelevantedocumentatieuploadenendezewordtook volledigdoorhetzoeksysteemverwerkt.zoekresultatenwordenvervolgensgeordend opinhoudelijkerelevantieennietoppopulariteit. MultilingualiteitZoeksystemenhebbenbeperktemogelijkhedentotmultilinguaal zoeken.juistditmultilingualeaspectisvoormilieukundigenvangrootbelangomdathet domeininternationaalgeoriënteerdis;beschermingsmaatregelendieinspanje succesvolzijngebleken,kunnenookopgelijksoortigesituatiesinnederlandworden toegepast.daarnaasthoudteenecosysteemnietopbijdelandsgrens,waardoor samenwerkingenhetuitwisselenvaninformatietussenverschillendelanden onontbeerlijkzijnvoormilieuorganisaties.ominanderstaligedocumententekunnen zoeken,moeteendomeinexpertzijnterminologiewelkunnenvertalennaardecorrecte termindedoeltaal.opdatpuntontstaanalsnelproblemenomdateendeelvande termeninhetmilieudomeinzeertaal encultuurspecifiekis.zoheefthetnederlands eenuitgebreideterminologievoorwaterbeheersingzoalsinlaag,wielenkwelwaterdie nietofmoeilijkvertaalbaarzijnomdathetconceptwaardetermnaarverwijstinandere taalnietbekendis.daarnaastkaneenbepaaldconceptwelbekendzijn,maariserineen anderetaalsprakevanbetekenisspecialisatieof generalisatiebijdelexicalisatevanhet concept.zogebruikthetengelsdetermhostvoorzoweldierenalsplantendieals gastheerkunnendienenvooreenanderesoort.inhetnederlandswordtgastheer doorgaansexclusiefvoordierengebruiktenbestaatdetermwaardplantspecifiekvoor plantendiealsgastheeroptreden. DomeinkennisTermenzijndedragersvanvakkennisbinneneendomeinenspelen ookvoormilieuorganisatieseenbelangrijkerolbijhetzoekennaarinformatie.een complicerendefactorhierbijisdatmilieuterminologieveelwoordenuitdealgemene taalbevatwaareendomeinspecifiekerolaanwordttoegekend.zowordensnelwegen gezienalseenmigratieobstructievoorbepaaldediersoortenenfungerenwolvenonder anderealsbiodiversiteitsindicator.indebestaandezoeksystemenishetmogelijkomte zoekennaarbiodiversiteitsindicatoren,maarnietnaarwieofwatdezerolkanvervullen. Eenzoeksysteemdatopbetekenisenrelatieskanzoeken,heeftdaaromook domeinspecifiekekennisnodigomdezerelatietekunnenleggen. Kyotoprojectbiedteenplatformwaarmeedomeinexpertsdocumentenenterminologie kunnenonderbrengentenbehoevevaneenzoeksysteemwaarmeemultilinguaalenop

domeinspecifiekebetekeniskanwordengezocht.omdatmogelijktemaken,iseen uitgebreidearchitectuurontworpendieindevolgendeparagrafenverderwordt toegelicht. 3.DearchitectuurvanhetKyotoplatform DearchitectuurvanhetKyotoplatformwordtindezeparagraafstapsgewijsuitgelegd aandehandvanfiguur1datdeverschillendecomponentenvanhetplatformtoontin hunonderlingverband.hetgrootstegedeeltevankyotoarchitectuurdraaitoverigensop deachtergrondenblijftgeheelonzichtbaarvoordeeindgebruikerdiedaardoorzomin mogelijkgeconfronteerdwordtmetdetechnischeonderdelenvanhetplatform. Fig.1:ArchitectuurvanhetKyotoplatform 1.)Dedocumentenwordendoordegebruikersaangeleverd.Voordeinvullingvanhet KyotoplatformvoorhetmilieudomeinhebbendeorganisatiesWWFenECNC documentcollectieaangelegdinzevenverschillendetalen.dezedocumentcollectieis nietstatisch,maarkanopiedermomentdoordegebruikerverderwordenaangevuld. 2.)HetKyotosysteemverwerktdetekstendiezijnaangeleverdinPDFenHTMLtothet KyotoAnnotationFormat(KAF)(Bosma,2009),eenverdereuitwerkingvanhetLAF formaat(ide,2003)datgeschiktisgemaaktvoordiepeentaalonafhankelijke syntactischeensemantischetekstannotatie.aanhetbeginvandecycluswordende tekstenindeverschillendetalensyntactischontleed;voordenederlandseteksten wordtdaarvoordealpinoparser(bouma,2000)gebruikt.onafhankelijkvandetaalen degebruikteparserwordendewoordsoort,demultiwordsendedependentiesop dezelfdewijzeindetekstengecodeerd.nahetontledengaandetekstendooreen taalonafhankelijkewordsensedisambiguation(wsd)module(agirre,2009;agirre, 2010),dievooralleverba,substantivaenadjectivadebetekenisvoorspeltopbasisvan synsetsuithetgeneriekewordnet.bijiederevolgendestapindekyotocycluswordener meerannotatielagenaandetekstentoegevoegd.

3.)Degeannoteerdetekstenwordengebruiktvoordetermextractie.Omdatalleteksten nahetontledenopdezelfdewijzezijngestructureerdengecodeerd,ishetmogelijkom determextractietaalonafhankelijktehouden.hetdoelvandetermextractorisomalle relevantetermenvoorhetdomeinuitdetekstentehalenendezepertaalinkleine hiërarchieënopteslaan.omdatdetekstennogvóórdeextractiedooreenwsd module gaan,ishetmogelijkomeendeelvandetermhiërarchieënmeteentekoppelenaaneen albestaandesynsetinhetgeneriekewordnetvandedesbetreffendetaal.hierdoorstaan deuiteindelijkedomeinwordnetsdiemetdezetermhiërarchieënwordengeconstrueerd, inverbindingmetdegeneriekewordnetsenprofiterenzovanallekennisdiedaarreeds aanwezigis. 4.)Degeëxtraheerdetermhiërarchieënwordensamenmetreedsbestaande domeinspecifiekethesaurialsdespecies2000 2 aandeeindgebruikergepresenteerdin eenspecialeeditomgeving,dewikyoto(ronzano,2010).indezeapplicatiekunnende gebruikersdeverzameldetermenverderorganiserenenonderhouden.indewikyoto vindtookdekoppelingplaatsvandetermenaandeontologie.dekyotoontologie bestaatuiteenalgemeenendomeinspecifiekgedeelteenisinsamenspraakmet domeinexpertsontwikkeld.hetkoppelenvansynsetsaaneenontologieisdoorgaans werkvoorspecialisten;indewikyotoeditomgevingwordthetkiezenvanhetjuiste conceptindeontologievolledigbegeleiddooreenaantalsimpeleja/nee vragente stellenaandedomeinexperts.opbasisvandezeantwoordenkanhetsysteem automatischdejuistekoppelingenrelatiesgenereren(segers,2010). 5.)Alletoegevoegdeinformatieronddetermendiedoordeeindgebruikerszijn georganiseerdengekoppeldaandeontologie,wordtdoorhetsysteemmeteenverwerkt indeannotatiesvandeoorspronkelijketeksten.indetekstannotatiewordtzonodigde betekenisgecorrigeerdvaneenterm;eenwieldateerstdoordewsd moduleverkeerd washerkendals voorwerpdatomeenasdraait methetontologischelabelartefact, staatnucorrectgenoteerdals klein,diepmeertjebijeendijk enhetontologischelabel Body_Of_Water. DeKnowledgeYieldingRobot(Kybot),kannuopbasisvanzoekprofielenalleinformatie uitdeteksthalendieaandezoekcriteriavoldoet.dezoekprofielenbestaanuit conceptuelerelatiesdiewordenuitgedruktineencombinatievanontologischeen morfo syntactischerelaties.eenzoekprofielgebruiktdaarbijdeontologischerelaties dievooriederetermindeverwerktetekstenzijnopgeslagen.hierdoorishetmogelijk omtezoekenopbetekenis;eenpatroonals[process]+[bird,patient]+[location]gaat indetekstenopzoeknaar: a.)termendieviahetdomeinwordnetzijngelinktaanhetconceptvogelindeontologie, bijvoorbeeldvogel,eend,trekvogelenbroeder; b.)processendievolgensdeontologieeenrelatiehebbenmettermendiehetconcept Vogeluitdrukken,waarbijdevogeldepatienskanzijnvanhetproces,bijvoorbeeld uitsterven,predatie,vervuiling; c.)alletermendievolgensdeontologiehetconceptlocatieuitdrukken,bijvoorbeeld Noordzeekust,wiel,beschermdgebied. d.)waarbijalletermendieaandezevoorwaardenvoldoeninelkaarsnabijheidstaan.de Kybotisdaarbijnietgebondenaandevoorwaardedatdetermenbinnenéénzinmoeten voorkomen. Degebruikershoevendezezoekprofielennietzelftemakenmaarkunneneenkort fragmentuiteendocumentselecterendathetsoortinformatiebevatwaarzenaarop zoekzijn.doorallemorfo syntactischeenontologischeinformatiedieinde tekstannotatieisopgeslagen,kanhetzoekprofieldanautomatischgegenereerdworden. 6.)Alleinformatiedieopbasisvaneenzoekprofielisgegenereerd,wordtopgeslagenin eenfactindexdatabase. 2 zie: www.sp2000.org

7.)Gebruikerskunnendezedatabaseraadplegenomsnelinformatietevindenover bepaaldeonderwerpenendirecteenlinkvolgennaardeoriginelevindplaatsvande informatie. IndevolgendeparagrafenwordendriecomponentenvanhetKyotosysteemuitvoeriger besproken:determextractie,dedomeinwordnetsendecentraleontologie. 4.Termextractie Traditioneelishetdoelvantermextractieomopbasisvaneendomeincorpuseenlijst mettermentevindendiespecifiekzijnvoorhetdomein.vervolgenskanernogmeer informatieoverdetermenwordenverzameld,zoalsderelatiestussendetermen.deze werkwijzeimpliceertechterdatertermenwordengenegeerdomdatzeniet domeinspecifiekzijn,terwijlzewéleenrolspeleninhetlexicaliserenvandomeinkennis. InKyotoiservoorgekozenomdenotiedomeinspecifiektevervangenvoor domeinrelevant.zoiseenwindturbineparknietdomeinspecifiekmaarwelrelevantvoor hetdomeinomdateenwindturbineparkeenverstorendeffectkanhebbenopde vogeltrek.dooreersttefocussenopdomeinrelevantetermenkaneenzocompleet mogelijkbeeldwordengecreëerdvanhetdomein.daarbijwordteendeelvande betekenisvaneentermgedefinieerddoorderelatiesdieeentermheeftmetandere termen.hetvindenvandezerelatiesisvoordetermextractiebinnenhetkyotoproject daaromminstenszobelangrijkalshettoekennenvandomeinrelevantiescores.zodra duidelijkiswatderelatieszijntussendetermen,ishetookmakkelijkeromdetermente voorzienvaneenrelevantiescore.nahettoekennenvanderelevantiescorekande omvangvandetermhiërarchieëndesgewenstwordengereduceerddoorhetbepalen vaneenthresholddiedetermenmetdelaagstescoreseruitfiltert. InKyotowordenverschillendeenniet taalspecifiekemethodenvoortermextractie gebruikt.hetinnoverendeelementhierbijisdatdeverschillendemethodenserieel wordentoegepastwaarbijderesultatenvanéénmethodewordendoorgegevenaande volgendeextractiemethode.opdezemanierblijkthetmogelijkomtermenenrelatieste vindendieopbasisvanéénmethodealleennietgevondenhaddenkunnenworden. Voorhetprocesvantermextractiebegint,zijndebronteksteneerstgetokeniseerd,zijn labelsvoorwoordsoorttoegekend,enzijndetekstenontleedopzinsniveauenvoorzien vanbetekenislabelsopwoordniveau.detoegekendebetekenissenbestaanuit identificatienummersdieverwijzennaareenofmeerderemogelijkebetekenisseninde algemenewordnets.dewsd modulediehierinvoorziet,zoektiederlemmaindetekst opinwordnetenbepaaltaandehandvanlemma sindedirecteomgevingdeafstand tussendebijbehorendesynsetsinhetwordnet.hoedichtertweepotentiële betekeniskandidatenbijelkaarstaan,destewaarschijnlijkerishetdatditinderdaadde juistebetekenissenzijnindetekst.deafstandtussendesynsets{beer}(zoogdier)en {reproductie}(voortplanting),isbijvoorbeeldkorterdandietussen{beer}(werktuig)en {reproductie}(kopie).aldezeinformatiewordtopgeslageninkyotoannotatieformaat envormthetstartpuntvandetaalonafhankelijketermextractie. Determextractieisonderverdeeldinzesopeenvolgendestappen: 1.Extractievanallekandidaattermen; 2.Morfo syntactischeanalysevoorhetvindenvanhiërarchischerelaties; 3.Patroongebaseerdeanalysevoorhetvindenvanhiërarchischeendeel/heelrelaties; 4.Distributionelestatistiekvoorhetvindenvanandere,nietvooraf gespecificeerderelaties 5.Bepalenvandedomeinrelevantiedoorhetafwegenvandegevondenrelaties tegendefrequentievaneentermbinnendedocumentcollectie;

6.Onderlingealignmentvanalletermhiërarchieënindezevenverschillende talenvoorhetvindenvannieuwepotentiëletermenenrelaties. Dezezesonderdelenvanhetextractieproceswordenindevolgendesubparagrafen verdertoegelicht. 4.1Extractievankandidaat termen Tweeessentiëlekenmerkenvanpotentiëletermenzijndateentermnaareenspecifiek conceptverwijstendatersyntactischerestrictieszijndiebepalenofeenwoordgroep welofnieteentermkandidaatkanvormen.destrategieisomineersteinstantiealle lemma senwoordgroepenteextraherendievoldoenaandesyntactische restrictiecriteria.zowordeninkyotoalleenverba,substantivaenadjectiva geëxtraheerdenmogenwoordgroepenmeteensubstantiefalshoofdbijvoorbeeldniet beginnenmeteenprepositieofeenconjunctie.hetresultaatvandezeeerstefasevan extractieiseenextensieveenplattelijstvantermendienietallemaaldomeinrelevant zullenzijn.dehogerecallgarandeertechterdatalletermendiebelangrijkzouden kunnenzijnvoorhetdomeinindelijstwordenopgenomen. Zowellemma salswoordgroepenwordengeselecteerdalstermkandidaat.delemma s wordenpergrammaticalecategorietoegevoegdaandelijstkandidaattermenenkrijgen eenverwijzingnaardevindplaatsvandezetermindedocumentcollectie.bijde multiwordunitswordtgrofwegdezelfdeproceduregevolgd,metditverschildatde unitsnupersyntactischecategorievandegroepwordeningedeeld.daarbijwordter eenextranormalisatietoegepastophethoofdvandemultiwordunitzodatagricultural policieswordtveranderdinagriculturalpolicy,maardatmigratingspeciesenmigrated specieswelalstweeverschillendetermkandidatenbehoudenblijven. 4.2Morfo syntactischeanalyse Termenhebbenvaakdevormvanmultiwordunitsensamenstellingenendeze structuurwordtinkyotogebruiktvoorhetafleidenvanhiërarchischerelatiestussende termen.vooriederemultiwordunitensamenstellingwordtgezochtnaardelangste eenheiddienogvoldoetaandesyntactischecriteriaomeentermtezijn.alser kandidaattermenzijndieminderelementenhebbendandeomvangrijksteeenheid,dan wordtdiegezienalseenminderspecifieketerm;tropicalterrestialspecieswordt opgeslagenalseenspecifiekeretermdanterrestialspeciesenspecies.dezelfdemethode istoegepastvoortalendiesamenstellingenkennen;aardwarmteisdaneenspecifiekere termdanwarmte.determenwarmteenspeciesvormenelkdetopvaneenkleine hiërarchieenzijngekoppeldaandesynsets{warmte}en{species}inhetalgemene EngelseenNederlandsewordnet. 4.3Patroongebaseerdeanalyse Demorfo syntactischeanalyseisgeschiktvoorhetvindenvaneendeelvande hiërarchischerelaties;doorhettoepassenvanpatroongebaseerdeanalyseishet mogelijkomextrahiërarchischeenmeronymierelatiestussendetermentevinden. Alsstartpuntvoordepatroongebaseerdeanalysewordenalletekstenuitde documentcollectiegebruikt.vervolgenswordtvooriederlemmauitdetekstbekekenof dezeisgekoppeldaanhetgeneriekewordnet.alshetdaaropvolgendelemmaindetekst ookeenkoppelingheeft,wordtbekekenofdezetweelemma seenalbestaande meronymieofis arelatiehebbeninwordnet.alsdatzois,wordtdeteksttussende lemma sopgeslagenalseenpotentieelpatroonvoordierelatie.opdiemanierzijn patronengevondendiekunnenwordengebruiktvoorhetvindenvanrelatiestussen nieuwetermen.eenfrequentpatroonvooreenhiërarchischerelatieals XzoalsY (vogelszoalseenden)kandanwordengebruiktomeenrelatietevindentussentwee termendienietinhetalgemenewordnetstaan:groenedakenzoalsgrasdaken. 4.4Distributionelestatistiek

Eenvolgendemanieromextrarelatiestussendetermentevinden,ishettoepassenvan distributionelestatistiek.deaannamevandezemethodeisdattermendieinelkaars contextstaan,opdeeenofanderewijzeaanelkaarzijngerelateerd.ditkaneenlineaire contextzijn(woordendiedirectronddetermstaan)eneensyntactischecontext;als martersenwildekattenvaakhetsubjectzijnvanpredatie,danisdateenindicatiedat dezetermengerelateerdzijn.vaakzijndezetermenco hyponiemenvanelkaar,dat betekentdatbeidetermeneenis arelatiehebbennaardezelfdeminderspecifieketerm indehiërarchie.destatistischemethodedievoordedistributievandetermenwordt gebruiktisdemutualinformationscore(hindle,1990),waarmeekanwordenberekend hoevaaktermeninelkaarscontextvoorkomeninverhoudingtothoevaakzelosvan elkaarvoorkomen.dezescoregeeftinformatieoverwelketermensterkaanelkaarzijn gerelateerdenwordtgebruiktommogelijkesynoniemenenco hyponiemenvoorde termentevinden.zie(bosma,2010)voordeformulesdiehiervoorwordengebruikt. 3.5Domeinrelevantie Naderelatieentermextractie,wordenalletermenvoorzienvaneenrelevantiescore. Eentermdiehoogineentermhiërarchiestaatenfrequentvoorkomtbinnende documentcollectie,krijgtdaarbijeenhogerelevantiescore.termendielaaginde hiërarchiestaan,maarweleengrotefrequentiehebben,scorenhogerdantermenmet eenvergelijkbarepositieeneenlagefrequentie.termendienietinhiërarchiestaan krijgeneenaangepastescoregebaseerdopalleenhunfrequentieinde documentcollectie.zie(bosma,2010)voordeformulesdiezijngebruiktvoorhet berekenenvandedomeinrelevantie. 3.6Alignmentmettermhiërarchieëninanderetalen DetermextractieinKyotowordttoegepastvoorzevenverschillendetalenop vergelijkbaredocumentcollecties.datopentperspectievenomdetermhiërarchieën voordeverschillendetalenaanelkaartekoppelenomzodetermstatusvande vergelijkbaretermentebevestigenenomtedetecterendatbepaaldetermstructurenin éénvandetalenontbreken.alletermendiedoordetermextractorzijngevonden, hebbeneendirecteofindirecterelatiemeteensynsetuithetalgemenewordnet.de wordnetsindeverschillendetalenzijnweeropsynsetniveaugekoppeldaanhetengelse wordnet.denederlandseterminvasievediersoortenhetspaanseespecieinvasora kunnenbijvoorbeeldaanelkaarwordengerelateerddoordathunhyperoniemdiersoort enespecieuitdegeneriekewordnetsbeideeenequivalentierelatiehebbenmethet Engelsespecies.VervolgensblijktdaterindeNederlandsetermstructuurooknogde termenexotischeinvasievediersoortenacquatischeinvasievediersoortbevat,endatook determstructureninanderetalenverdereonderverdelingenhebben.alsertermen ontbreken,kanhetzijndatdeconceptenwaardetermennaarverwijzenvooreen anderetaalnietbestaan,ofweldatdezetermentoevallignietbinnendetekstcollectie gevondenkunnenworden.indatgevalkanhetsysteembijdespaansetermespecie invasoraaangevendatermogelijkspecifiekeretermenbestaan. DeKyototermextractorisgeïmplementeerdinverschillendemodulesdie gebruiksvriendelijkopelkaaraansluitenenonderdeelzijnvaneengrotereketenvoor taal entekstverwerking(pipet) 3.Binnenditsysteemkunnen(externe)modulesen toolsdieinverschillendeprogrammeertalenzijngeschrevenmetelkaarsamenwerken. Voormeertechnischedetailsverwijzenwenaar(Bosma,2010b)endePipeTwebsite: (http://pipet.sf.net). 3 http://pipet.sf.net/

4.Ontologie EenvandebelangrijkstecomponentenvanhetKyotoplatformisdecentraleontologie diedebetekenisvandetermenindedomeinwordnetsverankert.eenontologieiseen formelespecificatievanbelangrijkeconceptenineendomeinenheeftdoorgaanseen hiërarchischestructuur:demeestabstracteconceptenstaanindetoplaagennaarmate mendehiërarchieaflooptwordendeconceptenconcreterenspecifieker. Ontologieënbestaaninallerleivormenenmatenenkunnenvariërenvanvrijkleinen domeinspecifiek(plantontology 4,FOAF 5 )totmiddelgroteontologieëndiealleeneen niet domeinspecifiekeenabstractetoplaagbeschrijven(dolce 6 )enomvangrijkeen algemeneontologieëndiezichrichtenopdetop enmiddenlaag(sumo 7,Cyc 8 ).Daarbij kunnenontologieënmeerofminderformeelzijnopgesteld;hoeexplicieterde semantiekvandeconceptenwordtbeschrevenindevormvanaxioma senrestricties, hoeformelerdeontologieis. Ontologieënwordenveelgebruiktomhetuitwisselenenverbindenvanheterogene gegevenstevergemakkelijken.alseenmuseumzijndigitalecollectiewilverbindenmet dievaneenanderinstituut,kaneendomeinontologiealsdecidoc CRM 9 worden gebruiktomdemetadatavanbeidecollectiesopelkaaraftestemmenencorrectmet elkaarteverbinden.daarbijisineenontologiegemodelleerdhoeconceptenalsschilder, KunstwerkenAfmetingmetelkaarzijngerelateerdwaardoorduidelijkwordtdat AfmetingbinnenditdomeinalleenkanwordengebruiktvooreenKunstwerkenniet vooreenkunstenaar.inkyotowordtdeontologiegebruiktomdebetekenisvan domeinsynsetsuitverschillendetalenteverankeren,enookindezetoepassingmaakt dathetuitwisselenendelenvanterminologieeninformatiegemakkelijker. Hetisbelangrijkomtebenadrukkendateenontologieuitconceptenbestaat.Doorgaans wordenerwoordenalsprocesofartefactgebruiktvoordeconcepten,maardeze moetengezienwordenalslabelswaardoorhetvoormensenmakkelijkeristebegrijpen waterstaat.computerswerkenopbasisvandeaxioma senrestrictiesineenontologie. IndiezinkunnendelabelsProcesenArtefactevengoedwordenvervangendoorcijfers; aandebetekenisvandeconceptenzaldatnietsveranderen.metdeaxioma sen restrictieskaneencomputervervolgensverschillendeeleganteredeneringenuitvoeren waarbijdeductieenhetoverervenvaneigenschappenvoorhetkyoto projecthet belangrijkstzijn: Deductie: Als[Wintertaling]eensubklasse(=specifiekerconcept)isvan[Eend],en[Eend] iseensubklassevan[vogel],danis[wintertaling]ookeen[vogel]. Top downoverervenvaneigenschappen: Alseen[Vogel]deeigenschap heeftveren heeft,en[eend]iseensubklassevan [Vogel],danheefteen[Eend]ookdeeigenschap heeftveren. Maar: Als[Eend]deeigenschap kanvliegen heeft,en[vogel]iseensuperklasse (=minderspecifiekconcept)van[eend],danheeftvogelnietdeeigenschap kanvliegen. 4 zie: www.plantontology.org 5 zie: www.foaf-project.org 6 zie: www.loa-cnr.it/ontologies 7 zie: http://sigma.ontologyportal.org:4010/sigma/browse.jsp?kb=sumo om online in deze ontologie te kunnen zoeken op basis van Engelse synsets die aan deze ontologie gekoppeld zijn. 8 zie: http://cyc.com/ 9 zie: www.cidoc-crm.org

Omdateigenschappenovererven,wordenzetoegevoegdaandatconceptindeontologie dathetmeestalgemeneconceptisdatdieeigenschapnogkanhebben.datheeftals voordeeldatjeeeneigenschapnietvooriedereklasseopnieuwhoefttedefiniëren.voor redeneersystemenheeftdatalsvoordeeldatzeminderinformatiehoeventeverwerken endaardoorsnellerzijn. IndecontextvanKyotoisditredenerenopbasisvaneenontologievanwezenlijkbelang omdateenzoeksysteemnuweetdatdewintertalingenuithetvoorbeeldinparagraaf1 eensoorteendenzijn.meteenontologieisdiekennisformeelvastteleggenenkan allerleiinformatieautomatischwordenafgeleid,bijvoorbeelddateenwintertalingveren heeftenkanvliegen. 4.1DeKyotoontologie DeKyotoontologieisopgebouwduitdrieverschillendelagenenteltintotaal1133 conceptenen332formelerelatiestussendezeconcepten.detoplaagisdemeest abstractelaagvandeontologieenisgebaseerdopdedolceontologie(masolo,2003). IndezelaagbevindenzichconceptenalsEntiteit,EigenschapenKwantiteit. DemiddenlaagisgevormduitdeBasisConcepten;ditzijnsynsetsuithetEngelse wordnetdiedemeestbelangrijkeknooppuntenendusconcepteninhetwordnet representeren(izquierdo,2007).demeestesynsetsineenwordnethebbenminimaal éénrelatienaareenanderesynset;sommigesynsetshebbenerechterbeduidendmeer. Doordeboomstructuurvanhetwordnetvanbovennaarbenedenaftelopen,kanper takvandeboomwordenberekendwelkesynsetszeerveelrelatieshebbenendaarmee alseenbelangrijkknooppuntfungerenindehiërarchie.dezesynsetszijnopgenomenin deniet domeinspecifiekemiddenlaagvandeontologieenvervolgensgekoppeldaande oorspronkelijkesynsetsinhetengelsewordnetenaanalleequivalentesynsetsinde anderealgemenewordnets.debelangrijksteknooppuntenindewordnetszijndaarmee algelijkvoorzienvaneenontologischlabel.debasisconceptenspeleneenbelangrijke rolindekoppelingvandomeinsynsetsaandecentraleontologie.(zieparagraaf4.3). Conceptenuitdezeniet domeinspecifiekemiddenlaagvandeontologiezijn bijvoorbeeldartefact,voedselenmeubelstuk. Dederdelaagvandeontologieisdomeinspecifiek;hierinstaanconceptendiedoorde milieukundigenzijngeselecteerdopdomeinrelevantieenbestaatuitconceptenals Biodiversiteit,Commerciële_VisserijenIrrigatie. DeKyotoontologieisbewustkleingehouden;zostaaterbijvoorbeeldslechtseenzeer kleineselectievandebijna2miljoenbekendedier enplantensoortenindeontologie. Eengoederedenomnietallesoortenoptenemenisvooralvanpraktischeaard:geen enkelredeneersysteemkanopditmomentmetzo ngroteontologieomgaan. Belangrijkernogisdathetooknietnodigisomallesoortenenhuneigenschappenin eenontologieoptenemenomdatdevakexpertszijngespecialiseerdinde wetenschappelijkekenmerkenvansoorten,endiekenmerkenzullentussenenculturen nietverschillen.soortenkennisisbovendienookniethetsoortinformatiewaarzijnaar opzoekgaaninhundocumentatie;belangrijkerishetvoorhenomtewetendater soortenzijndiebepaaldedingendoenofondergaanenwatdatbetekentvoorhet leefmilieu.omdievragentekunnenbeantwoorden,volstaateenkleinelaaginde ontologievandier enplantensoortenwaarinvrijalgemeneconceptenstaanbeschreven alseend,kikkerenmos.vanuithetwordnetkunnendandesgewenstallerleispecifieke eendensoortenalswintertalingaanhetconcepteendindeontologiewordengelinkt.zo kandanindetekstwordenteruggevondendateenwintertalingeeneendis,zonderdat hetconceptwintertalingindeontologiestaat. 4.2Domeinwordnets VoorallezeventaleninhetKyotoproject(Engels,Nederlands,Spaans,Baskisch, Italiaans,JapansenChinees)wordentermstructurengemaaktdiehetstartpuntvormen