Kyoto:multilingualeterminologieopbasisvan Wordnets RoxaneSegers 1,WauterBosma 2,PiekVossen 2 1FaculteitExacteWetenschappen,VrijeUniversiteitAmsterdam 2FaculteitderLetteren,VrijeUniversiteitAmsterdam Samenvatting HetKyotoprojectontwikkelteenplatformwaarmeedomeinexpertsuitverschillende taalgebiedenhunkennisenterminologiekunnendelenenspecificeren.omdeuitwisselingvan cultuurspecifiekekennismogelijktemaken,iserinhetprojecteensysteemontworpenwaarmee domeinexpertsvoorverschillendetalendomeinwordnetskunnenmaken.dezedomeinwordnets zijnaanelkaarverbondendoordetermenindezewordnetstekoppelenaanééngedeeldeen taalonafhankelijkeontologie.dedomeinwordnetsendeontologiewordenvervolgensgebruikt omnaarspecifiekeinformatieintekstentezoekenwaarbijdegebruikerdekeuzeheeftom vergelijkbaregegevenstevindeninverschillendetalen.hetkyotoprojectrichtzichophet mileudomeinenontwikkelthetplatformvoorhetengels,nederlands,spaans,baskisch,italiaans, JapansenChinees. 1.Inleiding HetdoelvanhetKyotoproject 1 (2008 2011)isomeenonlineengebruiksvriendelijk platformteontwikkelendatdoordomeinexpertsuitverschillendetaalgebiedenkan wordengebruiktvoorhetorganiserenendelenvanvakkennis,gebaseerdopdetermen diebinnenhetdomeineenbelangrijkerolspelen.hetplatformbiedtdaarnaasttoegang totuitgebreidetekstcollectiesdiesemantischdoorzochtkunnenworden;datbetekent daternietalleenopeentermgezochtkanworden,maarookopspecifiekerelaties tussentermen,bijvoorbeeldtussenbeheersmaatregel,grotegrazersenafschot. AchterdetermorganisatieenzoekfunctionaliteitenvanhetKyotoplatformgaateen omvangrijkearchitectuurschuilwaarintweecomponenteneencentralerolspelen.de eerstecomponentindearchitectuurzijndedomeinwordnetsdievoorzeventalen wordenontwikkeld.eenwordnetiseensemantischlexiconwaarbijwoordendie hetzelfdeconceptuitdrukkeneensynsetvormen.dezesynsetszijnvervolgensaan elkaarverbondendoorverschillendesemantischerelatieswaarvandehiërarchischeis a relatiedebelangrijksteis.desynset{vis}bijvoorbeeld,heefteenis aof hyperoniemrelatietot{organisme}eneenheeft deel relatietot{kieuw}.ineen domeinwordnetwordtvolgensdezelfdeprincipesdeterminologievaneenbepaald vakgebiedbeschreven.hetdomeinwordnetstaatnietopzichzelf,maarwordtalseen extensieverbondenmethetgeneriekewordnetvandedesbetreffendetaal.daardoor profiteerthetdomeinwordnetvanalleconceptendieinhetgeneriekewordnetal beschrevenzijn. EentweedebelangrijkecomponentuitdeKyoto architectuurisdeontologie.een ontologieisteomschrijvenalseenformeleentaalonafhankelijkespecificatievan conceptenineenbepaalddomein(studer,1998).ookeenontologieishiërarchisch gemodelleerd,maaronderscheidtzichvaneenwordnetdoordatdeorganisatievande conceptenlosstaatvanofenhoezeineentaalwordengelexicaliseerd.ineen 1 KYOTO (acroniem van Knowledge Yielding Ontologies for Transition-based Organisation) is een Europees- Aziatisch project gefinancierd door de EU onder projectnummer 211423 in het 7 de Framework in the area of Digital Libraries: FP7-ICT-2007-1, Objective ICT-2007.4.2: Intelligent Content and Semantics. Zie ook: http://www.kyoto-project.eu voor meer informatie en de laatste demo s.
(domein)wordnetwordensynsetsgeorganiseerdzoalszeineentaalworden geconceptualiseerd;hetengelseofchinesewordnetheeftdaardooreenandere organisatievandesynsetsdanhetnederlandsewordnet.eenvoorbeeldvaneen verschillendeorganisatievansynsetsinhetengelseennederlandsewordnetishet Engelsecontainerwaarsynsetsonderhangenalsspoon,envelopeenrefrigirator.Inhet NederlandsbestaatgeenequivalentvanhetEngelsecontainerwaardoorlepel,envelop enkoelkastinhetnederlandsewordnetgeensemantischegroepvormen,maarelkop verschillendeplaatsenindehiërarchiestaan.ineenontologiedaarentegenkunnen conceptueleonderscheidingenenovereenkomstenexplicietentaalonafhankelijk wordengemodelleerd.doordesynsetsuitdeverschillende(domein)wordnetsniet rechtstreeksaanelkaarmaarviaeenonafhankelijkeontologiemetelkaarteverbinden, ontstaatereennetwerkmetexplicieteenformelerelatieswaarinprecieskanworden uitgedrukthoeeensynsetmeteenconceptuitdeontologieenmetsynsetsinandere domeinwordnetsverbondenis. DearchitectuurvanhetKyotoplatformisontwikkelddoortechnicientaalkundigen maarwordtingebruikgenomendoordomeinspecialisten.datbetekentdat domeinspecialistenookzelfhunterminologiebeschrijven.indevisievanhet Kyotoprojectzijndegebruikersvanhetplatformexpertsinhuneigenvakterminologie maarontbreekthethenaandemiddelenomdezezelftebeschrijvenenteonderhouden. HetKyotoplatformbiedtdearchitectuurendehulpmiddelenwaarmeevakexpertshun terminologiezelfkunnenbeschrijven.omditprocestefaciliteren,zijnerdiverse ondersteunendecomponenteninhetplatformopgenomenzoalseenontologie, geëxtraheerdetermlijstenvoorhetvormenvandedomeinwordnets,eneen editomgevingwaarindetermenkunnenwordengeorganiseerdenbeschreven. Degebruikersvanhetplatformbeschrijvenhunterminologiemeteenspecifiekdoel, namelijkhetdelenvaninformatieenhetsemantischdoorzoekenvanvaktekstenop relevanteinformatie.voorelketermdieeenvakspecialisttoevoegtaanhet domeinwordnet,geldtdatermeteennaarspecifiekeinformatieronddezetermgezocht kanworden.indiezinwordtdegebruikermeteenvoorzijninspanningbeloonddoordat hijdirectbeterezoekresultatenterugkrijgt. Ditartikelisverderalsvolgtgeorganiseerd:inparagraaftweebeschrijvenweaande handvanvoorbeeldenuithetmilieudomeinhetbelangvaneenintelligentzoeksysteem datkanzoekenopbetekenisenrelaties.inparagraafdriepresenterenwedealgemene architectuurvanhetkyotoplatformeninparagraafvierenvijfgaanweinop respectievelijkdriecomponentenvandearchitectuur,tewetendetermextractie,de domeinwordnetsendecentraleontologie.inparagraafzesbeschrijvenwedemanier waaropinkyotosemantischkanwordengezocht.inparagraafachtbesluitenwemet enigealgemeneopmerkingenoverdestatusvandekyotoprojecten architectuur. 2.Multilingualeterminologieensemantischzoeken Dedagelijksepraktijkvanexpertsinhetmilieudomeinbestaatuithetverzamelenvan gegevensenhetschrijvenvanbeleids enaanbevelingsrapporten.informatiekomt steedsvakerbeschikbaarviagedigitaliseerdetekstdocumenten,maarombijvoorbeeld complexevragenrondomdebiodiversiteitineenbepaalderegiotebeantwoorden,zijn talvangegevensnodigdieuitverschillendedocumentenmoetenwordenbetrokken. Domeinexpertswordendaardoorgeconfronteerdmethetbekendeprobleemdat gegevensmetdebeschikbarezoeksystemenmoeilijktevindenzijn.eeninventarisvan demanierwaaropdedomeinexpertsaangeventewillenzoeken,maaktduidelijkwaar demeestesystemennietinkunnenvoorzien. BetekenisgerichtzoekenDemeestebeschikbarezoeksystemenzoekenopvormen nietopdebetekenisvandeopgegevenzoektermen.wiebijvoorbeeldbinneneen
tekstcollectieofophetinternetopzoekgaatnaarinformatieoverdepopulatiewilde eendeninnederland,krijgtalleenresultatenterugwaarindezezoekwoorden voorkomen.relevantedocumentenwaarinwordtgesprokenoverwintertalingenen Gelderland,wordenalleengevondenalsdeopgegevenzoekwoordenindecontextstaan. Overhetalgemeenbeschikkenzoeksystemennietoverdekennisdateenwintertaling eensoorteendis,waardoorrelevanteinformatienietoftoevalligwordtgevonden.een zoeksysteemdatnietzoektopvormmaaropbetekenis,kandezeinformatiewélvinden. RelationeelzoekenEenanderproblematischaspectisdatderelatietussende zoektermennietkanwordengespecificeerdindezoekopdrachtwaardoorde zoekresultatenveelirrelevantegegevensopleveren.wieinformatiezoektoverziektes diebedreigendzijnvoorvleermuizen,kandezespecifiekerelatietussendetermenniet opgeven.hetzoekresultaatgeefttekstenterugwaardezetermeninvoorkomen,maar eengrootgedeeltezalgaanoverbedreigendeziektesdievleermuizenopmensen kunnenoverbrengen. VolledigeindexeringEenderdeprobleemisdatveelzoeksystemenwebpagina sen documentennietvolledigindexeren.eenzoekmachinealsgooglegebruiktslechtseen deelvandewebsiteendedaarbeschikbaredocumentenvoorzijnzoekindex.watniet wordtgeïndexeerdkanooknietwordengevonden.daarbijzijndezoekresultaten gerangschiktophetaantalin enuitgaandelinksvaneenwebpagina.opdiemanierkan eendocumentzonderlinksmaarmetrelevanteinformatieopeenpositieindelijst zoekresultatenbelandenwaarniemandmeerkijkt.meteenplatformalskyotokunnen gebruikersallebelangrijkeenrelevantedocumentatieuploadenendezewordtook volledigdoorhetzoeksysteemverwerkt.zoekresultatenwordenvervolgensgeordend opinhoudelijkerelevantieennietoppopulariteit. MultilingualiteitZoeksystemenhebbenbeperktemogelijkhedentotmultilinguaal zoeken.juistditmultilingualeaspectisvoormilieukundigenvangrootbelangomdathet domeininternationaalgeoriënteerdis;beschermingsmaatregelendieinspanje succesvolzijngebleken,kunnenookopgelijksoortigesituatiesinnederlandworden toegepast.daarnaasthoudteenecosysteemnietopbijdelandsgrens,waardoor samenwerkingenhetuitwisselenvaninformatietussenverschillendelanden onontbeerlijkzijnvoormilieuorganisaties.ominanderstaligedocumententekunnen zoeken,moeteendomeinexpertzijnterminologiewelkunnenvertalennaardecorrecte termindedoeltaal.opdatpuntontstaanalsnelproblemenomdateendeelvande termeninhetmilieudomeinzeertaal encultuurspecifiekis.zoheefthetnederlands eenuitgebreideterminologievoorwaterbeheersingzoalsinlaag,wielenkwelwaterdie nietofmoeilijkvertaalbaarzijnomdathetconceptwaardetermnaarverwijstinandere taalnietbekendis.daarnaastkaneenbepaaldconceptwelbekendzijn,maariserineen anderetaalsprakevanbetekenisspecialisatieof generalisatiebijdelexicalisatevanhet concept.zogebruikthetengelsdetermhostvoorzoweldierenalsplantendieals gastheerkunnendienenvooreenanderesoort.inhetnederlandswordtgastheer doorgaansexclusiefvoordierengebruiktenbestaatdetermwaardplantspecifiekvoor plantendiealsgastheeroptreden. DomeinkennisTermenzijndedragersvanvakkennisbinneneendomeinenspelen ookvoormilieuorganisatieseenbelangrijkerolbijhetzoekennaarinformatie.een complicerendefactorhierbijisdatmilieuterminologieveelwoordenuitdealgemene taalbevatwaareendomeinspecifiekerolaanwordttoegekend.zowordensnelwegen gezienalseenmigratieobstructievoorbepaaldediersoortenenfungerenwolvenonder anderealsbiodiversiteitsindicator.indebestaandezoeksystemenishetmogelijkomte zoekennaarbiodiversiteitsindicatoren,maarnietnaarwieofwatdezerolkanvervullen. Eenzoeksysteemdatopbetekenisenrelatieskanzoeken,heeftdaaromook domeinspecifiekekennisnodigomdezerelatietekunnenleggen. Kyotoprojectbiedteenplatformwaarmeedomeinexpertsdocumentenenterminologie kunnenonderbrengentenbehoevevaneenzoeksysteemwaarmeemultilinguaalenop
domeinspecifiekebetekeniskanwordengezocht.omdatmogelijktemaken,iseen uitgebreidearchitectuurontworpendieindevolgendeparagrafenverderwordt toegelicht. 3.DearchitectuurvanhetKyotoplatform DearchitectuurvanhetKyotoplatformwordtindezeparagraafstapsgewijsuitgelegd aandehandvanfiguur1datdeverschillendecomponentenvanhetplatformtoontin hunonderlingverband.hetgrootstegedeeltevankyotoarchitectuurdraaitoverigensop deachtergrondenblijftgeheelonzichtbaarvoordeeindgebruikerdiedaardoorzomin mogelijkgeconfronteerdwordtmetdetechnischeonderdelenvanhetplatform. Fig.1:ArchitectuurvanhetKyotoplatform 1.)Dedocumentenwordendoordegebruikersaangeleverd.Voordeinvullingvanhet KyotoplatformvoorhetmilieudomeinhebbendeorganisatiesWWFenECNC documentcollectieaangelegdinzevenverschillendetalen.dezedocumentcollectieis nietstatisch,maarkanopiedermomentdoordegebruikerverderwordenaangevuld. 2.)HetKyotosysteemverwerktdetekstendiezijnaangeleverdinPDFenHTMLtothet KyotoAnnotationFormat(KAF)(Bosma,2009),eenverdereuitwerkingvanhetLAF formaat(ide,2003)datgeschiktisgemaaktvoordiepeentaalonafhankelijke syntactischeensemantischetekstannotatie.aanhetbeginvandecycluswordende tekstenindeverschillendetalensyntactischontleed;voordenederlandseteksten wordtdaarvoordealpinoparser(bouma,2000)gebruikt.onafhankelijkvandetaalen degebruikteparserwordendewoordsoort,demultiwordsendedependentiesop dezelfdewijzeindetekstengecodeerd.nahetontledengaandetekstendooreen taalonafhankelijkewordsensedisambiguation(wsd)module(agirre,2009;agirre, 2010),dievooralleverba,substantivaenadjectivadebetekenisvoorspeltopbasisvan synsetsuithetgeneriekewordnet.bijiederevolgendestapindekyotocycluswordener meerannotatielagenaandetekstentoegevoegd.
3.)Degeannoteerdetekstenwordengebruiktvoordetermextractie.Omdatalleteksten nahetontledenopdezelfdewijzezijngestructureerdengecodeerd,ishetmogelijkom determextractietaalonafhankelijktehouden.hetdoelvandetermextractorisomalle relevantetermenvoorhetdomeinuitdetekstentehalenendezepertaalinkleine hiërarchieënopteslaan.omdatdetekstennogvóórdeextractiedooreenwsd module gaan,ishetmogelijkomeendeelvandetermhiërarchieënmeteentekoppelenaaneen albestaandesynsetinhetgeneriekewordnetvandedesbetreffendetaal.hierdoorstaan deuiteindelijkedomeinwordnetsdiemetdezetermhiërarchieënwordengeconstrueerd, inverbindingmetdegeneriekewordnetsenprofiterenzovanallekennisdiedaarreeds aanwezigis. 4.)Degeëxtraheerdetermhiërarchieënwordensamenmetreedsbestaande domeinspecifiekethesaurialsdespecies2000 2 aandeeindgebruikergepresenteerdin eenspecialeeditomgeving,dewikyoto(ronzano,2010).indezeapplicatiekunnende gebruikersdeverzameldetermenverderorganiserenenonderhouden.indewikyoto vindtookdekoppelingplaatsvandetermenaandeontologie.dekyotoontologie bestaatuiteenalgemeenendomeinspecifiekgedeelteenisinsamenspraakmet domeinexpertsontwikkeld.hetkoppelenvansynsetsaaneenontologieisdoorgaans werkvoorspecialisten;indewikyotoeditomgevingwordthetkiezenvanhetjuiste conceptindeontologievolledigbegeleiddooreenaantalsimpeleja/nee vragente stellenaandedomeinexperts.opbasisvandezeantwoordenkanhetsysteem automatischdejuistekoppelingenrelatiesgenereren(segers,2010). 5.)Alletoegevoegdeinformatieronddetermendiedoordeeindgebruikerszijn georganiseerdengekoppeldaandeontologie,wordtdoorhetsysteemmeteenverwerkt indeannotatiesvandeoorspronkelijketeksten.indetekstannotatiewordtzonodigde betekenisgecorrigeerdvaneenterm;eenwieldateerstdoordewsd moduleverkeerd washerkendals voorwerpdatomeenasdraait methetontologischelabelartefact, staatnucorrectgenoteerdals klein,diepmeertjebijeendijk enhetontologischelabel Body_Of_Water. DeKnowledgeYieldingRobot(Kybot),kannuopbasisvanzoekprofielenalleinformatie uitdeteksthalendieaandezoekcriteriavoldoet.dezoekprofielenbestaanuit conceptuelerelatiesdiewordenuitgedruktineencombinatievanontologischeen morfo syntactischerelaties.eenzoekprofielgebruiktdaarbijdeontologischerelaties dievooriederetermindeverwerktetekstenzijnopgeslagen.hierdoorishetmogelijk omtezoekenopbetekenis;eenpatroonals[process]+[bird,patient]+[location]gaat indetekstenopzoeknaar: a.)termendieviahetdomeinwordnetzijngelinktaanhetconceptvogelindeontologie, bijvoorbeeldvogel,eend,trekvogelenbroeder; b.)processendievolgensdeontologieeenrelatiehebbenmettermendiehetconcept Vogeluitdrukken,waarbijdevogeldepatienskanzijnvanhetproces,bijvoorbeeld uitsterven,predatie,vervuiling; c.)alletermendievolgensdeontologiehetconceptlocatieuitdrukken,bijvoorbeeld Noordzeekust,wiel,beschermdgebied. d.)waarbijalletermendieaandezevoorwaardenvoldoeninelkaarsnabijheidstaan.de Kybotisdaarbijnietgebondenaandevoorwaardedatdetermenbinnenéénzinmoeten voorkomen. Degebruikershoevendezezoekprofielennietzelftemakenmaarkunneneenkort fragmentuiteendocumentselecterendathetsoortinformatiebevatwaarzenaarop zoekzijn.doorallemorfo syntactischeenontologischeinformatiedieinde tekstannotatieisopgeslagen,kanhetzoekprofieldanautomatischgegenereerdworden. 6.)Alleinformatiedieopbasisvaneenzoekprofielisgegenereerd,wordtopgeslagenin eenfactindexdatabase. 2 zie: www.sp2000.org
7.)Gebruikerskunnendezedatabaseraadplegenomsnelinformatietevindenover bepaaldeonderwerpenendirecteenlinkvolgennaardeoriginelevindplaatsvande informatie. IndevolgendeparagrafenwordendriecomponentenvanhetKyotosysteemuitvoeriger besproken:determextractie,dedomeinwordnetsendecentraleontologie. 4.Termextractie Traditioneelishetdoelvantermextractieomopbasisvaneendomeincorpuseenlijst mettermentevindendiespecifiekzijnvoorhetdomein.vervolgenskanernogmeer informatieoverdetermenwordenverzameld,zoalsderelatiestussendetermen.deze werkwijzeimpliceertechterdatertermenwordengenegeerdomdatzeniet domeinspecifiekzijn,terwijlzewéleenrolspeleninhetlexicaliserenvandomeinkennis. InKyotoiservoorgekozenomdenotiedomeinspecifiektevervangenvoor domeinrelevant.zoiseenwindturbineparknietdomeinspecifiekmaarwelrelevantvoor hetdomeinomdateenwindturbineparkeenverstorendeffectkanhebbenopde vogeltrek.dooreersttefocussenopdomeinrelevantetermenkaneenzocompleet mogelijkbeeldwordengecreëerdvanhetdomein.daarbijwordteendeelvande betekenisvaneentermgedefinieerddoorderelatiesdieeentermheeftmetandere termen.hetvindenvandezerelatiesisvoordetermextractiebinnenhetkyotoproject daaromminstenszobelangrijkalshettoekennenvandomeinrelevantiescores.zodra duidelijkiswatderelatieszijntussendetermen,ishetookmakkelijkeromdetermente voorzienvaneenrelevantiescore.nahettoekennenvanderelevantiescorekande omvangvandetermhiërarchieëndesgewenstwordengereduceerddoorhetbepalen vaneenthresholddiedetermenmetdelaagstescoreseruitfiltert. InKyotowordenverschillendeenniet taalspecifiekemethodenvoortermextractie gebruikt.hetinnoverendeelementhierbijisdatdeverschillendemethodenserieel wordentoegepastwaarbijderesultatenvanéénmethodewordendoorgegevenaande volgendeextractiemethode.opdezemanierblijkthetmogelijkomtermenenrelatieste vindendieopbasisvanéénmethodealleennietgevondenhaddenkunnenworden. Voorhetprocesvantermextractiebegint,zijndebronteksteneerstgetokeniseerd,zijn labelsvoorwoordsoorttoegekend,enzijndetekstenontleedopzinsniveauenvoorzien vanbetekenislabelsopwoordniveau.detoegekendebetekenissenbestaanuit identificatienummersdieverwijzennaareenofmeerderemogelijkebetekenisseninde algemenewordnets.dewsd modulediehierinvoorziet,zoektiederlemmaindetekst opinwordnetenbepaaltaandehandvanlemma sindedirecteomgevingdeafstand tussendebijbehorendesynsetsinhetwordnet.hoedichtertweepotentiële betekeniskandidatenbijelkaarstaan,destewaarschijnlijkerishetdatditinderdaadde juistebetekenissenzijnindetekst.deafstandtussendesynsets{beer}(zoogdier)en {reproductie}(voortplanting),isbijvoorbeeldkorterdandietussen{beer}(werktuig)en {reproductie}(kopie).aldezeinformatiewordtopgeslageninkyotoannotatieformaat envormthetstartpuntvandetaalonafhankelijketermextractie. Determextractieisonderverdeeldinzesopeenvolgendestappen: 1.Extractievanallekandidaattermen; 2.Morfo syntactischeanalysevoorhetvindenvanhiërarchischerelaties; 3.Patroongebaseerdeanalysevoorhetvindenvanhiërarchischeendeel/heelrelaties; 4.Distributionelestatistiekvoorhetvindenvanandere,nietvooraf gespecificeerderelaties 5.Bepalenvandedomeinrelevantiedoorhetafwegenvandegevondenrelaties tegendefrequentievaneentermbinnendedocumentcollectie;
6.Onderlingealignmentvanalletermhiërarchieënindezevenverschillende talenvoorhetvindenvannieuwepotentiëletermenenrelaties. Dezezesonderdelenvanhetextractieproceswordenindevolgendesubparagrafen verdertoegelicht. 4.1Extractievankandidaat termen Tweeessentiëlekenmerkenvanpotentiëletermenzijndateentermnaareenspecifiek conceptverwijstendatersyntactischerestrictieszijndiebepalenofeenwoordgroep welofnieteentermkandidaatkanvormen.destrategieisomineersteinstantiealle lemma senwoordgroepenteextraherendievoldoenaandesyntactische restrictiecriteria.zowordeninkyotoalleenverba,substantivaenadjectiva geëxtraheerdenmogenwoordgroepenmeteensubstantiefalshoofdbijvoorbeeldniet beginnenmeteenprepositieofeenconjunctie.hetresultaatvandezeeerstefasevan extractieiseenextensieveenplattelijstvantermendienietallemaaldomeinrelevant zullenzijn.dehogerecallgarandeertechterdatalletermendiebelangrijkzouden kunnenzijnvoorhetdomeinindelijstwordenopgenomen. Zowellemma salswoordgroepenwordengeselecteerdalstermkandidaat.delemma s wordenpergrammaticalecategorietoegevoegdaandelijstkandidaattermenenkrijgen eenverwijzingnaardevindplaatsvandezetermindedocumentcollectie.bijde multiwordunitswordtgrofwegdezelfdeproceduregevolgd,metditverschildatde unitsnupersyntactischecategorievandegroepwordeningedeeld.daarbijwordter eenextranormalisatietoegepastophethoofdvandemultiwordunitzodatagricultural policieswordtveranderdinagriculturalpolicy,maardatmigratingspeciesenmigrated specieswelalstweeverschillendetermkandidatenbehoudenblijven. 4.2Morfo syntactischeanalyse Termenhebbenvaakdevormvanmultiwordunitsensamenstellingenendeze structuurwordtinkyotogebruiktvoorhetafleidenvanhiërarchischerelatiestussende termen.vooriederemultiwordunitensamenstellingwordtgezochtnaardelangste eenheiddienogvoldoetaandesyntactischecriteriaomeentermtezijn.alser kandidaattermenzijndieminderelementenhebbendandeomvangrijksteeenheid,dan wordtdiegezienalseenminderspecifieketerm;tropicalterrestialspecieswordt opgeslagenalseenspecifiekeretermdanterrestialspeciesenspecies.dezelfdemethode istoegepastvoortalendiesamenstellingenkennen;aardwarmteisdaneenspecifiekere termdanwarmte.determenwarmteenspeciesvormenelkdetopvaneenkleine hiërarchieenzijngekoppeldaandesynsets{warmte}en{species}inhetalgemene EngelseenNederlandsewordnet. 4.3Patroongebaseerdeanalyse Demorfo syntactischeanalyseisgeschiktvoorhetvindenvaneendeelvande hiërarchischerelaties;doorhettoepassenvanpatroongebaseerdeanalyseishet mogelijkomextrahiërarchischeenmeronymierelatiestussendetermentevinden. Alsstartpuntvoordepatroongebaseerdeanalysewordenalletekstenuitde documentcollectiegebruikt.vervolgenswordtvooriederlemmauitdetekstbekekenof dezeisgekoppeldaanhetgeneriekewordnet.alshetdaaropvolgendelemmaindetekst ookeenkoppelingheeft,wordtbekekenofdezetweelemma seenalbestaande meronymieofis arelatiehebbeninwordnet.alsdatzois,wordtdeteksttussende lemma sopgeslagenalseenpotentieelpatroonvoordierelatie.opdiemanierzijn patronengevondendiekunnenwordengebruiktvoorhetvindenvanrelatiestussen nieuwetermen.eenfrequentpatroonvooreenhiërarchischerelatieals XzoalsY (vogelszoalseenden)kandanwordengebruiktomeenrelatietevindentussentwee termendienietinhetalgemenewordnetstaan:groenedakenzoalsgrasdaken. 4.4Distributionelestatistiek
Eenvolgendemanieromextrarelatiestussendetermentevinden,ishettoepassenvan distributionelestatistiek.deaannamevandezemethodeisdattermendieinelkaars contextstaan,opdeeenofanderewijzeaanelkaarzijngerelateerd.ditkaneenlineaire contextzijn(woordendiedirectronddetermstaan)eneensyntactischecontext;als martersenwildekattenvaakhetsubjectzijnvanpredatie,danisdateenindicatiedat dezetermengerelateerdzijn.vaakzijndezetermenco hyponiemenvanelkaar,dat betekentdatbeidetermeneenis arelatiehebbennaardezelfdeminderspecifieketerm indehiërarchie.destatistischemethodedievoordedistributievandetermenwordt gebruiktisdemutualinformationscore(hindle,1990),waarmeekanwordenberekend hoevaaktermeninelkaarscontextvoorkomeninverhoudingtothoevaakzelosvan elkaarvoorkomen.dezescoregeeftinformatieoverwelketermensterkaanelkaarzijn gerelateerdenwordtgebruiktommogelijkesynoniemenenco hyponiemenvoorde termentevinden.zie(bosma,2010)voordeformulesdiehiervoorwordengebruikt. 3.5Domeinrelevantie Naderelatieentermextractie,wordenalletermenvoorzienvaneenrelevantiescore. Eentermdiehoogineentermhiërarchiestaatenfrequentvoorkomtbinnende documentcollectie,krijgtdaarbijeenhogerelevantiescore.termendielaaginde hiërarchiestaan,maarweleengrotefrequentiehebben,scorenhogerdantermenmet eenvergelijkbarepositieeneenlagefrequentie.termendienietinhiërarchiestaan krijgeneenaangepastescoregebaseerdopalleenhunfrequentieinde documentcollectie.zie(bosma,2010)voordeformulesdiezijngebruiktvoorhet berekenenvandedomeinrelevantie. 3.6Alignmentmettermhiërarchieëninanderetalen DetermextractieinKyotowordttoegepastvoorzevenverschillendetalenop vergelijkbaredocumentcollecties.datopentperspectievenomdetermhiërarchieën voordeverschillendetalenaanelkaartekoppelenomzodetermstatusvande vergelijkbaretermentebevestigenenomtedetecterendatbepaaldetermstructurenin éénvandetalenontbreken.alletermendiedoordetermextractorzijngevonden, hebbeneendirecteofindirecterelatiemeteensynsetuithetalgemenewordnet.de wordnetsindeverschillendetalenzijnweeropsynsetniveaugekoppeldaanhetengelse wordnet.denederlandseterminvasievediersoortenhetspaanseespecieinvasora kunnenbijvoorbeeldaanelkaarwordengerelateerddoordathunhyperoniemdiersoort enespecieuitdegeneriekewordnetsbeideeenequivalentierelatiehebbenmethet Engelsespecies.VervolgensblijktdaterindeNederlandsetermstructuurooknogde termenexotischeinvasievediersoortenacquatischeinvasievediersoortbevat,endatook determstructureninanderetalenverdereonderverdelingenhebben.alsertermen ontbreken,kanhetzijndatdeconceptenwaardetermennaarverwijzenvooreen anderetaalnietbestaan,ofweldatdezetermentoevallignietbinnendetekstcollectie gevondenkunnenworden.indatgevalkanhetsysteembijdespaansetermespecie invasoraaangevendatermogelijkspecifiekeretermenbestaan. DeKyototermextractorisgeïmplementeerdinverschillendemodulesdie gebruiksvriendelijkopelkaaraansluitenenonderdeelzijnvaneengrotereketenvoor taal entekstverwerking(pipet) 3.Binnenditsysteemkunnen(externe)modulesen toolsdieinverschillendeprogrammeertalenzijngeschrevenmetelkaarsamenwerken. Voormeertechnischedetailsverwijzenwenaar(Bosma,2010b)endePipeTwebsite: (http://pipet.sf.net). 3 http://pipet.sf.net/
4.Ontologie EenvandebelangrijkstecomponentenvanhetKyotoplatformisdecentraleontologie diedebetekenisvandetermenindedomeinwordnetsverankert.eenontologieiseen formelespecificatievanbelangrijkeconceptenineendomeinenheeftdoorgaanseen hiërarchischestructuur:demeestabstracteconceptenstaanindetoplaagennaarmate mendehiërarchieaflooptwordendeconceptenconcreterenspecifieker. Ontologieënbestaaninallerleivormenenmatenenkunnenvariërenvanvrijkleinen domeinspecifiek(plantontology 4,FOAF 5 )totmiddelgroteontologieëndiealleeneen niet domeinspecifiekeenabstractetoplaagbeschrijven(dolce 6 )enomvangrijkeen algemeneontologieëndiezichrichtenopdetop enmiddenlaag(sumo 7,Cyc 8 ).Daarbij kunnenontologieënmeerofminderformeelzijnopgesteld;hoeexplicieterde semantiekvandeconceptenwordtbeschrevenindevormvanaxioma senrestricties, hoeformelerdeontologieis. Ontologieënwordenveelgebruiktomhetuitwisselenenverbindenvanheterogene gegevenstevergemakkelijken.alseenmuseumzijndigitalecollectiewilverbindenmet dievaneenanderinstituut,kaneendomeinontologiealsdecidoc CRM 9 worden gebruiktomdemetadatavanbeidecollectiesopelkaaraftestemmenencorrectmet elkaarteverbinden.daarbijisineenontologiegemodelleerdhoeconceptenalsschilder, KunstwerkenAfmetingmetelkaarzijngerelateerdwaardoorduidelijkwordtdat AfmetingbinnenditdomeinalleenkanwordengebruiktvooreenKunstwerkenniet vooreenkunstenaar.inkyotowordtdeontologiegebruiktomdebetekenisvan domeinsynsetsuitverschillendetalenteverankeren,enookindezetoepassingmaakt dathetuitwisselenendelenvanterminologieeninformatiegemakkelijker. Hetisbelangrijkomtebenadrukkendateenontologieuitconceptenbestaat.Doorgaans wordenerwoordenalsprocesofartefactgebruiktvoordeconcepten,maardeze moetengezienwordenalslabelswaardoorhetvoormensenmakkelijkeristebegrijpen waterstaat.computerswerkenopbasisvandeaxioma senrestrictiesineenontologie. IndiezinkunnendelabelsProcesenArtefactevengoedwordenvervangendoorcijfers; aandebetekenisvandeconceptenzaldatnietsveranderen.metdeaxioma sen restrictieskaneencomputervervolgensverschillendeeleganteredeneringenuitvoeren waarbijdeductieenhetoverervenvaneigenschappenvoorhetkyoto projecthet belangrijkstzijn: Deductie: Als[Wintertaling]eensubklasse(=specifiekerconcept)isvan[Eend],en[Eend] iseensubklassevan[vogel],danis[wintertaling]ookeen[vogel]. Top downoverervenvaneigenschappen: Alseen[Vogel]deeigenschap heeftveren heeft,en[eend]iseensubklassevan [Vogel],danheefteen[Eend]ookdeeigenschap heeftveren. Maar: Als[Eend]deeigenschap kanvliegen heeft,en[vogel]iseensuperklasse (=minderspecifiekconcept)van[eend],danheeftvogelnietdeeigenschap kanvliegen. 4 zie: www.plantontology.org 5 zie: www.foaf-project.org 6 zie: www.loa-cnr.it/ontologies 7 zie: http://sigma.ontologyportal.org:4010/sigma/browse.jsp?kb=sumo om online in deze ontologie te kunnen zoeken op basis van Engelse synsets die aan deze ontologie gekoppeld zijn. 8 zie: http://cyc.com/ 9 zie: www.cidoc-crm.org
Omdateigenschappenovererven,wordenzetoegevoegdaandatconceptindeontologie dathetmeestalgemeneconceptisdatdieeigenschapnogkanhebben.datheeftals voordeeldatjeeeneigenschapnietvooriedereklasseopnieuwhoefttedefiniëren.voor redeneersystemenheeftdatalsvoordeeldatzeminderinformatiehoeventeverwerken endaardoorsnellerzijn. IndecontextvanKyotoisditredenerenopbasisvaneenontologievanwezenlijkbelang omdateenzoeksysteemnuweetdatdewintertalingenuithetvoorbeeldinparagraaf1 eensoorteendenzijn.meteenontologieisdiekennisformeelvastteleggenenkan allerleiinformatieautomatischwordenafgeleid,bijvoorbeelddateenwintertalingveren heeftenkanvliegen. 4.1DeKyotoontologie DeKyotoontologieisopgebouwduitdrieverschillendelagenenteltintotaal1133 conceptenen332formelerelatiestussendezeconcepten.detoplaagisdemeest abstractelaagvandeontologieenisgebaseerdopdedolceontologie(masolo,2003). IndezelaagbevindenzichconceptenalsEntiteit,EigenschapenKwantiteit. DemiddenlaagisgevormduitdeBasisConcepten;ditzijnsynsetsuithetEngelse wordnetdiedemeestbelangrijkeknooppuntenendusconcepteninhetwordnet representeren(izquierdo,2007).demeestesynsetsineenwordnethebbenminimaal éénrelatienaareenanderesynset;sommigesynsetshebbenerechterbeduidendmeer. Doordeboomstructuurvanhetwordnetvanbovennaarbenedenaftelopen,kanper takvandeboomwordenberekendwelkesynsetszeerveelrelatieshebbenendaarmee alseenbelangrijkknooppuntfungerenindehiërarchie.dezesynsetszijnopgenomenin deniet domeinspecifiekemiddenlaagvandeontologieenvervolgensgekoppeldaande oorspronkelijkesynsetsinhetengelsewordnetenaanalleequivalentesynsetsinde anderealgemenewordnets.debelangrijksteknooppuntenindewordnetszijndaarmee algelijkvoorzienvaneenontologischlabel.debasisconceptenspeleneenbelangrijke rolindekoppelingvandomeinsynsetsaandecentraleontologie.(zieparagraaf4.3). Conceptenuitdezeniet domeinspecifiekemiddenlaagvandeontologiezijn bijvoorbeeldartefact,voedselenmeubelstuk. Dederdelaagvandeontologieisdomeinspecifiek;hierinstaanconceptendiedoorde milieukundigenzijngeselecteerdopdomeinrelevantieenbestaatuitconceptenals Biodiversiteit,Commerciële_VisserijenIrrigatie. DeKyotoontologieisbewustkleingehouden;zostaaterbijvoorbeeldslechtseenzeer kleineselectievandebijna2miljoenbekendedier enplantensoortenindeontologie. Eengoederedenomnietallesoortenoptenemenisvooralvanpraktischeaard:geen enkelredeneersysteemkanopditmomentmetzo ngroteontologieomgaan. Belangrijkernogisdathetooknietnodigisomallesoortenenhuneigenschappenin eenontologieoptenemenomdatdevakexpertszijngespecialiseerdinde wetenschappelijkekenmerkenvansoorten,endiekenmerkenzullentussenenculturen nietverschillen.soortenkennisisbovendienookniethetsoortinformatiewaarzijnaar opzoekgaaninhundocumentatie;belangrijkerishetvoorhenomtewetendater soortenzijndiebepaaldedingendoenofondergaanenwatdatbetekentvoorhet leefmilieu.omdievragentekunnenbeantwoorden,volstaateenkleinelaaginde ontologievandier enplantensoortenwaarinvrijalgemeneconceptenstaanbeschreven alseend,kikkerenmos.vanuithetwordnetkunnendandesgewenstallerleispecifieke eendensoortenalswintertalingaanhetconcepteendindeontologiewordengelinkt.zo kandanindetekstwordenteruggevondendateenwintertalingeeneendis,zonderdat hetconceptwintertalingindeontologiestaat. 4.2Domeinwordnets VoorallezeventaleninhetKyotoproject(Engels,Nederlands,Spaans,Baskisch, Italiaans,JapansenChinees)wordentermstructurengemaaktdiehetstartpuntvormen