Vergelijkbare documenten
Word Sense disambiguation. Taal en Spraak Maaike Harbers 1 mei 2006



Nederlandse samenvatting

Omdat uit eerdere studies is gebleken dat de prevalentie, ontwikkeling en manifestatie van gedragsproblemen samenhangt met persoonskenmerken zoals

Invloed van IT uitbesteding op bedrijfsvoering & IT aansluiting

Samenvatting Proefschrift Fostering Monitoring and Regulation of Learning Mariëtte H. van Loon, Universiteit Maastricht

Samenvatting Impliciet leren van kunstmatige grammatica s: Effecten van de complexiteit en het nut van de structuur

De invloed van Vertrouwen, Relatietevredenheid en Commitment op Customer retention

The Effectiveness of Community Schools: Evidence from the Netherlands

Uitwerking Tentamen Datamining (2II15) 26/06/09

EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot

Nederlandse samenvatting

Nederlandse Samenvatting

Cover Page. The handle holds various files of this Leiden University dissertation.

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Nederlandse samenvatting

het laagste niveau van psychologisch functioneren direct voordat de eerste bestraling begint. Zowel angstgevoelens als depressieve symptomen en

Maken van een woordenboek:4 hoofdfasen

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Nederlandse samenvatting (Summary in Dutch) Het managen van weerstand van consumenten tegen innovaties

Samenvatting Summary in Dutch

Visuele informatie voor perceptie in bewegingshandelingen

Samenvatting Dutch summary

HANDLEIDING EUROGLOT TRANSLATOR MODULE

HANDLEIDING EUROGLOT TRANSLATOR MODULE

VOORBEELD VAN FEEDBACKRAPPORT SELOR TAALTEST

Hoofdstuk 3: Cardiovasculaire toestandsveranderingen in gesimuleerde werkomgevingen

Zet m op 70! De Vruchtenbuurt

hoofdstuk 2 een vergelijkbaar sekseverschil laat zien voor buitenrelationeel seksueel gedrag: het hebben van seksuele contacten buiten de vaste

Nederlandse samenvatting. (summary in Dutch)

How to present online information to older cancer patients N. Bol

Hoofdstuk 12: Eenweg ANOVA

Optimalisatie van de eerste klinische studies in bi ondere patie ntengroepen: op weg naar gebruik van semifysiologische

Samenvatting Samenvatting

Dagelijkse activiteiten van ouder wordende echtparen: veranderingen bij achteruitgang van de gezondheid

Dynamics, Models, and Mechanisms of the Cognitive Flexibility of Preschoolers B.M.C.W. van Bers

Op(weg(naar(een(optimale(vitamine(D(status:(determinanten(en( consequenties(van(vitamine(d(deficiëntie(in(de(oudere(populatie(

Samenvatting. geweest als de gemaakte keuzes, namelijk opereren. Het model had daarom voor deze patiënten weinig toegevoegde waarde.

Samenvatting (Summary in Dutch)

Nederlandse samenvatting. (summary in Dutch)

Samenvatting (Summary in Dutch)

Onderzoek naar de impact van participatie, rollen en doelen in asynchrone discussiegroepen

De Taxonomie van Bloom Toelichting

Samenvatting. Exploratieve bewegingen in haptische waarneming. Deel I: de precisie van haptische waarneming

Management Summary. Auteur Tessa Puijk. Organisatie Van Diemen Communicatiemakelaars

BEGRIP VAN BEWIJS. vrije Universiteit amsterdam. Instituut voor Didactiek en Onderwijspraktijk. Vragenlijst. Herman Schalk

Samenvatting Nederlands

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

S a m e n v a t t i n g 149. Samenvatting

Voorbeeld adviesrapport MedValue

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Hoe voer ik een onderzoek uit? Een stappenplan om te helpen een onderzoek uit te voeren.

Conclusies. Martijn de Ruyter de Wildt en Henk Eskes. KNMI, afdeling Chemie en Klimaat Telefoon

1. Reductie van error variantie en dus verhogen van power op F-test

Summary in Dutch 179

MODEL B: Beoordelingsmodel PWS Binasvakken ( vernieuwde Tweede Fase ) De voorbereidingsfase: Zijn de leerlingen op zelfstandige wijze gekomen tot:

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

a p p e n d i x Nederlandstalige samenvatting

1 Inleiding. 2 Methode en selectie

Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken Hogeschool Gent

Nederlandse samenvatting

Samenvatting (Summary in Dutch)

Samenvatting g ttin a v n e m a S

curriculum vitae bart decadt November 2004

Zuurstof reductie test

Leerlingenhandleiding

Aandeel MKB in buitenlandse handel en investeringen

In deze les. Het experiment. Hoe bereid je het voor? Een beetje wetenschapsfilosofie. Literatuuronderzoek (1) Het onderwerp.

CLIL in het basisonderwijs

vanuit de technische en organisatorische omgeving, werk-verdeling, budget, planning, en hergebruik van componenten. Het documenteren van SA dient

PWS - Fase 1 - Plan van aanpak Behaald 0 van de 25 punten

Beoordelingsmodel bij een PWS binnen het natuurprofiel

Leren onderzoeken leer je niet van zomaar onderzoek doen! Patricia Kruit Ed van den Berg Ron Oostdam Jaap Schuitema

Transcriptie:

Samenvatting De belangrijkste onderzoeksvraag waarop het werk in dit proefschrift een antwoord probeert te vinden, is welke typen taalkundige informatie het nuttigst zijn voor de lexicale desambiguatie van (Nederlandse) woorden. De structuur van dit proefschrift reflecteert dan ook de verschillende niveaus van taalkundige informatie die getoetst zijn op hun nut voor lexicale desambiguatie. Deze niveaus zijn morfologie, de woordsoort van het ambigue woord en de syntactische structuur van de zin waarin het woord voorkomt. Elk type taalkundige kennis wordt individueel getoetst en geëvalueerd om de waarde ervan voor lexicale desambiguatie vast te stellen. Uiteindelijk worden ook combinaties van verschillende typen taalkundige kennis getoetst en geëvalueerd. Het doel van dit project was de ontwikkeling van een module die automatisch de juiste betekenis kan toewijzen aan een ambigu woord in een bepaalde context. Dit wordt ook wel word sense disambiguation (WSD) genoemd. De betekenistoekenning vindt plaats op basis van de informatie uit de context van het ambigue woord. Deze informatie kan zowel bestaan uit de woorden rondom het te desambigueren woord alsook extra informatie zoals syntactische klasse of structuur en met deze kennis wordt een statistisch taalmodel gebouwd. Het model voorspelt vervolgens voor een bepaald ambigu woord in een nieuwe context de juiste betekenis. Na de algemene inleiding in WSD en een overzicht van de belangrijkste onderzoeksvragen in hoofdstuk 1 geeft hoofdstuk 2 een overzicht van eerder onderzoek op het gebied van WSD, opgesplitst naar de informatiebronnen en de informatietypen die de gepresenteerde systemen gebruiken. Met informatiebronnen worden de primaire bronnen bedoeld die gebruikt worden om informatie over de verschillende betekenissen van woorden te extraheren, terwijl informatietypen verwijzen naar de verschillende soorten taalkundige kennis die de systemen gebruiken om de juiste betekenis te vinden. Verder komt in dit hoofdstuk ook de evaluatiemethode zelf aan bod, en in het bijzonder de Senseval WSD evaluatierondes. Een beschrijving van de algemene aanpak voor dit onderzoek sluit de introductie en het literatuuroverzicht af. Hoofdstuk 3 laat zien dat de inzet van zogenaamde pseudowoorden, die 139

140 Samenvatting vaak gebruikt worden om de behoefte aan handmatig met betekenis geannoteerde data te omzeilen, geen geldige vervanging is voor data van echte ambigue woorden. De belangrijkste reden hiervoor is dat de betekenissen van pseudowoorden uit twee (of meer) duidelijk van elkaar gescheiden woorden bestaan, terwijl ambigue woorden in werkelijkheid over het algemeen betekenissen en onderbetekenissen hebben die in nauwe relatie tot elkaar staan en die om deze reden moeilijker correct van elkaar te onderscheiden zijn, ook voor mensen. In hoofdstuk 4 wordt de experimentele opzet van het supervised en corpusgebaseerde WSD-systeem geïntroduceerd. Deze introductie omvat onder meer een beschrijving van het corpus, het classificatie-algoritme dat gebruikt wordt voor desambiguatie en de implementatie hiervan. Ook worden de eerste resultaten op de tuning data met een leave-one-out aanpak gepresenteerd waarbij alleen minimale features, zoals de context rond om het ambigue woord en het bijbehorende lemma, gebruikt worden. Op basis van deze resultaten concluderen we dat maximale entropie (MaxEnt) als classificatiealgoritme voor WSD beter presteert dan de op frequentie gebaseerde baseline. De resultaten van de verschillende experimenten met de minimale features bepalen welke instellingen het beste gebruikt kunnen worden wanneer er meer soorten taalkundige kennis aan het systeem worden toegevoegd. Er is met name onderzocht of het gebruik van een drempelwaarde voor het aantal trainingsinstanties van elk ambigu woord in het corpus een voordeel oplevert. De resultaten laten zien dat MaxEnt (in combinatie met smoothing met Gaussian priors) robuust genoeg is om infrequente data te verwerken. Om deze reden gebruiken we in dit onderzoek geen drempelwaarde voor de frequentie. Bovendien hebben we het effect getoetst van verschillende contextgrootten (alleen contextwoorden in dezelfde zin als het ambigue woord worden meegenomen). Uit deze experimenten blijkt dat een context van drie woorden links en rechts van het ambigue woord tot een beter resultaat leidt dan grotere contexten, wat eerdere resultaten in de literatuur over WSD bekrachtigt. Het laatste belangrijke resultaat van hoofdstuk 4 is dat de combinatie van contextlemmas gecombineerd met de relatieve positie van de context ten opzichte van het ambigue woord beter werkt dan contextwoorden en/of de context als een bag-of-words te zien. Na de algemene introductie van het WSD-systeem voor het Nederlands en de experimentele opzet, introduceert hoofdstuk 5 een aanpak voor het bouwen van een classifier die gebruik maakt van een eerste type taalkundige kennis, namelijk morfologische informatie. In plaats van een classifier te maken voor iedere individuele woordvorm, worden nu classifiers geconstrueerd voor de meer algemene lemma s. Een ambigu woord wordt vervolgens geclassificeerd op basis van zijn lemma.

Samenvatting 141 Lemmatisering leidt tot een compactere en meer algemene informatierepresentatie door alle geïnflecteerde vormen van een ambigu woord samen te groeperen. Meer inflectie in een taal zal zorgen voor een grotere compressie en generalisatie van de data. De toepassing van lemmatisering zorgt ervoor dat elke classifier meer trainingsmateriaal tot zijn beschikking heeft en het resulterende WSD-systeem compacter is. Door te abstraheren van woordvorm wordt het systeem bovendien robuuster. Een vergelijking tussen de lemma-gebaseerde aanpak en de traditionele op woordvorm gebaseerde aanpak op de Nederlandse Senseval-2 testdata laat duidelijk zien dat het gebruik van lemmatisering de accuratesse verbetert. De eerdere resultaten van een op Memory-Based Learning (MBL) gebaseerd WSD-systeem leveren dezelfde resultaten als de op lemma s gebaseerde aanpak wanneer dezelfde features gebruikt worden. Een groot verschil is dat op het systeem met lemmatisering (nog) geen parameter optimalisatie toegepast is. Een tweede type taalkundige informatie die op zijn waarde voor WSD getoetst wordt is part-of-speech (PoS), oftewel de syntactische klasse of woordsoort van een woord (hoofdstuk 6). De PoS van een potentieel ambigu woord bevat belangrijke informatie, omdat de Nederlandse Senseval-2 data tegelijkertijd morfo-syntactisch en lexicaal-semantisch gedesambigueerd moet worden. Twee hypothesen worden getest. Aan de ene kant is gekeken naar de invloed van de kwaliteit van de PoS-tagger op de accuratesse van het WSD-systeem met PoS-informatie. De resultaten bekrachtigen de verwachting dat de PoS-tagger die op zichzelf de hoogste accuratesse behaalt, ook in een applicatie-gerichte evaluatie beter presteert dan minder accurate PoStaggers. Aan de andere kant is onderzocht of het expliciet toevoegen van features die een bepaald soort kennis coderen de desambiguatieaccuratesse doet toenemen of dat deze informatie reeds impliciet in het model aanwezig was. De resultaten laten duidelijk zien dat het expliciet toevoegen van bepaalde features het systeem verbetert. Enerzijds is het effect gemeten van features voor de woordsoort van het ambigue woord zelf, en anderzijds het effect van features voor de syntactische categorieën van de woorden in de context. Beide kennisbronnen leiden tot significante verbeteringen van de prestatie van het op MaxEnt gebaseerde WSD-systeem. Het derde type informatie, de tweede soort syntactische kennis, die gebruikt wordt voor desambiguatie is informatie over syntactische afhankelijkheidsrelaties, ook wel dependencies genoemd (beschreven in hoofdstuk 7). De impliciete onderzoeksvraag is of diepe taalkundige kennis helpt in een WSD-applicatie. Na een overzicht van eerder onderzoek met WSD-systemen die gebruik maken van syntactische informatie, worden dependencyrelaties

142 Samenvatting en hun invloed op het gebied van NLP geïntroduceerd, alsmede Alpino, de dependencyparser die gebruikt werd om de data te annoteren. Twee verschillende feature-instellingen met dependencyrelaties worden gebruikt. Aan de ene kant testen we een configuratie met twee features, waarbij de features alleen de namen van de relaties van het ambigue woord bevatten. Het ene feature bevat de head relaties, terwijl het andere feature dependent relaties van het ambigue woord bevat. Aan de andere kant experimenteren we met een configuratie met diezelfde twee features, maar nu met zowel de naam van de relatie als het woord dat door middel van deze relatie met het ambigue woord verbonden is. De resultaten in hoofdstuk 7 laten zien dat het toevoegen van diepe taalkundige kennis aan een statistisch WSD-systeem voor het Nederlands een significante verbetering van de desambiguatieaccuratesse oplevert ten opzichte van alle resultaten die tot nu toe op de tuning data zijn bereikt. Enkel het gebruik van dependencyrelaties leidt al tot een significant beter resultaat dan de baseline en de combinatie van het lemma en de PoS van het ambigue woord samen met dependencyrelaties werken zelfs beter dan het model met contextinformatie. De beste resultaten (op de tuning data) met 86.6% worden bereikt met het lemma, de PoS en de dependencyrelaties van het ambigue woord in combinatie met de lemmas in de context. In hoofdstuk 8 worden de resultaten van de beste feature-modellen (op basis van de tuningexperimenten) op de (ongeziene) Senseval-2 testdata besproken. Uit de experimenten op de testdata kunnen verschillende conclusies getrokken worden. Allereerst leidt het toevoegen van structurele syntactische informatie in de vorm van dependencyrelaties in plaats van PoS van de context tot een error rate reductie van 8% voor het op woordvorm gebaseerde model. Bovendien werkt de op lemma gebaseerde aanpak beter dan de op woordvorm gebaseerde aanpak, onafhankelijk van de features die in het model toegevoegt worden. De beste resultaten op de testdata worden bereikt met lemmatisering gecombineerd met het featuremodel met informatie over de woordsoort van de ambigue woordvorm of het ambigue lemma, de dependencylabels en de contextlemmas. Dit leidt tot een reductie van de error rate van 10% met betrekking tot het lemmamodel met PoS van de context en een foutreductie van 6% met betrekking tot het beste model gebaseerd op woordvormen. Als de resultaten op de testdata vergeleken worden met de resultaten met een ander bestaand systeem, dat MBL als classificatie algorithme gebruikt (Hendrickx et al., 2002), zien we dat zowel de op woordvorm gebaseerde classifiers als ook de op lemma gebaseerde classifiers leiden tot een hogere accuratesse. Dit heeft vooral te maken met het feit dat ons featuremodel o.a. diepe taalkundige informatie in de vorm van dependencyrelaties bevat

Samenvatting 143 terwijl het systeem van Hendrickx et al. PoS van de context gebruikt. Het lemmamodel leidt tot een error rate reductie van 10% in vergelijking met het WSD-systeem op basis van MBL. Het op MaxEnt gebaseerde systeem is dus state-of-the-art voor Nederlandse WSD en toont daarmee aan dat een combinatie van classifiers op basis van lemmas in plaats van woordvormen enerzijds en het gebruik van dependencylabels als taalkundige features (samen met contextlemmas) anderzijds de beste resultaten oplevert. Bij wijze van algemene conclusie suggereren de resultaten van dit onderzoek dat voor een statistisch desambiguatiealgoritme de combinatie van verscheidene orthogonale taalkundige features tot de beste resultaten leidt. Dit betekent dat WSD voor het Nederlands van verschillende typen taalkundige kennis profijt heeft. Het is niet mogelijk een beste type taalkundige kennis aan te wijzen, maar een aantal (zorgvuldig geselecteerde) features die in combinatie het beste werken. Vooral het toevoegen van diepe taalkundige kennis verbetert de accuratesse aanzienlijk. In combinatie met een aanpak die het voordeel van het gebruik van morfologische informatie in aanmerking neemt, het lemmamodel, worden de beste resultaten voor WSD van het Nederlands op de Senseval-2 dataset bereikt. Dit systeem werkt significant beter dan alle tot op heden in de literatuur gepubliceerde resultaten.

144