Automatic lexico-semantic acquisition for question answering Plas, Marie Louise Elizabeth van der

Vergelijkbare documenten
Van 'gastarbeider' tot 'Nederlander' Prins, Karin Simone

Laat maar zitten Janssen, Janine Hubertina Lambertha Joseph

De betrouwbaarheid van kleinschalige methoden voor waterzuivering Kaaij, Rachel van der

Improving the properties of polymer blends by reactive compounding van der Wal, Douwe Jurjen

University of Groningen

Schoolsucces van Friese leerlingen in het voortgezet onderwijs de Boer, Hester

University of Groningen. De afkoelingsperiode in faillissement Aa, Maria Josepha van der

Zorgen rondom IVF Boekaar, J.; Riemersma, M.

University of Groningen

Citation for published version (APA): Mazzola, P. (2016). Phenylketonuria: From body to brain [Groningen]: Rijksuniversiteit Groningen

Procesevaluatie van het Navigator project Jager, John Mike

Bouwen op een gemeenschappelijk verleden aan een succesvolle toekomst Welling, Derk Theodoor

University of Groningen. Zorgvermijding en zorgverlamming Schout, Hendrik Gerrit

University of Groningen. Hulp op maat voor leerlingen met leerproblemen in het vmbo Mombarg, Remo

Citation for published version (APA): Verbakel, N. J. (2007). Het Chronische Vermoeidheidssyndroom, Fibromyalgie & Reuma.

University of Groningen. Up2U Harder, Annemiek T.; Eenshuistra, Annika

Multiple sclerose Zwanikken, Cornelis Petrus

Een model voor personeelsbesturing van Donk, Dirk

Molecular aspects of HNPCC and identification of mutation carriers Niessen, Renee

Multiple sclerose Zwanikken, Cornelis Petrus

Neuroanatomical changes in patients with loss of visual function Prins, Doety

Mensen met een verstandelijke handicap en sexueel misbruik Kooij, D.G.

Interactie als gereedschap Koole, Tom

University of Groningen. Eerste Hulp vaker ter plaatse Verhage, Vera

Improving metabolic control in NIDDM patients referred for insulin therapy Goddijn, Patricia Petra Maria

Citation for published version (APA): Veeze, P. (1968). Rationale and methods of early detection in lung cancer. [S.n.].

Dynamics of inner ear pressure change with emphasis on the cochlear aqueduct Laurens-Thalen, Elisabeth Othilde

Draagvlak migratiebeleid Postmes, Thomas; Gordijn, Ernestine; Kuppens, T.; Gootjes, Frank; Albada, Katja

University of Groningen. Vrije en reguliere scholen vergeleken Steenbergen, Hilligje

University of Groningen

Intrapersonal factors, social context and health-related behavior in adolescence Veselska, Zuzana

University of Groningen. Inferior or superior Carmona Rodriguez, Carmen

University of Groningen. De besmettelijkheid van de ftisis Groenhuis, Dirk Johan Jacob

Quantitative STIR MRI as prognostic imaging biomarker for nerve regeneration Viddeleer, Alain

University of Groningen. Electron Holography of Nanoparticles Keimpema, Koenraad

Citation for published version (APA): Hoekstra, H. J. (1982). Fractures of the proximal femur in children and adolescents [S.n.]

University of Groningen. Resultaat van pleegzorgplaatsingen Oijen, Simon van

Citation for published version (APA): Scheepstra, A. J. M. (1998). Leerlingen met Downs syndroom in de basisschool Groningen: s.n.

Understanding the role of health literacy in self-management and health behaviors among older adults Geboers, Bas

Citation for published version (APA): Roodenburg, J. L. N. (1985). CO2-laserchirurgie van leukoplakie van het mondslijmvlies. [S.l.]: [S.n.].

Citation for published version (APA): Weide, M. G. (1995). Effectief basisonderwijs voor allochtone leerlingen Groningen: s.n.

Uw mening over gaswinning uit het Groningen-gasveld: Onderzoeksresultaten fase 2 Hoekstra, Elisabeth; Perlaviciute, Goda; Steg, Emmalina

University of Groningen. Stormy clouds in seventh heaven Meijer, Judith Linda

Citation for published version (APA): Egberink, I. J-A. L. (2010). Applications of item response theory to non-cognitive data Groningen: s.n.

Cryosurgery in cervical intraepithelial neoplasia. A morphometric study Boonstra, Hendrik

University of Groningen. Enabling knowledge sharing Smit - Bakker, Marloes

Hypothalamus, pituitary and thyroid. The control system of thyroid hormone production. Sluiter, Wim J.

Citation for published version (APA): Scheepstra, A. J. M. (1998). Leerlingen met Downs syndroom in de basisschool Groningen: s.n.

Electric double layer interactions in bacterial adhesion and detachment Poortinga, Albert Thijs

Effective monitoring and control with intelligent products Meyer, Gerben Gerald

The importance of tactical skills in talent development Kannekens, Rianne

The development of stable influenza vaccine powder formulations for new needle-free dosage forms Amorij, Jean-Pierre

The infant motor profile Heineman, Kirsten Roselien

Today's talented youth field hockey players, the stars of tomorrow? Gemser, Marije

Understanding the role of health literacy in self-management and health behaviors among older adults Geboers, Bas

Opvoeding op school en in het gezin. Onderzoek naar de samenhang tussen opvoeding en de houding van jongeren ten opzichte van sociale grenzen

University of Groningen

Man of vrouw? Een onderzoek naar sekseverschillen in reacties op chronische aandoeningen Roeke, M.

Citation for published version (APA): Crane, L. M. A. (2011). Intraoperative fluorescence imaging in cancer Groningen: s.n.

University of Groningen. Living with Rheumatoid Arthritis Benka, Jozef

Citation for published version (APA): Tijdschrift voor Genderstudies (2018). Jaarrekening Stichting Tijdschrift voor Vrouwenstudies.

The brain, verbs, and the past: Neurolinguistic studies on time reference Bos, Laura

Citation for published version (APA): van der Ploeg, J. (1997). Instrumental variable estimation and group-asymptotics Groningen: s.n.

Knowledge, chance, and change Kooi, Barteld

University of Groningen. Symptom network models in depression research van Borkulo, Claudia

Citation for published version (APA): Holwerda, A. (2013). Work outcome in young adults with disabilities Groningen: s.n.

University of Groningen. BNP and NT-proBNP in heart failure Hogenhuis, Jochem

University of Groningen. Quantitative CT myocardial perfusion Pelgrim, Gert

Lamotrigine in bipolar depression Loos, Marcus Lambertus Maria van der

Verbindingskracht & combinatievermogen de Vries ev Delies, Jantina Jantje

University of Groningen. Structured diabetes care in general practice Fokkens, Sudara Andrea

University of Groningen. Safe and Sound van den Bosch, Kirsten Anna-Marie

The diversity puzzle Mäs, Michael

Infrastructure investment in Indonesia Mustajab, M.

University of Groningen. Dwaallichten, struikeltochten, tolwegen en zangsporen Roodbol, Pieternella

The etiology of functional somatic symptoms in adolescents Janssens, Karin

Citation for published version (APA): de Boer, H. (2009). Schoolsucces van Friese leerlingen in het voortgezet onderwijs. Groningen: s.n.

University of Groningen. Symptoms of Distress and Imbalance in Children Nijboer, J.M.

Oxidative dehydrogenation of ethylbenzene under industrially relevant conditions Zarubina, Valeriya

Helping infants and toddlers in Foster family care van Andel, Hans

Maternal phenotypic engineering Müller, Wendt

De primaire frozen shoulder Stenvers, Jan Derek

Citation for published version (APA): Zwanikken, C. P. (1997). Multiple sclerose: epidemiologie en kwaliteit van leven s.n.

University of Groningen

University of Groningen. Ondernemerschap in Zuidoost Drenthe Hans, Lianne; Edzes, Arend; Koster, Sierdjan

Perceptual interactions in human vision and implications for information visualization van den Berg, Ronald

Citation for published version (APA): Oldenziel, W. H. (2006). Application of a glutamate microsensor to brain tissue. s.n.

Klanttevredenheidsonderzoek afdeling Sociale Zaken Westerveld?

Coronary heart disease from a psychosocial perspective Skodova, Zuzana

Detection, prevention and direct post-operative intervention in orthopaedic implant infection Maathuis, Patrick Gerardus Maria

University of Groningen. De emergentie en evolutie van drie werelden de Vries, André

The role of camp-dependent protein kinase A in bile canalicular plasma membrane biogenesis in hepatocytes Wojtal, Kacper Andrze

Foreign language classroom anxiety Jin, Yinxing

University of Groningen. Paula voor goud Piersma, Theun. Published in: Vogels+

Citation for published version (APA): Faber, A. (2006). Stimulant treatment in children: A Dutch perspective s.n.

Psychopathologische en klinische aspecten van de psychogene psychose van Dijk, Wybe Kuno

University of Groningen. Pieces of the Puzzle Vissia, Eline Margreta

University of Groningen. The impact of political factors on drivers of economic growth Klomp, Johannes Gerardus

Off-line answer extraction for Question Answering Mur, Jori

Transcriptie:

Automatic lexico-semantic acquisition for question answering Plas, Marie Louise Elizabeth van der IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF) if you wish to cite from it. Please check the document version below. Document Version Publisher's PDF, also known as Version of record Publication date: 2008 Link to publication in University of Groningen/UMCG research database Citation for published version (APA): Plas, M. L. E. V. D. (2008). Automatic lexico-semantic acquisition for question answering s.n. Copyright Other than for strictly personal use, it is not permitted to download or to forward/distribute the text or part of it without the consent of the author(s) and/or copyright holder(s), unless the work is under an open content license (like Creative Commons). Take-down policy If you believe that this document breaches copyright please contact us providing details, and we will remove access to the work immediately and investigate your claim. Downloaded from the University of Groningen/UMCG research database (Pure): http://www.rug.nl/research/portal. For technical reasons the number of authors shown on this cover page is limited to 10 maximum. Download date: 16-01-2017

Nederlandse samenvatting Lexicaal-semantische relaties zijn relaties die betrekking hebben op woorden (het lexicon) al naar gelang hun betekenis (semantiek). Twee voorbeelden van lexicaal-semantische relaties zijn de synoniemrelatie en de co-hyponiemrelatie. Tussen de woorden najaar en herfst bestaat een synoniemrelatie, omdat de woorden dezelfde betekenis hebben. De woorden bosbes en braam staan ook in een lexicaal-semantische relatie. Beide woorden behoren tot dezelfde semantische klasse, namelijk de klasse van fruit. Woorden die tot dezelfde semantische klasse behoren worden co-hyponiemen genoemd. Dit proefschrift behandelt twee onderzoeksvragen: ten eerste onderzoekt het verschillende methoden om lexicaal-semantische informatie automatisch uit grote tekstcorpora te extraheren. De centrale vraag daarbij is: welk type van lexicaal-semantische informatie resulteert uit de verschillende methoden? Ten tweede tracht het de verworven kennis toe te passen in een computerapplicatie. Hiermee proberen we te achterhalen, welk type lexicaal-semantische informatie waar inzetbaar is. De eerste vraagstelling is methodologisch van aard, terwijl de tweede toepassingsgericht is. Wij zullen het eerste doel nader toelichten en een korte samenvatting geven van onze bevindingen. Daarna zullen we het tweede doel behandelen. Dit proefschrift behandelt drie methoden voor het automatische vergaren van lexicaal-semantische informatie. De drie methoden berusten op de distributional hypothesis distributionele hypothese (Harris, 1968). De distributionele hypothese voorspelt dat overeenkomstige woorden in overeenkomstige contexten voorkomen (similar words share similar contexts). Dit impliceert dat we overeenkomstige woorden kunnen vinden door contexten van woorden te vergelijken. Wanneer wij, bijvoorbeeld, alle woorden selecteren die als lijdend voorwerp van het werkwoord drinken voorkomen, zien we meteen dat deze woorden tenminste één eigenschap overeenkomstig hebben, namelijk, het feit dat zij vloeibaar zijn. In dit voorbeeld is de context syntactisch van aard. We selecteren woorden in een bepaalde syntactische context, namelijk, het lijdend voorwerp van het werkwoord drinken.

212 Nederlandse samenvatting Er zijn echter ook andere contexten denkbaar aan de hand waarvan de distributionele gelijkheid van woorden kan worden bepaald. We zouden, bijvoorbeeld, het woord context in brede zin op kunnen vatten en er meertalige parallelle corpora in kunnen betrekken, i.e. corpora die dezelfde inhoud beschrijven in verschillende talen. Door deze teksten automatisch te aligneren op woordbasis, kan de vertaling van woorden in verschillende talen worden benaderd. De vertaling die een woord in andere talen krijgt wordt zodoende de meertalige context van een woord. De laatste context die we in dit proefschrift gehanteerd hebben voor de automatische vergaring van lexicaal-semantische informatie is de op nabijheid gebaseerde context. Hierbij maken alle betekenisvolle woorden in een bepaalde zin deel uit van de context voor een woord uit die bepaalde zin. De drie verschillende contexten: de syntactische context, de meertalige context en de op nabijheid gebaseerde context liggen aan de basis van de drie verschillende methoden. Om terug te komen op de eerste onderzoeksvraag: het type lexicaal-semantische informatie dat resulteert uit de drie methoden is zeer verschillend. Wij hebben de gerangschikte lijsten van overeenkomstige woorden, die ons systeem voor ieder woord in onze testset berekent, geëvalueerd met behulp van het Nederlandstalige gedeelte van de lexicale database EuroWordNet (Vossen, 1998): Dutch WordNet (DWN). Hieruit blijkt dat de syntactische methode de minimale waarde, verkregen door de gemiddelde afstand tussen willekeurige woorden uit DWN te berekenen, overschrijdt (0.77 versus 0.26). De methode die gebaseerd is op syntactische contexten levert synoniemen op en nog meer co-hyponiemen, zoals de woorden bosbes en braam. Verder vinden we hyperniemen, woorden die betekenis van een ander woord omvatten, zoals fruit een hyperniem van bosbes is. Ook de tegenovergestelde relatie vinden wij: bosbes als hyponiem van fruit. Op de eerste positie wordt in zo n 20% van de gevallen een synoniem aangetroffen. Een percentage van 100% is irrealistisch, aangezien niet elk woord een synoniem heeft. Volgens onze berekeningen heeft gemiddeld zo n 60% van de zefstandige naamwoorden in DWN één of meer synoniemen. Vervolgens is het percentage co-hyponiemen dat het systeem geeft op de eerste positie twee keer zo hoog als het percentage synoniemen. Dit is niet wenselijk, maar ook niet erg verwonderlijk, aangezien woorden uit dezelfde semantische klasse, zoals braam en bosbes, vaak in dezelfde syntactische contexten voorkomen, bijvoorbeeld, als lijdend voorwerp van eten en gemodificeerd door het bijvoeglijk naamwoord gezond. De op vertaalrelaties gebaseerde methode resulteert in minder co-hyponiemen. Een woord als braam wordt nu eenmaal zelden vertaald met een woord voor bos-

Nederlandse samenvatting 213 bes. Het percentage synoniemen dat gevonden wordt met deze methode ligt dan ook veel hoger: zo n 30%. De opzet van evaluaties m.b.v. proefpersonen is lastig aangezien resultaten erg afhankelijk zijn van de opzet. Desalniettemin blijkt uit een evaluatie met proefpersonen dat zo n 35% van de paren die door DWN als niet-synoniem worden bestempeld door een meerderheid wel degelijk als synoniem wordt geclassificeerd. De op vertaalrelaties gebaseerde methode gaat wel gebukt onder vuile data, aangezien de vertalingen verkregen worden door automatische woordalignering, die niet altijd juist zijn. De methode die uitgaat van de woorden, waarmee een bepaald woord voorkomt in een zin, levert een heel ander type lexicaal-semantische relaties op, namelijk, associaties, zoals het woord wijn voor het woord feestje. Deze lossere soort van lexicaal-semantische informatie is het gevolg van het feit, dat de context die gebruikt is, namelijk, alle betekenisvolle woorden in de zin, ook minder gestructureerd is dan bijvoorbeeld de syntactische context. We evalueren het resultaat op de woordassociatienormen van De Deyne and Storms (2008). Nu we de drie methoden hebben toegelicht, komen we terug op de tweede onderzoeksvraag: Welk type lexicaal-semantische informatie is het best toepasbaar in de verschillende componenten van een vraag-antwoord-systeem? Voor het beantwoorden van deze vraag hebben we verschillende soorten lexico-semantische informatie toegepast op verschillende componenten van het systeem. We hebben het systeem vervolgens getest op de vragensets van de Cross Language Evaluation Forum (CLEF 10 ). Het forum voorziet in een testbatterij voor vraag-antwoord-systemen in meerdere Europese talen. Zo gebruikten we co-hyponiemen verkregen met de syntactische methode voor het component vraagclassificatie, waar een vraag wordt ingedeeld in een klasse aan de hand van het verwachte antwoord. Een vraag als Waar werd Audrey Hepburn geboren wordt geclassificeerd als een locatie-vraag, aangezien de vraag een locatie als antwoord verwacht. Ook gebruikten we verschillende soorten van lexicaal-semantische informatie voor het uitbreiden van de zoektermen in het component information retrieval, waar tekstpassages worden geselecteerd waarin wij het antwoord op de vraag hopen te vinden. Hetzelfde type informatie gebruikten we in de module die de antwoorden uit de geselecteerde tekstpassages extraheert. Als laatste gebruikten we gecategoriseerde eigennamen voor het vinden van antecedenten voor nominale constituenten in de off-line-component van het systeem. In de off-line-component worden feiten uit teksten in tabellen verzameld zodat, wanneer hierover een vraag wordt gesteld, het antwoord snel en gemakkelijk kan worden opgezocht. Uit de resultaten kunnen we opmaken dat vooral de categoriseerde eigennamen, een bij-product van de syntactische methode, het vraag-antwoord systeem 10 http://clef-qa.itc.it

214 Nederlandse samenvatting verbeteren. Zij verhogen de scores voor de information retrieval component en zorgen ervoor dat er voor bepaalde type vragen, namelijk de definitie- en WHvragen, aanzienlijk vaker het goede antwoord gevonden wordt. Co-hyponiemen zijn toepasbaar voor het uitbreiden van bepaalde semantische klassen in DWN voor vraagclassificatie. Ook wordt er een kleine verbetering behaald, wanneer associaties worden gebruikt voor het uitbreiden van zoektermen in de component information retrieval. Kortom, welke soort van lexico-semantische informatie adequaat is, verschilt per module en per soort van vragen. Het feit dat de CLEF vragenset veel vragen bevat waarin informatie wordt gevraagd over entiteiten levert een bijdrage aan het succes van de toepassing van gecategoriseerde eigennamen in deze taak. Ook de tegenvallende resultaten voor de toepassing van andere soorten lexicale informatie, vooral in de componenten information retrieval en antwoord matching en selectie, zouden te wijten kunnen zijn aan de specifieke opzet van de CLEF vragensets, waarin de lexicale variatie niet erg groot lijkt. De behaalde resultaten wijzen in een richting, maar kunnen niet worden gegeneraliseerd en zodoende als geldend gehouden worden voor vraag-antwoord-systemen in het algemeen, laat staan voor andere applicaties in de natuurlijke taalverwerking.