Question Answering College Natuurlijke Taalinterfaces Januari 2002
1 Information Retrieval, Web Search Zoek relevante documenten over een bepaald onderwerp. Vraag: keywords (en boolese connectieven), Bin Laden AND Nederland AND NOT Haselhoef Zoeken in (indexen van) Documenten, Antwoord: lijst van relevante documenten.
2 Information Retrieval, Web Search Robuust (Gigabytes aan documenten, 1000-en queries), Technieken goed onderzocht, Nadeel: Niet direct antwoord op een vraag, Documenten bevatten relevante en irrelevante informatie.
3 Information Extraction Extraheer relevante informatie uit ongestructureerde tekst, Vul hiermee een database. Vraag: database query, Antwoord: matching entries uit de database. Nadeel: Systeem bepaalt wat relevant is.
4 Een vacature-site Haalt vacatures van het web, uit de krant, Ongestructureerde informatie, Wordt doorzocht op relevante velden, b.v. functie, opleiding, bedrijf, plaats, salaris,... Informatie wordt opgeslagen in database.
5 citeseer.nj.nec.com Haalt papers van het web (ps, pdf), Wordt doorzocht op auteur, titel, abstract, verwijzingen,.. Database, met bovendien: Active bibliography, Similar documents, Users who viewed this document also viewed, Citatie-index,
6 Question Answering (2 voor 12) Who is the author of the book The Iron Lady? What was the monetary value of the Nobel Peace Prize in 1989? What does the Peugeot factory manufacture? How much did Mercury spend on advertizing in 1993? What is the name of the managing director of Apricot Computer? Why did David Koresh ask the FBI for a word processor?
7 Question Answering Vraag in natuurlijke taal, Zoeken in documenten, Antwoord: Zin (passage) uit een document: Peugeot, the French car manufacturer, announced a new model yesterday, the 307. Antwoord afgeleid uit het document: Cars.
8 Alfred Heineken overleden Bierbrouwer Alfred Heineken is donderdagavond in zijn woning in Noordwijk in alle rust overleden. Dat hebben de Raad van Beheer van Heineken Holding N.V. en de Raad van Bestuur van Heineken N.V. bekendgemaakt. Heineken werd 78 jaar. De op 4 november 1923 in Amsterdam geboren biermagnaat zal in naaste familiekring worden begraven. Heineken kampte sinds april vorig jaar na een hersenbloeding met een steeds zwakkere gezondheid. Zijn vrouw Lucille en dochter Charlene de Carvalho waren aanwezig bij de laatste uren van Alfred Heineken.
9 Alfred Heineken overleden Wanneer is Alfred Heineken overleden? Hoe oud werd Heineken? Wanneer werd Heineken geboren? Hoe heet de vrouw van Heineken? Hoeveel kinderen had Heineken?
10 TREC Text Retrieval Conference Waarom een competitie? Verzin een duidelijke opdracht, Meet precies de resultaten, Vergelijk technieken (wat werkt?), Meet vooruitgang, Wat is mogelijk met huidige technologie?
11 Motivatie TREC QA competitie QA nuttig voor Web-search, IR, IE, etc., QA lijkt mogelijk, ook voor Gigabytes, Weinig ervaring met evaluatie van QA.
12 Opzet TREC QA competitie Documenten: 2 CD s met krantentekst, Vragen: 200, concreet, met een duidelijk antwoord in de tekst, quiz-vragen, factoids: wie, wat, waar, wanneer, hoeveel,... Antwoord: fragment van maximaal 250 of 50 bytes uit de tekst,
13 Evaluatie van resultaten 3 Human Assessors beoordelen antwoorden, Meerderheid beslist, Systeem mag 5 antwoorden teruggeven, Score (Reciprocal Rank): 1 e antwoord correct: 1, 2 e : 0,5, 3 e : 0,33, 4 e : 0,25, 5 e : 0,2.
14 Typische aanpak analyseer (parse) de vraag, classificeer de vraag (naar persoon, tijdstip, hoeveelheid geld, etc), IR: selecteer relevante documenten, selecteer (parse) relevante zinnen (passages) uit relevante documenten. Beste score: 144 van 198 vragen beantwoord, 0,66 Mean Reciprocal Rank.
15 NIST Roadmap Wat zouden we willen over een paar jaar? Moeilijkere vragen (waarom, hoe, wat gebeurt er in Argentinië?), Informatie samenvoegen, Antwoorden die lijken op verslagen, samenvattingen, rapporten (wie was Freddy Heineken?)
16 Taalkundige kwesties Vragen analyseren (parseren) en classificeren, Sentence splitting: tekst naar zinnen, Stemming: woord naar stam,
17 Taalkundige kwesties Named Entity Recognition: plaatsen, etc. herkennen van namen, Shallow Parsing: herkennen van semantische relaties tussen woorden (oorzaak, gevolg, tijdstip,...) Anaphora resolution: Referenten van pronomina bepalen.