Wat gaan we doen, vandaag? College 5, 28 november 2006
Wat gaan we doen, vandaag? Overzicht van de colleges 31 oktober Inleiding cursus 7 november Rondleiding Letterenbibliotheek 14 november Databases 21 november Communicatie in digitale media 28 november Information retrieval 5 december Strings 12 december Algoritmiek
Wat gaan we doen, vandaag? College 5. Information Retrieval 1 Information Retrieval 2 3 4 5
Wat is Information Retrieval? Definition Een IR-systeem matcht de vraag ( query ) van de gebruiker tegen een verzameling documenten, en geeft een lijst documenten terug die relevant worden geacht voor de vraag. Vraag: Uitdrukking van de behoefte aan informatie van de gebruiker (bijv. heb je boeken over chaostheorie? ) Document: krantenartikel, webpagina, boektitel, abstract,... Verzameling documenten: een database met electronische documenten Relevantie: waar gaat het eigenlijk over?
IR-systemen Information Retrieval Voorbeelden van IR-systemen RUG on-line bibliotheekcatalogus http://www.rug.nl/bibliotheek zoekmachines (Google, AltaVista, Infoseek, NorthernLight) Abstracte databases op CD-ROM: inspec, medline
Relevantie Information Retrieval Relevantie Centraal concept bij IR moeilijk objectief te definiëren IR-onderzoek draait om het imiteren van het vermogen van een goede bibliothecaris om de relevantie van een document te beoordelen. Belangrijkste kwesties: Indexeren: Hoe representeren we de verzameling documenten? Matchen: Hoe vergelijk je de zoekvraag met de documentencollectie? Prestatie: Hoe weet je of het systeem naar behoren werkt? (Performance)
Performance Information Retrieval
Performance Information Retrieval Recall: Heb ik alles? Precision: Hoeveel troep heb ik?
Performance (2) Recall: hoeveel relevante documenten heb ik gevonden? Precision: hoeveel hits zijn relevant? Gegeven een zoekvraag Q die een resultaat Res oplevert Rel is de verzameling relevante documenten Hits is de doorsnede van Rel en Res Recall = Hits / Rel Precision = Hits / Res
Indexeren Information Retrieval Ken een lijst keywords of indextermen toe aan elk document. indexterm (ook: concept) Een woord of uitdrukking die de inhoud van het document karakteriseert. Voorbeeld: Koppel taalkunde en generatieve grammatica aan Chomsky s Aspects of the Theory of Syntax. Twee aanpakken: Gecontroleerde woordenlijst Vrije tekst
Gecontroleerde woordenlijst Een vooraf vastgestelde lijst van indextermen (bibliotheeksystemen, CWI) Typisch vastgesteld door menselijke experts Document wordt geindexeerd door de meest toepasselijke termen uit het vocabulaire te kiezen Document moet geanalyseerd worden en geclassificeerd tegen de woordenlijst indextermen zijn typisch hiërarchisch opgebouwd: muziek nederlandstalig smartlappen Diep Triest
Gecontroleerde woordenlijst (2) Moeilijk te automatiseren, maar pogingen worden wel ondernomen. Voorbeeld: NASA s gecontroleerde woordenboeksysteem Voorbeeld 1: Library of Congress subject headings Handhaaft hiërarchie Klassificeert alle nieuwe boeken onder bestaande boom Voorbeeld 2: Yahoo is een handmatig gebouwde internet catalogus Voorbeeld 3: RUG on-line bibliotheekcatalogus
Vrije tekst Information Retrieval Zoekmachines gebruiken vrije-tekstmethoden om hun index op te bouwen Vocabulaire is onbeperkt: zoektermen worden uit documenten afgeleid Indexering gebeurt automatisch Zet document om in reeks woorden door interpunctie en functiewoorden als een en de te verwijderen Verwijder uitgangen (stemming), of vind de canonieke vorm (lemmatisering) Kies beste termen uit overblijvende reeks, en ken aan elk een passend gewicht toe
Indexeren Voorbeeld Fatma Koser Kaya (D66) komt door voorkeurstemmen de Tweede Kamer binnen met 34.564 kiezers achter zich, ten koste van haar partijgenoot Bert Bakker. Reeks woorden: fatma koser kaya d66 komt door voorkeurstemmen de tweede kamer binnen met 34.564 kiezers achter zich ten koste van haar partijgenoot bert bakker Verwijder functiewoorden: fatma koser kaya d66 voorkeurstemmen komt tweede kamer kiezers partijgenoot bert bakker Stemming: fatma koser kaya d66 voorkeurstem kom tweede kamer kiez partijgenot bert bakker Lemmatisering: fatma koser kaya d66 voorkeurstem komen tweede kamer kiezer partijgenoot bert bakker OF
Termselectie en weging Kies de beste indextermen uit de verkregen lijst, en weeg ze. Beschouw het belang van de term in relatie tot het document Hoe vaker een term optreedt, hoe groter het belang (tf = term frequency) Beschouw optreden van de term in alle documenten samen. In welke mate karakteriseert het het document waarin het optreedt? Hoe groter het verschil in frequentie tussen dit document en de andere documenten, hoe significanter (idf = inverse document frequency)
Het wegen van termen Laagfrequente termen geven hoge precisie maar lage recall Hoogfrequente termen geven hoge recall maar lage precisie Middelfrequente termen zijn het beste hoog gewicht toekennen Slechte termen weglaten? Nee, maar laag gewicht toekennen. Meest gebruikte wegingsfunctie is tf idf
Matchen Information Retrieval Gebruiker levert ongeordende woordenlijst. Haal daar indextermen uit. Voorbeeld: automatisch vertalen europa EU levert zoektermen europa, eu en automatisch vertalen op Zoek naar documenten die hoog scoren op deze termen Geef een gesorteerde lijst terug met matchende documenten Implementatie: 1 Vector Space Model 2 Latent Semantic Indexing 3 Probabilistic Retrieval 4 Connectionistische Benaderingen
Vector Space Model Stel je een verzameling documenten voor als een n-dimensionele ruimte, met één dimensie per indexterm Geef het document weer als een n-dimensionele vector D. d i = w i als term i D; anders d i = 0 Geef de zoekvraag weer als een n-dimensionele vector Q. q i = 1 als term i Q; anders q i = 0 Bereken de nabijheid tussen de vector van de zoekvraag en alle andere vectoren, en geef de dichtstbijzijnde.
Voorbeeld Information Retrieval Voorbeeldzin: de kat zat op de mat Zoektermen: kat, zat, mat, vandaag, gisteren Document Vector a) de kat zat op de mat [11100] b) de kat zat gisteren [11001] c) de kat zat [11000] d) de kat zat gisteren op de mat [11110] Query Vector kat, mat, vandaag [10110] Matching Doc Doc Vector Query Vector Score a [11100] [10110] 2 b [11001] [10110] 1 c [11000] [10110] 1 d [11110] [10110] 3
Problemen met vrije tekst Dubbelzinnige keywords Bijvoorbeeld: bank financiëel instituut, data-opslag, zitmeubel, mistflard Hoe kunnen we desambigueren? Huidig onderzoek naar Word Sense Disambiguation (WSD) werkt met contextuele aanwijzingen Geen contextuele aanwijzingen in IR zoekvraag WSD is actief onderzoeksgebied voor IR Enige oplossing is: veel indextermen ingeven.
Problemen met vrije tekst (2) Polysemie Meerdere termen voor één begrip: zetel, bank of woonkamer, living. Zoekopdracht voor woonkamer mist verwijzingen naar living Zoekopdracht kan automatisch uitgebreid worden m.b.v. thesaurus (Wordnet, bijvoorbeeld) Thesaurus is door mensen gemaakt Meer termen kan tot veel irrelevante output leveren (lage precision) Moraal van het verhaal: Intelligente resultaten vragen intelligente zoekopdrachten
Problemem met IR Vaak lastig om in een zoekmachine te vinden wat je zoekt Overdaad aan irrelevante hits Sommige indextermen zijn erg ambigu of algemeen ( middel, lijst ) Lastig om een zoekopdracht te formuleren die exact beschrijft wat je zoekt Hoe vergroot je de precisie zonder de recall te verlagen? Veel actueel IR-onderzoek probeert dat probleem op te lossen
We bekijken enkele van de meer algemene tactieken voor het verbeteren van zoekopdrachten verplichte versus optionele zoektermen wild-cards ( joker ) en uitdrukkingen matchen filteren, feedback over relevantie automatisch aanvullen van zoektermen proximity operators, booleaanse zoekopdrachten NLP, meertaligheid Aan het werk in Alta Vista
Verplichte versus optionele zoektermen Te algemene zoektermen Pacino levert fan-pagina s voor Al Pacino, maar ook Italiaanse restaurants Oplossing: maak belangrijkste termen verplicht Alle andere termen zijn optioneel In Altavista is + verplicht: +Pacino Italiaans +acteur Amerikaans
Wild cards Information Retrieval Zoekmachines maken amper gebruik van stammen en lemma s Gangster films gangster film Oplossing: alle varianten invoeren omslachtig OF gebruik wild card voor willekeurige suffix AltaVista maakt gebruik van Dus gangster film
Uitdrukkingen matchen Belangrijkste eenheden in IR: meerwoord termen ( phrase ) Phrase: meerdere woorden die vaker samen voorkomen dan aan toeval kan worden toegeschreven Betekenis van het geheel is anders dan van de samenstellende delen Statistische analyse kan dergelijke phrases opsporen co-occurence Gebruik maken van aanhalingstekens: gangster film
Filteren Information Retrieval Soms verdrinkt een resultaat in andere informatie Zoek nu op verkiezingen en je vindt alleen 2006 Filteren verwijdert alle resultaten met bepaalde eigenschappen Gebruik maken van het minteken: +verkiezingen -2006 Op deze manier kun je een deelverzameling krijgen van een eerder resultaat
Feedback over relevantie Vaak levert een enkele zoekopdracht niet veel relevante resultaten Kunnen we de zoekopdracht verfijnen aan de hand van de lijst met resultaten? Oplossing: feedback laat de gebruiker relevante documenten uitzoeken selecteer extra termen uit deze relevante documenten, en gebruik die Veel varianten op deze aanpak mogelijk, én in roulatie
Automatische aanvulling van zoektermen Het probleem van polysemie blijft Holland levert geen documenten over Nederland, Groningen, Benelux Oplossen door het systeem automatisch extra termen te laten toevoegen Vereist handmatig opgestelde terminologie-database / thesaurus Thesaurus moet handmatig opgebouwd worden Onderzoek naar automatische constructie loopt al tientallen jaren
Booleaanse zoekopdrachten Standaard AltaVista zoekopdrachten worden opgevat als lijsten met termen Booleaanse zoekopdrachten ( advanced search ) maakt precieze specificatie mogelijk, ten koste van de recall Booleanse zoekopdrachten maken gebruik van booleaanse connectieven: and, or en not inspec en medline maken gebruik van Booleaans zoeken
Nabijheids-operatoren Uitdrukkingen zijn soms alleen relevant wanneer ze vlakbij een andere anchor term voorkomen. Football alleen in de buurt van Dutch, bijvoorbeel, anders betekent het rugby. Nabijheidsoperatoren laten de gebruiker specificeren dat twee termen vlakbij elkaar moeten voorkomen (maximaal N woorden ertussen) In AltaVista gebruik je de NEAR operator: Veendam AND (football NEAR Friesland) Extra informatie toevoegen om specifiekere informatie te krijgen
NLP in IR Information Retrieval Combinatie klinkt logisch en intuïtief Verbetering op grond van statistiek Niet terecht: niet effectief, wel duur Toepassing vooral in natuurlijke taal interface AltaVista heeft beperkte QA-faciliteit
Meertalige IR Information Retrieval Meertalige IR doorzoekt documenten in verschillende talen Taalkeuze AltaVista noteert de taal van het document, kan de gebruiker dus alleen in zijn eigen taal bedienen Documenten vertalen Gebruik maken van traditionele vertaalcomputers om gevonden documenten te vertalen AltaVista gebruikt systran Zoektermen vertalen IR door verschillende talen Vertaal de zoekterm in alle beschikbare talen Combineer de resultaten tot een meertalige lijst
Tips bij het gebruik van zoekmachines Bestudeer de advanced options Maak gebruik van gidsen en catalogi Weet je zeker dat je weet wat je zoekt? Maak gebruik van uitdrukkingen, wetenschappelijke namen en eigennamen, die zijn minder ambigu Wees bereid om herhaaldelijk te verfijnen
TREC Text REtrieval Conference: jaarlijks in november in Gaithsburg, Maryland Belangrijkste ontwikkeling in IR sinds 1970 Voor TREC waren experimenten kleinschalig en niet gestandaardiseerd slecht te vergelijken 1991: Amerikaanse Department of Defense (DoD) lanceert tipster-initiatief: Geeft meerdere Gigabytes aan data uit op CD-ROM Ongestructureerde standaardtekst over algemene onderwerpen (Wall Street Journal, AP Newswire) Verzameling zoekopdrachten over documenten Verzameling relevantieoordelen (welke documenten zijn relevant voor welke zoekopdracht
TREC Information Retrieval DoD nodigt onderzoekers uit om elk jaar hun systeem te testen op deze data Resultaten worden bekendgemaakt op TREC Fenomenaal succes, loopt nog steeds Veel extra taken: Chinese IR Cross-language IR Spraak IR
De RUG-catalogus Contrast RUG gebruikt controlled subject hiërarchie AltaVista heeft vrije tekst RUG records zijn gestructureerd in diverse velden AltaVista gaat ervan uit dat alle webpagina s ongestructureerd zijn RUG records zijn handmatig gemaakt AltaVista maakt gebruik van automatische index-technieken RUG biedt exacte én partiële matching AltaVista gaat uit van exacte matching IR-onderzoekers mijden het web omdat het lastig is om experimenten te organiseren.
Het indexeren van hyperlinks Modern IR-onderzoek richt zich op TREC-collectie documenten met minimale structuur geen verband onderling Zoekmachines werken net zo, maar webpagina s hebben een rijke hyperlink structuur hoe maken we daar gebruik van?
Standaard zoekmachines Problemen met standaard zoekmachines Niet alle websites zijn even betrouwbaar Geen kwaliteitscontrole op het web Veel sites proberen kunstmatig hun waardering op te schroeven Ambiguïteit, polysemie,...
Mogelijke oplossingen Handmatig samengestelde catalogi Semantische netwerken Analyse van citaties Dynamische analyse
Handmatig samengestelde catalogi Yahoo Alleen handgeselecteerde pagina s worden toegevoegd Geeft goede resultaten Menselijke interventie nodig voor onderhoud (keywords, aanwas) Je rent altijd achter de feiten aan
Semantische netwerken WordNet definieert concepten verbindt concepten in een netwerk gelijksoortige concepten worden bij elkaar gezet Netwerk doorkruisen om gerelateerde concepten op te halen Netwerk wordt handmatig gemaakt en aangepast
Semantische netwerken (2) Voorbeeld Sense 1: gangster, mobster -- (a criminal who is a member of a gang) => criminal, felon, crook, outlow, malefactor -- => wrongdoer, offender -- (person who transgresses...) => bad person -- (person who does harm to others) => person, individual, someone, somebody,... => life form, organism, being,... => entity, something => casual agent, cause,... => entity, something --
Information Retrieval Google Analyse van citaties Eugene Garfield: belang van een artikel af te leiden uit het aantal verwijzingen (1960) Websites: goede websites worden vaak gelinkt Google robots kruipen over het net op zoek naar frequente sites Vindt universeel populaire sites, New York Times Koppelt ook links vanaf populaire sites
Information Retrieval Dynamische analyse Geclusterde links duiden op webgemeenschappen sites die vooral naar elkaar verwijzen olievlekken in Japan Bronnen voor Turken in de VS Brandweer in Australie
Dynamische analyse IBM Clever System Aanpak vergelijkbaar met Google maar onderscheid tussen hub pages : lijsten links (rood) authoriteitspagina s: sites met inhoud (blauw) naar linken Een goede hub verwijst naar authoriteiten, en v.v. cirkeldefinitie, gebruikt door een iteratief algoritme om resultaten van standaardzoekopdracht te sorteren Goede hubs en authoriteiten hoog plaatsen
Conclusies Information Retrieval Huidige IR is stabiel en betrouwbaar technieken zijn noodzakelijk Onderzoek op nieuwe terrein blijft doorgaan CLIR (Cross-language information retrieval), bijvoorbeeld Hyperlink indexing systeem is overwegende techniek Google overvleugelt andere zoekmachines
Verwijzingen Information Retrieval Notess: beschrijft en bekritiseert zoekmachines (http://www.notess.com) NBER: Inventaris van zoekmachines (http://www.nber.org/links/search.html) All One Search: Gecombineerd zoeken (http://www.allonesearch.com) INSPEC: Bibliografie voor natuurkunde, electronica en informatica (http://www.iee.org/publish/inspec) MEDLINE: On-line medische informatie (http://medlineplus.gov)
Library of Congress Subject Headings Library of Congress Subject Headings De facto standaard in bibliotheek terminologie http://www.unc.edu/depts/jomc/academics/dri/loc/ lcsh.html
Aanwijzingen Information Retrieval Maak gebruik van wat je is aangeboden! Inhoud staat voorop. Schrijf een wetenschappelijk betoog L A TEX biedt veel hulp gebruik die \maketitle \subsection Aanhalingstekens bibliografie Schrijfstijl is belangrijk. Gestructureerd betoog Taalfouten corrigeren Stijlfouten vermijden
Eindopdracht: wetenschappelijk betoog Schrijf een wetenschappelijk betoog naar aanleiding van het AWT-rapport van Wiebe Bijker en Ben Peperkamp 1. Lees ook de begeleidende brief 2 en de uitgebreide toelichting 3. Vergelijk het perspectief van dat rapport met de insteek die Informatiekunde in Groningen kiest. Vereisten: 10 pagina s, circa 4.000 woorden gestructureerde opbouw, wetenschappelijke stijl in LaTeX, met bibliografische verwijzingen 3 http://odur.let.rug.nl/ mineur/onderwijs/awt-rapport.pdf 3 http://odur.let.rug.nl/ mineur/onderwijs/awt-brief.pdf 3 http://odur.let.rug.nl/ mineur/onderwijs/awt-toelichting.pdf
Information Retrieval : Stel een plan op van 1 A4 waarin je uiteenzet hoe je je betoog gaat opbouwen. Bedenk wat je insteek wordt: wat is je centrale stelling? Welke voorbeelden wil je gebruiken? Bekijk bijdragen 4 van vorige jaren 4 http://odur.let.rug.nl/ mineur/onderwijs/voorbeelden.html
Overzicht van de colleges 31 oktober Inleiding cursus 7 november Rondleiding Letterenbibliotheek 14 november Databases 21 november Communicatie in digitale media 28 november Information retrieval 5 december Strings Arbo-instructies 12 december Algoritmiek