Information Retrieval: introductie 1



Vergelijkbare documenten
Multimedia Information Retrieval

Starten van de tool De tool wordt opgestart door een web browser te openen (bij voorkeur Google Chrome) en in de adresbalk te typen:

Information Retrieval.

automatische zoekverbetering

Computercommunicatie B: Informatiesystemen

Customer Satisfaction via Goal Driven Content Extraction

Plan van Aanpak. Plan van Aanpak. November Student Naam: David Fremeijer Studentnr:

Ranking database queries. Ranking in IR. Classic ranking in IR. Ranking in IR. Ranking in IR: score. Advanced Databases

Inleiding Informatiekunde I

Search Engine Optimalization (SEO)

Schrijven geoptimaliseerde teksten

Zoekstrategieën voor succesvol zoeken

ZOEKMACHINE-OPTIMALISATIE,

Mitchell Bouley & Paul vd Linden Taak Zoekmachines Vakdocent: Biggelaar Tutor: Griensven Mentor: Biggelaar

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Internet Marketing Termen

Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016

Gebruikershandleiding GO search 2.0

Nieuwe EU-verordeningen

Cover Page. The handle holds various files of this Leiden University dissertation.

Question Answering. College Natuurlijke Taalinterfaces. Januari 2002

Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms

De vragen sluiten aan bij de belevingswereld van de leerlingen en zijn onderverdeeld in de volgende vijftien categorieën:

1.7 Koppelen aan externe data: aan een Access-database

informatie architectuur 9 december 2010 IAM V

DATABASEBEHEER IN EXCEL

Negometrix Best Buy in 4 stappen

User Profile Repository Testrapportage kwaliteit

Contentmarketing voor juristen: bouwen aan je autoriteit en klantenbestand

online informatieonderzoek

Opinion Mining. Johan Stortelder s Onderzoeksplan masterscriptie. Mei 2006

Iedereen online, van 9 tot 99 jaar. Les Google: zoeken op het internet. Deze iconen tonen aan voor wie het document is

WIE A ZEGT MOET OOK B ZEGGEN

Information retrieval

Informatievaardigheden Introductie EndNote

Oplossingen Datamining 2II15 Juni 2008

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

WHITEPAPER. Wat is een. Responsive website? Voordelen van een. Responsive website? Hoe start je met een. Responsive website? RESPONSIVE WEBSITES

Snel en efficiënt informatie archiveren en delen met anderen

TURBO SEO. Op weg naar #1 in Google. SEO methode door Erwin Sigterman

Legal Intelligence, een nieuwe dienst voor juristen

Modulehandleiding VivianCMS. Zoeken

Free text of gecontroleerd vocabulaire: een dilemma

5 april _iv3_indeling_JSON.docx

+DQGOHLGLQJYRRUKHW]RHNHQLQ

Presentaties: presenteer jezelf met PowerPoint

Whitepaper linkbuilding Het verbeteren van uw positie in de zoekmachines

AFO 113 Authoritybeheer

DEEL I Media en de digitale samenleving 15

Gezondheidsinformatie online, wat kunnen we er mee? Whitepaper

Recognition and Detection of Objects Using Visual and Textual Cues S. Karaoğlu

Kinderen in beweging 9 t/m 12 jaar. Een groepsprogramma voor kinderen met overgewicht

Handleiding Pawpeds Deel 4

Informatica: C# WPO 9

Search Engine Optimization: Optimaliseren van webteksten voor zoekmachines

Combinatorische Algoritmen: Binary Decision Diagrams, Deel III

Gaap, ja, nog een keer. In één variabele hebben we deze formule nu al een paar keer gezien:

HOOFDSTUK 3. Imperatief programmeren. 3.1 Stapsgewijs programmeren. 3.2 If Then Else. Module 4 Programmeren

Inhoud van deze handleiding

Netwerkdiagram voor een project. AON: Activities On Nodes - activiteiten op knooppunten

VIA PUZZELS GOOGLE LEREN

Informatica: C# WPO 7


Aanmaken van een campagne in Meltwaterbuzz

BRIDGE. Gebruikershandleiding 2017

Open Boek - zoekformulier

Technische Functies - hoe ontwerpmethodologie filosofische analyse tart

BIBLIOTHEEK SOCIALE WETENSCHAPPEN. Handleidingen

Handleiding bij het Content Management Systeem

Zoekmachine optimalisatie Trends SEO ontwikkelingen om rekening mee te houden in 2011


Technische keuzes Management Informatie Systeem MeanderGroep

PhD project zoeken voor systematic reviews : stand van zaken. Wichor Bramer Web en Z 18 oktober 2018

Google PageRank Unplugged

Netwerkdiagram voor een project. AOA: Activities On Arrows - activiteiten op de pijlen.

3. Structuren in de taal

1. Inleiding Hoe wordt mijn website gemakkelijk gevonden in de verschillende zoekmachines.

Reader Workshop SEO OTYS Academy. Versie 1.0

Practicumopgave 3: SAT-solver

2E HUISWERKOPDRACHT CONTINUE WISKUNDE

Intranet: content-beheersystemen 1

HOE WORD JE EEN GREAT PLACE TO WORK? EEN TIP VAN DE SLUIER

Inleiding Programmeren 2

Muziek downloaden MP3 WMA Liedjes of albums? Collectie Waar?

Hand-out Methodiek Lookalike

Extra s voor je website

Stoeien met Statistiek

Opdracht 1 Topics on Parsing and Formal Languages - fall 2010

9. Strategieën en oplossingsmethoden

SEO. Verhoog uw zichtbaarheid in zoekmachines

SECTORWERKSTUK

Handleiding SEO controle & Publiceren blog-artikelen Wageningen UR blog. Oktober 2015

Inhoud. Endnote X7 Handleiding Mediacentrum maart 2015 Page 2

1. PLANNING INTRODUCTIE NIEUWE INTERFACE DOOR REGAS

Vergelijkingen met breuken

De Kleine WordPress Handleiding

CSCW: introductie 1. CSCW staat voor

Basisfunctionaliteit van gestructureerde zoeksystemen. Illustratie aan de hand van het zoeksysteem van Ebsco.

Lees eerst de algemene handleiding Gebruik Collectie Persdocumentatie!

Transcriptie:

Information Retrieval: introductie 1 hoe is relevante informatie in zeer grote hoveelheden van documenten te vinden? deze documenten moeten wel door de computer verwerkbaar zijn vaak zijn er te veel hits: 1.530.000 Nederlandstalige pagina s voor vezekering soms heeft dat met ambiguiteit te maken: LSA Vereniging voor Letselschade Advocaten, Landelijk Samenwerkingsverband Aandachtswijken, Linguistic Society of America,... soms krijg je te weinig hits door synonymie (mobbing, pesten) of inflectie (pesten, gepest) Information Retrieval (IR) zoekt relevante documenten voor een bepaald onderwerp in een grote hoeveelheid documenten 58

Information Retrieval: introductie 2 zoekmachines zijn een soort van IR-systemen twee kenmerken onderscheiden IR van het gewone zoeken in databases vaagheid: the gebruiker kan zijn informatiebehoeften niet precies uitdrukken en formaliseren onzekerheid: het systeem heeft geen kennis over de inhoud van de documenten verschil tot Information Extraction (IE): extractie van relevante informatie voor een bepaald onderwerp uit een grote hoeveelheid documenten de auteurs van de documenten en hun gebruikers zijn ook meestal gescheidene groepen documenten zijn niet als onderdeel van een database geschreven of gestandaardiseerd 59

Information Retrieval: introductie 3 er wordt naar index-termen gezocht, niet direkt naar documenten voorbereidende stap: indexopbouw bepaal relevante termen en hun voorkomens in de documenten termen zijn niet zomaar tekengroepen tussen spaties (anders zou string search voldoen) sla dit in een index op beide taken zijn vrij ingewikkeld (zie presentatie volgende week) ook zoekopdrachten worden na index-termen vertaald ze worden aan de hand van de index geëvalueerd (niet de documenten) een index is voor het beantwoorden van zoekopdrachten geoptimaliseerd, wat het beantwoorden heel effectief maakt 60

Information Retrieval: introductie 4 een index is statisch, hij verandert niet automatisch als documenten erbij komen/verdwijnen resultaten van een zoekopdracht worden m.b.t. hun relevantie gerangschikt de zoekprocedure (geformaliseerd als een algoritme) moet de relevantie van documenten voor een zoekopdracht kunnen beoordelen algoritmen voor deze rangschikking kunnen worden gemisbruikt om webpagina s na voren te schuiven ( search engine optimisation ) voorbeeld: pagina s voor verzekeringen 61

Information Retrieval: vectorruimtemodellen 1 documenten worden met betrekking tot hun index-termen gekarakteriseerd/ geëvaluateerd elk document krijgt krijgt als waarde een vector de dimensies zijn de index-termen, er zijn dus heel veel dimensies de waarde m.b.t. een index is het aantal voorkomens van de term (vaak is de waarde 0) een metriek voor de overeenkomst tussen twee documenten is de cosinus van de hoek tussen hun vectoren zoekopdrachten worden ook als vectoren geïnterpreteerd 62

Information Retrieval: vectorruimtemodellen 2 heel triviaal voorbeeld: vectorruimtemodel met maar twee index-termen Bush 6 5 4 3 <<Kennedy,1>,<Bush.6>> 2 1 <<Kennedy,5>,<Bush,1>> <<Kennedy,6>,<Bush,1>> 1 2 3 4 5 6 Kennedy Boolese zoekmethodes hebben een sterker microscopisch perspectief (van index-termen tot documenten) het vector-model heeft een sterker macroscopisch perspectief (er worden documenten en niet hun index-termen vergeleken) 63

Information Retrieval: vectorruimtemodellen 3 hoe vaker een term in een document voorkomt, hoe belangrijker hij is voor het document maar ruige gewichten voor termen (aantal voorkomens; tf t,d ) suggereren dat alle termen voor de relevantie van een document evenwichtig zijn maar zeldsame termen zijn belangrijker ervoor bijv. aansprakelijkheidsverzekering in tegenstelling tot verzekering er wordt dus ook gekeken hoeveel documenten in de hele collectie van documenten D een term t inhouden (document-frequentie df t ) daarmee wordt de inverse document-frequentie idf t berekend formule: idf t = log D df t (logx = y 10 y = x) het gewicht van een term in een document wordt dan door de TF-IDF-formule berekend: tf-idf t,d =tf t,d idf t 64

Information Retrieval: evaluatie 1 succes van IR heeft twee onderdelen precisie (precision): hoeveel van de gevonden documenten zijn relevant? formule: P = gevonden relevant gevonden vangst (recall): hoeveel van de relevante documenten zijn gevonden? formule: R = gevonden relevant relevant fall-out: hoeveel van de irrelevante documenten zijn gevonden? formule: F = gevonden irrelevant irrelevant er is een inverse samenhang (of een trade-off ) tussen precisie en vangst het hangt van de zoekopdracht af wat belangrijker is (bijv. van een gewone surfer in tegenstelling tot een jurist) 65

Information Retrieval: evaluatie 2 voorbeeld: 20 gevonden documenten, 18 ervan relevant, drie verdere relevante documenten zijn niet gevonden, 27 verdere irrelevante ook niet precisie: 18/20 = 90% recall: recall 18/21 = 85,7% fall-out: 2/29 = 6,9% eerste poging voor een metriek die precisie en vangst samenbrengt: accuraatheid hoeveel documenten zijn correct geclassificeerd (relevant én gevonden/irrelevant en niet gevonden) in ons voorbeeld: (18+27)/50 = 90% maar gezien de overgrote meerderheid van niet gevonden irrelevante documenten (in echte systemen boven de 99%) levert accuraatheid geen goede evaluatie op 66

Information Retrieval: evaluatie 3 tweede poging: F-waarde als precisie en de vangst evenwichtig zijn: de gewogen gemiddelde ertussen formule: F = 2PR P+R in ons voorbeeld: F = 18 2 20 18 21 18 20 + 18 21 = 0,87% dat is maar een vereenvoudigde versie van de formule met parameters voor de gewichten van F en R een andere metriek kijkt naar de volgorde van de gevonden documenten: worden belangrijkere documenten eerst genoemd? 67

Information Extraction vind en verzamel relevante informatie in documenten (en negeer de rest) relevantie wordt vaak in vorm van sjablonen (templates) gedefineerd formeel zijn dat (soms recursieve) paren van eigenschappen en nog niet ingevulde waarden zulke sjablonen kunnen met name als database-item worden gebruikt IE betekent dat de sjablonen worden ingevuld op basis van informatie in documenten dus, IE is geen vorm van diepgaande tekstanalyse (laat staan begrijpen van teksten) 68

Information Extraction: voorbeeld 1 de tekst Na de teleurstellende verkiezingen van 1972, waarbij D66 vijf zetels moest inleveren en de beoogde linkse meerderheid niet werd gehaald, trad Van Mierlo in de herfst van 1972 terug als fractievoorzitter. Hij werd gisteren opgevolgd door J.C. Terlouw. de sjabloon: aflossing OLDPERSON NEWPERSON POSITION ORGANISATION TIMEOUT TIMEIN 69

Information Extraction: voorbeeld 2 resultaat OLDPERSON Van Mierlo NEWPERSON J.C. Terlouw POSITION fractievoorzitter ORGANISATION D66 TIMEOUT herfst 1972 TIMEIN 10-09-72 recursieve structuren zijn mogelijk OLDPERSON NEWPERSON... NAME SURNAME VOORZETSELS Mierlo Van 70

Information Extraction: uitdagingen coreferenties: Van Mierlo refereert op dezelfde persoon als hij tijd- en datums-uitdrukkingen zoals gisteren moeten naar een gestandardiseerd formaat vertaald worden als er geen informatie over een slot beschikbaar is moet dit leeg blijven (sjabloon niet helemaal ingevuld) negeer irrelevante informatie (verkiezingen) eenvoudige linguistische analyse nodig voor passief: wie volgt nu op? lexicalisch weten nodig: terugtreden van A en opvolgen van B is een aflossing van A door B 71