Ranking database queries. Ranking in IR. Classic ranking in IR. Ranking in IR. Ranking in IR: score. Advanced Databases



Vergelijkbare documenten
Wie? Advanced Databases blok DB vs IR. Wat? Canonical application (DB) Canonical application (DB)

Information Retrieval: introductie 1

Multimedia Information Retrieval

Information Retrieval.

Data Manipulatie. Query Talen. / Informatica

SQL Aantekeningen 3. Maarten de Rijke 22 mei 2003

Starten van de tool De tool wordt opgestart door een web browser te openen (bij voorkeur Google Chrome) en in de adresbalk te typen:

Structured Query Language (SQL)

Les 11 : Basis SQL (deel2).

automatische zoekverbetering

Relationele Databases 2002/2003

LIMO zoekt gedrukte EN elektronische publicaties - in de catalogi van de K.U.Leuven bibliotheken en de andere bibliotheken van Libisnet -in LIRIAS =

ISO Query By Example

DAR Approximate string matching Casus: biological sequence alignment

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Databases - Inleiding

Databases (INFODB) 20 april 2010

Data Handling Ron van Lammeren - Wageningen UR

Een introductie tot gegevensbanken

DBMS. DataBase Management System. Op dit moment gebruiken bijna alle DBMS'en het relationele model. Deze worden RDBMS'en genoemd.

Multimediale Information Retrieval

Relationele Databases 2002/2003

Relationele Databases 2002/2003

Import via NatSync. Presentatie René Merx School voor de Toekomst

Smartsite ixperion Faceted Search

Datamodelleren en databases 2011

Oplossingen Datamining 2II15 Juni 2008

1. * Database worden vaak gebruikt in Client-Server architectuur.

SQL / Systeemanalyse

Inhoud van deze handleiding

DBMS SQL. Relationele databases. Sleutels. DataBase Management System. Inleiding relationele databases. bestaan uit tabellen.

Toon TITEL, JAAR en PLATVORM van GAMES die voor het jaar 2000 uitkwamen op Nintendo 64

Website beoordeling didactum.com.w3snoop.com

Informatie & Databases

Gekoppelde tabellen: de JOIN

Information retrieval

Introductie (relationele) databases

Zelftest SQL Workshop

Advanced Databases Topic 2: query processing aspects query optimisation. Query optimisation. Van SQL naar XRA. Algebraïsche herschrijving

Databank - Basis 1. Inhoud. Computervaardigheden en Programmatie. Hoofdstuk 4 Databank - Basis. Terminologie. Navigeren door een Venster

ProQuest. Zoeken in ProQuest-databanken: Political Science Database, Sociology Database, Social Science Database.

FLIPIT 5. (a i,j + a j,i )d i d j = d j + 0 = e d. i<j

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Inleiding Programmeren 2

ZOEKEN IN BUSINESS SOURCE PREMIER

ZOEKEN IN PROQUEST SOCIAL SCIENCES

Tentamen Databases voor iku

Inleiding Programmeren 2

Inhoud van deze handleiding

Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016

Miniles gegevensbanken bevragen met SQL

Databases (INFODB) 24 januari 2007

ZOEKEN IN PROQUEST BUSINESS COLLECTION

Tentamen Databases voor ica

ISO SQL: Structured Query Language

SQL: query taal met. woorden. ISO SQL: Structured Query Language. de SQL basis query structuur. voorbeeld: doel: intuitieve query taal

Technologie als nieuwe wetenschap Lezing voor KIVI-NIRIA sectie Filosofie en technologie

Databases en SQL Foundation (DBSQLF.NL)

LDA Topic Modeling. Informa5ekunde als hulpwetenschap. 9 maart 2015

We moeten de accommodaties selecteren die 3 sterren hebben, en in land met ID 10 zitten.

Website beoordeling feedbackvote.com

De Autonome Zoekmachine. Maarten de Rijke

Koppeling met een database

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

ZOEKEN IN SPORTDISCUS

Lees eerst de algemene handleiding Gebruik Collectie Persdocumentatie!

Zelftest SQL Workshop

PubMed: korte handleiding

Ontpopping. ORGACOM Thuis in het Museum

ZOEKRESULTAAT: SORTEREN EN VERFIJNEN (FILTERS)

DATAMODEL SQL. Middelbare School. Versie 1.0 Datum 30 oktober 2010 Auteur Mark Nuyens, studentnummer: Groep TDI 1

COAVA. Gebruikershandleiding. Gebruikershandleiding bij de COAVA web applicatie CLARIN-NL

Als je naar ERIC gaat kom je automatisch bij Basic Search (eenvoudig zoeken).

[TOETS SQL INLEIDING]

Informatievaardigheden Introductie EndNote

Lineaire Algebra voor ST

NHibernate als ORM oplossing

Ga naar en type de woorden zelf bonbons maken in het zoekveld.

OP EN IN HET WEB. Hoe de toegankelijkheid van juridische informatie kan worden verbeterd

PiCarta, Online Contents, NCC (Nederlandse Centrale Catalogus) Je kunt alle PiCarta subbestanden tegelijk doorzoeken, maar ook afzonderlijk.

Sparse columns in SQL server 2008

Elastic Search wat heb je aan data als je er niets mee doet.. Oscar Buse 11 juli 2017 Linux User Group Nijmegen

Unitaire en Hermitese transformaties

Academisch schrijven Inleiding

Educational dataforensics

Relationele databanken

Customer Satisfaction via Goal Driven Content Extraction

Auteur Arjaan den Ouden Datum 4 december 2013 Status Definitief Versie 1.0

Combinatorische Algoritmen: Binary Decision Diagrams, Deel III

SHICO: SHIFTING CONCEPTS OVER TIME

Schoolsucces van Friese leerlingen in het voortgezet onderwijs de Boer, Hester

Zo kan je linken maken tussen je verschillende groepen van gegevens.

Les 2 Eenvoudige queries

TENTAMEN WISKUNDIGE BEELDVERWERKINGSTECHNIEKEN

Illustrator Tutorial - How to Create a Watch

WOUTER GERRITSMA, UB-VU

University of Groningen Educational value of digital examination

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Proeftentamen ISO (2R290), query-gedeelte, Oktober 2006

ContentSearch. Deep dive

20/11/2015 HOE EN WAAR EFFICIËNT ZOEKEN? INHOUD SESSIE

Transcriptie:

Advanced Databases Topic 3: ranking van database queries Ranking database queries Outline ranking in IR toepassing ranking bij database queries: many-answer problem zero-answer problem 1 2 Classic ranking in IR Basisprincipes bag of words model term frequency inverse document frequency vector space model Talloze uitbreidingen phrase queries Google ranking Uitgangspunten Ranking in IR collectie van N documenten boeken, tijdschriften, web-pagina s; deze zijn geïndexeerd (inverted list) query (free text) opsomming van zoektermen q = <t 1,, t m > 3 4 We zoeken naar Ranking in IR een scorefunctie score(q,d) die overeenkomt met onze intuïtie betreffende relevantie Observatie 1 Score van match tussen term t en document d is hoog als t vaak voorkomt in d Term frequency tf(t,d) Het aantal voorkomens van term t in document d 5 6 1

Observatie 2 query = <man, romantisch, zorgzaam> Minder vaak voorkomende zoektermen moeten zwaarder wegen Collection frequency cf(t) aantal voorkomens van term t in collectie Document frequency df(t) aantal documenten dat term t bevat 7 8 Inverse document frequency idf(t) idf(t) = log(n/df(t)) zeldzame termen hebben een hoge idf TF-IDF weging geeft aan term t in doc d een gewicht tf-idf(t,d) = tf(t,d) * idf(t) Vector view op documenten, queries een document d of een query q kan ten behoeve van scoring beschouwd worden als een vector over alle mogelijke zoektermen, met voor elke term een gewicht w t,d ; dit kan zijn: tf, idf of tf-idf 9 10 Voor elk document d hebben we een vector Op basis van het VSM gaan twee twee noties van similarity introduceren: 1.sim (d1,d2) 2.sim(q,d) voor query q en document d Punt 1 is van belang voor more like this features Daarbij zullen we gebruik maken van de notie van inproduct van twee vectoren 11 De cosine similarity tussen twee documenten d1 en d2 is het inproduct van de bijbehorende vectoren, gecorrigeerd voor de lengte of, als je de vectoren eerst normaliseert voor hun Euclidische lengte (kleine letter v) 12 2

Het inproduct ( ook inner product, vector product) van twee vectoren kan op twee equivalente manieren uitgedrukt worden Voorbeeld: drie romans Sense and Sensibility (Jane Austen), Pride and Prejudice (JA), Wuthering heights (Emily Brontë) Voor genormaliseerde vectoren geldt dus: Cosine sim weging op tf 13 14 Queries als vectoren Visuele representatie Cosine Similarity Voorbeeld (N = 1.000.000) 15 16 Er zijn talloze verfijningen Voorbeeld: sublinear tf scaling Motivating example: Scully query SELECT * FROM Profile WHERE skin_color = grey AND skin_hair = 0 AND pupil_dilatation = oval AND verbal_sound = gargling AND length BETWEEN 3 AND 4 AND number_of_toes = 8 AND ESP_capability = high AND character = charming 17 18 3

Twee mogelijke problemen 1. many answers er zijn veel tuples in de resultaattabel; kunnen we ranking-technieken uit de IR gebruiken? 2. zero answers er zijn geen tuples die aan alle eisen voldoen, maar zouden we mbv. ranking een zo goed mogelijk antwoord kunnen geven? Aanpak op basis van: Automated Ranking of Database Query Results Agrawal, Chaudhuri, Das, Gionis Microsoft Research Conference on Innovative Data Systems Research (CIDR), 2003 19 20 Kernvraag 1 Hoe generaliseer je de IR-maten en scores? Definities We gaan vooralsnog uit van één tabel R met attributen { A 1,, A m } en tupels { t 1,, t n } Basic query shape SELECT * FROM R WHERE C 1 AND AND C k Hierin is conditie C i van de vorm A j = q j Een meer geavanceerde C i is Aj IN (q j1,, q jl ) 21 22 Generaliseer klassieke IR (Her)definities Wat is in deze database-context de tegenhanger van het begrip: document query term tf df idf Generaliseer klassieke IR (Her)definities Gegeven attribuut A k ; Voor elke waarde t uit dom(a k ) is F k (t) het aantal tuples in R met A k = t Laat N = R ; we definiëren idf k (t) = log(n/f k (t)) We definiëren de similarity coefficiënt S(u,v) = idf k (t) als u = v, anders 0 23 24 4

Generaliseer klassieke IR (Her)definities Gegeven een tuple T = <t 1,, t m > en een query Q = <q 1,, q m > de similarity tussen T en Q is: In feite is dit weer de Cosine Similarity met TF-IDF-weging Generaliseer klassieke IR Complicaties 1. attribuut is niet categorisch maar numeriek >> zie donderdag 2. conditie heeft vorm Aj IN (q j1,, q jl ) neem dan de maximale S(t j,q ji ) in de cosine similarity 25 26 QF-similarity Observatie 1 In een onroerend goed database zijn nieuwe woningen vaker vertegenwoordigd dan oude. Hun IDF is dus lager. Toch is de vraag naar nieuwe woningen groter. Observatie 2 In een boekwinkel is de vraag naar een bepaalde auteur niet afhankelijk van het aantal boeken dat hij/zij geschreven heeft. De IDF geeft hier ook geen goede indicatie Use the workload Oplossing 1 Laat een domeinexpert de weging bepalen: duur, applicatie-afhankelijk Oplossing 2 Haal je weging uit de query workload (automatisch); dit is de verzameling queries die gedurende de levensduur van je database uitgevoerd zijn 27 28 QF-similarity QF similarity: gebruik de workload Definities RQF(q) is de raw frequency van waarde q onder attribuut A in de workload RQFMAX is de frequentie van de meest voorkomende term QF(q) = RQF(q)/RQFMAX QF-similarity QF(q) neemt de rol van TF over in de Cosine Similarity: S(t,q) = QF(q) als q = t, anders 0 En wederom: 29 30 5

Observatie Attribute similarity query op attributen merk, type: <Ferrari, 430> tuples: <Lamborghini, Gallardo> <Kia, Picanto> Attribute similarity W(t) is de subset van de queries in de workload waarin waarde t voorkomt in een IN-clause: t IN (Toyota, Nissan, Honda) De Jacquard coefficient meet de similarity tussen sets W(t) en W(q): in beide gevallen is de S(q i,t i ) = 0 maar 31 32 Aanpak Zero answers In plaats van stricte match op alle condities geef je een top-k selectie op basis van ranking Experimentele resultaten Beste resultaten: QF_IDF > QF > IDF Naarmate de workload groeide, nam de kwaliteit van QF toe Aanpak Many answers Kijk naar ontbrekende attributen breid je similarity uit met of met Experimentele resultaten QF > IDF 33 34 Implementatie prototype gebruikt variant van Fagin s top-k algorithme attribute similarity op basis van data mining techniek opgave 3: donderdag inleidende presentatie door Nicola Barile 35 6