Semantische. Eindwerkstuk voor Information Retrieval Wybo Wiersma, s

Vergelijkbare documenten
De statespace van Small World Networks


Cover Page. The handle holds various files of this Leiden University dissertation.

WHITEPAPER Sentiment Analyse

Tellen met Taal. Het meten van variatie in zinsbouw in Nederlandse dialecten. Marco René Spruit

Een hele eenvoudige benadering van de oplossing van dit probleem die men wel voorgesteld heeft, is de volgende regel:

Tweak-Test van Sformula, WordNet, Naked Keywords & Random Retrieval

Het sem metrix. metrix-project. De profielgebaseerde meting van lexicale. University of Leuven RU Quantitative Lexicology and Variational Linguistics


Cover Page. The handle holds various files of this Leiden University dissertation.

Populaties beschrijven met kansmodellen

The expression of modifiers and arguments in the noun phrase and beyond van Rijn, M.A.

Vaardigheden van Nederlandse leraren taal, rekenen, problemen oplossen

De Grids van het Actueel Hoogtebestand Nederland

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Virtuele Markten Trading Agent Competition

Instructie voor Docenten. Hoofdstuk 13 OMTREK EN OPPERVLAKTE

Research Note Prestatie-analyse met behulp van box plots

automatische zoekverbetering

Rekenen: Meten groep 4 en hoger. Het leren van simpele weegopdrachten.

Bijzondere kettingbreuken

NLP technieken voor Question Answering

De wijde wereld in wandelen

Continuous Learning in Computer Vision S.L. Pintea

Laagfrequent geluidshinder klacht woning Losser

Normering en schaallengte

IMPRESSIE ICT BENCHMARK GEMEENTEN 2011

Rekenen aan wortels Werkblad =

Samenvatting Impliciet leren van kunstmatige grammatica s: Effecten van de complexiteit en het nut van de structuur


Transparency in Language: A Typological Study S.C. Leufkens

Information Retrieval: introductie 1

8. Analyseren van samenhang tussen categorische variabelen

Folkert Buiter 2 oktober 2015

Stakeholder behoeften beschrijven binnen Togaf 9

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Mastermind met acht kleuren

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

FESLI. Gebruikershandleiding. Gebruikershandleiding bij de FESLI web applicatie CLARIN-NL

Oplossingen Datamining 2II15 Juni 2008

n-queens minimale dominantie verzamelingen Chessboard Domination on Programmable Graphics Hardware door Nathan Cournik

Kernbegrippen Handig met getallen 1, onderdeel Bewerkingen

Ieder tweetal heeft nodig: Een kopie van de slagschipspelletjes: 1. 1A, 1B voor spel A, 2B voor spel A, 3B voor spel 3

Informatie & Databases

Wat maakt WizeNote uniek?

Project: Kennisdocument Onderwerp: p90 Datum: 23 november 2009 Referentie: p90 onzekerheid Wat betekent de p90 (on)zekerheid?

Summary in Dutch 179

Hoofdstuk 21: Gegevens samenvatten

Hoofdstuk 1 Spiegelen in lijn en in cirkel. Eigenschappen.

Marktscan Digikoppeling 2017

Eindexamen wiskunde A havo I

Taaljournaal Leerlijnenoverzicht - Lezen

Starten van de tool De tool wordt opgestart door een web browser te openen (bij voorkeur Google Chrome) en in de adresbalk te typen:

Combinatorische Algoritmen: Binary Decision Diagrams, Deel III

P l u r a l i t e i t Hoorcollege Semantiek 28 maart 2012

Definitie 1.1. Een partitie van een natuurlijk getal n is een niet stijgende rij positieve natuurlijke getallen met som n

Informatie ophalen uit het Alfabet

Centraal Bureau voor de Statistiek TOELICHTING CONJUNCTUURKLOKINDICATOR. Floris van Ruth

Samenvatting Zoeken naar en leren begrijpen van speciale woorden Herkenning en de interpretatie van metaforen door schoolkinderen

Uitleg van de Hough transformatie

Magidoku s en verborgen symmetrieën

Witte Dakcoating Höften Strakschilders

Netwerkdiagram voor een project. AON: Activities On Nodes - activiteiten op knooppunten

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Uitvoering advies aanlevering beleidsinformatie Veilig Thuis

Slangennest Wiskunde B-dag 2018

? 50. Som-som puzzels: meer dan zomaar leuk! ?? 17 ?? 27. c 3 10

Cover Page. The handle holds various files of this Leiden University dissertation.

Transfer en toegang tot Universele Grammatica in tweedetaalverwerving door volwassenen

9. Strategieën en oplossingsmethoden

Vragen. Terugkomcursus Met Sprongen Vooruit groep 3 en 4

Cover Page. The handle holds various files of this Leiden University dissertation.

Question Answering. College Natuurlijke Taalinterfaces. Januari 2002

Aanpassing te reserveren biedladder middelen

DEC SDR DSP project 2017 (2)

Extra opdrachten met het zinsbouwpakket. Bijlage bij het Basisboek syntaxis

Semantic Versus Lexical Gender M. Kraaikamp

3D PRINTING FABRICS, TEXTILES AND CHAINMAIL

Samenvatting. A. van Leeuwenhoeklaan MA Bilthoven Postbus BA Bilthoven KvK Utrecht T

Nu een leuk stukje wiskunde ter vermaak (hoop ik dan maar). Optellen van oneindig veel getallen

Opinion Mining. Johan Stortelder s Onderzoeksplan masterscriptie. Mei 2006

: een wiskundige uitdaging

Het blijkt dat dit eigenlijk alleen lukt met de exponentiële methode.

Eigen vaardigheid Taal

Inleiding: Combinaties

Release notes. Versie 2.3

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

11. Deelopdracht 8: Invloed stress op gezondheid

Cover Page. The handle holds various files of this Leiden University dissertation.

Verschillenanalyse effect nieuwe BKR. Samenvatting. Inleiding. datum Directie Kinderopvang, Ministerie SZW. aan

nederlandse samenvatting Dutch summary

PROJECTNUMMER D ONZE REFERENTIE D

VEEL CROSS-SECTORALE INNOVATIES IN DE REGIO GRONINGEN ASSEN

Impactanalyse DOT Honorariumtarieven

Onderzoek naar het hulpwerkwoord OP

Naam: Mijn doelenboekje. Grammatica. Werelden - Eilanden - Dorpen 5 / 6 / 7 / 8.

ProjectHeatmap. Onderzoeksrapport v Dennis Wagenaar

Drie maal taal. Taal beschouwen in realistische situaties

De Riemann-hypothese

Een voorbeeldopgave: Ik geef de hond te eten. Wat is de? Een werkwoord, een lidwoord, een zelfstandig

Transcriptie:

Semantische Zwaartekracht Eindwerkstuk voor Information Retrieval Wybo Wiersma, s1298577

Wybo Wiersma Semantische Zwaartekracht 1 Inhoudsopgave Inleiding......2 Eerder werk......3 Window gebaseerde Information Retrieval......3 Querie Expansie met Collocaties......3 Lexicale Constellaties......3 Onderzoeksopzet......4 WordNet......4 Windows......5 Normalisaties......6 Resultaten.....9 Algemene vorm......10 Nouns......12 Adjectives......13 Verbs......14 Adverbs......15 Auxiliaries......16 Conclusie......17 Literatuurlijst......18

Inleiding Wybo Wiersma Semantische Zwaartekracht 2 Information Retrieval (IR) is in toenemende mate belangrijk voor de kennis samenleving. De hoeveelheid min of meer ongestructureerde informatie neemt in rap tempo toe, en de noodzaak om snel sneller dan de buurman de juiste informatie te bemachtigen wordt steeds groter. In deze race for information is spelen IR technieken een centrale en instrumentele rol. Eén van de in mijn ogen erg interessante ontwikkelingen binnen de IR van dit moment is het loslaten van het document als de eenheid waarbinnen gezocht wordt. Ook bij het automatisch uitbreiden van queries wordt door sommige onderzoekers het document als werk eenheid losgelaten. In de papers van Qianli Jin en Jun Zhao wordt bijvoorbeeld inplaats van naar het hele document, of vaste stukken daaruit (chunks), gekeken naar de termen die samen voorkomen binnen een bepaalde afstand van elkaar. De maximum afstand waar nog naar gekeken wordt heet hier het window. Binnen het window wordt naar links en naar rechts gekeken van een term waarvan men al weet dat deze bij de querie hoort. Deze term noemen we hier de centrale term. Het cruciale verschil tussen chunks en windows is dat windows altijd relatief zijn tenopzichte van een centrale term, terwijl chunks een soort mini documentjes zijn die ook niet kunnen overlappen. Ook ikzelf heb gebruik gemaakt van window's in mijn eerdere essay: Tweak Test. 1 Op basis van de vooralsnog beschikbare informatie lijkt het niet onmogelijk dat deze window based aanpak een verbetering kan betekenen ten opzichte van de document en chunk gebaseerde aanpak. In dit essay wordt daarom gekeken naar de semantische eigenschappen van taal binnen windows. In zinnen vindt men naast syntactische (grammaticale) ook semantische (e.g. betekenis ) relaties. De betekenis relatie tussen twee woorden in een zin kan tot op zekere hoogte uitgedruk worden in een getal als een mate van semantische gerelateerdheid. Men zou tot een dergelijk getal kunnen komen door bijvoorbeeld aan verschillende mensen te vragen de betekenis relatie tussen het woord 'hond' en 'riem' een cijfer te geven tussen 0 en 5. Een database waarin voor meer dan 150.000 woorden dit soort relaties zijn opgeslagen is WordNet. Deze database hebben we gebruikt om voor een heel corpus patronen te vinden in de geaggregeerde semantische relaties binnen zinnen. Ten eerste hebben we een beeld gemaakt van de algemene vorm van de semantische gerelateerdheid binnen windows: op welke afstand is welke mate van semantische gerelateerdheid te verwachten. Ten tweede heeft dit essay ook een taalkundige kant. Er is namelijk ook een eenvoudige analyse gemaakt van de relatie tussen het part of speech (POS) van een woord, en de vorm van de semantische gerelateerdheid. Het gebruik van POS taggers bij IR taken is immers ook een interessante en veel gebezigde strategie. De aanpak in dit essay was uitdrukkelijk empirisch en verkennend. Het is verkennend in de zin dat er geen statistische significantie is bepaald voor de resultaten. Het is empirisch in dat er gebruik is gemaakt van een corpus. De aanpak is er al met al één van data mining. Met Wordnet::Similarity, een library om WordNet vanuit een script te kunnen aanroepen, is steeds de semantische afstand tussen een centraal woord en haar window berekend en deze afstanden, voor alle woorden, respectievelijk woorden met een specifieke POS tag, zijn opgeteld voor alle posities afzonderlijk en vervolgens genormaliseerd voor de distributie van de termen in de zinnen. Langs deze weg is de semantische zwaartekracht bepaald in het algemeen en voor bepaalde POS tags. De aldus verkregen resultaten zijn vervolgens in grafieken weergegeven. 1 Wybo Wiersma, 'Tweak Test: van Sformula, WordNet, Naked Keywords & Random Retrieval', http://www.logilogi.org/pub/spamtweaktest WyboWiermsa.pdf (2004).

Eerder werk Wybo Wiersma Semantische Zwaartekracht 3 Voordat dit onderzoek begon zijn een drietal papers bekeken. Ze worden hieronder beknopt samengevat. De eerste beschrijft een methode voor het zoeken, de tweede voor de uitbreiding van queries, en de laatste gaat in op de mogelijke eigenschappen van semantische zwaartekracht. Window gebaseerde Information Retrieval In de paper van Qianli Jin, Jun Zhao en Bo Xu getiteld: 'Window based Method for Information Retrieval' worden een aantal window gebaseerde methodes voor Information Retrieval voorgesteld. De eerste door hen beschreven methode houdt in dat documenten waarin de termen uit de querie dicht bij elkaar (binnen een vast window) voorkomen, zwaarder gewogen worden. De tweede bouwt hierop voort en neemt ook de afstand in beschouwing, en geeft een bonus voor minder afstand. Bij de derde methode wordt een window extra beloond wanneer er een named entity (naam van een persoon, organisatie of plaats) of een zelfstandig naamwoord uit de querie in voorkomt. Alledrie deze methodes presteren aanzienlijk beter dan de gebruikelijke tf idf methode, en de derde presteert het beste. Querie Expansie met Collocaties 'Query Expansion with Long Span Collocates', de paper van Olga Vechtomova, Stephen Robertson en Susan Jones, gaat in op de mogelijkheden voor querie expansie met behulp van collocatie informatie. Ze definiëren collocaties als woorden die statistisch gezien vaker samen voorkomen in een window dan toevalligerwijs verwacht kan worden. Woorden die sterk correleren met de termen uit de querie worden toegevoegd aan de querie in de hoop dat deze woorden semantisch gerelateerd zijn en dus betere zoekresultaten opleveren. Het verschil tussen korte afstands collocaties (< 10) die het meeste door grammaticale structuren en contstraints worden bepaald en lange afstands collocaties (> 10, tot een paar honderd woorden) die eerder semantisch van aard is wordt door hen gemaakt, maar verder niet uitgewerkt. Wel zetten ze querie expansie op basis van alle teksten in het corpus (globaal) af tegen die gebaseerd op een al relevant bevonden subset en ze concluderen dat deze laatstgenoemde methode beter werkt dan de globale. Lexicale Constellaties In 'Lexical Constellations: What Collocates Fail to Tell' wordt door Pascual Cantos en Aquilino Sánchez een case study gedaan naar de frequenties van collocaties van het Engelse woord voor letterteken (letter) en het Spaanse woord voor verf (mano). Zij geven effectief de semantische gravitatie weer voor deze beide termen en ze komen tot een aantal interessante conclusies. Zo hebben deze beide woorden heel verschillende gravitatie grafieken, en is de verdeling niet normaal en niet symmetrisch, zeker verder van het centrum (> 10 woorden afstand). Ook zetten ze uiteen dat collocaties over grotere afstanden ook indirect via andere woorden kunnen optreden, enigszins vergelijkbaar met het feit dat de zon de aarde aantrekt, en de aarde op haar beurt de maan, waardoor ook zon en maan 'colloceren'. Ze spreken daarom van lexicale constellaties. Vanuit grammaticaal, en zeker vanuit semantisch oogpunt is deze partiële transitiviteit van collocaties geen hele grote verassing, maar het biedt wel een interessante kijkwijze.

Onderzoeksopzet Wybo Wiersma Semantische Zwaartekracht 4 Er is met WordNet::Similarity gekeken naar semantische zwaartekracht binnen windows, en hierbij is rekening gehouden met de algemene distributie van termen in zinnen. Achtereenvolgens beschrijf ik deze stappen. WordNet Voor dit onderzoek is het Britse ICE corpus gebruikt. Dit corpus telt een miljoen woorden, verdeeld over geschreven en gesproken tekst. Dit corpus was al voorzien van POS tags, maar nog niet semantisch ge disambigueerd. Dit was nodig om in de volgende stap de semantisch afstand te kunnen berekenen. Woorden met verschillende betekenissen hebben namelijk natuurlijk ook verschillende semantische afstanden van elkaar. Voor dit disambigueren is WordNet::Similarity::Senserelate (een library voor dit doel) gebruikt. WordNet::Similarity::Senserelate was echter erg traag. Het disambigueren van het hele ICE corpus had vele weken, zo niet maanden in beslag genomen. Daarom heb ik een aantal verbeteringen en optimalisaties doorgevoerd in WordNet::Similarity die ook zijn opgenomen in de nieuwe releases. 2 Een van de verbeteringen is een cache in WordNet::Similarity::lesk (een methode voor het berekenen van semantische afstanden die door Senserelate gebruikt wordt), die de recentelijk vergeleken woorden onthoudt, en een andere voor deze zelfde methode (lesk) is een efficiëntere implementatie van het algoritme wat de beschrijvingen bij de verschillende senses vergelijkt. Een verdere verbetering die is doorgevoerd is het vooraf berekenen van de afstanden tussen alle woordparen in het hele corpus die binnen het voor de disambiguatie gebruikte window voorkomen (dit window heeft een straal van maar 5 woorden). Dit is gedaan aangezien behalve Senserelate, ook WordNet::Similarity::lesk vrij traag is. Deze voor berekende afstanden worden vervolgens via een hiervoor speciaal ontwikkelde database lezende semantische afstands library door het disambiguatie algoritme gebruikt. Al met al zorgden deze aanpassingen er voor dat de disambiguatie binnen een paar dagen te doen was. 2 http://www.d.umn.edu/~tpederse/similarity.html, onderaan de pagina.

Wybo Wiersma Semantische Zwaartekracht 5 Windows Bij het onderzoeken van de semantische zwaartekracht hebben we onze windows onderbroken bij zins grenzen. We hebben dit gedaan omdat deze beperking het gedrag van de semantische zwaartekracht rond specifieke POS tags makkelijker te relateren maakt aan grammaticale invloeden. Bovendien was ons corpus al opgedeeld in zinnen en was het dus makkelijk om deze indeling aan te houden. Aansluitend bij de te verwachten zins lengtes hebben als straal van de windows een andere gekozen dan de 5 voor de disambiguatie, namelijk 49 posities. Inclusief het centrale woord waaromheen het window valt waren de windows dus 99 posities breed. Uit de inleiding gerecapituleerd: windows zijn geen chunks; tussen windows kan overlap bestaan. Ze schuiven als het ware langs de data met steeds het volgende woord als het centrale woord, vergelijkbaar met hoe het raam in een trein wagon steeds een ander deel van het landschap omlijst. De afbeelding hieronder maakt dit duidelijk: Windows van 99 posities breed bewegen door de tekst met C steeds als het volgende centrale woord Binnen het onderzoek zijn voor alle window posities de semantische afstanden tussen het centrale woord en de daaromheenliggende woorden berekend. Vervolgens zijn deze waardes per afstand van het dus steeds wisselende centrale woord opgeteld. We houden dus een lijst over met 98 gesommeerde waardes: voor elke positie vanaf het midden eentje (in beide richtingen). De afbeelding hieronder illustreert dit: De semantische afstanden worden opgeteld voor de 98 posities over alle verschuivende window views

Wybo Wiersma Semantische Zwaartekracht 6 Normalisaties Wederom om de interpretatie te bevorderen en vooral om de invloed van verschil in frequentie (hoeveelheid data) weg te filteren, zijn de resultaten als eerste stap genormaliseerd door ze te delen door de som van de waardes voor alle posities gedeeld door 98. Met andere woorden; ze zijn genormaliseerd voor de gemiddelde waarde per positie. Hiermee is deze gesteld op 1, en wordt alles wat hoger is dan gemiddeld, hoger dan 1, en lager, lager dan 1. Daarnaast zijn de sommen die we verkregen hebben zijn nog niet de zuivere semantische zwaartekracht. Omdat we de windows hebben afgebroken bij de zins grenzen en dus windows zeer regelmatig minder breed waren dan 99 woorden hebben we ook rekening moeten houden met de algemene distributie van termen in zinnen. De alhier verkregen sommen zijn dus een composite. De volgende grafiek met daarin o.a. de gevonden samengestelde semantische zwaartekracht laat de situatie van de compositie zien. Genormaliseerde samengestelde semantische zwaartekracht en zins en semantische term distributies De blauwe lijn is de samengestelde semantische zwaartekracht. De rode lijn is de algemene distributie van woorden in zinnen. Dit is het aantal keren dat op een bepaalde afstand (positie) van een centraal woord, een ander woord voorkomt. Deze is berekend op de zelfde manier als de samengestelde semantische zwaartekracht, maar met als semantische afstand steeds 1. De groene lijn geeft de distributie weer van semantische termen in zinnen. Het verschil met de zins distributie (de rode) is dat hier alleen de termen zijn meegenomen waarvoor WordNet::Similarity een semantische afstand

kon berekenen. Wybo Wiersma Semantische Zwaartekracht 7 De basis vorm komt voort uit de distributie van termen in de zinnen, die, zoals te zien is aan de rode lijn zeer regelmatig en vrijwel perfect hyperbolisch is, afgezien van de top (en het feit dat ze de y as wel snijdt). De afgeplatte top is echter het gevolg van de keuze om in deze en volgende grafieken voor het centrale woord de gemiddelde waarde van de eerste linker, en rechter posities te nemen, zodat ze niet nul zijn, en er een loodlijn weergegeven kan worden op de 0 positie. Zonder 0 positie zou de loodlijn namelijk op +1 of op 1 getekend moeten worden, en dat zou de interpretatie minder makkelijk maken. De distributie van semantische termen laat echter iets anders zien dan een hyperbool. Zoals uitvergroot in de volgende grafiek te zien is, is de distributie van semantische termen (groen) rond de top krater vormig. Uitvergrootte samengestelde semantische zwaartekracht en zins en semantische term distributies Deze onregelmatigheid rond de top (+ 3 en 3 woorden) kan verklaard worden vanuit twee factoren. De eerste is een ruisfactor, en komt voort uit het feit dat er binnen WordNet samengestelde woorden voorkomen, en dezen hebben de positie van hun eerste deel (woord) toegewezen gekregen, en niet die van hun verdere delen. Hierdoor zal zo nu en dan direct na, of voor een woord geen ander woord te vinden zijn. De andere oorzaak is grammaticaal: lidwoorden, voorzetsels, etc. komen niet voor in

Wybo Wiersma Semantische Zwaartekracht 8 WordNet en hebben geen semantische kwaliteiten, en dus zijn ze nooit semantische termen. Derhalve zijn semantische termen dikwijls niet direct na elkaar te vinden. Aangezien deze beide effecten direct rond het centrale woord nog niet weggemiddeld worden zijn ze daar zichtbaar en invloedrijk. Om een lang verhaal kort te maken is om te compenseren voor zowel de onregelmatige distributie van semantische termen rond de top, alsook voor de hyperbolische distributie van woorden in zinnen, als tweede normalisatie stap de samengestelde semantische zwaartekracht gedeeld door de distributie van semantische termen om de semantische zwaartekracht te berekenen. Behalve een algemene semantische zwaartekracht over alle semantische termen, hebben we ook een semantische zwaartekracht berekend voor verschillende POS tags. In dit laatste geval zijn de 98 waardes voor verschillende window posities alleen opgeteld voor centrale woorden met een bepaalde POS tag. Tenslotte zijn van al deze resultaten grafieken gemaakt.

Resultaten Wybo Wiersma Semantische Zwaartekracht 9 In de eerste paragraaf wordt ingegaan op de eigenschappen van de semantische zwaartekracht in het algemeen, ongeacht POS tags. In de daaropvolgende paragrafen zullen de resultaten voor verschillende POS tags worden gepresenteerd. De semantische zwaartekracht is berekend voor de volledige 180 delige ICE tagset. Voor veel van de tags was echter te weinig data beschikbaar. Tevens zouden de overige 30+ resultaten sets te ver voeren voor het bestek van dit eerste essay. Vandaar dat de data uiteindelijk is opgeteld voor de gereduceerde ICE tagset, en hieruit alleen voor nouns (N), adjectives (ADJ), verbs (V), adverbs (ADV) en auxiliaries (AUX). Maar nu eerst de algemene vorm.

Wybo Wiersma Semantische Zwaartekracht 10 Algemene vorm De semantische zwaartekracht in het algemeen gedraagt zich vrij voorspelbaar zoals in de onderstaande grafiek te zien is. De symmetrie is hier echter een direct gevolg van onze meet methode (een schuivend window). Ook is de vorm van de grafiek vooral in beide staarten (aan de randen) vrij grillig. Deze grilligheid kan voor een deel verklaard worden uit een relatief gebrek aan data voor de staarten. Er is voor de eerste rechter en linker positie namelijk bijna tachtig maal zoveel data beschikbaar als voor de 49e posities. Desondanks hebben we het ook daar nog over 1233 semantische termen. Het lijkt dan ook niet ondenkbaar dat de kraters die we grofweg om de 9 posities zien optreden wel degelijk een eigenschap en regelmatigheid zijn van de semantische zwaartekracht. Deze zou mogelijkerwijs kunnen samenhangen met het constellatie effect waar Cantos en Sánchez op wezen, of met een grammaticale regelmatigheid. De algemene semantische zwaartekracht Het blijft onduidelijk hoe de krater in het midden verklaard kan worden, die ook hier optreedt, ondanks de normalisaties voor de in de vorige alinea besproken ruis factor en grammaticale oorzaken. Ze zou veroorzaakt kunnen worden door woorden die wel semantische termen zijn, maar toch een syntactische rol vervullen. Auxiliaries (zoals 'to be') zijn hier de primaire verdachte. Deze woorden hebben namelijk ook een betekenis op zichzelf, en worden onder die betekenis door WordNet

Wybo Wiersma Semantische Zwaartekracht 11 behandeld als semantische term, maar in hun syntactische rollen leveren deze termen natuurlijk veelal een zeer lage semantische gerelateerdheid op. Ongeacht hoe de krater ontstaat zolang ze een eigenschap is van de semantische relaties binnen de data betekent het bestaan er van wel dat het raadzaam zou kunnen zijn om een gat in het midden te laten bij windows die men voor semantische (IR ) doeleinden wil gebruiken. Afgaande op de bovenstaande grafiek lijkt een window van 8.. 2, 2..8 bijvoorbeeld geschikt. De algemene semantische zwaartekracht is in de volgende paragrafen steeds in grijs weergegeven als referentie kader, net als de loodlijn.

Wybo Wiersma Semantische Zwaartekracht 12 Nouns Zoals in de onderstaande grafiek te zien is, is de semantische zwaartekracht van zelfstandige naamwoorden duidelijk niet symmetrisch. Zelfstandige naamwoorden zijn over het algemeen veel sterker gerelateerd aan voorgaande woorden dan aan woorden die op hen volgen. Dit lijkt een situatie te zijn die niet alleen speelt op kleine afstanden van het zelfstandige naamwoord, maar die zich uitstrekt over bijna het hele window tot 48. Wel is het zo dat dit verschil binnen een window van 8..+8 veel groter is. Met name woorden direct na een zelfstandig naamwoord zijn er zelden mee gerelateerd, terwijl woorden tussen 5 en 3 meer gerelateerd zijn dan die op andere posities. Dit korte afstands effect kan verklaard worden uit de relatie met bijvoeglijke naamwoorden en vooruit wijzende werkwoorden. De sterkere relatie met voorgaande woorden over de lange afstand lijkt moeilijk verklaarbaar dan door aan te nemen dat zelfstandige naamwoorden dikwijls het sluitstuk vormen van een semantisch cluster. In algemene zin valt verder nog op te merken dat zelfstandige naamwoorden vaak lange afstands dragers lijken te zijn van de betekenis in een tekst. In elk geval vonden Cantos en Sánchez voor de twee termen letter en mano ook sterkere semantische relaties links dan rechts van deze termen, en tot op zeer grote afstanden (100+). De semantische zwaartekracht rond zelfstandige naamwoorden

Wybo Wiersma Semantische Zwaartekracht 13 Adjectives De bevindingen met betrekking tot bijvoeglijke naamwoorden zijn weinig verrassend en zeer helder. Bijvoeglijke naamwoorden hebben een zeer sterke semantische relatie met de woorden waarop ze betrekking hebben (waar ze vlak voor staan). Voor de overige posities zijn de semantische relaties vrij vlak verdeeld, afgezien van een iets kleinere relatie met woorden direct voorafgaand aan de bijvoeglijke naamwoorden. De semantische zwaartekracht rond bijvoeglijke naamwoorden

Wybo Wiersma Semantische Zwaartekracht 14 Verbs Werkwoorden laten de omgekeerde verhouding zien van die we aantreffen bij zelfstandige naamwoorden. De relatie met voorgaande semantische termen is over de hele linie minder dan die met de termen die er op volgen. Dichter rond de centrale term zijn de verhoudingen echter anders. Daar zien we ook sterke relaties binnen het window 3.. 1. Wel dempt de grootte van de semantische relaties tussen positie 1 en 8 minder snel uit dan tussen 3 en 1. Over het geheel genomen lijkt de semantische zwaartekracht van werkwoorden het meest op de algemene semantische zwaartekracht, alleen is ze veel extremer. De semantische zwaartekracht rond werkwoorden

Wybo Wiersma Semantische Zwaartekracht 15 Adverbs Bijwoorden gedragen zich het meest zoals we dat ons naïef zouden voorstellen. Binnen een window van pakweg 10..10 neemt de semantische zwaartekracht bijna symmetrisch af wanneer men verder van de centrale term verwijderd raakt. Van een krater is hier geen spoor. Ook is de invloed van posities op de semantische gerelateerdheid vrij vlak buiten dit domein. Wel lijkt er over het geheel genomen een iets grotere semantische aantrekkingskracht te bestaan met woorden die op de term volgen dan met die er aan voorafgaan. De afwezigheid van een krater zou gezien kunnen worden in het licht van het feit dat bijwoorden meestal zijn ingebed in een reeks van semantische termen en ze hierin de functie hebben van een bepaling die vaak erg semantisch van aard is. Bijwoorden worden vrijwel altijd gebruikt met geen ander doel dan een semantisch doel, in tegenstelling tot bijvoorbeeld hulpwerkwoorden. De semantische zwaartekracht rond bijwoorden

Wybo Wiersma Semantische Zwaartekracht 16 Auxiliaries Zoals te zien is, is de grafiek van hulpwerkwoorden uitermate grillig. Er is alleen een grote mate van semantische gerelateerdheid met termen op positie 2. Verder heeft de grafiek iets weg van die van werkwoorden, maar ontbreekt een echte piek links van de centrale term. Bovendien is en blijft grilligheid de meest kenmerkende eigenschap. Deze grilligheid zouden we kunnen verklaren vanuit het feit dat bijwoorden in het Engels meestal een puur syntactische functie hebben. In de vorm van 'he did walk', en 'he is walking', wordt de tijd van de er op volgende werkwoorden er mee aangepast, zonder dat er een directe semantische relatie is tussen 'to be' en 'to walk'. Wel is uit deze grafiek duidelijk dat de krater in de algemene semantische zwaartekracht en rond werkwoorden zeker niet alleen verklaard kan worden door het gedrag van hulpwerkwoorden.

Conclusie Wybo Wiersma Semantische Zwaartekracht 17 Al met al lijkt het meten van de semantische zwaartekracht vrij goed gelukt te zijn. De patronen die optreden zijn voor een groot deel zoals we deze zouden verwachten. Toch bleek het lastig om de verlaging van de algemene semantische zwaartekracht op posities 1 en 1 afdoende te verklaren. Hiervoor is een diepgaandere analyse noodzakelijk, waarbij hoogstwaarschijnlijk ook de data van de volledige ICE tagset betrokken zal moeten worden. Desondanks is wel aangetoond dat semantische zwaartekracht zich niet zo simpel gedraagt als bij veel window based IR technieken wordt voorondersteld. Ook zijn duidelijke verschillen gevonden in het gedrag van de semantische zwaartekracht rond verschillende POS tags. In een aantal gevallen waren deze verschillen ook nog duidelijk over langere (+ 10) afstanden. Vooral bij zelfstandige naamwoorden kon worden waargenomen dat semantische aantrekkingskracht ook buiten het normaal te verwachten bereik van grammaticale invloeden een rol van betekenis speelt. Vervolg onderzoek naar semantische zwaartekracht lijkt me al met al wel gerechtvaardigd. De belangrijkste verbetering in de methode die hierbij zinvol zou kunnen zijn is het bepalen van de statistische significantie van de bevindingen. Met name wanneer de specifiekere tags uit de volledige ICE tagset worden meegenomen zal dit nodig zijn, omdat er voor elk van die tags veel minder data is en dus een grotere kans op te weinig significantie. Ook zou het interessant kunnen zijn om, behalve op de POS tag van de centrale term, ook op die van de omliggende semantische termen te letten. Op die manier zou men precies kunnen onderzoeken hoe bijvoorbeeld de semantische relaties tussen alleen zelfstandige naamwoorden, of tussen werkwoorden en hulpwerkwoorden er uitzien. In elk geval ligt er bij een dergelijk vervolgproject de mogelijkheid om zowel de resultaten van veel varianten van window based IR te verbeteren, alsook om fundamenteel taalkundig onderzoek te doen. Voor IR lijkt het in elk geval interessant om te experimenteren met windows die rond het midden een gat hebben, zoals 8.. 2..2..8.

Literatuurlijst Wybo Wiersma Semantische Zwaartekracht 18 Cantos, Pascual and Aquilino Sánchez, 'Lexical Constellations: What Collocates Fail to Tell', International Journal of Corpus Linguistics, vol 6, afl 2 (2001), 199 228. Jin, Qianli, Jun Zhao et al., 'Window based Method for Information Retrieval', Lecture notes in computer science, vol 3248 (2005), 120 129. Vechtomova, Olga, Stephen Robertson et al., 'Query Expansion with Long Span Collocates', Information Retrieval, vol 6, afl 2 (2003), 251 273. Wiersma, Wybo, 'Tweak Test: van Sformula, WordNet, Naked Keywords & Random Retrieval', http://www.logilogi.org/pub/spamtweaktest WyboWiermsa.pdf (2004).