Inleiding Informatiekunde I

College 6, 5 december 2006

Overzicht van de colleges 31 oktober Inleiding cursus 7 november Rondleiding Letterenbibliotheek 14 november Databases 21 november Communicatie in digitale media 28 november Information retrieval 5 december Strings 12 december Algoritmiek

College 6. Strings 1 String-algoritmen 2 3 4

Strings String-algoritmen Talen en teksten gebruiken allemaal strings reeksen; Veel multimedia-technieken generaliseren op basis van technieken die ontwikkeld zijn voor strings; Ergo, informatiekunde kijkt naar strings.

String-algoritmen soundex spellingsvarianten dice string-overeenkomst Levenshtein string-overeenkomst, alignment Andere algoritmen (Boyer-Moore, over het opzoeken van strings) in gevorderde cursussen.

Soundex String-algoritmen Probleem: namen worden vaak verkeerd gespeld (bijvoorbeeld bij telefonische reserveringen) Idee: noteer namen op een manier dat spellingvarianten op dezelfde manier gecodeerd worden. Soundex-algoritme ontwikkeld door Robert Russell en Margaret Odell, gepatenteerd in 1918 and 1922.

Soundex algoritme 1 Behoud eerste letter, negeer opvolgende klinkers en h, w en y. 2 Vervang volgende letters door nummers volgens deze tabel: p, b, f, v 1 c, k, q, g, s, j, x 2 d, t 3 l 4 m, n 5 r 6 3 Verwijder dubbelen, behalve waar klinkers stonden. 4 Verwijder alles wat meer is dan 4 tekens, of vul met nullen aan tot 4 tekens.

Soundex algoritme Voorbeeld: Mineur mineur 1 Behoud eerste letter, negeer a, e, i, o, u, h, w, y mnr 2 Vervang opvolgende letters door nummers: p, b, f, v 1 c, k, q, g, s, j, x 2 d, t 3 l 4 m, n 5 r 6 m56 3 Verwijder dubbelen m56 4 Transformeer tot 4 tekens m560

Meer voorbeelden E460 Gauss, Ghosh G200 Euler, Ellery H416 Hilbert, Heilbronn K530 Knuth, Kant L300 Lloyd, Ladd L222 Lukasiewicz, Lissajous Implementatie van het algoritme op http: //www.geocities.com/heartland/hills/3916/soundex.html

Toepassing String-algoritmen Soundex is veel gebruikt US Census Bureau (bevolkingsregister) 1918? Luchtvaartreserveringssysteem George Welling, bij het digitaliseren van de Paalgeld-archieven (1771 1817). Namen van steden, schepen en kapiteins werden wisselend gespeld. Manier om niet-numerieke velden in databases te relateren ( nominal record linkage ). Zie: G. Welling, The Prize of Neutrality: Trade Relations between Amsterdam and North America 1771 1817, Groningen, 1998.

Beperkingen String-algoritmen Ontwikkeld voor het Engels Engelse spelling, uitspraak Doet niets voor Moskowitz vs. Moskovitz of Levine vs. Lewin. Opgelost met veel complexer Daitch-Mokotoff Soundex algoritme Eén aanpak voor meer algemeen probleem: wanneer zijn strings gelijk? Vergelijkbaar probleem voor een spellchecker: welk woord in het woordenboek komt het meest overeen met het te herkennen woord?

DICE String-algoritmen Het dice-algoritme meet de gelijkenis tussen strings. In Information Retrieval houden we van een verzameling documenten bij welke indextermen er voorkomen (keywords, zelfstandig naamwoorden,... ) computer ziekenhuis educatie... Totaal Verw. Doc 1 0 2 1... 5 Doc 2 2 0 1... 5 Doc 3 1 0 0... 1 Een zogeheten term vector.

DICE (2) String-algoritmen Gelijkenis tussen documenten = som van de producten gedeeld door de som van de totale verwijzingen. computer ziekenhuis educatie... Totaal Verw. Doc 1 0 2 1... 5 Doc 2 2 0 1... 5 Doc 3 1 0 0... 1 Sim(Doc 1, Doc 2 ) = ((0 2) + (2 0) + (1 1)) / (5+5) = 1 10 Sim(Doc 2, Doc 3 ) = ((2 1) + (0 0) + (1 0)) / (5+1) = 2 6 = 1 3 Sim(Doc 1, Doc 3 ) = ((1 0) + (2 0) + (1 0)) / (5+1) = 0

DICE (3) String-algoritmen Zie Gerard Salton en Michael McGill: Introduction to Modern Information Retrieval, New York: McGraw Hill, 1983, pp. 201 203.

DICE toegepast op strings Niet trefwoorden vergelijken maar lettercombinaties bigram Vergelijk adres address address ad dd dr re es ss ad dd dr re es ss = 6 b = 2 4 a ad dr re es = 5 c sim(address,adres) = (2 4)/(5+6) = 0,73 sim(s 1, s 2 ) = (2a)/(b+c)

SOUNDEX of DICE welke is beter? Wanneer gebruik je soundex, wanneer gebruik je dice? Bij zoeken op het web? Hoe? Bij spellchecken? Hoe?

Bewerkingsafstand De bewerkingsafstand ( editing distance ) of Levenshtein-afstand Drukt de kosten uit om het verschil te overbruggen Kosten zijn 1 toevoegen 2 verwijderen 3 vervangen Strings vergelijken door Levenshtein-afstand te berekenen adres voeg d toe 1 addres voeg s toe 1 address 2 Hoe vind je de goedkoopste? Alle combinaties uitproberen?

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d r e s s e a d d r e s s

Levenshtein algoritme 1 Begin linksboven (0) 2 Zet tentatief een stap rechts en een stap naar beneden 3 Bekijk de kosten van de naburige vakjes erboven is een insertie (+1) ernaast is een deletie (+1) diagonaal is vervanging (+2) vervanging door zichzelf is gratis (0) 4 Kies het goedkoopste vakje

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1? d 2 r 3 e 4 s 5 s 6 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1? r 3 2 e 4 3 s 5 4 s 6 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1 0? r 3 2 1 e 4 3 s 5 4 s 6 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1 0 1 2 r 3 2 1 2? e 4 3 s 5 4 s 6 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1 0 1 2 r 3 2 1 2 1 e 4 3 s 5 4 s 6 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1 0 1 2 r 3 2 1 2 1 e 4 3 1 s 5 4 s 6 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1 0 1 2 r 3 2 1 2 1 e 4 3 1 s 5 4 1 s 6 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1 0 1 2 r 3 2 1 2 1 e 4 3 1 s 5 4 1 s 6 1 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1 0 1 2 r 3 2 1 2 1 e 4 3 1 s 5 4 1 s 6 1 e 7 2

Alignment String-algoritmen Het pad met de laagste score toont de alignment van de strings: a d d r e s s a d r e s s e

Toepassingen String-algoritmen Algemeen biologie DNA-reeksen vergelijken ethologie evolutie in vogelgezang in kaart brengen Taalkunde spellchecker gegeven een verkeerde spelling, zoek het best gelijkende woord uit het woordenboek alignment tweetalige teksten relateren. Gebruik zinslengte als indicator taaltherapie Wijs aan waar de afwijking in de uitspraak zit taalvariatie Meet verschillen tussen dialecten of sociolecten

Dialectuitspraak Levenshtein om de afstand tussen uitspraakvarianten te berekenen Van /kœst@/ naar /korst/ kœst@ wis @ 1 kœst vervang œ door O 2 kost voeg r in 1 korst 4 Is dit bruikbaar?

Dialectologie kwesties Onopgeloste problemen in de dialectologie 1 Wat is de analytische basis onder het begrip dialectologische regio? 2 Kunnen we de cumulatieve verschillen tussen dialecten preciezer bepalen? (Chalmers & Trudgill) 3 Hoe brengen we de noties dialectgebied en dialect-continuüm samen?

Dialect en geografie isoglossen (naar analogie van isothermen op klimaatkaarten) zijn lijnen op de kaart rondom gebieden waar dezelfde klanken voorkomen (zachte g, eind-n, scherpe z) Ook interessant om te combineren met economische en culturele kaarten: handel, migratie, oorlog Onderzoek dateert uit eind 19e eeuw, toen bekeken werd of lokale taalkundige verandering fonetisch regelmatiger is dan globale verandering is niet het geval

Dialectologie String-algoritmen Isoglossen zijn belangrijk, maar niet voldoende om dialectologische regio s te identificeren. Bloomfield (1916, 1933) bracht dit onder de aandacht, maar het probleem was al algemeen bekend. Bloomfield: elk woord heeft zijn eigen geschiedenis. Coseriu (1956): risico van atomstische visie

Computationeel perspectief We hebben een numerieke manier nodig om de individuele verschillen samen te voegen. Neem een 100-woord steekproef in grote aantallen variaties Dialect-afstand is gelijk aan de som van de woordafstanden Eerste toepassing: Kessler (1995) voor Ierse dialecten Toegepast voor het Nederlands door Nerbonne & Heeringa (1996... ) Zie http: //www.let.rug.nl/ heeringa/dialectology/papers/

Levenshtein String-algoritmen Gemiddelde Levenshteinafstand tussen dialecten. Er is gebruik gemaakt van een feature-systeem. Diftongen (ij, ui, au) worden weergegeven als twee fonemen. Euclidische afstand tussen feature-bundels wordt berekend.

Levenshtein (2) Donkere lijnen verbinden punten die meer nabij liggen, lichtere lijnen duiden op grotere afstand. De relatie met geografische afstand is significant groot (r=0,6792, Pearson)

Cumulativiteit Cumulativiteit: Chambers & Trudgill (1980) speculeren dat geografische afstand en taalkundige afstand hand in hand gaan, ook al is de geografische verdeling niet regelmatig. Met de Levenshtein-afstand kunnen we uitrekenen in hoeverre dat klopt: Nederlandse dialecten correleren met een factor van r = 0,68 met de geografische afstand. (Ter vergelijk: de lichaamslengte van ouders en hun kinderen correleren slechts 0,5.) Hiermee is 45% van de taalkundige variatie verklaard.

Clustering String-algoritmen Assen Delft Kollum Nes Soest Assen 0 73 64 67 79 Delft 73 0 81 74 68 Kollum 64 81 0 43 91 Nes 67 74 43 0 68 Soest 79 68 91 68 0 Alleen de bovenste helft wordt gebruikt, de rest is overbodig. Iteratief: 1 Neem de kortste afstand in de matrix 2 Koppel de twee betrokken datapunten 3 Ken een afstand toe van het nieuwe cluster naar alle andere punten.

Clustering (2) Een dendrogram, afgeleid van een 104 104-matrix

Clustering (3) De belangrijkste negen groepen in het dendrogram geven dialectologische gebieden aan.

Multi-dimensioneel schalen (MDS) Gegeven een geografische kaart kunnen afstanden tussen locaties gemeten worden. Multidimensionele schalen: gegeven de afstanden kunnen locaties op een kaart worden afgeleid. In ons geval: uit de n n afstanden kunnen we coördinaten afleiden in twee- (of drie-) dimensionele ruimte. Op die manier worden n-dimensies teruggebracht tot twee (of drie).

Multi-dimensioneel schalen (MDS) (2) 82 dimensies gereduceerd tot 3 y-coördinaat geeft de eerste dimensie weer x-coördinaat geeft de derde dimensie weer grijswaarde geeft de tweede dimensie Linksboven Friese, rechtsboven Saxische, onderaan Frankische dialecten

Dialect continuüm Drie belangrijkste MDSdimensies zijn gemapt op rood, groen en blauw

Onopgeloste problemen in de dialectologie revisited 1 Wat is de analytische basis onder het begrip dialectologische regio? Regio s zijn coherente geografische regio s waarin taalvariatie afwijkt van andere regio s. Bijdrage van Levenshtein: te aggregeren onderscheid 2 Kunnen we de cumulatieve verschillen tussen dialecten preciezer bepalen? (Chalmers & Trudgill) Dialecten geven een sterke, positieve correlatie tussen geografische en fonetische afstand. Bijdrage van Levenshtein: numerieke maat voor fonetische afstand (om correlatie op te baseren)

Onopgeloste problemen in de dialectologie (2) 3 Hoe brengen we de noties dialectgebied en dialect-continuüm samen? Regio s en continuüms zijn twee perspectieven op onderliggende, en voortdurend veranderende realiteiten op dialectgebied. Bijdrage van Levenshtein: het meten van de afstand levert direct een continuüm op, en is ondergeschikt aan clustering om regio s te verkrijgen.

Taalvariatie String-algoritmen Dialectologie ruimt het veld voor taalvariatie: de studie naar hoe taalvariatie afhangt van sociale klasse, geslacht, leeftijd,... De bewerkingsafstand is neutraal met betrekking tot de externe correlaten van variatie. Het is een maat, geen theorie over de oorzaken van de meetverschillen. Actuele onderzoeksonderwerpen Effecten van standaardtaal Effecten van politieke grenzen (Bentheim)

Geschiedenis String-algoritmen Talen veranderen. Vergelijk uitspraakverschillen in twee perioden. Dialectatlas van het Nederlands, Vlaams en Neder-Duits (Winkler 1874). Geel geeft meest extreme veranderingen aan.

Convergentie en divergentie We kunnen onderzoeken welke varianten meer en minder op elkaar gaan lijken. Blauw geeft convergentie aan, rood divergentie.

Gecombineerde inzichten Welke varianten zijn veranderd (geel), en hoe zijn ze veranderd ten opzichte van andere varianten? sn staat voor standaard Nederlands

De entropie-formule H = M i=1 P i log 2 P i bits/symbol \begin{displaymath} H = -\sum {i-1}^m ~ P i log 2 P i ~ bits/symbol \end{displaymath} M \[ \sum {i=1}^m \] i=1

String-algoritmen Een checklist volgt komt op de website.

Overzicht van de colleges 31 oktober Inleiding cursus 7 november Rondleiding Letterenbibliotheek 14 november Databases 21 november Communicatie in digitale media 28 november Information retrieval 5 december Strings 12 december Algoritmiek