Inleiding Informatiekunde I

Vergelijkbare documenten
De analyse van uitspraakverschillen in Nederlandse en Friese taalvariëteiten

aard zijn. De techniek kan ook gebruikt worden bij het onderzoeken van de taalkundige variatie tussen sociale klassen, sexe, en andere dimensies.

Measuring Dialect Pronunciation Differences using Levenshtein Distance Heeringa, Wilbert Jan

Magidoku s en verborgen symmetrieën

HET GEOGRAFISCH VERKLAREN VAN DIALECTAFSTANDEN MET EEN GIS

Geografie en inwoneraantallen als verklarende factoren voor variatie in het Nederlandse dialectgebied

Basisbegrippen van de taalwetenschap: Variatielinguïstiek

Zwart-wit en grijstinten

(5) Handleiding verhalen invoeren

HANDLEIDING KLANKKLEURLIJSTEN MAKEN OP BLOON.NL

ZOEKEN MEDLINE COMPLETE

Hoofdstuk 2: Grafieken en formules

Geografische invloed op taalvariatie

Uitwerkingen Sum of Us

Tellen met Taal. Het meten van variatie in zinsbouw in Nederlandse dialecten. Marco René Spruit

Gevarieerde Spelling is een programma voor het leren van de belangrijkste spellingregels van het Nederlands.

Inleiding Informatiekunde I

Overvloeimodi. Foto verouderen Schilderachtig Portret

Het minimale aantal sleutels op niveau h is derhalve

Basisspelling is onderdeel van de Bundel Basisprogramma's. Deze bundel bevat ook Basis Werkwoordspelling en Basisgrammatica.

Computer Vision: Hoe Leer ik een Computer Zien?

3. Structuren in de taal

Snel starten met de VSGO-GIP in Testweb

Handleiding UiTdatabank Agenda GoneWest

LET OP! Uw gegevens worden pas zichtbaar in het dashboard nadat u op de App bent ingelogd en verbinding heeft gemaakt met internet.

Handleiding registratiesysteem Kleuterplein. versie 1.0

Nederlandse samenvatting

Information Retrieval: introductie 1

Sorteren, groeperen en totaliseren

Het brachistochroonprobleem van een magneet in een niet-uniform magneetveld

Team Mirror. Handleiding Team Mirror Rapport. Vertrouwelijk document uitgegeven door

WIS Academie Manager -Handboek teamleider- Versie 19 december 2012

Toets deel 2 Data-analyse en retrieval Vrijdag 30 Juni 2017:

Inhoudsopgave Vragenpool... 2!

Rapport voor deelnemers M²P burgerpanel

Basisspelling. Doelgroepen Basisspelling. Omschrijving Basisspelling

Het belangrijkste doel van de studie in hoofdstuk 3 was om onafhankelijke effecten van visuele preview en spellinguitspraak op het leren spellen van

V = {a, b, c, d, e} Computernetwerken: de knopen zijn machines in het netwerk, de kanten zijn communicatiekanalen.

1. Reductie van error variantie en dus verhogen van power op F-test

Leerpaden maken. 1. Account en wachtwoord. 2. Maak een nieuw leerpad aan. 3. Inhoud aan een leerpad toe voegen. 4. Structuur aanbrengen op een pagina.

Cover Page. The handle holds various files of this Leiden University dissertation.

11. Multipele Regressie en Correlatie

Een data-driven analyse van binnenlandse migratie in de regio Tilburg & Rotterdam tussen 1815 en 1900

Ledenlijsten + etiketten maken

Bijgewerkte handleiding mandatenbeheer

Practicum hoogtemeting 3 e klas havo/vwo

Handleiding controle echtheidskenmerken

Lesbrief: Mediawijs Thema: Mens & Dienstverlenen in de toekomst

Uitwerking vierde serie inleveropgaven

Stappenplan Presentatie maken - 2

1. Exclusief aanvinken

How Do Children Read Words? A Focus on Reading Processes M. van den Boer

Spottofy.nl. Handleiding deelnemer

De analyse van uitspraakverschillen in Nederlandse en Friese taalvariëteiten

Handleiding website. Nieuwe of Littéraire Sociëteit De Witte, opgericht in 1802

The knight s tour. Het paard in schaken beweegt als volgt: Steeds 1 vakje in een richting en 2 in een andere richting, of omgekeerd.

Netwerkdiagram voor een project. AOA: Activities On Arrows - activiteiten op de pijlen.

Bioinformatica tentamen D1 voor 2MNW, 3I, 3PHAR op vrijdag 31 maart 2006 van uur in zaal Q105

Multimedia Information Retrieval

13 Hidden Markov Modellen.

MAAK EEN SMOELENBOEK IN WEBHARE (OP BASIS VAN PEOPLE PAGES)

Examen HAVO. aardrijkskunde Compex. Vragen 18 tot en met 28. In dit deel van het examen staan de vragen waarbij de computer wel wordt gebruikt.

Snel starten met Testweb Diagnose

De analyse van uitspraakverschillen in Nederlandse en Friese taalvariëteiten

Handleiding Joomla 3.x

Peridos Handleiding Notificaties en uitslagen NIPT

Handleiding Kaltura via Blackboard

Taalverandering. 19. Taalverandering. Opdracht 19.1

Instructies voor aanpassen wandelroutes op openstreetmap.org

INLOGGEN Vul gebruikersnaam en wachtwoord in, en klik op log in.

Spelling 1F. Doelgroepen Spelling 1F. Omschrijving Spelling 1F

Korte Handleiding CINAHL

Geografie en inwoneraantallen als verklarende factoren voor variatie in het Nederlandse dialectgebied *

TW2020 Optimalisering

euzedossier ouderparticipatie keuzedossier lob-vmbo BB/KB

Sociale samenhang in Groningen

TIME2MATCH.COM INSCHRIJVEN

Klanken 1. Tekst en spraak. Colleges en hoofdstukken. Dit college

Opgave 1b: Toon ook aan dat meer algemeen geldt: Als het lukt met n = a munten in w keer wegen, dan lukt het voor a < n 2a in w + 1 keer wegen.

Handleiding Kaltura via Blackboard

{button Installeer Zelfstudie Bestanden, execfile(seedatauk.exe,tutorial.ctb;tutorial nn.see)}

Inzet van social media in productontwikkeling: Meer en beter gebruik door een systematische aanpak

Veel gestelde vragen & zorgen

Excel. Inleiding. Het meest gebruikte spreadsheet programma is Excel.

Popplet. 1. Surf naar 2. Klik rechts bovenin op de knop Sign up for free.

Dit programma is gemaakt voor leerlingen van eind groep 3 en groep 4 van de basisschool, het praktijkonderwijs, vmbo bbl en mbo 1.

WISKUNDE-ESTAFETTE KUN Minuten voor 20 opgaven. Het totaal aantal te behalen punten is 500

INSTRUCTIEKAART GROEPJES TECHNIEK IN HET BASISONDERWIJS DE FIETSBEL. Opdracht 1: Beantwoord mondeling deze strategische vragen in je groepje.

Inhoud KAS-WEB: HANDLEIDING IDG OPERATOR

De statespace van Small World Networks

Uitdagende Sudoku Variaties, Beschrijving Educatieve Sudoku Variaties

HANDLEIDING VERENIGINGEN BEHEER SPORTSTIMULERING NEDERLAND

Werkstuk Wiskunde Magische Vierkanten

Gebruik voor deze "lessen" het gratis programma FastStone Image Viewer vanaf versie 4.0. (Zie de downloadlink op blz. 4)

Rekentijger - Groep 7 Tips bij werkboekje A

Antwoorden. Magische vierkanten Vierkant voor Wiskunde Doeboek 8

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

Grafen. Indien de uitgraad van ieder punt 1 is, dan bevat de graaf een cykel. Indien de ingraad van ieder punt 1 is, dan bevat de graaf een cykel.

De namen van de noten komen uit het alfabet. We gebruiken de eerste zeven letters: A B C D E F G Na de G komt opnieuw de noot A.

Transcriptie:

College 6, 5 december 2006

Overzicht van de colleges 31 oktober Inleiding cursus 7 november Rondleiding Letterenbibliotheek 14 november Databases 21 november Communicatie in digitale media 28 november Information retrieval 5 december Strings 12 december Algoritmiek

College 6. Strings 1 String-algoritmen 2 3 4

Strings String-algoritmen Talen en teksten gebruiken allemaal strings reeksen; Veel multimedia-technieken generaliseren op basis van technieken die ontwikkeld zijn voor strings; Ergo, informatiekunde kijkt naar strings.

String-algoritmen soundex spellingsvarianten dice string-overeenkomst Levenshtein string-overeenkomst, alignment Andere algoritmen (Boyer-Moore, over het opzoeken van strings) in gevorderde cursussen.

Soundex String-algoritmen Probleem: namen worden vaak verkeerd gespeld (bijvoorbeeld bij telefonische reserveringen) Idee: noteer namen op een manier dat spellingvarianten op dezelfde manier gecodeerd worden. Soundex-algoritme ontwikkeld door Robert Russell en Margaret Odell, gepatenteerd in 1918 and 1922.

Soundex algoritme 1 Behoud eerste letter, negeer opvolgende klinkers en h, w en y. 2 Vervang volgende letters door nummers volgens deze tabel: p, b, f, v 1 c, k, q, g, s, j, x 2 d, t 3 l 4 m, n 5 r 6 3 Verwijder dubbelen, behalve waar klinkers stonden. 4 Verwijder alles wat meer is dan 4 tekens, of vul met nullen aan tot 4 tekens.

Soundex algoritme Voorbeeld: Mineur mineur 1 Behoud eerste letter, negeer a, e, i, o, u, h, w, y mnr 2 Vervang opvolgende letters door nummers: p, b, f, v 1 c, k, q, g, s, j, x 2 d, t 3 l 4 m, n 5 r 6 m56 3 Verwijder dubbelen m56 4 Transformeer tot 4 tekens m560

Meer voorbeelden E460 Gauss, Ghosh G200 Euler, Ellery H416 Hilbert, Heilbronn K530 Knuth, Kant L300 Lloyd, Ladd L222 Lukasiewicz, Lissajous Implementatie van het algoritme op http: //www.geocities.com/heartland/hills/3916/soundex.html

Toepassing String-algoritmen Soundex is veel gebruikt US Census Bureau (bevolkingsregister) 1918? Luchtvaartreserveringssysteem George Welling, bij het digitaliseren van de Paalgeld-archieven (1771 1817). Namen van steden, schepen en kapiteins werden wisselend gespeld. Manier om niet-numerieke velden in databases te relateren ( nominal record linkage ). Zie: G. Welling, The Prize of Neutrality: Trade Relations between Amsterdam and North America 1771 1817, Groningen, 1998.

Beperkingen String-algoritmen Ontwikkeld voor het Engels Engelse spelling, uitspraak Doet niets voor Moskowitz vs. Moskovitz of Levine vs. Lewin. Opgelost met veel complexer Daitch-Mokotoff Soundex algoritme Eén aanpak voor meer algemeen probleem: wanneer zijn strings gelijk? Vergelijkbaar probleem voor een spellchecker: welk woord in het woordenboek komt het meest overeen met het te herkennen woord?

DICE String-algoritmen Het dice-algoritme meet de gelijkenis tussen strings. In Information Retrieval houden we van een verzameling documenten bij welke indextermen er voorkomen (keywords, zelfstandig naamwoorden,... ) computer ziekenhuis educatie... Totaal Verw. Doc 1 0 2 1... 5 Doc 2 2 0 1... 5 Doc 3 1 0 0... 1 Een zogeheten term vector.

DICE (2) String-algoritmen Gelijkenis tussen documenten = som van de producten gedeeld door de som van de totale verwijzingen. computer ziekenhuis educatie... Totaal Verw. Doc 1 0 2 1... 5 Doc 2 2 0 1... 5 Doc 3 1 0 0... 1 Sim(Doc 1, Doc 2 ) = ((0 2) + (2 0) + (1 1)) / (5+5) = 1 10 Sim(Doc 2, Doc 3 ) = ((2 1) + (0 0) + (1 0)) / (5+1) = 2 6 = 1 3 Sim(Doc 1, Doc 3 ) = ((1 0) + (2 0) + (1 0)) / (5+1) = 0

DICE (3) String-algoritmen Zie Gerard Salton en Michael McGill: Introduction to Modern Information Retrieval, New York: McGraw Hill, 1983, pp. 201 203.

DICE toegepast op strings Niet trefwoorden vergelijken maar lettercombinaties bigram Vergelijk adres address address ad dd dr re es ss ad dd dr re es ss = 6 b = 2 4 a ad dr re es = 5 c sim(address,adres) = (2 4)/(5+6) = 0,73 sim(s 1, s 2 ) = (2a)/(b+c)

SOUNDEX of DICE welke is beter? Wanneer gebruik je soundex, wanneer gebruik je dice? Bij zoeken op het web? Hoe? Bij spellchecken? Hoe?

Bewerkingsafstand De bewerkingsafstand ( editing distance ) of Levenshtein-afstand Drukt de kosten uit om het verschil te overbruggen Kosten zijn 1 toevoegen 2 verwijderen 3 vervangen Strings vergelijken door Levenshtein-afstand te berekenen adres voeg d toe 1 addres voeg s toe 1 address 2 Hoe vind je de goedkoopste? Alle combinaties uitproberen?

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d r e s s e a d d r e s s

Levenshtein algoritme 1 Begin linksboven (0) 2 Zet tentatief een stap rechts en een stap naar beneden 3 Bekijk de kosten van de naburige vakjes erboven is een insertie (+1) ernaast is een deletie (+1) diagonaal is vervanging (+2) vervanging door zichzelf is gratis (0) 4 Kies het goedkoopste vakje

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1? d 2 r 3 e 4 s 5 s 6 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1? r 3 2 e 4 3 s 5 4 s 6 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1 0? r 3 2 1 e 4 3 s 5 4 s 6 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1 0 1 2 r 3 2 1 2? e 4 3 s 5 4 s 6 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1 0 1 2 r 3 2 1 2 1 e 4 3 s 5 4 s 6 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1 0 1 2 r 3 2 1 2 1 e 4 3 1 s 5 4 s 6 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1 0 1 2 r 3 2 1 2 1 e 4 3 1 s 5 4 1 s 6 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1 0 1 2 r 3 2 1 2 1 e 4 3 1 s 5 4 1 s 6 1 e 7

Levenshtein algoritme (2) Afstand van Duits Adresse naar Engels Address a d d r e s s 0 1 2 3 4 5 6 7 a 1 0 1 2 3 4 d 2 1 0 1 2 r 3 2 1 2 1 e 4 3 1 s 5 4 1 s 6 1 e 7 2

Alignment String-algoritmen Het pad met de laagste score toont de alignment van de strings: a d d r e s s a d r e s s e

Toepassingen String-algoritmen Algemeen biologie DNA-reeksen vergelijken ethologie evolutie in vogelgezang in kaart brengen Taalkunde spellchecker gegeven een verkeerde spelling, zoek het best gelijkende woord uit het woordenboek alignment tweetalige teksten relateren. Gebruik zinslengte als indicator taaltherapie Wijs aan waar de afwijking in de uitspraak zit taalvariatie Meet verschillen tussen dialecten of sociolecten

Dialectuitspraak Levenshtein om de afstand tussen uitspraakvarianten te berekenen Van /kœst@/ naar /korst/ kœst@ wis @ 1 kœst vervang œ door O 2 kost voeg r in 1 korst 4 Is dit bruikbaar?

Dialectologie kwesties Onopgeloste problemen in de dialectologie 1 Wat is de analytische basis onder het begrip dialectologische regio? 2 Kunnen we de cumulatieve verschillen tussen dialecten preciezer bepalen? (Chalmers & Trudgill) 3 Hoe brengen we de noties dialectgebied en dialect-continuüm samen?

Dialect en geografie isoglossen (naar analogie van isothermen op klimaatkaarten) zijn lijnen op de kaart rondom gebieden waar dezelfde klanken voorkomen (zachte g, eind-n, scherpe z) Ook interessant om te combineren met economische en culturele kaarten: handel, migratie, oorlog Onderzoek dateert uit eind 19e eeuw, toen bekeken werd of lokale taalkundige verandering fonetisch regelmatiger is dan globale verandering is niet het geval

Dialectologie String-algoritmen Isoglossen zijn belangrijk, maar niet voldoende om dialectologische regio s te identificeren. Bloomfield (1916, 1933) bracht dit onder de aandacht, maar het probleem was al algemeen bekend. Bloomfield: elk woord heeft zijn eigen geschiedenis. Coseriu (1956): risico van atomstische visie

Computationeel perspectief We hebben een numerieke manier nodig om de individuele verschillen samen te voegen. Neem een 100-woord steekproef in grote aantallen variaties Dialect-afstand is gelijk aan de som van de woordafstanden Eerste toepassing: Kessler (1995) voor Ierse dialecten Toegepast voor het Nederlands door Nerbonne & Heeringa (1996... ) Zie http: //www.let.rug.nl/ heeringa/dialectology/papers/

Levenshtein String-algoritmen Gemiddelde Levenshteinafstand tussen dialecten. Er is gebruik gemaakt van een feature-systeem. Diftongen (ij, ui, au) worden weergegeven als twee fonemen. Euclidische afstand tussen feature-bundels wordt berekend.

Levenshtein (2) Donkere lijnen verbinden punten die meer nabij liggen, lichtere lijnen duiden op grotere afstand. De relatie met geografische afstand is significant groot (r=0,6792, Pearson)

Cumulativiteit Cumulativiteit: Chambers & Trudgill (1980) speculeren dat geografische afstand en taalkundige afstand hand in hand gaan, ook al is de geografische verdeling niet regelmatig. Met de Levenshtein-afstand kunnen we uitrekenen in hoeverre dat klopt: Nederlandse dialecten correleren met een factor van r = 0,68 met de geografische afstand. (Ter vergelijk: de lichaamslengte van ouders en hun kinderen correleren slechts 0,5.) Hiermee is 45% van de taalkundige variatie verklaard.

Clustering String-algoritmen Assen Delft Kollum Nes Soest Assen 0 73 64 67 79 Delft 73 0 81 74 68 Kollum 64 81 0 43 91 Nes 67 74 43 0 68 Soest 79 68 91 68 0 Alleen de bovenste helft wordt gebruikt, de rest is overbodig. Iteratief: 1 Neem de kortste afstand in de matrix 2 Koppel de twee betrokken datapunten 3 Ken een afstand toe van het nieuwe cluster naar alle andere punten.

Clustering (2) Een dendrogram, afgeleid van een 104 104-matrix

Clustering (3) De belangrijkste negen groepen in het dendrogram geven dialectologische gebieden aan.

Multi-dimensioneel schalen (MDS) Gegeven een geografische kaart kunnen afstanden tussen locaties gemeten worden. Multidimensionele schalen: gegeven de afstanden kunnen locaties op een kaart worden afgeleid. In ons geval: uit de n n afstanden kunnen we coördinaten afleiden in twee- (of drie-) dimensionele ruimte. Op die manier worden n-dimensies teruggebracht tot twee (of drie).

Multi-dimensioneel schalen (MDS) (2) 82 dimensies gereduceerd tot 3 y-coördinaat geeft de eerste dimensie weer x-coördinaat geeft de derde dimensie weer grijswaarde geeft de tweede dimensie Linksboven Friese, rechtsboven Saxische, onderaan Frankische dialecten

Dialect continuüm Drie belangrijkste MDSdimensies zijn gemapt op rood, groen en blauw

Onopgeloste problemen in de dialectologie revisited 1 Wat is de analytische basis onder het begrip dialectologische regio? Regio s zijn coherente geografische regio s waarin taalvariatie afwijkt van andere regio s. Bijdrage van Levenshtein: te aggregeren onderscheid 2 Kunnen we de cumulatieve verschillen tussen dialecten preciezer bepalen? (Chalmers & Trudgill) Dialecten geven een sterke, positieve correlatie tussen geografische en fonetische afstand. Bijdrage van Levenshtein: numerieke maat voor fonetische afstand (om correlatie op te baseren)

Onopgeloste problemen in de dialectologie (2) 3 Hoe brengen we de noties dialectgebied en dialect-continuüm samen? Regio s en continuüms zijn twee perspectieven op onderliggende, en voortdurend veranderende realiteiten op dialectgebied. Bijdrage van Levenshtein: het meten van de afstand levert direct een continuüm op, en is ondergeschikt aan clustering om regio s te verkrijgen.

Taalvariatie String-algoritmen Dialectologie ruimt het veld voor taalvariatie: de studie naar hoe taalvariatie afhangt van sociale klasse, geslacht, leeftijd,... De bewerkingsafstand is neutraal met betrekking tot de externe correlaten van variatie. Het is een maat, geen theorie over de oorzaken van de meetverschillen. Actuele onderzoeksonderwerpen Effecten van standaardtaal Effecten van politieke grenzen (Bentheim)

Geschiedenis String-algoritmen Talen veranderen. Vergelijk uitspraakverschillen in twee perioden. Dialectatlas van het Nederlands, Vlaams en Neder-Duits (Winkler 1874). Geel geeft meest extreme veranderingen aan.

Convergentie en divergentie We kunnen onderzoeken welke varianten meer en minder op elkaar gaan lijken. Blauw geeft convergentie aan, rood divergentie.

Gecombineerde inzichten Welke varianten zijn veranderd (geel), en hoe zijn ze veranderd ten opzichte van andere varianten? sn staat voor standaard Nederlands

De entropie-formule H = M i=1 P i log 2 P i bits/symbol \begin{displaymath} H = -\sum {i-1}^m ~ P i log 2 P i ~ bits/symbol \end{displaymath} M \[ \sum {i=1}^m \] i=1

String-algoritmen Een checklist volgt komt op de website.

Overzicht van de colleges 31 oktober Inleiding cursus 7 november Rondleiding Letterenbibliotheek 14 november Databases 21 november Communicatie in digitale media 28 november Information retrieval 5 december Strings 12 december Algoritmiek