Geografische invloed op taalvariatie

Vergelijkbare documenten
HET GEOGRAFISCH VERKLAREN VAN DIALECTAFSTANDEN MET EEN GIS

Geografie en inwoneraantallen als verklarende factoren voor variatie in het Nederlandse dialectgebied

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

9. Lineaire Regressie en Correlatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Vendorrating: statistische presentatiemiddelen

11. Multipele Regressie en Correlatie

Hoofdstuk 2: Verbanden

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

1 Basisbegrippen, W / O voor waar/onwaar

Klantonderzoek: statistiek!

De analyse van uitspraakverschillen in Nederlandse en Friese taalvariëteiten

Tellen met Taal. Het meten van variatie in zinsbouw in Nederlandse dialecten. Marco René Spruit

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO

Measuring Dialect Pronunciation Differences using Levenshtein Distance Heeringa, Wilbert Jan

Kenmerk ontheffing in de Bijstands Uitkeringen Statistiek

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Samenvatting. A. van Leeuwenhoeklaan MA Bilthoven Postbus BA Bilthoven KvK Utrecht T

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Data analyse Inleiding statistiek

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

Percentage afwijkingen groter dan vijf decibel

8. Analyseren van samenhang tussen categorische variabelen

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

Cover Page. The handle holds various files of this Leiden University dissertation

Examen VWO. wiskunde C (pilot) tijdvak 1 woensdag 22 mei uur. Bij dit examen hoort een uitwerkbijlage.

Project: Kennisdocument Onderwerp: p90 Datum: 23 november 2009 Referentie: p90 onzekerheid Wat betekent de p90 (on)zekerheid?

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Korte uitleg van twee veelvoorkomende statistische toetsen Veel wetenschappelijke hypothesen kunnen statistisch worden getoetst. Aan de hand van een

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

Invloed van IT uitbesteding op bedrijfsvoering & IT aansluiting

Practicum algemeen. 1 Diagrammen maken 2 Lineair verband en evenredig verband 3 Het schrijven van een verslag

Het blijkt dat dit eigenlijk alleen lukt met de exponentiële methode.

11. Deelopdracht 8: Invloed stress op gezondheid

2 Data en datasets verwerken

Voorbereidend Wetenschappelijk Onderwijs Tijdvak 2 Woensdag 18 juni uur

statviewtoetsen 18/12/ Statview toets, 2K WE, 30 mei Fitness-campagne Dominantie bij muizen... 4

Effectief Rapporteren

2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht?

aard zijn. De techniek kan ook gebruikt worden bij het onderzoeken van de taalkundige variatie tussen sociale klassen, sexe, en andere dimensies.

Operationaliseren van variabelen (abstracte begrippen)

Factor = het getal waarmee je de oude hoeveelheid moet vermenigvuldigen om een nieuwe hoeveelheid te krijgen.

Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren

Examen HAVO. wiskunde B1. tijdvak 1 dinsdag 20 mei uur

Buiging van een belaste balk

DOEN! - Praktische Opdracht Statistiek 4 Havo Wiskunde A

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

Rapportage Ervaringsonderzoek WOT's

A. Week 1: Introductie in de statistiek.

Eindexamen wiskunde B 1 havo I

HOOFDSTUK VII REGRESSIE ANALYSE

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

Hoofdstuk 10: Regressie

1. Reductie van error variantie en dus verhogen van power op F-test

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Spreidingsdiagram, kleinste-kwadraten regressielijn, correlatiecoefficient

De statespace van Small World Networks

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Examen HAVO. Wiskunde B1,2 (nieuwe stijl)

Eindexamen wiskunde A1 vwo 2004-I

Examen VWO. Wiskunde A1,2 (nieuwe stijl)

2 Data en datasets verwerken

Folkert Buiter 2 oktober 2015

4 Optimale weegschema s

Informatica: C# WPO 7

Combinatorische Algoritmen: Binary Decision Diagrams, Deel III

Voor de beoordeling zijn de volgende passages van de artikelen 41, 41a en 42 van het Eindexamenbesluit van belang:

Kerstvakantiecursus. wiskunde A. Rekenregels voor vereenvoudigen. Voorbereidende opgaven HAVO kan niet korter

Eindexamen wiskunde A1-2 vwo 2005-I

Geografie en inwoneraantallen als verklarende factoren voor variatie in het Nederlandse dialectgebied *

Informatie over de deelnemers

Het belangrijkste doel van de studie in hoofdstuk 3 was om onafhankelijke effecten van visuele preview en spellinguitspraak op het leren spellen van

Rekenen: Meten groep 4 en hoger. Het leren van simpele weegopdrachten.

Orde in de Chaos Een efficiënte manier van opslaan van de data die gebruikt wordt bij het visualiseren van geografische invloed op taalvariatie

Modelleren C Appels. Christian Vleugels Sander Verkerk Richard Both. 2 april Inleiding 2. 3 Data 3. 4 Aanpak 3

Examen HAVO. Wiskunde B1 (nieuwe stijl)

College 6. Samenhang tussen variabelen. Inleiding M&T Hemmo Smit

voorbeeldexamenopgaven statistiek wiskunde A havo

Examen HAVO. Wiskunde B (oude stijl)

Licht in de Duisternis Online visualisatie van geografische data en analyse met behulp van mapserver

Eindexamen wiskunde A havo I

Examen VWO-Compex. Wiskunde A1 (nieuwe stijl)

TIP 10: ANALYSE VAN DE CIJFERS

Paragraaf 5.1 : Frequentieverdelingen

Samenvatting (Summary in Dutch)

Algemene informatie over het IQ Binet

Eindexamen wiskunde B1 havo 2002-I

Tussendoelen wiskunde onderbouw vo vmbo

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Summary in Dutch 179

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Eindexamen wiskunde B1 havo 2003-II

Exponentiële Functie: Toepassingen

Kenmerk ontheffing in de Bijstands Uitkeringen Statistiek 2009 Versie 2

Examen VWO. wiskunde B1. tijdvak 2 woensdag 24 juni uur

1BK2 1BK6 1BK7 1BK9 2BK1

Cover Page. The handle holds various files of this Leiden University dissertation.

Transcriptie:

Geografische invloed op taalvariatie J. Wouda juni 2006 1 Inleiding Rijksuniversiteit Groningen Informatiekunde Een dialectologisch axioma is, dat geografische informatie tot op zekere hoogte ligt besloten in fonetische afstanden[11]. In dit onderzoek wordt ingegaan op de vraag in hoeverre de geografische afstanden van invloed zijn op de variatie binnen Duitse dialecten. We zijn hier in geïnteresseerd, omdat we graag willen voorspellen op grond waarvan er binnen de Duitse gebieden dialectveranderingen optreden. In dit onderzoek is gebruik gemaakt van de gedigitaliseerde versie van de Phonetischer Atlas von Deutschland. Dit is een in de jaren 60 en 70 van de vorige eeuw verzameld dialectcorpus, waar voor 147 woorden uit 186 Duitse plaatsen uitspraken zijn verzameld. Al deze uitspraken zijn vastgelegd in fonetisch schrift en vervolgens gedigitaliseerd naar X-SAMPA. Dit relatief oude corpus is van een dusdanige kwaliteit en omvang, dat het voor hedendaags onderzoek nog steeds zeer bruikbaar is. In dit onderzoek wordt gebruik gemaakt van een relatief nieuwe methode om dialectverschillen in kaart te brengen. Bij deze indeling wordt gebruik gemaakt van Monmonier s maximum verschil algoritme. Het doel van het gebruik van dit algoritme is om dialectgrenzen, barrières genaamd, op basis van positieve residuen in kaart te brengen. De residuen worden verkregen door toepassing van regressieanalyse. 2 Dialectometrie Dialectometrie is het meten van dialectverschillen. Bij de verschillende toepassingen van dialectometrie wordt verondersteld dat afstanden tussen 1

dialecten voornamelijk zijn gebaseerd op geografische afstanden[11]. De taalkundige verschillen tussen dialecten worden gemeten door te kijken naar verschillen in uitspraak. Om achter deze verschillen te komen, zullen er verschillende uitspraken met elkaar vergeleken moeten worden. Het eerste dialectometrisch onderzoek was er op gericht om te zoeken naar overlap in bepaalde uitspraken voor hetzelfde object. Simpel gezegd: als een uitspraak voor een object in twee plaatsen gelijk is en er een bepaalde drempelwaarde wordt overschreden van hoeveel overeenkomstige woorden er moeten zijn, horen de dialecten bij elkaar. Hedendaags onderzoek is gericht op fijnere verschillen tussen twee dialecten. Dit om tot nauwkeuriger conclusies te komen. Zo worden niet alleen hele woorden vergeleken, maar onderzoekt men woorden op het kleinst mogelijke niveau; dat van de klanken. Binnen onderzoek naar klankverschillen tussen woorden bestaan er meerdere methoden. 2.1 Toepassingen Dialectometrie Jean Séguy was de eerste persoon die zich bezighield met dialectometrie. Dit vond plaats in de begin jaren 70 van de vorige eeuw. Door de komst van computers kon men gedetailleerd dialectometrisch onderzoek verrichten. Bij een dialectometrisch onderzoek zijn, door de hoeveelheid data die zo n onderzoek met zich meebrengt, voor de opslag, verwerking en manipulatie van de data, computers onontbeerlijk[13]. Een probleem van het eerste dialectometrisch onderzoek was, dat data categorisch werd benaderd, waardoor er geen nadruk werd gelegd op kleine verschillen tussen dialecten. Oud onderzoek was voornamelijk gericht op het gebruik van verschillende woorden die werden gebruikt voor hetzelfde object. Dit leverde een heel grof beeld op van dialectverschillen in een bepaald gebied. De volgende stap in dialectometrie werd gezet door Goebl, die ontevreden was over de grofheid die de methode van Séguy met zich meebracht. De belangrijkste aanpassing die hij maakte, was door aan bepaalde woorden die niet veel voorkwamen een zwaarder gewicht toe te kennen. Hierdoor kregen deze woorden bij de analyse meer invloed op de dialectverschillen. Alhoewel de stap van Goebl al een verfijning was van de methode van Séguy, was de aanpak nog steeds categorisch. Onderzoekers waren er van overtuigd dat ze een nauwkeuriger indeling van dialecten zouden kunnen maken, als ze dieper zouden gaan dan de methodes van Séguy en Goebl. Er moest een stap van meta- naar micro-niveau worden gemaakt, waarbij het meta-niveau wordt voorgesteld door hele woorden en het micro-niveau door klanksegmenten. 2

Binnen de dialectometrie wordt elke klank een foneem genoemd. Ieder woord is opgebouwd uit een set fonemen. Voor het onderzoek naar foneemverschillen tussen dialecten, zijn er verschillende methoden ontwikkeld. 2.1.1 Frequentiemethode Door de broers Hoppenbrouwers is er in 1988 een methode ontwikkeld waarbij er fonetische kenmerken uit dialectteksten, omgezet in fonetisch schrift, worden geteld. Het aantal voorkomens van een fonetisch kenmerk of feature wordt geteld en opgeslagen. Zo wordt voor ieder dialect een profiel van onderscheidende kenmerken gemaakt. Deze methode wordt Feature Frequentiemethode (FFM) genoemd[2][10]. Een andere methode, die ook gebruikt maakt van frequenties, is de foonfrequentiemethode. Hierbij worden de frequenties van de verschillende fonemen voor twee corpora vergeleken. Hoe hoger het aantal overeenkomende klanken tussen twee corpora, hoe dichter ze binnen een classificatie bij elkaar horen. Een probleem van deze twee methoden is, dat ze beide geen rekening houden met de plaats van een klank binnen een woord. 2.1.2 Frequentie-per-woord-methode Bij deze methode worden steeds woordparen uit twee corpora vergeleken, waarbij wordt gelet op de frequentie van overeenkomstige klanken. Daarbij wordt niet gelet of de volgorde van de klanken overeenkomt. Het verschil met de frequentiemethodes is, dat er hele woorden vergeleken worden en niet één massa aan klanken met een andere massa aan klanken[10][16]. 2.1.3 Levenshteinmethode Omdat de drie bovengenoemde methoden geen rekening houden met de positie van een klank binnen een woord, is er een methode ontwikkeld die hier wel rekening mee houdt. Brett Kessler was in 1995 de eerste die het Levenshteinalgoritme toepaste in de dialectometrie en in 1996 is John Nerbonne[12][14] een serie onderzoeken begonnen naar de toepassing van dit algoritme. Bij de toepassing van het Levenshteinalgoritme worden voor twee dialecten de woordparen vergeleken. Daarbij wordt voor ieder woordpaar een berekening gemaakt hoeveel het kost om het ene woord om te zetten naar het andere. De totale kosten voor een heel corpus worden opgeteld en gedeeld door het totaal aantal woorden. Later in dit stuk zal er in meer detail uitgelegd worden wat het Levenshteinalgoritme inhoudt. 3

Het verschil tussen de frequentie-per-woord-methode en de Levenshteinmethode is, dat de frequentie-per-woord-methode geen rekening houdt met de volgorde van de klanken binnen een woord[10]. 2.2 Dialectgebieden of Dialectcontinuüm Binnen de dialectometrie bestonden aanvankelijk twee zienswijzen over de verdeling van dialecten. De ene zienswijze gaat er vanuit dat dialecten in gebieden met duidelijk aanwijsbare grenzen kunnen worden ingedeeld. De andere zienswijze gaat er vanuit dat de verdeling van dialecten geen scherpe grenzen laat zien, maar zicht uitstrekt over een continuüm. John Nerbonne en Wilbert Heeringa hebben in 2001 onderzoek gedaan naar dit dilemma. Zij voerden in dit onderzoek een derde zienswijze aan, namelijk dat van een aggregaat, wat betekent dat alle dialecten binnen het te onderzoeken gebied losjes verbonden zijn, maar toch allemaal deel uitmaken van dezelfde vereniging[11]. Deze methode heeft als voordeel, dat voorspeld kan worden hoeveel procent van de afstand tussen de dialecten kan worden verklaard door de geografische afstand. Binnen deze nieuwe zienswijze bestaan weer verschillende methoden om een verdeling te maken van gelieerde dialecten. Deze verdelingen worden indelingsmethoden genoemd. 2.3 Indelingsmethoden Er bestaan verschillende indelingsmethoden, waarvan een aantal voor ons interessant zijn. Niet alle indelingsmethoden zijn interessant om te vermelden, omdat niet alle methoden geschikt zijn voor de verwerking van een grote hoeveelheid numerieke data. 2.3.1 Clustering Bij clustering wordt tussen alle plaatsen, bijvoorbeeld op basis van de Levenshteinafstanden, een hiërarchie in de dialectafstanden gegenereerd. Hierbij worden clusters gecreëerd, waarbij eerst wordt gekeken naar de twee plaatsen die de kleinste afstand tot elkaar hebben. Deze twee plaatsen worden samengevoegd en vervolgens wordt de kleinste afstand bepaald tot de plaats die weer de kleinste afstand heeft tot deze samenvoeging. Dit proces wordt herhaald totdat er geen samenvoegingen meer mogelijk zijn[16]. Van de gemaakte indeling kan vervolgens een dendogram worden gemaakt. In figuur 1 wordt een deel van een dendogram afgebeeld. 4

Figure 1: Een deel van een dendogram 2.3.2 Multidimensionele Herschaling Bij multidimensionele herschaling worden numerieke waarden met elkaar vergeleken en vervolgens grafisch weergegeven op een kaart. De afstandsverhoudingen uit de oorspronkelijke tabel, worden vertaald naar de kaart, zodat de verschillen zo getrouw mogelijk worden weergegeven. Door aan elk gebied ook nog een kleur mee te geven, worden de verhoudingen extra benadrukt[3][16]. Aan de multidimensionele herschaling kleeft een aantal nadelen. Een vrij banaal probleem is, dat vrijwel alle wetenschappelijke publicaties in zwart wit worden uitgegeven, omdat kleur te duur is. Van de duidelijke contrasten blijft dan weinig over. Een ander probleem is dat de kleuren niet altijd duidelijk de grenzen aangeven, of dat bij het printen van een kaart de kleuren worden veranderd. Een handicap die vooral bij mannen voorkomt, kleurenblindheid, kan ook voor problemen zorgen. Bij het maken van kaarten zijn we al snel op meerdere kleuren aangewezen, waaronder rood en groen; de kleuren die voor kleurenblinden de grootste problemen opleveren. Als deze kleuren toch gebruikt worden, kan dit leiden tot misinterpretaties[3]. 5

3 Het Onderzoek 3.1 Monmonieralgoritme Een relatief nieuwe methode om dialectverschillen in kaart te brengen, is de toepassing van Monmonier s maximum verschil algoritme (1973). Hoewel het algoritme al vrij oud is en het al een tijd gebruikt wordt om genetische verschillen in kaart te brengen, wordt het pas sinds kort toegepast in dialectometrie. In 2004 is het algoritme door Franz Manni, Wilbert Heeringa en John Nerbonne[6][7] voor het eerst toegepast, om dialectverschillen in Nederland in kaart te brengen. Zoals aan het begin van dit verslag werd gesteld, dat geografische informatie tot op zekere hoogte besloten ligt in de fonetische afstanden, verwachten we een zeker verband tussen de twee variabelen. Om dit verband aan te tonen, moeten we gebruik maken van statistische methoden. Het maken van een spreidingsdiagram is een geschikte methode om te onderzoeken of er een verband bestaat tussen twee variabelen. Aan de hand van de richting, vorm en sterkte van de puntenwolk kunnen we afleiden of er een verband bestaat tussen de twee variabelen. Het doel van het onderzoeken van dit verband is, dat we graag willen voorspellen op grond waarvan er tussen dialecten verschillen optreden. Voor het toetsen van de hypothese, of er een relatie bestaat tussen de variabele op de y-as en de variabele op de x-as, hebben we een numerieke maat nodig. Deze numerieke maat voorkomt interpretatiefouten. Interpretatiefouten kunnen ontstaan doordat een gekozen schaal voor het spreidingsdiagram gezichtsbedrog kan veroorzaken. De numerieke maat vinden we in de correlatie r. De correlatie meet de richting en de sterkte van de lineaire relatie tussen twee kwantitatieve variabelen[9]. Als de correlatie tussen de twee variabelen positief is, betekent dat in ons geval dat de fonetische afstand toeneemt, naarmate ook de geografische afstand toeneemt. Hoe dichter de correlatie -1 of 1 nadert, des te sterker de relatie tussen de twee variabelen. Alleen het maken van een spreidingsdiagram en het berekenen van de correlatie is niet voldoende voor het voorspellen van een waarde voor de fonetische afstand bij een gegeven geografische afstand. Omdat we weten, aansluitend op onze stelling dat geografische informatie tot op zekere hoogte besloten ligt in de fonetische afstanden, dat we beschikken over een verklarende en een te verklaren variabele, kunnen we regressieanalyse toepassen. Een vereiste voor het toepassen van regressieanalyse is namelijk, dat we beschikken over een verklarende en een te verklaren variabele. De geografische afstand is de verklarende en de fonetische afstand is de te verklaren vari- 6

abele. Dit wetende, is het mogelijk om door de puntenwolk uit het spreidingsdiagram een regressielijn te trekken. De correlatie en regressie zijn sterk verbonden. Zo bepaalt de correlatie r de helling van de regressielijn. Een ander verband tussen de correlatie en regressie is voor ons nog belangrijker. Het kwadraat van de correlatie, r 2, is die fractie van de variatie in de y-waarden die verklaard wordt door de kleinste-kwadratenregressie van y op x[9]. Voor ons onderzoek betekent dit, dat de hoogte van het kwadraat van de correlatie r 2 het percentage oplevert dat het verschil tussen de fonetische afstanden op basis van de geografische afstand verklaart. Een voorbeeld in getallen: stel dat er bij de regressieanalyse een r berekend wordt van 0.71. Dan is r 2 0.5041. Dit zou betekenen dat 50.4% van de fonetische verschillen wordt verklaard door de geografische afstand. Het doel van het toepassen van het Monmonieralgoritme op dialectverschillen in combinatie met geografische afstanden is, om dialectbarrières in kaart te brengen. Zoals hierboven aangegeven kunnen we, op basis van een gegeven set plaatsen, aan de hand van dialectverschillen en de geografische afstanden tussen deze plaatsen, door middel van regressie, een correlatie berekenen. Het berekenen van de residuen is de volgende stap in het proces om de dialectbarrières in kaart te brengen. Dit wordt gedaan omdat residuen een voorspellende waarde hebben. De regressielijn is zo getekend dat de verticale afstanden van de punten tot de regressielijn, de kleinste waarde voor de sommatie over de kwadraten oplevert. Dit betekent dat de residuen de overgebleven variatie tussen de voorspelde waarden voor y en de waargenomen waarden van y voorstellen. We zijn nu geïnteresseerd in de positieve residuen. Positieve residuen laten namelijk zien dat de afstand tussen twee dialecten groter is dan we op grond van de geografische afstand hadden verwacht. De positieve residuen vormen de basis voor het Monmonieralgoritme en de te tekenen dialectbarrières. In het stuk van René van der Ark wordt verder ingegaan op hoe de residuen precies gebruikt worden voor het tekenen van de dialectbarrières. Een groot voordeel van het Monmonieralgoritme zit in de robuustheid van de barrières. Wanneer het eerste lijnstuk van een barrière is gezet, berust de voortzetting van de barrière op een drempelwaarde. Wordt de drempelwaarde overschreden, dan wordt de barrière doorgetrokken. De barrières worden getekend over de lijnen van de polygonen. Bij iedere voortzetting van een barrière wordt een links-rechtsbeslissing gemaakt, omdat er bepaald moet worden tussen welke twee dialecten de barrière verder loopt. We kunnen een differentiatie aanbrengen in de barrières door een sterkere barrière aan te geven met een dikkere lijn op de kaart. 7

3.2 Het Maken Van De Kaart Het maken van een kaart met barrières gebeurt in een aantal stappen. Als eerste hebben we een kaart nodig met daarop alle plaatsen. In dit onderzoek gaat het om 186 Duitse plaatsen. Figure 2: De basiskaart met daarop alle 186 plaatsen 8

Vervolgens wordt er een berekening gemaakt die alle buren door middel van driehoeken met elkaar verbindt. Deze methode heet Delaunay triangulation. De berekening houdt in, dat de kleinst mogelijke driehoeken worden getekend. Figure 3: De kaart na toevoeging van de Delaunaydriehoeken 9

Daarna worden door alle zwaartepunten van de gemaakte driehoeken nieuwe lijnen getrokken. Op deze manier ontstaat er rond elke plaats een polygoon. Deze procedure wordt Voronoi tesselation genoemd. Over deze lijnen worden de barrières getekend. Hieruit wordt ook duidelijk waarom bij het voortzetten van de barrière een links-rechtsbeslissing moet worden gemaakt. Figure 4: De kaart na toepassing van Voronoi tesselation 10

3.3 Dialectometrisch Onderzoek De eerste stap in dialectometrisch onderzoek bestaat uit ouderwets veldwerk. Een onderzoeker zal naar iedere plaats, die hij of zij wil gebruiken, toe moeten gaan om uitspraken op te nemen. Deze uitspraken bestaan uit een door de onderzoeker vooraf samengestelde woordenlijst of uit te spreken zinnen. Elke uitspraak wordt vervolgens omgezet naar een speciaal schrift; het fonetisch schrift. Dit is een schrift dat is vastgelegd in een alfabet; het zogenaamde International Phonetic Alphabet (IPA) waarmee zeer nauwkeurig elke klank in een uitspraak kan worden vastgelegd. Het deel van de naam International geeft aan, dat het fonetisch schrift van toepassing is op elke gesproken taal. Omdat het fonetisch schrift uit tekens bestaat die veelal niet voorkomen op een normaal toetsenbord, is er een versie van het fonetisch schrift gemaakt waarbij de tekens zijn vervangen door tekens uit de US-ASCII set, die op elk toetsenbord voorkomen. De oorspronkelijke naam van dit gedigitaliseerde fonetische schrift was SAMPA, maar is later uitgebreid en vervolgens X- SAMPA genoemd, wat staat voor: Extended SAM Phonetic Alphabet[15]. Hieronder volgt een afbeelding van twee uitspraken voor het woord Apfel met links de fonetische schrijfwijze zoals die wordt voorgeschreven door het IPA, met daarachter de X-SAMPA transcriptie Figure 5: Links het fonetisch schrift volgens IPA, rechts X-SAMPA Vervolgens willen we de verschillen tussen alle gemeten dialecten bepalen. Om dit te bereiken meten we steeds voor twee dialecten de fonetische verschillen, dat is het verschil in uitspraak. Het verschil tussen twee dialecten bepalen we door van alle losse woorden de uitspraak met elkaar te vergelijken. Hiervoor maken we gebruik van de Levenshteinafstand. De Levenshteinafstand wordt bepaald door twee woorden te vergelijken en te berekenen hoeveel het kost om het ene woord om te zetten naar het andere. Hierbij zijn er drie acties mogelijk: er moet een karakter worden toegevoegd, verwijderd of veranderd. Het toevoegen of verwijderen van een karakter kost één punt en het veranderen van een karakter kost twee punten. Het Levenshteinalgoritme berekent voor elke omzetting de goedkoopste route[4]. Tenslotte wordt de absolute berekende afstand tussen twee woorden gedeeld 11

door de gemiddelde lengte van de twee woorden. Dit wordt gedaan omdat anders de langere woorden, die door hun lengte een grotere kans hebben op meerdere klankverschillen, het dialectverschil in een richting kunnen trekken die niet noodzakelijkerwijs het ware dialectverschil weerspiegeld[10]. Hieronder volgt een voorbeeld voor het bepalen van de Levenshteinafstand: Figure 6: Levenshteinafstand voor geografie naar fonologie 4 Fonetische en Geografische Afstanden 4.1 Fonetische Afstand Tot nu toe is er in dit verslag vooral gesproken over dialectverschillen. Fonetische afstand is een andere naam die voor dit verschijnsel vaak gebruikt wordt. De fonetische afstanden worden in dit onderzoek bepaald door gebruik van de Levenshteinmethode, die hierboven is uitgelegd. De Levenshteinafstand blijkt consistent te zijn voor woordensets van 100 of meer (Cronbach α > 0.96, woordenset van 100)[7] en in dit onderzoek is er gebruik gemaakt van een woordenset van 147, dus het gebruik van de Levenshteinafstand is daarmee gerechtvaardigd. Uit het pakket L04[5] is met het programma Leven, een matrix gemaakt 12

voor de fonetische afstanden tussen alle 186 plaatsen; wat neer komt op: 186 186 186 2 De Levenshteinafstanden worden berekend voor alle plaatsen onderling, omdat dit zorgt voor een betere spreiding van de data. Van de fonetische afstanden zijn de absolute verschillen berekend omdat er niet zoiets bestaat als een negatieve fonetische afstand. 4.2 Geografische Afstand Uit andere onderzoeken is gebleken[7][11], dat de geografische afstand tussen twee plaatsen, tot op zekere hoogte, een voorspellende waarde heeft wat betreft de fonetische afstand tussen deze twee plaatsen. In de data van de Phonetischer Atlas von Deutschland is een coördinatenbestand opgeslagen in de UTM32 projectie, waarvoor elk van de 186 plaatsen een lengte- en breedtegraad is meegegeven. De plaatsen met coördinaten zijn ingelezen met het programma ArcGis 9 en van daaruit omgezet naar de WSG1972 projectie, die rekening houdt met de bolling van de aarde. Voor de geografische afstand is de euclidische afstand tussen elke plaats berekend. We krijgen dan een matrix van 17205 afstanden. Ilse van Gemert heeft in haar doctoraalscriptie(2002) onderzoek gedaan naar de berekende euclidische afstand, omdat dit misschien een verdraaiing van de onderzoeksresultaten tot gevolg zou kunnen hebben[16]. Dit omdat de euclidische afstand in feite niet de werkelijke afstand tussen twee plaatsen weergeeft, omdat verbindingen tussen twee plaatsen nooit loodrecht lopen en daarmee de directe euclidische afstand altijd korter is dan de sommatie van de indirecte afstanden van alle tussenliggende plaatsen die op een zo recht mogelijke lijn worden gezocht. Uit het stuk van Van Gemert blijkt dat met de geteste data, de directe euclidische afstand een net zo goed resultaat geeft als met de sommatie van de indirecte afstanden[16]. 5 Resultaten & Discussie Uit het onderzoek van Nerbonne en Heeringa (2001)[11] blijkt, dat de fonetische afstanden niet cumulatief zijn. Dit betekent dat, hoe verder we van een startpunt verwijderd zijn, hoe minder snel de fonetische afstand zal oplopen in verhouding tot de geografische afstand. Als we naar het spreidingsdiagram in figuur 7 kijken zien we dat de puntenwolk niet recht loopt, maar naarmate de geografische afstand toeneemt, de 13

Figure 7: De fonetische afstanden uitgezet tegen de geografische afstanden. De regressielijncoëffieciënten van f(x): a=0.0470528, b=2.07291e-08, c=-0.0228649. wolk minder snel stijgt en wat wordt afgeplat. Dit bevestigt de conclusie van Nerbonne en Heeringa. Dit betekent dat er geen lineair verband is tussen de geografische en de fonetische afstand, maar een logaritmisch verband. Dit logaritmische verband wordt gegeven door de functie f : f(x) = a log(x) + bx + c Dit verantwoordt het gebruik van de logaritmische waarden voor de geografische afstand in plaats van de normale waarden. Op de logaritmische waarden van de geografische afstanden en de fonetische afstanden is lineaire regressie toegepast. Hierbij is de geografische afstand de verklarende variabele en de fonetische afstand de te verklaren variabele. Aan de hand van deze gegevens zijn de correlatie en de residuen berekend. Voor de correlatie werd een waarde berekend van r = 0.61 en r 2 = 0.3712. Hieruit volgt dat 37.2% van de fonetische verschillen verklaard kan worden door de variabele geografische afstand. Bij de regressie zijn ook de residuen berekend. We zijn geïnteresseerd 14

in de residuen omdat positieve residuen laten zien dat de fonetische afstand groter is dan we op grond van de geografische afstand hadden verwacht. Voor de residuen werd een maximumwaarde van 4.053, een minimumwaarde van -4.383 en een standaarddeviatie van 1.000 waargenomen. Figuur 8 laat het normaal-kwantiel-plot zien van de residuen. De grafiek laat zien dat de residuen normaal verdeeld zijn en dat betekent dat de correlatie geschikt is om onze bevindingen mee te toetsen[9]. Figure 8: normaal-kwantiel-plot van de residuen Hoewel de gebruikte methode werkt, kan er nog wel netter worden gewerkt. Er is gewerkt met een tabel met 34410 regels. Dit kan efficiënter door de redundante data te verwijderen. We krijgen dan niet een tabel met 34410 regels, maar een tabel met 17205 regels. Hierdoor wordt de rekentijd voor de computer verkort en zullen de grafieken duidelijker worden. 15

6 Conclusie In dit onderzoek is ingegaan op de vraag, wat de invloed is van geografie op taalvariatie binnen de Duitse dialecten. We hebben onderzocht in hoeverre de geografische afstand tussen twee plaatsen een voorspellende waarde heeft wat betreft het verschil in dialecten tussen twee plaatsen. Er is een correlatie gevonden van r = 0.61 en daaruit volgend r 2 = 0.3721. Hieruit blijkt dat 37.2% van de fonetische verschillen binnen de Duitse dialecten verklaard kan worden door de geografische afstand. Dit betekent dat 62.8% van de fonetische verschillen in andere oorzaken gezocht moeten worden. We moeten dus op zoek naar andere oorzaken, om een vollediger voorspelling te kunnen doen voor op grond waarvan er binnen de Duitse dialecten dialectveranderingen optreden. Uit een opmerking van Nerbonne en Heeringa blijkt dat, hoewel ze voor hun kleinere dataset van Nederlandse dialecten met 125 woorden, een resultaat behaalden waarbij 65% van de fonetische afstanden verklaard kon worden door de geografische afstanden, ze bij het gebruik van een dataset van 350 woorden, nog maar 43% van de fonetische afstanden verklaard kon worden door de geografische afstanden[11]. Misschien heeft in dit onderzoek de grote variatie aan mogelijke uitspraken voor een woord invloed gehad op de lager uitvallende correlatie. Uit het stuk van René van der Ark zal moeten blijken of de toepassing van het Monmonieralgoritme een geschikte methode is om dialectbarrières in kaart te brengen. 7 Aanbevelingen Misschien moet er dieper gegraven worden naar de oude bestuurssystemen die in de Duitse deelgebieden zijn geweest en dan met name daar waar de barrières het sterkst zijn. Het is een idee om te onderzoeken welke invloeden deze bestuurssystemen hebben gehad op de gemeenschappen die ten tijde van de invoering van het Hoogduits in deze gebieden leefden en dan vooral wat redenen zouden kunnen zijn waarom bepaalde gemeenschappen minder contact met elkaar lijken te hebben gehad dan we op basis van de fonetische en geografische afstand zouden verwachten. Wellicht hadden bepaalde groepen weinig of geen contact met elkaar door conflicten, die in die tijd vaker voorkwamen en vaak extremere vormen aannamen. Het probleem kan ook van de andere kant worden benaderd; er kan onderzocht worden waarom bepaalde gebieden juist meer contact lijken te hebben gehad dan 16

we op grond van de fonetische en geografische afstanden zouden verwachten. Een oorzaak kan liggen in nauwe handelsbetrekkingen tussen twee gebieden. Het is ook mogelijk om een combinatie te maken tussen onderzoek naar de invloed van bestuurssystemen en de invloed van geografische barrières. 8 Dankwoord Bij deze wil ik John Nerbonne en Elwin Koster hartelijk bedanken voor de goede begeleiding tijdens de totstandkoming van deze bachelorscriptie en het gehele project als zodanig. References [1] Peter A. Burrough and Rachael A. McDonnell. Principles of Geographical Information Systems. Oxford University Press, 1998. [2] Cor Hoppenbrouwers and Geer Hoppenbrouwers. De indeling van de Nederlandse streektalen. Koninklijke Van Gorcum, 2001. [3] Peter Kleiweg. Hoe breng je verschillen tussen geografische gebieden in kaart? Website: Rug/L04, 2006. http://www.let.rug.nl/ kleiweg/kaarten/afstanden.html.nl#minmds, date visited: 3-6-2006. [4] Peter Kleiweg. Levenshtein demo. Website: Peter Kleiweg, 2006. http://odur.let.rug.nl/ kleiweg/lev/, date visited: 3-6-2006. [5] Peter Kleiweg. Rug/l04 - dialectometrics & cartography. Website: Rug/L04, 2006. http://www.let.rug.nl/ kleiweg/l04, date visited: 3-6-2006. [6] F. Manni, E. Guérard, and E. Heyer. Geographic patterns of (genetic, morphologic, linguistic) variation: how barriers can be detected by monmonier s algorithm. Human Biology, 76(2):173 190, 2004. http://www.mnhn.fr/mnhn/ecoanthropologie/software/barrier.html, date visited: 3-6-2006. [7] Franz Manni, Wilbert Heeringa, and John Nerbonne. To what extent are surnames words? comparing geographic patterns of surnames and dialect variation in the netherlands. to appear in:. Literary and Linguistic Computing, 21(4), 2006. 17

[8] Taylor Mitchel. Webmapping illustrated. O Reilly, 2005. [9] David S. Moore and George P. McCabe. Statistiek in de praktijk. Academic Service, third edition, 2001. [10] John Nerbonne and Wilbert Heeringa. Computational comparison and classification of dialects. Dialectologia et Geolinguistica, 9:69 83, 2001. [11] John Nerbonne and Wilbert Heeringa. Dialect areas and dialect continua. Language Variation and Change, 13:375 400, 2001. [12] John Nerbonne, Wilbert Heeringa, Erik van den Hout, Peter van der Kooi, Simone Otten, and Willem van de Vis. Phonetic distance between dutch dialects. In G.Durieux, and W.Daelemans, and S.Gillis (eds.) CLIN VI: Proc. of the Sixth CLIN Meeting. Antwerp, Centre for Dutch Language and Speech (UIA), pages 185 202, 1996. [13] John Nerbonne and William Kretzschmar. Introducing computational techniques in dialectometry. Special issue of Computers and the Humanities, 37(3):245 255, 2003. [14] Remco Takken. De veelkleurige wereld van het dialect in kaart. GiSmagazine, september 2005. http://www.let.rug.nl/ kleiweg/papers/takken2005.pdf, date visited: 3-6-2006. [15] Unknown. X-sampa-wikipedia. Website: Wikipedia, 2006. http://en.wikipedia.org/wiki/x-sampa, date visited: 3-6-2006. [16] Ilse van Gemert. Het geografisch verklaren van dialectafstanden met een gis. Master s thesis, Rijksuniversiteit Groningen, 2002. 18