Automatische Dialectdetectie Vergelijking en Classificatie van Dialecten

Transcriptie

1 Faculteit Ingenieurswetenschappen Departement Elektrotechniek ESAT KATHOLIEKE UNIVERSITEIT LEUVEN Automatische Dialectdetectie Vergelijking en Classificatie van Dialecten Eindwerk voorgedragen tot het behalen van het diploma van Burgerlijk werktuigkundigelektrotechnisch ingenieur, richting elektrotechniek, optie dataverwerking & optimalisatie Marijn Maenhoudt Promotor: Prof. Dr. Van Compernolle Dagelijkse begeleiding: Tingyao Wu Jacques Duchateau

2 c Copyright by K.U.Leuven Zonder voorafgaande schriftelijke toestemming van zowel de promotor(en) als de auteur(s) is overnemen, kopiëren, gebruiken of realiseren van deze uitgave of gedeelten ervan verboden. Voor aanvragen tot of informatie i.v.m. het overnemen en/of gebruik en/of realisatie van gedeelten uit deze publicatie, wendt U tot de K.U.Leuven, Departement Elektrotechniek ESAT, Kasteelpark Arenberg 10, B-3001 Heverlee (België). Telefoon & Fax of via info@esat.kuleuven.be. Voorafgaande schriftelijke toestemming van de promotor(en) is eveneens vereist voor het aanwenden van de in dit afstudeerwerk beschreven (originele) methoden, producten, schakelingen en programma s voor industrieel of commercieel nut en voor de inzending van deze publicatie ter deelname aan wetenschappelijke prijzen of wedstrijden. c Copyright by K.U.Leuven Without written permission of the promotors and the authors it is forbidden to reproduce or adapt in any form or by any means any part of this publication. Requests for obtaining the right to reproduce or utilize parts of this publication should be addressed to K.U.Leuven, Departement Elektrotechniek ESAT, Kasteelpark Arenberg 10, B-3001 Heverlee (Belgium). Tel & Fax or by info@esat.kuleuven.be. A written permission of the promotor is also required to use the methods, products, schematics and programs described in this work for industrial or commercial use, and for submitting this publication in scientific contests. i

3 Voorwoord Graag had ik bij de aanvang van dit eindwerk iedereen willen bedanken die mij geholpen heeft bij het realiseren van mijn thesis. Velen maakten dit werk lichter en verdienen daarom wel een speciale vermelding. Dankzij mijn promotor Prof. Dirk Van Compernolle kon ik even meewerken aan de fascinerende wereld van de spraakherkenning. Ik wil hem danken voor zijn blijken van interesse die voor mij een steun in de rug waren. Maar zonder de adequate opvolging van mijn begeleiders, ir. Tingyao Wu en ir. Jacques Duchateau, was dit werk niet mogelijk geweest. Ik wil ir. Jacques Duchateau danken voor de opbouwende opmerkingen en het kritisch nalezen van de teksten. Het bleek steeds bij te dragen tot een stap in de goede richting. Mijn speciale dank wil ik ook richten tot ir. Tinguao Wu voor zijn coachende interesse en het bijwonen van de vergaderingen. Ik dank ook alle mensen van ESAT voor hun bijdrage en steun in de uitvoering van dit project. ii

4 Abstract Het doel van dit eindwerk is bij te dragen tot de ontwikkeling van een automatische classificator van dialecten. De studie onderzoekt de fonemische variaties in de Vlaamse taalvarianten van het Standaardnederlands. De dialecten worden geclassificeerd op basis van de resultaten van een spraakherkenner, namelijk de probabiliteiten waarmee de vocalisatiesignalen worden verklaard door elk van de 38 mogelijke foneemhypothesen. In eerste instantie worden de foneemvariaties in de regionale talen vanuit drie invalshoeken bestudeerd. In een eerste analyse wordt het verband van het herkende foneem met het uitgesproken foneem onderzocht. Daarna wordt het verloop van het herkende foneem in het tijdsdomein geanalyseerd. Een derde onderzoek behandelt de distributie van de fonemen in de regiotaal. Voor deze onderzoeken wordt de CoGeN database ter beschikking gesteld. De foneemparen die de meeste indicatie voor de dialecten bevatten zijn: /I/ versus /i/ om het Antwerps en Brabants te scheiden, /E/ versus /e/ is bruikbaar om het Antwerps te indiceren, /G/ versus /h/ om het West-Vlaams te classificeren, /o/ versus /o/ is geschikt om het Oost-Vlaams aan te duiden en /u/ versus /o/ om het Antwerps en Limburgs te onderscheiden. In tweede instantie worden de classificaties uitgevoerd op de CGN database. Een eerste classificatie naar geboorteregio, woonregio en regio van opleiding gebeurt door middel van zes handmatig gekozen cues. Het classificatiepercentage naar woonregio toe bedraagt 35.9 procent. Voor de classificatiegraad naar geboorteregio is 34 procent vastgesteld. De classificatie met betrekking tot de regio van opleiding bedraagt 30.2 procent. Om te komen tot een tweede automatische classificatie wordt het discriminerend karakter van de foneemparen uitgesproken foneem - herkend foneem nagegaan door toepassing van een ANOVA op de a posteriori probabiliteiten. Daarnaast wordt nagegaan hoeveel cues volstaan om de hoogste classificatiegraden te bekomen. De geautomatiseerde methode levert statistisch significante resultaten bij classificatie van de Vlaamse taalvarianten van het Standaardnederlands. De classificatie naar woonregio is opnieuw het meest doeltreffend, namelijk 47.2 procent (met 190 cues). Het percentage bedraagt 39.7 procent bij de classificatie naar de regio van opleiding (met 245 cues) en 35.8 procent bij classificatie naar geboorteregio (met 163 cues). iii

5 Lijst van afkortingen en symbolen APP a posteriori probabiliteit/probabiliteiten CoGeN Corpus Gesproken Nederlands, dataset 1 W West-Vlaanderen O Oost-Vlaanderen A Antwerpen B Brabant L Limburg khz kilohertz VTLN Vocal Tract Length Normalisation HMM Hidden Markov Model ω gekend fonetisch segment CGN Corpus Gesproken Nederlands, dataset 2 max maximum µ d gemiddelde van de logaritme van a posteriori probabiliteiten van dialect d µ t gemiddelde van de logaritme van a posteriori probabiliteiten van testspreker t Q-Q-plot normaalkwantielplot ANOVA Analysis of Variance P-waarde overschrijdingskans MSE Mean Square Error MSB Mean Square Between SST Total Sum of Squares SSE Error Sum of Squares SSB Between Sum of Squares iv

6 Inhoudsopgave Voorwoord iii Abstract iv Lijst van afkortingen en symbolen v Inhoudsopgave vi Lijst van figuren viii Lijst van tabellen x 1 Algemene Inleiding Spraak Dialectherkenning door foneemanalyse Doel van het eindwerk Verband herkend foneem met uitgesproken foneem Verwerking van de data Invloed van factoren in de dataverwerking Foneemselectie op basis van a posteriori probabiliteiten Conclusie Verschillen in tijdsdomein Opstellen van het tijdsverloop op basis van a posteriori probabiliteiten Resultaten van de tijdsverlopen Conclusie Distributie Opstellen van de histogrammen op basis van de a posteriori probabiliteit Resultaten van de histogrammen Conclusie Classificatie op basis van handmatig gekozen cues Doel van de classificatie Transformatie van de data Classificatie Resultaten Conclusie Automatische classificatie ANOVA Automatische classificatiemethode Resultaten Conclusie Suggesties en uitbreidingsmogelijkheden Algemeen Besluit 59 Bibliografie 61 v

7 A Aanvullende figuren bij hoofdstuk 1 1 B Aanvullende figuren bij hoofdstuk 2 3 C Aanvullende figuren bij hoofdstuk 3 6 D Aanvullende figuren bij hoofdstuk 5 9 E Aanvullende figuren bij hoofdstuk 6 10 vi

8 Lijst van figuren 2.1 Foneem /G/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Foneem /G/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies Foneem /E/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Foneem /E/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies Foneem /o/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Foneem /o/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies Foneem /I/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Foneem /I/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies Foneem /O+/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Foneem /O+/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies Tijdsverloop van de APP voor foneempaar /E/ - /e/ Tijdsverloop van APP voor foneempaar /u/ - /o/ Tijdsverloop van APP voor foneempaar /o/ - /o/ Histogram voor foneemcombinatie /E/ - /E/ Histogram voor foneemcobinatie /E/ - /e/ Histogram voor foneemcombinatie /G/ - /G/ Histogram voor foneemcobinatie /G/ - /h/ Histogram voor foneemcobinatie /I/ - /I/ Histogram voor foneemcombinatie /I/ - /i/ Histogram voor foneemcombinatie /o/ - /u/ Histogram voor foneemcombinatie /o/ - /o/ Histogram voor foneemcombinatie /O+/ - /o/ Histogram voor foneemcombinatie /O+/ - /O+/ Histogram voor foneemcombinatie /O+/ - /a/ Normaalkwantielplot bij uitgesproken foneem /E/ - herkend foneem /E/ Classificatiegraden van geboorteregio bij aanwenden van eerste set fonemen Classificatiegraden van geboorteregio bij aanwenden van tweede set fonemen Boxplot voor uitgesproken foneem /I/ - herkend foneem /i/ Classificatiegraden waarbij P-waarden berekend zijn met CGN-data Classificatiegraden waarbij de P-waarde berekend zijn met de CoGeN-data. 54 vii

9 A.1 De akoestische klinkerdriehoek (12 klinkers) A.2 Articulatie en vocalisatie van fonemen B.1 Gemiddelde APP per foneem, uitgesproken door sprekers uit West-Vlaanderen 3 B.2 Gemiddelde APP per foneem, uitgesproken door sprekers uit Oost-Vlaanderen 4 B.3 Gemiddelde APP per foneem, uitgesproken door sprekers uit Antwerpen.. 4 B.4 Gemiddelde APP per foneem, uitgesproken door sprekers uit Brabant B.5 Gemiddelde APP per foneem, uitgesproken door sprekers uit Limburg C.1 Histogram voor foneem /E/ bij uitspraak /E/ met probabiliteitsinterval 10% 6 C.2 Histogram voor foneem /I/ bij uitspraak /I/ met probabiliteitsinterval 10%. 7 C.3 Histogram voor foneem /G/ bij uitspraak /G/ met probabiliteitsinterval 10% 7 C.4 Histogram voor foneem /o/ bij uitspraak /o/ met probabiliteitsinterval 10% 8 D.1 Normaalkwantielplot bij uitgesproken foneem /I/ - herkend foneem /i/... 9 E.1 Classificatiegraden bij eliminatie van /s/, /z/, /S/ en /Z/ E.2 Het verloop van overschrijdingskans per toegevoegd foneem, alle cues viii

10 Lijst van tabellen 1.1 De fonetische notatie van de klinkers De fonetische notatie van de medeklinkers Aantal inwoners per regio Dialectbepalende fonemen Overzicht van de indicerende fonemen per provincie Resultaten van het foneemverloop van /E/ - /e/ in het tijdsdomein Discriminatief vermogen op basis van het histogram Classificatiegraden bij Bayesiaanse classificatie bij gebruik van zes foneemparen De populatievarianties voor uitgesproken foneem /E/ - herkend foneem /E/ Maximale classificatiegraad bij berekening P-waarden met CGN-data Maximale classificatiegraad bij berekening P-waarde met CoGeN-data Maximale classificatiegraden bij aanwenden van een beperkt aantal cues ix

11 Hoofdstuk 1 Algemene Inleiding Spraak is intuïtief en drukt een stempel op elke persoon. Iedereen praat tenslotte op een andere manier. In spraak zit er heel wat variatie: naargelang de woonplaats hebben hele groepen mensen hun eigen taal, de dialecten. Het accent van de sprekers laat de afkomst van de sprekers vermoeden. De regionale taalvariaties kunnen met een akoestisch model uit een spraakherkenner worden herkend. Het doel van dit eindwerk is de dialecten automatisch te classificeren. In dit eerste hoofdstuk worden in een algemene inleiding de fonemische aspecten van de spraak en van de dialectherkenning door foneemanalyse beschreven. Daarna wordt het beoogde doel van het eindwerk om een automatische classificator voor de dialecten te ontwikkelen, nader toegelicht. 1.1 Spraak Spraakperceptie Intermenselijke communicatie door middel van gesproken taal gebeurt door het uiten van een gestructureerd geheel van spraakklanken [1] [2]. Fysiologisch gezien is spraak het resultaat van de luchtstroom uit de longen die door de spieren van de borstkas en het middenrif langs het strottenhoofd en de stembanden wordt gevoerd. De lucht doet de stembanden periodiek trillen en er ontstaat klank. De luchtstroom komt vervolgens in de keel-, mond- en neusholte. Deze fungeren als resonantieruimte waarin tong, lippen, huig, verhemelte en onderkaak in allerlei standen worden gebracht en er uiteindelijk op verfijnde manieren verschillende klanken worden geproduceerd. De lippen en de tong bepalen daarnaast de vocalisatie en articulatie van de uitspraak [3]. Bij het produceren van een klinker of vocaal heeft de luchtstroom, nadat die de stembanden in trilling heeft gebracht, vrije doorgang doorheen de mondholte. Het is vooral de vorm van de mondholte en de positie van de tong die de klinkers karakteriseert. Dit 1

12 1. Algemene Inleiding systeem van resonatoren werkt als een akoestische filter voor het basisgeluid. Bepaalde delen van het spectrum worden goed doorgelaten en andere minder. De gebieden in het spectrum waar de maxima zich bevinden heten formanten, met F1 als laagste formantfrequentie, vervolgens F2, F3, etc. Naarmate de grondtoon in het basisgeluid lager is, liggen de boventonen in het spectrum dichter bij elkaar en zijn de formanten beter gedefinieerd. Men kan de indeling van de klinkers visualiseren door voor elke klinker de formantfrequenties F1 en F2 uit te zetten in een grafiek, met langs de horizontale as de F2 en langs de verticale as de F1 [4]. Men krijgt dan de klinkerdriehoek, zoals te zien is in de bijlage in figuur A.1 voor 12 Nederlandse klinkers [5]. De vorming van de medeklinkers vertrekt vanaf een ruisachtig bronsignaal. Ze worden stemhebbend door een koppeling met een erop volgende klinker, zoals de /b/ in boot. Het breedbandige en niet-periodieke bronsignaal wordt, net zoals bij de vorming van de klinkers, spectraal en temporeel gemodelleerd door de mond-, keel-, en neusholte. Bij het produceren van een medeklinker of consonant ondervindt de luchtstroom op zijn weg wel een invloed van de lippen en de tong. Het verschil tussen enerzijds de /f/ en de /p/ en anderzijds de /s/ en de /t/ komt grotendeels tot stand doordat in het eerste geval een vernauwing wordt aangebracht in de mondopening terwijl in het tweede geval de vernauwing iets meer naar achteren tot stand komt. Bij de /x/ en de /k/ bevindt de vernauwing zich het meest naar achteren. Bij de plofklanken /p/, /t/ en /k/ ontstaat er een luchtophoping ter hoogte van de lippen ten gevolge van een volledige afsluiting van de lippen. De spraakorganen van de mens zijn in staat om meer dan 80 onderscheidbare klanken te produceren. Afzonderlijke talen bedienen zich veeleer van een beperkt aantal eigen spraakklanken en fonemen. Figuur A.2 in de bijlage geeft een beeld van de plaats van articulatie en vocalisatie van enkele fonemen [6]. Fonemen Fonemen zijn de kleinste betekenisvolle eenheid die binnen spraak in een bepaalde taal te onderscheiden zijn. Het Standaardnederlands bevat 38 fonemen. Zo bijvoorbeeld bestaat het woord goed uit drie fonemen: /x/, /u/ en /t/. Fonemen verlenen aan een woord een strikt bepaalde vorm en een bepaalde betekenis. Verandert men een foneem in een woord, dan vervalt de oorspronkelijke vorm en betekenis van dit woord. Men verkrijgt dan ofwel een andere betekenis van het woord of een nieuw woord dat voor de taal irrelevant is. Bijvoorbeeld, verandert men het foneem /p/ in peer door het foneem /b/, dan krijgt men het woord beer, die een andere vorm en betekenis heeft. De fonemen worden genoteerd als /klinker/ en /medeklinker/. Tabel 1.1 geeft de symbolen weer die in deze thesis gebruikt worden voor de klinkers en tabel 1.2 geeft de symbolen weer voor de medeklinkers. 2

13 Dialectherkenning door foneemanalyse /I/ Pit /E/ werd /A/ man /O/ bot /Y/ zus het /i/ biet /e/ beer /a/ maand /o/ boot /y/ duur /u/ deur /&/ keuze /E+/ tijd /O+/ lauw buiten Tabel 1.1: De fonetische notatie van de klinkers /p/ peer /b/ boek /t/ taal /d/ deur /k/ kaal /g/ garçon /f/ f ris /v/ vier /x/ lachen /G/ dagen /h/ hotel /m/ metro /n/ maand /N/ dingen /l/ later /r/ raam /w/ week /j/ jeugd /s/ spraak /z/ zeven /S/ sjaal /Z/ garage Tabel 1.2: De fonetische notatie van de medeklinkers Allofonen Eenzelfde foneem kan op verschillende manieren uitgesproken worden zonder te resulteren in de uitspraak van een ander foneem. De uitspraakvariaties van een foneem worden allofonen genoemd. Het foneem /r/ bijvoorbeeld kan op verschillende manieren gerealiseerd worden: als huig-/r/ achteraan de keel of als tong-/r/ vooraan in de mond. Naargelang de articulatiewijze en -plaats van de tong wordt er een variant van /r/ geproduceerd. Toch wordt hetzelfde foneem /r/ beschouwd. De verschillende realisatiewijzen kunnen niet fungeren als een variatie in foneem. Door de variatie in de uitspraak ontstaat er geen woord met een andere vorm en betekenis. De huig-/r/ en tong-/r/ zijn allofonen. 1.2 Dialectherkenning door foneemanalyse Sprekers van eenzelfde regio articuleren op een gelijkaardige manier en identificeren daarmee hun afkomst. De uitspraakvariatie is zelfs op te merken bij uitspraak in het Standaardnederlands. Ten opzichte van de standaardtaal worden de fonemen op een variërende articulatiemanier en een variërende plaats in de mond- en keelholte geproduceerd en uitgesproken. Er ontstaan uitspraakverschillen, taalvariaties van het Standaardnederlands. Een van de belangrijkste eigenschappen van accentverschillen is dat zij voor een paar klanken in een regiotaal absoluut aanwezig zijn maar eveneens voor de meerderheid van klanken verwaarloosbaar zijn. Niet alle fonemen veranderen onder de invloed van een accent en bepaalde fonemen veranderen slechts in bepaalde regionale gebieden. Bij het luisteren naar de sprekers vallen vooral de verschillende realisaties van de vocalen op. Er worden vijf grote regionale accenten, overeenkomend met de vijf provincies in Vlaanderen, bestudeerd aan de hand van de fonemen. Deze accenten zijn het West-Vlaamse [7], Oost-Vlaamse [8], Antwerpse, Brabantse [9] en Limburgse [10] dialect. Om in de eerste instantie de klankvariaties te identificeren die horen bij een bepaald dialect en daarop verder in tweede instantie het dialect te classificeren via deze klankvariaties 3

14 1. Algemene Inleiding wordt onderzoek verricht naar de dialectkarakteristieke kenmerken in het geluidssignaal. De bepaalde fonemen die in de gesproken dialecttaal variërend worden uitgesproken ten opzichte van het Standaardnederlands worden opgespoord. 1.3 Doel van het eindwerk Het algemeen doel van dit eindwerk is bij te dragen aan de ontwikkeling van een automatische classificator voor dialecten. Meer bepaald de regionale uitspraakvarianten van het Standaardnederlands in de vijf Vlaamse provincies moeten geclassificeerd worden. De diversiteit in de dialecten, met name de manier waarin de fonemen in de regiotaal verschillen, worden gecodeerd. Er wordt onderzocht of de bestaande akoestische modellen uit een spraakherkenner geschikt zijn voor dialectclassificatie. Het akoestisch model laat toe de spraaksignalen te analyseren en voor elk uitgesproken foneem de probabiliteit uit te rekenen dat het vocalisatiesignaal verklaard wordt door elk van de 38 mogelijke foneemhypothesen. Elk foneem kan dan voorgesteld worden in deze probabiliteitenruimte waarin men betekenisvolle afstanden kan vormen tussen de verschillende fonemen in taal. Er wordt verwacht dat de bekomen cues aanleiding zullen geven tot betere en eenvoudigere classificatoren dan de akoestische kenmerken zelf waarop ze gebaseerd zijn. In eerste instantie wordt het onderzoek gericht op de bepaling van typische fonemen die een dialect karakteriseren. De taalvarianten van het Standaardnederlands worden met a posteriori probabiliteiten (APP) vanuit drie invalshoeken bestudeerd. In een eerste onderzoek worden de verbanden tussen het uitgesproken foneem en het herkend foneem in de regionale talen opgespoord. Daarna wordt het onderzoek van het verloop van de APP van het herkend foneem verricht in het tijdsdomein. een derde onderzoek behandelt de distributie van de fonemen in de regiotaal. Zowel de classificatie op basis van handmatig gekozen cues als de automatische classificatie door de toepassing van ANOVA worden uitgevoerd. De vraag of de automatische classificatie van de dialecten op basis van APP met een spraakherkenner uitgevoerd kan worden, wordt beantwoord. De thesis is ingedeeld in zes hoofdstukken. In dit hoofdstuk werden de fonemische aspecten van de spraak en van de dialectherkenning door foneemanalyse beschreven. Daarna werd het doel van het eindwerk om een automatische classificator voor de dialecten te ontwikkelen, nader toegelicht. Het tweede hoofdstuk beschrijft de methode die de verschillen tussen het uitgesproken foneem en het herkend foneem onderzoekt. Het derde hoofdstuk beschrijft het onderzoek van het verloop van het herkend foneem in het tijdsdomein. Het vierde hoofdstuk behandelt de distributie van de fonemen in de regiotalen. Het vijfde hoofdstuk beschrijft de uitvoering van de classificatie van de dialecten op basis van handmatig gekozen cues. In het zesde hoofdstuk wordt de automatische classificatie door toepassing van ANOVA uitgevoerd. Het laatste hoofdstuk sluit de thesis af met een algemeen besluit. 4

15 Hoofdstuk 2 Verband herkend foneem met uitgesproken foneem In het voorgaande hoofdstuk werd een algemene introductie gegeven over de spraakperceptie en werd er ingegaan op de vorming van de Nederlandse fonemen en allofonen. Fonemen worden door sprekers van eenzelfde regio variërend uitgesproken, zelfs bij uitspraak in het Standaardnederlands. Het accent van de sprekers laat de afkomst van de sprekers vermoeden. In accentverschillen veranderen niet alle fonemen onder de invloed van een accent en bepaalde fonemen veranderen slechts in bepaalde dialectgebieden. In dit hoofdstuk richt het onderzoek zich op de vergelijking van de APP die bekomen worden bij de herkenning van een foneem als gevolg van een uitgesproken foneem. In de beschrijving van het onderzoek wordt in 2.1 de verwerking van de data besproken. De invloed van factoren in de dataverwerking wordt in 2.2 bediscussieerd. Daarna wordt in 2.3 de aangewende methode beschreven om de fonemen op te sporen en worden de fonemen geselecteerd die de klankvariatie in een dialect bepalen. 2.1 Verwerking van de data De data gevormd door sprekers van de provincies West-Vlaanderen, Oost-Vlaanderen, Antwerpen, Brabant en Limburg wordt in de spraakherkenner geïntroduceerd. Het door de spraakherkenner herkende foneem wordt vergeleken met het ingesproken foneem aan de hand van de APP. De resultaten geven de kans weer dat het klanksignaal wordt herkend door elk van de 40 1 mogelijke foneemhypothesen. Aan de hand van de resultaten worden de fonemen bepaald die instaan voor de regionale accenten van de vijf provincies in Vlaanderen. 1 De 40 foneemhypothesen bestaan uit de 38 fonemen aanwezig in de nederlandse taal, aangevuld met 2 extra fonemen om stilte en ruis voor te stellen (/*/ en /#/ respectievelijk) 5

16 2. Verband herkend foneem met uitgesproken foneem Experimenteel kader De spraakherkenner en het gegevensbestand die in het onderzoek aangewend worden, werden in Esat te Leuven ter beschikking gesteld. Het herkenningssysteem is een automatische akoestische spraakherkenner gebaseerd op Hidden Markov Models. Het model rekent voor elk uitgesproken foneem de a posteriori kansen uit. Alle experimenten worden uitgevoerd op het gegevensbestand CoGeN 2 en bevat spontane spraak van 174 sprekers uit Vlaanderen waaronder 101 mannen. Aan de sprekers wordt gevraagd Nederlandstalige tekst uit te spreken, daarbij geen dialectische woorden te gebruiken noch overdreven Standaardnederlands te praten. Er wordt geacht dat in de uitspraak van de teksten voldoende regionale accenten uit de vijf Vlaamse provincies aanwezig zijn. Verwerking De data uit de provincies West-Vlaanderen en Oost-Vlaanderen werd verzameld door de Rijksuniversiteit Gent. De data uit de provincies Antwerpen, Brabant en Limburg werd door de Katholieke Universiteit Leuven gecollectioneerd. De verwerking van de data verloopt in de volgende stappen [11]: Elke testpersoon leest op een spontane wijze ongeveer drie minuten tekst voor in het Nederlands. Alle teksten verschillen van elkaar. De uitspraak wordt opgenomen met opname-apparatuur en gedigitaliseerd De data wordt geïntroduceerd in de spraakherkenner. Elk uitgesproken woord wordt automatisch opgesplitst in fonemen [12]. De APP dat het uitgesproken foneem overeenkomt met één van de 38 fonemen wordt voor elk Nederlands foneem berekend Met deze resultaten wordt het onderzoek aangevat. Vooraleer het onderzoek verder te beschrijven, worden enkele aspecten die op de resultaten inwerken in 2.2 bediscussieerd. 2.2 Invloed van factoren in de dataverwerking In het volgende deel wordt er voornamelijk gekeken naar de aspecten die in de praktische toepassing een rol spelen. De verschillende omstandigheden in het onderzoek worden nader belicht. 2 CoGeN staat voor Corpus Gesproken Nederlands en dient als basis voor de ontwikkeling van spraaktechnologische toepassingen 6

17 Invloed van factoren in de dataverwerking Representatie van de sprekers De data werd door 174 sprekers ingesproken. Er wordt geacht dat iedere provincie op eenzelfde basis vertegenwoordigd is door eenzelfde aantal sprekers. Er zijn dus gemiddeld 34 3 sprekers per provincie. Vraag is of elk van de 34 personen wel representatief is voor zijn dialect. Vooreerst telde Vlaanderen in 2006 een totaal van inwoners. Tabel 2.1 [13] toont het aantal inwoners per regio. regio aantal inwoners W O A B L Vlaanderen Tabel 2.1: Aantal inwoners per regio Daarnaast is de mens mobieler geworden, zowel in zijn woon- en werkverkeer als in zijn vrije tijd. Aldus worden gedeeltelijk en onbewust andere spraakinvloeden overgenomen. Zo heeft bijvoorbeeld een inwoner van West-Vlaanderen die lange tijd in Brabant heeft verbleven wellicht invloeden van het Brabants overgenomen. Verder wordt verondersteld dat elke spreker een gelijke bijdrage heeft tot het dialect. In werkelijkheid is dat niet zo. Mens én taal zijn mobieler geworden. Een student uit West-Vlaanderen bijvoorbeeld die in Gent studeert, heeft een grotere kans om nog meer invloed van het West-Vlaams te bezitten dan indien hij in Leuven studeert. In de eerste situatie zal hij meer kenmerken overnemen van het Oost-Vlaams, een dialect die veel overeenkomsten heeft met het West-Vlaams. Anderzijds zou hij in de tweede situatie zowel Antwerpse, Brabantse en Limburgse dialectinvloeden overnemen. Deze persoon draagt dus in de eerste situatie meer bij aan het West-Vlaamse dialect dan in de tweede situatie. Hieromtrent kan de volgende overweging gemaakt worden. Het verschil in gewicht kan in rekening gebracht worden via twee factoren: het aantal jaren dat een persoon in een provincie verblijft en de regio van verblijf binnen in de provincie zelf. Hoe groter het aantal jaar van verblijf, hoe representatiever de persoon is voor het dialect. Hij heeft namelijk voor langere tijd invloeden ondervonden van het plaatselijke dialect waardoor zijn gewicht groter moet zijn ter representatie van die provincie. Het gewicht bepaald door de regio van verblijf binnen in de provincie kan praktisch bepaald worden afhankelijk van de afstand van de woonplaats van de testpersoon tot de grens van een andere provincie. Hoe dichter de persoon woont bij de grens, hoe meer invloeden van andere dialecten de persoon kan overgenomen hebben. 3 Er zijn 174 sprekers voor 5 dialecten. Dit komt ongeveer neer op 34 sprekers per dialect 7

18 2. Verband herkend foneem met uitgesproken foneem Automatische splitsing in fonemen Elk opgenomen woord wordt automatisch gesplitst in fonemen. Het programma houdt rekening met coarticulatie [14] [15]. Coarticulatie houdt in dat bij productie van een foneem aangrenzende fonemen hun invloed uitoefenen. Continue spraak ontstaat door een samengaan van articulatorische bewegingen van de spraakorganen gestuurd door de hersenactiviteit. De beweging van de spraakorganen om een foneem voort te brengen wordt door de hersensturing meestal al afgebroken voordat hij zijn doel bereikt heeft om koers te zetten in de richting van weer een volgende klank. Als gevolg hiervan is in het spraakgebied voortdurend te horen welke klank wordt gesproken, maar klinken ook eigenschappen door van de voorgaande en volgende klanken. Neemt men de uitspraak van het woord stroop als voorbeeld. Vooraleer de /s/ geuit wordt, zullen de lippen en de tong al in een geronde positie staan in afwachting van de komende /o/ en terwijl de /o/ wordt gezegd zullen de lippen zich al sluiten om de /p/ te vormen. Voor de realisatie van de /s/ bijvoorbeeld in het woord streep, worden de lippen en de tong parallel geplaatst voor de uitspraak van de /e/. Afhankelijk van de identiteit van de omringende klanken heeft elke spraakklank dus talloos veel verschillende gedaanten. Bovendien is vastgesteld dat sprekers zeer sterk uiteenlopen in de aard en mate van coarticulatie. Bijvoorbeeld in De kip draait wordt de /p/ van kip onder invloed van de daaropvolgende stemhebbende /d/ als een /b/ uitgesproken. Veel sprekers passen hier evenwel ook progressieve stemassimilatie toe, waarbij de stemkenmerken van een klank worden overgenomen door de er op volgende klank. In De kip draait wordt dan de /d/ van draait onder invloed van de stemloze /p/ als /t/ uitgesproken. De grenzen van de fonetische segmenten zijn dus moeilijk te plaatsen waardoor het effect coarticulatie onvermijdelijk optreedt [16]. Coarticulatie vormt een negatieve invloed op de kwaliteit van het splitsen van woorden in fonemen. Een oplossing om het effect van coarticulatie meer in rekening te brengen kan gerealiseerd worden via het voorlezen van eenzelfde tekst door iedere lezer. Dan bestond de mogelijkheid de fonemen te vergelijken op basis van hun plaats van voorkomen in de tekst. De fonemen die variërend uitgesproken worden onder invloed van het dialect zouden beter te onderscheiden zijn aangezien de invloed van coarticulatie over alle sprekers analoog zou zijn. Dit zou leiden tot duidelijke conclusies in verband met de uitgesproken en herkende fonemen over de sprekersspecifieke informatie heen. De a posteriori probabiliteiten De HMM spraakherkenner deelt het uitgesproken signaal op in tijdsframes. Elk tijdsframe wordt toegekend aan een foneem via forced alignment. Deze methode baseert zich op het Viterbi algoritme om het herkende foneem te bepalen. Per frame wordt het Viterbi algoritme toegepast op alle 38 fonemen. Aangezien er 38 mogelijke uitgesproken fonemen kunnen voorkomen en elk frame alle 38 fonemen gebruikt, komen er 1444 cues =

19 Invloed van factoren in de dataverwerking voor in de nederlandse taal [17] [18]. Er wordt Gaussiaanse classificatie gebruikt. Hierbij is de classificatie gebaseerd op de Bayesiaanse beslissingsregel [19], namelijk ω = arg max p(ω k x), (2.1) k waarbij ω k overeenkomt met een gekend foneem en x het echte uitgesproken fonetisch segment. p(ω k x) wordt de APP genoemd. Om deze te kunnen bepalen wordt de regel van Bayes toegepast[20]. posterior = likelihood prior marginale likelihood (2.2) of meer wiskundig p(ω k x) = p(x ω k) p(ω k ) p(x) (2.3) waarbij ω een gekend fonetisch segment voorstelt en x opnieuw het echte uitgesproken fonetisch segment. De probabiliteit p(x ω k ) wordt de likelihood genoemd en kan men bepalen. De probabiliteit p(ω k ) staat voor de kans dat een foneem voor kan komen in een uitgesproken tekst en wordt de a priori probabiliteit genoemd. Men kan zien dat de noemer van de regel van Bayes onafhankelijk is voor het bepalen van de foneemklasse waartoe het uitgesproken foneem behoort. Het Bayesiaanse classificatiecriterium wordt dus herleid tot ω = arg max p(x ω k )p(ω k ) (2.4) k Bij dialectdetectie is men geïnteresseerd in alle APP en niet alleen in de maximale. Alle probabiliteiten worden dan uitgezet in grafieken zoals men kan zien in de figuren B.1, B.2, B.3, B.4 en B.5, bijgevoegd in de bijlage. Op basis van deze grafieken kan men voor één bepaald uitgesproken foneem een karakteristiek aanschouwen die uniek is voor een dialect. In dit deel werd beschreven wat de invloed is van factoren in de dataverwerking. Het volgende deel beschrijft het onderzoek dat aangewend wordt om de fonemen te selecteren die een dialect bepalen. Met de data beschreven in 2.1 wordt het onderzoek verdergezet. Eerst worden de APP per provincie gegroepeerd. Daaruit wordt een selectie gemaakt van fonemen die per dialect de dialectische kenmerken weergeven. Deze fonemen worden dan op hun beurt verder geanalyseerd. Uiteindelijk worden de karakteristieke fonemen voor de respectievelijke dialecten geselecteerd. 9

20 2. Verband herkend foneem met uitgesproken foneem 2.3 Foneemselectie op basis van a posteriori probabiliteiten Selectie per provincie Het is de bedoeling de fonemen op te sporen die een bepaalde regiotaal identificeren. Om duidelijk te stellen welke fonemen deze informatie geven is het nodig de kenmerken van de regiotaal te concentreren. Daarom worden de APP van elk foneem per provincie samengenomen en wordt het gemiddelde berekend. De methode die gebruikt wordt gaat als volgt: De a posteriori resultaten van de fonemen in de data (zie 2.1) worden per provincie gegroepeerd. De gemiddelde foneemherkenning wordt bekomen voor ongeveer 34 sprekers per provincie worden de gemiddelde a posteriori probabiliteiten berekend voor elk foneem De resultaten worden in een driedimensionele grafiek gebracht en zijn ter illustratie in bijlage toegevoegd. De x-as geeft de uitgesproken fonemen weer, de y-as de herkende fonemen en de z-as de APP. De grafieken met de gemiddelde APP van alle fonemen uitgesproken door sprekers uit West-Vlaanderen (W), Oost-Vlaanderen (O), Antwerpen (A), Brabant (B) en Limburg (L) worden geïllustreerd in de appendix, in respectievelijk de figuren B.1, B.2, B.3, B.4 en B.5 Resultaten per provincie Bij het beschouwen van de grafieken wordt voor elk foneem hoge percentages APP op de diagonaal waargenomen. Een groot deel van het aantal uitgesproken fonemen wordt geïdentificeerd als het te herkennen foneem. De maximum herkenningspercentages liggen niet hoger dan 50% per afzonderlijk foneem. De pieken van de APP aan beide zijden van de diagonaal duiden de invloeden van andere fonemen aan bij de uitspraak van het afzonderlijke foneem. Het geobserveerde foneem wordt in de regiotalen variërend uitgesproken. De grafieken tonen aan dat er in Vlaanderen wel degelijk uitspraakverschillen bestaan. Bij het verder observeren van de grafieken kan een analoog beeld waargenomen worden voor alle regiovarianten van het Standaardnederlands. Vooral bij de klinkerfonemen worden hogere pieken van APP getoond. Dit wijst aan dat er veel invloeden van andere fonemen te constateren zijn bij het uitspreken van het geobserveerde klinkerfoneem. Anders gezegd, in de regiotalen komt vooral de variatie in de uitspraak van de klinkers naar voor. Bij het observeren van de invloeden bij uitspraak van medeklinkers worden ook hogere pieken waargenomen. Dit komt niet voor bij alle medeklinkers maar enkel bij bepaalde, afhankelijk van het dialect. Bij de uitspraak van de sprekers uit West- Vlaanderen valt vooral de uitspraak van het foneem /G/ op. Deze /G/ wordt als /h/ uitgesproken. 10

21 Foneemselectie op basis van a posteriori probabiliteiten Selectie per uitgesproken foneem Het onderzoek wordt verder gezet met de uitvoerige analyse van de klinkerfonemen /I/, /E/, /A/, /O/, /i/, /e/, /a/, /o/, /y/, /u/, /E+/, /O+/ en de fonemen /G/ en /h/. Het zijn vooral deze fonemen die in een regiotaal variërend uitgesproken worden ten opzichte van het Standaardnederlands. Deze fonemen geven betekenisvolle informatie over de dialecten. Deze uitgesproken fonemen worden naast een juiste foneemherkenning ook als een ander foneem herkend door de spraakherkenner. Het foneem dat uitgesproken wordt, wordt verder in de tekst als uitgesproken foneem gerefereerd. Het ander foneem dat naast een juiste herkenning van het uitgesproken foneem ook door de spraakherkenner herkend wordt, wordt als herkend foneem aangeduid om het onderscheid duidelijk te stellen. In dit deel is het de bedoeling de combinaties uitgesproken foneem - herkend foneem aan te treffen waarmee het desbetreffende dialect het best kan geïdentificeerd worden en het best gedistantieerd kan worden van de andere dialecten. Daartoe wordt er per dialect gezocht welke tendensen er per foneem te zien zijn bij de uitspraak van de bovenstaande fonemen. De combinaties uitgesproken foneem - herkend foneem die per dialect sterke tendensen laten zien, worden in beschouwing genomen. De meest relevante combinaties zullen dan de cues uitmaken waarmee de dialecten zullen worden geïdentificeerd en geclassificeerd. Resultaten per uitgesproken foneem Het onderzoek naar de fonemen die representatief zijn voor de vijf Vlaamse dialecten gebeurt door de individuele analyse van de uitgesproken fonemen /G/, /h/, /I/, /E/, /A/, /O/, /i/, /e/, /a/, /o/, /u/, /E+/, /O+/. De APP van de fonemen die specifieke informatie over de dialecten geven worden per foneem grafisch weergegeven in figuren 2.1, 2.2, 2.7, 2.8, 2.3, 2.4, 2.5, 2.6, 2.9 en Onderzoek heeft uitgewezen dat het geslacht van de spreker een invloed heeft op de uitspraak [21]. Vocal Tract Length Normalisation (VTLN) wordt aangewend om verschillen tussen de uitspraak van mannen en vrouwen te minimaliseren. Met een dubbel doel wordt er toch afzonderlijk onderzoek verricht op mannen en vrouwen. Enerzijds wordt het effect van de normalisatie geverifiëerd. Anderzijds zorgt een dubbel resultaat van de procentuele uitspraakvariaties van de fonemen per provincie voor een controle op de juistheid van de resultaten. Uitgesproken foneem /G/ - herkend foneem /h/ In figuur 2.1 en 2.2 wordt gezien dat er bij het uitspreken van foneem /G/ een invloed is van foneem /h/. Dit zowel voor sprekers uit West-Vlaanderen (10,5% bij de mannen en 14% bij de vrouwen) als uit Oost-Vlaanderen (7,5% en 9% respectievelijk voor mannen en vrouwen). 11

22 2. Verband herkend foneem met uitgesproken foneem Figuur 2.1: Foneem /G/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Figuur 2.2: Foneem /G/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies 12

23 Foneemselectie op basis van a posteriori probabiliteiten Uitgesproken foneem /E/ - herkend foneem /e/ Figuur 2.3 geeft de APP weer voor de mannelijke sprekers, figuur 2.4 voor de vrouwelijke sprekers. Alleen bij de uitspraak van sprekers die behoren tot het Antwerpse dialect wordt een aanduiding opgemerkt dat het foneem /E/ ook als /e/ wordt uitgesproken. Er wordt bij /e/, zowel bij de mannen als bij de vrouwen, een invloed van 6% gedetecteerd terwijl dit voor de andere dialecten maar 1% is. Figuur 2.3: Foneem /E/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Uitgesproken foneem /E/ - herkend foneem /a/ Bij de mannelijke sprekers uit de provincies Brabant en Antwerpen is er een kleinere invloed van foneem /a/ op te merken bij uitspraak van foneem /E/ (respectievelijk 3,5% en 1,5%). Bij de andere dialecten wordt 7% (W), 8,5% (O) en 10% (L) aangegeven. Deze resultaten worden niet bevestigd door de vrouwelijke sprekers uit de provincie Brabant (6%). Bij de vrouwelijke sprekers uit de provincie Antwerpen blijft de waarde wel klein (3%). De invloed van foneem /a/ bij de vrouwelijke sprekers uit de andere provincies is 8% (O en W) en 11% (L). 13

24 2. Verband herkend foneem met uitgesproken foneem Figuur 2.4: Foneem /E/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies Uitgesproken foneem /E/ - herkend foneem /I/ Het Antwerps toont een APP van 10% bij de mannen en 11% bij de vrouwen. De andere dialecten hebben waarden die zowel voor de mannen en de vrouwen rond de 3,5% liggen. Uitgesproken foneem /o/ - herkend foneem /u/ In figuur 2.5 wordt getoond dat er in de mannentaal van de sprekers uit West-Vlaanderen en Oost-Vlaanderen een beduidend verschil van foneem herkend wordt. Meer bepaald foneem /u/ wordt gerapporteerd bij uitspraak van /o/. In beide regionale variëteiten is foneem /u/ sterker aanwezig dan bij de andere dialecten: respectievelijk 17% en 21% ten opzichte van maximaal 8%. Bij de vrouwen in figuur 2.6 is dit verschil in uitspraak niet meer zo groot. Uitspraak door vrouwen uit Oost-Vlaanderen toont met 13% de hoogste waarde, terwijl bij sprekers uit West-Vlaanderen 9,5% weergegeven wordt net als bij personen uit Limburg. Het Antwerps en Brabants vertonen percentages lager dan 7%. 14

25 Foneemselectie op basis van a posteriori probabiliteiten Figuur 2.5: Foneem /o/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Figuur 2.6: Foneem /o/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies 15

26 2. Verband herkend foneem met uitgesproken foneem Uitgesproken foneem /I/ - herkend foneem /i/ Bij het beschouwen van het foneempaar uitgesproken foneem /I/ - herkend foneem /i/ is een duidelijk verschil tussen de dialecten waar te nemen in de figuren 2.7 en 2.8. Bij de sprekers uit de provincies Brabant en Antwerpen is dit herkend foneem sterker aanwezig dan de bij sprekers van de andere dialecten: respectievelijk 16% bij de mannen en 15% bij de vrouwen tegenover maximaal 6% en maximaal 10% bij de andere dialecten. Figuur 2.7: Foneem /I/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Uitgesproken foneem /I/ - herkend foneem /E/ Zoals ook in de figuren 2.7 en 2.8 vast te stellen is, worden er bij de West-Vlaamse en Limburgse sprekers hoge waarden geconstateerd voor de foneemcombinatie uitgesproken foneem /I/ - herkend foneem /E/: respectievelijk 10% en 8% voor de vrouwelijke sprekers terwijl dit 5,5% is voor beide accenten bij de mannelijke sprekers. De provincies Brabant en Antwerpen geven respectievelijk 1% en 1,5% bij de vrouwelijke sprekers en 2% bij de mannelijke sprekers. Het Oost-Vlaams vertoont een a posteriori probabiliteit van 4% bij de mannen en 5,5% bij de vrouwen. 16

27 Foneemselectie op basis van a posteriori probabiliteiten Figuur 2.8: Foneem /I/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies Uitgesproken foneem /O+/ - herkend foneem /a/ Figuren 2.9 en 2.10, tonen dat het Brabants en ook in beperkte mate het Antwerps, een invloed van foneem /a/ vertoont: respectievelijk 20% en 8% tegenover maximaal 4% voor de andere dialecten. Bij de vrouwen is de invloed 24% en 25% voor respectievelijk het Brabantse en Antwerpse dialect tegenover maximaal 10% voor de andere dialecten. Uitgesproken foneem /O+/ - herkend foneem /O/ In beide figuren is een invloed aanwezig van het foneem /O/ voor het West-Vlaams, Oost- Vlaams en het Limburgs. Bij de mannen geeft dit respectievelijk 15,5%, 10% en 13,5% tegenover 5% voor de andere dialecten. Bij de vrouwen zijn de waarden respectievelijk 9,5%, 10% en 11% tegenover maximaal 5% voor het Antwerps en Brabants. Uitgesproken foneem /O+/ - herkend foneem /o/ Het Oost-Vlaams vertoont een grotere invloed van /o/ ten opzichte van het Limburgs en het West-Vlaams. Op hun beurt vertonen zij een grotere invloed dan het Antwerps en Brabants. Bij de mannen geeft dit in volgorde van opnoemen 21%, 16%, 14%, 7% en 2%. Bij de vrouwen wordt dit 18%, 10%, 9%, 4% en 1%. 17

28 2. Verband herkend foneem met uitgesproken foneem Figuur 2.9: Foneem /O+/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Figuur 2.10: Foneem /O+/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies 18

29 Conclusie Overzicht van de resultaten De grafieken in sectie 2.3 tonen aan dat vooral de klinkerfonemen in de regiotalen de variatie in de uitspraak van het Standaardnederlands voorstellen. Bepaalde combinaties van uitgesproken foneem - herkend foneem laten sterke tendensen zien om de dialecten te identificeren. De meest relevante combinaties zullen de cues uitmaken waarmee de dialecten zullen worden geïdentificeerd en geclassificeerd in hoofdstuk 5. In tabel 2.3 wordt per provincie een overzicht gegeven van de combinaties uitgesproken foneem versus herkend foneem. De tabel toont dat: per uitgesproken foneem, verschillende herkende fonemen in aanmerking komen naargelang het dialect er een mate van overeenkomst is tussen de fonemen uitgesproken door sprekers van enerzijds de provincie Antwerpen en Brabant en anderzijds de provincies West- Vlaanderen, Oost-Vlaanderen en Limburg uitgesproken foneem herkend foneem a posteriori percentage W O A B L /G/ /h/ 12,1% 8% 3,9 % 4,5% 3,5% /I/ /i/ 6,8% 8,1% 15,1% 16,5% 5,6% /I/ /E/ 7,2% 4,8% 1,2% 1,3% 6,3% /E/ /e/ 1,2% 1% 5,2% 1% 1,2% /E/ /a/ 7,6% 7,6% 2,2% 4,7% 9,6% /E/ /I/ 2,6% 3,2% 9,6% 3,4% 2,1% /o/ /u/ 13,4% 17,1% 6,7% 6,7% 8,7% /O+/ /a/ 4,5% 6,7% 16,5% 22,5% 6% /O+/ /O/ 12,4% 10,4% 4,8% 4,9% 12,4% /O+/ /o/ 13,1% 19,7% 6,3% 1,4% 11,3% Tabel 2.2: Dialectbepalende fonemen 2.4 Conclusie Voor het onderzoek naar de fonemen die de dialecten kunnen identificeren en classificeren wordt de CoGeN database ter beschikking gesteld. Per uitgesproken foneem komen er verschillende herkende fonemen in aanmerking naargelang het dialect. In de dialecten zijn twee clusters te onderscheiden, één bevat de provincies Antwerpen en Brabant, de andere de provincies West-Vlaanderen, Oost-Vlaanderen en Limburg. De combinaties uitgesproken foneem - herkend foneem kunnen door middel van vergelijking tot een diversificatie tussen de dialecten leiden. Tabel 2.3 toont de indicerende foneemcombinaties. Algemeen kan een eerste stap in de classificatie beschouwd worden als het scheiden van 19

30 2. Verband herkend foneem met uitgesproken foneem de cluster Antwerps en Brabants ten opzichte van de cluster West-Vlaams, Oost-Vlaams en Limburgs. Het gebruik van het uitgesproken foneem /I/ en het herkende foneem /i/ kan hieromtrent aangewend worden. Daarna zal men de dialecten in eenzelfde cluster onderscheiden. Het gebruik van bijvoorbeeld het uitgesproken foneem /E/ en herkend foneem /e/ geeft informatie om het Antwerpse dialect te onderscheiden van het Brabantse dialect. herkend uitgesproken foneem foneem /E/ /I/ /O+/ /G/ /o/ /e/ A /I/ A /i/ A en B /o/ O /O/ W, O en L /a/ W, O en L B /h/ W en O /E/ W en L /u/ W en O Tabel 2.3: Overzicht van de indicerende fonemen per provincie In het volgende hoofdstuk wordt een tweede onderzoek uitgevoerd om de karakteristieke dialectische fonemen in de regionale talen op te sporen. Het aspect van het verloop van de APP van het herkende foneem in het tijdsdomein wordt nader belicht. 20

31 Hoofdstuk 3 Verschillen in tijdsdomein In dit hoofdstuk wordt het foneemonderzoek beschreven die het verloop van de APP van het herkend foneem in het tijdsdomein analyseert. Het verschil in tijd waarbij het herkend foneem aangehouden wordt bij de uitspraak van het foneem is typerend voor de dialecten. In het eerste deel wordt de aangewende analysemethode beschreven om het tijdsverloop van het herkende foneem te bekomen. Daarna worden de tijdsverlopen per foneem in grafiek gezet. In een derde deel worden de conclusies geformuleerd. 3.1 Opstellen van het tijdsverloop op basis van a posteriori probabiliteiten Alvorens het eigenlijk onderzoek van de fonemen in het tijdsdomein te kunnen aanvatten, moeten eerst het aantal frames van de fonemen worden genormaliseerd per foneem. In deel 2.2 werd de werking van een HMM spraakherkenner met forced alignment kort toegelicht. Het Viterbi algoritme geeft per foneem een verschillend aantal frames afhankelijk van de duur van uitspraak van het foneem door de spreker. Bijvoorbeeld wordt door het Viterbi algoritme aan het foneempaar /E/ - /e/ uitgesproken door spreker 1, vier frames aangewezen. Aan spreker 2 wijst het Viterbi algoritme voor hetzelfde foneempaar zeven frames aan, dit naargelang de uitspraaktijd van de spreker. Per foneem moet de uitspraaktijd gelijk gesteld worden om vanuit éénzelfde basis per foneem te kunnen werken. Aangezien de uitspraaktijd genormaliseerd is, kunnen de verschillende verlopen APP per dialect vergeleken worden. De normalisatie van de uitgesproken fonemen wordt voor alle sprekers per dialect uitgevoerd. De foneemcombinaties /E/ - /e/, /u/ - /o/ en /o/ - /o/ worden verder onderzocht. Deze fonemen gaven, zoals in hoofdstuk 2 werd aangetoond, een duidelijke informate van de dialecten. 21

32 3. Verschillen in tijdsdomein 3.2 Resultaten van de tijdsverlopen Uitgesproken foneem /E/ - herkend foneem /e/ Figuur 3.1: Tijdsverloop van de APP voor foneempaar /E/ - /e/ Figuur 3.1 toont het tijdsverloop van /E/ versus /e/. De APP voor het Antwerpse dialect liggen op de drie meetpunten het hoogst, respectievelijk 8%, 6.5% en 4.7%. Een tweede band APP bevat de dialecten Oost-Vlaams en Limburgs. Bij de meting in het eerste vierde liggen de APP van deze dialecten nauw samen: 4,9% voor Oost- Vlaams en 4.2% voor Limburgs. In het tweede meetpunt bedragen de APP het dubbele voor het Oost-vlaams, namelijk 4.8% ten opzichte van 2.4% voor het Limburgs. In het derde meetpunt zijn de APP tot 3.5 keer groter voor het Limburgs (2.8%) dan voor het Oost-Vlaams (0.8%). Een derde band APP bevat de dialecten West-Vlaams en Brabants. Bij het eerste meetpunt is er weinig verschil tussen de APP van beide provincies: Brabants 0.9%, West-vlaams 0.8%. Bij het tweede meetpunt bedraagt de APP van Brabantse dialect 1.4%. De APP voor het West-Vlaams bedraagt 0.8%. De APP voor het Brabants liggen 75% hoger ten opzichte van de APP van het West-Vlaams. Op het derde meetpunt ligt de APP voor het Brabants op 1.6% en voor het West-Vlaams op 0.6%. Op dit punt liggen de APP voor het Brabants meer dan 2.5 keer hoger dan voor het West-Vlaams. Zo wordt door ieder dialect een specifiek patroon gevormd per herkend foneem in tijdsdomein. Vergelijken van de APP op de meetpunten is een methode om de dialecten te identificeren en diversificieren van elkaar. 22

33 Resultaten van de tijdsverlopen Uitgesproken foneem /u/ - herkend foneem /o/ Figuur 3.2: Tijdsverloop van APP voor foneempaar /u/ - /o/ Bij het beschouwen van het tijdsverloop van het herkende foneem /o/ versus /u/ is een bovenste band APP te zien die de dialecten Antwerps en Limburgs bevat. Bij het Antwerps bedragen de APP 17% en bij het Limburgs 15%. In de volgende twee meetpunten bedragen de APP waarden voor het Antwerps het dubbele van de APP waarden van het Limburgs. In het tweede meetpunt bedragen de APP voor het Antwerps en het Limburgs respectievelijk 34 en 17 procent. In het derde meetpunt bedragen de APP voor het Antwerps 32% en voor het Limburgs 16%. In een tweede band APP worden de dialecten West-Vlaams, Oost-Vlaams en Brabants vergeleken. Op het eerste meetpunt vertoont het Brabants de laagste APP, namelijk 3%. De APP van het West- Vlaams is tweemaal de APP waarde van het Brabants, namelijk 6%. De APP van het Oost-Vlaams, namelijk 9%, bedraagt drie maal de APP van het Brabants en 1.5 keer de APP van het West-Vlaams. Op het tweede meetpunt vertoont opnieuw het Brabants de laatste APP waarde van 3%. De APP van het West-Vlaams ligt 3 maal hoger dan de APP het Brabants, namelijk 9%.APP. Het Oost-Vlaams heeft 27% als APP waarde. Dit is negen keer hoger dan de APP van het Brabants (3%) en 3 keer hoger dan de APP van het West-Vlaams (9%). Op het derde meetpunt zijn de APP waarden het laagst bij het Oost-Vlaamse dialect, namelijk 5%. De andere dialecten vertonen APP waarden 8% en 9% voor respectievelijk het Brabants en West-Vlaams. 23

34 3. Verschillen in tijdsdomein Uitgesproken foneem /o/ - herkend foneem /o/ Figuur 3.3: Tijdsverloop van APP voor foneempaar /o/ - /o/ Een analoge vergelijking zoals bij de andere foneemparen gebeurt voor het foneem /o/ versus /o/. In een eerste band van de APP van het herkende foneem bevinden zich de dialecten Antwerps, Limburgs en Oost-vlaams. De posities APP die het herkende foneem voor de drie dialecten innemen zijn nagenoeg gelijk. (A: 30%, L: 32%, O: 32%). In een tweede meetpunt worden de posities van de drie dialecten terug met elkaar vergeleken en met de posities in het vorig meetpunt. Het Antwerps is gelijk gebleven (30% APP). Het Limburgs en Oost-Vlaams vertonen beiden 33% lagere waarden dan het Antwerps, namelijk een APP van respectievelijk 22% en 23%. In het laatste meetpunt vertonen de APP van het Antwerps en Limburgs nagenoeg gelijke waarden; respectievelijk 31% en 29%. Het Oost-Vlaams vertoont 18% APP, wat 66% lager is dan het Antwerps en het Limburgs. De dialecten West-Vlaams en Brabants liggen in een tweede band APP. In het eerste meetpunt vallen de APP samen: 18% APP. In het tweede meetpunt toont het West- Vlaams 20% APP en het Brabants 15%. De APP van het West-Vlaams ligt 33% hoger dan de APP van het Brabantse dialect. In het laatste meetpunt vallen de APP waarden van de beide provincies samen op 20% APP. Figuur 3.3 toont het verloop van APP voor de foneemcombinatie /o/ - /o/. Het Antwerps en Limburgs vertonen een gelijkaardig verloop, maar per frame bevatten ze andere APP waarden. Het Oost-Vlaams, Brabants en West-Vlaams hebben ongeveer dezelfde APP. Het Limburgs vertoont in het begin van het tijdsdomein de hoogste APP waarden bij de eerste top. Naar de laatste frames toe 24

35 Conclusie daalt de APP. Bij het Antwerps zijn de grootste pieken eerder in het midden van het tijdsdomein gelegen. Bij het Oost-Vlaams, West-Vlaams en Brabants worden verschillende pieken gevormd over het hele tijdsdomein op verschillende plaatsten ten opzichte van elkaar. Overzicht van de resultaten Door het observeren van het verloop van de fonemen in het tijdsdomein wordt duidelijk dat diversifiëren van dialecten moet mogelijk zijn via drie metingen, één op het eerste vierde van het tijdsdomein, een tweede meting bij de helft van het tijdsdomein en een derde meting bij het laatste vierde van het tijdsdomein. Op de onderzochte fonemen worden de bekomen waarden in tabel 3.1 weergegeven. /E/ - /e/ /u/ - /o/ /o/ - /o/ dialect 25% 50% 75% 25% 50% 75% 25% 50% 75% W 0.8% 0.8% 0.6% 6% 9% 9% 18% 20% 20% O 4.9% 4.8% 0.8% 9% 27% 5% 32% 22% 18% A 8.0% 6.5% 4.7% 17% 34% 32% 30% 30% 31% B 0.9% 1.4% 1.6% 3% 3% 8% 18% 15% 20% L 4.2% 2.4% 2.8% 15% 27% 16% 32% 23% 29% Tabel 3.1: Resultaten van het foneemverloop van /E/ - /e/ in het tijdsdomein 3.3 Conclusie Diversifiëren van dialecten door de observatie van de fonemen in het tijdsdomein is een methode die kansen biedt op goede diversificatieresultaten. Er is per provincietaal een specifiek patroon te zien bij het uitgesproken foneemverloop in het tijdsdomein. Dit patroon nauwkeurig bepalen kan leiden tot een juiste classificatie van de spreker. Door drie metingen van de APP door te voeren in het tijdsdomein, namelijk één in het eerste vierde van het tijdsdomein, één in de helft en één in het laatste vierde van het tijdsdomein, kunnen de dialecten van elkaar gescheiden worden per beschouwd uitgesproken foneem. Het diversifiëren van de dialecten steunt op het principe van de onderlinge vergelijking van de posities die de dialecten innemen ten opzichte van elkaar per meetpunt. Deze posities per meetpunt worden op hun beurt vergeleken op de drie meetpunten. In het volgende hoofdstuk wordt een derde onderzoek uitgevoerd om de karakteristieke dialectische fonemen in de regionale talen op te sporen. Het volgende hoofdstuk behandeld de distributie van de herkende foneem. 25

36 Hoofdstuk 4 Distributie In de vorige hoofdstukken werd op linguïstisch vlak onderzoek verricht naar de verbanden die een bepalende factor uitoefenen om de dialecten te diversifiëren. Meerbepaald in het tweede hoofdstuk werd het herkend foneem onderzocht bij het uitspreken van een bepaald foneem in het Standaardnederlands. Daarbij werd gewerkt met gemiddelde waarden van de a posteriori probabiliteiten zodat een algemeen beeld verkregen werd van de karakteristieken van het dialect zelf. In het derde hoofdstuk werd het uitspraakverloop van het herkend foneem in het tijdsdomein geanalyseerd. Hierbij werd vastgesteld dat de APP van het herkende foneem andere waarden aannemen in het tijdsdomein, dit naargelang het dialect. In dit hoofdstuk worden de fonemen op statistisch vlak geanalyseerd door individueel de sprekersinbreng te onderzoeken. Het discriminatief vermogen van de combinaties uitgesproken foneem - herkend foneem wordt onderzocht vanuit het perspectief van de distributie van de sprekers. Per paar uitgesproken foneem - herkend foneem en per dialect wordt een histogram opgesteld voor de verdeling van het aantal sprekers per probabiliteitsklasse. Eerst wordt in deel 4.1 de werkwijze beschreven die aangewend wordt voor het opstellen van de histogrammen per foneempaar en per dialect. In 4.2 worden de bekomen histogrammen besproken. Tot slot worden in 4.3 de conclusies op een rij gezet. 4.1 Opstellen van de histogrammen op basis van de a posteriori probabiliteit Niet elke spreker die behoort tot éénzelfde dialect vertoont dezelfde waarden voor de a posteriori probabiliteit bij éénzelfde combinatie uitgesproken foneem - herkend foneem. De sprekersafhankelijkheid van de APP worden in de histogrammen weergegeven. Het histogram bestaat op de x-as uit a posteriori probabiliteitsintervallen. De y-as bestaat uit de fractie sprekers die een a posteriori probabiliteitwaarde vertonen, gelegen in een 26

37 Resultaten van de histogrammen interval op de x-as, bij het analyseren van het foneempaar uitgesproken foneem - herkend foneem [22]. Een belangrijke factor bij het opstellen van een histogram is de keuze van de intervalbreedte want de vorm van het histogram is afhankelijk van de keuze van de intervalbreedte. Intervalbreedtes van 5% en 10% a posteriori probabiliteitswaarde geven twee inzichten van het verloop van de sprekersfracties. Het histogram met intervallen van 5% zorgt voor een gedetailleerd beeld van de data uit de steekproef, terwijl het histogram met intervallen van 10% een beter algemeen beeld geeft. De histogrammen bieden twee overzichten: een benadering van de distributie van het dialect bij het foneempaar uitgesproken foneem - herkend foneem. Deze benadering geeft een duidelijk beeld van de aanwezigheid van a posteriori probabiliteitswaarden bij elk dialect een vergelijking van de dialecten: de combinatie uitgesproken foneem - herkend foneem die specifiek een dialect karakteriseren kunnen worden afgeleid 4.2 Resultaten van de histogrammen De volgende figuren geven de histogrammen weer met de combinaties uitgesproken foneem - herkend foneem. De histogrammen van elke provincie worden in een ander kleur weergegeven. Uitgesproken foneem /E/ - herkend foneem /E/ Figuur 4.1 geeft het histogram weer voor het uitgesproken foneem /E/ - herkend foneem /E/ bij een intervalverdeling op de x-as van 5%. Een variërend verloop van het percentage sprekers wordt geconstateerd bij het herkende foneem /E/. Het a posteriori probabiliteitsinterval dat duidelijke waarden vertoont zijn de intervallen tussen 0% tot 55%. Daarna dalen de waarden geleidelijk, het sterkste bij de sprekers uit de provincie Antwerpen. Algemeen kan voor elk dialect gesteld worden dat de grootste sprekersfracties voorkomen in de a posteriori probabiliteitsintervallen van 0% tot 5% en 20% tot 35%. De figuur levert enkele belangrijke conclusies: Voor de provincie West-Vlaanderen komen de belangrijke sprekersfracties voor in het interval van 40% tot 50% APP Bij Limburg wordt dit het interval 35% tot 40% Antwerpen en Brabant vertonen grote fracties bij lage waarden van APP. Deze liggen tussen 0% en 5%. Ook worden grotere waarden opgemerkt voor beide dialecten in het interval 25% tot 30% Oost-Vlaanderen vertoont ten opzichte van de andere provincies nergens een hoge sprekersfractie bij een bepaald a posteriori probabiliteiteninterval Het Limburgs vertoont tussen 30% en 40% APP grotere sprekersfracties 27

38 4. Distributie Figuur 4.1: Histogram voor foneemcombinatie /E/ - /E/ De daling van de sprekersfractie begint vroeger bij het Antwerps: vanaf 30% a posteriori probabiliteitswaarde. Het Antwerps blijft bij grotere intervalwaarden de laagste sprekersfractie leveren ten opzichte van de andere dialecten. Figuur C.1 in de bijlage illustreert het histogram van de sprekersfracties van het foneem /E/ bij uitspraak foneem /E/ bij het gebruik van een grotere intervalswaarde van 10%. Deze figuur levert een analoog, maar minder gedetailleerd beeld voor de sprekersfracties van het foneem /E/ bij uitspraak van foneem /E/ dan waar te nemenin figuur 4.1. Uitgesproken foneem /E/ - herkend foneem /e/ Figuur 4.2 geeft het histogram weer van alle foneemparen uitgesproken foneem /E/ - herkend foneem /e/ aanwezig in de data. Enkel in het interval tot 5% komen hoge sprekersfracties voor van foneem /e/ bij alle dialecten. Met uitzondering van de sprekers uit de provincie Antwerpen is de sprekersfractie 95% voor alle dialecten. Het uitgesproken foneem kan vooral gebruikt worden om het Antwerps te onderscheiden van de andere dialecten. 28

39 Resultaten van de histogrammen Figuur 4.2: Histogram voor foneemcobinatie /E/ - /e/ Uitgesproken foneem /G/ - herkend foneem /G/ Het histogram bij herkenning van foneem /G/ wordt getoond in figuur 4.3 en C.3 (zie bijlage). Vooral het West-Vlaams vertoont grote sprekersfracties in een a posteriori probabiliteitsinterval van 0% tot 20%. Provincies Antwerpen, Oost-Vlaanderen en Brabant vertonen vooral grotere sprekersfracties bij probabiliteitsintervallen van 25% tot 45%. Herkenning van foneem /G/ kan gebruikt worden om het West-Vlaams te onderscheiden van de andere dialecten. Antwerpen, Oost-Vlaanderen en Brabant vertonen vooral grotere sprekersfracties bij probabiliteitsintervallen van 20% tot 40%. Herkenning van foneem /G/ kan gebruikt worden om het West-Vlaams te onderscheiden van het Antwerps, Brabants en het Oost-Vlaams. Uitgesproken foneem /G/ - herkend foneem /h/ Figuur 4.4 toont het histogram van de sprekers bij uitspraak van foneem /G/ en herkenning van foneem /h/. A posteriori probabiliteitsintervallen die voorkomen bij grotere waarden dan 10%, vertonen grote West-Vlaamse sprekersfracties. Dit is ook zo voor de Oost-Vlaamse sprekersfracties maar in mindere mate. Meting van uitgesproken foneem /G/- herkend foneem /h/ kan dus West-Vlaanderen van de andere provincies scheiden. 29

40 4. Distributie Figuur 4.3: Histogram voor foneemcombinatie /G/ - /G/ Figuur 4.4: Histogram voor foneemcobinatie /G/ - /h/ 30

41 Resultaten van de histogrammen Uitgesproken foneem /I/ - herkend foneem /I/ Een beeld van de sprekersfracties in a posteriori probabiliteitsintervallen van 5% wordt weergegeven in figuur 4.5 voor het foneempaar /I/ - /I/. Figuur C.2 in de bijlage toont het histogram bij a posteriori probabiliteitsintervallen van 10%. Enkele conclusies kunnen bekomen worden voor elk dialect: Limburg vertoont een grotere sprekersfractie bij lage a posteriori probabiliteitswaarden: van 0% tot 10% Bij Antwerpen komen grotere sprekersfracties voor bij a posteriori probabiliteitswaarden van 35% tot 45% Oost-Vlaanderen vertoont de grootste sprekersfracties in de intervallen 20% tot 40% Het Brabants en West-Vlaams tonen geen intervallen waar de sprekersfracties het grootst zijn Figuur 4.5: Histogram voor foneemcobinatie /I/ - /I/ Uitgesproken foneem /I/ - herkend foneem /i/ In figuur 4.6 is te zien dat in het interval tot 5% APP sprekersfracties van foneem /i/ bij de sprekers van Limburg, Oost-Vlaanderen en West-Vlaanderen voorkomen tot boven 75%. De sprekers uit Antwerpen en Brabant behalen spekersfracties van respectievelijk 42% en 37%. Sprekers uit Antwerpen en Brabant duiden in alle intervallen van APP tot 31

42 4. Distributie Figuur 4.6: Histogram voor foneemcombinatie /I/ - /i/ 80% grotere sprekersfracties aan. Voor de sprekers uit de andere provincies is dit niet het geval. Meting van de APP van het foneempaar /I/ - /i/ levert een sterk scheidingsvermogen om het Antwerps en het Brabants te onderscheiden van de andere dialecten. Uitgesproken foneem /o/ - Herkend foneem /o/ Het histogram bij herkenning van foneem /o/ bij de uitspraak van /o/ wordt getoond in de figuren 4.8 en C.4 (bijlage). Het Oost-Vlaams vertoont grote sprekersfracties bij a posteriori probabiliteitsintervallen tussen 5% en 30%. De andere provincies tonen maximale sprekersfracties in de intervallen tussen 40% en 60%. Uitgesproken foneem /o/ - herkend foneem /u/ Het histogram bij herkenning van foneem /u/ wordt getoond in figuur 4.7. Het West- Vlaams en het Oost-Vlaams vertonen grote sprekersfracties bij hoge waarden van APP. De sprekersfracties bij het West-Vlaams zijn het grootst in de intervallen van 10% tot 25% APP. In de intervallen van 25% tot 45% APP is het Oost-Vlaamse dialect het duidelijkst aanwezig. Herkenning van foneem /u/ geeft informatie om de dialecten Limburgs, Antwerps en Brabants te onderscheiden van het West- en Oost-Vlaams. 32

43 Resultaten van de histogrammen Figuur 4.7: Histogram voor foneemcombinatie /o/ - /u/ Figuur 4.8: Histogram voor foneemcombinatie /o/ - /o/ 33

44 4. Distributie Uitgesproken foneem /O+/ - herkend foneem /o/ Grote sprekersfracties komen voor in het a posteriori probabiliteitsinterval gaande van 0% tot 10% voor het Brabants. Het Oost- en West-Vlaams vertonen grote waarden van sprekersfracties bij de grotere APP. Dit is vooral op te merken in interval 30% tot 50%. Figuur 4.9 geeft het histogram bij de herkenning van foneem /o/. Figuur 4.9: Histogram voor foneemcombinatie /O+/ - /o/ Uitgesproken foneem /O+/ - herkend foneem /a/ Figuur 4.10 toont het histogram bij herkenning van foneem /O+/ met een intervalgrootte van 10%. Enkele interpretaties zijn: De grootste sprekersfracties komen bij West-Vlaanderen en Oost-Vlaanderen voor in de intervallen gelegen tussen de 10% tot 30% Bij het Antwerps is dit zo bij intervallen tussen de 30% tot 60% Het Limburgs vertoont grote APP in het interval 70% tot 80% Figuur 4.11 toont het histogram bij herkenning van foneem /a/. Grote waarden van de sprekersfractie voor het Antwerpse en het Brabantse dialect zijn te zien bij a posteriori probabiliteitswaarden vanaf 40%. 34

45 Resultaten van de histogrammen Figuur 4.10: Histogram voor foneemcombinatie /O+/ - /O+/ Figuur 4.11: Histogram voor foneemcombinatie /O+/ - /a/ 35

46 4. Distributie Overzicht van de resultaten Op basis van de histogrammen die de sprekersfracties aangeven uitgezet in APP van het herkende foneem - uitgesproken foneem kunnen de dialecten van elkaar onderscheiden worden. Een overzicht van het dialectonderscheidend vermogen van de onderzochte foneemcombinaties wordt samengevat in tabel 4.1 Uitgesproken Herkend Discriminatief foneem foneem vermogen /E/ /E/ onderscheiden van het Antwerps /E/ /e/ onderscheiden van het Antwerps /I/ /I/ onderscheiden van zowel het Limburgs als het Oost-Vlaams /I/ /i/ onderscheiding van beide clusters /G/ /G/ onderscheiden van het West-Vlaams /G/ /h/ onderscheiden van het West-Vlaams en het Oost-Vlaams /o/ /o/ onderscheiden van het Oost-Vlaams /o/ /u/ onderscheiden van zowel het West-Vlaams als het Oost-Vlaams /O+/ /O+/ onderscheiden van het Limburgs en Antwerps /O+/ /a/ onderscheiden van beide clusters /O+/ /o/ onderscheiden van het Brabants Tabel 4.1: Discriminatief vermogen op basis van het histogram 36 Het herkend foneem /i/ bij uitspraak /I/ scheidt de dialecten in twee grote clusters. De ene cluster bevat het Antwerpse en het Brabantse dialect met lage sprekersfracties. De andere cluster bevat het West-Vlaams, Oost-Vlaams en het Limburgse dialect met hoge sprekersfracties Het Antwerpse en het Brabantse dialect worden van elkaar gescheiden door de combinatie uitgesproken foneem /E/ - herkend foneem /e/. Het interval 0% tot 5% toont de laagste sprekersfracties voor het Antwerpse dialect aan. In de hogere intervallen wijzen de grootste sprekersfracties het Antwerpse dialect aan Het West-Vlaams kan onderscheiden worden van het Oost-Vlaams en Limburgs door de meting van de APP uitgesproken foneem /G/ - herkend foneem /h/. Ook meting van uitgesproken foneem /o/ - herkend foneem /u/ onderscheidt de drie dialecten van elkaar Het Oost-Vlaams wordt met het herkend foneem /u/ bij uitspraak /o/ onderscheiden van de andere dialecten Het Limburgs wordt onderscheiden van het West-Vlaams en het Oost-Vlaams door het uitgesproken foneem /o/ - herkend foneem /u/. In het interval 0% tot 5% heeft het Limburgs heel grote sprekersfracties terwijl het West- en Oost-Vlaams lage sprekersfracties aangeven. De tweeklanken blijken informatie te bevatten om alle dialecten van elkaar te discrimineren, terwijl de klinkers vooral de clusters kunnen discrimineren. Dit is te verklaren door het feit dat klinkers en tweeklanken door een regionaal accent op een verschillende articulatieplaats gerealiseerd worden. Tweeklanken bieden nog meer

47 Conclusie dan klinkers de mogelijkheid tot klankvariatie aangezien zij minder voorkomen in gesproken taal dan klinkers. Daardoor is de inmenging van andere accenten in deze fonemen uiterst miniem. Dit vormt tegelijkertijd een nadeel. Het minder voorkomen van tweeklanken resulteert in een mindere aanwezigheid van data in de steekproef database waardoor er een minder nauwkeurig histogram wordt opgesteld en het dus complexer is om conclusies op basis van dit histogram te nemen 4.3 Conclusie Het onderzoek behandelt de distributie van de fonemen in de regiotaal. Door het opstellen van de histogrammen die de sprekersfracties aangeven van het herkende foneem - uitgesproken foneem kunnen de foneemparen aangeduid worden die de dialecten van elkaar onderscheiden. Uit de analyses blijkt dat de foneemcombinaties /I/ versus /i/, /E/ versus /e/, //G/ versus /h/, /o/ versus /u/ en /o/ versus /o/ typische fonemen zijn waarmee een dialect kan worden geïdentificeerd en waarmee de dialecten onderling van elkaar kunnen worden gedistantieerd. Bij het onderzoek naar de distributie van de fonemen worden de fonemen door het opstellen van de histogrammen op statistisch vlak benaderd. Bij vergelijking van de resultaten van dit onderzoek met de resultaten uit het onderzoek waarbij het verband uitgesproken foneem - herkend foneem werd geanalyseerd (hoofdstuk 2), worden dezelfde vaststellingen bekomen. De twee verschillende analyses leiden tot dezelfde resultaten waardoor kan geconcludeerd worden dat de resultaten in het tweede hoofdstuk en dit hoofdstuk wel degelijk afkomstig zijn van de dialecten. Er kan worden gesteld dat de foneemparen herkend foneem - uitgesproken foneem uit vorige hoofdstukken het discriminerend karakter bezitten om de dialecten te kunnen identificeren. De foneemparen zullen de cues vormen om de dialecten te classificeren. In het volgende hoofdstuk wordt een eerste classificatie met zes handmatig gekozen cues uitgevoerd. Het discriminerend karakter van de foneemparen (uitgesproken foneem - herkend foneem) wordt nagegaan voor de foneemparen /I/ versus /i/, /E/ versus /e/, /G/ versus /h/, /o/ versus /o/, /u/ versus /o/, en /o/ verus /u/. 37

48 Hoofdstuk 5 Classificatie op basis van handmatig gekozen cues In de vorige hoofdstukken werden de regionale taalvariaties vanuit drie verschillende invalshoeken bestudeerd. Eerst werd het verband van het herkend foneem met het uitgesproken foneem opgespoord. Daarna werd het verloop van het herkend foneem binnen het tijdsdomein onderzocht. Tenslotte werd de distributie van de fonemen in de regiotaal geanalyseerd. De verschillende onderzoeken van de fonemen van de regiotalen resulteerden in de kennis van de indicerende fonemen voor het dialect. Met deze gekende fonemen wordt in dit hoofdstuk de classificatie van de dialecten uitgevoerd. 5.1 Doel van de classificatie Het doel bij de classificatie is het onderscheiden van de vijf regionale taalvarianten van het Standaardnederlands bij spontane spraak door Vlaamse sprekers. Dit betekent dat de vijf Vlaamse dialecten moeten kunnen geïdentificeerd en gediversifieerd worden aan de hand van de gekende indicerende fonemen. Bij de classificatie met handmatig gekozen foneemparen is het doel niet meteen om een hoge classificatiegraad van elk dialect te bekomen. Er wordt namelijk gewerkt met een beperkt aantal fonemen. Een hoge classificatiegraad kan dan niet bekomen worden aangezien er slechts zes foneemparen van 1444 mogelijke cues wordt aangewend. Wel moet er minstens een classificatiegraad van 20 procent bekomen worden want dit percentage wordt ook behaald bij het random classificeren van alle testpersonen. Vooral een inzicht krijgen in hoe die classificatiegraad tot stand komt en het effect van de volgorde van de cues bij het bepalen van de classificatiegraad wordt bij deze classificatie nagegaan. In hoofdstuk 6 wordt de classificatie op basis van automatisch bepaalde cues beschreven. Hier is het dan wel de bedoeling om hoge classificatiegraden te bekomen. 38

49 Transformatie van de data 5.2 Transformatie van de data Experimenteel kader Het bestand waarop de classificatie wordt toegepast is de CGN-database 1. De database bevat spontane eigentijdse spraak in het Standaardnederlands zoals die door volwassenen in Vlaanderen wordt gesproken. Naast de spraak is als extra informatie de geboorteregio, de woonregio en de regio van opleidings van de sprekers opgenomen. Transformatie De distributie in APP van elk uitgesproken foneem wordt voor elk dialect en elke spreker nagegaan. Berekeningen worden meestal uitgevoerd op normaalverdelingen wegens een grote vermindering van de rekencomplexiteit. Zoals blijkt uit de histogrammen in hoofdstuk 4, is het veronderstellen van een normaalverdeling op de APP niet correct. De grootste reden hiervoor is het voorkomen van de a posteriori probabiliteitwaarden tussen 0 en 1. Een normaalverdeling veronderstellen op de APP zal aanleiding geven tot negatieve waarden, wat niet mogelijk is. Toch kan er een normaalverdeling verondersteld worden als de data eerst getransformeerd wordt door het nemen van het logaritme ervan. De transformatie met een logaritme zorgt ervoor dat er bij veronderstelling van een normaalverdeling, een verwaarloosbare kans is dat er a posteriori probabiliteitswaarden voorkomen buiten het mogelijke interval. De veronderstelling van een normaalverdeling is te rechtvaardigen door het opstellen van een normaalkwantielplot, ook wel Q-Q-plot genoemd [23] [24]. Kwantielen zijn maten voor de locatie van een verdeling. Ze worden bekomen door eerst de APP te ordenen in stijgende waarden en daarna de data op te delen in gelijke intervallen. Ze geven aan rond welke waarden de observaties in een verdeling liggen. Bekende voorbeelden van kwantielen zijn bijvoorbeeld de percentielen waarbij de geordende APP onderverdeeld worden in 100 groepen van eenzelfde omvang. Om te controleren of de veronderstelling van een normaalverdeling over de logaritme van de APP gerechtvaardigd is, wordt als voorbeeld figuur 5.1 getoond. De kruisen stellen de cumulatieve kansen van de logaritme van het foneempaar /E/ - /e/ voor, terwijl de gestreepte rechte lijn hetzelfde doet voor een standaardnormaalverdeling. Hoe dichter de datapunten bij de rechte lijn liggen, hoe meer de aanname van een standaardnormaalverdeling gerechtvaardigd is. Figuur D.1 in de bijlage toont hetzelfde voor uitgesproken foneem /I/ - herkend foneem /i/. Beide figuren duiden sterk een normaalverdeling aan. 1 CGN staat voor Corpus Gesproken Nederlands 39

50 5. Classificatie op basis van handmatig gekozen cues Figuur 5.1: Normaalkwantielplot bij uitgesproken foneem /E/ - herkend foneem /E/ Distributie van de cues Eerst moet een globale distributie van elke cue gemaakt worden voor elk dialect. De data wordt in twee groepen opgesplitst. Een eerste groep data bevat personen die zowel geboren zijn, gestudeerd hebben, als wonen in dezelfde regio. Zij zullen fungeren als trainingsdata. De distributies van de APP, horend bij een dialect, worden bepaald aan de hand van deze trainingssprekers. Het West-Vlaams wordt voorgesteld door 19 sprekers, het Oost-Vlaams door 16 sprekers. De trainingsdata voor het Antwerps telt 12 sprekers, de trainingsdata voor het Brabants telt 17 sprekers en het Limburgs wordt voorgesteld door 22 sprekers. De andere groep data bevat de overige 50 sprekers, die als testsprekers gebruikt zullen worden. Deze personen hebben geen drie overeenkomstige regio s. Door het aanwezig zijn van factoren, zoals bijvoorbeeld het studeren in een andere provincie, wordt een extra complexiteit aan de classificatietest toegevoegd. Op basis van de APP horend bij de testsprekers, wordt de classificatie uitgevoerd. 5.3 Classificatie De classificatie wordt aangevat met de foneemparen: /I/ versus /i/, /E/ versus /e/, /G/ versus /h/, /o/ versus /o/, /u/ versus /o/ en /o/ versus /u/. Uit de vorige hoofdstukken bleken zij een goed discriminatief karakter te vertonen. 40

51 Classificatie Basisprincipes voor de classificatie Het belangrijkste uitgangspunt bij het classificeren van de dialecten is dat dit consistent gebeurt. Dit is te verwezenlijken door het volgen van enkele regels: Consistentie bij alle uitgesproken woorden: aarzelingen, versprekingen, onverstaanbare woorden, woorden uit een andere taal of nieuwe woorden mogen geen aanleiding geven tot misclassificatie Consistentie bij alle geluiden: sprekersgeluiden zoals gelach, gekuch, mogen geen aanleiding geven tot misclassificatie Aangezien aan beide voorwaarden voldaan is in de data, is classificatie mogelijk. Het classificatiecriterium Als classificatiecriterium wordt Bayesiaanse classificatie toegepast: arg max P ( d(x, y) µ t(x, y) ) (5.1) d=w,o,a,b,l Bij een Bayesiaanse classificator wordt de maximale probabiliteit gezocht dat een observatie van een testspreker µ t tot één van de vijf Vlaamse dialecten d = W, O, A, B, L behoort. Het dialect dat de grootste probabiliteit heeft om een gegeven testspreker te bevatten wordt geselecteerd. Via de regel van Bayes ( P ( µt (x, y) d(x, y) ) ) P (d(x, y)) P ( d(x, y) µ t (x, y) ) = P (µ t (x, y)) (5.2) wordt dit, omdat de noemer onafhankelijk is van het dialect, arg max P ( µ t (x, y) d(x, y) ) P (d(x, y)) (5.3) waarbij de a priori probabiliteiten van de dialecten equiprobabel verondersteld worden. Uitvoering van de classificatie De methode bestaat uit de volgende stappen: de logaritmische transformatie van APP wordt uitgevoerd voor alle gekozen foneemparen één van de cues wordt geselecteerd uit de bovengenoemde foneemparen. Deze wordt bij de trainingsdata gebruikt om het dialect voor te stellen. 41

52 5. Classificatie op basis van handmatig gekozen cues op basis van het classificatiecriterium wordt de testpersoon toegewezen aan een dialect na de toewijzing van alle personen wordt nagegaan hoeveel personen juist geclassificeerd werden Deze vier stappen worden herhaald voor alle cues. 5.4 Resultaten De eerste classificatie wordt uitgevoerd met de opeenvolgende aanwending van de volgende fonemen: /I/ versus /i/, /E/ versus /e/, /G/ versus /h/, /o/ versus /o/, /u/ versus /o/ en /o/ versus /u/. Het selecteren van meerdere cues tegelijk gebeurt door het opstellen van een multivariate gaussiaanse verdeling. Een zesdimensionale gaussiaanse verdeling wordt in dit geval opgesteld als alle foneemparen in rekening worden gebracht. Figuur 5.2 toont het verloop van classificatiegraad naar de drie regio s bij het gebruik van de foneemparen in de bovengenoemde volgorde. Bij het aanwenden van Figuur 5.2: Classificatiegraden van geboorteregio bij aanwenden van eerste set fonemen opeenvolgende foneemparen wordt een stijging van de classificatiegraad verwacht. Uit de figuur blijkt dat bij het aanwenden van een groter aantal foneemparen een grotere classificatiegraad bekomen wordt. Toch geeft niet elke toevoeging van foneempaar een opeenvolgende stijging. Er wordt vastgesteld dat de volgorde van het aanwenden van de 42

53 Resultaten cues een belangrijke rol speelt. Het experiment wordt herhaald met een andere volgorde van aanwenden van de foneemparen. Figuur 5.3 wordt bekomen bij aanwenden van de foneemparen /u/ versus /o/, /o/ versus /u/, /o/ versus /o/, /G/ versus /h/, /E/ versus /e/ en /I/ versus /i/. Uit Figuur 5.3: Classificatiegraden van geboorteregio bij aanwenden van tweede set fonemen de vergelijking van figuren 5.2 en 5.3 valt vast te stellen dat: de volgorde van het aanwenden van verschillende foneemcombinaties een rol speelt in de mate waarin de classificatiegraad stijgt. Ten opzichte van figuur 5.2 is er naarmate de toevoeging van opeenvolgende foneemparen een stijging van opeenvolgende classificatiegraad op te merken de totale classificatiegraad na het aanwenden van een gelijk aantal foneemparen blijft gelijk Tabel 5.1 toont de classificatiegraad die bekomen wordt bij het gebruik van de zes foneemparen. De woonregio wordt het best geclassificeerd. Maximale classificatiegraden geboorteregio woonplaats opleidingsregio 34% 35.9% 30.2% Tabel 5.1: Classificatiegraden bij Bayesiaanse classificatie bij gebruik van zes foneemparen 43

54 5. Classificatie op basis van handmatig gekozen cues 5.5 Conclusie Om het discriminerend karakter van de foneemparen (uitgesproken foneem - herkend foneem) na te gaan voor de foneemparen /I/ versus /i/, /E/ versus /e/, /G/ versus /h/, /o/ versus /o/, /u/ versus /o/, en /o/ versus /u/, werd een classificatie uitgevoerd op de CGN database. De zes handmatig gekozen cues werden eerst in de bovenstaande volgorde aangewend. Er werd vastgesteld dat een classificatie op basis van APP met de cues mogelijk was want alle classificatiegraden zijn groter dan 20%. De classificatie naar woonregio geeft de beste resultaten, namelijk 35.9%. De classificatie naar geboorteregio en regio van opleiding bedragen respectievelijk 34% en 30.2%. In een andere volgorde van aanwenden van de cues, namelijk /u/ versus /o/, /o/ versus /u/, /o/ versus /o/, /G/ versus /h/, /E/ versus /e/ en /I/ versus /i/, werd een tweede classificatie ondernomen. Daarbij werd vastgesteld dat de volgorde van het aanwenden van de verschillende foneemcombinaties een rol speelt in de mate waarin de classificatiegraad stijgt. Daarnaast werd vastgesteld dat de totale classificatiegraad na het aanwenden van dezelfde foneemparen gelijk blijft. In het volgende hoofdstuk zullen twee verbeteringen op de classificatiemethode met de handmatig gekozen cues worden doorgevoerd. Een eerste verbetering betreft het aanwenden van meerdere foneemparen in de classificatie. Een tweede verbetering betreft het bepalen van de foneemvolgorde op basis van een variantieanalyse. In het volgende hoofdstuk wordt de automatische classificatie met deze twee verbeteringen besproken. 44

55 Hoofdstuk 6 Automatische classificatie In hoofdstuk 5 werd de classificatie van de dialecten op basis van handmatig gekozen cues uitgevoerd. Het experiment richtte zich op het onderscheiden van de dialecten door middel van de foneemparen /I/ versus /i/, /E/ versus /e/, /G/ versus /h/, /o/ versus /o/, /u/ versus /o / en /o/ versus /u/. De uitvoering van de classificatie van de dialecten naar woonregio resulteerde in een voldoende scheidingspercentage van de dialecten: 35 procent. Er werd beslist twee verbeteringen op de classificatie met handmatig gekozen cues door te voeren. Een eerste verbetering betreft het aanwenden van meerdere foneemparen. Een tweede verbetering betreft het bepalen van de foneemvolgorde op basis van een variantieanalyse. Dit moet leiden tot een betere classificatiegraad. In dit hoofdstuk wordt de automatische classificatie van de dialecten beschreven. Eerst wordt met behulp van ANOVA bepaald welke fonemen het meest discriminant zijn voor de classificatie. Later wordt nagegaan hoeveel cues er aangewend moeten worden om de hoogste classificatiegraad te bekomen. In het eerste deel van dit hoofdstuk wordt het statistisch begrip ANOVA [25] uitvoeriger uitgelegd. Daarop volgend wordt de algemene procedure beschreven die toegepast wordt om de automatische classificatie uit te voeren. In het laatste deel worden de bekomen resultaten beschreven en geanalyseerd. 6.1 ANOVA Algemene theorie ANOVA [26] [27] [28] staat voor Analysis of variance en is een statistische methode die gebruikt wordt om populatiegemiddelden van verschillende groepen met elkaar te vergelijken. ANOVA is te beschouwen als een generalisatie van de t-test met dit verschil: er wordt in ANOVA niet gerekend met de gemiddelden zelf. De berekeningen zijn gebaseerd op de varianties in de groepen. ANOVA gaat uit van een nulhypothese die stelt dat de gemiddelde waarden van alle 45

56 6. Automatische classificatie populaties gelijk zijn aan elkaar. Concreet zijn er vijf regionale dialecten en zij vormen de vijf populaties die ANOVA vergelijkt: H 0 : µ W = µ O = µ A = µ B = µ L (6.1) waarbij W, O, A, B en L staan voor het desbetreffende dialect. De alternatieve hypothese stelt dat minstens één gemiddelde significant verschilt van de andere gemiddelden. De nulhypothese wordt toegepast op alle mogelijke foneemcombinaties. Als de nulhypothese verworpen wordt, kan men concluderen dat minstens één dialectgemiddelde verschilt van de andere dialectgemiddelden. Dit betekent dan dat het foneempaar minstens één dialect kan onderscheiden van de andere. ANOVA test de verschillen tussen de gemiddelden met behulp van een variantieanalyse. De test is gebaseerd op twee schattingen: De Mean Square Error of MSE. MSE beschrijft de variantie van de APP binnenin de dialecten als gevolg van afwijkingen binnen elke dialect ten opzichte van het gemiddelde van het dialect De Mean Square Between of MSB. MSB beschrijft de variantie van de APP tussen de dialecten als gevolg van de afwijkingen van de gemiddelden van de dialecten ten opzichte van het algemeen gemiddelde Als de gemiddelden van de dialecten aan elkaar gelijk zijn, dan klopt de hypothesetest en schat de MSB de echte variantie van de dialecten. Als de gemiddelden van de dialecten niet gelijk zijn, dan wordt de hypothesetest verworpen en zal MSB een veel grotere waarde dan de echte variantie (MSE) aanduiden. De uitkomst van de hypothesetest is afhankelijk van de verhouding tussen MSE en MSB: als MSB veel groter is dan MSE, dan is het onwaarschijnlijk dat de gemiddelden van de dialecten gelijk zijn als MSB ongeveer gelijk is aan MSE, dan is de data consistent met de nulhypothese dat de gemiddelden van de dialecten gelijk zijn Vooraleer ANOVA effectief te kunnen toepassen, moet er rekening gehouden worden met enkele veronderstellingen die ANOVA als basisprincipes heeft. Deze aannames zijn dezelfde als voor de t-test, maar dan toegepast op meerdere groepen: 46 De populaties, in dit geval de vijf dialecten, moeten éénzelfde variantie hebben. Aan deze voorwaarde is voor alle cues voldaan. Als voorbeeld wordt gerefereerd naar de varianties voor het uitgesproken foneem /E/ - herkend foneem /E/. Tabel 6.1 toont aan dat ze ongeveer gelijk zijn per provincie. Het gemiddelde is 0.105, met als maximale afwijking 7.22% bij het West-Vlaams en het Limburgs. De populaties moeten normaal verdeeld zijn. De APP zijn getransformeerd met behulp van een logaritmische functie zodat men mag veronderstellen dat de probabiliteiten van alle sprekers die behoren tot een dialect gekarakteriseerd kunnen worden door een normaalverdeling, gegeven een cue (zie 5.2). Aan deze veronderstelling is voldaan.

57 ANOVA W O A B L waarde afwijking 7.22% -3.23% 6.93% -3.70% -7.22% Tabel 6.1: De populatievarianties voor uitgesproken foneem /E/ - herkend foneem /E/ Elke waarde is onafhankelijk van een andere waarde. Deze voorwaarde stelt dat elke spreker maar één waarde mag voortbrengen. Dit is het geval want er wordt cue per cue onderzocht in hoeverre deze cue bijdraagt tot discriminatie van de dialecten. Elke testpersoon en elk dialect geven telkens maar één waarde per cue. Als aan deze voorwaarden voldaan is, kan ANOVA toegepast worden om waarden te geven aan de cues. Deze waarden geven een indicatie over hoe sterk de cue de dialecten kan discrimineren. De cues die de sterkste discriminatieve vermogens hebben worden in een latere fase gebruikt om de classificatie te voltooien. Wiskundige formulering Gegeven een cue kan elk dialect volledig beschreven worden op basis van de verwachtingswaarden µ W, µ O, µ A, µ B, µ L en de varianties σ W, σ O, σ A, σ B, σ L. Deze varianties zijn gelijk aan elkaar zoals vroeger getoond in tabel 6.1. De werkwijze van ANOVA start door eerst het gemiddelde te berekenen van de vijf regionale dialecten en per dialect de afwijking ten opzichte van het gemiddelde vast te stellen. Als µ het gemiddelde voorstelt en de index d staat voor een dialect, dan kan men de afwijking α per dialect berekenen via µ d = µ + α d (6.2) waarbij αd = 0 (6.3) en µ het gemiddelde is over de vijf regionale dialecten. α d geeft informatie over de verschillen tussen de dialecten. Stelt men elke spreker voor als X sd waarbij s de index van de spreker voorstelt en d de index van het dialect waartoe de spreker behoort, dan kan men per testspreker stellen dat X sd = µ + α d + U sd (6.4) 47

58 6. Automatische classificatie waarbij U sd de afwijking, eigen aan de testpersoon voorstelt. De totale kwadratensom of Total Sum of Squares (SST) van de afwijkingen ten opzichte van het gemiddelde X over alle gekozen testpersonen wordt gegeven door SST = S s=1 d=w,o,a,b,l (X sd µ) 2 (6.5) waarbij er verondersteld is dat uit elk dialect een gelijk aantal, namelijk S, testpersonen gekozen worden ter vereenvoudiging van de notatie in de formule. Verder uitwerken geeft SST = S s=1 d=w,o,a,b,l (X sd µ + µ d µ d ) 2 (6.6) waarbij µ d overeenkomt met de gemiddelde waarde over alle gekozen testsprekers binnen één dialect. Deze formule kan nog verder opgesplitst worden tot SST = S s=1 d=w,o,a,b,l (X sd µ d ) 2 + S d=w,o,a,b,l (µ d µ) 2 (6.7) Deze laatste stap kan men gemakkelijk begrijpen als men de kwadraatterm uitwerkt rekening houdend met de onafhankelijkheid van de sprekers. De eerste term SSE = S s=1 d=w,o,a,b,l (X sd µ d ) 2 (6.8) wordt aangeduid met Error Sum of Squares of SSE en is een maat voor de variantie binnen de groepen als gevolg van afwijkingen binnen elke groep ten opzichte van het groepsgemiddelde. De tweede term SSB = S d=w,o,a,b,l (µ d µ) 2 (6.9) wordt de Between Sum of Squares of SSB genoemd en is een maat voor de variantie tussen de groepen als gevolg van de afwijkingen van de groepsgemiddelden ten opzichte van het algemeen gemiddelde. Onder de nulhypothese waar de gemiddelden van de dialecten gelijk zijn geldt dat SSE σ 2 (6.10) 48

59 ANOVA een chi-kwadraatverdeling heeft met 5 (S 1) vrijheidsgraden. De waarde vijf is afkomstig van het aantal dialecten die de classificatie uitmaken. Analoog is SSB σ 2 (6.11) chi-kwadraatverdeeld met 4 vrijheidsgraden, namelijk het aantal dialecten die de classificatie uitmaken min 1. Nu bekomt men uiteindelijk de toetsingsgrootheid voor de nulhypothese als de verhouding tussen beide chi-kwadraatverdelingen met hun vrijheidsgraden. De verhouding voldoet aan een Fisher F-verdeling. F = SSB σ 2 (4) SSE σ 2 (5(S 1)) (6.12) Aangezien deze deling ervoor heeft gezorgd dat de onbekende variantie van de dialecten σ 2 is weggevallen, kan de F-ratio berekenend worden uit SSE en SSB. Deelt men de beide kwadratensommen met de bijhorende vrijheidsgraden, dan bekomt men de gemiddelde kwadratensommen MSE en MSB: MSE = SSE 5 (S 1) (6.13) MSB = SSB 4 (6.14) De F-ratio kan dan anders geschreven worden als F = SSB 4 SSE 5 (S 1) = MSB MSE (6.15) en heeft in dit geval 4 vrijheidsgraden in de teller en 5 (S-1) vrijheidsgraden in de noemer. Als de F-ratio grote waarden aanduidt kan men besluiten dat de nulhypothese niet waar is. Men verwerpt dan de nulhypothese. Een F-ratio die ongeveer 1 is, duidt op een aanname van de nulhypothese. Op basis van de F-ratio wordt een P-waarde bepaald. De P-waarde wordt bepaalt op basis van een tweezijdige hypothesetest of de kans dat een uitkomst die even extreem of nog extremer is dan de waargenomen F-ratio. Lage P-waardes duiden op een verwerping van de hypothesetest, wat overeenkomt met de conclusie dat de geëvalueerde cue dus gebruikt kan worden voor classificatie. 49

60 6. Automatische classificatie Relatie tussen ANOVA en t-test ANOVA en de t-test zijn beide hypothesetesten die de verschillen tussen gemiddelden testen. De t-test kan alleen het verschil testen bij twee gemiddelden. ANOVA neemt alle data samen, in dit geval dus de vijf regionale dialecten, en geeft één enkele F-ratio met bijhorende overschrijdingskans (P-waarde) voor de nulhypothese. Als men dus alleen twee gemiddelden moet vergelijken met elkaar, zijn de t-test en ANOVA analoog aan elkaar en geven ze hetzelfde resultaat. Men kan ook de t-test verschillende keren gebruiken door de test op alle paren dialecten toe te passen. Deze veelvuldige toepassing van de t-test is omslachtig omdat het aantal dialectvergelijkingen redelijk hoog ligt. Om alle paren dialecten met elkaar te vergelijken zouden er 10 t-testen uitgevoerd moeten worden tegenover 1 test via ANOVA. Er worden dus bij het gebruik van de t-test 10 overschrijdingskansen bekomen, tegenover één bij ANOVA. Daardoor is het moeilijker om bij de t-test goede conclusies te trekken: uit 10 verschillende waarden moet men besluiten of de hypothesetest voldoet of niet. Omdat ANOVA beter toepasbaar is op complexe experimentele data, wordt ANOVA gebruikt. 6.2 Automatische classificatiemethode ANOVA selecteert de fonemen die het meeste bijdragen tot het discrimineren van een dialect. Op basis van deze selectie worden de belangrijke discriminerende fonemen toegevoegd aan de cue en wordt de classificatie uitgevoerd. De verandering van de classificatiegraad per toegevoegd foneem wordt dan in grafiek gebracht om een visueel beeld te bekomen van de procesevolutie. De stappen die uitgevoerd worden zijn: Voor elke spreker in de data wordt vertrokken van de kansen P ( invloed foneem x uitgesproken foneem y ). Deze stap is identiek aan de stap gebruikt in de classificatie bij de handmatig uitgekozen zes foneemparen. Bij automatische classificatie wordt deze stap voor alle 1444 foneemparen uitgevoerd De data wordt opgesplitst in twee groepen. De eerste groep bevat data van sprekers die representatief zijn voor het dialect. Ze bevat data van personen die zowel geboren zijn, gestudeerd hebben, als wonen in dezelfde regio. Deze data zal fungeren als trainingsdata. De tweede groep data bevat de data van sprekers die fungeren als testsprekers. Opnieuw is de stap van het opdelen van de data identiek aan de stap genomen bij classificatie op basis van zelf gekozen cues ANOVA onderzoekt het discriminatief vermogen van elk foneempaar. Het resultaat wordt afgelezen op een boxplot. Een boxplot is een grafiek waar de data samengevat wordt door de mediaan, de bovenkwartiel en de onderkwartiel 1. De mediaan is de middelste a posteriori probabiliteitswaarde aanwezig in de steek- 1 Het begrip kwartiel en kwantiel werd uitgelegd in

61 Automatische classificatiemethode proefdata, na rangschikking van de probabiliteiten van klein naar groot. Als de data bestaat uit een even aantal waarden, dan wordt het gemiddelde van de twee middelste waarden gebruikt als mediaan. De bovenkwartiel, ook 75ste percentiel genoemd, komt overeen met de steekproefwaarde waarbij 75% van de APP een lagere waarde vertoont na rangschikking van de data van klein naar groot. De onderkwartiel of 25ste percentiel komt overeen met de steekproefwaarde waarbij 25% van de APP een lagere waarde vertoont, opnieuw na rangschikking van de data van klein naar groot. Figuur 6.1 laat een voorbeeld van een boxplot zien voor het foneempaar /I/ - /i/. Op de x-as worden de dialecten getoond. De y-as duidt Figuur 6.1: Boxplot voor uitgesproken foneem /I/ - herkend foneem /i/ de waarden voor de APP aan. De blauwe rechthoeken geven de bovenkwantiel en onderkwantiel weer. Het bereik tussen deze twee waarden wordt het interkwartielbereik genoemd. De rode lijn in de blauwe rechthoek staat voor de waarde van de mediaan. Ideale data impliceert dat de mediaan in het midden tussen de bovenkwartiel en onderkwartiel ligt. In dit voorbeeld geldt dit vooral voor het Antwerpse maar niet voor het Oost-Vlaamse dialect. De zwarte stippelijnen verbinden de maximale en minimale waarden in de data met de kwartielen. Rode kruisjes tenslotte zijn datapunten die sterk verschillen van de andere waarden in de data. Daarom worden ze buiten beschouwing gelaten. Op basis van de boxplot kan het discriminatief vermogen onderzocht worden voor een bepaald foneempaar. In figuur 6.1 bijvoorbeeld is het interkwartielbereik van Limburg en West-Vlaanderen gelegen in een lager waardendomein van de APP dan voor de provincie Brabant en Antwerpen. Op basis van dit foneempaar is er een onderscheid mogelijk tussen beide groepen dialecten ANOVA kent op een mathematische wijze (zie 6.1) aan de foneemparen een P- waarde toe, die de mate van hun discriminatief vermogen voor de dialecten inhoudt. Hoe lager de P-waarde, hoe beter het discriminatief karakter van het foneempaar 51

62 6. Automatische classificatie Op basis van de P-waarden gebeurt de classificatie. Eerst wordt het foneempaar met de laagste P-waarde geselecteerd. Dit foneempaar wordt als eerste gebruikt voor de classificatie. Het classificatiecriterium is identiek aan dat gebruikt bij classificatie op basis van handmatig geselecteerde cues: max P ( d(x, y) µ t (x, y) ) (6.16) De classificatiegraad bekomen door het gebruik van dit foneempaar wordt berekend Het foneempaar met de tweede laagste P-waarde wordt gecombineerd met het vorige geselecteerde foneempaar. Er wordt multivariate verdeling opgesteld voor beide foneemparen. Op basis van deze multivariate verdeling wordt de classificatiegraad opnieuw berekend. Daarna wordt het foneempaar met de derde laagste P-waarde geselecteerd en gecombineerd met de vorige twee foneemparen tot een driedimensionale multivariate verdeling. De classificatiegraad voor gebruik van drie foneemparen wordt berekend. Men blijft deze stap herhalen tot alle foneemparen gebruikt zijn om de classificatie uit te voeren 6.3 Resultaten De automatische classificatie wordt uitgevoerd met alle foneemparen. Een eerste classificatie van de CGN-data wordt uitgevoerd met P-waarden berekend met de CGN-data. De tweede classificatie gebeurt met de classificatie van CGN-data met P-waarden berekend met de CoGeN-data Classificatie van CGN-data, training met CGN-data Figuur 6.2 geeft de procesevolutie van de classificatiegraad naar de drie regio s bij de aanwending van alle cues bij de automatische classificatie van de dialecten. De zwarte curve illustreert de classificatiegraad naar de geboorteregio, de blauwe curve voor de woonplaats en de rode curve toont het verloop van de classificatiegraad naar de regio van opleiding. De procesevolutie van de classificatiegraden naar de drie regio s tonen dat: er een globale stijging van de classificatiegraad bekomen wordt door een afwisselend stijgings- en dalingsverloop van de classificatiegraad, zelfs bij het aanwenden van een relatief klein aantal foneemparen de beste classificatie naar de woonregio bekomen wordt, gevolgd door de classificatie naar opleiding en naar geboorteregio het aanwenden van alle foneemparen niet leidt tot een steeds hogere classificatiegraad: de classificatiegraad satureert en daalt uiteindelijk bij aanwenden van een groter aantal foneemparen De daling van de classificatiegraad na saturatie is logisch, aangezien foneemparen met weinig discriminatief vermogen worden toegevoegd. Deze dragen niet bij tot de classificatie. 52

63 Resultaten Figuur 6.2: Classificatiegraden waarbij P-waarden berekend zijn met CGN-data De voorgaande redenering kan niet gevolgd worden bij de dalingen vóór het bereiken van de saturatie van de classificatiegraad, bij gebruik van een relatief weinig aantal foneemparen. De foneemparen die vóór de saturatie worden aangewend, zouden volgens ANOVA veel discriminatief vermogen moeten bezitten en moeten resulteren in een verbetering van de classificatiegraad. Uit de figuren blijkt dat dit niet zo is. Twee dalingen van de classificeringsgraad vallen op te merken voor het bereiken van de maximale classificeringsgraad. Tabel 6.2 geeft een overzicht bij het gebruik van alle foneemparen. Geboorteregio Opleidingsregio Woonregio maximale classificatiegraad 32.1% 35.8% 43.4% aantal nodige foneemparen Tabel 6.2: Maximale classificatiegraad bij berekening P-waarden met CGN-data In 5.4 werd een eerste automatische classificatie aangevat met het aanwenden van handmatig gekozen cues met de data van de CGN-database. Er wordt vermoed dat de daling in de classificatiegraad te wijten is aan te weinig sprekers in de trainingsdata per provincie. In de CGN-data wordt namelijk het West-Vlaams voorgesteld door 19 sprekers, het Oost-Vlaams door 16 sprekers. De CGN-trainingsdata die het Antwerps voorstelt telt 12 sprekers, de trainingsdata voor het Brabants telt 17 sprekers en het Limburgs wordt voorgesteld door 22 sprekers. Het volgende experiment wordt aangevat met een andere opsplitsing van de datagroepen. De CoGeN-database wordt hier als traningsdata genomen. De CGN-database wordt als testdata genomen. De trainingsdata bestaat uit meer sprekers van het dialect waardoor 53

64 6. Automatische classificatie een duidelijke multivariate distributie kan opgesteld worden om de dialecten voor te stellen. In de CoGeN-data wordt het West-Vlaams en het Oost-vlaams telkens voorgesteld door 36 sprekers. Het Antwerps wordt door 42 sprekers voorgesteld en het Brabants door 26 sprekers. Voor het Limburgse dialect zijn er 34 sprekers in de CoGeN-database. Met de CoGeN-data wordt dan getraind waardoor in de testdata ook sprekers van alle regio s aanwezig zijn. Classificatie van CGN-data, training met CoGeN-data Bij dit experiment wordt de CoGeN-data gebruikt als trainingsdata. Het gebruik van CoGeN-data als trainingsdata heeft het voordeel dat de dialectkenmerken duidelijk aanwezig zijn en er een duidelijke multivariate distributie kan berekend worden. Hoe groter het aantal trainingsdata aanwezig, hoe beter de multivariate distributie van het dialect. De classificatiegraad naar woonregio is het grootst. De maximale classificatie van Figuur 6.3: Classificatiegraden waarbij de P-waarde berekend zijn met de CoGeN-data Geboorteregio Opleidingsregio Woonregio maximale classificatiegraad 35.8% 39.7% 47.2% aantal nodige foneemparen Tabel 6.3: Maximale classificatiegraad bij berekening P-waarde met CoGeN-data 47.2% wordt bereikt na aanwending van 190 cues. Daarna daalt de classificatiegraad geleidelijk. De tweede grootste classificatiegraad wordt bekomen bij de classificatie naar 54

65 Conclusie de regio van opleiding. De maximale classificatiegraad bij deze periode bedraagt 39.7% en wordt bekomen na 245 cues. Een lichte daling wordt waargenomen na het maximum. De classificatiegraad naar de regio van opleiding is gelijklopend met de classificatiegraad naar de geboorteregio tot foneempaar 163. Daar bereikt de classificatiegraad zijn maximale waarde. Meer foneemparen toevoegen leidt tot een sterke daling van de classificatiegraad. Tabel 6.3 geeft een overzicht van de resultaten. 6.4 Conclusie Om te komen tot een tweede automatische classificatie werd het discriminerend karakter van de foneemparen uitgesproken foneem - herkend foneem nagegaan door de toepassing van een ANOVA analyse op de a posteriori probabiliteiten. De logaritmische transformatie van de APP per spreker en per dialect vertoont een overeenkomst met een normaalverdeling. Vergelijkingsmethodes van meerdere populaties, zoals ANOVA, kunnen daardoor toegepast worden. Er worden twee classificaties van de CGN-data uitgevoerd. Een eerste classificatiemodel wordt getraind met de CGN-data, een tweede classificatiemodel wordt met de CoGeN-data getraind. Uit de procesevoluties van de classificatiegraden naar de drie regio s (geboorte, opleiding, wonen) toe, wordt vastgesteld dat er een globale stijging van de classificatiegraden bekomen wordt tot aan een plateau gevormd door de maximale classificatiegraad. Daarna dalen de classificatiegraden terug geleidelijk. De beste classificatiegraad wordt bekomen met het model getraind met CoGeN-data. De classificatiegraad naar de woonregio toe is het meest doeltreffend en bedraagt 47.2% (met 190 cues), gevolgd door de classificatie naar de regio van opleiding (39.7% met 245 cues) en naar de regio van geboorte (35.8% met 163 cues). Het aanwenden van alle foneemparen leidt niet tot een steeds hogere classificatiegraad: de classificatiegraad satureert en daalt uiteindelijk bij het aanwenden van grotere aantallen foneemparen. De geautomatiseerde methode levert statistisch significante resultaten bij classificatie van de Vlaamse taalvarianten van het Standaardnederlands. 6.5 Suggesties en uitbreidingsmogelijkheden Uiteraard is met deze thesis geen definitief einde voor het ontwikkelen van een automatische classificator van de dialecten bekomen. Er zijn nog verschillende aspecten in de ontwikkeling waaraan verbeteringen mogelijk zijn en ook de uitbreidingsmogelijkheden zijn nog niet uitgeput. Dit deel geeft enkele suggesties en interessante uitbreidingen waarmee een automatische classificator van de dialecten eventueel kan worden uitgebouwd. Om zelf de uitbreidingen en de suggesties in deze thesis uit te werken, ontbrak het jammer genoeg aan tijd. 55

66 6. Automatische classificatie Het verwijderen van de foneemparen die weinig aanwezig zijn in de data tijdens de selectie van de data Bij de classificatie van CGN-data met P-waarden berekend op basis van de CGN-data (zie figuur 6.2), is vast te stellen dat de procesevolutie van de classificatiegraden naar de drie regio s een globale stijging van de classificatiegraden tonen via een afwisselend stijgings- en dalingsverloop van de classificatiegraad per regio, dit zelfs bij het aanwenden van een relatief klein aantal foneemparen. Ter verduidelijking wordt het verloop van de classificatiegraad naar woonregio overlopen (zie figuur 6.2): eerst stijgt de classificatiegraad bij het aanwenden van de eerste foneemparen tot een eerste top bij 75 foneemparen. Daarna daalt de classificatiegraad bij het aanwenden van de volgende foneemparen. De minimale classificatiegraad is bereikt bij het gebruik van 100 foneemparen. Daarna stijgt de classificatiegraad opnieuw bij het aanwenden van de volgende foneemparen tot een tweede top bij 145 foneemparen. Na een tweede daling met een minimum bij 340 foneemparen is de maximum classificatiesgraad bereikt bij 720 foneemparen. Bij het aanwenden van de daaropvolgende foneemparen satureert de classificatiegraad waarna opnieuw een daling wordt ingezet. De laatste daling is logisch aangezien foneemparen met weinig discriminatief vermogen worden toegevoegd. Deze dragen dus niet meer bij tot de classificatie. De eerste dalingen, één bij aanwenden van foneemparen 75 tot 100 en één bij gebruik van foneemparen 145 tot 340 zijn niet logisch. Deze foneemparen zouden theoretisch veel discriminatief vermogen moeten bezitten en moeten resulteren in een verbetering van de classificatierate. Bij het observeren van de foneemparen die de daling doen ontstaan van de classificatiegraad, blijken vooral de foneemparen die de fonemen /S/, /s/, /Z/ en /z/ bezitten, aanwezig te zijn in de data. Een mogelijke verklaring voor een daling in de classificatiegraad veroorzaakt door deze fonemen is de kleine aanwezigheid van deze fonemen in de data. Daardoor geven ze een vals beeld over hun discriminatief vermogen en kent ANOVA een verkeerde P-waarde toe. Het classificatie-experiment werd opgezet zonder deze fonemen in de data. Figuur E.1 in bijlage, stelt het classificatieverloop voor zonder het aanwenden van de fonemen /S/, /s/, /Z/ en /z/ in de cue. Zoals de figuur aantoont is de eerste daling van de classificatiegraad weggewerkt bij de classificatierate naar woonplaats en naar opleidingsregio. De eerste daling is nog vast te stellen, zij het in mindere mate, bij de classificatiegraad naar geboorteregio. In vergelijking met de classificatie waarbij alle foneemparen worden aangewend (figuur 6.2), wordt er bij het aanwenden van een beperkt aantal foneemparen (figuur E.1) een hogere classificatierate bekomen bij alle regio s. Bij classificatie naar de regio van opleiding wordt een verbetering van meer dan 10% vastgesteld. De verbetering is 5% bij de geboorteregio en 8% bij de classificatie naar woonregio. Tabel 6.4 toont een overzicht van de resultaten naar woonregio. Het nodige aantal foneemparen om de maximale classificatierate te bekomen is kleiner dan bij de classificatie waar alle foneemparen worden gebruikt. Bij de woonregio bijvoorbeeld daalt het aantal nodige foneemparen van 720 tot

67 Suggesties en uitbreidingsmogelijkheden Geboorteregio Opleidingsregio Woonregio maximale classificatiegraad 37.8% 49.1% 51.0% aantal nodige foneemparen Tabel 6.4: Maximale classificatiegraden bij aanwenden van een beperkt aantal cues Samengevat kan uit dit experiment geconcludeerd worden dat het selecteren van de data vooraleer de classificatie aan te vatten een dubbel voordeel biedt. Een grotere classificatiegraad wordt bekomen en dit bij het aanwenden van een kleiner aantal foneemparen. Uitbreiding van de classificatiemethode door middel van de metingen van APP in het tijdsdomein van herkend foneem In hoofdstuk 3 werd het onderzoek beschreven van het tijdsverloop van het herkende foneem in het tijdsdomein. De fonemen met de dialectkarakteriserende kenmerken die in dit hoofdstuk naar voor kwamen waren /E/ versus /e/, /o/ versus /o/ en /u/ versus /o/. Ze kwamen in aanmerking om de classificatie met de handmatig gekozen cues uit te voeren. Een punt dat in het onderzoek nog niet kon uitgevoerd worden betrof het experimenteren met de metingen van APP. Bij het onderzoek van de fonemen in het tijdsdomein werd besloten drie metingen APP uit te voeren in het tijdsverloop van het herkende foneem. Namelijk, een meting APP in het eerste vierde van het tijdsdomein, een tweede meting APP in het midden en een laatste meting APP in het laatste vierde van het tijdsdomein. Het vergelijken van de meetresultaten APP per herkend foneem in tijd, kan de dialecten identificeren en diversifiëren van elkaar. In hoeverre dit experiment zou bijdragen tot de verhoging van de classificatiegraad kon tot hiertoe niet nagetrokken worden. De waarschijnlijk eenvoudigste manier om bij te dragen aan de classificatiegraad zou er in bestaan om per dialect één typisch herkend foneem uit te zoeken die een duidelijk hoger APP verloop heeft over gans het tijdsdomein. Door de informatie in de spraakherkenner te implementeren zodat het foneem direct als indicator voor het dialect fungeert wordt het dialect gedetecteerd. In het onderzoek in hoofdstuk drie biedt het foneem /E/ versus /e/ deze mogelijkheid. Een meer gecompliceerde manier om de dialecten te identificeren is per dialect het typisch APP patroon van een herkend foneem te implementeren in de spraakcomputer, dit als indicator voor het respectievelijke dialect. Het onderzoek in hoofdstuk drie wijst uit dat de foneemverlopen in de tijd van /o/ versus /o/, /u/ versus /o/ en /E/ versus /e/ over die mogelijkheid beschikken. 57

68 6. Automatische classificatie Classificatie met foneemparen met P-waarden tot 5% ANOVA selecteert de foneemparen die het meeste bijdragen tot het discrimineren van een dialect op basis van de P-waarde. Het foneempaar met de laagste P-waarde wordt eerst aangewend om de classificatie aan te vatten. Foneemparen met steeds grotere P- waarde worden achtereenvolgend toegevoegd om de classificatie uit te voeren. Aldus wordt een hogere classificatiegraad bekomen. Er wordt geconstateerd dat niet alle cues dienen aangewend te worden om tot een maximale classificatiegraad te komen (zie 6.2 en 6.3). Naar praktische toepassing van de classificatie toe zou het aanwenden van een kleiner aantal cues resulteren in tijdswinst bij het berekenen. Bij ieder foneempaar dat ANOVA toevoegt, moet immers een multivariate verdeling opgesteld worden en moet de classificatiegraad berekend worden. Door het aanwenden van een kleiner aantal cues zou het eindresultaat sneller bereikt worden en zouden de dialecten uiteindelijk sneller worden geclassificeerd. Om uit te zoeken hoeveel cues er moeten aangewend worden om de hoogste classificatiegraad te bereiken worden de P-waarden nagegaan. Ter illustratie wordt het verloop van de P-waarde per toevoeging van een foneempaar in de bijlage getoond in figuur E.2. Uit de figuur blijkt dat het aanwenden van de foneemparen met P-waarden lager dan 5% een voldoende aantal cues oplevert waarmee de maximale classificatiegraad wordt bekomen. Het toevoegen van meerdere foneemparen met grotere overschrijdingskansen blijkt niet nodig te zijn. De classificatiegraad resulteert met een groter aantal cues in een daling. Door in de spraakherkenner een stopcriterium te implementeren die aangeeft dat de classificatie enkel moet gebeuren met foneemparen met P-waarden kleiner dan 5 procent, zou overbodig rekenwerk en tijd om tot een classificatie van de dialecten te komen, vermeden worden. Het algoritme zou kunnen stoppen wanneer de P-waarde van 5% is overschreden. Een andere stopcriterium zou kunnen zijn: als de classificatiegraad niet verder stijgt, wordt de procedure gestopt. 58

69 Hoofdstuk 7 Algemeen Besluit Het doel van dit eindwerk is bij te dragen tot de ontwikkeling van een automatische classificator van dialecten. De studie onderzoekt de fonemische variaties in de Vlaamse taalvarianten van het Standaardnederlands. De dialecten worden geclassificeerd op basis van de resultaten van een spraakherkenner, namelijk de a posteriori probabiliteit waarmee vocalisatiesignalen worden herkend door elk van de 38 mogelijke foneemhypothesen. Om een inzicht te krijgen in het fysische aspect van de akoestische fonetiek werden de spraakperceptie en de foneemvorming bestudeerd in een literatuurstudie. Fonemen worden door de sprekers van eenzelfde regio met een gelijke variatie ten opzichte van het Standaardnederlands uitgesproken. De uitgesproken fonemen worden ook als een ander foneem herkend door de spraakherkenner. In het experimentele deel van het eindwerk werd in eerste instantie onderzoek uitgevoerd naar typische fonemen waaraan een dialect kan worden herkend. Om een beeld te krijgen van het discriminerend karakter van de fonemen werden drie onderzoeken verricht op basis van a posteriori probabiliteit. De CoGeN data werd hiervoor aangewend. In een eerste analyse werd het verband van het herkende foneem met het uitgesproken foneem geanalyseerd. Per uitgesproken foneem komen er verschillende herkende fonemen in aanmerking naargelang het dialect. /I/ versus /i/ opent de mogelijkheid om de dialecten in twee clusters te onderscheiden. De ene cluster bevat het Antwerps en het Brabants, de andere bevat het West-Vlaams, Oost-Vlaams en Limburgs. Binnen de eerste cluster kan het Antwerps met /E/ versus /e/ worden aangeduid, het Brabants met /O+/ versus /a/. Binnen de tweede cluster is het fonemenpaar /G/ versus /h/ kenmerkend voor het West-Vlaams, /O+/ versus /o/ voor het Oost-Vlaams en /o/ versus /u/ voor het Limburgs. In een tweede analyse werd het verloop van APP in het tijdsdomein van /E/ versus /e/, /o/ versus /o/ en /u/ versus /o/ nagegaan. Er is per provincietaal een specifiek patroon te zien bij het foneemverloop in het tijdsdomein. Dit patroon nauwkeurig bepalen kan 59

70 7. Algemeen Besluit leiden tot een juiste classificatie van de spreker door metingen van APP uit te voeren in het tijdsdomein. Het principe van onderling vergelijken van de posities APP van de dialecten werd per meetpunt en vervolgens over de meetpunten vergeleken. In een derde analyse werd de distributie van de fonemen in de regiotaal behandeld. Door het opstellen van histogrammen die de sprekersfracties aangeven van het herkend foneem - uitgesproken foneem kunnen de foneemparen aangeduid worden die een discriminerend karakter hebben voor de dialecten. De foneemparen vormden de cues om de dialecten te classificeren. In tweede instantie werd onderzoek uitgevoerd naar de classificaties. Om het discriminerend karakter van de cues /I/ versus /i/, /E/ versus /e/, /G/ versus /h/, /o/ versus /o/, /u/ versus /o/, en /o/ versus /u/ na te gaan, werd een classificatie uitgevoerd op de CGN database. Het classificatiepercentage naar woonregio toe bedraagt 35.9 procent. Voor de classificatiegraad naar geboorteregio werd 34 procent vastgesteld. De classificatie met betrekking tot de regio van opleiding bedraagt 30.2 procent. Er werd vastgesteld dat de volgorde van het aanwenden van de verschillende foneemcombinaties een rol speelt in de mate waarin de classificatiegraad stijgt. Daarnaast werd vastgesteld dat de totale classificatiegraad na het aanwenden van dezelfde foneemparen gelijk blijft. Bij een tweede automatische classificatie werd het discriminerend karakter van de cues nagegaan door toepassing van ANOVA op de APP. De classificatie naar woonregio was opnieuw het meest doeltreffend, namelijk 47.2 procent (190 cues). De percentages bedragen 39.7 procent (245 cues) bij de classificatie naar de regio van opleiding en 35.8 procent (163 cues) bij classificatie naar geboorteregio. Graag had ik experimenten uitgevoerd met metingen van APP in het tijdsdomein om het effect na te gaan op de classificatiegraad. Jammer genoeg ontbrak het hiervoor aan tijd. De bedoeling was om cues met een typisch verloop van APP uit de zoeken en dit verloop in het classificatiemodel te implementeren. In dit verband werd van de fonemen /o/ versus /o/, /u/ versus /o/ en /E/ versus /e/ veel verwacht. Een volgende bedenking heeft betrekking op het selecteren van de data. Een experiment wees uit dat het verwijderen van foneemparen bestaande uit fonemen die zwak vertegenwoordigd zijn in de data, een dubbel voordeel biedt. Een grotere classificatiegraad werd bekomen bij het aanwenden van een kleiner aantal foneemparen. Een derde bedenking houdt verband met het implementeren van stopcriteria bij de classificatie. Niet alle fonemen dienen aangewend te worden om de maximale classificatiegraad te behalen. Een algoritme implementeren die aangeeft dat de classificatie enkel moet gebeuren met foneemparen met P-waarden kleiner dan 5 procent zorgt voor een vermindering van de rekentijd. Het classificeren zou kunnen stoppen wanneer de P-waarde van 5% overschreden is. Een alternatief is een stopcriterium die de classificatieprocedure stopt als de classificatiegraad niet verder stijgt. Algemeen kan gesteld worden dat de geautomatiseerde methode statistisch significante resultaten levert bij classificatie van de Vlaamse taalvarianten van het Standaardnederlands. 60

71 Bibliografie [1] G. J. Borden, K. S. Harris, and L. J. Raphael, Speech science primer: physiology, acoustics, and perception of speech. Philadelphia: Wilkins, 2003, no. ISBN: X. [2] J. Ryalls, A basic introduction to speech perception. San Diego, California: Singular publ. group, 1996, no. ISBN: [3] D. B. Pisoni and R. E. Remez, The handbook of speech perception. Oxford: Blackwell, 2005, no. ISBN: [4] D. V. Compernolle, Spoken language: science and technology. [5] De spraakorganen en de productie van elementaire spraakgeluiden. [Online]. Available: [6] [Online]. Available: [7] M. Devos and R. Vandekerckhove, West-Vlaams. Tielt: Lannoo, 2005, no. ISBN: [8] J. Taeldeman, Oost-Vlaams. Tielt: Lannoo, 2005, no. ISBN: [9] M. Ooms and J. V. Keymeulen, Vlaams-Brabants en Antwerps. Tielt: Lannoo, 2005, no. ISBN: [10] R. Belemans and R. Keulen, Belgisch-Limburgs. Tielt: Lannoo, 2004, no. ISBN: [11] X. Huang, A. Acero, and H.-W. Hon, Spoken language processing: a guide to theory, algorithm and system development. Upper Saddle River: Prentice Hall, 2001, no. ISBN: [12] F. Englert, Automatische segmentation von Sprachsignalen. Hector, [13] Bevolking per provincie. [Online]. Available: http: //aps.vlaanderen.be/statistiek/cijfers/demografie/1 Bevolking/2 Provincies/ Bevolking-prov001 (bevolking per provincie-vg).xls [14] W. J. Hardcastle and N. Hewlett, Coarticulation : theory, data, and techniques. Cambridge: Cambridge University press, 1999, no. ISBN: [15] A. Marchal and E. Farnetani, Coarticulation. Kingston,

72 Bibliografie [16] Klankinventaris van het nederlands. [Online]. Available: wiki/klankinventaris van het Nederlands [17] K. re Sjölander, Automatic alignment of phonetic segments. Centre for Speech Technology, Dept. of Speech, Music, and Hearing, Lund University, [18] A. Aasa, G. Bruce, O. Engstrand, A. Eriksson, M. Segerup, E. Strangert, and I. Thelander, Collecting dialect data and making use of them: an interim report. University of Skövde, [19] P. Congdon, Bayesian statistical modelling. Chichester: Wiley, 2006, no. ISBN: [20] R. Swinburne, Bayes s Theorem. Oxford: Oxford University, 2002, no. ISBN: [21] C. Huang, T. Chen, J. Zhou, S. Li, and E. Chang, Analysis of Speaker Variablility. Beijing Sigma Center, 49, Zhichun Road Haidian District: Department of Automation, Tsinghua University, [22] A. B. Krishna and S. N. Lahiri, Measure theory and probability theory. New York: Springer, 2006, no. ISBN: X. [23] J. A. Rice, Mathematical statistics and data analysis. Belmont: Thomson, 2007, no. ISBN: [24] Algemene inleiding: Statistiek. [Online]. Available: sda/ siv/algemene%20inleiding.pdf [25] G. W. Cobb, Introduction to design and analysis of experiments. Springer, [26] D. R. Shupe, Inferential statistics: an introduction to the analysis of variance. McGraw Hill, [27] L. Delbeke, Variantie-analyse: ANOVA. Leuven: ACCO, 2003, no. ISBN: X. [28] G. M. Rupert, Beyond ANOVA, basics of applied statistics. New York: Wiley, 1986, no. ISBN:

73 Bijlage A Aanvullende figuren bij hoofdstuk 1 Figuur A.1: De akoestische klinkerdriehoek (12 klinkers) 1

74 A. Aanvullende figuren bij hoofdstuk 1 Figuur A.2: Articulatie en vocalisatie van fonemen 2

75 Bijlage B Aanvullende figuren bij hoofdstuk 2 Figuur B.1: Vlaanderen Gemiddelde APP per foneem, uitgesproken door sprekers uit West- 3

76 B. Aanvullende figuren bij hoofdstuk 2 Figuur B.2: Vlaanderen Gemiddelde APP per foneem, uitgesproken door sprekers uit Oost- Figuur B.3: Gemiddelde APP per foneem, uitgesproken door sprekers uit Antwerpen 4

77 Figuur B.4: Gemiddelde APP per foneem, uitgesproken door sprekers uit Brabant Figuur B.5: Gemiddelde APP per foneem, uitgesproken door sprekers uit Limburg 5

78 Bijlage C Aanvullende figuren bij hoofdstuk 3 Figuur C.1: Histogram voor foneem /E/ bij uitspraak /E/ met probabiliteitsinterval 10% 6

79 Figuur C.2: Histogram voor foneem /I/ bij uitspraak /I/ met probabiliteitsinterval 10% Figuur C.3: Histogram voor foneem /G/ bij uitspraak /G/ met probabiliteitsinterval 10% 7

80 C. Aanvullende figuren bij hoofdstuk 3 Figuur C.4: Histogram voor foneem /o/ bij uitspraak /o/ met probabiliteitsinterval 10% 8

Nog meer weergeven