Automatische Dialectdetectie Vergelijking en Classificatie van Dialecten

Maat: px
Weergave met pagina beginnen:

Download "Automatische Dialectdetectie Vergelijking en Classificatie van Dialecten"

Transcriptie

1 Faculteit Ingenieurswetenschappen Departement Elektrotechniek ESAT KATHOLIEKE UNIVERSITEIT LEUVEN Automatische Dialectdetectie Vergelijking en Classificatie van Dialecten Eindwerk voorgedragen tot het behalen van het diploma van Burgerlijk werktuigkundigelektrotechnisch ingenieur, richting elektrotechniek, optie dataverwerking & optimalisatie Marijn Maenhoudt Promotor: Prof. Dr. Van Compernolle Dagelijkse begeleiding: Tingyao Wu Jacques Duchateau

2 c Copyright by K.U.Leuven Zonder voorafgaande schriftelijke toestemming van zowel de promotor(en) als de auteur(s) is overnemen, kopiëren, gebruiken of realiseren van deze uitgave of gedeelten ervan verboden. Voor aanvragen tot of informatie i.v.m. het overnemen en/of gebruik en/of realisatie van gedeelten uit deze publicatie, wendt U tot de K.U.Leuven, Departement Elektrotechniek ESAT, Kasteelpark Arenberg 10, B-3001 Heverlee (België). Telefoon & Fax of via info@esat.kuleuven.be. Voorafgaande schriftelijke toestemming van de promotor(en) is eveneens vereist voor het aanwenden van de in dit afstudeerwerk beschreven (originele) methoden, producten, schakelingen en programma s voor industrieel of commercieel nut en voor de inzending van deze publicatie ter deelname aan wetenschappelijke prijzen of wedstrijden. c Copyright by K.U.Leuven Without written permission of the promotors and the authors it is forbidden to reproduce or adapt in any form or by any means any part of this publication. Requests for obtaining the right to reproduce or utilize parts of this publication should be addressed to K.U.Leuven, Departement Elektrotechniek ESAT, Kasteelpark Arenberg 10, B-3001 Heverlee (Belgium). Tel & Fax or by info@esat.kuleuven.be. A written permission of the promotor is also required to use the methods, products, schematics and programs described in this work for industrial or commercial use, and for submitting this publication in scientific contests. i

3 Voorwoord Graag had ik bij de aanvang van dit eindwerk iedereen willen bedanken die mij geholpen heeft bij het realiseren van mijn thesis. Velen maakten dit werk lichter en verdienen daarom wel een speciale vermelding. Dankzij mijn promotor Prof. Dirk Van Compernolle kon ik even meewerken aan de fascinerende wereld van de spraakherkenning. Ik wil hem danken voor zijn blijken van interesse die voor mij een steun in de rug waren. Maar zonder de adequate opvolging van mijn begeleiders, ir. Tingyao Wu en ir. Jacques Duchateau, was dit werk niet mogelijk geweest. Ik wil ir. Jacques Duchateau danken voor de opbouwende opmerkingen en het kritisch nalezen van de teksten. Het bleek steeds bij te dragen tot een stap in de goede richting. Mijn speciale dank wil ik ook richten tot ir. Tinguao Wu voor zijn coachende interesse en het bijwonen van de vergaderingen. Ik dank ook alle mensen van ESAT voor hun bijdrage en steun in de uitvoering van dit project. ii

4 Abstract Het doel van dit eindwerk is bij te dragen tot de ontwikkeling van een automatische classificator van dialecten. De studie onderzoekt de fonemische variaties in de Vlaamse taalvarianten van het Standaardnederlands. De dialecten worden geclassificeerd op basis van de resultaten van een spraakherkenner, namelijk de probabiliteiten waarmee de vocalisatiesignalen worden verklaard door elk van de 38 mogelijke foneemhypothesen. In eerste instantie worden de foneemvariaties in de regionale talen vanuit drie invalshoeken bestudeerd. In een eerste analyse wordt het verband van het herkende foneem met het uitgesproken foneem onderzocht. Daarna wordt het verloop van het herkende foneem in het tijdsdomein geanalyseerd. Een derde onderzoek behandelt de distributie van de fonemen in de regiotaal. Voor deze onderzoeken wordt de CoGeN database ter beschikking gesteld. De foneemparen die de meeste indicatie voor de dialecten bevatten zijn: /I/ versus /i/ om het Antwerps en Brabants te scheiden, /E/ versus /e/ is bruikbaar om het Antwerps te indiceren, /G/ versus /h/ om het West-Vlaams te classificeren, /o/ versus /o/ is geschikt om het Oost-Vlaams aan te duiden en /u/ versus /o/ om het Antwerps en Limburgs te onderscheiden. In tweede instantie worden de classificaties uitgevoerd op de CGN database. Een eerste classificatie naar geboorteregio, woonregio en regio van opleiding gebeurt door middel van zes handmatig gekozen cues. Het classificatiepercentage naar woonregio toe bedraagt 35.9 procent. Voor de classificatiegraad naar geboorteregio is 34 procent vastgesteld. De classificatie met betrekking tot de regio van opleiding bedraagt 30.2 procent. Om te komen tot een tweede automatische classificatie wordt het discriminerend karakter van de foneemparen uitgesproken foneem - herkend foneem nagegaan door toepassing van een ANOVA op de a posteriori probabiliteiten. Daarnaast wordt nagegaan hoeveel cues volstaan om de hoogste classificatiegraden te bekomen. De geautomatiseerde methode levert statistisch significante resultaten bij classificatie van de Vlaamse taalvarianten van het Standaardnederlands. De classificatie naar woonregio is opnieuw het meest doeltreffend, namelijk 47.2 procent (met 190 cues). Het percentage bedraagt 39.7 procent bij de classificatie naar de regio van opleiding (met 245 cues) en 35.8 procent bij classificatie naar geboorteregio (met 163 cues). iii

5 Lijst van afkortingen en symbolen APP a posteriori probabiliteit/probabiliteiten CoGeN Corpus Gesproken Nederlands, dataset 1 W West-Vlaanderen O Oost-Vlaanderen A Antwerpen B Brabant L Limburg khz kilohertz VTLN Vocal Tract Length Normalisation HMM Hidden Markov Model ω gekend fonetisch segment CGN Corpus Gesproken Nederlands, dataset 2 max maximum µ d gemiddelde van de logaritme van a posteriori probabiliteiten van dialect d µ t gemiddelde van de logaritme van a posteriori probabiliteiten van testspreker t Q-Q-plot normaalkwantielplot ANOVA Analysis of Variance P-waarde overschrijdingskans MSE Mean Square Error MSB Mean Square Between SST Total Sum of Squares SSE Error Sum of Squares SSB Between Sum of Squares iv

6 Inhoudsopgave Voorwoord iii Abstract iv Lijst van afkortingen en symbolen v Inhoudsopgave vi Lijst van figuren viii Lijst van tabellen x 1 Algemene Inleiding Spraak Dialectherkenning door foneemanalyse Doel van het eindwerk Verband herkend foneem met uitgesproken foneem Verwerking van de data Invloed van factoren in de dataverwerking Foneemselectie op basis van a posteriori probabiliteiten Conclusie Verschillen in tijdsdomein Opstellen van het tijdsverloop op basis van a posteriori probabiliteiten Resultaten van de tijdsverlopen Conclusie Distributie Opstellen van de histogrammen op basis van de a posteriori probabiliteit Resultaten van de histogrammen Conclusie Classificatie op basis van handmatig gekozen cues Doel van de classificatie Transformatie van de data Classificatie Resultaten Conclusie Automatische classificatie ANOVA Automatische classificatiemethode Resultaten Conclusie Suggesties en uitbreidingsmogelijkheden Algemeen Besluit 59 Bibliografie 61 v

7 A Aanvullende figuren bij hoofdstuk 1 1 B Aanvullende figuren bij hoofdstuk 2 3 C Aanvullende figuren bij hoofdstuk 3 6 D Aanvullende figuren bij hoofdstuk 5 9 E Aanvullende figuren bij hoofdstuk 6 10 vi

8 Lijst van figuren 2.1 Foneem /G/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Foneem /G/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies Foneem /E/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Foneem /E/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies Foneem /o/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Foneem /o/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies Foneem /I/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Foneem /I/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies Foneem /O+/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Foneem /O+/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies Tijdsverloop van de APP voor foneempaar /E/ - /e/ Tijdsverloop van APP voor foneempaar /u/ - /o/ Tijdsverloop van APP voor foneempaar /o/ - /o/ Histogram voor foneemcombinatie /E/ - /E/ Histogram voor foneemcobinatie /E/ - /e/ Histogram voor foneemcombinatie /G/ - /G/ Histogram voor foneemcobinatie /G/ - /h/ Histogram voor foneemcobinatie /I/ - /I/ Histogram voor foneemcombinatie /I/ - /i/ Histogram voor foneemcombinatie /o/ - /u/ Histogram voor foneemcombinatie /o/ - /o/ Histogram voor foneemcombinatie /O+/ - /o/ Histogram voor foneemcombinatie /O+/ - /O+/ Histogram voor foneemcombinatie /O+/ - /a/ Normaalkwantielplot bij uitgesproken foneem /E/ - herkend foneem /E/ Classificatiegraden van geboorteregio bij aanwenden van eerste set fonemen Classificatiegraden van geboorteregio bij aanwenden van tweede set fonemen Boxplot voor uitgesproken foneem /I/ - herkend foneem /i/ Classificatiegraden waarbij P-waarden berekend zijn met CGN-data Classificatiegraden waarbij de P-waarde berekend zijn met de CoGeN-data. 54 vii

9 A.1 De akoestische klinkerdriehoek (12 klinkers) A.2 Articulatie en vocalisatie van fonemen B.1 Gemiddelde APP per foneem, uitgesproken door sprekers uit West-Vlaanderen 3 B.2 Gemiddelde APP per foneem, uitgesproken door sprekers uit Oost-Vlaanderen 4 B.3 Gemiddelde APP per foneem, uitgesproken door sprekers uit Antwerpen.. 4 B.4 Gemiddelde APP per foneem, uitgesproken door sprekers uit Brabant B.5 Gemiddelde APP per foneem, uitgesproken door sprekers uit Limburg C.1 Histogram voor foneem /E/ bij uitspraak /E/ met probabiliteitsinterval 10% 6 C.2 Histogram voor foneem /I/ bij uitspraak /I/ met probabiliteitsinterval 10%. 7 C.3 Histogram voor foneem /G/ bij uitspraak /G/ met probabiliteitsinterval 10% 7 C.4 Histogram voor foneem /o/ bij uitspraak /o/ met probabiliteitsinterval 10% 8 D.1 Normaalkwantielplot bij uitgesproken foneem /I/ - herkend foneem /i/... 9 E.1 Classificatiegraden bij eliminatie van /s/, /z/, /S/ en /Z/ E.2 Het verloop van overschrijdingskans per toegevoegd foneem, alle cues viii

10 Lijst van tabellen 1.1 De fonetische notatie van de klinkers De fonetische notatie van de medeklinkers Aantal inwoners per regio Dialectbepalende fonemen Overzicht van de indicerende fonemen per provincie Resultaten van het foneemverloop van /E/ - /e/ in het tijdsdomein Discriminatief vermogen op basis van het histogram Classificatiegraden bij Bayesiaanse classificatie bij gebruik van zes foneemparen De populatievarianties voor uitgesproken foneem /E/ - herkend foneem /E/ Maximale classificatiegraad bij berekening P-waarden met CGN-data Maximale classificatiegraad bij berekening P-waarde met CoGeN-data Maximale classificatiegraden bij aanwenden van een beperkt aantal cues ix

11 Hoofdstuk 1 Algemene Inleiding Spraak is intuïtief en drukt een stempel op elke persoon. Iedereen praat tenslotte op een andere manier. In spraak zit er heel wat variatie: naargelang de woonplaats hebben hele groepen mensen hun eigen taal, de dialecten. Het accent van de sprekers laat de afkomst van de sprekers vermoeden. De regionale taalvariaties kunnen met een akoestisch model uit een spraakherkenner worden herkend. Het doel van dit eindwerk is de dialecten automatisch te classificeren. In dit eerste hoofdstuk worden in een algemene inleiding de fonemische aspecten van de spraak en van de dialectherkenning door foneemanalyse beschreven. Daarna wordt het beoogde doel van het eindwerk om een automatische classificator voor de dialecten te ontwikkelen, nader toegelicht. 1.1 Spraak Spraakperceptie Intermenselijke communicatie door middel van gesproken taal gebeurt door het uiten van een gestructureerd geheel van spraakklanken [1] [2]. Fysiologisch gezien is spraak het resultaat van de luchtstroom uit de longen die door de spieren van de borstkas en het middenrif langs het strottenhoofd en de stembanden wordt gevoerd. De lucht doet de stembanden periodiek trillen en er ontstaat klank. De luchtstroom komt vervolgens in de keel-, mond- en neusholte. Deze fungeren als resonantieruimte waarin tong, lippen, huig, verhemelte en onderkaak in allerlei standen worden gebracht en er uiteindelijk op verfijnde manieren verschillende klanken worden geproduceerd. De lippen en de tong bepalen daarnaast de vocalisatie en articulatie van de uitspraak [3]. Bij het produceren van een klinker of vocaal heeft de luchtstroom, nadat die de stembanden in trilling heeft gebracht, vrije doorgang doorheen de mondholte. Het is vooral de vorm van de mondholte en de positie van de tong die de klinkers karakteriseert. Dit 1

12 1. Algemene Inleiding systeem van resonatoren werkt als een akoestische filter voor het basisgeluid. Bepaalde delen van het spectrum worden goed doorgelaten en andere minder. De gebieden in het spectrum waar de maxima zich bevinden heten formanten, met F1 als laagste formantfrequentie, vervolgens F2, F3, etc. Naarmate de grondtoon in het basisgeluid lager is, liggen de boventonen in het spectrum dichter bij elkaar en zijn de formanten beter gedefinieerd. Men kan de indeling van de klinkers visualiseren door voor elke klinker de formantfrequenties F1 en F2 uit te zetten in een grafiek, met langs de horizontale as de F2 en langs de verticale as de F1 [4]. Men krijgt dan de klinkerdriehoek, zoals te zien is in de bijlage in figuur A.1 voor 12 Nederlandse klinkers [5]. De vorming van de medeklinkers vertrekt vanaf een ruisachtig bronsignaal. Ze worden stemhebbend door een koppeling met een erop volgende klinker, zoals de /b/ in boot. Het breedbandige en niet-periodieke bronsignaal wordt, net zoals bij de vorming van de klinkers, spectraal en temporeel gemodelleerd door de mond-, keel-, en neusholte. Bij het produceren van een medeklinker of consonant ondervindt de luchtstroom op zijn weg wel een invloed van de lippen en de tong. Het verschil tussen enerzijds de /f/ en de /p/ en anderzijds de /s/ en de /t/ komt grotendeels tot stand doordat in het eerste geval een vernauwing wordt aangebracht in de mondopening terwijl in het tweede geval de vernauwing iets meer naar achteren tot stand komt. Bij de /x/ en de /k/ bevindt de vernauwing zich het meest naar achteren. Bij de plofklanken /p/, /t/ en /k/ ontstaat er een luchtophoping ter hoogte van de lippen ten gevolge van een volledige afsluiting van de lippen. De spraakorganen van de mens zijn in staat om meer dan 80 onderscheidbare klanken te produceren. Afzonderlijke talen bedienen zich veeleer van een beperkt aantal eigen spraakklanken en fonemen. Figuur A.2 in de bijlage geeft een beeld van de plaats van articulatie en vocalisatie van enkele fonemen [6]. Fonemen Fonemen zijn de kleinste betekenisvolle eenheid die binnen spraak in een bepaalde taal te onderscheiden zijn. Het Standaardnederlands bevat 38 fonemen. Zo bijvoorbeeld bestaat het woord goed uit drie fonemen: /x/, /u/ en /t/. Fonemen verlenen aan een woord een strikt bepaalde vorm en een bepaalde betekenis. Verandert men een foneem in een woord, dan vervalt de oorspronkelijke vorm en betekenis van dit woord. Men verkrijgt dan ofwel een andere betekenis van het woord of een nieuw woord dat voor de taal irrelevant is. Bijvoorbeeld, verandert men het foneem /p/ in peer door het foneem /b/, dan krijgt men het woord beer, die een andere vorm en betekenis heeft. De fonemen worden genoteerd als /klinker/ en /medeklinker/. Tabel 1.1 geeft de symbolen weer die in deze thesis gebruikt worden voor de klinkers en tabel 1.2 geeft de symbolen weer voor de medeklinkers. 2

13 Dialectherkenning door foneemanalyse /I/ Pit /E/ werd /A/ man /O/ bot /Y/ zus het /i/ biet /e/ beer /a/ maand /o/ boot /y/ duur /u/ deur /&/ keuze /E+/ tijd /O+/ lauw buiten Tabel 1.1: De fonetische notatie van de klinkers /p/ peer /b/ boek /t/ taal /d/ deur /k/ kaal /g/ garçon /f/ f ris /v/ vier /x/ lachen /G/ dagen /h/ hotel /m/ metro /n/ maand /N/ dingen /l/ later /r/ raam /w/ week /j/ jeugd /s/ spraak /z/ zeven /S/ sjaal /Z/ garage Tabel 1.2: De fonetische notatie van de medeklinkers Allofonen Eenzelfde foneem kan op verschillende manieren uitgesproken worden zonder te resulteren in de uitspraak van een ander foneem. De uitspraakvariaties van een foneem worden allofonen genoemd. Het foneem /r/ bijvoorbeeld kan op verschillende manieren gerealiseerd worden: als huig-/r/ achteraan de keel of als tong-/r/ vooraan in de mond. Naargelang de articulatiewijze en -plaats van de tong wordt er een variant van /r/ geproduceerd. Toch wordt hetzelfde foneem /r/ beschouwd. De verschillende realisatiewijzen kunnen niet fungeren als een variatie in foneem. Door de variatie in de uitspraak ontstaat er geen woord met een andere vorm en betekenis. De huig-/r/ en tong-/r/ zijn allofonen. 1.2 Dialectherkenning door foneemanalyse Sprekers van eenzelfde regio articuleren op een gelijkaardige manier en identificeren daarmee hun afkomst. De uitspraakvariatie is zelfs op te merken bij uitspraak in het Standaardnederlands. Ten opzichte van de standaardtaal worden de fonemen op een variërende articulatiemanier en een variërende plaats in de mond- en keelholte geproduceerd en uitgesproken. Er ontstaan uitspraakverschillen, taalvariaties van het Standaardnederlands. Een van de belangrijkste eigenschappen van accentverschillen is dat zij voor een paar klanken in een regiotaal absoluut aanwezig zijn maar eveneens voor de meerderheid van klanken verwaarloosbaar zijn. Niet alle fonemen veranderen onder de invloed van een accent en bepaalde fonemen veranderen slechts in bepaalde regionale gebieden. Bij het luisteren naar de sprekers vallen vooral de verschillende realisaties van de vocalen op. Er worden vijf grote regionale accenten, overeenkomend met de vijf provincies in Vlaanderen, bestudeerd aan de hand van de fonemen. Deze accenten zijn het West-Vlaamse [7], Oost-Vlaamse [8], Antwerpse, Brabantse [9] en Limburgse [10] dialect. Om in de eerste instantie de klankvariaties te identificeren die horen bij een bepaald dialect en daarop verder in tweede instantie het dialect te classificeren via deze klankvariaties 3

14 1. Algemene Inleiding wordt onderzoek verricht naar de dialectkarakteristieke kenmerken in het geluidssignaal. De bepaalde fonemen die in de gesproken dialecttaal variërend worden uitgesproken ten opzichte van het Standaardnederlands worden opgespoord. 1.3 Doel van het eindwerk Het algemeen doel van dit eindwerk is bij te dragen aan de ontwikkeling van een automatische classificator voor dialecten. Meer bepaald de regionale uitspraakvarianten van het Standaardnederlands in de vijf Vlaamse provincies moeten geclassificeerd worden. De diversiteit in de dialecten, met name de manier waarin de fonemen in de regiotaal verschillen, worden gecodeerd. Er wordt onderzocht of de bestaande akoestische modellen uit een spraakherkenner geschikt zijn voor dialectclassificatie. Het akoestisch model laat toe de spraaksignalen te analyseren en voor elk uitgesproken foneem de probabiliteit uit te rekenen dat het vocalisatiesignaal verklaard wordt door elk van de 38 mogelijke foneemhypothesen. Elk foneem kan dan voorgesteld worden in deze probabiliteitenruimte waarin men betekenisvolle afstanden kan vormen tussen de verschillende fonemen in taal. Er wordt verwacht dat de bekomen cues aanleiding zullen geven tot betere en eenvoudigere classificatoren dan de akoestische kenmerken zelf waarop ze gebaseerd zijn. In eerste instantie wordt het onderzoek gericht op de bepaling van typische fonemen die een dialect karakteriseren. De taalvarianten van het Standaardnederlands worden met a posteriori probabiliteiten (APP) vanuit drie invalshoeken bestudeerd. In een eerste onderzoek worden de verbanden tussen het uitgesproken foneem en het herkend foneem in de regionale talen opgespoord. Daarna wordt het onderzoek van het verloop van de APP van het herkend foneem verricht in het tijdsdomein. een derde onderzoek behandelt de distributie van de fonemen in de regiotaal. Zowel de classificatie op basis van handmatig gekozen cues als de automatische classificatie door de toepassing van ANOVA worden uitgevoerd. De vraag of de automatische classificatie van de dialecten op basis van APP met een spraakherkenner uitgevoerd kan worden, wordt beantwoord. De thesis is ingedeeld in zes hoofdstukken. In dit hoofdstuk werden de fonemische aspecten van de spraak en van de dialectherkenning door foneemanalyse beschreven. Daarna werd het doel van het eindwerk om een automatische classificator voor de dialecten te ontwikkelen, nader toegelicht. Het tweede hoofdstuk beschrijft de methode die de verschillen tussen het uitgesproken foneem en het herkend foneem onderzoekt. Het derde hoofdstuk beschrijft het onderzoek van het verloop van het herkend foneem in het tijdsdomein. Het vierde hoofdstuk behandelt de distributie van de fonemen in de regiotalen. Het vijfde hoofdstuk beschrijft de uitvoering van de classificatie van de dialecten op basis van handmatig gekozen cues. In het zesde hoofdstuk wordt de automatische classificatie door toepassing van ANOVA uitgevoerd. Het laatste hoofdstuk sluit de thesis af met een algemeen besluit. 4

15 Hoofdstuk 2 Verband herkend foneem met uitgesproken foneem In het voorgaande hoofdstuk werd een algemene introductie gegeven over de spraakperceptie en werd er ingegaan op de vorming van de Nederlandse fonemen en allofonen. Fonemen worden door sprekers van eenzelfde regio variërend uitgesproken, zelfs bij uitspraak in het Standaardnederlands. Het accent van de sprekers laat de afkomst van de sprekers vermoeden. In accentverschillen veranderen niet alle fonemen onder de invloed van een accent en bepaalde fonemen veranderen slechts in bepaalde dialectgebieden. In dit hoofdstuk richt het onderzoek zich op de vergelijking van de APP die bekomen worden bij de herkenning van een foneem als gevolg van een uitgesproken foneem. In de beschrijving van het onderzoek wordt in 2.1 de verwerking van de data besproken. De invloed van factoren in de dataverwerking wordt in 2.2 bediscussieerd. Daarna wordt in 2.3 de aangewende methode beschreven om de fonemen op te sporen en worden de fonemen geselecteerd die de klankvariatie in een dialect bepalen. 2.1 Verwerking van de data De data gevormd door sprekers van de provincies West-Vlaanderen, Oost-Vlaanderen, Antwerpen, Brabant en Limburg wordt in de spraakherkenner geïntroduceerd. Het door de spraakherkenner herkende foneem wordt vergeleken met het ingesproken foneem aan de hand van de APP. De resultaten geven de kans weer dat het klanksignaal wordt herkend door elk van de 40 1 mogelijke foneemhypothesen. Aan de hand van de resultaten worden de fonemen bepaald die instaan voor de regionale accenten van de vijf provincies in Vlaanderen. 1 De 40 foneemhypothesen bestaan uit de 38 fonemen aanwezig in de nederlandse taal, aangevuld met 2 extra fonemen om stilte en ruis voor te stellen (/*/ en /#/ respectievelijk) 5

16 2. Verband herkend foneem met uitgesproken foneem Experimenteel kader De spraakherkenner en het gegevensbestand die in het onderzoek aangewend worden, werden in Esat te Leuven ter beschikking gesteld. Het herkenningssysteem is een automatische akoestische spraakherkenner gebaseerd op Hidden Markov Models. Het model rekent voor elk uitgesproken foneem de a posteriori kansen uit. Alle experimenten worden uitgevoerd op het gegevensbestand CoGeN 2 en bevat spontane spraak van 174 sprekers uit Vlaanderen waaronder 101 mannen. Aan de sprekers wordt gevraagd Nederlandstalige tekst uit te spreken, daarbij geen dialectische woorden te gebruiken noch overdreven Standaardnederlands te praten. Er wordt geacht dat in de uitspraak van de teksten voldoende regionale accenten uit de vijf Vlaamse provincies aanwezig zijn. Verwerking De data uit de provincies West-Vlaanderen en Oost-Vlaanderen werd verzameld door de Rijksuniversiteit Gent. De data uit de provincies Antwerpen, Brabant en Limburg werd door de Katholieke Universiteit Leuven gecollectioneerd. De verwerking van de data verloopt in de volgende stappen [11]: Elke testpersoon leest op een spontane wijze ongeveer drie minuten tekst voor in het Nederlands. Alle teksten verschillen van elkaar. De uitspraak wordt opgenomen met opname-apparatuur en gedigitaliseerd De data wordt geïntroduceerd in de spraakherkenner. Elk uitgesproken woord wordt automatisch opgesplitst in fonemen [12]. De APP dat het uitgesproken foneem overeenkomt met één van de 38 fonemen wordt voor elk Nederlands foneem berekend Met deze resultaten wordt het onderzoek aangevat. Vooraleer het onderzoek verder te beschrijven, worden enkele aspecten die op de resultaten inwerken in 2.2 bediscussieerd. 2.2 Invloed van factoren in de dataverwerking In het volgende deel wordt er voornamelijk gekeken naar de aspecten die in de praktische toepassing een rol spelen. De verschillende omstandigheden in het onderzoek worden nader belicht. 2 CoGeN staat voor Corpus Gesproken Nederlands en dient als basis voor de ontwikkeling van spraaktechnologische toepassingen 6

17 Invloed van factoren in de dataverwerking Representatie van de sprekers De data werd door 174 sprekers ingesproken. Er wordt geacht dat iedere provincie op eenzelfde basis vertegenwoordigd is door eenzelfde aantal sprekers. Er zijn dus gemiddeld 34 3 sprekers per provincie. Vraag is of elk van de 34 personen wel representatief is voor zijn dialect. Vooreerst telde Vlaanderen in 2006 een totaal van inwoners. Tabel 2.1 [13] toont het aantal inwoners per regio. regio aantal inwoners W O A B L Vlaanderen Tabel 2.1: Aantal inwoners per regio Daarnaast is de mens mobieler geworden, zowel in zijn woon- en werkverkeer als in zijn vrije tijd. Aldus worden gedeeltelijk en onbewust andere spraakinvloeden overgenomen. Zo heeft bijvoorbeeld een inwoner van West-Vlaanderen die lange tijd in Brabant heeft verbleven wellicht invloeden van het Brabants overgenomen. Verder wordt verondersteld dat elke spreker een gelijke bijdrage heeft tot het dialect. In werkelijkheid is dat niet zo. Mens én taal zijn mobieler geworden. Een student uit West-Vlaanderen bijvoorbeeld die in Gent studeert, heeft een grotere kans om nog meer invloed van het West-Vlaams te bezitten dan indien hij in Leuven studeert. In de eerste situatie zal hij meer kenmerken overnemen van het Oost-Vlaams, een dialect die veel overeenkomsten heeft met het West-Vlaams. Anderzijds zou hij in de tweede situatie zowel Antwerpse, Brabantse en Limburgse dialectinvloeden overnemen. Deze persoon draagt dus in de eerste situatie meer bij aan het West-Vlaamse dialect dan in de tweede situatie. Hieromtrent kan de volgende overweging gemaakt worden. Het verschil in gewicht kan in rekening gebracht worden via twee factoren: het aantal jaren dat een persoon in een provincie verblijft en de regio van verblijf binnen in de provincie zelf. Hoe groter het aantal jaar van verblijf, hoe representatiever de persoon is voor het dialect. Hij heeft namelijk voor langere tijd invloeden ondervonden van het plaatselijke dialect waardoor zijn gewicht groter moet zijn ter representatie van die provincie. Het gewicht bepaald door de regio van verblijf binnen in de provincie kan praktisch bepaald worden afhankelijk van de afstand van de woonplaats van de testpersoon tot de grens van een andere provincie. Hoe dichter de persoon woont bij de grens, hoe meer invloeden van andere dialecten de persoon kan overgenomen hebben. 3 Er zijn 174 sprekers voor 5 dialecten. Dit komt ongeveer neer op 34 sprekers per dialect 7

18 2. Verband herkend foneem met uitgesproken foneem Automatische splitsing in fonemen Elk opgenomen woord wordt automatisch gesplitst in fonemen. Het programma houdt rekening met coarticulatie [14] [15]. Coarticulatie houdt in dat bij productie van een foneem aangrenzende fonemen hun invloed uitoefenen. Continue spraak ontstaat door een samengaan van articulatorische bewegingen van de spraakorganen gestuurd door de hersenactiviteit. De beweging van de spraakorganen om een foneem voort te brengen wordt door de hersensturing meestal al afgebroken voordat hij zijn doel bereikt heeft om koers te zetten in de richting van weer een volgende klank. Als gevolg hiervan is in het spraakgebied voortdurend te horen welke klank wordt gesproken, maar klinken ook eigenschappen door van de voorgaande en volgende klanken. Neemt men de uitspraak van het woord stroop als voorbeeld. Vooraleer de /s/ geuit wordt, zullen de lippen en de tong al in een geronde positie staan in afwachting van de komende /o/ en terwijl de /o/ wordt gezegd zullen de lippen zich al sluiten om de /p/ te vormen. Voor de realisatie van de /s/ bijvoorbeeld in het woord streep, worden de lippen en de tong parallel geplaatst voor de uitspraak van de /e/. Afhankelijk van de identiteit van de omringende klanken heeft elke spraakklank dus talloos veel verschillende gedaanten. Bovendien is vastgesteld dat sprekers zeer sterk uiteenlopen in de aard en mate van coarticulatie. Bijvoorbeeld in De kip draait wordt de /p/ van kip onder invloed van de daaropvolgende stemhebbende /d/ als een /b/ uitgesproken. Veel sprekers passen hier evenwel ook progressieve stemassimilatie toe, waarbij de stemkenmerken van een klank worden overgenomen door de er op volgende klank. In De kip draait wordt dan de /d/ van draait onder invloed van de stemloze /p/ als /t/ uitgesproken. De grenzen van de fonetische segmenten zijn dus moeilijk te plaatsen waardoor het effect coarticulatie onvermijdelijk optreedt [16]. Coarticulatie vormt een negatieve invloed op de kwaliteit van het splitsen van woorden in fonemen. Een oplossing om het effect van coarticulatie meer in rekening te brengen kan gerealiseerd worden via het voorlezen van eenzelfde tekst door iedere lezer. Dan bestond de mogelijkheid de fonemen te vergelijken op basis van hun plaats van voorkomen in de tekst. De fonemen die variërend uitgesproken worden onder invloed van het dialect zouden beter te onderscheiden zijn aangezien de invloed van coarticulatie over alle sprekers analoog zou zijn. Dit zou leiden tot duidelijke conclusies in verband met de uitgesproken en herkende fonemen over de sprekersspecifieke informatie heen. De a posteriori probabiliteiten De HMM spraakherkenner deelt het uitgesproken signaal op in tijdsframes. Elk tijdsframe wordt toegekend aan een foneem via forced alignment. Deze methode baseert zich op het Viterbi algoritme om het herkende foneem te bepalen. Per frame wordt het Viterbi algoritme toegepast op alle 38 fonemen. Aangezien er 38 mogelijke uitgesproken fonemen kunnen voorkomen en elk frame alle 38 fonemen gebruikt, komen er 1444 cues =

19 Invloed van factoren in de dataverwerking voor in de nederlandse taal [17] [18]. Er wordt Gaussiaanse classificatie gebruikt. Hierbij is de classificatie gebaseerd op de Bayesiaanse beslissingsregel [19], namelijk ω = arg max p(ω k x), (2.1) k waarbij ω k overeenkomt met een gekend foneem en x het echte uitgesproken fonetisch segment. p(ω k x) wordt de APP genoemd. Om deze te kunnen bepalen wordt de regel van Bayes toegepast[20]. posterior = likelihood prior marginale likelihood (2.2) of meer wiskundig p(ω k x) = p(x ω k) p(ω k ) p(x) (2.3) waarbij ω een gekend fonetisch segment voorstelt en x opnieuw het echte uitgesproken fonetisch segment. De probabiliteit p(x ω k ) wordt de likelihood genoemd en kan men bepalen. De probabiliteit p(ω k ) staat voor de kans dat een foneem voor kan komen in een uitgesproken tekst en wordt de a priori probabiliteit genoemd. Men kan zien dat de noemer van de regel van Bayes onafhankelijk is voor het bepalen van de foneemklasse waartoe het uitgesproken foneem behoort. Het Bayesiaanse classificatiecriterium wordt dus herleid tot ω = arg max p(x ω k )p(ω k ) (2.4) k Bij dialectdetectie is men geïnteresseerd in alle APP en niet alleen in de maximale. Alle probabiliteiten worden dan uitgezet in grafieken zoals men kan zien in de figuren B.1, B.2, B.3, B.4 en B.5, bijgevoegd in de bijlage. Op basis van deze grafieken kan men voor één bepaald uitgesproken foneem een karakteristiek aanschouwen die uniek is voor een dialect. In dit deel werd beschreven wat de invloed is van factoren in de dataverwerking. Het volgende deel beschrijft het onderzoek dat aangewend wordt om de fonemen te selecteren die een dialect bepalen. Met de data beschreven in 2.1 wordt het onderzoek verdergezet. Eerst worden de APP per provincie gegroepeerd. Daaruit wordt een selectie gemaakt van fonemen die per dialect de dialectische kenmerken weergeven. Deze fonemen worden dan op hun beurt verder geanalyseerd. Uiteindelijk worden de karakteristieke fonemen voor de respectievelijke dialecten geselecteerd. 9

20 2. Verband herkend foneem met uitgesproken foneem 2.3 Foneemselectie op basis van a posteriori probabiliteiten Selectie per provincie Het is de bedoeling de fonemen op te sporen die een bepaalde regiotaal identificeren. Om duidelijk te stellen welke fonemen deze informatie geven is het nodig de kenmerken van de regiotaal te concentreren. Daarom worden de APP van elk foneem per provincie samengenomen en wordt het gemiddelde berekend. De methode die gebruikt wordt gaat als volgt: De a posteriori resultaten van de fonemen in de data (zie 2.1) worden per provincie gegroepeerd. De gemiddelde foneemherkenning wordt bekomen voor ongeveer 34 sprekers per provincie worden de gemiddelde a posteriori probabiliteiten berekend voor elk foneem De resultaten worden in een driedimensionele grafiek gebracht en zijn ter illustratie in bijlage toegevoegd. De x-as geeft de uitgesproken fonemen weer, de y-as de herkende fonemen en de z-as de APP. De grafieken met de gemiddelde APP van alle fonemen uitgesproken door sprekers uit West-Vlaanderen (W), Oost-Vlaanderen (O), Antwerpen (A), Brabant (B) en Limburg (L) worden geïllustreerd in de appendix, in respectievelijk de figuren B.1, B.2, B.3, B.4 en B.5 Resultaten per provincie Bij het beschouwen van de grafieken wordt voor elk foneem hoge percentages APP op de diagonaal waargenomen. Een groot deel van het aantal uitgesproken fonemen wordt geïdentificeerd als het te herkennen foneem. De maximum herkenningspercentages liggen niet hoger dan 50% per afzonderlijk foneem. De pieken van de APP aan beide zijden van de diagonaal duiden de invloeden van andere fonemen aan bij de uitspraak van het afzonderlijke foneem. Het geobserveerde foneem wordt in de regiotalen variërend uitgesproken. De grafieken tonen aan dat er in Vlaanderen wel degelijk uitspraakverschillen bestaan. Bij het verder observeren van de grafieken kan een analoog beeld waargenomen worden voor alle regiovarianten van het Standaardnederlands. Vooral bij de klinkerfonemen worden hogere pieken van APP getoond. Dit wijst aan dat er veel invloeden van andere fonemen te constateren zijn bij het uitspreken van het geobserveerde klinkerfoneem. Anders gezegd, in de regiotalen komt vooral de variatie in de uitspraak van de klinkers naar voor. Bij het observeren van de invloeden bij uitspraak van medeklinkers worden ook hogere pieken waargenomen. Dit komt niet voor bij alle medeklinkers maar enkel bij bepaalde, afhankelijk van het dialect. Bij de uitspraak van de sprekers uit West- Vlaanderen valt vooral de uitspraak van het foneem /G/ op. Deze /G/ wordt als /h/ uitgesproken. 10

21 Foneemselectie op basis van a posteriori probabiliteiten Selectie per uitgesproken foneem Het onderzoek wordt verder gezet met de uitvoerige analyse van de klinkerfonemen /I/, /E/, /A/, /O/, /i/, /e/, /a/, /o/, /y/, /u/, /E+/, /O+/ en de fonemen /G/ en /h/. Het zijn vooral deze fonemen die in een regiotaal variërend uitgesproken worden ten opzichte van het Standaardnederlands. Deze fonemen geven betekenisvolle informatie over de dialecten. Deze uitgesproken fonemen worden naast een juiste foneemherkenning ook als een ander foneem herkend door de spraakherkenner. Het foneem dat uitgesproken wordt, wordt verder in de tekst als uitgesproken foneem gerefereerd. Het ander foneem dat naast een juiste herkenning van het uitgesproken foneem ook door de spraakherkenner herkend wordt, wordt als herkend foneem aangeduid om het onderscheid duidelijk te stellen. In dit deel is het de bedoeling de combinaties uitgesproken foneem - herkend foneem aan te treffen waarmee het desbetreffende dialect het best kan geïdentificeerd worden en het best gedistantieerd kan worden van de andere dialecten. Daartoe wordt er per dialect gezocht welke tendensen er per foneem te zien zijn bij de uitspraak van de bovenstaande fonemen. De combinaties uitgesproken foneem - herkend foneem die per dialect sterke tendensen laten zien, worden in beschouwing genomen. De meest relevante combinaties zullen dan de cues uitmaken waarmee de dialecten zullen worden geïdentificeerd en geclassificeerd. Resultaten per uitgesproken foneem Het onderzoek naar de fonemen die representatief zijn voor de vijf Vlaamse dialecten gebeurt door de individuele analyse van de uitgesproken fonemen /G/, /h/, /I/, /E/, /A/, /O/, /i/, /e/, /a/, /o/, /u/, /E+/, /O+/. De APP van de fonemen die specifieke informatie over de dialecten geven worden per foneem grafisch weergegeven in figuren 2.1, 2.2, 2.7, 2.8, 2.3, 2.4, 2.5, 2.6, 2.9 en Onderzoek heeft uitgewezen dat het geslacht van de spreker een invloed heeft op de uitspraak [21]. Vocal Tract Length Normalisation (VTLN) wordt aangewend om verschillen tussen de uitspraak van mannen en vrouwen te minimaliseren. Met een dubbel doel wordt er toch afzonderlijk onderzoek verricht op mannen en vrouwen. Enerzijds wordt het effect van de normalisatie geverifiëerd. Anderzijds zorgt een dubbel resultaat van de procentuele uitspraakvariaties van de fonemen per provincie voor een controle op de juistheid van de resultaten. Uitgesproken foneem /G/ - herkend foneem /h/ In figuur 2.1 en 2.2 wordt gezien dat er bij het uitspreken van foneem /G/ een invloed is van foneem /h/. Dit zowel voor sprekers uit West-Vlaanderen (10,5% bij de mannen en 14% bij de vrouwen) als uit Oost-Vlaanderen (7,5% en 9% respectievelijk voor mannen en vrouwen). 11

22 2. Verband herkend foneem met uitgesproken foneem Figuur 2.1: Foneem /G/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Figuur 2.2: Foneem /G/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies 12

23 Foneemselectie op basis van a posteriori probabiliteiten Uitgesproken foneem /E/ - herkend foneem /e/ Figuur 2.3 geeft de APP weer voor de mannelijke sprekers, figuur 2.4 voor de vrouwelijke sprekers. Alleen bij de uitspraak van sprekers die behoren tot het Antwerpse dialect wordt een aanduiding opgemerkt dat het foneem /E/ ook als /e/ wordt uitgesproken. Er wordt bij /e/, zowel bij de mannen als bij de vrouwen, een invloed van 6% gedetecteerd terwijl dit voor de andere dialecten maar 1% is. Figuur 2.3: Foneem /E/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Uitgesproken foneem /E/ - herkend foneem /a/ Bij de mannelijke sprekers uit de provincies Brabant en Antwerpen is er een kleinere invloed van foneem /a/ op te merken bij uitspraak van foneem /E/ (respectievelijk 3,5% en 1,5%). Bij de andere dialecten wordt 7% (W), 8,5% (O) en 10% (L) aangegeven. Deze resultaten worden niet bevestigd door de vrouwelijke sprekers uit de provincie Brabant (6%). Bij de vrouwelijke sprekers uit de provincie Antwerpen blijft de waarde wel klein (3%). De invloed van foneem /a/ bij de vrouwelijke sprekers uit de andere provincies is 8% (O en W) en 11% (L). 13

24 2. Verband herkend foneem met uitgesproken foneem Figuur 2.4: Foneem /E/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies Uitgesproken foneem /E/ - herkend foneem /I/ Het Antwerps toont een APP van 10% bij de mannen en 11% bij de vrouwen. De andere dialecten hebben waarden die zowel voor de mannen en de vrouwen rond de 3,5% liggen. Uitgesproken foneem /o/ - herkend foneem /u/ In figuur 2.5 wordt getoond dat er in de mannentaal van de sprekers uit West-Vlaanderen en Oost-Vlaanderen een beduidend verschil van foneem herkend wordt. Meer bepaald foneem /u/ wordt gerapporteerd bij uitspraak van /o/. In beide regionale variëteiten is foneem /u/ sterker aanwezig dan bij de andere dialecten: respectievelijk 17% en 21% ten opzichte van maximaal 8%. Bij de vrouwen in figuur 2.6 is dit verschil in uitspraak niet meer zo groot. Uitspraak door vrouwen uit Oost-Vlaanderen toont met 13% de hoogste waarde, terwijl bij sprekers uit West-Vlaanderen 9,5% weergegeven wordt net als bij personen uit Limburg. Het Antwerps en Brabants vertonen percentages lager dan 7%. 14

25 Foneemselectie op basis van a posteriori probabiliteiten Figuur 2.5: Foneem /o/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Figuur 2.6: Foneem /o/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies 15

26 2. Verband herkend foneem met uitgesproken foneem Uitgesproken foneem /I/ - herkend foneem /i/ Bij het beschouwen van het foneempaar uitgesproken foneem /I/ - herkend foneem /i/ is een duidelijk verschil tussen de dialecten waar te nemen in de figuren 2.7 en 2.8. Bij de sprekers uit de provincies Brabant en Antwerpen is dit herkend foneem sterker aanwezig dan de bij sprekers van de andere dialecten: respectievelijk 16% bij de mannen en 15% bij de vrouwen tegenover maximaal 6% en maximaal 10% bij de andere dialecten. Figuur 2.7: Foneem /I/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Uitgesproken foneem /I/ - herkend foneem /E/ Zoals ook in de figuren 2.7 en 2.8 vast te stellen is, worden er bij de West-Vlaamse en Limburgse sprekers hoge waarden geconstateerd voor de foneemcombinatie uitgesproken foneem /I/ - herkend foneem /E/: respectievelijk 10% en 8% voor de vrouwelijke sprekers terwijl dit 5,5% is voor beide accenten bij de mannelijke sprekers. De provincies Brabant en Antwerpen geven respectievelijk 1% en 1,5% bij de vrouwelijke sprekers en 2% bij de mannelijke sprekers. Het Oost-Vlaams vertoont een a posteriori probabiliteit van 4% bij de mannen en 5,5% bij de vrouwen. 16

27 Foneemselectie op basis van a posteriori probabiliteiten Figuur 2.8: Foneem /I/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies Uitgesproken foneem /O+/ - herkend foneem /a/ Figuren 2.9 en 2.10, tonen dat het Brabants en ook in beperkte mate het Antwerps, een invloed van foneem /a/ vertoont: respectievelijk 20% en 8% tegenover maximaal 4% voor de andere dialecten. Bij de vrouwen is de invloed 24% en 25% voor respectievelijk het Brabantse en Antwerpse dialect tegenover maximaal 10% voor de andere dialecten. Uitgesproken foneem /O+/ - herkend foneem /O/ In beide figuren is een invloed aanwezig van het foneem /O/ voor het West-Vlaams, Oost- Vlaams en het Limburgs. Bij de mannen geeft dit respectievelijk 15,5%, 10% en 13,5% tegenover 5% voor de andere dialecten. Bij de vrouwen zijn de waarden respectievelijk 9,5%, 10% en 11% tegenover maximaal 5% voor het Antwerps en Brabants. Uitgesproken foneem /O+/ - herkend foneem /o/ Het Oost-Vlaams vertoont een grotere invloed van /o/ ten opzichte van het Limburgs en het West-Vlaams. Op hun beurt vertonen zij een grotere invloed dan het Antwerps en Brabants. Bij de mannen geeft dit in volgorde van opnoemen 21%, 16%, 14%, 7% en 2%. Bij de vrouwen wordt dit 18%, 10%, 9%, 4% en 1%. 17

28 2. Verband herkend foneem met uitgesproken foneem Figuur 2.9: Foneem /O+/ uitgesproken door mannelijke sprekers uit Vlaamse provincies Figuur 2.10: Foneem /O+/ uitgesproken door vrouwelijke sprekers uit Vlaamse provincies 18

29 Conclusie Overzicht van de resultaten De grafieken in sectie 2.3 tonen aan dat vooral de klinkerfonemen in de regiotalen de variatie in de uitspraak van het Standaardnederlands voorstellen. Bepaalde combinaties van uitgesproken foneem - herkend foneem laten sterke tendensen zien om de dialecten te identificeren. De meest relevante combinaties zullen de cues uitmaken waarmee de dialecten zullen worden geïdentificeerd en geclassificeerd in hoofdstuk 5. In tabel 2.3 wordt per provincie een overzicht gegeven van de combinaties uitgesproken foneem versus herkend foneem. De tabel toont dat: per uitgesproken foneem, verschillende herkende fonemen in aanmerking komen naargelang het dialect er een mate van overeenkomst is tussen de fonemen uitgesproken door sprekers van enerzijds de provincie Antwerpen en Brabant en anderzijds de provincies West- Vlaanderen, Oost-Vlaanderen en Limburg uitgesproken foneem herkend foneem a posteriori percentage W O A B L /G/ /h/ 12,1% 8% 3,9 % 4,5% 3,5% /I/ /i/ 6,8% 8,1% 15,1% 16,5% 5,6% /I/ /E/ 7,2% 4,8% 1,2% 1,3% 6,3% /E/ /e/ 1,2% 1% 5,2% 1% 1,2% /E/ /a/ 7,6% 7,6% 2,2% 4,7% 9,6% /E/ /I/ 2,6% 3,2% 9,6% 3,4% 2,1% /o/ /u/ 13,4% 17,1% 6,7% 6,7% 8,7% /O+/ /a/ 4,5% 6,7% 16,5% 22,5% 6% /O+/ /O/ 12,4% 10,4% 4,8% 4,9% 12,4% /O+/ /o/ 13,1% 19,7% 6,3% 1,4% 11,3% Tabel 2.2: Dialectbepalende fonemen 2.4 Conclusie Voor het onderzoek naar de fonemen die de dialecten kunnen identificeren en classificeren wordt de CoGeN database ter beschikking gesteld. Per uitgesproken foneem komen er verschillende herkende fonemen in aanmerking naargelang het dialect. In de dialecten zijn twee clusters te onderscheiden, één bevat de provincies Antwerpen en Brabant, de andere de provincies West-Vlaanderen, Oost-Vlaanderen en Limburg. De combinaties uitgesproken foneem - herkend foneem kunnen door middel van vergelijking tot een diversificatie tussen de dialecten leiden. Tabel 2.3 toont de indicerende foneemcombinaties. Algemeen kan een eerste stap in de classificatie beschouwd worden als het scheiden van 19

30 2. Verband herkend foneem met uitgesproken foneem de cluster Antwerps en Brabants ten opzichte van de cluster West-Vlaams, Oost-Vlaams en Limburgs. Het gebruik van het uitgesproken foneem /I/ en het herkende foneem /i/ kan hieromtrent aangewend worden. Daarna zal men de dialecten in eenzelfde cluster onderscheiden. Het gebruik van bijvoorbeeld het uitgesproken foneem /E/ en herkend foneem /e/ geeft informatie om het Antwerpse dialect te onderscheiden van het Brabantse dialect. herkend uitgesproken foneem foneem /E/ /I/ /O+/ /G/ /o/ /e/ A /I/ A /i/ A en B /o/ O /O/ W, O en L /a/ W, O en L B /h/ W en O /E/ W en L /u/ W en O Tabel 2.3: Overzicht van de indicerende fonemen per provincie In het volgende hoofdstuk wordt een tweede onderzoek uitgevoerd om de karakteristieke dialectische fonemen in de regionale talen op te sporen. Het aspect van het verloop van de APP van het herkende foneem in het tijdsdomein wordt nader belicht. 20

31 Hoofdstuk 3 Verschillen in tijdsdomein In dit hoofdstuk wordt het foneemonderzoek beschreven die het verloop van de APP van het herkend foneem in het tijdsdomein analyseert. Het verschil in tijd waarbij het herkend foneem aangehouden wordt bij de uitspraak van het foneem is typerend voor de dialecten. In het eerste deel wordt de aangewende analysemethode beschreven om het tijdsverloop van het herkende foneem te bekomen. Daarna worden de tijdsverlopen per foneem in grafiek gezet. In een derde deel worden de conclusies geformuleerd. 3.1 Opstellen van het tijdsverloop op basis van a posteriori probabiliteiten Alvorens het eigenlijk onderzoek van de fonemen in het tijdsdomein te kunnen aanvatten, moeten eerst het aantal frames van de fonemen worden genormaliseerd per foneem. In deel 2.2 werd de werking van een HMM spraakherkenner met forced alignment kort toegelicht. Het Viterbi algoritme geeft per foneem een verschillend aantal frames afhankelijk van de duur van uitspraak van het foneem door de spreker. Bijvoorbeeld wordt door het Viterbi algoritme aan het foneempaar /E/ - /e/ uitgesproken door spreker 1, vier frames aangewezen. Aan spreker 2 wijst het Viterbi algoritme voor hetzelfde foneempaar zeven frames aan, dit naargelang de uitspraaktijd van de spreker. Per foneem moet de uitspraaktijd gelijk gesteld worden om vanuit éénzelfde basis per foneem te kunnen werken. Aangezien de uitspraaktijd genormaliseerd is, kunnen de verschillende verlopen APP per dialect vergeleken worden. De normalisatie van de uitgesproken fonemen wordt voor alle sprekers per dialect uitgevoerd. De foneemcombinaties /E/ - /e/, /u/ - /o/ en /o/ - /o/ worden verder onderzocht. Deze fonemen gaven, zoals in hoofdstuk 2 werd aangetoond, een duidelijke informate van de dialecten. 21

32 3. Verschillen in tijdsdomein 3.2 Resultaten van de tijdsverlopen Uitgesproken foneem /E/ - herkend foneem /e/ Figuur 3.1: Tijdsverloop van de APP voor foneempaar /E/ - /e/ Figuur 3.1 toont het tijdsverloop van /E/ versus /e/. De APP voor het Antwerpse dialect liggen op de drie meetpunten het hoogst, respectievelijk 8%, 6.5% en 4.7%. Een tweede band APP bevat de dialecten Oost-Vlaams en Limburgs. Bij de meting in het eerste vierde liggen de APP van deze dialecten nauw samen: 4,9% voor Oost- Vlaams en 4.2% voor Limburgs. In het tweede meetpunt bedragen de APP het dubbele voor het Oost-vlaams, namelijk 4.8% ten opzichte van 2.4% voor het Limburgs. In het derde meetpunt zijn de APP tot 3.5 keer groter voor het Limburgs (2.8%) dan voor het Oost-Vlaams (0.8%). Een derde band APP bevat de dialecten West-Vlaams en Brabants. Bij het eerste meetpunt is er weinig verschil tussen de APP van beide provincies: Brabants 0.9%, West-vlaams 0.8%. Bij het tweede meetpunt bedraagt de APP van Brabantse dialect 1.4%. De APP voor het West-Vlaams bedraagt 0.8%. De APP voor het Brabants liggen 75% hoger ten opzichte van de APP van het West-Vlaams. Op het derde meetpunt ligt de APP voor het Brabants op 1.6% en voor het West-Vlaams op 0.6%. Op dit punt liggen de APP voor het Brabants meer dan 2.5 keer hoger dan voor het West-Vlaams. Zo wordt door ieder dialect een specifiek patroon gevormd per herkend foneem in tijdsdomein. Vergelijken van de APP op de meetpunten is een methode om de dialecten te identificeren en diversificieren van elkaar. 22

33 Resultaten van de tijdsverlopen Uitgesproken foneem /u/ - herkend foneem /o/ Figuur 3.2: Tijdsverloop van APP voor foneempaar /u/ - /o/ Bij het beschouwen van het tijdsverloop van het herkende foneem /o/ versus /u/ is een bovenste band APP te zien die de dialecten Antwerps en Limburgs bevat. Bij het Antwerps bedragen de APP 17% en bij het Limburgs 15%. In de volgende twee meetpunten bedragen de APP waarden voor het Antwerps het dubbele van de APP waarden van het Limburgs. In het tweede meetpunt bedragen de APP voor het Antwerps en het Limburgs respectievelijk 34 en 17 procent. In het derde meetpunt bedragen de APP voor het Antwerps 32% en voor het Limburgs 16%. In een tweede band APP worden de dialecten West-Vlaams, Oost-Vlaams en Brabants vergeleken. Op het eerste meetpunt vertoont het Brabants de laagste APP, namelijk 3%. De APP van het West- Vlaams is tweemaal de APP waarde van het Brabants, namelijk 6%. De APP van het Oost-Vlaams, namelijk 9%, bedraagt drie maal de APP van het Brabants en 1.5 keer de APP van het West-Vlaams. Op het tweede meetpunt vertoont opnieuw het Brabants de laatste APP waarde van 3%. De APP van het West-Vlaams ligt 3 maal hoger dan de APP het Brabants, namelijk 9%.APP. Het Oost-Vlaams heeft 27% als APP waarde. Dit is negen keer hoger dan de APP van het Brabants (3%) en 3 keer hoger dan de APP van het West-Vlaams (9%). Op het derde meetpunt zijn de APP waarden het laagst bij het Oost-Vlaamse dialect, namelijk 5%. De andere dialecten vertonen APP waarden 8% en 9% voor respectievelijk het Brabants en West-Vlaams. 23

34 3. Verschillen in tijdsdomein Uitgesproken foneem /o/ - herkend foneem /o/ Figuur 3.3: Tijdsverloop van APP voor foneempaar /o/ - /o/ Een analoge vergelijking zoals bij de andere foneemparen gebeurt voor het foneem /o/ versus /o/. In een eerste band van de APP van het herkende foneem bevinden zich de dialecten Antwerps, Limburgs en Oost-vlaams. De posities APP die het herkende foneem voor de drie dialecten innemen zijn nagenoeg gelijk. (A: 30%, L: 32%, O: 32%). In een tweede meetpunt worden de posities van de drie dialecten terug met elkaar vergeleken en met de posities in het vorig meetpunt. Het Antwerps is gelijk gebleven (30% APP). Het Limburgs en Oost-Vlaams vertonen beiden 33% lagere waarden dan het Antwerps, namelijk een APP van respectievelijk 22% en 23%. In het laatste meetpunt vertonen de APP van het Antwerps en Limburgs nagenoeg gelijke waarden; respectievelijk 31% en 29%. Het Oost-Vlaams vertoont 18% APP, wat 66% lager is dan het Antwerps en het Limburgs. De dialecten West-Vlaams en Brabants liggen in een tweede band APP. In het eerste meetpunt vallen de APP samen: 18% APP. In het tweede meetpunt toont het West- Vlaams 20% APP en het Brabants 15%. De APP van het West-Vlaams ligt 33% hoger dan de APP van het Brabantse dialect. In het laatste meetpunt vallen de APP waarden van de beide provincies samen op 20% APP. Figuur 3.3 toont het verloop van APP voor de foneemcombinatie /o/ - /o/. Het Antwerps en Limburgs vertonen een gelijkaardig verloop, maar per frame bevatten ze andere APP waarden. Het Oost-Vlaams, Brabants en West-Vlaams hebben ongeveer dezelfde APP. Het Limburgs vertoont in het begin van het tijdsdomein de hoogste APP waarden bij de eerste top. Naar de laatste frames toe 24

35 Conclusie daalt de APP. Bij het Antwerps zijn de grootste pieken eerder in het midden van het tijdsdomein gelegen. Bij het Oost-Vlaams, West-Vlaams en Brabants worden verschillende pieken gevormd over het hele tijdsdomein op verschillende plaatsten ten opzichte van elkaar. Overzicht van de resultaten Door het observeren van het verloop van de fonemen in het tijdsdomein wordt duidelijk dat diversifiëren van dialecten moet mogelijk zijn via drie metingen, één op het eerste vierde van het tijdsdomein, een tweede meting bij de helft van het tijdsdomein en een derde meting bij het laatste vierde van het tijdsdomein. Op de onderzochte fonemen worden de bekomen waarden in tabel 3.1 weergegeven. /E/ - /e/ /u/ - /o/ /o/ - /o/ dialect 25% 50% 75% 25% 50% 75% 25% 50% 75% W 0.8% 0.8% 0.6% 6% 9% 9% 18% 20% 20% O 4.9% 4.8% 0.8% 9% 27% 5% 32% 22% 18% A 8.0% 6.5% 4.7% 17% 34% 32% 30% 30% 31% B 0.9% 1.4% 1.6% 3% 3% 8% 18% 15% 20% L 4.2% 2.4% 2.8% 15% 27% 16% 32% 23% 29% Tabel 3.1: Resultaten van het foneemverloop van /E/ - /e/ in het tijdsdomein 3.3 Conclusie Diversifiëren van dialecten door de observatie van de fonemen in het tijdsdomein is een methode die kansen biedt op goede diversificatieresultaten. Er is per provincietaal een specifiek patroon te zien bij het uitgesproken foneemverloop in het tijdsdomein. Dit patroon nauwkeurig bepalen kan leiden tot een juiste classificatie van de spreker. Door drie metingen van de APP door te voeren in het tijdsdomein, namelijk één in het eerste vierde van het tijdsdomein, één in de helft en één in het laatste vierde van het tijdsdomein, kunnen de dialecten van elkaar gescheiden worden per beschouwd uitgesproken foneem. Het diversifiëren van de dialecten steunt op het principe van de onderlinge vergelijking van de posities die de dialecten innemen ten opzichte van elkaar per meetpunt. Deze posities per meetpunt worden op hun beurt vergeleken op de drie meetpunten. In het volgende hoofdstuk wordt een derde onderzoek uitgevoerd om de karakteristieke dialectische fonemen in de regionale talen op te sporen. Het volgende hoofdstuk behandeld de distributie van de herkende foneem. 25

36 Hoofdstuk 4 Distributie In de vorige hoofdstukken werd op linguïstisch vlak onderzoek verricht naar de verbanden die een bepalende factor uitoefenen om de dialecten te diversifiëren. Meerbepaald in het tweede hoofdstuk werd het herkend foneem onderzocht bij het uitspreken van een bepaald foneem in het Standaardnederlands. Daarbij werd gewerkt met gemiddelde waarden van de a posteriori probabiliteiten zodat een algemeen beeld verkregen werd van de karakteristieken van het dialect zelf. In het derde hoofdstuk werd het uitspraakverloop van het herkend foneem in het tijdsdomein geanalyseerd. Hierbij werd vastgesteld dat de APP van het herkende foneem andere waarden aannemen in het tijdsdomein, dit naargelang het dialect. In dit hoofdstuk worden de fonemen op statistisch vlak geanalyseerd door individueel de sprekersinbreng te onderzoeken. Het discriminatief vermogen van de combinaties uitgesproken foneem - herkend foneem wordt onderzocht vanuit het perspectief van de distributie van de sprekers. Per paar uitgesproken foneem - herkend foneem en per dialect wordt een histogram opgesteld voor de verdeling van het aantal sprekers per probabiliteitsklasse. Eerst wordt in deel 4.1 de werkwijze beschreven die aangewend wordt voor het opstellen van de histogrammen per foneempaar en per dialect. In 4.2 worden de bekomen histogrammen besproken. Tot slot worden in 4.3 de conclusies op een rij gezet. 4.1 Opstellen van de histogrammen op basis van de a posteriori probabiliteit Niet elke spreker die behoort tot éénzelfde dialect vertoont dezelfde waarden voor de a posteriori probabiliteit bij éénzelfde combinatie uitgesproken foneem - herkend foneem. De sprekersafhankelijkheid van de APP worden in de histogrammen weergegeven. Het histogram bestaat op de x-as uit a posteriori probabiliteitsintervallen. De y-as bestaat uit de fractie sprekers die een a posteriori probabiliteitwaarde vertonen, gelegen in een 26

37 Resultaten van de histogrammen interval op de x-as, bij het analyseren van het foneempaar uitgesproken foneem - herkend foneem [22]. Een belangrijke factor bij het opstellen van een histogram is de keuze van de intervalbreedte want de vorm van het histogram is afhankelijk van de keuze van de intervalbreedte. Intervalbreedtes van 5% en 10% a posteriori probabiliteitswaarde geven twee inzichten van het verloop van de sprekersfracties. Het histogram met intervallen van 5% zorgt voor een gedetailleerd beeld van de data uit de steekproef, terwijl het histogram met intervallen van 10% een beter algemeen beeld geeft. De histogrammen bieden twee overzichten: een benadering van de distributie van het dialect bij het foneempaar uitgesproken foneem - herkend foneem. Deze benadering geeft een duidelijk beeld van de aanwezigheid van a posteriori probabiliteitswaarden bij elk dialect een vergelijking van de dialecten: de combinatie uitgesproken foneem - herkend foneem die specifiek een dialect karakteriseren kunnen worden afgeleid 4.2 Resultaten van de histogrammen De volgende figuren geven de histogrammen weer met de combinaties uitgesproken foneem - herkend foneem. De histogrammen van elke provincie worden in een ander kleur weergegeven. Uitgesproken foneem /E/ - herkend foneem /E/ Figuur 4.1 geeft het histogram weer voor het uitgesproken foneem /E/ - herkend foneem /E/ bij een intervalverdeling op de x-as van 5%. Een variërend verloop van het percentage sprekers wordt geconstateerd bij het herkende foneem /E/. Het a posteriori probabiliteitsinterval dat duidelijke waarden vertoont zijn de intervallen tussen 0% tot 55%. Daarna dalen de waarden geleidelijk, het sterkste bij de sprekers uit de provincie Antwerpen. Algemeen kan voor elk dialect gesteld worden dat de grootste sprekersfracties voorkomen in de a posteriori probabiliteitsintervallen van 0% tot 5% en 20% tot 35%. De figuur levert enkele belangrijke conclusies: Voor de provincie West-Vlaanderen komen de belangrijke sprekersfracties voor in het interval van 40% tot 50% APP Bij Limburg wordt dit het interval 35% tot 40% Antwerpen en Brabant vertonen grote fracties bij lage waarden van APP. Deze liggen tussen 0% en 5%. Ook worden grotere waarden opgemerkt voor beide dialecten in het interval 25% tot 30% Oost-Vlaanderen vertoont ten opzichte van de andere provincies nergens een hoge sprekersfractie bij een bepaald a posteriori probabiliteiteninterval Het Limburgs vertoont tussen 30% en 40% APP grotere sprekersfracties 27

38 4. Distributie Figuur 4.1: Histogram voor foneemcombinatie /E/ - /E/ De daling van de sprekersfractie begint vroeger bij het Antwerps: vanaf 30% a posteriori probabiliteitswaarde. Het Antwerps blijft bij grotere intervalwaarden de laagste sprekersfractie leveren ten opzichte van de andere dialecten. Figuur C.1 in de bijlage illustreert het histogram van de sprekersfracties van het foneem /E/ bij uitspraak foneem /E/ bij het gebruik van een grotere intervalswaarde van 10%. Deze figuur levert een analoog, maar minder gedetailleerd beeld voor de sprekersfracties van het foneem /E/ bij uitspraak van foneem /E/ dan waar te nemenin figuur 4.1. Uitgesproken foneem /E/ - herkend foneem /e/ Figuur 4.2 geeft het histogram weer van alle foneemparen uitgesproken foneem /E/ - herkend foneem /e/ aanwezig in de data. Enkel in het interval tot 5% komen hoge sprekersfracties voor van foneem /e/ bij alle dialecten. Met uitzondering van de sprekers uit de provincie Antwerpen is de sprekersfractie 95% voor alle dialecten. Het uitgesproken foneem kan vooral gebruikt worden om het Antwerps te onderscheiden van de andere dialecten. 28

39 Resultaten van de histogrammen Figuur 4.2: Histogram voor foneemcobinatie /E/ - /e/ Uitgesproken foneem /G/ - herkend foneem /G/ Het histogram bij herkenning van foneem /G/ wordt getoond in figuur 4.3 en C.3 (zie bijlage). Vooral het West-Vlaams vertoont grote sprekersfracties in een a posteriori probabiliteitsinterval van 0% tot 20%. Provincies Antwerpen, Oost-Vlaanderen en Brabant vertonen vooral grotere sprekersfracties bij probabiliteitsintervallen van 25% tot 45%. Herkenning van foneem /G/ kan gebruikt worden om het West-Vlaams te onderscheiden van de andere dialecten. Antwerpen, Oost-Vlaanderen en Brabant vertonen vooral grotere sprekersfracties bij probabiliteitsintervallen van 20% tot 40%. Herkenning van foneem /G/ kan gebruikt worden om het West-Vlaams te onderscheiden van het Antwerps, Brabants en het Oost-Vlaams. Uitgesproken foneem /G/ - herkend foneem /h/ Figuur 4.4 toont het histogram van de sprekers bij uitspraak van foneem /G/ en herkenning van foneem /h/. A posteriori probabiliteitsintervallen die voorkomen bij grotere waarden dan 10%, vertonen grote West-Vlaamse sprekersfracties. Dit is ook zo voor de Oost-Vlaamse sprekersfracties maar in mindere mate. Meting van uitgesproken foneem /G/- herkend foneem /h/ kan dus West-Vlaanderen van de andere provincies scheiden. 29

40 4. Distributie Figuur 4.3: Histogram voor foneemcombinatie /G/ - /G/ Figuur 4.4: Histogram voor foneemcobinatie /G/ - /h/ 30

41 Resultaten van de histogrammen Uitgesproken foneem /I/ - herkend foneem /I/ Een beeld van de sprekersfracties in a posteriori probabiliteitsintervallen van 5% wordt weergegeven in figuur 4.5 voor het foneempaar /I/ - /I/. Figuur C.2 in de bijlage toont het histogram bij a posteriori probabiliteitsintervallen van 10%. Enkele conclusies kunnen bekomen worden voor elk dialect: Limburg vertoont een grotere sprekersfractie bij lage a posteriori probabiliteitswaarden: van 0% tot 10% Bij Antwerpen komen grotere sprekersfracties voor bij a posteriori probabiliteitswaarden van 35% tot 45% Oost-Vlaanderen vertoont de grootste sprekersfracties in de intervallen 20% tot 40% Het Brabants en West-Vlaams tonen geen intervallen waar de sprekersfracties het grootst zijn Figuur 4.5: Histogram voor foneemcobinatie /I/ - /I/ Uitgesproken foneem /I/ - herkend foneem /i/ In figuur 4.6 is te zien dat in het interval tot 5% APP sprekersfracties van foneem /i/ bij de sprekers van Limburg, Oost-Vlaanderen en West-Vlaanderen voorkomen tot boven 75%. De sprekers uit Antwerpen en Brabant behalen spekersfracties van respectievelijk 42% en 37%. Sprekers uit Antwerpen en Brabant duiden in alle intervallen van APP tot 31

42 4. Distributie Figuur 4.6: Histogram voor foneemcombinatie /I/ - /i/ 80% grotere sprekersfracties aan. Voor de sprekers uit de andere provincies is dit niet het geval. Meting van de APP van het foneempaar /I/ - /i/ levert een sterk scheidingsvermogen om het Antwerps en het Brabants te onderscheiden van de andere dialecten. Uitgesproken foneem /o/ - Herkend foneem /o/ Het histogram bij herkenning van foneem /o/ bij de uitspraak van /o/ wordt getoond in de figuren 4.8 en C.4 (bijlage). Het Oost-Vlaams vertoont grote sprekersfracties bij a posteriori probabiliteitsintervallen tussen 5% en 30%. De andere provincies tonen maximale sprekersfracties in de intervallen tussen 40% en 60%. Uitgesproken foneem /o/ - herkend foneem /u/ Het histogram bij herkenning van foneem /u/ wordt getoond in figuur 4.7. Het West- Vlaams en het Oost-Vlaams vertonen grote sprekersfracties bij hoge waarden van APP. De sprekersfracties bij het West-Vlaams zijn het grootst in de intervallen van 10% tot 25% APP. In de intervallen van 25% tot 45% APP is het Oost-Vlaamse dialect het duidelijkst aanwezig. Herkenning van foneem /u/ geeft informatie om de dialecten Limburgs, Antwerps en Brabants te onderscheiden van het West- en Oost-Vlaams. 32

43 Resultaten van de histogrammen Figuur 4.7: Histogram voor foneemcombinatie /o/ - /u/ Figuur 4.8: Histogram voor foneemcombinatie /o/ - /o/ 33

44 4. Distributie Uitgesproken foneem /O+/ - herkend foneem /o/ Grote sprekersfracties komen voor in het a posteriori probabiliteitsinterval gaande van 0% tot 10% voor het Brabants. Het Oost- en West-Vlaams vertonen grote waarden van sprekersfracties bij de grotere APP. Dit is vooral op te merken in interval 30% tot 50%. Figuur 4.9 geeft het histogram bij de herkenning van foneem /o/. Figuur 4.9: Histogram voor foneemcombinatie /O+/ - /o/ Uitgesproken foneem /O+/ - herkend foneem /a/ Figuur 4.10 toont het histogram bij herkenning van foneem /O+/ met een intervalgrootte van 10%. Enkele interpretaties zijn: De grootste sprekersfracties komen bij West-Vlaanderen en Oost-Vlaanderen voor in de intervallen gelegen tussen de 10% tot 30% Bij het Antwerps is dit zo bij intervallen tussen de 30% tot 60% Het Limburgs vertoont grote APP in het interval 70% tot 80% Figuur 4.11 toont het histogram bij herkenning van foneem /a/. Grote waarden van de sprekersfractie voor het Antwerpse en het Brabantse dialect zijn te zien bij a posteriori probabiliteitswaarden vanaf 40%. 34

45 Resultaten van de histogrammen Figuur 4.10: Histogram voor foneemcombinatie /O+/ - /O+/ Figuur 4.11: Histogram voor foneemcombinatie /O+/ - /a/ 35

46 4. Distributie Overzicht van de resultaten Op basis van de histogrammen die de sprekersfracties aangeven uitgezet in APP van het herkende foneem - uitgesproken foneem kunnen de dialecten van elkaar onderscheiden worden. Een overzicht van het dialectonderscheidend vermogen van de onderzochte foneemcombinaties wordt samengevat in tabel 4.1 Uitgesproken Herkend Discriminatief foneem foneem vermogen /E/ /E/ onderscheiden van het Antwerps /E/ /e/ onderscheiden van het Antwerps /I/ /I/ onderscheiden van zowel het Limburgs als het Oost-Vlaams /I/ /i/ onderscheiding van beide clusters /G/ /G/ onderscheiden van het West-Vlaams /G/ /h/ onderscheiden van het West-Vlaams en het Oost-Vlaams /o/ /o/ onderscheiden van het Oost-Vlaams /o/ /u/ onderscheiden van zowel het West-Vlaams als het Oost-Vlaams /O+/ /O+/ onderscheiden van het Limburgs en Antwerps /O+/ /a/ onderscheiden van beide clusters /O+/ /o/ onderscheiden van het Brabants Tabel 4.1: Discriminatief vermogen op basis van het histogram 36 Het herkend foneem /i/ bij uitspraak /I/ scheidt de dialecten in twee grote clusters. De ene cluster bevat het Antwerpse en het Brabantse dialect met lage sprekersfracties. De andere cluster bevat het West-Vlaams, Oost-Vlaams en het Limburgse dialect met hoge sprekersfracties Het Antwerpse en het Brabantse dialect worden van elkaar gescheiden door de combinatie uitgesproken foneem /E/ - herkend foneem /e/. Het interval 0% tot 5% toont de laagste sprekersfracties voor het Antwerpse dialect aan. In de hogere intervallen wijzen de grootste sprekersfracties het Antwerpse dialect aan Het West-Vlaams kan onderscheiden worden van het Oost-Vlaams en Limburgs door de meting van de APP uitgesproken foneem /G/ - herkend foneem /h/. Ook meting van uitgesproken foneem /o/ - herkend foneem /u/ onderscheidt de drie dialecten van elkaar Het Oost-Vlaams wordt met het herkend foneem /u/ bij uitspraak /o/ onderscheiden van de andere dialecten Het Limburgs wordt onderscheiden van het West-Vlaams en het Oost-Vlaams door het uitgesproken foneem /o/ - herkend foneem /u/. In het interval 0% tot 5% heeft het Limburgs heel grote sprekersfracties terwijl het West- en Oost-Vlaams lage sprekersfracties aangeven. De tweeklanken blijken informatie te bevatten om alle dialecten van elkaar te discrimineren, terwijl de klinkers vooral de clusters kunnen discrimineren. Dit is te verklaren door het feit dat klinkers en tweeklanken door een regionaal accent op een verschillende articulatieplaats gerealiseerd worden. Tweeklanken bieden nog meer

47 Conclusie dan klinkers de mogelijkheid tot klankvariatie aangezien zij minder voorkomen in gesproken taal dan klinkers. Daardoor is de inmenging van andere accenten in deze fonemen uiterst miniem. Dit vormt tegelijkertijd een nadeel. Het minder voorkomen van tweeklanken resulteert in een mindere aanwezigheid van data in de steekproef database waardoor er een minder nauwkeurig histogram wordt opgesteld en het dus complexer is om conclusies op basis van dit histogram te nemen 4.3 Conclusie Het onderzoek behandelt de distributie van de fonemen in de regiotaal. Door het opstellen van de histogrammen die de sprekersfracties aangeven van het herkende foneem - uitgesproken foneem kunnen de foneemparen aangeduid worden die de dialecten van elkaar onderscheiden. Uit de analyses blijkt dat de foneemcombinaties /I/ versus /i/, /E/ versus /e/, //G/ versus /h/, /o/ versus /u/ en /o/ versus /o/ typische fonemen zijn waarmee een dialect kan worden geïdentificeerd en waarmee de dialecten onderling van elkaar kunnen worden gedistantieerd. Bij het onderzoek naar de distributie van de fonemen worden de fonemen door het opstellen van de histogrammen op statistisch vlak benaderd. Bij vergelijking van de resultaten van dit onderzoek met de resultaten uit het onderzoek waarbij het verband uitgesproken foneem - herkend foneem werd geanalyseerd (hoofdstuk 2), worden dezelfde vaststellingen bekomen. De twee verschillende analyses leiden tot dezelfde resultaten waardoor kan geconcludeerd worden dat de resultaten in het tweede hoofdstuk en dit hoofdstuk wel degelijk afkomstig zijn van de dialecten. Er kan worden gesteld dat de foneemparen herkend foneem - uitgesproken foneem uit vorige hoofdstukken het discriminerend karakter bezitten om de dialecten te kunnen identificeren. De foneemparen zullen de cues vormen om de dialecten te classificeren. In het volgende hoofdstuk wordt een eerste classificatie met zes handmatig gekozen cues uitgevoerd. Het discriminerend karakter van de foneemparen (uitgesproken foneem - herkend foneem) wordt nagegaan voor de foneemparen /I/ versus /i/, /E/ versus /e/, /G/ versus /h/, /o/ versus /o/, /u/ versus /o/, en /o/ verus /u/. 37

48 Hoofdstuk 5 Classificatie op basis van handmatig gekozen cues In de vorige hoofdstukken werden de regionale taalvariaties vanuit drie verschillende invalshoeken bestudeerd. Eerst werd het verband van het herkend foneem met het uitgesproken foneem opgespoord. Daarna werd het verloop van het herkend foneem binnen het tijdsdomein onderzocht. Tenslotte werd de distributie van de fonemen in de regiotaal geanalyseerd. De verschillende onderzoeken van de fonemen van de regiotalen resulteerden in de kennis van de indicerende fonemen voor het dialect. Met deze gekende fonemen wordt in dit hoofdstuk de classificatie van de dialecten uitgevoerd. 5.1 Doel van de classificatie Het doel bij de classificatie is het onderscheiden van de vijf regionale taalvarianten van het Standaardnederlands bij spontane spraak door Vlaamse sprekers. Dit betekent dat de vijf Vlaamse dialecten moeten kunnen geïdentificeerd en gediversifieerd worden aan de hand van de gekende indicerende fonemen. Bij de classificatie met handmatig gekozen foneemparen is het doel niet meteen om een hoge classificatiegraad van elk dialect te bekomen. Er wordt namelijk gewerkt met een beperkt aantal fonemen. Een hoge classificatiegraad kan dan niet bekomen worden aangezien er slechts zes foneemparen van 1444 mogelijke cues wordt aangewend. Wel moet er minstens een classificatiegraad van 20 procent bekomen worden want dit percentage wordt ook behaald bij het random classificeren van alle testpersonen. Vooral een inzicht krijgen in hoe die classificatiegraad tot stand komt en het effect van de volgorde van de cues bij het bepalen van de classificatiegraad wordt bij deze classificatie nagegaan. In hoofdstuk 6 wordt de classificatie op basis van automatisch bepaalde cues beschreven. Hier is het dan wel de bedoeling om hoge classificatiegraden te bekomen. 38

49 Transformatie van de data 5.2 Transformatie van de data Experimenteel kader Het bestand waarop de classificatie wordt toegepast is de CGN-database 1. De database bevat spontane eigentijdse spraak in het Standaardnederlands zoals die door volwassenen in Vlaanderen wordt gesproken. Naast de spraak is als extra informatie de geboorteregio, de woonregio en de regio van opleidings van de sprekers opgenomen. Transformatie De distributie in APP van elk uitgesproken foneem wordt voor elk dialect en elke spreker nagegaan. Berekeningen worden meestal uitgevoerd op normaalverdelingen wegens een grote vermindering van de rekencomplexiteit. Zoals blijkt uit de histogrammen in hoofdstuk 4, is het veronderstellen van een normaalverdeling op de APP niet correct. De grootste reden hiervoor is het voorkomen van de a posteriori probabiliteitwaarden tussen 0 en 1. Een normaalverdeling veronderstellen op de APP zal aanleiding geven tot negatieve waarden, wat niet mogelijk is. Toch kan er een normaalverdeling verondersteld worden als de data eerst getransformeerd wordt door het nemen van het logaritme ervan. De transformatie met een logaritme zorgt ervoor dat er bij veronderstelling van een normaalverdeling, een verwaarloosbare kans is dat er a posteriori probabiliteitswaarden voorkomen buiten het mogelijke interval. De veronderstelling van een normaalverdeling is te rechtvaardigen door het opstellen van een normaalkwantielplot, ook wel Q-Q-plot genoemd [23] [24]. Kwantielen zijn maten voor de locatie van een verdeling. Ze worden bekomen door eerst de APP te ordenen in stijgende waarden en daarna de data op te delen in gelijke intervallen. Ze geven aan rond welke waarden de observaties in een verdeling liggen. Bekende voorbeelden van kwantielen zijn bijvoorbeeld de percentielen waarbij de geordende APP onderverdeeld worden in 100 groepen van eenzelfde omvang. Om te controleren of de veronderstelling van een normaalverdeling over de logaritme van de APP gerechtvaardigd is, wordt als voorbeeld figuur 5.1 getoond. De kruisen stellen de cumulatieve kansen van de logaritme van het foneempaar /E/ - /e/ voor, terwijl de gestreepte rechte lijn hetzelfde doet voor een standaardnormaalverdeling. Hoe dichter de datapunten bij de rechte lijn liggen, hoe meer de aanname van een standaardnormaalverdeling gerechtvaardigd is. Figuur D.1 in de bijlage toont hetzelfde voor uitgesproken foneem /I/ - herkend foneem /i/. Beide figuren duiden sterk een normaalverdeling aan. 1 CGN staat voor Corpus Gesproken Nederlands 39

50 5. Classificatie op basis van handmatig gekozen cues Figuur 5.1: Normaalkwantielplot bij uitgesproken foneem /E/ - herkend foneem /E/ Distributie van de cues Eerst moet een globale distributie van elke cue gemaakt worden voor elk dialect. De data wordt in twee groepen opgesplitst. Een eerste groep data bevat personen die zowel geboren zijn, gestudeerd hebben, als wonen in dezelfde regio. Zij zullen fungeren als trainingsdata. De distributies van de APP, horend bij een dialect, worden bepaald aan de hand van deze trainingssprekers. Het West-Vlaams wordt voorgesteld door 19 sprekers, het Oost-Vlaams door 16 sprekers. De trainingsdata voor het Antwerps telt 12 sprekers, de trainingsdata voor het Brabants telt 17 sprekers en het Limburgs wordt voorgesteld door 22 sprekers. De andere groep data bevat de overige 50 sprekers, die als testsprekers gebruikt zullen worden. Deze personen hebben geen drie overeenkomstige regio s. Door het aanwezig zijn van factoren, zoals bijvoorbeeld het studeren in een andere provincie, wordt een extra complexiteit aan de classificatietest toegevoegd. Op basis van de APP horend bij de testsprekers, wordt de classificatie uitgevoerd. 5.3 Classificatie De classificatie wordt aangevat met de foneemparen: /I/ versus /i/, /E/ versus /e/, /G/ versus /h/, /o/ versus /o/, /u/ versus /o/ en /o/ versus /u/. Uit de vorige hoofdstukken bleken zij een goed discriminatief karakter te vertonen. 40

51 Classificatie Basisprincipes voor de classificatie Het belangrijkste uitgangspunt bij het classificeren van de dialecten is dat dit consistent gebeurt. Dit is te verwezenlijken door het volgen van enkele regels: Consistentie bij alle uitgesproken woorden: aarzelingen, versprekingen, onverstaanbare woorden, woorden uit een andere taal of nieuwe woorden mogen geen aanleiding geven tot misclassificatie Consistentie bij alle geluiden: sprekersgeluiden zoals gelach, gekuch, mogen geen aanleiding geven tot misclassificatie Aangezien aan beide voorwaarden voldaan is in de data, is classificatie mogelijk. Het classificatiecriterium Als classificatiecriterium wordt Bayesiaanse classificatie toegepast: arg max P ( d(x, y) µ t(x, y) ) (5.1) d=w,o,a,b,l Bij een Bayesiaanse classificator wordt de maximale probabiliteit gezocht dat een observatie van een testspreker µ t tot één van de vijf Vlaamse dialecten d = W, O, A, B, L behoort. Het dialect dat de grootste probabiliteit heeft om een gegeven testspreker te bevatten wordt geselecteerd. Via de regel van Bayes ( P ( µt (x, y) d(x, y) ) ) P (d(x, y)) P ( d(x, y) µ t (x, y) ) = P (µ t (x, y)) (5.2) wordt dit, omdat de noemer onafhankelijk is van het dialect, arg max P ( µ t (x, y) d(x, y) ) P (d(x, y)) (5.3) waarbij de a priori probabiliteiten van de dialecten equiprobabel verondersteld worden. Uitvoering van de classificatie De methode bestaat uit de volgende stappen: de logaritmische transformatie van APP wordt uitgevoerd voor alle gekozen foneemparen één van de cues wordt geselecteerd uit de bovengenoemde foneemparen. Deze wordt bij de trainingsdata gebruikt om het dialect voor te stellen. 41

52 5. Classificatie op basis van handmatig gekozen cues op basis van het classificatiecriterium wordt de testpersoon toegewezen aan een dialect na de toewijzing van alle personen wordt nagegaan hoeveel personen juist geclassificeerd werden Deze vier stappen worden herhaald voor alle cues. 5.4 Resultaten De eerste classificatie wordt uitgevoerd met de opeenvolgende aanwending van de volgende fonemen: /I/ versus /i/, /E/ versus /e/, /G/ versus /h/, /o/ versus /o/, /u/ versus /o/ en /o/ versus /u/. Het selecteren van meerdere cues tegelijk gebeurt door het opstellen van een multivariate gaussiaanse verdeling. Een zesdimensionale gaussiaanse verdeling wordt in dit geval opgesteld als alle foneemparen in rekening worden gebracht. Figuur 5.2 toont het verloop van classificatiegraad naar de drie regio s bij het gebruik van de foneemparen in de bovengenoemde volgorde. Bij het aanwenden van Figuur 5.2: Classificatiegraden van geboorteregio bij aanwenden van eerste set fonemen opeenvolgende foneemparen wordt een stijging van de classificatiegraad verwacht. Uit de figuur blijkt dat bij het aanwenden van een groter aantal foneemparen een grotere classificatiegraad bekomen wordt. Toch geeft niet elke toevoeging van foneempaar een opeenvolgende stijging. Er wordt vastgesteld dat de volgorde van het aanwenden van de 42

53 Resultaten cues een belangrijke rol speelt. Het experiment wordt herhaald met een andere volgorde van aanwenden van de foneemparen. Figuur 5.3 wordt bekomen bij aanwenden van de foneemparen /u/ versus /o/, /o/ versus /u/, /o/ versus /o/, /G/ versus /h/, /E/ versus /e/ en /I/ versus /i/. Uit Figuur 5.3: Classificatiegraden van geboorteregio bij aanwenden van tweede set fonemen de vergelijking van figuren 5.2 en 5.3 valt vast te stellen dat: de volgorde van het aanwenden van verschillende foneemcombinaties een rol speelt in de mate waarin de classificatiegraad stijgt. Ten opzichte van figuur 5.2 is er naarmate de toevoeging van opeenvolgende foneemparen een stijging van opeenvolgende classificatiegraad op te merken de totale classificatiegraad na het aanwenden van een gelijk aantal foneemparen blijft gelijk Tabel 5.1 toont de classificatiegraad die bekomen wordt bij het gebruik van de zes foneemparen. De woonregio wordt het best geclassificeerd. Maximale classificatiegraden geboorteregio woonplaats opleidingsregio 34% 35.9% 30.2% Tabel 5.1: Classificatiegraden bij Bayesiaanse classificatie bij gebruik van zes foneemparen 43

54 5. Classificatie op basis van handmatig gekozen cues 5.5 Conclusie Om het discriminerend karakter van de foneemparen (uitgesproken foneem - herkend foneem) na te gaan voor de foneemparen /I/ versus /i/, /E/ versus /e/, /G/ versus /h/, /o/ versus /o/, /u/ versus /o/, en /o/ versus /u/, werd een classificatie uitgevoerd op de CGN database. De zes handmatig gekozen cues werden eerst in de bovenstaande volgorde aangewend. Er werd vastgesteld dat een classificatie op basis van APP met de cues mogelijk was want alle classificatiegraden zijn groter dan 20%. De classificatie naar woonregio geeft de beste resultaten, namelijk 35.9%. De classificatie naar geboorteregio en regio van opleiding bedragen respectievelijk 34% en 30.2%. In een andere volgorde van aanwenden van de cues, namelijk /u/ versus /o/, /o/ versus /u/, /o/ versus /o/, /G/ versus /h/, /E/ versus /e/ en /I/ versus /i/, werd een tweede classificatie ondernomen. Daarbij werd vastgesteld dat de volgorde van het aanwenden van de verschillende foneemcombinaties een rol speelt in de mate waarin de classificatiegraad stijgt. Daarnaast werd vastgesteld dat de totale classificatiegraad na het aanwenden van dezelfde foneemparen gelijk blijft. In het volgende hoofdstuk zullen twee verbeteringen op de classificatiemethode met de handmatig gekozen cues worden doorgevoerd. Een eerste verbetering betreft het aanwenden van meerdere foneemparen in de classificatie. Een tweede verbetering betreft het bepalen van de foneemvolgorde op basis van een variantieanalyse. In het volgende hoofdstuk wordt de automatische classificatie met deze twee verbeteringen besproken. 44

55 Hoofdstuk 6 Automatische classificatie In hoofdstuk 5 werd de classificatie van de dialecten op basis van handmatig gekozen cues uitgevoerd. Het experiment richtte zich op het onderscheiden van de dialecten door middel van de foneemparen /I/ versus /i/, /E/ versus /e/, /G/ versus /h/, /o/ versus /o/, /u/ versus /o / en /o/ versus /u/. De uitvoering van de classificatie van de dialecten naar woonregio resulteerde in een voldoende scheidingspercentage van de dialecten: 35 procent. Er werd beslist twee verbeteringen op de classificatie met handmatig gekozen cues door te voeren. Een eerste verbetering betreft het aanwenden van meerdere foneemparen. Een tweede verbetering betreft het bepalen van de foneemvolgorde op basis van een variantieanalyse. Dit moet leiden tot een betere classificatiegraad. In dit hoofdstuk wordt de automatische classificatie van de dialecten beschreven. Eerst wordt met behulp van ANOVA bepaald welke fonemen het meest discriminant zijn voor de classificatie. Later wordt nagegaan hoeveel cues er aangewend moeten worden om de hoogste classificatiegraad te bekomen. In het eerste deel van dit hoofdstuk wordt het statistisch begrip ANOVA [25] uitvoeriger uitgelegd. Daarop volgend wordt de algemene procedure beschreven die toegepast wordt om de automatische classificatie uit te voeren. In het laatste deel worden de bekomen resultaten beschreven en geanalyseerd. 6.1 ANOVA Algemene theorie ANOVA [26] [27] [28] staat voor Analysis of variance en is een statistische methode die gebruikt wordt om populatiegemiddelden van verschillende groepen met elkaar te vergelijken. ANOVA is te beschouwen als een generalisatie van de t-test met dit verschil: er wordt in ANOVA niet gerekend met de gemiddelden zelf. De berekeningen zijn gebaseerd op de varianties in de groepen. ANOVA gaat uit van een nulhypothese die stelt dat de gemiddelde waarden van alle 45

56 6. Automatische classificatie populaties gelijk zijn aan elkaar. Concreet zijn er vijf regionale dialecten en zij vormen de vijf populaties die ANOVA vergelijkt: H 0 : µ W = µ O = µ A = µ B = µ L (6.1) waarbij W, O, A, B en L staan voor het desbetreffende dialect. De alternatieve hypothese stelt dat minstens één gemiddelde significant verschilt van de andere gemiddelden. De nulhypothese wordt toegepast op alle mogelijke foneemcombinaties. Als de nulhypothese verworpen wordt, kan men concluderen dat minstens één dialectgemiddelde verschilt van de andere dialectgemiddelden. Dit betekent dan dat het foneempaar minstens één dialect kan onderscheiden van de andere. ANOVA test de verschillen tussen de gemiddelden met behulp van een variantieanalyse. De test is gebaseerd op twee schattingen: De Mean Square Error of MSE. MSE beschrijft de variantie van de APP binnenin de dialecten als gevolg van afwijkingen binnen elke dialect ten opzichte van het gemiddelde van het dialect De Mean Square Between of MSB. MSB beschrijft de variantie van de APP tussen de dialecten als gevolg van de afwijkingen van de gemiddelden van de dialecten ten opzichte van het algemeen gemiddelde Als de gemiddelden van de dialecten aan elkaar gelijk zijn, dan klopt de hypothesetest en schat de MSB de echte variantie van de dialecten. Als de gemiddelden van de dialecten niet gelijk zijn, dan wordt de hypothesetest verworpen en zal MSB een veel grotere waarde dan de echte variantie (MSE) aanduiden. De uitkomst van de hypothesetest is afhankelijk van de verhouding tussen MSE en MSB: als MSB veel groter is dan MSE, dan is het onwaarschijnlijk dat de gemiddelden van de dialecten gelijk zijn als MSB ongeveer gelijk is aan MSE, dan is de data consistent met de nulhypothese dat de gemiddelden van de dialecten gelijk zijn Vooraleer ANOVA effectief te kunnen toepassen, moet er rekening gehouden worden met enkele veronderstellingen die ANOVA als basisprincipes heeft. Deze aannames zijn dezelfde als voor de t-test, maar dan toegepast op meerdere groepen: 46 De populaties, in dit geval de vijf dialecten, moeten éénzelfde variantie hebben. Aan deze voorwaarde is voor alle cues voldaan. Als voorbeeld wordt gerefereerd naar de varianties voor het uitgesproken foneem /E/ - herkend foneem /E/. Tabel 6.1 toont aan dat ze ongeveer gelijk zijn per provincie. Het gemiddelde is 0.105, met als maximale afwijking 7.22% bij het West-Vlaams en het Limburgs. De populaties moeten normaal verdeeld zijn. De APP zijn getransformeerd met behulp van een logaritmische functie zodat men mag veronderstellen dat de probabiliteiten van alle sprekers die behoren tot een dialect gekarakteriseerd kunnen worden door een normaalverdeling, gegeven een cue (zie 5.2). Aan deze veronderstelling is voldaan.

57 ANOVA W O A B L waarde afwijking 7.22% -3.23% 6.93% -3.70% -7.22% Tabel 6.1: De populatievarianties voor uitgesproken foneem /E/ - herkend foneem /E/ Elke waarde is onafhankelijk van een andere waarde. Deze voorwaarde stelt dat elke spreker maar één waarde mag voortbrengen. Dit is het geval want er wordt cue per cue onderzocht in hoeverre deze cue bijdraagt tot discriminatie van de dialecten. Elke testpersoon en elk dialect geven telkens maar één waarde per cue. Als aan deze voorwaarden voldaan is, kan ANOVA toegepast worden om waarden te geven aan de cues. Deze waarden geven een indicatie over hoe sterk de cue de dialecten kan discrimineren. De cues die de sterkste discriminatieve vermogens hebben worden in een latere fase gebruikt om de classificatie te voltooien. Wiskundige formulering Gegeven een cue kan elk dialect volledig beschreven worden op basis van de verwachtingswaarden µ W, µ O, µ A, µ B, µ L en de varianties σ W, σ O, σ A, σ B, σ L. Deze varianties zijn gelijk aan elkaar zoals vroeger getoond in tabel 6.1. De werkwijze van ANOVA start door eerst het gemiddelde te berekenen van de vijf regionale dialecten en per dialect de afwijking ten opzichte van het gemiddelde vast te stellen. Als µ het gemiddelde voorstelt en de index d staat voor een dialect, dan kan men de afwijking α per dialect berekenen via µ d = µ + α d (6.2) waarbij αd = 0 (6.3) en µ het gemiddelde is over de vijf regionale dialecten. α d geeft informatie over de verschillen tussen de dialecten. Stelt men elke spreker voor als X sd waarbij s de index van de spreker voorstelt en d de index van het dialect waartoe de spreker behoort, dan kan men per testspreker stellen dat X sd = µ + α d + U sd (6.4) 47

58 6. Automatische classificatie waarbij U sd de afwijking, eigen aan de testpersoon voorstelt. De totale kwadratensom of Total Sum of Squares (SST) van de afwijkingen ten opzichte van het gemiddelde X over alle gekozen testpersonen wordt gegeven door SST = S s=1 d=w,o,a,b,l (X sd µ) 2 (6.5) waarbij er verondersteld is dat uit elk dialect een gelijk aantal, namelijk S, testpersonen gekozen worden ter vereenvoudiging van de notatie in de formule. Verder uitwerken geeft SST = S s=1 d=w,o,a,b,l (X sd µ + µ d µ d ) 2 (6.6) waarbij µ d overeenkomt met de gemiddelde waarde over alle gekozen testsprekers binnen één dialect. Deze formule kan nog verder opgesplitst worden tot SST = S s=1 d=w,o,a,b,l (X sd µ d ) 2 + S d=w,o,a,b,l (µ d µ) 2 (6.7) Deze laatste stap kan men gemakkelijk begrijpen als men de kwadraatterm uitwerkt rekening houdend met de onafhankelijkheid van de sprekers. De eerste term SSE = S s=1 d=w,o,a,b,l (X sd µ d ) 2 (6.8) wordt aangeduid met Error Sum of Squares of SSE en is een maat voor de variantie binnen de groepen als gevolg van afwijkingen binnen elke groep ten opzichte van het groepsgemiddelde. De tweede term SSB = S d=w,o,a,b,l (µ d µ) 2 (6.9) wordt de Between Sum of Squares of SSB genoemd en is een maat voor de variantie tussen de groepen als gevolg van de afwijkingen van de groepsgemiddelden ten opzichte van het algemeen gemiddelde. Onder de nulhypothese waar de gemiddelden van de dialecten gelijk zijn geldt dat SSE σ 2 (6.10) 48

59 ANOVA een chi-kwadraatverdeling heeft met 5 (S 1) vrijheidsgraden. De waarde vijf is afkomstig van het aantal dialecten die de classificatie uitmaken. Analoog is SSB σ 2 (6.11) chi-kwadraatverdeeld met 4 vrijheidsgraden, namelijk het aantal dialecten die de classificatie uitmaken min 1. Nu bekomt men uiteindelijk de toetsingsgrootheid voor de nulhypothese als de verhouding tussen beide chi-kwadraatverdelingen met hun vrijheidsgraden. De verhouding voldoet aan een Fisher F-verdeling. F = SSB σ 2 (4) SSE σ 2 (5(S 1)) (6.12) Aangezien deze deling ervoor heeft gezorgd dat de onbekende variantie van de dialecten σ 2 is weggevallen, kan de F-ratio berekenend worden uit SSE en SSB. Deelt men de beide kwadratensommen met de bijhorende vrijheidsgraden, dan bekomt men de gemiddelde kwadratensommen MSE en MSB: MSE = SSE 5 (S 1) (6.13) MSB = SSB 4 (6.14) De F-ratio kan dan anders geschreven worden als F = SSB 4 SSE 5 (S 1) = MSB MSE (6.15) en heeft in dit geval 4 vrijheidsgraden in de teller en 5 (S-1) vrijheidsgraden in de noemer. Als de F-ratio grote waarden aanduidt kan men besluiten dat de nulhypothese niet waar is. Men verwerpt dan de nulhypothese. Een F-ratio die ongeveer 1 is, duidt op een aanname van de nulhypothese. Op basis van de F-ratio wordt een P-waarde bepaald. De P-waarde wordt bepaalt op basis van een tweezijdige hypothesetest of de kans dat een uitkomst die even extreem of nog extremer is dan de waargenomen F-ratio. Lage P-waardes duiden op een verwerping van de hypothesetest, wat overeenkomt met de conclusie dat de geëvalueerde cue dus gebruikt kan worden voor classificatie. 49

60 6. Automatische classificatie Relatie tussen ANOVA en t-test ANOVA en de t-test zijn beide hypothesetesten die de verschillen tussen gemiddelden testen. De t-test kan alleen het verschil testen bij twee gemiddelden. ANOVA neemt alle data samen, in dit geval dus de vijf regionale dialecten, en geeft één enkele F-ratio met bijhorende overschrijdingskans (P-waarde) voor de nulhypothese. Als men dus alleen twee gemiddelden moet vergelijken met elkaar, zijn de t-test en ANOVA analoog aan elkaar en geven ze hetzelfde resultaat. Men kan ook de t-test verschillende keren gebruiken door de test op alle paren dialecten toe te passen. Deze veelvuldige toepassing van de t-test is omslachtig omdat het aantal dialectvergelijkingen redelijk hoog ligt. Om alle paren dialecten met elkaar te vergelijken zouden er 10 t-testen uitgevoerd moeten worden tegenover 1 test via ANOVA. Er worden dus bij het gebruik van de t-test 10 overschrijdingskansen bekomen, tegenover één bij ANOVA. Daardoor is het moeilijker om bij de t-test goede conclusies te trekken: uit 10 verschillende waarden moet men besluiten of de hypothesetest voldoet of niet. Omdat ANOVA beter toepasbaar is op complexe experimentele data, wordt ANOVA gebruikt. 6.2 Automatische classificatiemethode ANOVA selecteert de fonemen die het meeste bijdragen tot het discrimineren van een dialect. Op basis van deze selectie worden de belangrijke discriminerende fonemen toegevoegd aan de cue en wordt de classificatie uitgevoerd. De verandering van de classificatiegraad per toegevoegd foneem wordt dan in grafiek gebracht om een visueel beeld te bekomen van de procesevolutie. De stappen die uitgevoerd worden zijn: Voor elke spreker in de data wordt vertrokken van de kansen P ( invloed foneem x uitgesproken foneem y ). Deze stap is identiek aan de stap gebruikt in de classificatie bij de handmatig uitgekozen zes foneemparen. Bij automatische classificatie wordt deze stap voor alle 1444 foneemparen uitgevoerd De data wordt opgesplitst in twee groepen. De eerste groep bevat data van sprekers die representatief zijn voor het dialect. Ze bevat data van personen die zowel geboren zijn, gestudeerd hebben, als wonen in dezelfde regio. Deze data zal fungeren als trainingsdata. De tweede groep data bevat de data van sprekers die fungeren als testsprekers. Opnieuw is de stap van het opdelen van de data identiek aan de stap genomen bij classificatie op basis van zelf gekozen cues ANOVA onderzoekt het discriminatief vermogen van elk foneempaar. Het resultaat wordt afgelezen op een boxplot. Een boxplot is een grafiek waar de data samengevat wordt door de mediaan, de bovenkwartiel en de onderkwartiel 1. De mediaan is de middelste a posteriori probabiliteitswaarde aanwezig in de steek- 1 Het begrip kwartiel en kwantiel werd uitgelegd in

61 Automatische classificatiemethode proefdata, na rangschikking van de probabiliteiten van klein naar groot. Als de data bestaat uit een even aantal waarden, dan wordt het gemiddelde van de twee middelste waarden gebruikt als mediaan. De bovenkwartiel, ook 75ste percentiel genoemd, komt overeen met de steekproefwaarde waarbij 75% van de APP een lagere waarde vertoont na rangschikking van de data van klein naar groot. De onderkwartiel of 25ste percentiel komt overeen met de steekproefwaarde waarbij 25% van de APP een lagere waarde vertoont, opnieuw na rangschikking van de data van klein naar groot. Figuur 6.1 laat een voorbeeld van een boxplot zien voor het foneempaar /I/ - /i/. Op de x-as worden de dialecten getoond. De y-as duidt Figuur 6.1: Boxplot voor uitgesproken foneem /I/ - herkend foneem /i/ de waarden voor de APP aan. De blauwe rechthoeken geven de bovenkwantiel en onderkwantiel weer. Het bereik tussen deze twee waarden wordt het interkwartielbereik genoemd. De rode lijn in de blauwe rechthoek staat voor de waarde van de mediaan. Ideale data impliceert dat de mediaan in het midden tussen de bovenkwartiel en onderkwartiel ligt. In dit voorbeeld geldt dit vooral voor het Antwerpse maar niet voor het Oost-Vlaamse dialect. De zwarte stippelijnen verbinden de maximale en minimale waarden in de data met de kwartielen. Rode kruisjes tenslotte zijn datapunten die sterk verschillen van de andere waarden in de data. Daarom worden ze buiten beschouwing gelaten. Op basis van de boxplot kan het discriminatief vermogen onderzocht worden voor een bepaald foneempaar. In figuur 6.1 bijvoorbeeld is het interkwartielbereik van Limburg en West-Vlaanderen gelegen in een lager waardendomein van de APP dan voor de provincie Brabant en Antwerpen. Op basis van dit foneempaar is er een onderscheid mogelijk tussen beide groepen dialecten ANOVA kent op een mathematische wijze (zie 6.1) aan de foneemparen een P- waarde toe, die de mate van hun discriminatief vermogen voor de dialecten inhoudt. Hoe lager de P-waarde, hoe beter het discriminatief karakter van het foneempaar 51

62 6. Automatische classificatie Op basis van de P-waarden gebeurt de classificatie. Eerst wordt het foneempaar met de laagste P-waarde geselecteerd. Dit foneempaar wordt als eerste gebruikt voor de classificatie. Het classificatiecriterium is identiek aan dat gebruikt bij classificatie op basis van handmatig geselecteerde cues: max P ( d(x, y) µ t (x, y) ) (6.16) De classificatiegraad bekomen door het gebruik van dit foneempaar wordt berekend Het foneempaar met de tweede laagste P-waarde wordt gecombineerd met het vorige geselecteerde foneempaar. Er wordt multivariate verdeling opgesteld voor beide foneemparen. Op basis van deze multivariate verdeling wordt de classificatiegraad opnieuw berekend. Daarna wordt het foneempaar met de derde laagste P-waarde geselecteerd en gecombineerd met de vorige twee foneemparen tot een driedimensionale multivariate verdeling. De classificatiegraad voor gebruik van drie foneemparen wordt berekend. Men blijft deze stap herhalen tot alle foneemparen gebruikt zijn om de classificatie uit te voeren 6.3 Resultaten De automatische classificatie wordt uitgevoerd met alle foneemparen. Een eerste classificatie van de CGN-data wordt uitgevoerd met P-waarden berekend met de CGN-data. De tweede classificatie gebeurt met de classificatie van CGN-data met P-waarden berekend met de CoGeN-data Classificatie van CGN-data, training met CGN-data Figuur 6.2 geeft de procesevolutie van de classificatiegraad naar de drie regio s bij de aanwending van alle cues bij de automatische classificatie van de dialecten. De zwarte curve illustreert de classificatiegraad naar de geboorteregio, de blauwe curve voor de woonplaats en de rode curve toont het verloop van de classificatiegraad naar de regio van opleiding. De procesevolutie van de classificatiegraden naar de drie regio s tonen dat: er een globale stijging van de classificatiegraad bekomen wordt door een afwisselend stijgings- en dalingsverloop van de classificatiegraad, zelfs bij het aanwenden van een relatief klein aantal foneemparen de beste classificatie naar de woonregio bekomen wordt, gevolgd door de classificatie naar opleiding en naar geboorteregio het aanwenden van alle foneemparen niet leidt tot een steeds hogere classificatiegraad: de classificatiegraad satureert en daalt uiteindelijk bij aanwenden van een groter aantal foneemparen De daling van de classificatiegraad na saturatie is logisch, aangezien foneemparen met weinig discriminatief vermogen worden toegevoegd. Deze dragen niet bij tot de classificatie. 52

63 Resultaten Figuur 6.2: Classificatiegraden waarbij P-waarden berekend zijn met CGN-data De voorgaande redenering kan niet gevolgd worden bij de dalingen vóór het bereiken van de saturatie van de classificatiegraad, bij gebruik van een relatief weinig aantal foneemparen. De foneemparen die vóór de saturatie worden aangewend, zouden volgens ANOVA veel discriminatief vermogen moeten bezitten en moeten resulteren in een verbetering van de classificatiegraad. Uit de figuren blijkt dat dit niet zo is. Twee dalingen van de classificeringsgraad vallen op te merken voor het bereiken van de maximale classificeringsgraad. Tabel 6.2 geeft een overzicht bij het gebruik van alle foneemparen. Geboorteregio Opleidingsregio Woonregio maximale classificatiegraad 32.1% 35.8% 43.4% aantal nodige foneemparen Tabel 6.2: Maximale classificatiegraad bij berekening P-waarden met CGN-data In 5.4 werd een eerste automatische classificatie aangevat met het aanwenden van handmatig gekozen cues met de data van de CGN-database. Er wordt vermoed dat de daling in de classificatiegraad te wijten is aan te weinig sprekers in de trainingsdata per provincie. In de CGN-data wordt namelijk het West-Vlaams voorgesteld door 19 sprekers, het Oost-Vlaams door 16 sprekers. De CGN-trainingsdata die het Antwerps voorstelt telt 12 sprekers, de trainingsdata voor het Brabants telt 17 sprekers en het Limburgs wordt voorgesteld door 22 sprekers. Het volgende experiment wordt aangevat met een andere opsplitsing van de datagroepen. De CoGeN-database wordt hier als traningsdata genomen. De CGN-database wordt als testdata genomen. De trainingsdata bestaat uit meer sprekers van het dialect waardoor 53

64 6. Automatische classificatie een duidelijke multivariate distributie kan opgesteld worden om de dialecten voor te stellen. In de CoGeN-data wordt het West-Vlaams en het Oost-vlaams telkens voorgesteld door 36 sprekers. Het Antwerps wordt door 42 sprekers voorgesteld en het Brabants door 26 sprekers. Voor het Limburgse dialect zijn er 34 sprekers in de CoGeN-database. Met de CoGeN-data wordt dan getraind waardoor in de testdata ook sprekers van alle regio s aanwezig zijn. Classificatie van CGN-data, training met CoGeN-data Bij dit experiment wordt de CoGeN-data gebruikt als trainingsdata. Het gebruik van CoGeN-data als trainingsdata heeft het voordeel dat de dialectkenmerken duidelijk aanwezig zijn en er een duidelijke multivariate distributie kan berekend worden. Hoe groter het aantal trainingsdata aanwezig, hoe beter de multivariate distributie van het dialect. De classificatiegraad naar woonregio is het grootst. De maximale classificatie van Figuur 6.3: Classificatiegraden waarbij de P-waarde berekend zijn met de CoGeN-data Geboorteregio Opleidingsregio Woonregio maximale classificatiegraad 35.8% 39.7% 47.2% aantal nodige foneemparen Tabel 6.3: Maximale classificatiegraad bij berekening P-waarde met CoGeN-data 47.2% wordt bereikt na aanwending van 190 cues. Daarna daalt de classificatiegraad geleidelijk. De tweede grootste classificatiegraad wordt bekomen bij de classificatie naar 54

65 Conclusie de regio van opleiding. De maximale classificatiegraad bij deze periode bedraagt 39.7% en wordt bekomen na 245 cues. Een lichte daling wordt waargenomen na het maximum. De classificatiegraad naar de regio van opleiding is gelijklopend met de classificatiegraad naar de geboorteregio tot foneempaar 163. Daar bereikt de classificatiegraad zijn maximale waarde. Meer foneemparen toevoegen leidt tot een sterke daling van de classificatiegraad. Tabel 6.3 geeft een overzicht van de resultaten. 6.4 Conclusie Om te komen tot een tweede automatische classificatie werd het discriminerend karakter van de foneemparen uitgesproken foneem - herkend foneem nagegaan door de toepassing van een ANOVA analyse op de a posteriori probabiliteiten. De logaritmische transformatie van de APP per spreker en per dialect vertoont een overeenkomst met een normaalverdeling. Vergelijkingsmethodes van meerdere populaties, zoals ANOVA, kunnen daardoor toegepast worden. Er worden twee classificaties van de CGN-data uitgevoerd. Een eerste classificatiemodel wordt getraind met de CGN-data, een tweede classificatiemodel wordt met de CoGeN-data getraind. Uit de procesevoluties van de classificatiegraden naar de drie regio s (geboorte, opleiding, wonen) toe, wordt vastgesteld dat er een globale stijging van de classificatiegraden bekomen wordt tot aan een plateau gevormd door de maximale classificatiegraad. Daarna dalen de classificatiegraden terug geleidelijk. De beste classificatiegraad wordt bekomen met het model getraind met CoGeN-data. De classificatiegraad naar de woonregio toe is het meest doeltreffend en bedraagt 47.2% (met 190 cues), gevolgd door de classificatie naar de regio van opleiding (39.7% met 245 cues) en naar de regio van geboorte (35.8% met 163 cues). Het aanwenden van alle foneemparen leidt niet tot een steeds hogere classificatiegraad: de classificatiegraad satureert en daalt uiteindelijk bij het aanwenden van grotere aantallen foneemparen. De geautomatiseerde methode levert statistisch significante resultaten bij classificatie van de Vlaamse taalvarianten van het Standaardnederlands. 6.5 Suggesties en uitbreidingsmogelijkheden Uiteraard is met deze thesis geen definitief einde voor het ontwikkelen van een automatische classificator van de dialecten bekomen. Er zijn nog verschillende aspecten in de ontwikkeling waaraan verbeteringen mogelijk zijn en ook de uitbreidingsmogelijkheden zijn nog niet uitgeput. Dit deel geeft enkele suggesties en interessante uitbreidingen waarmee een automatische classificator van de dialecten eventueel kan worden uitgebouwd. Om zelf de uitbreidingen en de suggesties in deze thesis uit te werken, ontbrak het jammer genoeg aan tijd. 55

66 6. Automatische classificatie Het verwijderen van de foneemparen die weinig aanwezig zijn in de data tijdens de selectie van de data Bij de classificatie van CGN-data met P-waarden berekend op basis van de CGN-data (zie figuur 6.2), is vast te stellen dat de procesevolutie van de classificatiegraden naar de drie regio s een globale stijging van de classificatiegraden tonen via een afwisselend stijgings- en dalingsverloop van de classificatiegraad per regio, dit zelfs bij het aanwenden van een relatief klein aantal foneemparen. Ter verduidelijking wordt het verloop van de classificatiegraad naar woonregio overlopen (zie figuur 6.2): eerst stijgt de classificatiegraad bij het aanwenden van de eerste foneemparen tot een eerste top bij 75 foneemparen. Daarna daalt de classificatiegraad bij het aanwenden van de volgende foneemparen. De minimale classificatiegraad is bereikt bij het gebruik van 100 foneemparen. Daarna stijgt de classificatiegraad opnieuw bij het aanwenden van de volgende foneemparen tot een tweede top bij 145 foneemparen. Na een tweede daling met een minimum bij 340 foneemparen is de maximum classificatiesgraad bereikt bij 720 foneemparen. Bij het aanwenden van de daaropvolgende foneemparen satureert de classificatiegraad waarna opnieuw een daling wordt ingezet. De laatste daling is logisch aangezien foneemparen met weinig discriminatief vermogen worden toegevoegd. Deze dragen dus niet meer bij tot de classificatie. De eerste dalingen, één bij aanwenden van foneemparen 75 tot 100 en één bij gebruik van foneemparen 145 tot 340 zijn niet logisch. Deze foneemparen zouden theoretisch veel discriminatief vermogen moeten bezitten en moeten resulteren in een verbetering van de classificatierate. Bij het observeren van de foneemparen die de daling doen ontstaan van de classificatiegraad, blijken vooral de foneemparen die de fonemen /S/, /s/, /Z/ en /z/ bezitten, aanwezig te zijn in de data. Een mogelijke verklaring voor een daling in de classificatiegraad veroorzaakt door deze fonemen is de kleine aanwezigheid van deze fonemen in de data. Daardoor geven ze een vals beeld over hun discriminatief vermogen en kent ANOVA een verkeerde P-waarde toe. Het classificatie-experiment werd opgezet zonder deze fonemen in de data. Figuur E.1 in bijlage, stelt het classificatieverloop voor zonder het aanwenden van de fonemen /S/, /s/, /Z/ en /z/ in de cue. Zoals de figuur aantoont is de eerste daling van de classificatiegraad weggewerkt bij de classificatierate naar woonplaats en naar opleidingsregio. De eerste daling is nog vast te stellen, zij het in mindere mate, bij de classificatiegraad naar geboorteregio. In vergelijking met de classificatie waarbij alle foneemparen worden aangewend (figuur 6.2), wordt er bij het aanwenden van een beperkt aantal foneemparen (figuur E.1) een hogere classificatierate bekomen bij alle regio s. Bij classificatie naar de regio van opleiding wordt een verbetering van meer dan 10% vastgesteld. De verbetering is 5% bij de geboorteregio en 8% bij de classificatie naar woonregio. Tabel 6.4 toont een overzicht van de resultaten naar woonregio. Het nodige aantal foneemparen om de maximale classificatierate te bekomen is kleiner dan bij de classificatie waar alle foneemparen worden gebruikt. Bij de woonregio bijvoorbeeld daalt het aantal nodige foneemparen van 720 tot

67 Suggesties en uitbreidingsmogelijkheden Geboorteregio Opleidingsregio Woonregio maximale classificatiegraad 37.8% 49.1% 51.0% aantal nodige foneemparen Tabel 6.4: Maximale classificatiegraden bij aanwenden van een beperkt aantal cues Samengevat kan uit dit experiment geconcludeerd worden dat het selecteren van de data vooraleer de classificatie aan te vatten een dubbel voordeel biedt. Een grotere classificatiegraad wordt bekomen en dit bij het aanwenden van een kleiner aantal foneemparen. Uitbreiding van de classificatiemethode door middel van de metingen van APP in het tijdsdomein van herkend foneem In hoofdstuk 3 werd het onderzoek beschreven van het tijdsverloop van het herkende foneem in het tijdsdomein. De fonemen met de dialectkarakteriserende kenmerken die in dit hoofdstuk naar voor kwamen waren /E/ versus /e/, /o/ versus /o/ en /u/ versus /o/. Ze kwamen in aanmerking om de classificatie met de handmatig gekozen cues uit te voeren. Een punt dat in het onderzoek nog niet kon uitgevoerd worden betrof het experimenteren met de metingen van APP. Bij het onderzoek van de fonemen in het tijdsdomein werd besloten drie metingen APP uit te voeren in het tijdsverloop van het herkende foneem. Namelijk, een meting APP in het eerste vierde van het tijdsdomein, een tweede meting APP in het midden en een laatste meting APP in het laatste vierde van het tijdsdomein. Het vergelijken van de meetresultaten APP per herkend foneem in tijd, kan de dialecten identificeren en diversifiëren van elkaar. In hoeverre dit experiment zou bijdragen tot de verhoging van de classificatiegraad kon tot hiertoe niet nagetrokken worden. De waarschijnlijk eenvoudigste manier om bij te dragen aan de classificatiegraad zou er in bestaan om per dialect één typisch herkend foneem uit te zoeken die een duidelijk hoger APP verloop heeft over gans het tijdsdomein. Door de informatie in de spraakherkenner te implementeren zodat het foneem direct als indicator voor het dialect fungeert wordt het dialect gedetecteerd. In het onderzoek in hoofdstuk drie biedt het foneem /E/ versus /e/ deze mogelijkheid. Een meer gecompliceerde manier om de dialecten te identificeren is per dialect het typisch APP patroon van een herkend foneem te implementeren in de spraakcomputer, dit als indicator voor het respectievelijke dialect. Het onderzoek in hoofdstuk drie wijst uit dat de foneemverlopen in de tijd van /o/ versus /o/, /u/ versus /o/ en /E/ versus /e/ over die mogelijkheid beschikken. 57

68 6. Automatische classificatie Classificatie met foneemparen met P-waarden tot 5% ANOVA selecteert de foneemparen die het meeste bijdragen tot het discrimineren van een dialect op basis van de P-waarde. Het foneempaar met de laagste P-waarde wordt eerst aangewend om de classificatie aan te vatten. Foneemparen met steeds grotere P- waarde worden achtereenvolgend toegevoegd om de classificatie uit te voeren. Aldus wordt een hogere classificatiegraad bekomen. Er wordt geconstateerd dat niet alle cues dienen aangewend te worden om tot een maximale classificatiegraad te komen (zie 6.2 en 6.3). Naar praktische toepassing van de classificatie toe zou het aanwenden van een kleiner aantal cues resulteren in tijdswinst bij het berekenen. Bij ieder foneempaar dat ANOVA toevoegt, moet immers een multivariate verdeling opgesteld worden en moet de classificatiegraad berekend worden. Door het aanwenden van een kleiner aantal cues zou het eindresultaat sneller bereikt worden en zouden de dialecten uiteindelijk sneller worden geclassificeerd. Om uit te zoeken hoeveel cues er moeten aangewend worden om de hoogste classificatiegraad te bereiken worden de P-waarden nagegaan. Ter illustratie wordt het verloop van de P-waarde per toevoeging van een foneempaar in de bijlage getoond in figuur E.2. Uit de figuur blijkt dat het aanwenden van de foneemparen met P-waarden lager dan 5% een voldoende aantal cues oplevert waarmee de maximale classificatiegraad wordt bekomen. Het toevoegen van meerdere foneemparen met grotere overschrijdingskansen blijkt niet nodig te zijn. De classificatiegraad resulteert met een groter aantal cues in een daling. Door in de spraakherkenner een stopcriterium te implementeren die aangeeft dat de classificatie enkel moet gebeuren met foneemparen met P-waarden kleiner dan 5 procent, zou overbodig rekenwerk en tijd om tot een classificatie van de dialecten te komen, vermeden worden. Het algoritme zou kunnen stoppen wanneer de P-waarde van 5% is overschreden. Een andere stopcriterium zou kunnen zijn: als de classificatiegraad niet verder stijgt, wordt de procedure gestopt. 58

69 Hoofdstuk 7 Algemeen Besluit Het doel van dit eindwerk is bij te dragen tot de ontwikkeling van een automatische classificator van dialecten. De studie onderzoekt de fonemische variaties in de Vlaamse taalvarianten van het Standaardnederlands. De dialecten worden geclassificeerd op basis van de resultaten van een spraakherkenner, namelijk de a posteriori probabiliteit waarmee vocalisatiesignalen worden herkend door elk van de 38 mogelijke foneemhypothesen. Om een inzicht te krijgen in het fysische aspect van de akoestische fonetiek werden de spraakperceptie en de foneemvorming bestudeerd in een literatuurstudie. Fonemen worden door de sprekers van eenzelfde regio met een gelijke variatie ten opzichte van het Standaardnederlands uitgesproken. De uitgesproken fonemen worden ook als een ander foneem herkend door de spraakherkenner. In het experimentele deel van het eindwerk werd in eerste instantie onderzoek uitgevoerd naar typische fonemen waaraan een dialect kan worden herkend. Om een beeld te krijgen van het discriminerend karakter van de fonemen werden drie onderzoeken verricht op basis van a posteriori probabiliteit. De CoGeN data werd hiervoor aangewend. In een eerste analyse werd het verband van het herkende foneem met het uitgesproken foneem geanalyseerd. Per uitgesproken foneem komen er verschillende herkende fonemen in aanmerking naargelang het dialect. /I/ versus /i/ opent de mogelijkheid om de dialecten in twee clusters te onderscheiden. De ene cluster bevat het Antwerps en het Brabants, de andere bevat het West-Vlaams, Oost-Vlaams en Limburgs. Binnen de eerste cluster kan het Antwerps met /E/ versus /e/ worden aangeduid, het Brabants met /O+/ versus /a/. Binnen de tweede cluster is het fonemenpaar /G/ versus /h/ kenmerkend voor het West-Vlaams, /O+/ versus /o/ voor het Oost-Vlaams en /o/ versus /u/ voor het Limburgs. In een tweede analyse werd het verloop van APP in het tijdsdomein van /E/ versus /e/, /o/ versus /o/ en /u/ versus /o/ nagegaan. Er is per provincietaal een specifiek patroon te zien bij het foneemverloop in het tijdsdomein. Dit patroon nauwkeurig bepalen kan 59

70 7. Algemeen Besluit leiden tot een juiste classificatie van de spreker door metingen van APP uit te voeren in het tijdsdomein. Het principe van onderling vergelijken van de posities APP van de dialecten werd per meetpunt en vervolgens over de meetpunten vergeleken. In een derde analyse werd de distributie van de fonemen in de regiotaal behandeld. Door het opstellen van histogrammen die de sprekersfracties aangeven van het herkend foneem - uitgesproken foneem kunnen de foneemparen aangeduid worden die een discriminerend karakter hebben voor de dialecten. De foneemparen vormden de cues om de dialecten te classificeren. In tweede instantie werd onderzoek uitgevoerd naar de classificaties. Om het discriminerend karakter van de cues /I/ versus /i/, /E/ versus /e/, /G/ versus /h/, /o/ versus /o/, /u/ versus /o/, en /o/ versus /u/ na te gaan, werd een classificatie uitgevoerd op de CGN database. Het classificatiepercentage naar woonregio toe bedraagt 35.9 procent. Voor de classificatiegraad naar geboorteregio werd 34 procent vastgesteld. De classificatie met betrekking tot de regio van opleiding bedraagt 30.2 procent. Er werd vastgesteld dat de volgorde van het aanwenden van de verschillende foneemcombinaties een rol speelt in de mate waarin de classificatiegraad stijgt. Daarnaast werd vastgesteld dat de totale classificatiegraad na het aanwenden van dezelfde foneemparen gelijk blijft. Bij een tweede automatische classificatie werd het discriminerend karakter van de cues nagegaan door toepassing van ANOVA op de APP. De classificatie naar woonregio was opnieuw het meest doeltreffend, namelijk 47.2 procent (190 cues). De percentages bedragen 39.7 procent (245 cues) bij de classificatie naar de regio van opleiding en 35.8 procent (163 cues) bij classificatie naar geboorteregio. Graag had ik experimenten uitgevoerd met metingen van APP in het tijdsdomein om het effect na te gaan op de classificatiegraad. Jammer genoeg ontbrak het hiervoor aan tijd. De bedoeling was om cues met een typisch verloop van APP uit de zoeken en dit verloop in het classificatiemodel te implementeren. In dit verband werd van de fonemen /o/ versus /o/, /u/ versus /o/ en /E/ versus /e/ veel verwacht. Een volgende bedenking heeft betrekking op het selecteren van de data. Een experiment wees uit dat het verwijderen van foneemparen bestaande uit fonemen die zwak vertegenwoordigd zijn in de data, een dubbel voordeel biedt. Een grotere classificatiegraad werd bekomen bij het aanwenden van een kleiner aantal foneemparen. Een derde bedenking houdt verband met het implementeren van stopcriteria bij de classificatie. Niet alle fonemen dienen aangewend te worden om de maximale classificatiegraad te behalen. Een algoritme implementeren die aangeeft dat de classificatie enkel moet gebeuren met foneemparen met P-waarden kleiner dan 5 procent zorgt voor een vermindering van de rekentijd. Het classificeren zou kunnen stoppen wanneer de P-waarde van 5% overschreden is. Een alternatief is een stopcriterium die de classificatieprocedure stopt als de classificatiegraad niet verder stijgt. Algemeen kan gesteld worden dat de geautomatiseerde methode statistisch significante resultaten levert bij classificatie van de Vlaamse taalvarianten van het Standaardnederlands. 60

71 Bibliografie [1] G. J. Borden, K. S. Harris, and L. J. Raphael, Speech science primer: physiology, acoustics, and perception of speech. Philadelphia: Wilkins, 2003, no. ISBN: X. [2] J. Ryalls, A basic introduction to speech perception. San Diego, California: Singular publ. group, 1996, no. ISBN: [3] D. B. Pisoni and R. E. Remez, The handbook of speech perception. Oxford: Blackwell, 2005, no. ISBN: [4] D. V. Compernolle, Spoken language: science and technology. [5] De spraakorganen en de productie van elementaire spraakgeluiden. [Online]. Available: [6] [Online]. Available: [7] M. Devos and R. Vandekerckhove, West-Vlaams. Tielt: Lannoo, 2005, no. ISBN: [8] J. Taeldeman, Oost-Vlaams. Tielt: Lannoo, 2005, no. ISBN: [9] M. Ooms and J. V. Keymeulen, Vlaams-Brabants en Antwerps. Tielt: Lannoo, 2005, no. ISBN: [10] R. Belemans and R. Keulen, Belgisch-Limburgs. Tielt: Lannoo, 2004, no. ISBN: [11] X. Huang, A. Acero, and H.-W. Hon, Spoken language processing: a guide to theory, algorithm and system development. Upper Saddle River: Prentice Hall, 2001, no. ISBN: [12] F. Englert, Automatische segmentation von Sprachsignalen. Hector, [13] Bevolking per provincie. [Online]. Available: http: //aps.vlaanderen.be/statistiek/cijfers/demografie/1 Bevolking/2 Provincies/ Bevolking-prov001 (bevolking per provincie-vg).xls [14] W. J. Hardcastle and N. Hewlett, Coarticulation : theory, data, and techniques. Cambridge: Cambridge University press, 1999, no. ISBN: [15] A. Marchal and E. Farnetani, Coarticulation. Kingston,

72 Bibliografie [16] Klankinventaris van het nederlands. [Online]. Available: wiki/klankinventaris van het Nederlands [17] K. re Sjölander, Automatic alignment of phonetic segments. Centre for Speech Technology, Dept. of Speech, Music, and Hearing, Lund University, [18] A. Aasa, G. Bruce, O. Engstrand, A. Eriksson, M. Segerup, E. Strangert, and I. Thelander, Collecting dialect data and making use of them: an interim report. University of Skövde, [19] P. Congdon, Bayesian statistical modelling. Chichester: Wiley, 2006, no. ISBN: [20] R. Swinburne, Bayes s Theorem. Oxford: Oxford University, 2002, no. ISBN: [21] C. Huang, T. Chen, J. Zhou, S. Li, and E. Chang, Analysis of Speaker Variablility. Beijing Sigma Center, 49, Zhichun Road Haidian District: Department of Automation, Tsinghua University, [22] A. B. Krishna and S. N. Lahiri, Measure theory and probability theory. New York: Springer, 2006, no. ISBN: X. [23] J. A. Rice, Mathematical statistics and data analysis. Belmont: Thomson, 2007, no. ISBN: [24] Algemene inleiding: Statistiek. [Online]. Available: sda/ siv/algemene%20inleiding.pdf [25] G. W. Cobb, Introduction to design and analysis of experiments. Springer, [26] D. R. Shupe, Inferential statistics: an introduction to the analysis of variance. McGraw Hill, [27] L. Delbeke, Variantie-analyse: ANOVA. Leuven: ACCO, 2003, no. ISBN: X. [28] G. M. Rupert, Beyond ANOVA, basics of applied statistics. New York: Wiley, 1986, no. ISBN:

73 Bijlage A Aanvullende figuren bij hoofdstuk 1 Figuur A.1: De akoestische klinkerdriehoek (12 klinkers) 1

74 A. Aanvullende figuren bij hoofdstuk 1 Figuur A.2: Articulatie en vocalisatie van fonemen 2

75 Bijlage B Aanvullende figuren bij hoofdstuk 2 Figuur B.1: Vlaanderen Gemiddelde APP per foneem, uitgesproken door sprekers uit West- 3

76 B. Aanvullende figuren bij hoofdstuk 2 Figuur B.2: Vlaanderen Gemiddelde APP per foneem, uitgesproken door sprekers uit Oost- Figuur B.3: Gemiddelde APP per foneem, uitgesproken door sprekers uit Antwerpen 4

77 Figuur B.4: Gemiddelde APP per foneem, uitgesproken door sprekers uit Brabant Figuur B.5: Gemiddelde APP per foneem, uitgesproken door sprekers uit Limburg 5

78 Bijlage C Aanvullende figuren bij hoofdstuk 3 Figuur C.1: Histogram voor foneem /E/ bij uitspraak /E/ met probabiliteitsinterval 10% 6

79 Figuur C.2: Histogram voor foneem /I/ bij uitspraak /I/ met probabiliteitsinterval 10% Figuur C.3: Histogram voor foneem /G/ bij uitspraak /G/ met probabiliteitsinterval 10% 7

80 C. Aanvullende figuren bij hoofdstuk 3 Figuur C.4: Histogram voor foneem /o/ bij uitspraak /o/ met probabiliteitsinterval 10% 8

Non Diffuse Point Based Global Illumination

Non Diffuse Point Based Global Illumination Non Diffuse Point Based Global Illumination Karsten Daemen Thesis voorgedragen tot het behalen van de graad van Master of Science in de ingenieurswetenschappen: computerwetenschappen Promotor: Prof. dr.

Nadere informatie

1) Bekijk spectrogram 1. Denk niet aan wat er gezegd wordt, maar identificeer minimaal drie in het oog springende patronen in het spectrogram.

1) Bekijk spectrogram 1. Denk niet aan wat er gezegd wordt, maar identificeer minimaal drie in het oog springende patronen in het spectrogram. OPDRACHT 1: Stappenplan opstellen voor het lezen van spectrogrammen. NODIG: Bijgeleverde spectrogrammen (zie bijlage), potloden, schaar, plakband. 1) Bekijk spectrogram 1. Denk niet aan wat er gezegd wordt,

Nadere informatie

Analyse spraakspectrogram

Analyse spraakspectrogram Analyse spraakspectrogram Heidi Holvoet - Online studiebegeleiding Inhoudsopgave 1 Omschrijving 2 2 Spraakklanken registreren 3 2.1 Signaal.................................... 3 2.2 Spectrum..................................

Nadere informatie

Hoe goed of slecht beleeft men de EOT-regeling? Hoe evolueert deze beleving in de eerste 30 maanden?

Hoe goed of slecht beleeft men de EOT-regeling? Hoe evolueert deze beleving in de eerste 30 maanden? Hoe goed of slecht beleeft men de EOT-regeling? Hoe evolueert deze beleving in de eerste 30 maanden? Auteur: Ruben Brondeel i.s.m. Prof. A. Buysse Onderzoeksvraag Tijdens het proces van een echtscheiding

Nadere informatie

Klanken 1. Tekst en spraak. Colleges en hoofdstukken. Dit college

Klanken 1. Tekst en spraak. Colleges en hoofdstukken. Dit college Tekst en spraak Klanken 1 Representatie van spraak vereist representaties van gedeeltes die kleiner dan woorden zijn. spraaksynthese (tekst-naar-spraak) rijtje letters! akoestische golfvorm http://www.fluency.nl/

Nadere informatie

De vrouwen hebben dan ook een grotere kans op werkloosheid (0,39) dan de mannen uit de onderzoekspopulatie (0,29).

De vrouwen hebben dan ook een grotere kans op werkloosheid (0,39) dan de mannen uit de onderzoekspopulatie (0,29). In het kader van het onderzoek kreeg de RVA de vraag om op basis van de door het VFSIPH opgestelde lijst van Rijksregisternummers na te gaan welke personen op 30 juni 1997 als werkloze ingeschreven waren.

Nadere informatie

Algemene Taalwetenschap. Hogeschool van Amsterdam Josefien Sweep

Algemene Taalwetenschap. Hogeschool van Amsterdam Josefien Sweep Algemene Taalwetenschap Hogeschool van Amsterdam Josefien Sweep Fonetiek en Fonologie Fonetiek en fonologie gaan over spraak (klanken): het gebruik van de stem om te communiceren. Spraak is het belangrijkste

Nadere informatie

Fonologie. inleiding taalkunde 2012/13 30 mei 2013

Fonologie. inleiding taalkunde 2012/13 30 mei 2013 Fonologie inleiding taalkunde 2012/13 30 mei 2013 Tekst en spraak Representatie van spraak vereist representaties van gedeeltes die kleiner dan woorden zijn. spraaksynthese (tekst-naar-spraak) rijtje letters

Nadere informatie

1) Bekijk spectrogram 1. Denk niet aan wat er gezegd wordt, maar identificeer minimaal drie in het oog springende patronen in het spectrogram.

1) Bekijk spectrogram 1. Denk niet aan wat er gezegd wordt, maar identificeer minimaal drie in het oog springende patronen in het spectrogram. OPDRACHT 1: Stappenplan opstellen voor het lezen van spectrogrammen. NODIG: Bijgeleverde spectrogrammen (zie bijlage), potloden, schaar, plakband. 1) Bekijk spectrogram 1. Denk niet aan wat er gezegd wordt,

Nadere informatie

Rapport voor deelnemers M²P burgerpanel

Rapport voor deelnemers M²P burgerpanel Rapport voor deelnemers M²P burgerpanel Weergaven van publieke opinie in het nieuws en hun invloed op het publiek Dit rapport beschrijft de resultaten van een onderzoek over weergaven van publieke opinie

Nadere informatie

4.2. Evaluatie van de respons op de postenquêtes. In dit deel gaan we in op de respons op instellingsniveau en op respondentenniveau.

4.2. Evaluatie van de respons op de postenquêtes. In dit deel gaan we in op de respons op instellingsniveau en op respondentenniveau. 4.2. Evaluatie van de respons op de postenquêtes 4.2.1. Algemeen In dit deel gaan we in op de respons op instellingsniveau en op respondentenniveau. Instellingsniveau (vragenlijst coördinator) provincie,

Nadere informatie

Resultaten voor België Ongevallen Gezondheidsenquête, België, 1997

Resultaten voor België Ongevallen Gezondheidsenquête, België, 1997 6.10.1. Inleiding De term ongeval kan gedefinieerd worden als 'elk onverwacht en plots voorval dat schade berokkent of gevaar oplevert (dood, blessures,...) of als ' een voorval dat onafhankelijk van de

Nadere informatie

Resultaten voor Brussels Gewest Ongevallen Gezondheidsenquête, België, 1997

Resultaten voor Brussels Gewest Ongevallen Gezondheidsenquête, België, 1997 6.10.1. Inleiding De term ongeval kan gedefinieerd worden als 'elk onverwacht en plots voorval dat schade berokkent of gevaar oplevert (dood, blessures,...) of als ' een voorval dat onafhankelijk van de

Nadere informatie

Meer weten, minder kansen

Meer weten, minder kansen Meer weten, minder kansen Jean Paul Van Bendegem Aanleiding In dit kort stukje wil ik een probleem aankaarten in verband met waarschijnlijkheden en kansen. We weten allemaal, dankzij de ondertussen ontelbare

Nadere informatie

Rapportage meldingen everzwijn Limburg Thomas Scheppers & Jim Casaer

Rapportage meldingen everzwijn Limburg Thomas Scheppers & Jim Casaer INBO.R.2012.16 INBO.R.2012.26 Wetenschappelijke instelling van de Vlaamse overheid Instituut voor Natuur- en Bosonderzoek INBO Geraardsbergen Gaverstraat 4 9500 Geraardsbergen T: +32 54 43 71 11 F: +32

Nadere informatie

Resultaten voor België Vaccinatie bij volwassen Gezondheidsenquête, België, 1997

Resultaten voor België Vaccinatie bij volwassen Gezondheidsenquête, België, 1997 6.4.1. Inleiding. Het belang van vaccinatie programma s is ruimschoots aangetoond geweest. De vragen werden slechts gesteld aan personen van 15 jaar en ouder, aangezien de vaccinale dekking bij kinderen

Nadere informatie

Tabel 2.1 Overzicht van de situatie op de arbeidsmarkt van de onderzochte personen op 30/06/97. Deelpopulatie 1996

Tabel 2.1 Overzicht van de situatie op de arbeidsmarkt van de onderzochte personen op 30/06/97. Deelpopulatie 1996 Dit deel van het onderzoek omvat alle personen tussen de 18 en 55 jaar oud (leeftijdsgrenzen inbegrepen) op 30 juni 1997, wiens dossier van het Vlaams Fonds voor de Sociale Integratie van Personen met

Nadere informatie

Cover Page. The handle http://hdl.handle.net/1887/20932 holds various files of this Leiden University dissertation.

Cover Page. The handle http://hdl.handle.net/1887/20932 holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/20932 holds various files of this Leiden University dissertation. Author: Haar, Sita Minke ter Title: Birds and babies : a comparison of the early development

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

De spraakbanaan. De spraakbanaan zoals ReSound hem neerzet

De spraakbanaan. De spraakbanaan zoals ReSound hem neerzet De spraakbanaan Tijdens een van mijn lessen Casuïstiek kreeg ik de opmerking dat ik wel erg makkelijk door de bocht ging door te stellen dat het spraakgebied van ± 300Hz tot ruim 4000Hz zou lopen. Omdat

Nadere informatie

FOCUS : TOEKENNINGSDUUR

FOCUS : TOEKENNINGSDUUR FOCUS : TOEKENNINGSDUUR 2013.2 1 De toekenningsduur: een nieuwe variabele van de POD Maatschappelijke Integratie 1. INLEIDING Onderzoek naar toekenningsduur binnen de Belgische bijstand werd eerder door

Nadere informatie

128 SAMENVATTING continuüm van /pup/ naar /pip/. Deze klinkerreeksen werden aan 19 luisteraars aangeboden in een classificatietaak en een vier-interva

128 SAMENVATTING continuüm van /pup/ naar /pip/. Deze klinkerreeksen werden aan 19 luisteraars aangeboden in een classificatietaak en een vier-interva Samenvatting Aan de verwerking van het akoestische spraaksignaal tot een betekenisvolle boodschap liggen meerdere processen ten grondslag. Een van die processen is de segmentatie van het signaal in afzonderlijke

Nadere informatie

David Weenink. Instituut voor Fonetische Wetenschappen ACLC Universiteit van Amsterdam. Spraakverwerking per computer.

David Weenink. Instituut voor Fonetische Wetenschappen ACLC Universiteit van Amsterdam. Spraakverwerking per computer. Instituut voor Fonetische Wetenschappen ACLC Universiteit van Amsterdam AMSTERDAM CENTER FOR LANGUAGE AND C O M M U N I C A T I O N Het spectrogram Het representeert een acoustische tijd-frequentie representatie

Nadere informatie

VERGELIJKENDE STUDIE VAN ALTERNATIEVE ONTWERPWAARDE SCHATTINGEN VAN SIGNIFICANTE GOLFHOOGTE

VERGELIJKENDE STUDIE VAN ALTERNATIEVE ONTWERPWAARDE SCHATTINGEN VAN SIGNIFICANTE GOLFHOOGTE Rapport aan isterie van de Vlaamse Gemeenschap Departement Leefmilieu en Infrastructuur Administratie Waterwegen en Zeewezen AFDELING WATERWEGEN KUST VERGELIJKENDE STUDIE VAN ALTERNATIEVE ONTWERPWAARDE

Nadere informatie

Herkansing 1 e Deeltentamen Spraakherkenning en -synthese

Herkansing 1 e Deeltentamen Spraakherkenning en -synthese Herkansing 1 e Deeltentamen Spraakherkenning en -synthese Rob van Son 10-13 uur, 20 december 2007 GEBP/P2.27 Dit is een herkansing van het eerste deeltentamen. Je moet deze opgaven alleen maken als je

Nadere informatie

Regionale verscheidenheid in bevolkingsconcentraties

Regionale verscheidenheid in bevolkingsconcentraties Deel 1: Gemiddelde leeftijd en leeftijdsopbouw Mathieu Vliegen en Niek van Leeuwen De se bevolkingskernen vertonen niet alleen een ongelijkmatig ruimtelijk spreidingspatroon, maar ook regionale verschillen

Nadere informatie

Pendelarbeid tussen Gewesten en provincies

Pendelarbeid tussen Gewesten en provincies ALGEMENE DIRECTIE STATISTIEK EN ECONOMISCHE INFORMATIE PERSBERICHT 19 juli 2007 Pendelarbeid tussen Gewesten en provincies Eén op de tien Belgen werkt in een ander gewest; één op de vijf in een andere

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

Bijlages bij masterproef Studie naar toepasbaarheid van herstelmortels en scheurinjectiesystemen in de wegenbouw

Bijlages bij masterproef Studie naar toepasbaarheid van herstelmortels en scheurinjectiesystemen in de wegenbouw FACULTEIT INDUSTRIELE INGENIEURSWETENSCHAPPEN CAMPUS GENT Bijlages bij masterproef Studie naar toepasbaarheid van herstelmortels en scheurinjectiesystemen in de wegenbouw Jens Breynaert & Michaël Godaert

Nadere informatie

NOTARISBAROMETER S LANDBOUWGRONDEN LANDBOUWGRONDEN GEMIDDELDE PRIJZEN EN OPPERVLAKTE N 2

NOTARISBAROMETER S LANDBOUWGRONDEN LANDBOUWGRONDEN GEMIDDELDE PRIJZEN EN OPPERVLAKTE N 2 NOTARISBAROMETER LANDBOUWGRONDEN WWW.NOTARIS.BE S1 2019 N 2 Deze notarisbarometer zoomt in op de gemiddelde prijzen van landbouwgronden in België. Onder landbouwgronden worden de gronden beschouwd waarop

Nadere informatie

Tabel 4.1 geeft een overzicht van de verdeling van de deels werkloos, deels werkend (DWDW)-en naar leeftijdsniveau.

Tabel 4.1 geeft een overzicht van de verdeling van de deels werkloos, deels werkend (DWDW)-en naar leeftijdsniveau. Een aantal arbeidsgehandicapten uit onze onderzoekspopulatie waren tijdens de referteperiode ingeschreven bij zowel RVA als RSZ. Deze (relatief kleine) groep van mensen bespreken we in dit deel van het

Nadere informatie

Uitspraakvariatie van de postvocale /l/ in samenhang met de voorgaande /a/

Uitspraakvariatie van de postvocale /l/ in samenhang met de voorgaande /a/ Uitspraakvariatie van de postvocale /l/ in samenhang met de voorgaande /a/ Scriptie ter afronding van de master Taal en Ontwikkeling Opleiding Taalwetenschap Faculteit Geesteswetenschappen Universiteit

Nadere informatie

Auteur boek: Vera Lukassen Titel boek: Visio 2010. 2011, Serasta Uitgegeven in eigen beheer info@serasta.nl Eerste druk: maart 2012

Auteur boek: Vera Lukassen Titel boek: Visio 2010. 2011, Serasta Uitgegeven in eigen beheer info@serasta.nl Eerste druk: maart 2012 Auteur boek: Vera Lukassen Titel boek: Visio 2010 2011, Serasta Uitgegeven in eigen beheer info@serasta.nl Eerste druk: maart 2012 ISBN: 978-90-817910-1-4 Dit boek is gedrukt op een papiersoort die niet

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

Ontwikkelingen op de agrarische grondmarkt

Ontwikkelingen op de agrarische grondmarkt Ontwikkelingen op de agrarische grondmarkt In deze notitie wordt een beeld geschetst van de recente ontwikkelingen op de agrarische grondmarkt. De notitie is als volgt ingedeeld: 1. Samenvatting 2. Achtergrond

Nadere informatie

Het Geheugen van Vlaanderen

Het Geheugen van Vlaanderen Het Geheugen van Vlaanderen Pieter Moors & Johan Wagemans Laboratorium voor Experimentele Psychologie (KU Leuven) Introductie Het Geheugen van Vlaanderen is een massa-experiment met als doel een zicht

Nadere informatie

Grondwaterstandindicator freatisch grondwater Juli 2014

Grondwaterstandindicator freatisch grondwater Juli 2014 Grondwaterstandindicator freatisch grondwater Juli 2014 De grondwaterstandindicator geeft een beeld van de huidige stijghoogte van het grondwater ten opzichte van het verleden. De analyse van de stijghoogtegegevens

Nadere informatie

Geen tekort aan technisch opgeleiden

Geen tekort aan technisch opgeleiden Geen tekort aan technisch opgeleiden Auteur(s): Groot, W. (auteur) Maassen van den Brink, H. (auteur) Plug, E. (auteur) De auteurs zijn allen verbonden aan 'Scholar', Faculteit der Economische Wetenschappen

Nadere informatie

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle  holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/29716 holds various files of this Leiden University dissertation. Author: Schraagen, Marijn Paul Title: Aspects of record linkage Issue Date: 2014-11-11

Nadere informatie

Noordelijke Arbeidsmarkt Verkenning 2004

Noordelijke Arbeidsmarkt Verkenning 2004 Noordelijke Arbeidsmarkt Verkenning 2004 Hoofdrapport Samenstelling: Dr. L. Broersma & Drs D. Stelder, Sectie Ruimtelijke Economie, FEW, RuG Prof. Dr. J. van Dijk, Faculteit der Ruimtelijke Wetenschappen,

Nadere informatie

STUDIE. Faillissementen. Maanden juli en augustus

STUDIE. Faillissementen. Maanden juli en augustus STUDIE Faillissementen Maanden juli en augustus 4 september 2017 Overname en gebruik van dit onderzoek wordt aangemoedigd bronvermelding Graydon Belgium. Deze brochure is louter ter informatie opgesteld.

Nadere informatie

Invloed van IT uitbesteding op bedrijfsvoering & IT aansluiting

Invloed van IT uitbesteding op bedrijfsvoering & IT aansluiting xvii Invloed van IT uitbesteding op bedrijfsvoering & IT aansluiting Samenvatting IT uitbesteding doet er niet toe vanuit het perspectief aansluiting tussen bedrijfsvoering en IT Dit proefschrift is het

Nadere informatie

Opdrachten speciaal herontworpen voor eerstejaars studenten

Opdrachten speciaal herontworpen voor eerstejaars studenten Opdrachten speciaal herontworpen voor eerstejaars studenten Auteur: Dick Vrenssen, docent pedagogiek psychologie onderwijskunde, Fontys Hogeschool Kind en Educatie In het schooljaar 2013/ 2014 heeft het

Nadere informatie

Trendbarometer campings 2010

Trendbarometer campings 2010 Trendbarometer campings 2010 Trendbarometer campings 2010 Verantwoordelijke uitgever: Steunpunt Buitenlands Beleid, Toerisme en Recreatie Spoor Toerisme en Recreatie K.U. Leuven Celestijnenlaan 200 E,

Nadere informatie

Betreft: Voorstellen scripties 2011-2012. Contactpersonen: Nick Cremelie nick.cremelie@tomtom.com Pascal Clarysse pascal.clarysse@tomtom.

Betreft: Voorstellen scripties 2011-2012. Contactpersonen: Nick Cremelie nick.cremelie@tomtom.com Pascal Clarysse pascal.clarysse@tomtom. Zuiderpoort Office Park Gaston Crommenlaan 4 bus 0501 B-9050 Gent Belgium Phone : +(32) 9 244 88 11 Fax : +(32) 9 222 74 12 www.tomtom.com Betreft: Voorstellen scripties 2011-2012 Contactpersonen: Nick

Nadere informatie

In dit document worden de resultaten voor België bij elke vraag afzonderlijk weergegeven en vergeleken met het Europees gemiddelde.

In dit document worden de resultaten voor België bij elke vraag afzonderlijk weergegeven en vergeleken met het Europees gemiddelde. Directoraat-generaal communicatie Directoraat C - Betrekkingen met de burgers EENHEID OPVOLGING PUBLIEKE OPINIE 30/09/2009 EB71.3 EUROPESE VERKIEZINGEN 2009 Postelectoraal onderzoek Landprofiel: Europees

Nadere informatie

Grondwaterstandindicator freatisch grondwater Februari 2013

Grondwaterstandindicator freatisch grondwater Februari 2013 Grondwaterstandindicator freatisch grondwater Februari 2013 De grondwaterstandindicator geeft een beeld van de huidige stijghoogte van het grondwater ten opzichte van het verleden. De analyse van de stijghoogtegegevens

Nadere informatie

Trendbarometer campings 2011

Trendbarometer campings 2011 Trendbarometer campings 2011 Trendbarometer campings 2011 Verantwoordelijke uitgever: Steunpunt Buitenlands Beleid, Toerisme en Recreatie Spoor Toerisme en Recreatie K.U. Leuven Celestijnenlaan 200 E,

Nadere informatie

Inleiding Administratieve Organisatie. Opgavenboek

Inleiding Administratieve Organisatie. Opgavenboek Inleiding Administratieve Organisatie Opgavenboek Inleiding Administratieve Organisatie Opgavenboek drs. J.P.M. van der Hoeven Vierde druk Stenfert Kroese, Groningen/Houten Wolters-Noordhoff bv voert

Nadere informatie

Wat is de levenskwaliteit bij mensen die een EOT-traject volgen? Hoe evolueert deze levenskwaliteit in de eerste 30 maanden?

Wat is de levenskwaliteit bij mensen die een EOT-traject volgen? Hoe evolueert deze levenskwaliteit in de eerste 30 maanden? Wat is de levenskwaliteit bij mensen die een EOT-traject volgen? Hoe evolueert deze levenskwaliteit in de eerste 30 maanden? Auteur: Ruben Brondeel i.s.m. Prof. A. Buysse Onderzoeksvraag Met als doel de

Nadere informatie

Monitor Samenwerkingsverband PO 2707 Amsterdam Diemen augustus 2015 augustus Vergelijking van de regio s

Monitor Samenwerkingsverband PO 2707 Amsterdam Diemen augustus 2015 augustus Vergelijking van de regio s Samenwerkingsverband PO 2707 Amsterdam Diemen augustus 2015 augustus 2016 Vergelijking van de regio s Inleiding In opdracht van de schoolbesturen wordt door het een aantal belangrijke kwantitatieve gegevens

Nadere informatie

Samenvatting (summary in Dutch)

Samenvatting (summary in Dutch) Samenvatting (summary in Dutch) 201 Samenvatting (summary in Dutch) Het doel van dit proefschrift is het ontwikkelen en valideren van spraakanalyse-technieken om de spraakkwaliteit van patiënten behandeld

Nadere informatie

Studiepopulatie. Gezondheidsenquête, België, 1997.

Studiepopulatie. Gezondheidsenquête, België, 1997. In deze paragraaf worden een aantal kenmerken van de steekproef besproken. Het gaat om de volgende socio-demografische karakteristieken : verblijfplaats : per regio en per provincie; geslacht en leeftijd;

Nadere informatie

Grondwaterstandindicator freatisch grondwater September 2014

Grondwaterstandindicator freatisch grondwater September 2014 Grondwaterstandindicator freatisch grondwater September 2014 De grondwaterstandindicator geeft een beeld van de huidige stijghoogte van het grondwater ten opzichte van het verleden. De analyse van de stijghoogtegegevens

Nadere informatie

DE AUDIOVISUELE SECTOR CIJFERS OPLEIDINGSINSPANNINGEN

DE AUDIOVISUELE SECTOR CIJFERS OPLEIDINGSINSPANNINGEN DE AUDIOVISUELE SECTOR CIJFERS 2013 OPLEIDINGSINSPANNINGEN INHOUDSOPGAVE I. INLEIDING... 2 II. SOCIALE BALANS... 3 III. ANALYSE VAN DE OPLEIDINGSINSPANNINGEN BINNEN HET PC 227... 5 1. REPRESENTATIVITEIT...

Nadere informatie

Hoofdstuk 2: Kritisch reflecteren 2.1. Kritisch reflecteren: definitie Definitie: Kritisch reflecteren verwijst naar een geheel van activiteiten die

Hoofdstuk 2: Kritisch reflecteren 2.1. Kritisch reflecteren: definitie Definitie: Kritisch reflecteren verwijst naar een geheel van activiteiten die Hoofdstuk 2: Kritisch reflecteren 2.1. Kritisch reflecteren: definitie Definitie: Kritisch reflecteren verwijst naar een geheel van activiteiten die worden uitgevoerd om uit het gevonden bronnenmateriaal

Nadere informatie

BMI BIJ SCHOOLKINDEREN

BMI BIJ SCHOOLKINDEREN / Rapport cijfers BMI BIJ SCHOOLKINDEREN Vlaams Gewest 2012-2013 / 1.02.2016 1.02.2016 BMI bij schoolkinderen 1/10 Gepubliceerd op: http://www.zorg-en-gezondheid.be/cijfers op juli 2015 door: Lien Braeckevelt,

Nadere informatie

Grondwaterstandindicator freatisch grondwater Augustus 2014

Grondwaterstandindicator freatisch grondwater Augustus 2014 Grondwaterstandindicator freatisch grondwater Augustus 2014 De grondwaterstandindicator geeft een beeld van de huidige stijghoogte van het grondwater ten opzichte van het verleden. De analyse van de stijghoogtegegevens

Nadere informatie

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie Parking Surveillance foreground/background segmentation - objectherkenning Examen Beeldverwerking Pieter Vancoillie Doel van het (deel)project Uit beelden van een camera voetgangers, fietsers en auto s

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 7 juni 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

Bouwen op een gemeenschappelijk verleden aan een succesvolle toekomst Welling, Derk Theodoor

Bouwen op een gemeenschappelijk verleden aan een succesvolle toekomst Welling, Derk Theodoor University of Groningen Bouwen op een gemeenschappelijk verleden aan een succesvolle toekomst Welling, Derk Theodoor IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF)

Nadere informatie

Praktische toelichting op de UAV 2012

Praktische toelichting op de UAV 2012 Praktische toelichting op de UAV 2012 Praktische toelichting op de UAV 2012 prof. mr. dr. M.A.B. Chao-Duivis Eerste druk s-gravenhage - 2012 1 e druk ISBN 978-90-78066-56-9 NUR 822 2012, Stichting Instituut

Nadere informatie

Handleiding bij werkbladen uitspraak

Handleiding bij werkbladen uitspraak Handleiding bij werkbladen uitspraak Er zijn drie kopieerbladen voor de uitspraak: overzicht van de klinkers overzicht van de lastige medeklinkers oefentips voor de uitspraak van de r De eerste twee lichten

Nadere informatie

... Graydon studie. Faillissementen. Eerste semester 2018

... Graydon studie. Faillissementen. Eerste semester 2018 Graydon studie Faillissementen Eerste semester 2018 2 juli 2018 Overname en gebruik van dit onderzoek wordt aangemoedigd bronvermelding Graydon Belgium. Deze brochure is louter ter informatie opgesteld.

Nadere informatie

Resultaten voor Vlaamse Gemeenschap Contraceptie Gezondheidsenquête, België, 1997

Resultaten voor Vlaamse Gemeenschap Contraceptie Gezondheidsenquête, België, 1997 6.7.5.1. Inleiding Contraceptie is bijna universeel toegankelijk in ons land. Alhoewel ze relatief duur blijft (van 110 tot 250 BF per maand voor de pil), kunnen de meest onbemiddelde personen toch hulp

Nadere informatie

STUDIE (F)050908-CDC-455

STUDIE (F)050908-CDC-455 Commissie voor de Regulering van de Elektriciteit en het Gas Nijverheidsstraat 26-38 1040 Brussel Tel. : 02/289.76.11 Fax : 02/289.76.09 COMMISSIE VOOR DE REGULERING VAN DE ELEKTRICITEIT EN HET GAS STUDIE

Nadere informatie

Opvallend in deze figuur is het grote aantal bedrijven met een vergunning voor exact 340 stuks melkvee (200 melkkoeien en 140 stuks jongvee).

Opvallend in deze figuur is het grote aantal bedrijven met een vergunning voor exact 340 stuks melkvee (200 melkkoeien en 140 stuks jongvee). Ontwikkeling melkveebedrijven in Utrecht, Gelderland en Brabant Analyse van mogelijke groei van melkveebedrijven op basis van gegevens van CBS en provincies Het CBS inventariseert jaarlijks de feitelijk

Nadere informatie

Grondwaterstandindicator freatisch grondwater Maart 2014

Grondwaterstandindicator freatisch grondwater Maart 2014 Grondwaterstandindicator freatisch grondwater Maart 2014 De grondwaterstandindicator geeft een beeld van de huidige stijghoogte van het grondwater ten opzichte van het verleden. De analyse van de stijghoogtegegevens

Nadere informatie

Op 14 december 2015 stelde ik reeds een schriftelijke vraag (nr. 193) in verband met suïcidepreventie. Daarin stelde ik de volgende deelvragen.

Op 14 december 2015 stelde ik reeds een schriftelijke vraag (nr. 193) in verband met suïcidepreventie. Daarin stelde ik de volgende deelvragen. SCHRIFTELIJKE VRAAG nr. 322 van ANKE VAN DERMEERSCH datum: 4 februari 21 aan JO VANDEURZEN VLAAMS MINISTER VAN WELZIJN, VOLKSGEZONDHEID EN GEZIN Suïcidepreventie - Initiatieven - Expertisecentrum (2) Op

Nadere informatie

11. Multipele Regressie en Correlatie

11. Multipele Regressie en Correlatie 11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

STUDIE. Faillissementen januari 2017

STUDIE. Faillissementen januari 2017 STUDIE Faillissementen januari 2017 01/02/2017 Overname en gebruik van dit onderzoek wordt aangemoedigd bronvermelding Graydon Belgium. Deze brochure is louter ter informatie opgesteld. De gegevens zijn

Nadere informatie

gegevens analyseren Welk onderzoekmodel gebruik je? Quasiexperiment ( 5.5) zonder controle achtergronden

gegevens analyseren Welk onderzoekmodel gebruik je? Quasiexperiment ( 5.5) zonder controle achtergronden een handreiking 71 hoofdstuk 8 gegevens analyseren Door middel van analyse vat je de verzamelde gegevens samen, zodat een overzichtelijk beeld van het geheel ontstaat. Richt de analyse in de eerste plaats

Nadere informatie

Publication date: 21/10/2012

Publication date: 21/10/2012 Verordening (EEG, Euratom) nr. 354/83 van de Raad inzake het voor het publiek toegankelijk maken van de historische archieven van de EEG en de EGA (1 februari 1983) Caption: Verordening (EEG, Euratom)

Nadere informatie

DOORDRINKEN DOORDRINGEN. Effectevaluatie Halt-straf Alcohol Samenvatting. Jos Kuppens Henk Ferwerda

DOORDRINKEN DOORDRINGEN. Effectevaluatie Halt-straf Alcohol Samenvatting. Jos Kuppens Henk Ferwerda DOORDRINGEN of Effectevaluatie Halt-straf Alcohol Samenvatting DOORDRINKEN Jos Kuppens Henk Ferwerda In opdracht van Ministerie van Veiligheid en Justitie, Wetenschappelijk Onderzoek- en Documentatiecentrum,

Nadere informatie

Resultaten voor Brussels Gewest Contraceptie Gezondheidsenquête, België, 1997

Resultaten voor Brussels Gewest Contraceptie Gezondheidsenquête, België, 1997 6.7.5.1. Inleiding Contraceptie is bijna universeel toegankelijk in ons land. Alhoewel ze relatief duur blijft (van 110 tot 250 BF per maand voor de pil), kunnen de meest onbemiddelde personen toch hulp

Nadere informatie

THEMA IV.4. Ischemisch Hartlijden

THEMA IV.4. Ischemisch Hartlijden THEMA IV.4. Ischemisch Hartlijden Selectiecriteria Naast de algemene selectiecriteria (cfr. Inleiding 2.4.a.) die steeds in het kader van deze publicatie gehanteerd worden, is het specifieke selectiecriterium

Nadere informatie

Twee cijferbladen over de evolutie van het buitengewoon lager onderwijs tot G. Van Landeghem & J. Van Damme

Twee cijferbladen over de evolutie van het buitengewoon lager onderwijs tot G. Van Landeghem & J. Van Damme Twee cijferbladen over de evolutie van het buitengewoon lager onderwijs tot 2009 G. Van Landeghem & J. Van Damme Twee cijferbladen over de evolutie van het buitengewoon T lager onderwijs tot 2009 Auteurs:

Nadere informatie

... Graydon studie. Faillissementen. November 2017

... Graydon studie. Faillissementen. November 2017 ... Graydon studie Faillissementen November 2017 1 december 2017 [Typ hier] [Typ hier] [Typ hier] Overname en gebruik van dit onderzoek wordt aangemoedigd bronvermelding Graydon Belgium. Deze brochure

Nadere informatie

Opgeloste Oefeningen Hoofdstuk 6: Steekproeven en empirische distributies

Opgeloste Oefeningen Hoofdstuk 6: Steekproeven en empirische distributies Opgeloste Oefeningen Hoofdstuk 6: Steekproeven en empirische distributies 6.. Uit een normaal verdeeld universum X met gemiddelde waarde µ = en standaardafwijking σ = worden 0 onafhankelijke steekproefwaarden

Nadere informatie

Surveillance van meticilline- resistente Staphylococcus aureus (MRSA) in chronische ziekenhuizen in België:

Surveillance van meticilline- resistente Staphylococcus aureus (MRSA) in chronische ziekenhuizen in België: Surveillance van meticilline- resistente Staphylococcus aureus (MRSA) in chronische ziekenhuizen in België: Jaar 2009 B. Jans, Dr. O. Denis & BICS IPH/EPI REPORTS Nr. 2010 065 Depotnummer: D/2010/2505/70

Nadere informatie

Sectorfoto PSC

Sectorfoto PSC Sectorfoto 2009-2013 PSC 149.01 Elektriciens: Installatie en Distributie 2014 Vormelek vzw Marlylaan 15/8 b2 1120 Brussel Tel.: 02/476.16.76 Fax: 02/476.17.76 Geen enkel gedeelte van dit werk mag gereproduceerd

Nadere informatie

Departement industriële wetenschappen en technologie

Departement industriële wetenschappen en technologie Departement industriële wetenschappen en technologie Universitaire Campus, gebouw B B-3590 DIEPENBEEK Tel.: 011-23 07 90 Fax: 011-23 07 99 Aansturen en testen van een hybride infrarood beeldopnemer Abstract

Nadere informatie

Resultaten voor Brussels Gewest Lichamelijke Activiteit Gezondheidsenquête, België, 1997

Resultaten voor Brussels Gewest Lichamelijke Activiteit Gezondheidsenquête, België, 1997 6.3.1. Inleiding Recente onderzoeken hebben toegelaten aan te tonen dat lichamelijke activiteiten een wezenlijke impact hebben op de gezondheidstoestand en dat ze van groot belang zijn op het vlak van

Nadere informatie

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Meervoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

STUDIE Faillissementen 1 december Maand november sluit af met stijging van 3,69% In Brussel een stijging van 25,17%.

STUDIE Faillissementen 1 december Maand november sluit af met stijging van 3,69% In Brussel een stijging van 25,17%. STUDIE Faillissementen 1 december 2016 Maand november sluit af met stijging van 3,69% In Brussel een stijging van 25,17%. 1 september 2016 2 Overname en gebruik van dit onderzoek wordt aangemoedigd bronvermelding

Nadere informatie

Fonemisch Bewustzijn

Fonemisch Bewustzijn Fonemisch Bewustzijn Ellen van der Veen Welkom en Agenda 1. Introductie 2. Fonemisch Bewustzijn 3. Vragen en praktijkervaringen Doelstellingen van vandaag 1. De deelnemers kennen de begrippen taalbewustzijn,

Nadere informatie

Value added of primary schools with high proportions of minority students: A longitudinal study. J.P. Verhaeghe, J. Van Damme & H.

Value added of primary schools with high proportions of minority students: A longitudinal study. J.P. Verhaeghe, J. Van Damme & H. Value added of primary schools with high proportions of minority students: A longitudinal study J.P. Verhaeghe, J. Van Damme & H. Knipprath T Value added of primary schools with high proportions of minority

Nadere informatie

Auteur boek: Vera Lukassen Titel boek: Word Gevorderd 2010. 2011, Serasta Uitgegeven in eigen beheer info@serasta.nl Eerste druk: augustus 2012

Auteur boek: Vera Lukassen Titel boek: Word Gevorderd 2010. 2011, Serasta Uitgegeven in eigen beheer info@serasta.nl Eerste druk: augustus 2012 Auteur boek: Vera Lukassen Titel boek: Word Gevorderd 2010 2011, Serasta Uitgegeven in eigen beheer info@serasta.nl Eerste druk: augustus 2012 ISBN: 978-90-817910-7-6 Dit boek is gedrukt op een papiersoort

Nadere informatie

NBVN. Jaarverslag 2012 Nederlandstalige Belgische Vereniging voor Nefrologie

NBVN. Jaarverslag 2012 Nederlandstalige Belgische Vereniging voor Nefrologie NBVN Jaarverslag 2012 Nederlandstalige Belgische Vereniging voor Nefrologie NBVN database & analyse De Commissie Registratie dankt alle dialysepatiënten en patiënten met een niertransplantaat voor hun

Nadere informatie

IT Governance. Studietaak 5

IT Governance. Studietaak 5 IT Governance 5 Open Universiteit faculteit Managementwetenschappen Cursusteam ir. H.B.F. Hofstee, projectleider en auteur Open Universiteit prof. dr. R.J. Kusters, auteur, Open Universiteit Programmaleiding

Nadere informatie

Inleiding statistiek

Inleiding statistiek Inleiding Statistiek Pagina 1 uit 8 Inleiding statistiek 1. Inleiding In deze oefeningensessie is het de bedoeling jullie vertrouwd te maken met een aantal basisbegrippen van de statistiek, meer bepaald

Nadere informatie

HET COBB-DOUGLAS MODEL ALS MODEL VOOR DE NUTSFUNCTIE IN DE ARBEIDSTHEORIE. 1. Inleiding

HET COBB-DOUGLAS MODEL ALS MODEL VOOR DE NUTSFUNCTIE IN DE ARBEIDSTHEORIE. 1. Inleiding HET COBB-DOUGLAS MODEL ALS MODEL VOOR DE NUTSFUNCTIE IN DE ARBEIDSTHEORIE IGNACE VAN DE WOESTYNE. Inleiding In zowel de theorie van het consumentengedrag als in de arbeidstheorie, beiden gesitueerd in

Nadere informatie

huiswerkvragen Spreken en Verstaan ( )

huiswerkvragen Spreken en Verstaan ( ) huiswerkvragen Spreken en Verstaan (200300287) Hugo Quené Opleiding Taalwetenschap UU H.Quene@uu.nl 28 okt 2009 Let op: Je moet als huiswerk alle onderstaande vragen beantwoorden, volgens het tijdsschema

Nadere informatie

Vennootschappen onderworpen aan de vennootschapsbijdrage

Vennootschappen onderworpen aan de vennootschapsbijdrage Vennootschappen onderworpen aan de vennootschapsbijdrage Rijksinstituut voor de Sociale Verzekeringen der Zelfstandigen (2001), Statistiek van de aangesloten vennootschappen jaar 2000, 68 p. Begin juni

Nadere informatie

De beroepsbevolking in de grensregio s van Nederland en Vlaanderen: grote verschillen aan weerszijden van de grens

De beroepsbevolking in de grensregio s van Nederland en Vlaanderen: grote verschillen aan weerszijden van de grens De beroepsbevolking in de grensregio s van Nederland en Vlaanderen: grote verschillen aan weerszijden van de grens Bierings, H., Schmitt, J., van der Valk, J., Vanderbiesen, W., & Goutsmet, D. (2017).

Nadere informatie

Medische terminologie

Medische terminologie Medische terminologie Bezoek- en postadres: Bredewater 16 2715 CA Zoetermeer info@uitgeverijbos.nl www.uitgeverijbos.nl 085 2017 888 Waar in deze module wordt verwezen naar personen, verwijzen wij voor

Nadere informatie

Personeelsmonitor Provincies. Benchmarkrapport Provincie Limburg

Personeelsmonitor Provincies. Benchmarkrapport Provincie Limburg Personeelsmonitor Provincies Benchmarkrapport Zoetermeer, september 2014 De verantwoordelijkheid voor de inhoud berust bij Panteia. Het gebruik van cijfers en/of teksten als toelichting of ondersteuning

Nadere informatie

Wat motiveert u in uw werk?

Wat motiveert u in uw werk? Wat motiveert u in uw werk? Begin dit jaar heeft u kunnen deelnemen aan een online onderzoek naar de motivatie en werktevredenheid van actuarieel geschoolden. In dit artikel worden de resultaten aan u

Nadere informatie