Analyse van veiligheidscommunicatie bij de Belgische spoorwegen met behulp van automatische spraakherkenning

Transcriptie

1 Analyse van veiligheidscommunicatie bij de Belgische spoorwegen met behulp van automatische spraakherkenning Inge Gielis Thesis voorgedragen tot het behalen van de graad van Master of Science in de ingenieurswetenschappen: elektrotechniek, optie Ingebedde systemen en multimedia Promotor: Prof. dr. ir. Hugo Van hamme Academiejaar Master of Science in de ingenieurswetenschappen: elektrotechniek

2 Analyse van veiligheidscommunicatie bij de Belgische spoorwegen met behulp van automatische spraakherkenning Inge Gielis Thesis voorgedragen tot het behalen van de graad van Master of Science in de ingenieurswetenschappen: elektrotechniek, optie Ingebedde systemen en multimedia Promotor: Prof. dr. ir. Hugo Van hamme Assessoren: Ir. P. Wambacq S. Moens Begeleider: Ir. E. Yilmaz Academiejaar

3 c Copyright KU Leuven Zonder voorafgaande schriftelijke toestemming van zowel de promotor als de auteur is overnemen, kopiëren, gebruiken of realiseren van deze uitgave of gedeelten ervan verboden. Voor aanvragen tot of informatie i.v.m. het overnemen en/of gebruik en/of realisatie van gedeelten uit deze publicatie, wend u tot ESAT, Kasteelpark Arenberg 10 postbus 2440, B-3001 Heverlee, of via info@esat.kuleuven.be. Voorafgaande schriftelijke toestemming van de promotor is eveneens vereist voor het aanwenden van de in deze masterproef beschreven (originele) methoden, producten, schakelingen en programma s voor industrieel of commercieel nut en voor de inzending van deze publicatie ter deelname aan wetenschappelijke prijzen of wedstrijden.

4 Voorwoord Het onderzoek van deze thesis was een zeer leerrijke ervaring, ook al liep het niet altijd even vlot. Daarom wil ik graag iedereen bedanken die me gesteund en geholpen heeft om deze masterproef tot een goed einde te brengen. In de eerste plaats bedank ik uiteraard mijn promotor, professor Van hamme, voor zijn verhelderende inzichten en om me verder te helpen telkens als ik even vast liep. Verder wil ik natuurlijk ook mijn begeleider, Emre, bedanken die me bijna dagelijks bijstond met raad en daad. Voor alle hulp bij allerlei kleine en minder kleine dingen, bedankt. Uiteraard gaat mijn dank ook uit naar Infrabel en in het bijzonder Elie en Matthieu. Eerst en vooral om aan de KU Leuven dit thesisvoorstel te geven en daarnaast omdat ze altijd paraat stonden met een antwoord op mijn vragen. Ook aan mijn familie, en in het bijzonder mijn mama en papa, een hele dikke dankjewel. Danku voor het aandachtig nalezen, de nuttige tips, het helpen met nadenken als ik vastzat en de onafgebroken steun. Inge Gielis i

5 Inhoudsopgave Voorwoord Samenvatting Lĳst van figuren en tabellen Lijst van afkortingen en symbolen 1 Inleiding Probleem en context Vorig werk Werkwijze Besluiten en bijdragen Opbouw van de tekst Veiligheidscommunicatie bij de spoorwegen: procedure E Veiligheidscommunicatie Procedure E370: Bevel tot rijden met beperking Besluit Automatische spraakherkenning Architectuur van de spraakherkenner en terminologie Kenmerkvectoren Akoestisch model Taalmodel Lexicon Decodering Besluit Ontwerp van het taalmodel Context vrije grammatica Eindige toestandsdiagram Eindige toestandsgrammatica Programma Besluit Analyse van de gesprekken Manuele analyse Intermezzo: Berekenen van het woordfoutpercentage, precisie en gevoeligheid ii i iv vi viii

6 Inhoudsopgave 5.3 Eerste versie van het programma en de resultaten Intermezzo Bigram modellen Finale opstelling van de spraakherkenner Controle op dialoogniveau Besluit Besluit 49 A Voorbeeld procedure E B Context vrije grammatica s 55 B.1 Versie B.2 Versie B.3 Versie Bibliografie 65 iii

7 Samenvatting In deze masterproef werd onderzocht in hoeverre automatische spraakherkenning kan gebruikt worden om de controle van gesproken veiligheidscommunicatie bij de Belgische spoorwegen te automatiseren. Deze controles gebeuren momenteel door een werknemer van Infrabel. Hij/zij beluistert de gesprekken en beoordeelt het gesprek aan de hand van een check-list. Omdat dit zeer arbeidsintensief is kan slechts een steekproef van de gesprekken gecontroleerd worden. In deze thesis wordt nagegaan hoe goed de performantie is van een programma dat deze controles uitvoert op basis van automatische spraakherkenning. Het doel hiervan is een aanduiding te geven aan de werknemer welke gesprekken best beluisterd worden en zo een gerichtere controle uit te voeren om in totaal meer gesprekken te kunnen controleren. De veiligheidscommunicatie werd beperkt tot één protocol, zijnde procedure E370 of Bevel tot rijden met beperking, dat vaak en voor verschillende situaties wordt toegepast. De controles die worden geautomatiseerd zijn vooral controles op zinsniveau. Er wordt gecheckt of de juiste termen worden gezegd, hoe vaak er woorden worden gezegd die buiten het protocol vallen en of getallen en letters op de juiste manier gespeld worden. Daarnaast wordt er ook kort gecontroleerd of de herhaalde zinnen dezelfde zijn als de originele zinnen in het gesprek en of het telegramnummer niet doorgegeven werd vóór de andere informatie herhaald werd. De inhoudelijke juistheid van het gesprek kan niet gecontroleerd worden door de spraakherkenner. Er werd een taalmodel ontworpen aan de hand van de beschrijving van de protocols van Infrabel. Dit gebeurde in de vorm van een context vrije grammatica. Deze werd met een programma omgezet naar een eindige toestandsgrammatica die als invoer dient voor de spraakverwerker. Het taalmodel werd later aangepast aan de reële gesprekken van Infrabel omdat deze vaak afwijken van het voorgeschreven protocol. Door het opvangen van de fouten met het taalmodel wordt een beter resultaat van de spraakverwerker bekomen. De gemaakte fouten worden aangeduid in de uitvoer van het programma. Bij het evalueren van de werking van de spraakherkenner met het nieuwe taalmodel werden testen uitgevoerd op eigen opnames van reële gesprekken. Dit werd gedaan om te kunnen werken met geluidsbestanden van goede kwaliteit, om zo de maximale performantie van de spraakherkenner te kunnen bepalen. Om de kwaliteit te beoordelen werd gekeken naar de totale precisie en gevoeligheid van de spraakherkenner op 5 gesprekken. Er werd getracht een zo hoog mogelijke precisie te bereiken, zonder te veel te moeten inboeten op gevoeligheid. De uiteindelijke waarde van de iv

8 Samenvatting parameters waren als volgt: een drempelwaarde (bepaalt hoeveel pruning gebeurt in de eerste laag van de spraakverwerker) van 70, een garbage -lus kost van 25, een garbage -skip kost van 50 en een woord-skip kost van 5. Met deze instellingen werd een precisie van 89% en een gevoeligheid van 75% bereikt. v

9 Lĳst van figuren en tabellen Lĳst van figuren 3.1 Schematische voorstelling van de gebruikte spraakherkenner. Het voorbewerkingsprogramma haalt kenmerkvectoren uit het geluidsbestand. De kenmerkvectoren worden verder verwerkt door de eerste laag tot een foneemrooster, aan de hand van een akoestisch model en een algemeen taalmodel. Dit foneemrooster wordt omgezet naar een herkende woordsequentie door de tweede laag aan de hand van een taalspecifiek taalmodel en een lexicon. [8] Foneemrooster. Op de knooppunten staat het tijdstip. Op de bogen staat het foneem en de bijhorende log-likelihood Een Verborgen Markov Model met 3 toestanden en een sequentiële topologie. Overgenomen uit [5] Door Verborgen Markov Modellen van fonemen te combineren met foneemmodellen van woorden uit het lexicon wordt een Verborgen Markov Model op zinsniveau bekomen. Overgenomen uit [5] Grafische voorstelling van een zin uit de protocols van Infrabel Eindige toestandsdiagram van de zin rubriek een een voorzichtig rijden uit protocol E370 van Infrabel. Enkel de bogen met woorden uit de CVG of met een #, <s> of </s> symbool zijn weergegeven Grafische voorstelling van de zin rubriek een een voorzichtig rijden uit protocol E370 van Infrabel. Bogen die één of twee woorden overslaan zijn toegevoegd t.o.v. figuur Grafische voorstelling van de zin rubriek een een voorzichtig rijden uit protocol E370 van Infrabel. Volledige ETG Voorbeeld van een meer flexibele ETD van de zin ontvangen trein nummer letter digit aan sein letter digit over Woordfoutpercentage in functie van het percentage van het geluidsbestand dat aangeduid is als spraak Het effect van de drempelwaarde op het woordfoutpercentage Woordfoutpercentage in functie van de C-kost Effect van de drempelwaarde op de uitvoeringstijd vi

10 Lĳst van figuren en tabellen 5.5 Effect van de drempelwaarde op het percentage van de uitvoeringstijd dat gespendeerd wordt in iedere laag Effect van de drempelwaarde op het aantal gevonden fouten Effect van drempelwaarde op de precisie en gevoeligheid Effect van de garbage -lus kost op het aantal gevonden fouten Effect van garbage -lus kost op de precisie en gevoeligheid Effect van de garbage -skip kost op het aantal gevonden fouten Effect van garbage -skip kost op de precisie en gevoeligheid Effect van de skip kost op het aantal gevonden fouten Effect van skip kost op de precisie en gevoeligheid Resultaten testen op dialoogniveau Lĳst van tabellen 2.1 Spellingsalfabet van de NAVO Cijferweergave Proceduretermen Eindige toestandsgrammatica van de zin "rubriek een een voorzichtig rijden"met lijnnummering Gebruikte niet-terminale symbolen A.1 Voorbeeld procedure E vii

11 Lijst van afkortingen en symbolen Afkortingen NAVO VMM GMM EM RE CVG ETD ETG WER Noord-Atlantische Verdragsorganisatie Verborgen Markov Model Gaussian Mixture Models Expectation Maximization Reguliere Expressie Context Vrije Grammatica Eindige Toestandsdiagram Eindige Toestandsgrammatica Word Error Rate of woordfoutpercentage viii

12 Symbolen Ŵ woordsequentie die door de spraakherkenner gevonden is W woordsequentie O observatievector o 1...o n kenmerkvectoren van het spraaksignaal arg max operator die het argument selecteert waarvoor de functie maximaal is P (X) kans van X P (X Y ) kans van X als Y gegeven is t tijdstip q 1...q N toestanden van het VMM π i initiële toestandskans van toestand q i Π vector van de initiële toestandskansen a ij toestandstransitiekans van toestand q i naar toestand q j A matrix van alle toestandstransitiekansen b i (o) emissiekans van vector o als het model zich in toestand q i bevindt N(o t, µ c, Σ c ) Gaussiaanse kansverdelingsfunctie µ c gemiddelde van de Gaussiaan Σ c covariantie van de Gaussiaan w c gewichten λ een vector met alle parameters van het akoestisch model garbage1 alle woorden en geluiden waar nog geen boog voor gevormd is die vertrekt vanaf een bepaalde node UNK woord dat niet in het lexicon voorkomt lev a,b ( a, b ) Levenshtein aftand tussen 2 strings a en b S substituties I inserties D verwijderingen tp aantal echt positieven f p aantal vals positieven f n aantal vals negatieven ix

13

14 Hoofdstuk 1 Inleiding 1.1 Probleem en context Bij Infrabel, de Belgische spoorweginfrastructuurbeheerder, gebeuren dagelijks veel gesprekken tussen seinhuizen en treinbestuurders. Vele daarvan gebeuren aan de hand van een veiligheidsprotocol Deze gesprekken moeten bepaalde regels volgen zodat de communicatie zo duidelijk en efficiënt mogelijk verloopt en zodat op het einde van het gesprek beide partijen zeker zijn dat de boodschap volledig en correct is overgedragen. Dit is belangrijk voor de veiligheid op het spoorwegnet. Voordat een veiligheidsprotocol effectief gebruikt kan worden om boodschappen over te dragen, moet het personeel worden opgeleid. Ze maken kennis met de verschillende procedures voor verschillende situaties en leren hoe ze deze moeten toepassen. Daarnaast worden ook controles uitgevoerd om te garanderen dat de protocollen inderdaad duidelijk en correct verlopen in de praktijk. Indien nodig kunnen personeelsleden hierdoor bijgestuurd worden. Verder kan het nodig zijn de protocollen zelf te evalueren en aan te passen als bijvoorbeeld bepaalde delen vaak voor verwarring of fouten zorgen. Momenteel gebeuren de controles van de gesprekken manueel. Dit is tijdrovend en daarom kan slechts een steekproef van de gesprekken worden gecontroleerd. Bij de uitvoer van al deze activiteiten kan automatische spraakherkenningssoftware ingezet worden. De spraakherkenningssoftware kan nagaan of de juiste woorden gebruikt worden, of die woorden op een correcte manier een zin vormen (bv. eerst een lijnnummer, dan de kilometerpaal, dan eventueel de richting waarin de trein rijdt) en of die zinnen in de juiste volgorde staan (beide partijen moeten zich eerst identificeren en dan kan pas over gegaan worden tot het effectieve protocol). Daarnaast wordt ook een transcriptie gegenereerd die men kan gebruiken om gesprekken te controleren of om verdere analyses mee uit te voeren. Hierdoor kunnen de opleiding en de veiligheidsanalyses doeltreffender verlopen. De spraakherkenner kan een aanduiding geven van waar in het gesprek zich problemen bevinden zodat de controle gerichter kan gebeuren. Op dezelfde manier kan de spraakverwerker gebruikt worden in 1

15 1. Inleiding de opleiding. Door de spraakherkenner op vele gesprekken toe te passen, kunnen statistieken worden opgesteld om het volledige protocol te evalueren en eventueel bij te stellen. Omdat de opnames gebeuren in een ruizige omgeving, de uitspraak van de betrokken personen geen perfect Algemeen Nederlands is en de zinnen in het protocol geen omgangstaal zijn zal een algemene spraakherkenner aangepast moeten worden om hiermee om te kunnen Doelstelling Deze thesis heeft als doel automatische spraakherkenningssoftware aan te passen zodat het mogelijk is de gesproken veiligheidscommunicatie bij de Belgische spoorwegen te toetsen aan de opgelegde protocollen. Er wordt een lexicon ontwikkeld waarin de toegelaten woorden van het protocol staan met hun mogelijke fonetische transcritipies. Daarnaast wordt een nieuw taalmodel ontwikkeld op basis van het protocol. Tot slot wordt een programma ontwikkeld dat fouten op zinsniveau opspoort in de uitvoer van de automatische spraakherkenningssoftware. Het programma vermeldt ook waar de fouten zich in het gesprek bevinden. 1.2 Vorig werk Er werd reeds onderzoek gedaan aan de KU Leuven naar het gebruik van een spraakherkenner om fouten te zoeken in gesproken tekst. In [7] werd een spraakherkenner gebruikt als leeshulp voor kinderen. Deze opstelling zal gebruikt worden als basis voor deze thesis. Vorig jaar werd deze reading tutor ook als vertrekpunt genomen voor een thesis [6]. Toen werd een toepassing ontworpen voor automatische evaluatie van cochleaire implantaten. 1.3 Werkwijze Het werk aan deze thesis loopt in 2 fases, de ontwerpfase en de analysefase. In de eerste fase wordt de spraakherkenner aangepast aan de hand van de gegevens over de protocollen van Infrabel. In de tweede fase wordt de ontworpen spraakherkenner getest op opnames van effectieve gesprekken Ontwerpfase In de eerste fase worden een aantal onderdelen van een bestaande spraakherkenner aangepast zodat deze gebruikt kan worden voor de taak. De spraakherkenner bestaat uit 3 kennisbronnen: een vocabularium met toegelaten woorden, een grammatica die aangeeft hoe de woorden uit het vocabularium kunnen gebruikt worden om zinnen te maken en het akoestisch model dat beschrijft hoe klanken in woorden kunnen uitgesproken worden. 2

16 1.4. Besluiten en bijdragen Er wordt een vocabularium opgesteld met toegelaten woorden. Dit gebeurt aan de hand van het protocol dat beschouwd wordt. Verder wordt een taalmodel ontworpen, specifiek voor het beschouwde protocol. Aangezien het protocol strikt gevolgd moet worden volgens de richtlijnen, wordt er voor het taalmodel vertrokken van een sequentiële context vrije grammatica. Om dit te kunnen gebruiken wordt ook een programma ontworpen om de context vrije grammatica om te zetten naar een eindige toestandsgrammatica. Een aanpassing van het akoestisch model wordt buiten beschouwing gelaten Analysefase Het protocol wordt op zinsniveau geanalyseerd. Er worden modellen opgesteld per zin en toegepast op de audiofragmenten. Er wordt gekeken of de juiste woordenschat gebruikt wordt en of de zin vormelijk correct is. Zo wordt er bijvoorbeeld gecontroleerd of het NAVO alfabet gebruikt wordt op de juiste plaatsen en of getallen cijfer per cijfer worden uitgesproken. 1.4 Besluiten en bijdragen In deze masterproef wordt onderzocht in hoeverre het mogelijk is automatische spraakherkenning toe te passen bij het controleren en analyseren van de veiligheidscommunicatie bij de Belgische spoorwegen. Er wordt gefocust op procedure E370 of Bevel tot rijden met beperking, wat bijna dagelijks gebruikt wordt en vele toepassingen kent. De gesprekken moeten volgens een aantal geijkte zinnen verlopen. Voor deze thesis stelt Infrabel een aantal opnames van reële gesprekken ter beschikking. Om nadelige invloed van ruis en achtergrondgeluid uit te schakelen en om bovendien te kunnen starten met ideale gesprekken die volledig volgens protocol verlopen, worden eigen opnames gemaakt, die weliswaar gebaseerd zijn op de gesprekken van Infrabel. Deze gesprekken worden gebruikt om het programma te testen en te debuggen. Tevens wordt hiermee nagegaan welke set van parameters voor de spraakherkenner de beste performantie geeft. Met deze set parameters zal een precisie van 89% en een gevoeligheid van 75% bereikt worden. Het taakafhankelijk taalmodel van de spraakherkenner wordt aangepast aan de hand van de protocols en de reële gesprekken van Infrabel. Er wordt een context vrije grammatica ontwikkeld die omgezet wordt naar een eindige toestandsgrammatica. 3

17 1. Inleiding 1.5 Opbouw van de tekst Het eerste hoofdstuk behandelt het belichte protocol van Infrabel en hoe het wordt geëvalueerd. In het tweede hoofdstuk wordt de algemene werking van een spraakherkenner uitgelegd. De ontworpen taalmodellen worden besproken in het derde hoofdstuk. Het vierde hoofdstuk bespreekt de testen. 4

18 Hoofdstuk 2 Veiligheidscommunicatie bij de spoorwegen: procedure E370 De Belgische spoorwegnetbeheerder, Infrabel, zorgt voor de verdeling van de capaciteit van de sporen en de coördinatie van alle treinritten in België.[13] Om dit op een veilige en efficiënte manier te laten gebeuren wordt onder andere gebruik gemaakt van protocollen voor veiligheidscommunicatie. Deze thesis neemt één van deze protocollen onder handen, namelijk de procedure E370 of "Bevel tot rijden met beperking". Deze procedure wordt gebruikt in de veiligheidscommunicatie. Sectie 2.1 schetst algemeen het verloop van veiligheidscommunicatie. Hier wordt dieper op ingegaan in sectie 2.3, waar de eigenlijke procedure bekeken wordt. 2.1 Veiligheidscommunicatie Het treinverkeer in België wordt geregeld door de seinposten en door het verkeerscoördinatiecentrum van Infrabel, Traffic Control. De seinposten regelen het treinverkeer op een regionaal niveau, dat wil zeggen binnen de grenzen van hun regio. Traffic Control regelt het treinverkeer op nationaal niveau. Traffic Control coördineert de aanpassingen die gemaakt moeten worden aan de regeling van het treinverkeer in geval van vertragingen, storingen, ongevallen en incidenten. In overleg met de seinposten bepalen ze welke aanpassingen uitgevoerd worden: welke trein mag eerst doorrijden, over welke sporen zal de trein omgeleid worden,... De seinposten zorgen ervoor dat de treinen veilig kunnen blijven rijden en de situatie te allen tijde veilig is voor de reizigers en het personeel. [13] De veiligheidscommunicatie tussen seinposten en treinbestuurders is belangrijk om het treinverkeer veilig en vlot te laten verlopen bij probleemsituaties. De communicatie verloopt telefonisch en het gesprek zelf loopt volgens geijkte formules die beschreven staan in communicatieprocedures. Deze regels zorgen ervoor dat de manier waarop de boodschap wordt overgebracht altijd hetzelfde is, waardoor deze duidelijker is. Het kennen van deze regels vormt een onderdeel van de opleiding van 5

19 2. Veiligheidscommunicatie bij de spoorwegen: procedure E370 Letter Spelling Letter Spelling A alpha N november B bravo O oscar C charlie P papa D delta Q quebec E echo R romeo F foxtrot S sierra G golf T tango H hotel U uniform I india V victor J juliet W whisky K kilo X x-ray L lima Y yankee M mike Z zoeloe Tabel 2.1: Spellingsalfabet van de NAVO Cijfer Spelling Letter Spelling 0 nul 5 vijf 1 een 6 zes 2 twee 7 zeven 3 drie 8 acht 4 vier 9 negen Tabel 2.2: Cijferweergave het personeel. Gezien het belang van deze procedures worden ze ook regelmatig opnieuw ingeoefend tijdens permante opleidingen en worden ook vaak controles uitgevoerd om te kijken of de procedures juist worden toegepast Letters en getallen Voor het spellen van woorden wordt het spellingsalfabet van de NAVO gebruikt (tabel 2.1). Getallen worden gespeld per cijfer zoals in tabel 2.2, behalve bij datums. Deze worden op de gebruikelijke wijze uitgesproken en het jaartal wordt niet vermeld. Bij het uitspreken van uren mag gekozen worden tussen de gewone getallen of de gespelde variant. [2] Proceduretermen Naast regels voor spellen zijn er ook regels voor het gebruik van bepaalde termen. Deze staan opgelijst in tabel 2.3 [2] 6

20 2.1. Veiligheidscommunicatie Procedure Doel Termen Procedure om het woord te geven Procedure voor ontvangst van berichten Procedure om een gesprek te onderbreken Procedure om een procedure te annuleren Het woord aan de andere gesprekspartner geven Verzekeren dat het verzonden bericht goed werd ontvangen Het bericht doen herhalen Aanduiden of het herhaalde bericht al dan niet conform het verzonden bericht is Het gesprek definitief afsluiten De gesprekspartner doen wachten Aanduiden dat het gesprek onderbroken wordt maar later zal voortgezet worden De lopende procedure annuleren Tabel 2.3: Proceduretermen Over Ontvangen Herhaal uw bericht Correct / Fout Sluiten Wacht Ik roep u later opnieuw op Procedure afgelasten Identificatie Bij het begin van elke procedure moeten beide partijen zich tegenover elkaar identificeren. Dit gebeurt ook volgens vaste regels. Een seinhuis identificeert zich met de volgende bewoording: "hier blok nummer...". Traffic control identificeert zich met de woorden: "Hier Traffic Control". Een trein identificeert zich als volgt: "hier trein nummer... aan sein..."[2] Procedureverzoek Nadat beide correspondenten zich hebben geïdentificeerd volgt het procedureverzoek. Deze loopt als volgt: de persoon in het seinhuis/bij Traffic Control zegt "bereid procedure... voor "waarop de treinbestuurder antwoordt wanneer hij klaar is "gereed voor procedure... "De procedure wordt ofwel bij naam genoemd ofwel wordt het nummer van het formulier gezegd. [2] 7

21 2. Veiligheidscommunicatie bij de spoorwegen: procedure E Controle Regelmatig wordt een steekproef van de gesprekken die verband houden met veiligheidscommunicatie gecontroleerd en wordt feedback gegeven aan de uitvoerders of ze al dan niet hun kennis van de procedure moeten bijschaven. Elk van de bovenstaande subsecties wordt gecontroleerd. Zo worden bijvoorbeeld volgende vragen gecontroleerd:[4] Verloopt de identificatie correct? Worden de juiste procedure-termen op de juist plaats gebruikt? Worden woorden en getallen gespeld waar nodig? Wordt alle kritische informatie correct herhaald? 2.2 Procedure E370: Bevel tot rijden met beperking Afhankelijk van de situatie die zich voordoet wordt een bepaalde procedure gevolgd om de veiligheidscommunicatie vlot te laten verlopen. In deze thesis wordt een van deze procedures onder de loep genomen: procedure E370 of "Bevel tot rijden met beperking". Deze procedure wordt in verschillende situaties en dus voor verschillende bevelen toegepast: 8 een bevel om voorzichtig te rijden een bevel om de snelheid te beperken een bevel om op zicht te rijden een bevel om onvoorzien met neergelaten stroomafnemers te rijden een bevel SF 05 dat de bestuurder oplegt om in de uitvoeringszone: de snelheid te beperken tot twintig km/h; de ontmoete overwegen, gekenmerkt met een aankondigingsbord te overschrijden tegen vijf km/h en ondertussen te claxonneren; en indien de veiligheid van het verkeer het vereist, te stoppen; een kennisgeving van het gebeurlijke vertoon van een rood mobiel sein (in geval van werken met een mogelijke indringing in het vrijeruimteprofiel met bescherming door mobiele seinen zonder BTS); een bevel om een perron te naderen met een maximumsnelheid van dertig km/u een bevel om een uitzonderlijke stop uit te voeren

22 2.3. Besluit Zowel de bestuurder van de trein als de persoon in het seinhuis hebben een formulier van de procedure bij zich. De correspondent in het seinhuis gebruikt het formulier op volgende manier: hij meldt het nummer van elke te vervolledigen rubriek en de bijbehorende tekst. Hij begint met rubrieken 01, 02 en 03 met vermelding van de reden. De treinbestuurder kruist deze aan en vult zijn formulier aan. Daarna wordt het bevel gegeven door de correspondent in het seinhuis. Hij vermeldt één van de rubrieken 11 tot 18 en, afhankelijk van die rubriek, vult hij deze aan met enkele van de rubrieken 21 tot 52. Voor elke gemelde rubriek kruisen de correspondenten weer het overeenstemmende vrije vakje aan en vervolledigen het formulier indien nodig. Hierna herhaalt de bestuurder dit alles ter controle. Als alles correct herhaald is, vervolledigt de correspondent van het seinhuis het bevel met rubriek 08, 09 en 10. Rubriek 09 is het telegramnummer en is zeer belangrijk, want zolang deze rubriek niet ingevuld is, is een bevel niet geldig. De treinbestuurder herhaalt rubrieken 08, 09 en 10 en geeft zijn naam. Hiermee is het formulier volledig ingevuld en kan de procedure afgesloten worden. [3] Controle Er worden ook specifieke controles uitgevoerd voor de procedure E370. Deze hebben vooral te maken met de inhoud van de procedure en niet zozeer met de formulering. Er wordt nagegaan of de juiste redenen worden gegeven, of de beperkingen kloppen, of de juiste kilometerpalen worden doorgegeven,... Dit zijn zaken die buiten de reikwijdte van deze thesis vallen.[1] 2.3 Besluit Het is van groot belang dat de veiligheidscommunicatie bij de spoorwegen correct en vlot verloopt. Hiertoe zijn een aantal procedures opgesteld die het personeel moet volgen. De procedures worden aangeleerd in de opleiding van het personeel en worden regelmatig gecontroleerd op verschillende gebieden. De reikwijdte van deze thesis is beperkt tot de procedure E370 (bevel tot rijden met beperking). De spraakherkenner zal gebruikt worden om na te gaan of de voorgeschreven veiligheidscommunicatie correct wordt toegepast op het niveau van een spreekbeurt. Het protocol schrijft voor welke woorden men moet gebruiken en in welke volgorde die woorden moeten staan (bv. eerst rubrieknummer, dan de inhoud van de rubriek en niet andersom). Daarnaast kan men ook nagaan of de beurten zich op een normale wijze opvolgen, hiervoor zal een extra programma ontworpen worden. Er wordt niet nagegaan of de doorgegeven waarden zinvol zijn, bijvoorbeeld of het herkende treinnummer effectief bestaat. 9

23

24 Hoofdstuk 3 Automatische spraakherkenning Automatische spraakherkenningssoftware wordt gebruikt om gesproken woorden en zinnen in geluidsbestanden te herkennen en om te zetten naar een tekstuele vorm. Dit gebeurt volgens de beslissingstheorie van Bayes. Het resultaat van de spraakverwerker, woordsequentie Ŵ, is de woordsequentie W die, gegeven de observatie O, het meest waarschijnlijk is. W is een sequentie van woorden w 1 tot w L. Observatie O is een sequentie van kenmerkvectoren o 1 tot o N van het spraaksignaal. De kenmerkvectoren zijn een compacte voorstelling van het spraaksignaal en worden verder uitgelegd in sectie 3.2. Mathematisch ziet dit er als volgt uit: Ŵ = arg max P (W O) (3.1) W = arg max W = arg max W P (O W )P (W ) P (O) (3.2) P (O W )P (W ) (3.3) De operator arg max W selecteert het argument W waarvoor de functie maximaal is. De regel van Bayes werd toegepast op vergelijking 3.1 en de term P (O) in de noemer van de breuk van vergelijking 3.2 werd weggelaten, omdat gezocht wordt naar de meest waarschijnlijke woordsequentie voor een bepaalde observatie, en de kans van die observatie dus altijd dezelfde is. In de vergelijking 3.3 blijven dus 2 factoren over. De kans P (O W ) is de kans dat een bepaalde akoestische uiting voorkomt, gegeven een bepaalde woordsequentie. Dit omvat het akoestisch model (sectie 3.3) en het lexicon (sectie 3.5). De gebruikte modellen hiervoor zijn vaak Verborgen Markov Modellen. De kans P (W ) is de kans dat een bepaalde woordsequentie voorkomt en wordt voorgeschreven door het taalmodel, dat wordt uitgelegd in sectie 3.4. Eens modellen voor P (O W ) en P (W ) opgesteld zijn, kan de woordsequentie met maximale a posteriori kans berekend worden.[12] 11

25 3. Automatische spraakherkenning Geluidsbestand (.wav bestand) Voorbewerkingsprogramma Kenmerkvectoren Akoestisch model, Algemeen taalmodel Foneemherkenner Foneemrooster Taakspecifiek taalmodel, Lexicon Rooster doorzoek module Herkende woordsequentie Figuur 3.1: Schematische voorstelling van de gebruikte spraakherkenner. Het voorbewerkingsprogramma haalt kenmerkvectoren uit het geluidsbestand. De kenmerkvectoren worden verder verwerkt door de eerste laag tot een foneemrooster, aan de hand van een akoestisch model en een algemeen taalmodel. Dit foneemrooster wordt omgezet naar een herkende woordsequentie door de tweede laag aan de hand van een taalspecifiek taalmodel en een lexicon. [8] 12

26 3.1. Architectuur van de spraakherkenner en terminologie 3.1 Architectuur van de spraakherkenner en terminologie De gebruikte spraakherkenner voor deze thesis bestaat uit twee lagen, zoals te zien in figuur 3.1. De eerste laag is een taak-onafhankelijke foneemherkenner. Deze laag genereert een foneemrooster op basis van een akoestisch model en op basis van een algemeen taalmodel voor de Nederlandse taal. Hij herkent fonemen die mogelijk aanwezig zijn in de opname en geeft deze fonemen een starten eindtijd en een waarschijnlijkheid. Het aantal mogelijkheden in het rooster wordt beperkt door twee factoren: bundelbreedte (beamwidth) en drempel (threshold). De bundelbreedte geeft weer hoeveel mogelijkheden maximaal in rekening worden genomen en bepaalt dus de breedte van het foneemrooster. De drempel bepaalt de minimale waarschijnlijkheid van een foneem om mee in rekening te worden gebracht. Deze beperkingen zijn noodzakelijk omdat anders het foneemrooster te groot zou worden en dit de spraakherkenning zou vertragen. De tweede laag is wel taak-afhankelijk en genereert aan de hand van het foneemrooster van de eerste laag, een taak afhankelijk vocabularium en een taak-afhankelijk taalmodel een sequentie van woorden die hoogst waarschijnlijk uitgesproken werden. [8] De verschillende onderdelen van de spraakherkenner worden in de volgende paragrafen uitgelegd Intermezzo: begrippen Foneem: Een foneem is een betekenisonderscheidende klank en de kleinste eenheid waarin spraak opgedeeld wordt. Een foneem is niet hetzelfde als een letter. De a in bak of raken wordt anders uitgesproken. Fonemen verschillen van taal tot taal. Denk maar aan de th in het Engelse woord the. Dit komt in het Nederlands niet voor. Het Nederlands heeft een 40-tal fonemen. [14] Foneemrooster: Een foneemrooster geeft weer welke fonemen mogelijk herkend worden op een bepaald tijdstip, zoals afgebeeld in figuur 3.2. Welke fonemen dit zijn hangt af van de kenmerkvectoren op dat tijdstip, maar ook van de voorgaande fonemen. Niet alle opeenvolgingen van fonemen zijn even waarschijnlijk in een bepaalde taal. Deze waarschijnlijkheid wordt in deze spraakherkenner bepaald door een fonologisch model van de Nederlandse taal. Een fonologisch taalmodel neemt de context (in dit geval, de twee voorafgaande fonemen) mee in rekening. Zo ontstaan er paden van mogelijk opeenvolgende fonemen in het rooster. Deze paden hebben elk een waarschijnlijkheid waarmee ze voorkomen. Deze paden en waarschijnlijkheden worden mee in rekening gebracht als de tweede laag van het model het meest waarschijnlijke pad door het foneemrooster zoekt. Fonologisch model: Een trigram (of meer algemeen N-gram) taalmodel op foneemniveau modelleert de opeenvolging van fonemen in een taal. 13

27 3. Automatische spraakherkenning Figuur 3.2: Foneemrooster. Op de knooppunten staat het tijdstip. Op de bogen staat het foneem en de bijhorende log-likelihood 3.2 Kenmerkvectoren Een gewoon spraaksignaal bevat veel informatie. Mocht al deze informatie in rekening worden gebracht in de verdere berekeningen van een spraakherkenner zou dit heel lang duren. Daarom wordt de spraak eerst omgezet naar kenmerkvectoren. Dit is een vereenvoudigde en dus compacte voorstellingswijze van het spectrum van het spraaksignaal op een bepaald moment. Een kenmerkvector bestaat gewoonlijk uit een 40-tal coëfficiënten en deze worden berekend over een venster, een kort tijdsinterval waarin verondersteld wordt dat de spraak constant is. Typisch wordt een waarde van 20 á 30 ms gebruikt. Hierna wordt het venster typisch 10 ms opgeschoven en wordt een nieuwe kenmerkvector berekend. Zo wordt een opeenvolging van kenmerkvectoren gevormd die het volledige spraaksignaal beschrijven, en elke vector beschrijft de kortetermijn eigenschappen van het spraaksignaal. Het voordeel van kenmerkvectoren is dat er minder rekenkracht en opslagcapaciteit nodig is dan wanneer het volledige signaal gebruikt zou worden, en er toch voldoende informatie over het spraaksignaal overblijft in de kenmerkvector. Kenmerkvectoren maken ook de structuur van het model veel eenvoudiger. Ze bevatten namelijk getallen die sterk afhangen van wat er gezegd wordt en in kleinere mate afhangen van de condities waarin dat gezegd wordt, zoals de gebruikte microfoon, de toonhoogte van de spreker,... Direct samples van het geluidsbestand verwerken zou dus niet alleen traag zijn, maar ook veel minder nauwkeurig. [10]. 14

28 3.3. Akoestisch model Figuur 3.3: Een Verborgen Markov Model met 3 toestanden en een sequentiële topologie. Overgenomen uit [5] 3.3 Akoestisch model Het akoestisch model bepaalt de kans dat een bepaalde foneem werd uitgesproken aan de hand van de gegeven kenmerkvector. Het wordt gebruikt in de eerste laag van de spraakherkenner om het foneemrooster op te stellen. Er bestaan verschillende technieken om zo n model op te stellen, maar meestal wordt gebruik gemaakt van Verborgen Markov Modellen. Verborgen Markov Modellen (VMM s) zijn statistische modellen voor sequentiële data. De statistische aard van de modellen is nodig omdat er verschillende elementen zorgen voor variaties die niet deterministisch bepaald kunnen worden. Dezelfde zin kan op verschillende manieren uitgesproken worden: verschillend tempo, verschillende intonatie,... Ook achtergrondruis heeft een statistisch karakter. De data zelf is altijd sequentieel in de tijd, je begint bij het begin van een zin of woord en eindigt bij het einde Definitie Verborgen Markov Model De definitie van een Verborgen Markov Model luidt als volgt: "Een Verborgen Markov Model is een dubbel stochastisch proces met een onderliggend proces dat niet observeerbaar (verborgen) is maar dat enkel kan geobserveerd worden via een andere set van stochastische processen die de sequentie van observaties produceren". [15] Deze observaties zijn in dit geval de kenmerkvectoren die uit het spraaksignaal berekend worden. De kenmerkvector op tijdstip t wordt aangeduid met de vector o t. Elk foneem bestaat uit een bepaalde opeenvolging van toestanden van het verborgen proces. 15

29 3. Automatische spraakherkenning Het Verborgen Markov Model bestaat uit N toestanden q 1...q N. Op elk moment t bevindt het model zich in één toestand. Op t + 1 wordt overgegaan naar een nieuwe toestand. Om de kansen te bepalen in welke toestand het model zich bevind zijn volgende elementen nodig. initiële toestandskansen π i geven de kans weer dat de eerste toestand waarin het model zich bevind toestand q i is en worden verzameld in de vector Π toestandstransitiekansen a ij geven de kans weer om van toestand q i naar toestand q j te gaan en worden verzameld in matrix A emissiekansen b i (o) geven de kans dat vector o wordt uitgestuurd als het model zich in toestand q i bevindt De kansverdeling van de emissiekansen wordt meestal gemodelleerd aan de hand van Gaussian Mixture Models. Een Gaussian Mixture Model (GMM) bestaat uit een gewogen som van Gausiaanse kansverdelingsfuncties. De b i (o) kunnen dan op volgende manier geschreven worden: C b i (o t ) = P (o t q i, λ) = w c N(o t, µ c, Σ c ) (3.4) c=1 met w c de gewichten van de verschillende componenten en µ c en Σ c de gemiddelden en covarianties van de Gaussiaan Evalueren van een akoestisch model Elk foneem, woord of zin kan voorgesteld worden door een Verborgen Markov Model. Een woord of zinsniveau VMM bekomt men door concatenatie van foonmodellen van de fonemen die voorkomen in de woorden van de zin. Om de kans op een observatievector O = [o 1, o 2,...o T ], gegeven het akoestisch model λ te bepalen, worden alle mogelijk toestandssequenties Q = [q 1, q 2,...qT ] beschouwd. λ is een vector met alle parameters van het akoestisch model van het woord of de zin. Het akoestisch model is dus een concatenatie van VMM s op foneemniveau. P (O, λ) = q = q P (O, q λ) (3.5) P (O q, λ)p (q λ) (3.6) 16

30 3.3. Akoestisch model Het eerste deel van vergelijking 3.6 is de kans op observatievector O voor één bepaalde toestandsvector Q: T P (O q, λ) = b qt (o t ) (3.7) t=1 Vergelijking 3.7 geeft weer dat de vector die uitgestuurd wordt enkel afhankelijk is van de huidige toestand. Het tweede deel van vergelijk 3.6 is de kans op de toestandssequentie zelf: P (q λ) = π q1 T t=2 a qt 1,q t (o t ) (3.8) De kans op de huidige toestand hangt enkel af van de vorige toestand Parameterschatting Voor men akoestische kansen kan berekenen moeten alle parameters van het akoestisch model bepaald worden. Dit gebeurt door het model te trainen op een dataset. De parameters van het model worden zo gekozen zodat de waarschijnlijkheid P (O λ) gemaximaliseerd wordt voor de trainingsset. Hiervoor wordt het Baum- Welch algoritme gebruikt. Dit is een speciale vorm van het Expectation-Maximization algoritme. Het EM-algoritme maximaliseert een waarschijnlijkheidsfunctie die afhangt van verborgen data, in dit geval de toestandssequentie. Het EM-algoritme wordt voor vele parameterschattingsproblemen gebruikt. Algemeen gezien kan het dus als volgt worden geformuleerd: er zijn observaties O en random verborgen data y en er is een uitdrukking voor de waarschijnlijkheid die functie is van beide datavormen. Als het model waarvoor de parameters geschat moeten worden een Verborgen Markov Model is met Gaussian Mixture Modellen voor de emissiekansen met continue dichtheid, dan spreken we van het Baum-Welch algoritme. Afhankelijk of context-afhankelijke of context-onafhankelijke Verborgen Markov Modellen worden gebruikt zullen meer of minder toestanden en parameters moeten worden opgesteld. Bij een context-onafhankelijk VMM worden per foneem dezelfde toestanden gebruikt, onafhankelijk van welk foneem ervoor of erna komt en onafhankelijk waar in het woord de klank zich bevind. In context-afhankelijke VMM wordt hier wel rekening mee gehouden. Vaak wordt gebruik gemaakt van trifoonmodellen. De a zal andere kenmerkvectoren genereren wanneer deze uitgesproken wordt in het woord mama dan wanneer deze uitgesproken wordt in het woord rat. De eerste a klank in mama wordt dan gemodelleerd als m-a+m en de a in rat wordt gemodelleerd als r-a+t. Deze voorstelling neemt het coarticulatie-effect van de voorgaande en volgende fonemen in rekening en zal ook betere resultaten geven in de spraakherkenning. 17

31 3. Automatische spraakherkenning Figuur 3.4: Door Verborgen Markov Modellen van fonemen te combineren met foneemmodellen van woorden uit het lexicon wordt een Verborgen Markov Model op zinsniveau bekomen. Overgenomen uit [5] In de gebruikte spraakherkenner wordt een algemeen akoestisch model gebruikt. De training is gebeurd op een algemene populatie van Nederlandstalige volwassenen om zoveel mogelijk inter-persoonlijke variaties te kunnen opvangen. 3.4 Taalmodel Het taalmodel geeft weer wat de kans is dat een bepaalde woordsequentie voorkomt. Dit is kans P (W ) uit vergelijking 3.3. Uiteraard is dit afhankelijk van de eigenschappen van de taal die gesproken wordt. Er zijn 2 grote groepen van taalmodellen: statistische en deterministische modellen. Statistische taalmodellen geven weer hoe waarschijnlijk een bepaalde woordsequentie is, terwijl deterministische modellen aangeven of een woordsequentie aanvaardbaar is of niet. Elke acceptabele woordsequentie is dan even waarschijnlijk. Deterministische taalmodellen worden vaak gebruikt in domeinen waar de interactie beperkt is. Een voorbeeld van zo n situatie is het programmeren van een bestemming voor een GPS met spraaksoftware, het ingeven van een telefoonnummer wanneer je handsfree wil bellen,... In de eerste subsectie wordt uitgelegd hoe algemene (statistische) taalmodellen werken. Dit soort taalmodel wordt in de eerste laag van de spraakverwerker gebruikt. In de tweede subsectie worden deterministische taalmodellen behandeld. Dit is het soort taalmodel dat in de tweede laag van de spraakverwerker gebruikt wordt en wat specifiek voor deze thesis ontworpen werd. 18

32 3.4. Taalmodel Statistisch taalmodel: N-gram In het eerste deel van de spraakherkenner wordt gebruik gemaakt van een algemeen taalmodel. Dit algemeen taalmodel geeft weer welke foonsequenties en woordsequenties waarschijnlijk zijn in de Nederlandse taal. Om dit model op te stellen wordt gebruikt gemaakt van een statistische analyse van een groot corpus. Dit corpus is een verzameling van Nederlandse zinnen uit teksten uit kranten, boeken, tijdschriften,... De kans op een woordsequentie P (W ) kan als volgt worden uitgedrukt: P (W ) = P (w 1, w 2,..., w L ) (3.9) = P (w L w 1, w 2,..., w L 1 )P (w 1, w 2,..., w L 1 ) (3.10) L = P (w l w 1, w 2,..., w l 1 ) (3.11) l=1 De kans P (w l w 1, w 2,..., w l 1 ) is de kans dat woord w l wordt uitgesproken op voorwaarde dat de woorden w 1, w 2,..., w l 1 er aan voorafgaan. Dit noemt men de context van woord w l. Vaak wordt de context beperkt tot 1 of 2 woorden. Men spreekt dan respectievelijk van bigrammen of trigrammen. Meer algemeen spreekt men van N-grammen. P (W ) = L P (w l w l N+1,..., w l 1 ) (3.12) l=1 N-grammen geven een lokaal model. Er wordt enkel naar 2 of 3 woorden gekeken bij het berekenen van de kans. Er wordt niet getracht een model te maken van een hele zin, dus wordt er ook geen model voor de grammatica van de taal gebruikt. De kansen die gebruikt worden, worden bepaald door statistische analyse op een groot corpus. Maar zelfs in een groot corpus komen niet alle mogelijke combinaties van woorden voor. Sommige woordcombinaties, die perfect kunnen voorkomen in de Nederlandse taal, zullen dus toch een kans van nul krijgen. Om dit te omzeilen kunnen technieken worden toegepast zoals backoff en discounting, waardoor combinaties die niet in het corpus voorkomen toch een waarschijnlijkheid van voorkomen hebben die verschilt van nul. [11] Het algemeen taalmodel van de spraakverwerker werd niet gewijzigd voor deze thesis. Er werden wel aanpassingen gedaan aan het taalmodel dat in de tweede laag gebruikt wordt. Dit is een deterministisch taalmodel, wat in de volgende sectie besproken wordt. 19

33 3. Automatische spraakherkenning Figuur 3.5: Grafische voorstelling van een zin uit de protocols van Infrabel Toepassingsspecifiek taalmodel: deterministisch model Een deterministisch taalmodel beschrijft de taal die in de toepassing gebruikt wordt. Deze taal bestaat uit een beperkt aantal aanvaardbare zinnen. De veiligheidscommunicatie bij Infrabel gebeurt volgens vaste regels die beschreven staan in de protocols. Het is mogelijk de beperkingen die in de protocols worden opgelegd om te vormen naar een deterministisch taalmodel omdat deze beperkingen strikt en goed beschreven zijn. Een deterministisch taalmodel geeft ineens weer of de uitgesproken zin volgens het taalmodel aanvaardbaar is of niet, en dit is net een van de toepassingen die gevraagd werd door Infrabel. Er bestaan twee soorten deterministische taalmodellen: reguliere expressies (RE) en (uitgebreide) context-vrije grammatica s (CVG). Elke taal uitgedrukt in een reguliere expressie kan ook uitgedrukt worden in een uitgebreide context-vrije grammatica, maar het omgekeerde geldt niet altijd. In het geval van deze thesis werd gestart met het ontwerpen van een context-vrije grammatica, zoals later zal aangeduid worden, maar die is omwille van praktische redenen omgezet naar een reguliere expressie. Een reguliere expressie bleek namelijk eenvoudiger om om te zetten naar een geldige invoer voor de spraakverwerkingssoftware. Een reguliere expressie is een taalmodel dat gebruik maakt van drie operaties om zinnen te vormen: opeenvolging: AB betekent A wordt gevolgd door B keuze-operatie: A B betekent A of B Kleene ster-operatie: A* betekent een aantal keren A (kan ook nul keer A zijn) A en B zijn woorden of andere reguliere expressies. Een reguliere expressie kan ook in de vorm van grafen voorgesteld worden, zoals weergegeven in figuur

34 3.5. Lexicon Context-vrije grammatica s bestaan uit een set van terminal symbolen en nonterminal symbolen. Terminal symbolen bestaan uit een woord of een opeenvolging van woorden. Non-terminal symbolen bestaan uit combinaties van terminal symbolen en non-terminal symbolen. De combinaties bestaan uit opeenvolgingen en keuzeoperaties. Het grootste verschil met een RE is dat CVG gebruik kunnen maken van recursie. Een VFG kan ook niet altijd gemapt worden naar een VMM, tenzij beperkingen worden opgelegd zodat de CVG ook als RE kan worden opgesteld. Het voordeel van een CVG is dat het leesbaarder is en makkelijker kan worden onderhouden. Dit zal verder besproken worden in het volgende hoofdstuk. 3.5 Lexicon Een lexicon bevat de fonetische transscriptie van de woorden die herkend kunnen worden door de spraakherkenner. De voorgeschreven procedures van Infrabel zijn vrij strikt, dus het is makkelijk een beperkt lexicon aan te maken. Door dit beperkt vocabularium worden woorden die niet volgens protocol zijn gemerkt als garbage-woorden. Garbage-woord bestaat uit alle mogelijke opeenvolgingen van fonemen, en kan dus elk woord dat niet in het lexicon staat opvangen. Daarnaast worden ook enkele woorden toegevoegd om voorspelbare fouten die regelmatig voorkomen te kunnen opsporen. Zo is het woord tweeduizenddertien toegevoegd omdat dit regelmatig werd toegevoegd aan de datum, maar eigenlijk buiten het protocol valt. Het woord klaar werd ook aan het lexicon toegevoegd, omdat dit regelmatig als synoniem wordt gebruikt voor het woord gereed, wat in het protocol gebruikt wordt. 3.6 Decodering Tot nu toe hebben we uit vergelijking 3.3 de termen P (O W ) en P (W ) verklaard als het akoestisch model en het taalmodel respectievelijk. Nu rest enkel nog het zoeken naar de woordsequentie Ŵ waarvoor de totale kans maximaal wordt. Dit gebeurt in de decoder. Zoals vermeld in sectie 3.1 werkt de spraakherkenner in twee lagen, elk met hun eigen decoder. De eerste laag die de foneemsequenties behandelt, maakt een foneemrooster gebruik makend van een taakonafhankelijk model van akoestiek en fonologie. De decoder houdt niet enkel de beste optie bij, maar een rooster van waarschijnlijke opties. Bij grote VMM s zijn er veel toestanden, en kan het veel rekenwerk vragen om alle mogelijk toestanden telkens in rekening te brengen. Daarom wordt het aantal toestanden beperkt door de bundelbreedte en waarschijnlijkheidsdrempel. Deze parameters bepalen de minimale waarschijnlijkheid die een toestand moet hebben om in rekening te worden gebracht voor de volgende stap en hoeveel toestanden er maximaal in rekening worden gebracht. 21

35 3. Automatische spraakherkenning De tweede laag van de spraakherkenner maakt gebruik van het Viterbi algoritme [9] om de beste oplossing uit het foneemrooster te halen, rekening houdend met het lexicon en de CVG. Het Viterbi algoritme werkt als volgt: op elk tijdstip t wordt voor elke toestand q bepaald welk pad het meest waarschijnlijk is om in die toestand te komen. Als het pad gekend is wordt voor elke toestand q t bijgehouden welke de meest waarschijnlijke vorige toestand q t 1 is. De rest van het pad kan afgeleid worden door te kijken naar welke vorige toestand q t 2 meest waarschijnlijk was voor toestand q t 1. Zo kan op een recursieve manier het pad gereconstrueerd worden. Op tijdstip T wordt dan gezocht naar de toestand die op dit moment het meest waarschijnlijk is. Via de omgekeerde recursieve redenering kan dan de meest waarschijnlijke toestandssequentie gevonden worden. De meest waarschijnlijk toestandssequentie kan dan omgezet worden naar een meest waarschijnlijke woordsequentie. 3.7 Besluit In dit hoofdstuk werd de werking van de gebruikte spraakherkenner en zijn componenten uitgelegd. De gebruikte spraakherkenner werkt in twee lagen: een algemene laag die een foneemrooster opstelt en een toepassingsspecifieke laag die aan de hand van dat foneemrooster de meest waarschijnlijke woordsequentie zoekt. De 4 belangrijke delen van de spraakherkenner zijn de volgende: een blok dat kenmerkvectoren opstelt aan de hand van de audio, het akoestisch model het taalmodel de decoder De focus van deze thesis ligt op het ontwikkelen van een deterministisch taalmodel dat gebruikt wordt in de toepassingsspecifieke laag. 22

36 Hoofdstuk 4 Ontwerp van het taalmodel De context vrije grammatica (CVG), het eindige toestandsdiagram (ETD) en de eindige toestandsgrammmatica (ETG) zijn verschillende manieren om een taalmodel voor te stellen. Tijdens het eerste deel van de thesis werd een nieuw taalmodel ontworpen. Er werd vertrokken van het voorbeeldgesprek zoals in bijlage A. Er werd een context vrije grammatica opgesteld. Daarnaast werden diagramma s opgesteld om de grammatica visueel voor te stellen. Omdat deze context vrije grammatica niet geschikt is als input voor de spraakverwerker, werd er een programma geschreven om deze grammatica om te zetten naar een eindige toestandsgrammatica. Deze is wel een geschikte input voor de spraaksoftware. 4.1 Context vrije grammatica In eerste instantie werd het protocol van Infrabel op de volgende manier omgezet naar een context vrije grammatica.(zie bijlage B.1) De context vrije grammatica is onderverdeeld in zinnen. Onder zin wordt verstaan, een samenhangend stuk uit de dialoog dat door een spreker wordt gezegd zonder onderbreking door de andere spreker. In het voorbeeld in bijlage A komt elk blokje in de tabel overeen met een zin. Een zin is opgebouwd uit terminale en niet-terminale symbolen. Terminale symbolen zijn woorden die effectief herkend kunnen worden. Niet-terminale symbolen zijn te herkennen aan de <> tekens en zijn vaak een groepering van een aantal mogelijkheden. De mogelijkheden worden van elkaar gescheiden door een teken. Ze bestaan op hun beurt uit terminale en niet-terminale symbolen. Sommige woorden zijn optioneel en worden omsloten met ((...)) teken. Er werd gekozen om veel niet-terminale symbolen te gebruiken om de CVG makkelijk aanpasbaar en begrijpbaar te maken. Eventuele uitbreidingen zouden zo gemakkelijker toegevoegd kunnen worden. Als bijvoorbeeld een cijfer verwacht wordt in de zin moet niet telkens elk cijfer getypt worden maar kan gewoon het niet-terminale symbool <digit> gebruikt worden wat de leesbaarheid verhoogt. 23

37 4. Ontwerp van het taalmodel Het idee was om een ETG te maken van elke zin en elk niet-terminale symbool en zo een gelaagd taalmodel te vormen. Maar omdat de spraakherkenner niet in staat was een taalmodel in meerdere lagen te verwerken was dit eerste idee niet uitvoerbaar. VOORBEELD 1 correct <Rubriek08> <Rubriek09> <Rubriek10> over <Rubriek08> := ((rubriek)) nul acht seinpost regelingstafel <seinhuis> <seinhuis> := blok nummer <1_2digit> traffic control <1_2digit> := ((<digit>)) <digit> <digit> := nul een twee drie vier vijf zes zeven acht negen... In tweede instantie werd de CVG aangepast om de omzetting naar een ETG van één laag gemakkelijker te maken. Een nieuwe CVG werd ontworpen met slechts enkele niet-terminale symbolen zoals letter en digit die enkel bestaan uit een aantal mogelijkheden van telkens één woord. Deze niet-terminale symbolen worden niet meer aangeduid met <> -tekens, omdat de woorden op zich herkenbaar genoeg zijn. Een overzicht van de niet-terminale symbolen is te vinden in tabel 4.2 Om de andere mogelijkheden op te vangen werden opnieuw <> tekens gebruikt om het begin en einde van een reeks mogelijkheden aan te geven. De mogelijkheden werden weer van elkaar gescheiden door een teken. Voor de omzetting naar ETG is het belangrijk dat de <> tekens aan het eerste en laatste woord vast zitten van de reeks mogelijkheden en dat het teken vast zit aan het laatste woord van elke mogelijkheid (behalve voor de laatste mogelijkheid waar al het > teken aan vast zit).(zie bijlage B.2 en voorbeeld 2) De zinnen met rubrieken werden opgesplitst per rubriek. Dit werd gedaan omdat uit de gesprekken van Infrabel bleek dat rubrieken ook direct herhaald kunnen worden. Dit kon met de vorige versie van de CVG, zoals in voorbeeld 1, niet gemodelleerd worden. VOORBEELD 2 ((rubriek)) nul acht seinpost regelingstafel <blok nummer ((digit)) digit traffic control> In derde instantie werden vaak voorkomende fouten toegevoegd aan het taalmodel. Als deze woorden een synoniem waren voor een woord uit het protocol werden ze voorafgegaan door SUBS -. Anders werden ze voorafgegaan door INS -. Deze aanduidingen werden toegevoegd om foutieve woorden makkelijk te kunnen opsporen in de verwerking van de uitvoer van de spraakverwerker. (zie bijlage B.3) Een voorbeeld van zo n fout is het zeggen van het jaartal in rubriek 02. Dit is een fout die aangeduid wordt met INStweeduizenddertien. Een ander voorbeeld is het gebruik van het woord tafel i.p.v. regelingstafel, dit werd aangeduid met SUBStafel. 24

38 4.2. Eindige toestandsdiagram Verder werd de CVG van rubriek 03 beperkt tot de zinnen die effectief in de testdata voorkwamen om de spraakverwerker sneller te laten lopen. Om dezelfde reden werden ook niet alle getallen toegevoegd aan rubriek 01 als alternatief voor de gespelde cijfers, maar enkel de getallen toegevoegd die in de testdata voorkwamen. Dit heeft als nadeel dat geen volledig beeld wordt verkregen van wat de spraakherkenner wel en niet kan detecteren als fout. VOORBEELD 3 rubriek nul acht IBregelingstafel <blok nummer traffic control ((tafel)) tango charlie> <digit ((digit)) SUBSgetal> IBregelingstafel := seinpost regelingstafel SUBStafel SUBSgetal := tien twaalf 4.2 Eindige toestandsdiagram Een eindige toestandsdiagram (ETD) is een visuele voorstelling van een eindige toestandsgrammatica (ETG) en dient als hulpmiddel voor de omzetting van CVG naar ETG. Een toestandsdiagram is eigenlijk een graaf en werkt als volgt: Voor iedere toestand van het taalmodel, bevat de graaf een punt (of node). Een dergelijke toestand is een momentopname in het herkenningsproces, waarin men belandt vanuit een vorige toestand door herkenning van een woord of klank die overeenkomt met een boog tussen beide toestanden. Ieder herkennen van een woord past bij een kant (of boog) van de graaf. Een kant (of boog) tussen punten, is een overgang van de ene toestand naar de volgende in het taalmodel. Een kant die een lus is, komt overeen met het soort regel dat zegt "nul of meer keer X herkennen" Het ETD dat afgeleid wordt uit de CVG is als volgt opgebouwd: voor elk woord in de CVG wordt een boog gemaakt zodat de ETD een weerspiegeling is van de CVG zoals te zien is in figuur 4.1. Aan elke node wordt een lus toegevoegd om stiltes tussen twee woorden te modelleren. Deze bogen worden aangeduid met een # symbool. Aan het toestandsdiagram moet een beginboog en eindboog worden toegevoegd. De beginboog is een lus aan de eerste node en is te herkennen aan het <s> symbool. De eindboog wordt geplaatst van de voorlaatste naar de laatste node en is te herkennen aan het </s> symbool. Aangezien het mogelijk is dat de zin vroeger wordt afgebroken, worden ook van de andere nodes bogen gemaakt naar de laatste node met hetzelfde symbool. Omdat deze bogen normaal niet genomen zouden mogen worden, wordt een kostprijs aan de bogen verbonden die hoger wordt naarmate er meer woorden worden overgeslagen. 25

39 4. Ontwerp van het taalmodel Figuur 4.1: Eindige toestandsdiagram van de zin rubriek een een voorzichtig rijden uit protocol E370 van Infrabel. Enkel de bogen met woorden uit de CVG of met een #, <s> of </s> symbool zijn weergegeven. 26

40 4.2. Eindige toestandsdiagram Figuur 4.2: Grafische voorstelling van de zin rubriek een een voorzichtig rijden uit protocol E370 van Infrabel. Bogen die één of twee woorden overslaan zijn toegevoegd t.o.v. figuur

41 4. Ontwerp van het taalmodel Figuur 4.3: Grafische voorstelling van de zin rubriek een een voorzichtig rijden uit protocol E370 van Infrabel. Volledige ETG. Het protocol wordt niet altijd perfect uitgevoerd. Om een aantal van deze fouten te kunnen opvangen in het taalmodel, worden er nog extra bogen toegevoegd. Zo kan het zijn dat soms één of twee woorden worden overgeslagen. De bogen die dit modelleren, hebben ook weer een kost. De kost van het overslaan van twee woorden is dubbel zo groot als bij één woord. Deze bogen zijn aan het voorbeeld in figuur 4.2 toegevoegd. Er werden geen bogen toegevoegd om meer dan twee woorden over te slaan omdat dit weinig voorkomt en omdat dit het aantal mogelijkheden onnodig groot zou maken. Daarnaast gebeurt het ook dat er woorden gezegd worden die niet in de context vrije grammatica staan zoals het woord euhm. Daarom wordt aan elke node een lus toegevoegd met het symbool garbage1 zoals te zien in figuur 4.3. Garbage1 wordt gebruikt om alle woorden en geluiden te modelleren waar nog geen boog voor gevormd was die vertrekt vanaf die node. Er wordt aan elke node ook een boog toegevoegd met het symbool garbage1 die één node overslaat om vooruit te kunnen gaan in de graaf met uitzondering van de laatste drie nodes. Aan het symbool garbage1 is uiteraard ook een kost verbonden. De kost bij het overslaan van een node is hoger dan de kost voor het maken van een lus. 28

42 4.3. Eindige toestandsgrammatica Figuur 4.4: Voorbeeld van een meer flexibele ETD van de zin ontvangen trein nummer letter digit aan sein letter digit over Intermezzo: Flexibele taalmodellen Het taalmodel dat hierboven besproken werd, is een sequentieel model. Alle mogelijke paden in het diagram gaan van beginnode naar eindnode, met bogen die starten aan de kant van de beginnode en eindigen aan de kant van de eindnode. Er zijn geen paden terug in dit taalmodel. Een flexibeler model zou er uitzien zoals in figuur 4.4 met terugkerende paden. Hier werden ook een aantal diagrammen voor opgesteld maar omdat het protocol strikt gevolgd moet worden werd gekozen voor de sequentiële modellen. Een bijkomend voordeel hiervan is dat ze makkelijk als CVG voor te stellen zijn, terwijl dit veel moeilijker zou geweest zijn met flexibele modellen. Flexibele taalmodellen kunnen wel makkelijk hernemingen modelleren. Dit zou in de toekomst aan de ETD van de sequentiële modellen toegevoegd kunnen worden door van elke node een boog te maken die teruggaat naar bijvoorbeeld de beginnode. Een andere mogelijkheid is het toevoegen van bogen die naar de vorige node of de node daarvoor gaan. 4.3 Eindige toestandsgrammatica Een eindige toestandsgrammatica is in het voorbeeld in tabel 4.1 als volgt opgebouwd: de ETG bestaat uit 7 regels hoofding en 5 regels bogen, voor elke node één regel. In de tweede regel van de hoofding staat dat het gaat om een ETG van een zin. De derde en vierde regel geven het aantal nodes en bogen in de ETG weer. De volgende regel geeft weer welke woorden of symbolen aanvaard worden voor de verschillende bogen. De volgende regel geeft alle mogelijke woorden en symbolen die worden weggeschreven als een bepaalde boog genomen wordt. De laatste regel van de hoofding zegt in welke nodes het model eindigt. In dit voorbeeld is dat node 6. Vanuit elke node vertrekken een aantal bogen. Elke node heeft een nummer zoals te zien in figuur 4.3. Dit is het eerste cijfer na arc. Daarna begint de opsomming van de bogen die vertrekken uit deze node. Elke boog bestaat uit vier elementen: de node waarnaar de boog gaat, gevolgd door het woord dat aanvaard wordt (invoerwoord), de kost en het woord dat weggeschreven wordt (uitvoerwoord). Dit is aangeduid voor node 5 in tabel

43 4. Ontwerp van het taalmodel 1 [FSG] 2 name Sentence 3 Nstate 7 4 Narc 35 5 accept <s> garbage1 # </s> een rubriek rijden voorzichtig 6 output GBG-SKIP GBG-LOOP een skipeen skipskipeen rubriek rijden skiprijden skipskiprijden voorzichtig skipvoorzichtig skipskipvoorzichtig SKIP garbage1 7 end 0.0 NO_FIT 6 8 arc 1 1 # 0 [] 1 garbage1-30 GBG-LOOP 2 een 0 een 3 een -15 skipeen 3 garbage1-50 GBG-SKIP 4 voorzichtig -30 skipskipvoorzichtig 6 </s> -60 SKIP 9 arc 2 2 # 0 [] 2 garbage1-30 GBG-LOOP 3 een 0 een 4 voorzichtig -15 skipvoorzichtig 4 garbage1-50 GBG-SKIP 5 rijden -30 skipskiprijden 6 </s> -45 SKIP 10 arc 3 3 # 0 [] 3 garbage1-30 GBG-LOOP 4 voorzichtig 0 voorzichtig 5 rijden -15 skiprijden 5 garbage1-50 GBG-SKIP 6 </s> -30 SKIP 11 arc 4 4 # 0 [] 4 garbage1-30 GBG-LOOP 5 rijden 0 rijden 6 </s> -15 SKIP 12 arc 5 5 # 0 [] }{{} boog 1 5 garbage1-30 GBG-LOOP }{{} boog 2 6 </s> 0 [] }{{} boog 3 Tabel 4.1: Eindige toestandsgrammatica van de zin "rubriek een een voorzichtig rijden"met lijnnummering. 4.4 Programma Er is een programma gemaakt dat aan de hand van de CVG automatisch de ETG genereert (zoals in het voorbeeld hierboven in tabel 4.1). Het programma maakt eerst een skelet aan zoals ook werd gedaan bij de opbouw van de ETD. In het skelet wordt voor elke node, een lijst van bogen gemaakt. Die lijst bevat de node waar de boog naartoe gaat en het woord uit de CVG dat bij die boog hoort. Aan de hand hiervan worden de regels van de ETG geschreven. Als het programma een woord tegenkomt dat een niet-terminaal symbool is wordt voor elke mogelijkheid van het niet-terminale symbool een boog gevormd. Een lijst van de gebruikte niet-terminale symbolen is terug te vinden in Tabel 4.2. In het programma worden de voorvoegsels INS en SUBS verwijderd van de invoerwoorden van de boog, maar deze blijven wel behouden voor de uitvoerwoorden van de boog. Aan het uitvoerwoord van bogen die één of twee woorden overslaan worden de voorvoegsels skip en skipskip respectievelijk toegevoegd. 30

44 4.5. Besluit 4.5 Besluit In dit hoofdstuk werden de verschillende voorstellingen van een taalmodel uitgelegd. Er werden verschillende CVG s gemaakt. Eerst werd een CVG gemaakt met meerdere lagen, maar omdat de spraakherkenner dit niet kon verwerken werd een nieuw CVG van één laag gevormd. Tenslotte werden nog vaak voorkomende fouten toegevoegd aan deze CVG. Er werd ook uitgelegd dat ETD een grafische voorstelling zijn van het taalmodel en dat deze een hulpmiddel zijn voor het opmaken van de ETG. 31

45 4. Ontwerp van het taalmodel Niet-terminaal symbool SUBSgetal IBkilometer IBINSpaal digit letter dag maand uurib minuutib uurdigitib minuutdigitib treinletterib IBregelingstafel Mogelijke terminale woorden SUBStien SUBStwaalf kilometer SUBSafstand INSpaal INSpunt nul één twee drie vier vijf zes zeven acht negen zero alpha bravo charlie delta echo foxtrot golf hotel india juliet kilo lima mike november oscar papa quebec romeo sierra tango uniform victor whiskey x-ray yankee zoeloe één twee drie vier vijf zes zeven acht negen tien elf twaalf dertien veertien vijftien zestien zeventien achttien negentien twintig eenentwintig tweeentwintig drieentwintig vierentwintig vijfentwintig zesentwintig zevenentwintig achtentwintig negenentwintig dertig eenendertig januari februari maart april mei juni juli augustus september oktober november december nul een twee drie vier vijf zes zeven acht negen tien elf twaalf dertien veertien vijftien zestien zeventien achttien negentien twintig eenentwintig tweeentwintig drieentwintig nul een twee drie vier vijf zes zeven acht negen tien elf twaalf dertien veertien vijftien zestien zeventien achttien negentien twintig eenentwintig tweeentwintig drieentwintig vierentwintig vijfentwintig zesentwintig zevenentwintig achtentwintig negenentwintig dertig eenendertig tweeendertig drieendertig vierendertig vijfendertig zesendertig zevenendertig achtendertig negenendertig veertig eenenveertig tweeenveertig drieenveertig vierenveertig vijfenveertig zesenveertig zevenenveertig achtenveertig negenenveertig vijftig eenenvijftig tweeenvijftig drieenvijftig vierenvijftig vijfenvijftig zesenvijftig zevenenvijftig achtenvijftig negenenvijftig nul één twee drie zero nul één twee drie vier vijf zes zero echo zoeloe seinpost regelingstafel SUBStafel Tabel 4.2: Gebruikte niet-terminale symbolen 32

46 Hoofdstuk 5 Analyse van de gesprekken 5.1 Manuele analyse In eerste instantie werden een aantal gesprekken van Infrabel beluisterd. De gesprekken vonden plaats in een ruizige omgeving, op de achtergrond was af en toe een derde of vierde persoon te horen en er was ook regelmatig een gepiep op de lijn te horen. De gesprekken verliepen niet helemaal volgens het protocol. Ze werden veel minder strikt gevolgd dan verwacht. Herhalingen gebeurden soms direct, niet zoals beschreven in het protocol. Woorden als over en ontvangen (verplichte woorden volgens protocol), werden bijna nooit gebruikt. Er werden veel dingen gezegd die niet binnen het protocol vallen. Het enige deel van het protocol dat wel grotendeels gevolgd werd, is het overlopen van de rubrieken van het formulier. De eerste versie van de CVG was gebaseerd op de regels beschreven in hoofdstuk 1 en het voorbeeld in bijlage A en moest duidelijk worden aangepast om deze gesprekken te kunnen modelleren. Omdat er geen perfect voorbeeld was van het protocol, werd zelf een opname (testfile) gemaakt met enkel zinnen volgens het protocol. Deze testfile en de audiofiles van Infrabel werden opgenomen met een samplefrequentie van 8 khz. Maar de spraakherkenner gebruikte een akoestisch model voor files met samplefrequentie 16 khz. Omdat de werking van de spraakherkenner met het nieuwe taalmodel nog niet op punt stond, werd geopteerd om nog geen aanpassingen te doen aan het akoestische model voor dit in orde was. Daarom werden de testfile en de audiofiles geupsampled naar 16 khz. Dit was natuurlijk maar een tijdelijke oplossing omdat bij upsampling het spectrum tussen 4 en 8 khz leeg blijft terwijl de akoestische modellen daar data verwachten. Daarmee kon worden gefocust op het werkend krijgen van het nieuwe taalmodel. De analyse van de gesprekken gebeurde op zinsniveau. Daarom moesten de audiofiles opgedeeld worden in zinnen (zoals gedefinieerd in 4.1). Om niet elke 33

47 5. Analyse van de gesprekken audiofile in 20 stukjes te moeten knippen, werden tekstgrids gebruikt. Deze grids werden aangemaakt met het programma Praat ( Dit programma laat toe om een audiofile op te delen in intervallen die overeen komen met bepaalde zinnen van het protocol. Voor elk van deze zinnen kan worden aangegeven wanneer ze juist starten en stoppen. In de eerste laag (tier) wordt gespecificeerd welke CVG hierop van toepassing is. In andere lagen kan andere info worden gestockeerd, zoals transcriptie en het resultaat van de spraakverwerking. Na overleg met Infrabel werd geopteerd om in eerste instantie enkel de rubrieken te verwerken en eventueel later een controle op steekwoorden van de identificatie of van de stukken van het protocol buiten de rubrieken toe te voegen. Er werd ook gekozen om het overslaan van woorden als over en ontvangen (verplichte woorden volgens protocol), niet als fout aan te rekenen. Dit kan wel makkelijk toegevoegd worden indien gewenst. 5.2 Intermezzo: Berekenen van het woordfoutpercentage, precisie en gevoeligheid Het woordfoutpercentage (Engels: Word Error Rate - WER) is een veel gebruikt criterium om de performantie van een spraakherkenner te bepalen. In het geval van deze thesis zal het woordfoutpercentage slechts een indicatie geven omdat het taalmodel slechts een beperkt aantal woorden toelaat. Hierdoor bestaat de kans dat de juiste woorden herkend worden op de verkeerde plaats. In zo n geval zal het woordfoutpercentage een vertekend beeld geven. Het woordfoutpercentage is dus een eerste maat van performantie, maar verdere controles zijn nodig Levenshtein afstandsmaat De berekening is gebaseerd op de Levenshtein afstandsmaat, maar werkt op woordniveau in de plaats van op letterniveau. De Levenshtein afstand tussen twee woorden is het minimum aantal aanpassingen van 1 karakter die moeten gebeuren om van het ene woord naar het andere over te gaan. Deze aanpassingen vallen in 3 categorieën: Insertions of invoegingen: een nieuw karakter komt voor in het nieuwe woord op een plaats waar in het oude woord geen karakter voorkwam Deletions of verwijderingen: er is geen karakter in het nieuwe woord op een plaats waar in het oude woord wel een karakter voorkwam 34 Subsitutions of vervangingen: een nieuw karakter komt voor in het nieuwe woord op een plaats waar in het oude woord een ander karakter voorkwam

48 5.2. Intermezzo: Berekenen van het woordfoutpercentage, precisie en gevoeligheid Mathematisch wordt de Levenshtein afstand lev a,b ( a, b ) tussen twee strings a, b gegeven door: max(i, j) if min(i, j) = 0, lev a,b (i, j) = lev a,b (i 1, j) + 1 min lev a,b (i, j 1) + 1 anders. lev a,b (i 1, j 1) + 1 (ai b j ) (5.1) waarbij 1 (ai b j ) een functie is die 0 is als a i = b j en anders gelijk is aan Berekenen van het woordfoutpercenage Als de Levinshtein afstand berekend is kan het woordfoutpercentage berekend worden. De Levinshtein afstand geeft het totale aantal vervangingen, invoegingen en verwijderingen. W ER = S + D + I N = S + D + I S + D + C (5.2) (5.3) Waarbij N het aantal woorden in de referentie is. De referentie is in dit geval een transcriptie van de gesprekken, met aanduiding van de fouten tegen het protocol. Het is mogelijk dat het woordfoutpercentage groter is dan 100% Berekenen van de precisie en de gevoeligheid De precisie en gevoeligheid worden op volgende manier berekend: Precisie = tp tp + fp tp Gevoeligheid = tp + fn (5.4) (5.5) (5.6) met: Echt positief (tp) = het aantal juist aangeduide fouten. Vals positief (fp) = het aantal door de spraakherkenner aangeduide fouten waar geen fouten zijn. Vals negatief (fn) = het aantal door de spraakherkenner gemiste fouten + het aantal fout herkende woorden. 35

49 5. Analyse van de gesprekken 5.3 Eerste versie van het programma en de resultaten De eerste resultaten van het programma waren slechter dan verwacht. Het woordfoutpercentage van de testfile was 15%. Dit was te hoog om mee verder te werken. Er was vermoedelijk een grotere mismatch tussen de akoestische modellen en de audiofiles dan verwacht. Daarom werd er overgestapt van 16 khz naar 8 khz modellen. Dit was niet eenvoudig. Het lexicon moest volledig hermaakt worden omdat de nieuwe akoestische files werkten met een nieuw foonmodel. Niet van alle woorden was er een fonetische transcriptie dus moesten de ontbrekende woorden manueel toegevoegd worden. Dit gaf echter geen verbetering. Er werden nieuwe testfiles gemaakt met verschillende types van microfoons. Daarbij bleek dat de resultaten van de spraakherkenningssoftware afhankelijk waren van het type microfoon. De microfoon met de beste resultaten (aansluiting via USB) werd gebruikt om verdere testopnames mee te maken. 5.4 Intermezzo Bigram modellen Om zeker te zijn dat het probleem van de slechte resultaten niet lag aan het gebruikte taalmodel, werd een bigram taalmodel aangemaakt. Dit gebeurde aan de hand van de transcripties van vijf gesprekken. Hierin werden alle woorden die niet in het lexicon stonden vervangen door het symbool UNK. Een bigram is een taalmodel dat bestaat uit een lijst van woordparen en geeft aan elk paar een kans van voorkomen. Hoe vaker het paar in de transcripties voorkomt hoe hoger de kans. Met dit bigram werden een aantal testen gedaan op 16 khz data. Het werd eerst gebruikt als zerogram, waarbij alle woorden even waarschijnlijk zijn. Dit gebeurde om de invloed van het taalmodel volledig uit te sluiten uit de resultaten. Dan werd er vastgesteld dat in het programma dat de voorbewerking doet een mogelijk probleem zat. Het markeerde namelijk teveel stukken van het geluidsbestand als spraak en niet als stilte. Hierdoor werd de filter, die verschillen in stemkanaal compenseert, verkeerd berekend. Er worden geen frames weggegooid in de herkenning zelf. Een nieuw voorbewerkingsprogramma werd gebruikt waarin het percentage spraak kon aangepast worden door middel van een parameter (VAD). De invloed hiervan is te zien in figuur 5.1. Het woordfoutpercentage is minimaal als ongeveer 54% van de geluidsbestand gemarkeerd werd als spraak. Dit is als werkingspunt genomen voor de verdere testen. 36

50 5.4. Intermezzo Bigram modellen Figuur 5.1: Woordfoutpercentage in functie van het percentage van het geluidsbestand dat aangeduid is als spraak. Nadat de optimale waarde werd ingesteld voor de hoeveelheid spraak werd de invloed van de drempelwaarde bekeken. Deze drempelwaarde, zoals uitgelegd in sectie 3.1 heeft invloed op de grootte van het foneemrooster. Hieruit bleek dat een veel hogere waarde nodig was dan eerst werd gedacht. De invloed van de drempelwaarde op het woordfoutpercentage is te zien in figuur 5.2. Een minimaal woordfoutpercentage van 8% werd behaald bij een drempelwaarde van 130. Hierdoor werd het foneemrooster groter en dus duurde de verwerking ervan aanzienlijk langer. Naast de drempelwaarde en de hoeveelheid spraak heeft ook de C-kost parameter een effect op het woordfoutpercentage. Dit is te zien in figuur 5.3. Voor een drempelwaarde van 70 werden uitgebreide testen gedaan. Een minimum werd gevonden met een C-waarde (kost om een woord te starten) van -35. Voor het minimale woordfoutpercentage van 8% was een waarde van -60 nodig. 37

51 5. Analyse van de gesprekken Figuur 5.2: Het effect van de drempelwaarde op het woordfoutpercentage. Figuur 5.3: Woordfoutpercentage in functie van de C-kost 38

52 5.4. Intermezzo Bigram modellen Figuur 5.4: Effect van de drempelwaarde op de uitvoeringstijd Figuur 5.5: Effect van de drempelwaarde op het percentage van de uitvoeringstijd dat gespendeerd wordt in iedere laag 39

53 5. Analyse van de gesprekken 5.5 Finale opstelling van de spraakherkenner Het spraakverwerkingsprogramma werd aangepast om met het nieuwe voorbewerkingsprogramma en de akoestische modellen, gebruikt bij de testen met het bigram model, te werken. Er werden nog een aantal testfiles aangemaakt om te kijken welke drempelwaarde de beste resultaten gaf met het ontworpen taalmodel. Een waarde van 90 gaf de beste resultaten. Dit werd als vertrekpunt gebruikt bij het analyseren van de gesprekken. Eerder was reeds gebleken dat de audio kwaliteit van de geleverde gesprekken vrij slecht was (veel ruis en achtergrondgeluiden). Bovendien waren deze gesprekken op 8 khz gesampeld en gaven de gebruikte akoestische modellen op 16 khz betere resultaten dan die op 8 khz. Om de werking van het taalmodel optimaal te kunnen analyseren werden reële gesprekken van Infrabel opnieuw zelf ingesproken met de beste microfoon en een samplefrequentie van 16 khz om invloeden van de geluidskwaliteit uit te sluiten en om te kijken wat bij audiofiles met goede kwaliteit mogelijk was. In de transcripties van de gesprekken werden de fouten tegen het protocol aangeduid. Zo kon de precisie en gevoeligheid van de spraakherkenner bepaald worden Invloed van de drempelwaarde De invloeden van verschillende parameters werden onderzocht. Als eerste werd gekeken naar de drempelwaarde omdat deze ook invloed heeft op de verwerkingstijd van het programma. In figuur 5.4 is te zien dat de totale verwerkingstijd voor de herkenning van 10,5 minuten audio ongeveer lineair stijgt met de drempelwaarde voor waarden tussen 60 en 100. Vanaf een drempelwaarde van 100 vlakt de curve af. Waarschijnlijk is vanaf hier de bundelbreedte de beperkende factor op de grootte van het foneemrooster. In figuur 5.5 is te zien hoeveel procent van de totale uitvoeringstijd doorgebracht wordt in elke laag. De foneemherkenner heeft het meeste tijd nodig, maar naarmate de drempelwaarde verhoogt heeft ook de taakspecifieke herkenner procentueel gezien meer tijd nodig om het foneemrooster te kunnen verwerken. Voor mogelijke optimalisaties zal dus eerst gekeken worden naar de eerste laag, maar de tweede laag mag niet uit het oog verloren worden, zeker niet bij hogere drempelwaarden. In figuur 5.6 is het effect te zien van de drempelwaarde op het aantal gevonden fouten. Het totaal echt positief geeft aan hoeveel van de 175 aangeduide fouten ook gevonden werden door de spraakherkenner. Dit aantal daalt licht met het verhogen van de drempelwaarde. Dit komt omdat bij een hogere drempelwaarde er meer mogelijkheden in het foneemrooster worden bewaard en daardoor het door het protocol gewenste woord hierin zal worden teruggevonden, hoewel er eigenlijk een fout werd gezegd. Hierdoor stijgt natuurlijk ook het aantal totaal vals negatief. Dit zijn alle onopgemerkte fouten en verkeerde herkenningen. Als laatste staat ook het totaal vals positief op de figuur. Deze stijgt naarmate de drempelwaarde 40

54 5.5. Finale opstelling van de spraakherkenner daalt, omdat met een kleiner foneemrooster het uitgesproken woord niet altijd kan teruggevonden worden. In figuur 5.7 is de informatie uit figuur 5.6 verwerkt tot twee waarden: de precisie en de gevoeligheid. De precisie zegt hoeveel van de gevonden fouten effectief fouten waren. De gevoeligheid geeft aan hoeveel van de gemaakte fouten gevonden zijn. Er werd gekozen om te werken met een drempelwaarde van 70 omdat de precisie kort bij de maximale precisie ligt en de uitvoertijd slechts de helft is van de uitvoertijd die nodig is om de maximale precisie te halen Invloed garbage -lus kost De tweede parameter die onderzocht werd is de garbage lus kost. In figuur 5.8 is te zien hoe lager de kost hoe makkelijker de lus genomen wordt. Dit heeft als effect dat er meer echte fouten gevonden worden maar vooral vals positieve fouten. Het aantal vals positieve is minimaal voor een kost van 25. Dit is als werkingspunt genomen omdat in figuur 5.9 ook de precisie maximaal is Invloed garbage -skip kost De derde parameter die onderzocht werd is de garbage skip kost. In figuur 5.10 is te zien dat deze kost vooral invloed heeft op het aantal vals positieven. Dit aantal is minimaal bij een kost vanaf 45. Dit is ook te zien in figuur De precisie is maximaal vanaf een kost van 45. Als werkingspunt werd een kost van 50 genomen Invloed skip kost De laatste parameter die onderzocht werd is de kost om een woord over te slaan. In figuur 5.12 en figuur 5.13 is een piek te zien in het aantal echt positieven en de precisie voor een kost van 5. Dit werd dan ook als finaal punt genomen. Voor de precisie werd een waarde van 89% bereikt en voor de gevoeligheid een waarde van 75%. In dit punt werden 156 van de 175 aangeduide fouten door de spraakherkenner gevonden, dit is 89%. 19 fouten werden niet door de spraakherkenner aangeduid. Daarboven werden slechts 33 van de 763 woorden (die geen fouten waren) verkeerd herkend. Dit geeft een totaal aantal vals negatieven van 52. Het aantal vals positieven eindigde op slechts

55 5. Analyse van de gesprekken Figuur 5.6: Effect van de drempelwaarde op het aantal gevonden fouten Figuur 5.7: Effect van drempelwaarde op de precisie en gevoeligheid 42

56 5.5. Finale opstelling van de spraakherkenner Figuur 5.8: Effect van de garbage -lus kost op het aantal gevonden fouten Figuur 5.9: Effect van garbage -lus kost op de precisie en gevoeligheid 43

57 5. Analyse van de gesprekken Figuur 5.10: Effect van de garbage -skip kost op het aantal gevonden fouten Figuur 5.11: Effect van garbage -skip kost op de precisie en gevoeligheid 44

58 5.5. Finale opstelling van de spraakherkenner Figuur 5.12: Effect van de skip kost op het aantal gevonden fouten Figuur 5.13: Effect van skip kost op de precisie en gevoeligheid 45

59 5. Analyse van de gesprekken 5.6 Controle op dialoogniveau Er werd een programma geschreven dat controleert of de herhaling in het gesprek dezelfde is als de originele zin. Ook werd gecontroleerd of het telegramnummer niet werd doorgegeven voor de andere rubrieken herhaald waren zoals gespecificeerd in het voorbeeld in bijlage A. De resultaten van de testen op dialoogniveau zijn te zien in figuur Hieruit kan worden besloten dat over het algemeen de herhalingen identiek zijn aan de originele zinnen, behalve voor rubrieken 02, 03, 22 en 32. Hierin werd vaak afgeweken van het protocol. Het nadeel van deze testen is dat als beide sprekers dezelfde fout maken deze niet opgemerkt kan worden. In deze tabel worden op de 175 uitkomsten slechts 4 fouten gemaakt door verkeerde herkenningen van de spraakverwerker. 5.7 Besluit In dit hoofdstuk gebeurde de analyse van de gesprekken. Eerst werden de gesprekken beluisterd. De conclusie hiervan was dat ze in een ruizige omgeving plaatsvonden en dat het protocol veel minder strikt gevolgd werd dan verwacht. In samenspraak met Infrabel werd beslist de focus te leggen op de rubrieken. Er werden ook textgrids opgesteld bij de geluidsbestanden om deze op te delen en te transcriberen. Omdat de eerste resultaten slechter waren dan verwacht werden opnames gemaakt in stille omgeving met verschillende microfoons om hier testen op uit te voeren. Zo werd, met behulp van een zerogram taalmodel, ontdekt dat het voorbewerkingsbestand aangepast moest worden en dat ook een hoge drempelwaarde nodig was. Hierna werden nog opnames van reële gesprekken gemaakt onder betere omstandigheden om de kwaliteit van het taalmodel en spraakherkenner te kunnen beoordelen. De parameters voor een maximale precisie waren: een drempelwaarde van 70, garbage -lus kost van 25, een garbage -skip kost van 50 en een woord-skip kost van 5. Met deze instellingen werd een precisie van 89% en een gevoeligheid van 75% bereikt. 46

60 5.7. Besluit Figuur 5.14: Resultaten testen op dialoogniveau 47

Nog meer weergeven