Onderzoeksplan bachelorscriptie Begeleider: Joost van Doremalen j.vandoremalen@let.ru.nl Auteur: Robin Oostrum (0609803) robinoostrum@student.ru.nl 1 april 2011 Begeleider: Theo Schouten t.schouten@cs.ru.nl 1 Probleemstelling 1.1 Inleiding Taalwetenschappers maken voor hun onderzoek gebruik van corpora: grote hoeveelheden gesproken tekst. Een dergelijk corpus bestaat meestal uit paren van audio- en annotatiebestanden. De annotatiebestanden, ook wel transcripties genoemd, geven aan wat er gezegd wordt in het bijbehorende audiobestand. Veel van zulke transcripties worden handmatig ingevoerd, en zijn niet altijd even betrouwbaar. Het is daarom wenselijk dat een bestaande transcriptie getest kan worden op een bepaald geluidsbestand, om te controleren in welke mate beide met elkaar overeenkomen. Een dergelijke toepassing is de TQE-tool. TQE, voluit Transcription Quality Evaluation, is een project opgezet vanuit de faculteit der letteren aan de Radboud Universiteit Nijmegen, in samenwerking met Clarin-NL en het Max Planck Instituut ([1], [2], [3], [4], [5]). De TQE-tool maakt het mogelijk om paren van audio- en annotatiebestanden te uploaden, en behandelt deze als volgt: audiosignalen en hun fonetische transcripties worden uitgelijnd, segmentsgrenzen worden afgeleid per foneem, en voor elke segmentfoneemcombinatie wordt bepaald hoe goed deze bij elkaar passen. Dit wordt uitgedrukt in een TQE-maat, een getal van 0-100, die de kwaliteit 1
van de fonetische transcriptie per foneem 1 weergeeft (hoe hoger het getal, hoe groter de overeenkomst tussen audiosignaal en transcriptie). De tool heb ik zelf ontwikkeld, maar is nog niet af. Wel is het inmiddels mogelijk om voor een select aantal paren van audio en transcriptie, een TQE-maat te berekenen. Deze maat is zeker niet perfect te noemen: zo wordt op dit moment voor alle fonemen op dezelfde manier de TQE-maat berekend, en is de berekening vrij willekeurig en ongestaafd. Een verbeterde manier van berekenen kan worden gevalideerd door bijvoorbeeld kunstmatige fouten te introduceren in de transcripties, en te bekijken of dit de gewenste (negatieve) invloed heeft op de TQE-maat. 1.2 Onderzoeksvraag De hoofdvraag van mijn onderzoek luidt: hoe kan de kwaliteit van fonetische transcripties zo goed mogelijk geëvalueerd worden? Het onderzoek kan globaal worden verdeeld over twee richtingen: de softwareengineeringskant (het ontwikkelproces van de applicatie) enerzijds, en de spraaktechnologische kant (gebruikte formules, akoestische modellen etc.) anderzijds. 1.3 Product / Antwoord Het antwoord zal zowel een procesbeschrijving zijn van het ontwikkelen van de tool, als de technische kant belichten van de applicatie zelf. De procesbeschrijving geeft een antwoord in de vorm van verschillende componenten, met bij elke component een toelichting. De spraaktechnologische kant zal een antwoord opleveren in de vorm van een formele beschrijving van het systeem, alsmede een optimalisatie en een validatie (dus een formule) van de berekening van de TQE-maat. Dit alles zal ik dan weer implementeren in de tool. 2 Verantwoording De voornaamste reden voor mezelf om dit onderzoek te doen, is omdat ik de afgelopen maanden zelf betrokken ben geweest bij de ontwikkeling van de TQE-tool, en ik het zeer interessant vind. Toen zowel mijn begeleider binnen taalwetenschappen als Theo Schouten enthousiast reageerden op mijn 1 In taal- en spraakwetenschappen is een foneem (van het Griekse φωνηµα) de kleinste begrensde eenheid van geluid, waarmee nog een zinvol onderscheid kan worden gemaakt tussen verschillende spraakuitingen. 2
voorstel hier een bachelorscriptie aan te wijden, was ik dan ook erg verheugd. Ik verwacht dat vooral de spraaktechnologische kant van mijn onderzoek een significante bijdrage kan leveren aan de verdere ontwikkeling en afronding van de tool. 3 Theoretisch kader Mijn onderzoek zal zich toespitsen op de implementatie (die ik heb zelf gerealiseerd), en de keuzes die daarbij gemaakt zijn: keuzes op het gebied van software engineering [6] (bijv. component-based engineering) inclusief architectuur, en keuzes op het gebied van data mining (bijv. Hidden Markov Models). De link met informatica zit hem vooral in data mining en de implementatie, die ook niet onbesproken zal blijven. De tool is ontwikkeld met behulp van de SPRAAK-technologie [7]. Een korte uitleg is te lezen op de website van SPRAAK 2 : SPRAAK (Speech Processing, Recognition and Automatic Annotation Kit; spraak is also the Dutch word for speech ) is an open source speech recognition package. It is an efficient and flexible tool that combines many of the recent advancements in automatic speech recognition with a very efficient decoder in a proven HMM architecture. 4 Methode 4.1 Onderzoeksfunctie De onderzoeksfunctie van mijn onderzoek is een combinatie van evalueren, beschrijven, vergelijken en ontwerpen: het ontwikkelproces van de applicatie zal worden geëvalueerd, onderdelen van de tool zullen afzonderlijk (formeel en informeel) beschreven worden, de verschillende mogelijkheden wat betreft de modellen en formules zullen vergeleken worden, en uiteindelijk zal het meest optimale ook ontworpen en geïmplementeerd worden. Voor het optimaliseren van de tqe-maat voor verschillende fonemen, moet ik verschillende foute annotatiebestanden genereren, om te analyseren in hoeverre de scores afhangen van de kwaliteit van de transcriptie. Voor deze analyse maak ik histogrammen met de scores per foneem: de correcte scores (dus de scores bij onaangepaste transcripties) vergelijk ik dan met een histrogram van een foneem waarvan ik een nader te bepalen aantal uitingen 2 http://www.spraak.org/ 3
heb gemanipuleerd. Voor de hand ligt het om hierbij een foneem zoveel mogelijk te vervangen door de dichtstbijzijnde buurklank, met het oog op het intact houden van de segmentatie. 4.2 Structuur Om de onderzoeksvraag te beantwoorden, moeten de volgende deelvragen beantwoord worden: 1. Wat is de TQE-tool? 2. Uit welke componenten bestaat de TQE-tool? 3. Welke keuzes / beslissingen zijn er gemaakt tijdens de ontwikkeling van de TQE-tool? 4. Hoe kan per foneem de TQE-maat berekend worden? (a) Hoe worden de fonemen optimaal uitgelijnd? (b) Moet voor verschillende fonemen ook op een andere manier de score berekend worden? Zoja, hoe dan? (c) Wat voor scores krijgen verkeerd geannoteerde fonemen? (d) Hoe betrouwbaar zijn deze scores? 4.3 Deliverables Antwoord op de eerste deelvraag zal bestaan uit een korte beschrijving, en is ook al summier beschreven in de inleiding van dit onderzoeksplan. De tweede en derde deelvraag zullen zowel beschrijvend als evaluerend beantwoord worden, en enkele verklarende figuren bevatten (bijv. ter verduidelijking van de onderlinge relatie van de componenten). Het antwoord op de laatste deelvraag, opgesplitst in nog meer deelvragen, zal wat meer wiskunde bevatten, en vergelijkend van aard zijn. Ook zal het resultaat van deze vergelijking terug te zien zijn in de uiteindelijke applicatie; de implementatie is dus ook een deliverable. 4
5 Planning 5.1 Data De volgende tabel geeft een planning weer van het schrijven van mijn bachelorscriptie. Een datum in de linkerkolom geeft aan wanneer de taak in de bijbehorende rechterkolom dient te zijn voltooid. Week Doel 11 februari Onderzoeksvraag 25 februari Voorlopig onderzoeksplan 18 maart Deelvraag 1 Literatuur verzameld 25 maart Eerste opzet deelvraag 4 1 april Definitief onderzoeksplan 8 april Eerste opzet deelvragen 2 en 3 22 april Hoofdlijnen deelvragen 2 en 3 25 april Eerste versie scriptie 13 mei Minstens 3 deelvragen beantwoord 27 mei Implementatie gereed 3 juni Eventuele uitloop, feedback verwerken 13 juni Tweede versie scriptie 27 juni Definitieve versie scriptie Presentatie 5
5.2 Faseringsschema Het volgende faseringsschema geeft een globale indicatiie aan van het aantal uren dat ik aan een bepaalde taak denk te gaan besteden. Taak Geschatte uurlast Gespendeerde tijd Onderzoeksvraag 2 2 Onderzoeksplan 5 5 Literatuur zoeken en lezen 20 6 Inleiding, uitleg 10 5 Procesbeschrijving 15 3 Componentsbeschrijving, 25 0 flowcharts e.d. Formele beschrijving systeem 15 0 Testset selecteren 3 3 Kunstmatige fouten intro- 15 5 duceren in annotaties Foute en goede scores 15 5 berekenen voor elk foneem Histogrammen maken en ana- 15 3 lyseren Formules per foneem bepalen 15 0 Formele beschrijving formules 15 Hulpscripts schrijven etc. 10 5 Implementatie 20 0 Meetings begeleiders 16 2 Scriptie schrijven 25 0 Presentatie voorbereiden 10 0 Presenteren 1 0 Totaal 252 44 6
Referenties [1] C. Cucchiarini, A. Neri, and H. Strik. Oral proficiency training in Dutch L2: The contribution of ASR-based corrective feedback. Speech Communication, 51(10):853 863, 2009. [2] H. Strik, K. Truong, F. de Wet, and C. Cucchiarini. Comparing different approaches for automatic pronunciation error detection. Speech Communication, 51(10):845 852, 2009. [3] J. van Doremalen, C. Cucchiarini, and H. Strik. Automatic detection of vowel pronunciation errors using multiple information sources. In Automatic Speech Recognition & Understanding, 2009. ASRU 2009. IEEE Workshop on, pages 580 585. IEEE, 2009. [4] M. Gubian, B. Schuppler, J. van Doremalen, E. Sanders, and L. Boves. Novelty Detection as a Tool for Automatic Detection of Orthographic Transcription Errors. In Proc. of 13-th International Conference on Speech and Computer (SPECOM 2009), 2009. [5] C. Van Bael, L. Boves, H. van den Heuvel, and H. Strik. Automatic phonetic transcription of large speech corpora. Computer Speech & Language, 21(4):652 668, 2007. [6] R.S. Pressman and D. Ince. Software engineering: a practitioner s approach. McGraw-Hill New York, NY, 1982. [7] K. Demuynck, J. Roelens, D.V. Compernolle, and P. Wambacq. SPRAAK: An Open Source Speech Recognition and Automatic Annotation Kit. In Ninth Annual Conference of the International Speech Communication Association, 2008. 7