Personiceren van stemmen met Deep Learning Kan het Nationaal Archief straks teksten voorlezen met de stem van Joop den Uyl? Esther Judd-Klabbers 20 September 2016
Overzicht Introduction Statistische Parametrische Spraaksynthese Toekomstig onderzoek
ReadSpeaker http://www.readspeaker.com Tekst-naar-spraak technologie geïntegreerd in: Websites (Belastingdienst, gemeentes) Educatieve leeromgevingen (TU Delft) TextAid voor persoonlijk gebruik om websites, gescande documenten, en zelf geschreven teksten voor te lezen
Wat is Deep Learning? Nieuw gebied van machine learning Brengt ons dichter bij Artical Intelligence (AI) Wordt op veel gebieden toegepast zoals automatische spraakherkenning (ASR), computationele linguïstiek (NLP), beeldclassicatie, etc. In 2014 heeft Apple in Siri HMM ASR vervangen door een Deep Learning variant. Volgens hen heeft het het aantal fouten gehalveerd. Google's DeepMind heeft zojuist hun nieuwe DNN synthese methode aangekondigd, WaveNet genaamd
Wat is Machine Learning? Figure: Machine Learning voorbeeld Schrijf computerprogramma om handgeschreven cijfers te herkennen Niet genoeg regels om variaties te beschrijven
Wat is Machine Learning? Ontwikkel een computer algoritme dat honderden of duizenden voorbeelden kan bekijken (en de correcte antwoorden) De computer gebruikt die ervaring om hetzelfde probleem op te lossen met nieuwe data Doel: Leer de computer om oplossingen te vinden aan de hand van voorbeelden, zoals een jong kind leert om een kat van een hond te onderscheiden
Deep Learning vs Machine Learning Deep learning is een hele populaire term. Het is een specieke vorm van machine learning waarbij neurale netwerken worden gebruikt Neurale netwerken bestaan al enkele decennia, maar maken een revival door omdat computers nu (voornamelijk met GPU) snelle berekeningen kunnen maken van complexe netwerken De neurale netwerken van vandaag worden gekenmerkt door een groter aantal neuronen en een groter aantal lagen Figure: Een neuron en activatie functie (e.g. sinus functie die input van natuurlijke getallen omzet naar bereik 0-1
Neuraal Netwerk Architectuur Figure: NN met 3 lagen en 3 neuronen per laag
Deep Learning in Spraaksynthese Part-of-Speech (POS) tagging Prosodie predictie Homograafdisambiguering Statistische parametrische Spraaksynthese (SPSS)
Statistische Parametrische Spraaksynthese (SPSS) Figure: Overzicht van het SPSS proces
Merlin: Open source SPSS toolkit van CSTR in Edinburgh http://www.cstr.ed.ac.uk/projects/merlin/ Merlin is een toolkit voor het trainen van DNN modellen voor SPSS. Er is een linguïstische front-end nodig (zoals Festival) en een vocoder (zoals STRAIGHT of WORLD) Het systeem is geschreven in Python en gebruikt Theano Merlin heeft diverse recepten om te laten zien hoe je state-of-the-art systemen kunt trainen Merlin is open source, met een Apache versie 2.0 licensie, wat onbeperkt gebruik in academia en industrie toelaat
SPSS Invoer: Linguïstische parameters Lange lijst van contextuele parameters voor ieder foneem Context van 5 fonemen (LL, L, C, R, RR) Klemtoonwaarde van vorige/huidige/volgende lettergreep, afstand tot vorige/volgende beklemtoonde lettergreep Accentwaarde van vorige/huidige/volgende lettergreep, afstand tot vorige/volgende geaccentueerde lettergreep Frasegrens, afstand tot vorige/volgende frasegrens Woordsoort van vorige/huidige/volgende woord ith lettergreep in woord (fw/bw), ith lettergreep in frase (fw/bw)
SPSS Uitvoer: Akoestische parameters Toonhoogte (or F0) Duren (van foneem) Stemhebbendheid (of Band Aperiodicity) Spectrum (in Mel-Generalized Cepstral representatie) WORLD vocoder gebruikt om akoestische parameters om te zetten naar spraak
Voorlopige resultaten met onze eigen TTS stem Originele audio #1 Gegenereerde audio #1 Originele audio #2 Gegenereerde audio #2
Toekomstig onderzoek Dit research experiment gebruikt RS Mark met uitspraken gegenereerd door Festival De eerste 2400 zinnen zijn gekozen om duur- en akoestische modellen te trainen De uitspraken zijn automatisch opgelijnd aan de audio m.b.v. HTK Accent- en frasegrenzen zijn ook door Festival bepaald De woordsoorten moeten beter voorspeld worden voor betere prosodie en Homograafdisambiguering
De verdere toekomst Aanpassen van expressiviteit van stemmen Aanpassen van spreker eigenschappen Onderzoek naar soorten DNNs, grootte/snelheid, soort vocoder