Personiceren van stemmen met Deep Learning

Vergelijkbare documenten
Ontsluiten van gesproken documenten. Arjan van Hessen

Tentamen Spraakherkenning en -synthese

Smart Vision! Van Neuroscience naar Deep Learning (en terug) Sander Bohté CWI Life Sciences VIA AwesomeIT, April 10th 2015

Neurale Netwerken en Deep Learning. Tijmen Blankevoort

Spraaktechnologie. Gerrit Bloothooft.

AI introductie voor testers

Artificial Intelligence. Tijmen Blankevoort

AI & Big Data bij Defensie

Machinaal leren, neurale netwerken, en deep learning

Hoe AI kan ingezet worden voor de analyse van asbesthoudende daken

Herkansing 1 e Deeltentamen Spraakherkenning en -synthese

Algoritmiek. 8 uur college, zelfwerkzaamheid. Doel. Hoe te realiseren

Cursus Programmeren en Dataverwerking.

Parametrisch Ontwerpen Design Informatics BSc BK3OV3. Challenge the future

Spreekvaardigheidstraining met behulp van Automatische Spraak-Herkenning (ASH)

Schriftelijk tentamen Spraakherkenning en spraaksynthese (do. 23 december 2004, u; zaal C.206)

Minder Big data Meer AI.

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Digital human measurement technology

Achtergrond Spraakherkenning De uitdaging van spraakherkenning

Inhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen

Real Time Monitoring & Adaptive Cyber Intelligence SBIR13C038

Choral + Spraaktechnologie: ingezet voor de ontsluiting van audiovisuele

Comprehensive Aphasia Test (CAT) CAT workshop juni Evy Visch-Brink

De digitale alfabetiseringsdocent en de autonome Alfa-leerder

In Vlaanderen bestaat er nog geen leerlijn programmeren! Hierdoor baseren wij ons op de leerlijn die men in Nederland toepast voor basisscholen.

Klanken 1. Tekst en spraak. Colleges en hoofdstukken. Dit college

math inside Model orde reductie

Programmeren in C ++ met wxwidgets les 5

De digitale leesinstructeur

INZET VAN MACHINE LEARNING

Kunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016

8. Afasie [1/2] Bedenk tenminste drie verschillende problemen die je met taal zou kunnen hebben (drie soorten afasie).

Vorig jaar in 5v cluster, tot en met OO hoofdstukken, geen problemen. Nu in mengcluster, tot OO hoofdstukken, wel problemen bij 4h leerlingen

Het gebruik van data binnen Tax PwC Eric Dankaart November 2016

Vorig college. IN2505-II Berekenbaarheidstheorie College 4. Opsommers versus herkenners (Th. 3.21) Opsommers

Voorspellen van kinkhoest door machine learning

Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode

Derde college complexiteit. 7 februari Zoeken

Opdracht 2 Het Multilayer Perceptron

Psychoakoestiek. Universität Göttingen,

Artikel / Parametrisch ontwerpen en rekenen. Een hype of de toekomst?

Tussentoets spraakherkenning en -synthese (1)

DEC SDR DSP project 2017 (2)

Architectuur en Artificial Intelligence

Proeftentamen in1211 Computersystemen I (NB de onderstreepte opgaven zijn geschikt voor de tussentoets)


Three Ships e-book platform

Uitgebreid voorstel Masterproef Informatica. Titel van het project: Rolnummerherkenning van op een kraan

Populaties beschrijven met kansmodellen

Masterclass Value of Information. Waarde creëren voor de business

Waternet Datalab. KI in de praktijk. KI in de watersector, 25 juni 2019 Alex van der Helm

Modulewijzer InfPbs00DT

CITO-Senter project Computergestuurde Spreekvaardigheidstoets

Hoofdstuk 14 - Sneller en beter een tekst schrijven

Vergelijkingen met breuken

Een hele eenvoudige benadering van de oplossing van dit probleem die men wel voorgesteld heeft, is de volgende regel:

Computationeel denken

1 Rekenen in eindige precisie

Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016

Paradox van zelfreproductie. IN2505-II Berekenbaarheidstheorie. Zelfreproductie? Programma s en zelfreproductie. College 11.

Veilige en efficiënte inspectie van het spoor Inzending Hendrik Lorentz Data Science Prijs

Wat maakt WizeNote uniek?

Hoofdstuk 18 - Tips om voorleessoftware in te zetten in de klas

WISKUNDIGE TAALVAARDIGHEDEN

VOLAUTOMATISCH TEKSTEN SAMENVATTEN

Toetsen om van te leren. 18 januari 2019 Eric Welp & Wim Kokx

Een computerprogramma is opgebouwd uit een aantal instructies die op elkaar volgen en die normaal na elkaar uitgevoerd worden.

Hoofdstuk 16 - Vreemde talen ondersteunen

Computer Vision: Hoe Leer ik een Computer Zien?

BSc Kunstmatige Intelligentie. : Bachelor Kunstmatige Intelligentie Studiejaar, Semester, Periode : semester 1, periode 2

Een inleiding tot taaltechnologie

Hoorcollege 1 datavisualisatie

Active2Gether. Smart coaching strategies that integrate social networks and modern technology to empower young people to be physically active

Vergelijk alle ipad-modellen. 12,9-inch ipad Pro 9,7-inch ipad Pro ipad Air 2 ipad mini 4 ipad mini 2

Verbonden spraak. Vloeiend Nederlands spreken kan je leren.

Transcriptie:

Personiceren van stemmen met Deep Learning Kan het Nationaal Archief straks teksten voorlezen met de stem van Joop den Uyl? Esther Judd-Klabbers 20 September 2016

Overzicht Introduction Statistische Parametrische Spraaksynthese Toekomstig onderzoek

ReadSpeaker http://www.readspeaker.com Tekst-naar-spraak technologie geïntegreerd in: Websites (Belastingdienst, gemeentes) Educatieve leeromgevingen (TU Delft) TextAid voor persoonlijk gebruik om websites, gescande documenten, en zelf geschreven teksten voor te lezen

Wat is Deep Learning? Nieuw gebied van machine learning Brengt ons dichter bij Artical Intelligence (AI) Wordt op veel gebieden toegepast zoals automatische spraakherkenning (ASR), computationele linguïstiek (NLP), beeldclassicatie, etc. In 2014 heeft Apple in Siri HMM ASR vervangen door een Deep Learning variant. Volgens hen heeft het het aantal fouten gehalveerd. Google's DeepMind heeft zojuist hun nieuwe DNN synthese methode aangekondigd, WaveNet genaamd

Wat is Machine Learning? Figure: Machine Learning voorbeeld Schrijf computerprogramma om handgeschreven cijfers te herkennen Niet genoeg regels om variaties te beschrijven

Wat is Machine Learning? Ontwikkel een computer algoritme dat honderden of duizenden voorbeelden kan bekijken (en de correcte antwoorden) De computer gebruikt die ervaring om hetzelfde probleem op te lossen met nieuwe data Doel: Leer de computer om oplossingen te vinden aan de hand van voorbeelden, zoals een jong kind leert om een kat van een hond te onderscheiden

Deep Learning vs Machine Learning Deep learning is een hele populaire term. Het is een specieke vorm van machine learning waarbij neurale netwerken worden gebruikt Neurale netwerken bestaan al enkele decennia, maar maken een revival door omdat computers nu (voornamelijk met GPU) snelle berekeningen kunnen maken van complexe netwerken De neurale netwerken van vandaag worden gekenmerkt door een groter aantal neuronen en een groter aantal lagen Figure: Een neuron en activatie functie (e.g. sinus functie die input van natuurlijke getallen omzet naar bereik 0-1

Neuraal Netwerk Architectuur Figure: NN met 3 lagen en 3 neuronen per laag

Deep Learning in Spraaksynthese Part-of-Speech (POS) tagging Prosodie predictie Homograafdisambiguering Statistische parametrische Spraaksynthese (SPSS)

Statistische Parametrische Spraaksynthese (SPSS) Figure: Overzicht van het SPSS proces

Merlin: Open source SPSS toolkit van CSTR in Edinburgh http://www.cstr.ed.ac.uk/projects/merlin/ Merlin is een toolkit voor het trainen van DNN modellen voor SPSS. Er is een linguïstische front-end nodig (zoals Festival) en een vocoder (zoals STRAIGHT of WORLD) Het systeem is geschreven in Python en gebruikt Theano Merlin heeft diverse recepten om te laten zien hoe je state-of-the-art systemen kunt trainen Merlin is open source, met een Apache versie 2.0 licensie, wat onbeperkt gebruik in academia en industrie toelaat

SPSS Invoer: Linguïstische parameters Lange lijst van contextuele parameters voor ieder foneem Context van 5 fonemen (LL, L, C, R, RR) Klemtoonwaarde van vorige/huidige/volgende lettergreep, afstand tot vorige/volgende beklemtoonde lettergreep Accentwaarde van vorige/huidige/volgende lettergreep, afstand tot vorige/volgende geaccentueerde lettergreep Frasegrens, afstand tot vorige/volgende frasegrens Woordsoort van vorige/huidige/volgende woord ith lettergreep in woord (fw/bw), ith lettergreep in frase (fw/bw)

SPSS Uitvoer: Akoestische parameters Toonhoogte (or F0) Duren (van foneem) Stemhebbendheid (of Band Aperiodicity) Spectrum (in Mel-Generalized Cepstral representatie) WORLD vocoder gebruikt om akoestische parameters om te zetten naar spraak

Voorlopige resultaten met onze eigen TTS stem Originele audio #1 Gegenereerde audio #1 Originele audio #2 Gegenereerde audio #2

Toekomstig onderzoek Dit research experiment gebruikt RS Mark met uitspraken gegenereerd door Festival De eerste 2400 zinnen zijn gekozen om duur- en akoestische modellen te trainen De uitspraken zijn automatisch opgelijnd aan de audio m.b.v. HTK Accent- en frasegrenzen zijn ook door Festival bepaald De woordsoorten moeten beter voorspeld worden voor betere prosodie en Homograafdisambiguering

De verdere toekomst Aanpassen van expressiviteit van stemmen Aanpassen van spreker eigenschappen Onderzoek naar soorten DNNs, grootte/snelheid, soort vocoder