Grafeem-foneemomzetting voor spraaksynthese

Vergelijkbare documenten
The first line of the input contains an integer $t \in \mathbb{n}$. This is followed by $t$ lines of text. This text consists of:

Klanken 1. Tekst en spraak. Colleges en hoofdstukken. Dit college

David Weenink. Instituut voor Fonetische Wetenschapen ACLC Universiteit van Amsterdam. Spraakverwerking per computer.

SAMPLE 11 = + 11 = + + Exploring Combinations of Ten + + = = + + = + = = + = = 11. Step Up. Step Ahead

(1) De hoofdfunctie van ons gezelschap is het aanbieden van onderwijs. (2) Ons gezelschap is er om kunsteducatie te verbeteren

ALGORITMIEK: answers exercise class 7

Les 1 jas en das. Op pad. van links naar rechts

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Handleiding bij werkbladen uitspraak

Introductie in flowcharts

8+ 60 MIN Alleen te spelen in combinatie met het RIFUGIO basisspel. Only to be played in combination with the RIFUGIO basicgame.

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Settings for the C100BRS4 MAC Address Spoofing with cable Internet.

LDA Topic Modeling. Informa5ekunde als hulpwetenschap. 9 maart 2015

B1 Woordkennis: Spelling

6 Het beoordelen van uitspraak

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Calculator spelling. Assignment

Fonologie. inleiding taalkunde 2012/13 30 mei 2013

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

Luister alsjeblieft naar een opname als je de vragen beantwoordt of speel de stukken zelf!

Handouts - lesson 4 - #dutchgrammar - 9 april the verb. het werkwoord. regular verb conjugation

WOORDPAKKET 1. Ik schrijf woorden met een medeklinker aan het begin en einde van een woord: woorden net als man.

Dutch survival kit. Vragen hoe het gaat en reactie Asking how it s going and reaction. Met elkaar kennismaken Getting to know each other

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Examination 2DL04 Friday 16 november 2007, hours.

Archief Voor Kerkelijke Geschiedenis, Inzonderheid Van Nederland, Volume 8... (Romanian Edition)

TOEGANG VOOR NL / ENTRANCE FOR DUTCH : lator=c&camp=24759

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

Country recognition. Assignment

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Understanding and being understood begins with speaking Dutch

Van. horen zeggen. Teksten van de oefeningen

Lesdoelen Karakter 1 e leerjaar

Esther Lee-Varisco Matt Zhang

SEO Content. Creditcard aanvragen? Dé beste creditcards vergelijken.

Main language Dit is de basiswoordenschat. Deze woorden moeten de leerlingen zowel passief als actief kennen.

Nieuwsbrief groep 3 februari 2018

Cambridge International Examinations Cambridge International General Certificate of Secondary Education. Paper 4 Writing May/June hour

RECEPTEERKUNDE: PRODUCTZORG EN BEREIDING VAN GENEESMIDDELEN (DUTCH EDITION) FROM BOHN STAFLEU VAN LOGHUM

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 8 februari 2010

The genesis of the game is unclear. Possibly, dominoes originates from China and the stones were brought here by Marco Polo, but this is uncertain.

Interactive Grammar leert de belangrijkste regels van de Engelste spelling en grammatica aan.

Yes/No (if not you pay an additional EUR 75 fee to be a member in 2020

MyDHL+ ProView activeren in MyDHL+

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

ANGSTSTOORNISSEN EN HYPOCHONDRIE: DIAGNOSTIEK EN BEHANDELING (DUTCH EDITION) FROM BOHN STAFLEU VAN LOGHUM

University of Groningen Educational value of digital examination

This appendix lists all the messages that the DRS may send to a registrant's administrative contact.

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

20 twenty. test. This is a list of things that you can find in a house. Circle the things that you can find in the tree house in the text.

Davide's Crown Caps Forum

Nieuwsbrief NRGD. Editie 11 Newsletter NRGD. Edition 11. pagina 1 van 5.

UNIVERSITY OF CAMBRIDGE INTERNATIONAL EXAMINATIONS International General Certificate of Secondary Education

Engels op Niveau A2 Workshops Woordkennis 1

oefenen met spelling A

1. poes Luisterweg Ik luister goed naar het woord, Dan schrijf ik het zoals het hoort.

leerling 05 Meest recente oef ening en (max. 1 week geleden) Opgemaakt op

Firewall van de Speedtouch 789wl volledig uitschakelen?

0515 DUTCH (FOREIGN LANGUAGE)

Add the standing fingers to get the tens and multiply the closed fingers to get the units.

WOORDPAKKET 6.2 i in een tweeklank hoofdletter

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

News: Tours this season!

Speaking and Language Learning. 3rd February 2016

2019 SUNEXCHANGE USER GUIDE LAST UPDATED

Developing an adaptive, diagnostic test of. English writing skills

0515 FOREIGN LANGUAGE DUTCH

Read this story in English. My personal story

Interaction Design for the Semantic Web

Cambridge Assessment International Education Cambridge International General Certificate of Secondary Education. Published

Karen J. Rosier - Brattinga. Eerste begeleider: dr. Arjan Bos Tweede begeleider: dr. Ellin Simon

Jaarplan karakter leerjaar 1

It s all about the money Group work

Empowerment project. Driejarig project van Rotaryclub Rhenen-Veenendaal

Zet je hersens op scherp en daag je tegenspelers uit voor een spannende RIJMwoordenstrijd!

APPROACHING THE FAMILY

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

L.Net s88sd16-n aansluitingen en programmering.

Dyslexiebehandeling. Informatiepakket leerkracht:

Today s class. Digital Logic. Informationsteknologi. Friday, October 19, 2007 Computer Architecture I - Class 8 1

Find Neighbor Polygons in a Layer

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 7 februari 2011

CBSOData Documentation

The upside down Louisa tutorial by Dorothée: Noortjeprullemie.blogspot.be Written for Compagnie M.: m.com

Tekst en spraak. spraaksynthese (tekst-naar-spraak) rijtje letters akoestische golfvorm

Wij willen u vragen niet vooruit te gaan werken/oefenen. Er kan dan verwarring ontstaan bij het kind. Wij willen dit graag voorkomen!

After that, the digits are written after each other: first the row numbers, followed by the column numbers.

PIR DC-SWITCH. DC Passive infra-red Detector. Model No. PDS-10 GEBRUIKSAANWIJZING/INSTRUCTION MANUAL

Aim of this presentation. Give inside information about our commercial comparison website and our role in the Dutch and Spanish energy market

MyDHL+ Van Non-Corporate naar Corporate

Groepsplan groep Vakgebied Schriftelijke taal Tijdsvak

CHROMA STANDAARDREEKS

Bijlage 2: Informatie met betrekking tot goede praktijkvoorbeelden in Londen, het Verenigd Koninkrijk en Queensland

Een nieuwe rol voor het auditcomité en een aangepast audit rapport

S a m e nw e r k i n g e n s t r u c t u r e l e f o r m a t i e e x t e r n e v e i l i g h e id E i n d r a p p o r t a g e

ICARUS Illumina E653BK on Windows 8 (upgraded) how to install USB drivers

Disclosure belangen spreker

Transcriptie:

Grafeem-foneemomzetting voor spraaksynthese

Two steps P G&E will file schedules on April 20. TEXT ANALYSIS: Text into intermediate representation: WAVEFORM SYNTHESIS: From the intermediate representation into waveform 5/11/2011 Speech and Language Processing Jurafsky and Martin 2

The Hourglass 5/11/2011 Speech and Language Processing Jurafsky and Martin 3

fasen in tekst-naar-spraak Tekstbewerking niet-letters, afkortingen, niet-nederlandse woorden Morfologische decompositie samenstellingen, syllabegrenzen [morfologie] Grafeem-foneemomzetting lettersymbolen -> klanksymbolen [fonologie] Melodie en ritme (prosodie) woordklemtoon [fonologie] en zinsaccenten [parsing, semantiek] Synthese akoestische realisatie [fonetiek]

gebruikelijk ontwikkeltraject Dag: eerste 50% Week: volgende 25 % Maand: volgende 10 % Jaar: volgende 10 %?: laatste 5%

tekstbewerking: cijfers getallen, 5 -> "vijf", 21 -> "een en twintig" (twenty-one) telefoonnummers 020-6680470 -> "nul twintig zes zes tachtig vier zeventig" geldbedragen euro 32.54 -> "twee en dertig euro vier en vijftig" huisnummers 13-hs -> "dertien huis" Romeinse cijfers MDCCLXIV -> "zeventien honderd vier en zestig"

tekstbewerking: afkortingen als losse letters KLM -> "K L M" als woord VARA -> "vara" als afgekort woord tel. -> "telefoon" maar let op de juiste interpretatie van de punt (telefoon vs tel de laatste tel.)

tekstbewerking: leestekens punten, komma's, puntkomma, etc -> prosodie

foneem-grafeemomzetting symbolen voor spraakklanken fonetisch alfabet IPA International Phonetic Alphabet - lastige tekenset in pre-unicode tijdperk œ ø ΛƷʧʑƏ computer fonetisch alfabet verschillende voorbeelden, bv SAMPA (speech assessment methods phonetic alphabet) spreek uit en luister naar je klanken!

3. Letter-to-Sound: Getting from words to phones Two methods: Dictionary-based Rule-based (Letter-to-sound=LTS) Early systems, all LTS MITalk was radical in having huge 10K word dictionary Now systems use a combination 5/11/2011 Speech and Language Processing Jurafsky and Martin 10

Pronunciation Dictionaries: CMU CMU dictionary: 127K words http://www.speech.cs.cmu.edu/cgi-bin/cmudict Some problems: Has errors Only American pronunciations No syllable boundaries Doesn t tell us which pronunciation to use for which homophones (no POS tags) Doesn t distinguish case The word US has 2 pronunciations [AH1 S] and [Y UW1 EH1 S] 5/11/2011 Speech and Language Processing Jurafsky and Martin 11

Pronunciation Dictionaries: UNISYN UNISYN dictionary: 110K words (Fitt 2002) http://www.cstr.ed.ac.uk/projects/unisyn/ Benefits: Has syllabification, stress, some morphological boundaries Pronunciations can be read off in General American RP British Australia Etc (Other dictionaries like CELEX not used because too small, Britishonly) 5/11/2011 Speech and Language Processing Jurafsky and Martin 12

Dictionaries aren t sufficient Unknown words (= OOV = out of vocabulary ) Increase with the (sqrt of) number of words in unseen text Black et al (1998) OALD on 1st section of Penn Treebank: Out of 39923 word tokens, 1775 tokens were OOV: 4.6% (943 unique types): names unknown Typos/other 1360 351 64 76.6% 19.8% 3.6% So commercial systems have 4-part system: Big dictionary Names handled by special routines Acronyms handled by special routines (previous lecture) Machine learned g2p algorithm for other unknown words 5/11/2011 Speech and Language Processing Jurafsky and Martin 13

Names Big problem area is names Names are common 20% of tokens in typical newswire text will be names 1987 Donnelly list (72 million households) contains about 1.5 million names Personal names: McArthur, D Angelo, Jiminez, Rajan, Raghavan, Sondhi, Xu, Hsu, Zhang, Chang, Nguyen Company/Brand names: Infinit, Kmart, Cytyc, Medamicus, Inforte, Aaon, Idexx Labs, Bebe 5/11/2011 Speech and Language Processing Jurafsky and Martin 14

Names Methods: Can do morphology (Walters -> Walter, Lucasville) Can write stress-shifting rules (Jordan -> Jordanian) Rhyme analogy: Plotsky by analogy with Trostsky (replace tr with pl) Liberman and Church: for 250K most common names, got 212K (85%) from these modified-dictionary methods, used LTS for rest. Can do automatic country detection (from letter trigrams) and then do country-specific rules Can train g2p system specifically on names Or specifically on types of names (brand names, Russian names, etc) 5/11/2011 Speech and Language Processing Jurafsky and Martin 15

Letter-to-Sound Rules Earliest algorithms: handwritten Chomsky+Halle-style rules: Festival version of such LTS rules: (LEFTCONTEXT [ ITEMS] RIGHTCONTEXT = NEWITEMS ) Example: ( # [ c h ] C = k ) ( # [ c h ] = ch ) # denotes beginning of word C means all consonants Rules apply in order christmas pronounced with [k] But word with ch followed by non-consonant pronounced [ch] E.g., choice 5/11/2011 Speech and Language Processing Jurafsky and Martin 16

symbool omzetting 1 naar 1 p -> p, a -> A 1 naar 2 o -> O~ 2 naar 1 (dus onderzoek altijd eerst context!) ch -> x, sj -> S, ee -> e, ie -> i, ng -> N 2 naar 2 ij -> Ei

contekst afhankelijkheid positie in woord omringende letters ban -> ban bang -> ban dak -> dak final devoicing bad -> bat woordbegin <-> woordeinde lat -> lat tal -> tal wit -> wit ruw -> ryw assimilatie zakdoek -> zagduk en geen zakduk

Voorbeelden

C*V*C* woorden zonder diacrieten positie van letter in woord positie van letter in cluster onset-nucleus-coda identificatie helpt Klinkerclusters l-eeu-w, g-eëe-rd Specifieke medeklinkerclusters Fonotactische restricties -> ook voor syllabegrenzen, maar vgl wegrennen

Contextgevoeligheid (C) in C*V*C* Ongevoelig in monosyllabe f, k, m, p, r, t, v, x, z Volgende context b (#), c (varia), d (#), g (goa), j (#), l (#), n (ng, #), q (qu), s (sj), w (#) Vorige context h (ch), j (ij), g (ng) vet als segment nemen

Contextgevoeligheid (V) in C*V*C* Veel op te lossen door segmentdefinitie aai, eeu, ooi, ieu mooi-er, ui-en aa, ee, oo, uu, ie, oe, eu [1 symbool] ai, oi, au, ou, ij, ei, ui [2 symbolen] ua, io [grens uv* iv*] korte klinkers a, i, o, u, y afhandelen na lange klinkers en tweeklanken kan, act = uitzondering e lastig: e, E, @, I

Regelvolgorde mooier eerst langste cluster: ooi en niet m-ooi-e-r -> moj@r (mo:j@r) m-oo-ie-r -> moir of m-o-o-i-e-r -> mooier

plofklanken wrijfklanken nasalen labiaal (lippen) p (pad) b (bad) alveolair (achter de tanden) palataal (verhemelte) t (tak) d (dak) tj (potje) dj (djintan) f (fiets) v (vat) s (sap) z (zat) S (sjaal) Z (plantage) m (mat) n (nat) nj (anjer) velair (achter) k (kat) g (zakdoek, goal) x (lach) G (gat) glottaal (stem) _ (stilte) h (huis) N (bang)

Liquida en halfvokalen woordbegin woordeinde Liquida l (lang, alle) r (rug) L (al) r (haar) R (haar) Halfvokalen w (wit) j (jan) W (sneeuw) na / i, e, y / J (aai)

Korte klinkers voor achter [-rond] [+rond] [-rond] [+rond] hoog I (bid) Y (put) midden E (bed) @ (rede) O (bos) laag A (bak)

Lange klinkers voor achter [-rond] [+rond] [-rond] [+rond] hoog i (bied) y (buut) u (boek) midden e (beet) 2 (beuk) o (boot) laag a (baat)

Tweeklanken voor achter [-rond] [+rond] [-rond] [+rond] midden Ei (bijt) 9y (buit) Au (bout)

Gekleurde klinkers voor r voor achter [-rond] [+rond] [-rond] [+rond] midden I: (beer) Y: (deur) O: (door)

Franse klanken [-rond] voor achter [+rond] [-rond] [+rond] E~ (mannequin) Y~ (parfum) A~ (chanson) O~ (chanson) [Oe] uit freule