Autonomata, Too Henk van den Heuvel CLST, Radboud Universiteit Nijmegen
AUTONOMATA Too CLST, Radboud Universiteit Nijmegen (coordinator): Henk van den Heuvel ELIS, Universiteit van Gent: Jean-Pierre Martens, Bert Réveil Nuance: Bart d Hoore TeleAtlas: Luc Peirlinckx, Luc Mortier UiL-OTS: Gerrit Bloothooft, Marijn Schraagen Hetzelfde consortium als in Autonomata
Doelen van het project ASR van POIs verbeteren Bouwen van demo-applicatie om proof of concept te laten zien POIs: Hotel/Motel: Accor Ruisbroek Humaniteitslaan Ad Foendoem Resto/Nightlife: Eat-Things Eb en Vloed
Achtergrond van het project Prestatie van ASR voor gewone woorden hangt sterk af van uitspraakvariatie Bij ASR voor namen is dat nog sterker het geval. Dat komt door: Onaangepaste spelvormen Buitenlandse namen Buitenlandse sprekers van inlandse namen Doelstelling van Autonomata Too: greep krijgen op deze uitspraakvarianten Door automatisch succesvolle uitspraakvarianten te genereren voor het herkenningslexicon Door het gebruik van P2P-convertoren
Voorbeelden Naam: NL EN FR MR Spreker: Guido Mensaert Queen Elisabeth street Quai de l Industrie Faiza Choueikh FL EN FR MR
Autonomata, Transfer Of Output Resultaten van Autonomata: 1. Het Autonomata gesproken namencorpus 2. P2P omzetter voor persoonsnamen: NL & VL 3. P2P-omzetter voor plaats- en straatnamen: NL & VL 4. P2P leersoftware, toepasbaar op: 1. Andere typen namen 2. Andere talen 3. Niet canonieke uitspraken 5. Transcriptietools die p2p s kunnen aanwenden
Autonomata Naamcorpus 120 uit Nederland 120 uit Vlaanderen 60 autochtoon 60 allochtoon 60 autochtoon 60 allochtoon 15 Noord- en Zuid-Holland 15 Gelderland 15 Groningen, Friesland, Drenthe 15 Noord-Brabant, Limburg 20 Engels 20 Frans 20 Marokkaans Arabisch 15 Brabants 15 Oost-Vlaams 15 West-Vlaams 15 Limburgs 20 Engels 20 Frans 20 Marokkaans Arabisch
Autonomata naamcorpus Spraakmateriaal: 70% Nederlands/Vlaamse namen 10% Engelse namen 10% Franse/Turkse namen 10% Marokkaanse namen Iedere spreker las: - 69 persoonsnamen (voor- en achternaam) - 112 toponymen (straatnamen, plaatsnamen)
Oude versie P2P-transcriptietool Schema text standard g2p input conversion LH+ / CGN Keuzes taal (G2P) = DUN of DUB domain p2p foneemset = LH+ (geen conversie) of CGN transcriptie met of zonder p2p LH+ / CGN
Nieuwe versie Schema text transcription standard g2p input conv domain p2p output conv Talen (G2P): DUN, DUB, ENG, FR, GE Foneemsets: incl outputconversie Meerdere p2p-convertoren (niet zichtbaar) Foneemtranscripties als input voor P2P
ASR evaluatie van P2Ps: EXP-transcripties (CLST) Name source Speakers NL EN FR MR FL NER 2.9 5.8 3.9 3.3 rnir -10.6 14.2 11.3 25.0 Speaker origin Names NL EN FR MR NL NER - 19.1 18.2 11.0 rnir - -0.5 5.7 4.3 Voor moedertaalsprekers zien we een flinke herkenverbetering Voor buitenlandse sprekers zien we een geringe verbetering
Multilinguale herkenningsexperimenten (ELIS) Taalindeling NAT: native taal (hier: NL) NN1: non-native talen die de spreker kent (hier: Engels, Frans (en Duits)) NN2: andere non-native talen (hier: Marokkaans en Turks) Baseline herkenningssysteem Monolinguale ACM, monolinguale g2p transcripties Beste herkenningssysteem Multilinguale ACM, 2 extra buitenlandse g2p transcripties
Multilinguale herkenningsexperimenten (ELIS) Base: NER (%): AC-MONO DUN g2p transcripties Naam-origine NAT NN1 NN2 All NAT 3.9 22.5 12.6 8.7 NN1 18.1 37.5 14.7 21.8 NN2 22.5 36.4 29.3 26.0 All 12.4 30.1 17.8 16.6 Best: NER (%): AC-MULTI DUN, ENG, FRF g2p transcripties Sprekerorigine Sprekerorigine Naam-origine NAT NN1 NN2 All NAT 4.9 5.9 8.9 5.7 NN1 11.6 7.1 6.9 10.0 NN2 21.6 21.0 20.0 21.3 All 10.8 9.6 11.6 10.7 Baseline (NAT,NAT) is OK Andere niet Beste systeem Toevoegen non-native transcripties verbetert NN1 naamherkenning Multiling. akoest. modellen Modelleren buitenlandse klanken in NN1 (en ook NN2) namen Modelleren buitenlandse klanken van NN1 sprekers (NAT,NAT) wordt slechter
Autonomata TOO spraakcorpus (UiL-OTS) Taalachtergrond spreker Doel Gerealiseerd Te doen Nederlands Nederland 20 19 1 Vlaanderen 20 20 0 Totaal 40 39 1 Engels 10 10 0 Frans 10 7 3 Turks 10 4 6 Marokkaans 10 1 9 Totaal 80 61 19