Autonomata, Too. Henk van den Heuvel. CLST, Radboud Universiteit Nijmegen



Vergelijkbare documenten
Autonomata, Too. Henk van den Heuvel. CLST, Radboud Universiteit Nijmegen

ONTWERP AUTONOMATA GESPROKEN POI-CORPUS Marijn Schraagen

Zwarte Piet of niet? Enquête Onderwijsblad november 2015 Tabellen

FORUM Monitor Allochtonen op de arbeidsmarkt: effecten van de economische crisis 2 e kwartaal 2009

Analyse resultaten CVO 2014

Diversiteit in de Provinciale Staten

socio-demografie jongeren geslacht leeftijd woonplaats 4 grote steden en per provincie afkomst opleiding religie

Resultaten en Beschikbaarheid 1e Ronde projecten, SPRAAK en CORNETTO Jan Odijk i.s.m. TST-Centrale

Spreekvaardigheidstraining met behulp van Automatische Spraak-Herkenning (ASH)

Wat verwachten werkgevers van het onderwijs als het gaat om duurzaamheid?

Q1 Loopt uw indicatie voor een Wmovoorziening. huishoudelijke hulp) binnenkort af? (dit staat in het indicatiebesluit dat u ontvangen heeft)

Dr. Geert Driessen Radboud Universiteit Nijmegen

Vertaalde informatie over zorg en cliëntenparticipatie voor migranten. Amsterdam Edouard Buning november 2010

Hartelijk welkom. Margot Tempelman Kenniscentrum (Kust)toerisme

BleLlOTHEEK RIJKSDIFNST VOOR DB. fjssk!lmeerpolders VERTREK- EN STERFTECIJFERS 1980 ALYERE-HAVEN. door. v. Groenestein J.A.P Bco november

Tabel B.1 Gevoeligheid van de organisatie voor schommelingen in de economische conjunctuur naar sector, 2013 (in procenten van het aantal bedrijven)

U kunt nog steeds subsidie aanvragen!

Bijlage bij hoofdstuk 11 Wonen

Centraal Bureau voor de Statistiek. Persbericht. In 2025 fors meer huishoudens in de Randstad

Diversiteit in Provinciale Staten, Gedeputeerde Staten en Eerste Kamer in 2011

Auteur: Onderzoek en statistiek gemeente Dronten Datum: 28 januari 2016 Voor vragen: Feiten en cijfers 2015 Bevolking

(* *) (* WAARDEN GEVEN AAN VARIABELEN DIE NODIG ZIJN BIJ BEREKENEN DYNAMIEK LTV (GEBEURT IN MODEL) *) (* *)

Auteur: Gemeente Dronten Datum: 4 april 2017 Voor vragen: Feiten en cijfers 2016 Bevolking

Onderzoek aanbod vrouwen- en meidenvoetbal vanuit de landelijke competities

Auteur: Gemeente Dronten Datum: Februari 2018 Voor vragen: Feiten en cijfers 2017 Bevolking

Graydon studie: Betaalgedrag Nederlands bedrijfsleven 2015.

Vergadering TTNWW, gedeelte Spraak

De uitdagingen van etnische diversiteit in het onderwijs. Prof. dr. Orhan Agirdag

Basisscholen in krimpgebieden in schooljaar 2017/2018

Allochtonen op de arbeidsmarkt

Stemrapport Kern met Pit finale /3/2016. Uitslag. 1 e prijs Groningen Zorgproject Wedde dat 't lukt. 2 e prijs Noord-Holland Kickmee!

Onderwijs in beeld: Maastricht-heuvelland

Figuur 1: Ontwikkeling aantal leerlingen Figuur 2: Ontwikkeling aantal leerlingen (index: 2009 = 100) (index: 2014 = 100)

voornamen, familienamen en een historische basisadministratie

Graydon studie Betaalgedrag Nederlands bedrijfsleven 2016 Graydon Studie Q1, 2016

JAARBERICHT stijging vragen

Langdurige werkloosheid in Nederland

Factsheet persbericht. Helft allochtone stagiairs vermoedt discriminatie bij sollicitatie

In gemeenten met minste huurwoningen worden de meeste huurwoningen geliberaliseerd

Feiten NVM Open Huizen Dag 5 oktober 2013

Auteur: Gemeente Dronten Datum: Februari 2019 Voor vragen: Feiten en cijfers 2018 Bevolking

2005 Monuta Uitvaartzorg en -verzekeringen

Praktische opdracht Aardrijkskunde Criminaliteit in Nederland

Stand van zaken toepassing standaarden en voorzieningen i-sd, per jeugdregio. 1 juli 2017

Heeft België nog een toekomst?

Werkzoekendencijfers april 2012

MAASTRICHT. 2. Limburg. 1. Limburg. Maastricht. 4. Limburg. 3. Limburg. 1. De provincie Limburg 2. Limburg en hoofdstad. 3. De hoofdstad Maastricht

Carrièrelijnen van schoolverlaters

Rapport. van Kamer van Koophandel Nederland. Startersprofiel Datum uitgave. Januari onderwerp Startende ondernemers in beeld

Wat verwachten werkgevers van het onderwijs als het gaat om duurzaamheid?

Graydon studie: Betaalgedrag Nederlands bedrijfsleven Q

Analyse Megastallen en Megabedrijven 2005, 2010 en 2013

Bijlagen hoofdstuk 2 Demografie en ruimtegebruik Carola Simon

+ Overzicht. De 7 e jaar opleidingen en de private veiligheidssector: wederzijdse maximale opportuniteiten 12/05/2017

Provincie Friesland Postbus HM Leeuwarden

Graydon Kwartaal Monitor. Kwartaal

Kenmerken van wanbetalers zorgverzekeringswet

JAARGANG 8 / NUMMER 2 OKTOBER Mede mogelijk dankzij:

Gemeentelijke Duurzaamheidsindex GDI-2014 Data voor alle 12 provincies

Steeds minder startersleningen beschikbaar

Ketenbureau i-sociaal Domein Welkom in.

Werkzoekendencijfers Februari 2019

Werkzoekendencijfers Januari 2019

2. Een evenement als Dance Valley moet mogelijk zijn in recreatiegebieden.

HOVO NEDERLAND. Jaarverslag

Werkzoekendencijfers Oktober 2017

Bodemenergie: Anno nu en kansen in de toekomst

Nieuwsbrief Ondersteuningsprogramma AMHK van VNG

Bezoek cultuurinstellingen

Werkzoekendencijfers Maart 2015

Coördinatienoodzakelijkbijpopulatiebeheerreeën

Werkzoekendencijfers Februari 2017

Werkzoekendencijfers Maart 2017

LIMBURG. Politicus van het jaar - Limburg 1) Geert Wilders 2) Emile Roemer 3) Diederik Samsom

Nederland voor Nieuwkomers

We know where people go. Retail Wat Nu? Presentatie Huib Lubbers September 2014 Huib Lubbers

Marktaandelen accountantsorganisaties woningcorporatiesector. verslagjaar 2014

Betere besluitvorming bij crisis en ramp door betere informatiepositie

Voorspellers van latere taalvaardigheid

Adverteerder: OSB Campagne: OSB Keurmerk Schema voor week 14 op Radio 1 voglt medio maart

Werkzoekendencijfers Januari 2018

Toiletreclame Regionale Tarieven Indoormedia

Resultaten van het kleurringen van Nijlganzen en Grote Canadese Ganzen Frank Majoor & Berend Voslamber

Totaal geleverde zorg per zorgkantoor. DWH Bijgewerkt: 28 juli 2006

Persoonlijke gegevens van Wethouders

Woningen Provincie/Gemeenten Marktgegevens en prognoses Prijzen en transacties. Prijs per m² GBO in mediaan 2017

SAMENVATTING RAPPORT VAN HET KWALITEITSONDERZOEK NAAR MATE VAN KLANTTEVREDENHEID OVER DIENSTVERLENING VAN ADVOCATEN

Nieuwsflits Arbeidsmarkt. Mei 2007

Landelijke peiling Nijmegen Resultaten eindmeting, januari 2006

ZA6783. Flash Eurobarometer 442 (Insolvency) Country Questionnaire Netherlands

Uitstroom uit het mbo schooljaar 2006/ 07

Persbericht. Groei vacatures ten einde. Centraal Bureau voor de Statistiek

Feiten & Cijfers bij de 99 ste Vierdaagse (op basis van totaal ingeschreven deelnemers, incl. militairen, stand 2 juli 2015)

t.a.v. Gedeputeerde van onderwijs de heer A.J. van der Maas.

Samen vooruit kijken. Kennisdag BRZO+ 23 april 2015

pilootprojecten (deel 1) Oost-Vlaanderen

Urbanisatie en de-urbanisatie in Nederland

PDF hosted at the Radboud Repository of the Radboud University Nijmegen

Rijksmonumenten - nabijheid

Dé taaltraining voor zakelijk succes!

Transcriptie:

Autonomata, Too Henk van den Heuvel CLST, Radboud Universiteit Nijmegen

AUTONOMATA Too CLST, Radboud Universiteit Nijmegen (coordinator): Henk van den Heuvel ELIS, Universiteit van Gent: Jean-Pierre Martens, Bert Réveil Nuance: Bart d Hoore TeleAtlas: Luc Peirlinckx, Luc Mortier UiL-OTS: Gerrit Bloothooft, Marijn Schraagen Hetzelfde consortium als in Autonomata

Doelen van het project ASR van POIs verbeteren Bouwen van demo-applicatie om proof of concept te laten zien POIs: Hotel/Motel: Accor Ruisbroek Humaniteitslaan Ad Foendoem Resto/Nightlife: Eat-Things Eb en Vloed

Achtergrond van het project Prestatie van ASR voor gewone woorden hangt sterk af van uitspraakvariatie Bij ASR voor namen is dat nog sterker het geval. Dat komt door: Onaangepaste spelvormen Buitenlandse namen Buitenlandse sprekers van inlandse namen Doelstelling van Autonomata Too: greep krijgen op deze uitspraakvarianten Door automatisch succesvolle uitspraakvarianten te genereren voor het herkenningslexicon Door het gebruik van P2P-convertoren

Voorbeelden Naam: NL EN FR MR Spreker: Guido Mensaert Queen Elisabeth street Quai de l Industrie Faiza Choueikh FL EN FR MR

Autonomata, Transfer Of Output Resultaten van Autonomata: 1. Het Autonomata gesproken namencorpus 2. P2P omzetter voor persoonsnamen: NL & VL 3. P2P-omzetter voor plaats- en straatnamen: NL & VL 4. P2P leersoftware, toepasbaar op: 1. Andere typen namen 2. Andere talen 3. Niet canonieke uitspraken 5. Transcriptietools die p2p s kunnen aanwenden

Autonomata Naamcorpus 120 uit Nederland 120 uit Vlaanderen 60 autochtoon 60 allochtoon 60 autochtoon 60 allochtoon 15 Noord- en Zuid-Holland 15 Gelderland 15 Groningen, Friesland, Drenthe 15 Noord-Brabant, Limburg 20 Engels 20 Frans 20 Marokkaans Arabisch 15 Brabants 15 Oost-Vlaams 15 West-Vlaams 15 Limburgs 20 Engels 20 Frans 20 Marokkaans Arabisch

Autonomata naamcorpus Spraakmateriaal: 70% Nederlands/Vlaamse namen 10% Engelse namen 10% Franse/Turkse namen 10% Marokkaanse namen Iedere spreker las: - 69 persoonsnamen (voor- en achternaam) - 112 toponymen (straatnamen, plaatsnamen)

Oude versie P2P-transcriptietool Schema text standard g2p input conversion LH+ / CGN Keuzes taal (G2P) = DUN of DUB domain p2p foneemset = LH+ (geen conversie) of CGN transcriptie met of zonder p2p LH+ / CGN

Nieuwe versie Schema text transcription standard g2p input conv domain p2p output conv Talen (G2P): DUN, DUB, ENG, FR, GE Foneemsets: incl outputconversie Meerdere p2p-convertoren (niet zichtbaar) Foneemtranscripties als input voor P2P

ASR evaluatie van P2Ps: EXP-transcripties (CLST) Name source Speakers NL EN FR MR FL NER 2.9 5.8 3.9 3.3 rnir -10.6 14.2 11.3 25.0 Speaker origin Names NL EN FR MR NL NER - 19.1 18.2 11.0 rnir - -0.5 5.7 4.3 Voor moedertaalsprekers zien we een flinke herkenverbetering Voor buitenlandse sprekers zien we een geringe verbetering

Multilinguale herkenningsexperimenten (ELIS) Taalindeling NAT: native taal (hier: NL) NN1: non-native talen die de spreker kent (hier: Engels, Frans (en Duits)) NN2: andere non-native talen (hier: Marokkaans en Turks) Baseline herkenningssysteem Monolinguale ACM, monolinguale g2p transcripties Beste herkenningssysteem Multilinguale ACM, 2 extra buitenlandse g2p transcripties

Multilinguale herkenningsexperimenten (ELIS) Base: NER (%): AC-MONO DUN g2p transcripties Naam-origine NAT NN1 NN2 All NAT 3.9 22.5 12.6 8.7 NN1 18.1 37.5 14.7 21.8 NN2 22.5 36.4 29.3 26.0 All 12.4 30.1 17.8 16.6 Best: NER (%): AC-MULTI DUN, ENG, FRF g2p transcripties Sprekerorigine Sprekerorigine Naam-origine NAT NN1 NN2 All NAT 4.9 5.9 8.9 5.7 NN1 11.6 7.1 6.9 10.0 NN2 21.6 21.0 20.0 21.3 All 10.8 9.6 11.6 10.7 Baseline (NAT,NAT) is OK Andere niet Beste systeem Toevoegen non-native transcripties verbetert NN1 naamherkenning Multiling. akoest. modellen Modelleren buitenlandse klanken in NN1 (en ook NN2) namen Modelleren buitenlandse klanken van NN1 sprekers (NAT,NAT) wordt slechter

Autonomata TOO spraakcorpus (UiL-OTS) Taalachtergrond spreker Doel Gerealiseerd Te doen Nederlands Nederland 20 19 1 Vlaanderen 20 20 0 Totaal 40 39 1 Engels 10 10 0 Frans 10 7 3 Turks 10 4 6 Marokkaans 10 1 9 Totaal 80 61 19