Vergadering TTNWW, gedeelte Spraak

Vergadering TTNWW, gedeelte Spraak Nijmegen, 6 april 2010 Aanwezig: Lou Boves, Patrick Wambacq, Jean Pierre Martens, Marc Kemps Snijders, Kris Demuynck, Marijn Huijbregts, Daan Broeder, Arjan van Hessen Afwezig: Roeland Ordelman Noot van Patrick: de antwoorden op de vragen van Lou staan in een apart document dat ik niet heb (Arjan: kan je dit rondsturen?); ik heb enkele bijkomende opmerkingen daarover hieronder opgeschreven, wellicht verhuizen die best naar dat andere document (maar verderop in het verslag staan ook nog enkele dingen die relevant zijn voor de vragen van Lou). Opmerkingen bij de antwoorden op de vragen van Lou: Issues: in principe gebeurt de opslag van de data in de CLARIN centra zelf en niet elders. Als KADOC dat niet wil moeten zij ofwel zelf een CLARIN centrum worden (enkel voor hun gegevens) of wordt hun data niet opgenomen in CLARIN. In dat laatste geval kunnen zij aan de gebruikers van hun gegevens wel de CLARIN transcriptietools aanbieden, of beter: zij transcriberen hun eigen materiaal als gebruiker, met de CLARIN tools, en bieden de transcripties aan aan hun klanten. In elk geval zullen zij wel voorbeelddata leveren voor het pilootproject. hoe maak je tools die binnen vijf of tien jaar nog werken of hoe verklein je de inspanning om ze werkend te houden? Daar zijn geen richtlijnen voor. Er zal altijd mankracht nodig zijn om tools te onderhouden. (quote: gemeten over de levensduur van een tool is 20% van de tijd nodig om hem te maken, 80% van de tijd is nodig om hem te onderhouden). versioning: er moet zorgvuldig worden bijgehouden voor elke output van een CLARIN tool, hoe die tot stand is gekomen en met welke versie van de tools (provenance data, op te slaan in de metadata van de output). We zijn wel niet verplicht om voor elke tool elke versie werkend te houden (en we zullen dat dus ook niet doen). M.a.w. de output van een tool kan bij ongewijzigde input veranderen in de loop van de tijd. worden transcripties (of andere outputs) bijgehouden op de servers voor hergebruik en worden zij daardoor een nieuw deel van de CLARIN data? We willen niet 50 keer hetzelfde transcriberen. Dat kan door die output op te slaan in de metadata (onderscheid met data wordt wel vaag), op voorwaarde dat de gebruiker ermee instemt. Maar het kan zinvol zijn om een transcriptie toch opnieuw te doen (zie de vorige opmerking). Elke gebruiker krijgt ook een eigen werkruimte waarin hij (tussen)resultaten kan bijhouden. Die kan wel niet gedeeld worden met andere gebruikers. ASR zal (zeker in het begin) menselijke interventie nodig hebben om goed te kunnen werken. Tuning zal altijd een beter resultaat geven, maar de vergadering is het erover eens dat als een redelijk resultaat bereikt wordt, manuele tuning niet verder hoeft. Een redelijk resultaat zal hopelijk kunnen bereikt worden door voldoende informatie te bekomen van de gebruiker over de herkenningstaak en

door daartegenover voldoende standaard modellen (akoestisch, taal, lexicon,...) te stellen in de herkenningsstraat. CLARIN centra zullen in de regel niet over de inhoudelijke kennis beschikken om de software echt te onderhouden en om manuele interventies te doen. Dit pleit ervoor om van ESAT een CLARIN centrum te maken (dat zich alleen met ASR zal bezighouden). ESAT zal zich hierover nog beraden want dit vereist inspanningen die niet onderzoeksgerelateerd zijn en die bij gebruikers verwachtingen genereren over support. er is nog geen echte CLARIN standaard. We gaan zelf onze eigen formaten, werkwijzen,... bekijken in het licht van CLARIN en zelf een aantal standaarden vooropstellen. ESAT gaat de eisen aan de input en het formaat van de resultaten van de spraakherkenner opstellen en rondsturen aan de projectdeelnemers. Wij gaan met z n allen dan kijken of de juiste metadata aanwezig zijn. Welke vragen worden vooraf gesteld aan de gebruiker en welke services/tools worden daar dan bij gemaakt? Na uiteindelijke vaststelling zullen de parameters samen met het MPI, in ISOCAT s gezet worden. hoe ga je om met de load op je systeem? Wat doe je als twee archieven beide 200 uur aanbieden? Het gedeeltelijk antwoord op deze vraag is dat er een maximale grootte zal opgelegd worden aan de bestanden die kunnen opgeladen worden en dat er een first come first serve queue komt. Wellicht moet een beter mechanisme voor prioriteiten bedacht worden. Er moet ook een onderscheid gemaakt worden tussen leveranciers van data die hun gegevens (corpora) via CLARIN willen ter beschikking stellen en de tools willen inzetten voor de annotatie ervan, en gebruikers die gewoon eigen materiaal willen verwerken en de resultaten daarvan voor zich willen houden. het is onvermijdelijk dat er beperkingen zullen zijn aan de webservice. Het is zeer belangrijk om deze op te schrijven en kenbaar te maken aan de gebruikers, zodat ze weten want ze kunnen verwachten. Mogelijke services gerelateerd aan ASR (nodig/ indien voldoende tijd / niet binnen TTNWW): segmentatie: spraak / niet spraak / muziek en anders, onderscheid sprekers, taaldetectie, gender, clustering van sprekers over verschillende bestanden heen, NODIG; dialectdetectie en shot detectie is ook interessant, NIET IN TTNWW transcriptie, NODIG alignering, NODIG Indexatie (vraag van Lou): lijst met keywords bijvoegen die herkend moeten worden, INDIEN TIJD automatische punctuatie of structurering van de transcripties op basis van pauses, INDIEN TIJD taalmodeladaptatie: eigen lijst met eigennamen bijvoegen, INDIEN TIJD taalmodeladaptatie: eigen teksten opladen; dit vereist tekstnormalisatie (eventueel tekstnormalisatie als aparte service voorzien met feedback door de gebruiker), INDIEN TIJD (mede afhankelijk van de mate van normalisatie die we willen inbouwen)

convertoren voor inputformaat/outputformaat (input: SOX kan al heel wat, output: wellicht xml nodig en conversie naar bv. CTM en STM, INDIEN TIJD G2P eventueel met TTS feedback, NIET IN TTNWW akoestische adaptatie (supervised/unsupervised), NIET IN TTNWW topicdetectie (supervised en unsupervised) korte lijst, NIET IN TTNWW emotiedetectie, NIET IN TTNWW automatische samenvatting van de audio, NIET IN TTNWW (hoort dit niet eerder bij taal dan bij spraak?) Vragen te stellen aan de gebruiker in een webformulier: cf. www.webasr.org van Sheffield, zie ook de screenshots op het einde van dit verslag spraakmodus (discussie+aantal sprekers / vrij / presentatie / voorlezen / zang (we gaan wel geen zang proberen te herkennen!) / anders) taal van de spreker(s) (NL/VL) geslacht van de spreker(s) (wat als de segmentatie er anders over denkt?) akoestische omstandigheden: omgeving van de opname, breedband/smalband, nagalm, clipping, soort microfoon,... topic formaat van de klankbestanden: we gebruiken 16bit/16kHz/mono/PCM signed. We zullen ook een maximale grootte opleggen aan de bestanden. Werkplan van het project zie de projectaanvraag blz. 30 e.v.; WP2 en WP3: de beschrijvingen hiervan in de projectaanvraag overlappen enigszins. We stellen daarom enkele aanpassingen voor: in WP2 komt alle spraaktechnologie werk, (herkenner en bijkomende modules, audio segmenter en indexer en gerelateerd werk). Daardoor bekomen we WP2a: herkenner, WP2b: segmenter/indexer (zat voordien in WP3). In WP3 zit dan alles wat met de webservice te maken heeft. In de Gantt chart (verderop) is met deze aanpassing rekening gehouden. waar namen van onderzoeksgroepen vermeld worden, betekent dit dat zij verantwoordelijk zijn voor de vermelde taak. Dit betekent niet dat zij de enige uitvoerder ervan zijn. de budgetverdeling onderaan de beschrijving van elk werkpakket klopt niet overal. Dat is later rechtgezet en dit zijn de juiste gegevens: WP3 103k (54k, 29k, 10k, 10k) en WP4 25k (5k, 5k, 5k, 5k, 5k). Voor de andere werkpakketen en in de samenvattende tabellen eerder in de tekst klopt alles wel. hoe lang gaat het project eigenlijk duren? In de projectaanvraag werd voor het spraakgedeelte 2 jaar voorzien, terwijl op blz. 3 van het voorstel (in het algemene gedeelte) een periode van 2 jaar en 7 maanden wordt voorzien (waarvan er al 6 weken voorbij zijn). De financiers stellen zich (vermoedelijk) flexibel op en we kunnen deze extra tijd dus wel gebruiken indien nodig. Maar we blijven mikken op 2 jaar voor het spraakgedeelte, verdeeld volgens de Gantt chart verderop in dit verslag. De start van het eigenlijke werk zal moeten verschoven worden naar het

ogenblik waarop de geschikte uitvoerders kunnen aangeworven worden en kunnen starten. Vermoedelijk wordt dit september 2010. De laatst mogelijke startdatum is 1 oktober 2010 zodat het werk nog kan afgerond worden tegen 30 september 2012 (de uiterste einddatum vermeld in de aanvraag). verantwoordelijken voor de werkpakketten en deliverables: in NL altijd UT behalve voor WP3 D1: RU (waar staat dit ergens, ik vind dit nergens terug); in VL: ESAT behalve WP2b: ELIS WP1a: requirements: vermits er nog geen CLARIN standaard is, stellen we deze zelf op. Een initiële versie kan nu gemaakt worden; naarmate de uitvoering van het project vordert kunnen daar nog dingen bijkomen. WP1b: implementatie van de standaarden: blijft zoals het is WP2: gebruiksvriendelijkheid van de ASR software verhogen, bijkomende ASR modules (parameterinstelling gebaseerd op de antwoorden van de gebruikers op specifieke vragen, interface naar AUTONOMATA tools). Er moeten bijkomende taalmodellen en akoestische modellen gemaakt worden; dit zal echter maar gebeuren als er tijd voor is (tenslotte blijft dit een pilootproject). (ESAT) WP3a: alle taken die plaatsgrijpen vóór ASR: segmentatie, taaldetectie, sprekerclustering,... (ELIS) WP3b: alle modules toegankelijk maken via een webservice, bouw van een webinterface (UT). Webinterface: is een form op je scherm waarin jij alle gegevens zet die gebruikt moeten worden. Webservice is de service zelf die het doet. Er komt een soort CLARIN template hiervoor zodat je een zelfde look and feel krijgt bij alle facetten van de straat. Maar we hoeven daar niet op te wachten. WP4: gebruikerstesten: blijft zoals het is. WP5: disseminatie, demonstrator, documentatie: blijft zoals het is, met dien verstande dat de demonstrator eigenlijk bestaat uit wat er in WP3b werd gebouwd (de webinterface). Gantt chart: zie verderop in dit verslag Actiepunten Utwente bezorgt haar lexicale resources aan ESAT ESAT gaat een lijst opstellen van de requirements waaraan servers moeten voldoen om SPRAAK te kunnen draaien. Idem voor het trainen van taalmodellen. ESAT gaat een ftp server inrichten voor de data van de gebruikers. De link gaat naar Mark KS Utwente gaat uitzoeken in welke formaten de gebruikers hun data zullen aanleveren. Utwente of MPI? : toegang regelen voor de andere deelnemers op de clarin.nl website ESAT, ELIS, RU, UTwente: dataleveranciers contacteren teneinde de data te verkrijgen en te kunnen opladen op de ftp server

RU: Lou gaat bekijken hoe er een CLARIN call voor tender kan geschreven worden zodat uitgebreidere deelname van de gebruikers verzorgd kan worden. In TTNWW krijgen zij maar 5k en dat is heel weinig. Patrick/Arjan: de lijst met WP s wordt herschreven in een meer praktisch workflowdocument. Is dit nog nodig als je de beschrijvingen in de vorige hoofding leest? Komt dit niet gewoon neer op een update/verfijning van de Gantt chart?

TTNWW Spraak Gantt chart!"#!$#%!"!!"#""#%!"!!"#!"#%!""!"#!&#%!""!"#!'#%!""!"#!(#%!""!"#!$#%!""!"#""#%!""!"#!"#%!"%!"#!&#%!"%!"#!'#%!"%!"#!(#%!"%!"#!$#%!"% )*"+ opstellen requirements )*", )*%+ implementatie CLARIN standaarden gebruiksvriendelijke ASR )*%, )*& audio-segmenter/- indexer en uitbreidingen webgebaseerde spraak services )*- )*' bepaling metadata, gebruikerstesten disseminatie, demonstrators, documentatie

Screenshots van de ASR webinterface van Sheffield (www.webasr.org)