Vergadering TTNWW, gedeelte Spraak



Vergelijkbare documenten
Autonomata, Too. Henk van den Heuvel. CLST, Radboud Universiteit Nijmegen

1 Deelproject Spraakherkenning: SHoUT Audio Indexering Service

Choral + Spraaktechnologie: ingezet voor de ontsluiting van audiovisuele

Persoonlijk opleiding plan

Hoe moet je een prachtige presentatie maken?

Plan van aanpak Toogle

GESPREKKEN VOEREN NEDERLANDS AAN HET EINDE VAN DEZE UITLEG:

SEPA en uw PxPlus/ProvideX software

Ontsluiten van gesproken documenten. Arjan van Hessen

Scarabee Vereniging Brochure

Rafra Information Services belgium Rijksweg 22, B-8520 KUURNE Belgium Tel +32(0)56/ (3l) Fax +32(0)56/

Beschrijving OpenTunnel koppelvlak met MijnOverheid BerichtenBox

januari TTNWW Handleiding TST tools voor het Nederlands als Web services in een Workflow Meertens Instituut, Joan Muyskensweg 25, 1096 CJ Amsterdam

Gebruiksvriendelijkheid: Gebruiksaanwijzing:

Prijzen RIVOS. RIVOS Prijzen Pagina 1

2.4 Tekstopbouw In deze paragraaf oefen je in het schrijven van een tekst met een indeling in inleiding, kern en slot.

Autonomata, Too. Henk van den Heuvel. CLST, Radboud Universiteit Nijmegen

Hoeveel budget moet ik uittrekken voor een Field Service Automation project?

1 Inleiding. 3 Handmatig... invoeren zaken basis 4 Verwerken... zaken 5 Afhandelen... van zaken. 7 Uitgebreidere... zaak opties

Handleiding gebruik digitale boeken Uitgeverij De Boeck

Hoe selecteer je preserveringstools? Sara van Bussel. Koninklijke Bibliotheek

Hieronder leggen we je uit wat je moet doen om mee te doen aan Digibattle. En om te winnen. Lees het dus goed door.

Friesland College Leeuwarden

digitale ontwerp technieken SketchUp

Uitleg boekverslag en boekbespreking

Implementatiescenario voor lidorganisaties

Onderzoeksdata en toegangsrechten

Toetsen in Blackboard

CLARIN-NL Metadataproject

Procesverslag. Save Energy Leiden. Dennis Wagenaar v 1.0

Tooling voor de HR-cyclus

sales performance Guided Buying software for customer specific solutions Bas Könst

Handleiding kasten Extern documentenbeheer

April Legal & General Actualiteitenbijeenkomsten Presentatie Hans Schriever (FP Advance NL)

Aansluiten op Geopunt: beter te vinden, te bekijken en te downloaden

TaskCentre Web Service Connector: Creëren van requests in Synergy Enterprise

Project Toegepaste Informatica 4BKa

Bent u ook zoveel tijd kwijt met het zoeken naar de laatste en enig juiste! - versie van uw marktonderzoek

Zorg dat je een onderwerp kiest, waarvan je echt meer wilt weten. Dat is interessanter, leuker en makkelijker om mee bezig te zijn.

App2Shop Product Import XML voorbeeld User Guide V1.0

Offerte voor het bouwen van een website Klant: Ideefiks, IdeeKids

Rapporten. Labels en Rapporten in Atlantis 1. Atlantis heeft twee manieren om output te genereren: 1. labels 2. rapporten (reports)

Maken van een draaitabel met informatie uit StatLine.

Innovatieplatform STON Spraak- en Taaltechnologisch Ondertitelen in het Nederlands

Xampp Web Development omgeving opzetten onder Windows.

KRW-VSS en (UM)-Aquo. data standaarden in Delft-FEWS. Amersfoort, 23 April Marc van Dijk Deltares

Roy Fijma Project 13 Friesland College Leeuwarden

BELTRACE FACTURATIE 1. Samenvattende beschrijving van het proces

Module Scoda. Handleiding oktober Module Scoda - Handleiding Inform BVBA

Meer succes met je website

AWARD 2013 : PROCEDURE & CASE FORMAT

Nederlandse versie. Inleiding. Installatie Windows 2000 en XP. LW058 Sweex Wireless LAN USB 2.0 Adapter 54 Mbps

Checklist Presentatie geven 2F - handleiding

BeheerVisie ondersteunt StUF-ZKN 3.10

CPU scheduling : introductie

Testomgevingen beheer

Tools voor canonieke datamodellering Bert Dingemans

Smart Industry. KvK Ondernemerspanel onderzoek

Schoolmail. Handleiding voor het gebruik van je Snorduffel-adres. Druk deze handleiding NIET af. Ze is 25 pagina s lang en je hebt niet alles nodig.

IRIS heeft TEC Documents geselecteerd als één van haar beste resellers. Om dat te vieren doet TEC u een bijzondere aanbieding.

NIEUWS JUNI 2015 BEHEERSOFTWARE. In deze uitgave:

VMBO-ICT-Route examen 2009 Naam: Marc Schattorie Datum:

Handleiding Document Management Systeem (DMS)

Kaaiendonkse. Tradities. (studieles ) Vooraf. Voorbereiding leerkracht

MS Dynamics 365 voor MKB

Georges Dockx JUISTE MARKETING. Voor kmo s en zelfstandigen die meer resultaat willen met minder budget

ONTWERP AUTONOMATA GESPROKEN POI-CORPUS Marijn Schraagen

1 juli e - factureren. Afspraken voor uitwisseling. Fred van Blommestein. fred@flowcanto.com

Wireless Leiden. Project Brief x

Let op je kunt maximaal 3 keer proberen om in te loggen. Hierna is er een time-out van 30 minuten. Daarna heb je weer 3 pogingen.

FOUT VRIENDJE? PAS OP! Hulp. Internet. Heb je vragen? Bel dan naar Meldpunt Jeugdprostitutie, tel.:

In dit hoofdstuk leggen we stap voor stap uit hoe je XBMC op je pc of laptop installeert.

LinkedIn Profiel Checklist

Handleiding Logcom 1.3

9200 DENDERMONDE WAUTERS Marcel PC Technieken / 03 Soorten computers

sales performance Guided Buying software for customer specific solutions Bas Könst

Verkorte handleiding voor het verkleinen van digitale foto s t.b.v. MS-powerpoint-presentaties. Blad 1 van 6 - Auteur: Sjoerdt

Privacy instellingen voor Facebook Alles wat je op Facebook zet is openbaar. Wil je dat ook?

Foto s aanpassen met behulp van BD Sizer 3.3.0


Wireless Leiden. Plan van Aanpak x

FACTUREN VERWERKEN WORDT KINDERSPEL INVOICE MANAGEMENT

GrabIT. Voor meer vragen en uitleg zie onderdeel jritservice. Pagina 1 grabit

Shared Data Store. Tom Demeyer, Taco van Dijk,

11 dingen die je nu kunt doen om meer te gaan verkopen

WEBSITE SCAN Vrijblijvend advies

Omzeil het gebruik van mappen en bestanden over Wiki s en het werken in de 21 e eeuw

Data at your fingertips

De mogelijkheden van XML voor de langdurige bewaring van digitale documenten. DAVID studiedag 30 nov 2000

Form follows function -Louis Henry Sullivan

BUE Zelfevaluatie OL

Maandag 25 april 2010 (net na de Paasvakantie)

Feedback Project Ergonomisch Ontwerpen

Mijn 7 grootste inzichten in ICT in de zorg uit de afgelopen 15 jaar

Trends analyseren en structureren

We moeten de accommodaties selecteren die 3 sterren hebben, en in land met ID 10 zitten.

Installatiehandleiding TiC Narrow Casting Manager

Net2 kaarten bedrukken

Net2 kaarten bedrukken

Transcriptie:

Vergadering TTNWW, gedeelte Spraak Nijmegen, 6 april 2010 Aanwezig: Lou Boves, Patrick Wambacq, Jean Pierre Martens, Marc Kemps Snijders, Kris Demuynck, Marijn Huijbregts, Daan Broeder, Arjan van Hessen Afwezig: Roeland Ordelman Noot van Patrick: de antwoorden op de vragen van Lou staan in een apart document dat ik niet heb (Arjan: kan je dit rondsturen?); ik heb enkele bijkomende opmerkingen daarover hieronder opgeschreven, wellicht verhuizen die best naar dat andere document (maar verderop in het verslag staan ook nog enkele dingen die relevant zijn voor de vragen van Lou). Opmerkingen bij de antwoorden op de vragen van Lou: Issues: in principe gebeurt de opslag van de data in de CLARIN centra zelf en niet elders. Als KADOC dat niet wil moeten zij ofwel zelf een CLARIN centrum worden (enkel voor hun gegevens) of wordt hun data niet opgenomen in CLARIN. In dat laatste geval kunnen zij aan de gebruikers van hun gegevens wel de CLARIN transcriptietools aanbieden, of beter: zij transcriberen hun eigen materiaal als gebruiker, met de CLARIN tools, en bieden de transcripties aan aan hun klanten. In elk geval zullen zij wel voorbeelddata leveren voor het pilootproject. hoe maak je tools die binnen vijf of tien jaar nog werken of hoe verklein je de inspanning om ze werkend te houden? Daar zijn geen richtlijnen voor. Er zal altijd mankracht nodig zijn om tools te onderhouden. (quote: gemeten over de levensduur van een tool is 20% van de tijd nodig om hem te maken, 80% van de tijd is nodig om hem te onderhouden). versioning: er moet zorgvuldig worden bijgehouden voor elke output van een CLARIN tool, hoe die tot stand is gekomen en met welke versie van de tools (provenance data, op te slaan in de metadata van de output). We zijn wel niet verplicht om voor elke tool elke versie werkend te houden (en we zullen dat dus ook niet doen). M.a.w. de output van een tool kan bij ongewijzigde input veranderen in de loop van de tijd. worden transcripties (of andere outputs) bijgehouden op de servers voor hergebruik en worden zij daardoor een nieuw deel van de CLARIN data? We willen niet 50 keer hetzelfde transcriberen. Dat kan door die output op te slaan in de metadata (onderscheid met data wordt wel vaag), op voorwaarde dat de gebruiker ermee instemt. Maar het kan zinvol zijn om een transcriptie toch opnieuw te doen (zie de vorige opmerking). Elke gebruiker krijgt ook een eigen werkruimte waarin hij (tussen)resultaten kan bijhouden. Die kan wel niet gedeeld worden met andere gebruikers. ASR zal (zeker in het begin) menselijke interventie nodig hebben om goed te kunnen werken. Tuning zal altijd een beter resultaat geven, maar de vergadering is het erover eens dat als een redelijk resultaat bereikt wordt, manuele tuning niet verder hoeft. Een redelijk resultaat zal hopelijk kunnen bereikt worden door voldoende informatie te bekomen van de gebruiker over de herkenningstaak en

door daartegenover voldoende standaard modellen (akoestisch, taal, lexicon,...) te stellen in de herkenningsstraat. CLARIN centra zullen in de regel niet over de inhoudelijke kennis beschikken om de software echt te onderhouden en om manuele interventies te doen. Dit pleit ervoor om van ESAT een CLARIN centrum te maken (dat zich alleen met ASR zal bezighouden). ESAT zal zich hierover nog beraden want dit vereist inspanningen die niet onderzoeksgerelateerd zijn en die bij gebruikers verwachtingen genereren over support. er is nog geen echte CLARIN standaard. We gaan zelf onze eigen formaten, werkwijzen,... bekijken in het licht van CLARIN en zelf een aantal standaarden vooropstellen. ESAT gaat de eisen aan de input en het formaat van de resultaten van de spraakherkenner opstellen en rondsturen aan de projectdeelnemers. Wij gaan met z n allen dan kijken of de juiste metadata aanwezig zijn. Welke vragen worden vooraf gesteld aan de gebruiker en welke services/tools worden daar dan bij gemaakt? Na uiteindelijke vaststelling zullen de parameters samen met het MPI, in ISOCAT s gezet worden. hoe ga je om met de load op je systeem? Wat doe je als twee archieven beide 200 uur aanbieden? Het gedeeltelijk antwoord op deze vraag is dat er een maximale grootte zal opgelegd worden aan de bestanden die kunnen opgeladen worden en dat er een first come first serve queue komt. Wellicht moet een beter mechanisme voor prioriteiten bedacht worden. Er moet ook een onderscheid gemaakt worden tussen leveranciers van data die hun gegevens (corpora) via CLARIN willen ter beschikking stellen en de tools willen inzetten voor de annotatie ervan, en gebruikers die gewoon eigen materiaal willen verwerken en de resultaten daarvan voor zich willen houden. het is onvermijdelijk dat er beperkingen zullen zijn aan de webservice. Het is zeer belangrijk om deze op te schrijven en kenbaar te maken aan de gebruikers, zodat ze weten want ze kunnen verwachten. Mogelijke services gerelateerd aan ASR (nodig/ indien voldoende tijd / niet binnen TTNWW): segmentatie: spraak / niet spraak / muziek en anders, onderscheid sprekers, taaldetectie, gender, clustering van sprekers over verschillende bestanden heen, NODIG; dialectdetectie en shot detectie is ook interessant, NIET IN TTNWW transcriptie, NODIG alignering, NODIG Indexatie (vraag van Lou): lijst met keywords bijvoegen die herkend moeten worden, INDIEN TIJD automatische punctuatie of structurering van de transcripties op basis van pauses, INDIEN TIJD taalmodeladaptatie: eigen lijst met eigennamen bijvoegen, INDIEN TIJD taalmodeladaptatie: eigen teksten opladen; dit vereist tekstnormalisatie (eventueel tekstnormalisatie als aparte service voorzien met feedback door de gebruiker), INDIEN TIJD (mede afhankelijk van de mate van normalisatie die we willen inbouwen)

convertoren voor inputformaat/outputformaat (input: SOX kan al heel wat, output: wellicht xml nodig en conversie naar bv. CTM en STM, INDIEN TIJD G2P eventueel met TTS feedback, NIET IN TTNWW akoestische adaptatie (supervised/unsupervised), NIET IN TTNWW topicdetectie (supervised en unsupervised) korte lijst, NIET IN TTNWW emotiedetectie, NIET IN TTNWW automatische samenvatting van de audio, NIET IN TTNWW (hoort dit niet eerder bij taal dan bij spraak?) Vragen te stellen aan de gebruiker in een webformulier: cf. www.webasr.org van Sheffield, zie ook de screenshots op het einde van dit verslag spraakmodus (discussie+aantal sprekers / vrij / presentatie / voorlezen / zang (we gaan wel geen zang proberen te herkennen!) / anders) taal van de spreker(s) (NL/VL) geslacht van de spreker(s) (wat als de segmentatie er anders over denkt?) akoestische omstandigheden: omgeving van de opname, breedband/smalband, nagalm, clipping, soort microfoon,... topic formaat van de klankbestanden: we gebruiken 16bit/16kHz/mono/PCM signed. We zullen ook een maximale grootte opleggen aan de bestanden. Werkplan van het project zie de projectaanvraag blz. 30 e.v.; WP2 en WP3: de beschrijvingen hiervan in de projectaanvraag overlappen enigszins. We stellen daarom enkele aanpassingen voor: in WP2 komt alle spraaktechnologie werk, (herkenner en bijkomende modules, audio segmenter en indexer en gerelateerd werk). Daardoor bekomen we WP2a: herkenner, WP2b: segmenter/indexer (zat voordien in WP3). In WP3 zit dan alles wat met de webservice te maken heeft. In de Gantt chart (verderop) is met deze aanpassing rekening gehouden. waar namen van onderzoeksgroepen vermeld worden, betekent dit dat zij verantwoordelijk zijn voor de vermelde taak. Dit betekent niet dat zij de enige uitvoerder ervan zijn. de budgetverdeling onderaan de beschrijving van elk werkpakket klopt niet overal. Dat is later rechtgezet en dit zijn de juiste gegevens: WP3 103k (54k, 29k, 10k, 10k) en WP4 25k (5k, 5k, 5k, 5k, 5k). Voor de andere werkpakketen en in de samenvattende tabellen eerder in de tekst klopt alles wel. hoe lang gaat het project eigenlijk duren? In de projectaanvraag werd voor het spraakgedeelte 2 jaar voorzien, terwijl op blz. 3 van het voorstel (in het algemene gedeelte) een periode van 2 jaar en 7 maanden wordt voorzien (waarvan er al 6 weken voorbij zijn). De financiers stellen zich (vermoedelijk) flexibel op en we kunnen deze extra tijd dus wel gebruiken indien nodig. Maar we blijven mikken op 2 jaar voor het spraakgedeelte, verdeeld volgens de Gantt chart verderop in dit verslag. De start van het eigenlijke werk zal moeten verschoven worden naar het

ogenblik waarop de geschikte uitvoerders kunnen aangeworven worden en kunnen starten. Vermoedelijk wordt dit september 2010. De laatst mogelijke startdatum is 1 oktober 2010 zodat het werk nog kan afgerond worden tegen 30 september 2012 (de uiterste einddatum vermeld in de aanvraag). verantwoordelijken voor de werkpakketten en deliverables: in NL altijd UT behalve voor WP3 D1: RU (waar staat dit ergens, ik vind dit nergens terug); in VL: ESAT behalve WP2b: ELIS WP1a: requirements: vermits er nog geen CLARIN standaard is, stellen we deze zelf op. Een initiële versie kan nu gemaakt worden; naarmate de uitvoering van het project vordert kunnen daar nog dingen bijkomen. WP1b: implementatie van de standaarden: blijft zoals het is WP2: gebruiksvriendelijkheid van de ASR software verhogen, bijkomende ASR modules (parameterinstelling gebaseerd op de antwoorden van de gebruikers op specifieke vragen, interface naar AUTONOMATA tools). Er moeten bijkomende taalmodellen en akoestische modellen gemaakt worden; dit zal echter maar gebeuren als er tijd voor is (tenslotte blijft dit een pilootproject). (ESAT) WP3a: alle taken die plaatsgrijpen vóór ASR: segmentatie, taaldetectie, sprekerclustering,... (ELIS) WP3b: alle modules toegankelijk maken via een webservice, bouw van een webinterface (UT). Webinterface: is een form op je scherm waarin jij alle gegevens zet die gebruikt moeten worden. Webservice is de service zelf die het doet. Er komt een soort CLARIN template hiervoor zodat je een zelfde look and feel krijgt bij alle facetten van de straat. Maar we hoeven daar niet op te wachten. WP4: gebruikerstesten: blijft zoals het is. WP5: disseminatie, demonstrator, documentatie: blijft zoals het is, met dien verstande dat de demonstrator eigenlijk bestaat uit wat er in WP3b werd gebouwd (de webinterface). Gantt chart: zie verderop in dit verslag Actiepunten Utwente bezorgt haar lexicale resources aan ESAT ESAT gaat een lijst opstellen van de requirements waaraan servers moeten voldoen om SPRAAK te kunnen draaien. Idem voor het trainen van taalmodellen. ESAT gaat een ftp server inrichten voor de data van de gebruikers. De link gaat naar Mark KS Utwente gaat uitzoeken in welke formaten de gebruikers hun data zullen aanleveren. Utwente of MPI? : toegang regelen voor de andere deelnemers op de clarin.nl website ESAT, ELIS, RU, UTwente: dataleveranciers contacteren teneinde de data te verkrijgen en te kunnen opladen op de ftp server

RU: Lou gaat bekijken hoe er een CLARIN call voor tender kan geschreven worden zodat uitgebreidere deelname van de gebruikers verzorgd kan worden. In TTNWW krijgen zij maar 5k en dat is heel weinig. Patrick/Arjan: de lijst met WP s wordt herschreven in een meer praktisch workflowdocument. Is dit nog nodig als je de beschrijvingen in de vorige hoofding leest? Komt dit niet gewoon neer op een update/verfijning van de Gantt chart?

TTNWW Spraak Gantt chart!"#!$#%!"!!"#""#%!"!!"#!"#%!""!"#!&#%!""!"#!'#%!""!"#!(#%!""!"#!$#%!""!"#""#%!""!"#!"#%!"%!"#!&#%!"%!"#!'#%!"%!"#!(#%!"%!"#!$#%!"% )*"+ opstellen requirements )*", )*%+ implementatie CLARIN standaarden gebruiksvriendelijke ASR )*%, )*& audio-segmenter/- indexer en uitbreidingen webgebaseerde spraak services )*- )*' bepaling metadata, gebruikerstesten disseminatie, demonstrators, documentatie

Screenshots van de ASR webinterface van Sheffield (www.webasr.org)