Resultaten en Beschikbaarheid 1e Ronde projecten, SPRAAK en CORNETTO Jan Odijk i.s.m. TST-Centrale



Vergelijkbare documenten
Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands (STEVIN)

Gebruik en gebruikers STEVIN en TST-Centrale

Autonomata, Too. Henk van den Heuvel. CLST, Radboud Universiteit Nijmegen

David Weenink. Instituut voor Fonetische Wetenschapen ACLC Universiteit van Amsterdam. Spraakverwerking per computer.

Technisch rapport SumNL corpus

Enquête crowdsourcing knaw voor onderzoekers en collectiebeheerders

Autonomata, Too. Henk van den Heuvel. CLST, Radboud Universiteit Nijmegen

Choral + Spraaktechnologie: ingezet voor de ontsluiting van audiovisuele

Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands (STEVIN)

Onderzoeksplan bachelorscriptie

IPR regelingen binnen het STEVIN-programma

DUTCH PARALLEL CORPUS EN SONAR

ONTWERP AUTONOMATA GESPROKEN POI-CORPUS Marijn Schraagen

Hoezo gratis? Mythes en misverstanden over open source software

Vervolg op het STEVIN Programma

Zoeken in een Afrikaans corpus: baie maklik! Liesbeth Augustinus Ineke Schuurman Vincent Vandeghinste Peter Dirix Frank Van Eynde

Sourcing & Technologie. Gerard Mulder, Commercieel directeur, mulder@textkernel.nl,

gebruik van Creative Commons licenties in interne projecten

Parse and Corpus-based Machine Translation. STEVIN Programmadag

Dutch-Flemish research programme for Dutch Language and Speech Technology

Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands (STEVIN)

Opdrachtnemer: Centre for Language and Speech Technology (CLST), Radboud Universiteit Nijmegen

DPC. Dutch Parallel Corpus. Corpus Design. Lidia Rura

Dutch-Flemish research programme for Dutch Language and Speech Technology. STEVIN mid-term evaluation Fact File

Het Nederlands en Taal en Spraaktechnologie

MIMORE. Demonstratieproject CLARIN-NL. Folkert de Vriend. Meertens Instituut, Amsterdam 26/08/2010

[Dossier] Taal- en spraaktechnologie in Vlaanderen: dood of levend? Els Lefever en Lieve Macken. <foto s auteurs: zie gelijknamig bestand>

Toelichtingsdocument ICON projecten. Overeenstemming Kaderregeling O&O&I

bizlocator Ruimte om te ondernemen lancering piloot Stad Gent

Taaltechnologie voor mensen met communicatieve beperkingen: een optie? Emiel Krahmer, Erwin Marsi en Lilian Beijer. Inleiding

Corinth: Corpus Interactionele Humor

Standaard Asta Powerproject Client Versie 12 Installatiedocument v1

E-books: trends en ontwikkelingen

HANDLEIDING Installatie TESTS 2018

Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands (STEVIN)

CatchPlus Workspaces. Patricia Alkhoven. CatchPlus. Gert-Jan van Dijk. Target Media BV. Datum: 27 april Versie: 1.0

Installatie Hector en aanvraag ehealth certificaat

Digitale strategie voor nieuw Museum voor Edelsmeedkunst, Juwelen en Diamant Informatie aan Zee - 18/09/2015

Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands (STEVIN)

Riskpoker - Confirmation - Planningpoker. Opfrissing TMap NEXT in scrum en toelichting op de opdracht Leo van der Aalst - Jos Punter - Hans Lantink

Wat is een corpus en waarvoor wordt het gebruikt?

Pilotstarter Living Lab Papieren Tijger Netwerk 27 maart 2018 J. Pantjes

OPEN CONTENT. Wat is het en hoe kun je het gebruiken?

Inlichtingenbureau Voortgangsrapportage April Realisatie van het Sectorloket-systeem

Procestool; sleutel tot succes?

Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands (STEVIN)

HANDLEIDING Installatie TESTS 2012

SIOM: zelflerend systeem voor global greenhouse technology systems Bart Slager (TNO)

Onderbouwing bepaling short-list pakketsoftware t.b.v. stroom Producten & processen. Deelnemers deelproject en klankbordgroep stroom Automatisering

Een netwerkorganisatie ter bevordering van de ondersteuning van zelfzorg 28 september 2018 Stephan Hermsen

Handleiding Simtoolkit. Auteur: Bas van der Loos Datum: Versie: 4.0.5

Open Source Business Intelligence bij het Inlichtingenbureau

VIDEO-CONFERENCING IN DE NETWERKSCHOOL: ONDERZOEK EN AANBEVELINGEN

AERIUS II. Mark Wilmot Product Owner AERIUS. Ministerie van EL&I Programma Directie Natura 2000 Programma Stikstof (PAS)

Industrial Food Informatics ICT voor R&D

Nulmeting van de e-depotvoorziening van het Noord-Hollands Archief aan de hand van het toetsingskader ED3

1.1. Beklaagde heeft een Europese openbare aanbestedingsprocedure gehouden voor het leveren van refurbished PC's.

Kiemkaarten Interactieve bijeenkomst taal en spraak. Nr 3

Syfadis Suite. LMS & Talent applicatie

Cloud & Licenties. Welkom bij BSA The Live Sessions De Live Session start binnen enkele minuten. Dank voor uw geduld.

Inhoud: de eerste verzameling van Nederlandstalige gesproken en geschreven teksten,

HANDBOEK LSM BASISPRINCIPES LSM

Hoe schaf je Microsoft producten aan?

Blauwdruk voor onderhoud, beheer en distributie van door de overheid gefinancierde digitale materialen.

" Inleiding: " Sectie GISt " GDMC " TUDelft " Case studies " Conclusies

SMART SCHOOLS PROJECTOPROEP 2018

Pilot Social Media Analyse, studiejaar 14/ 15

Lokale besluiten als gelinkte Open Data

Woordenboekencomponent van de Geïntegreerde Taalbank (GTB): het WNT en VMNW met andere databestanden geïntegreerd in 1 zoeksysteem demo gtb.inl.

End of Support. Windows XP Office maar ook: Exchange 2003 (oa gebruikt in SBS 2003) (link met gegevens) SQL 2000

Pilotstarter Living Lab Tussentijdse update

Ervaringen uit de Pilot en eerste gebruikers

Beoordelingsformulier projectvoorstellen KFZ

Van de redactie. Nederlandse Taalkunde, jaargang 12,

Agenda. doelstelling situering voor- en nadelen functionaliteit opbouw voorwaarden besluitvorming

idin, de nieuwe manier van online identificeren

BIJ12. Meerjarenagenda & Jaarplan 2015 Versie 0.6 (10 juli 2016)

Vergadering TTNWW, gedeelte Spraak

Het regelen van ondersteuning op open source software voor overheidsorganisaties. Afstudeerpresentatie Daniël Vijge 12 november 2007

Whitepaper. Online samenwerken: meer transparantie en efficiency geeft accountant extra ruimte voor advies

Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken Hogeschool Gent

AERIUS: Rekeninstrument voor de PAS

KENMERKEN MODEL BASED TESTING TOOLS

InvoiceSharing Het einde van papieren facturen

CLARIN-NL Metadataproject

Intro JIP MoBaMo-BES. Deltares.

VERKOOPGIDS BOUWSECTOR

Wordt educatief videomateriaal in Nederland vaak ondertiteld? Welke vormen van ondertitelen zijn mogelijk?

Modelconvenant toetreding tot de ERFGOEDSUITE

Spatial Metadata & Opensource Geo Software. Paul van Genuchten OSGeo.nl dag Velp

Implementatie eboard. Nederlandse Board gebruikersdag. Fred Elgers, Hoofd Controlling

Tetra Industriële Security

Spraaktherapie in e-health: spraaktechnologie en gaming

Pilot Kwaliteitgestuurde Plantenketen

Aansluiten op Geopunt: beter te vinden, te bekijken en te downloaden

MARKETING VOOR NIET-MARKETEERS

Over het Corpus Gesproken Nederlands Laura van Eerten 1. 1 Inleiding

OPERTIS elock express Systeemmanagement

Quality Automation Day

Geo-Informatie. AGGN 7 Juni 2012 GIS Internet en Mobiel

Transcriptie:

Resultaten en Beschikbaarheid 1e Ronde projecten, SPRAAK en CORNETTO Jan Odijk i.s.m. TST-Centrale STEVIN Programmabijeenkomst, Hoeven, 11 september 2008

Autonomata COREA D-Coi IRME JASMIN-CGN SPRAAK CORNETTO Projecten

Projectafronding Voor algemene procedure, zie Hans Kruithof later vandaag Portefeuillehouders beoordelen resultaten en stellen advies op PC adviseert op basis hiervan het bestuur Target officiële afronding 1e ronde projecten+spraak: 16 oktober 2008

Projectresultaten De meeste projecten Onderzoeksresultaten Vastgelegd in rapporten en artikelen Taalbronresultaten Data Tools Protocollen Documentatie Focus hier op taalbronresultaten

Licenties Niet-commercieel d.w.z. niet-commercieel gebruik in instellingen zonder winstoogmerk licenties gratis Commercieel gebruik: licenties marktconform, meestal niet gratis meestal lumpsum model soms royalty model Voor allen: soms distributiekosten

Autonomata Automata for deriving phoneme transcriptions of Dutch and Flemish names Resultaten op hoofdlijnen G2p, p2p s en (training)tools Namencorpus (manueel geverifieerd) Rapporten en documentatie

Autonomata - beschikbaarheid Resultaten overhandigd aan de TST-Centrale in augustus 2007 Overdracht nog te bekrachtigen Software Niet-commercieel: geen licentiekosten Commercieel: via royaltymodel Vaak licentie op Nuance G2P nodig (voor iedereen) Beschikbaar via TST-Centrale na formele projectafronding

COREA Coreference Resolution for Extracting Answers Resultaten op hoofdlijnen Annotatieprotocol en software Corpus 50% meer dan gepland visualisatietools Software voor coreferentieresolutie Rapporten en documentatie

COREA - beschikbaarheid Resultaten opgeleverd eind 2007 Coreferentiesoftware online Als demo File-upload service (nu nog alleen intern) Overleg over overdracht in finale fase Niet-commercieel: gratis licentie Commercieel: Bescheiden kost voor het corpus Bevat Medische Winkler Prins Spectrum vraagt hier een vergoeding voor Beschikbaar via TST-Centrale na formele projectafronding

D-Coi Dutch Language Corpus Initiative Resultaten op hoofdlijnen Rapporten over corpus design, sampling en metadata; Basisformaten en validatietools Corpus-induced Corpus Clean-up Protocollen + tools voor POS-tagging en lemmatisering Syntactische annotatie Semantische annotatie (verkennend; incl. data) Pilot corpus (50+MW) incl. documentatie Automatische POS-tagging, lemmatisering, parsing Gedeeltelijk handmatig gevalideerd (500k/500k/200k) COREX: extensie van exploitatiesoftware en documentatie

D-Coi beschikbaarheid Resultaten begin 2007 in STEVIN-wiki Corpus en COREX in juni 2008 naar TST- Centrale Laatste activiteiten voor overdracht lopen (IPR, data/software) Beschikbaar via TST-Centrale na formele projectafronding

IRME Identification and Representation of Multiword Expressions Resultaten op hoofdlijnen (eindrapport) Meerwoordlexicon (DuELME) Met meer informatie dan in oorspronkelijke plan Gevalideerd door CST DuELME GUI (extra) Rapporten, documentatie en tools

IRME - beschikbaarheid Resultaten eind 2007 in STEVIN-wiki Overleg over overdracht afgerond Beschikbaar via TST-Centrale na formele projectafronding

JASMIN-CGN Jongeren, Anderstaligen, Senioren en Machine Interactie voor het Nederlands Resultaten op hoofdlijnen Spraakcorpus Opnames, orthografische transcriptie, automatische fonetische transcriptie, uitspraaklexicon, POS-tagging en lemmatisering Gevalideerd door BAS Opnameplatform Protocollen en documentatie

JASMIN-CGN - beschikbaarheid Resultaten in augustus 2008 naar TST- Centrale en STEVIN-wiki Overleg over overdracht in finale fase Beschikbaar via TST-Centrale na formele projectafronding

SPRAAK Speech Processing, Recognition & Automatic Annotation Kit (SPRAAK) Resultaten op hoofdlijnen Modulair opgebouwde state-of-the-art spraakherkenner voor het Nederlands Demoherkenners (voor proof-of-concept ) Documentatie en rapporten

SPRAAK - beschikbaarheid Stand van zaken SPRAAK(-broncode) via K.U. Leuven SPRAAK-fund waarborgt beheer en verdere (door)ontwikkeling Overleg over overdracht afgerond Na formele afronding beschikbaar Niet-commercieel: gratis Commercieel: bescheiden kost

CORNETTO Combinatorial and Relational Network as Toolkit for Dutch Language Technology Resultaten op hoofdlijnen Lexicaal-semantische databank voor het Nederlands Rapporten, documentatie en tools

CORNETTO - beschikbaarheid Tussenresultaten beschikbaar gesteld Licenties hiervoor reeds verkrijgbaar Na formele afronding volledige CORNETTO beschikbaar Niet-commercieel: gratis licentie Commercieel: bescheiden kost Bevat Van Dale data (uit Nederlandse WordNet) Van Dale vraagt hier een vergoeding voor

Conclusies De genoemde projecten hebben veel interessante resultaten opgeleverd bieden vele nieuwe mogelijkheden voor onderzoek en ontwikkeling De meeste resultaten zijn af De overdracht is in een vergevorderd stadium en in veel gevallen afgerond Binnenkort zijn alle resultaten verkrijgbaar via de TST-Centrale