Achtergrond Spraakherkenning De uitdaging van spraakherkenning



Vergelijkbare documenten
Datamining met spraakanalyse

Door: Dàzz Hityahubessy (3/4/6) Edyta Gil (deel 1/2/5/) Technologie verslag Spraakherkenning

Ontsluiten van gesproken documenten. Arjan van Hessen

INNOVATIES BIJ TELEFONISCH BANKIEREN VAN ABN AMRO. Richard Molenaar Programma Manager ABN AMRO 22 november 2007, Amsterdam

Oefencase Gupta Strategists

Samenvatting Brancherapport 2010.

Alles onder de knie? 1 Herhalen. Intro. Met de docent. 1 Werk samen. Lees het begin van de gesprekjes. Maak samen de gesprekjes af.

Registratie Data Verslaglegging

VSO leerlijn Engels (uitstroom arbeid)

Documenten scannen met OCR

Whitepaper TELECOM >

Stop-motion Animatie

Naast kwaliteit, kijken we ook altijd naar kosten. Arjan Dogterom Head of IT. Vast Mobiel VastMobiel

2001/2002 SPREKEN. Voorbeeldexamen Tijdsduur ± 30 minuten. Opgavenboekje. Examennummer kandidaat: Aanwijzingen. Staatsexamen Nederlands

VERLENGEN KOPEN RUILEN BETALEN

2.4 Tekstopbouw In deze paragraaf oefen je in het schrijven van een tekst met een indeling in inleiding, kern en slot.

Het opstellen van een lineaire formule.

Al sinds de oprichting is VentureBuilders een

Ontdek de Bibliotheek. Ontdek de Bibliotheek. Ontdek de Bibliotheek

Educatief Professioneel (EDUP) - C1

WETENSCHAPPELIJK ONDERZOEK. Wat is dat? Eva van de Sande. Radboud Universiteit Nijmegen

Strategic Decisions Monitor

Hoe maak je een HDR-foto?

ZIGGO GAMED! Tijdens het Marketing & Insights Event (MIE) hebben Nicole Verhoeven (Customer. Hufen (Consultant & Concept Developer

Dat heb ik helemaal niet gezegd! De prestaties van de spraakherkenner. Helmer Strik

100% Not Provided: Zo ga je ermee om!

Spreken. Les 6: Wat zeg je? Telefoon OPDRACHTKAART.

Thema Op zoek naar werk. Lesbrief 8. Praten en bellen over een baantje

Joost Verberk, Business Consultant en oud-trainee

Project Verwenmorgen voor ouderen organiseren Groepen van 5 leerlingen Totaal: 560 minuten

Website Performance Rapport 2013: E-COMMERCE

Workshop voorbereiden Authentieke instructiemodel

Les 3. Familie, vrienden en buurtgenoten

Checklist Gesprek voeren 2F - handleiding

Spreekvaardigheidstraining met behulp van Automatische Spraak-Herkenning (ASH)

Wat kan ik voor u doen?

Onderzoek De keuzes in een keuzemenu

Ria Massy. De taart van Tamid

Hoofdstuk 16 - Vreemde talen ondersteunen

INSTITUUT VOOR DEELTIJD HTO

ZEG HET MAAR HET PRATEN VAN UW KIND. Leeftijd 0 tot 4 jaar

Lesbrief nummer 29 juni 2016

Poolcoördinaten (kort)

De zin en onzin van de nieuwe features in Analytics

TELEFONEREN NAAR DE BIBLIOTHEEK

Bijlage interview meisje

Spreken. Les 3: Wat zeg je? De supermarkt OPDRACHTKAART.

CONCEPT. Tussendoelen Engels onderbouw vo havo/vwo

Niveaus van het Europees Referentiekader (ERK)

Thuiswerken. Customer Contact Center Carglass

Getallen 1 is een programma voor het aanleren van de basis rekenvaardigheden (getalbegrip).

Contact Center Kit. Slim en efficiënt selecteren 82% meer zekerheid over prestaties Agents selecteren die > 6 mnd. blijven

Hoe bouw ik een goede website?

DIGITAAL DICTEREN, SPRAAKHERKENNING & WORKFLOW MANAGEMENT VOOR ZORGPROFESSIONALS

Personiceren van stemmen met Deep Learning

Educatief Professioneel (EDUP) - C1

Haal meer uit je website

10 onderdelen die niet mogen ontbreken in een online briefing

WHITEPAPER Sentiment Analyse

Trendrapport. Channel convergence en de nieuwe medewerker. case 13

13. De leerling leert strategieën te gebruiken bij het verwerven van informatie uit gesproken en geschreven Engelstalige teksten.

17 valkuilen die je moet vermijden bij telefonische acquisitie

DieDrie. Lesbrief bij de voorstelling Zeg het met muziek

Call Tracking. Slimme marketingbeslissingen maakt u op basis van complete data. AdCalls

Sociale media in Nederland Door: Newcom Research & Consultancy

Dit stappenplan is ingevuld door:

Tentamen Spraakherkenning en -synthese

Thema Op zoek naar werk

taal portfolio Taalportfolio 9+

Checklist Presentatie geven 2F - handleiding

GESPREKKEN VOEREN NEDERLANDS AAN HET EINDE VAN DEZE UITLEG:

Een business case voor credit management software

Facebookadvertenties zorgen voor meer bekendheid PDS en PDSB

Strategieles Samenvatten niveau B

Whitepaper Integratie Videoconferentie. Integreer bestaande UC oplossingen met Skype for Business

VOLLEDIGE INSTRUCTIES LEESVAARDIGHEID

PROJECT 2014 FLL WORLD CLASS SM

* Kleuters uitdagen werkt!

CP9. In gesprek over de toekomst

Klantonderzoek: statistiek!

Workshop Handleiding. Verhalen schrijven. wat is jouw talent?

Vooruitkijken. Hoofdstuk 2 - Oefening 23 - Extra schrijfoefeningen

Waarde-volle zorg is ook nog JONG!

Wij willen u vragen niet vooruit te gaan werken/oefenen. Er kan dan verwarring ontstaan bij het kind. Wij willen dit graag voorkomen!

D.1 Motiveren en inspireren van leerlingen

Ik ben Sim-kaart. Mobiel bellen groep 5-6. De Simkaart is een meisje, tikkeltje ondeugend en een echte kletsgraag. Aangeboden door

Overtuigend en Ontspannen Presenteren

Trillingen en geluid wiskundig. 1 De sinus van een hoek 2 Uitwijking van een trilling berekenen 3 Macht en logaritme 4 Geluidsniveau en amplitude

Thema Gezondheid. Lesbrief 2. De wachtkamer

Tussendoelen Engels onderbouw vo havo/vwo

LESBRIEF. Laat uw leerlingen 10 minuten lezen in 7Days. Uw leerlingen mogen zelf weten welke artikelen ze deze 10 minuten lezen.

1. Je gaat zo meteen een tekst lezen. Tijdens het lezen ga je vragen stellen. Lees eerst de uitleg.

taal in veenendaal verbeter je nederlands Hollandaca ögrenmek istiyorsaniz Wanaaji Holandeeskaaga

2. (regulier vraag 3) 10-6 vergeten bij opzoeken ρ: eerste bolletje weg. bij werken met de dichtheid kan de berekening nog wel worden gecompleteerd.

Praktijkinstructie Tekstverwerking 1 (CSE12.1/CREBO:53139)

GemeenteConnect in a nutshell

Jezus vertelt, dat God onze Vader is

Opnemen in jaarplan voorstel

driehoeks- en vierkantsgetallen

LEREN LEZEN MET DE DAVIS LEERSTRATEGIE.

Transcriptie:

Achtergrond Spraakherkenning is het herkennen van menselijke spraak door een computer. Al tweehonderd jaar lang proberen wetenschappers een computer spraak naar tekst te laten omzetten. De technieken voor spraakherkenning blijven zich ontwikkelen en daarmee ook de toepassingen. Trendwatchers verwachten veel van spraakherkenning toegepast in call centers en van spraakherkenning op mobiele telefoons. Spraakherkenning heeft zich nog niet helemaal ontwikkeld tot een, niet meer weg te denken, techniek. Maar elke ontwikkeling, vooruitgang en toepassing zorgt voor veel publicaties. Spraakherkenning moet ten slotte het aansturingsysteem worden voor devices in de toekomst. Spraakherkenning Spraak bestaat uit klanken. Als we spreken brengen we lucht tot trilling. Spraakherkenningssoftware breekt deze golven op in kleine fragmenten. Van ieder fragment wordt de frequentie en de amplitude gemeten. Aan de hand daarvan wordt de klank bepaald. Verschillende klanken worden daarna gegroepeerd tot woorden. De uitdaging van spraakherkenning Wij praten niet in woorden, we stoten een continue stroom aan klanken uit, zonder spaties of leestekens. Het is het menselijk begrip dat klanken groepeert tot woorden, woorden tot zinnen groepeert en vervolgens chocola maakt van de bedoeling van die zinnen.

De oplossing: Hidden Markov Model Eind jaren 60 introduceerde Markov het model dat nu bekend staat als het hidden Markov Model. Dit wiskundige model komt erop neer dat je kunt voorspellen wat je hoort als je weet wat er aan vooraf ging. Sommige klanken hebben meer kans te volgen op andere klanken en sommige woorden hebben meer kans om te volgen op andere woorden. Om dit in de praktijk te brengen hebben wetenschappers enorme hoeveelheden geschreven tekst ingeladen in computers. Duizenden dagbladen en boeken zijn ingeladen. Hierop volgen complexe kansberekeningen: welke klank is de meest waarschijnlijke, gegeven de voorgaande klank?, welk woord is het meest waarschijnlijke, gegeven het woord dat eraan vooraf ging? Technologische ontwikkelingen sindsdien Eigenlijk valt dat nogal tegen. Het is met name toegenomen rekencapaciteit die spraakherkenning mogelijk heeft gemaakt. Om het hidden Markov model in de praktijk toe te passen moeten er veel complexe berekeningen snel gemaakt worden. Iedere klank moet niet alleen geanalyseerd worden: het moet vergeleken worden met de klank die eraan vooraf ging. Van iedere groep klanken moet daarna het juiste woord gevormd worden. Ook hier zijn er vele mogelijkheden. Neem het volgende voorbeeld: morgen wordt het lekker weer morgen wordt het lekker heer Qua klanken zijn deze twee zinnen nauwelijks te onderscheiden. Het is de kansberekening van Markov die het woord weer voorrang geeft aan het woord heer. Het is rekensnelheid die ervoor zorgt dat het antwoord geen twee weken op zich laat wachten Toepassingen Spraakherkenning biedt enorme voordelen, maar kent beperkingen Om hier mee om te gaan zijn er meerdere oplossingen ontwikkeld. Die vallen in drie categorieën: 1. Herkennen van commando s: veel gebruikers / beperkt woordenboek Waarschijnlijk de meest voorkomende vorm van spraakherkenning. Beperk het aantal woorden dat je kunt opgeven en de kans dat het systeem het juiste woord selecteert neemt dramatisch toe. Voorbeelden zijn de mobiele telefoon waar je inspreekt wie je wilt bellen of het navigatiesysteem dat gesproken plaatsnamen herkent.

2. Dictafoon: weinig gebruikers / groot woordenboek De dictafoon is aan een opmars bezig. Als de spreker duidelijk articuleert is de herkenning redelijk accuraat. De prestaties worden aanzienlijk verhoogd door het systeem te kalibreren: door het inlezen van voor gedefinieerde teksten leert de computer je exacte uitspraak en past zich daarop aan. 3. Contextmodel In specifieke domeinen komen sommige woorden en uitdrukkingen vaker voor. In een rechtbank zal het woord verdachte relatief vaak voorkomen. In een operatiekamer het woord incisie. Met veel geld en geduld is het mogelijk om het algemene woordenboek en algoritmes aan te passen aan de context van de opdrachtgever. Een bekende variant hiervan wordt gebruikt in call centers. De spraakherkenner herkent de vraag van de beller en leidt het gesprek naar de juiste agent. De reden dat dit werkt is dat klanten per opdrachtgever- maar een beperkt aantal vragen stellen. Wanneer werkt spraakherkenning wel / niet Spraak is niet hetzelfde als gesproken tekst, op dezelfde manier als de vijfde symfonie van Beethoven niet hetzelfde is als een serie noten op papier. Mensen begrijpen woorden, uitdrukkingen en zinnen met duidelijke afbakeningen. Terwijl we feitelijk een continue stroom van geluiden produceren. Gistereuhgingiknadewinkel in plaats van gisteren ging ik naar de winkel. Ook cynisme is een vorm van menselijk begrip: dat gaat wel lekker met jullie hé? zijn positieve woorden die vanwege de uitspraak en context door mensen als negatief begrepen worden, iets wat een computer (nog) niet kan. De kwaliteit van spraaktechnologie bestaat uit het percentage woorden dat correct herkend wordt (word error rate) en de snelheid waarmee dit gebeurt (de realtime factor). Spraakherkenning is nog lang niet zo accuraat als we hopen. Als de spreker een dialect, of zelfs maar een verkoudheid heeft, daalt het herkenningspercentage al snel. Bovendien kan de spraakherkenner zich vergissen in alternatieven. contract klinkt als omdat en zaterdag heeft vergelijkbare klanken als ja, het mag. Hoe minder alternatieven waaruit gekozen kan worden, des te beter de herkenning. De 10 getallen nul tot en met negen zullen perfect herkend worden. Als het woordenboek 5000, 10.000 of 1.000.000 woorden moet herkennen loopt de fout marge snel op. Tot slot kan de spraaktechnologie problemen hebben met omgevingsgeluiden: hoe stiller de omgeving, hoe beter de herkenning. Spraakherkenning is nooit foutloos. In de praktijk varieert de fout marge (word error rate) tussen de 5% en de 70% foutief-herkende woorden.

Spraakherkenning in het call center Bij call centers leeft er grote belangstelling voor deze technologie. The national association of call centers peilde de mening onder contact centers in de VS: Voice of the customer (VoC) analytics is de belangrijkste trend in de Amerikaanse call center industrie. 24% gaat de mogelijkheden van spraakherkenning onderzoeken; 23% wil investeren in software voor klantonderzoek en 13% evalueert tekst analyse tools voor eventuele aanschaf. Als voordelen werden genoemd: Innovatief imago Inzicht in klantmotieven/klant behoud Kostenbesparing Echter Een call center is misschien wel de slechtst denkbare omgeving om spraak naar tekst op toe te passen. In een call center heerst spreektaal. Mensen spreken niet vanaf een script maar bedenken al pratende wat ze gaan zeggen. Als je een dictafoon inspreekt articuleer je doorgaans goed: Gisteren heb ik dat product besteld In een gesprek verhaspelen we woorden, zeggen we vaak euh en stotteren we: Gisten..euh.. heb ik.. euh..dat dat product besteld Omdat we geen spaties laten vallen tussen de woorden, klinkt dat als: Gisteneuhhebbikeudatdatproductbesteld Hier valt geen chocola meer van te maken. Wat ook niet helpt is de hoge mate van ruis of het feit dat call centers vaak landelijk werken waardoor alle denkbare accenten voorkomen. Ook wachtrijmuziek of de pieptoon bij doorverbinden zorgen voor verwarring. Ten slotte doet crosstalk een accurate herkenning de das om: twee sprekers die elkaar halverwege een zin of woord in de rede vallen. Dit is precies de reden dat spraakherkenning nog niet grootschalig wordt toegepast in call centers, ondanks de vele voordelen. CustomerPulse Sinds haar oprichting heeft CustomerPulse zich toegelegd op spraakherkenning, specifiek gericht op call centers. Ons doel is om met behulp van technologie snel en effectief klantmeningen te vinden en te presenteren rondom vragen die in een organisatie spelen. We hebben gekozen voor de bellende klant omdat deze uit eigen beweging belt zelf de vraag of het probleem kiest. Al deze vragen en meningen echter liggen besloten in duizenden telefoongesprekken die over hele andere zaken gaan en worden daarom nu grotendeels genegeerd. Dat is zonde.

We gebruiken technologie om de schat aan kennis die opgesloten ligt in alle telefoongesprekken te ontsluiten. De methodiek die we ontwikkeld classificeert gesprekken naar thema op basis van woorden. Neem als voorbeeld het thema betalen, of waarom krijgen we zoveel vragen over de factuur?. Er zijn meerdere woorden die in een dergelijk gesprek zullen voorkomen zoals factuur, nota of rekeningnummer. De spraakherkenner analyseert duizenden gesprekken op deze woorden. Hoe vaker een dergelijk woord in één gesprek wordt gevonden, des te waarschijnlijker is het dat dat gesprek over betalen gaat. Door letterlijk duizenden gesprekken te analyseren heeft CustomerPulse inmiddels een bibliotheek van 10.000 woorden. Dit zijn woorden die daadwerkelijk in gesprekken worden uitgesproken en waarvan we weten dat ze goed herkend worden. Met deze woorden, en bijbehorende algoritmes, zijn we in staat om klantmeningen op ca. 100 thema s te filteren. De technologie doet haar werk en het resultaat is een lijst met geluidsfragmenten waarin de klant in eigen bewoordingen- uitlegt wat er niet duidelijk is aan de factuur.