NVA najaarsvergadering De bijdrage van tekst uit een automatische spraakherkenner aan het verstaan van spraak in ruis

NVA najaarsvergadering 2006 De bijdrage van tekst uit een automatische spraakherkenner aan het verstaan van spraak in ruis Adriana Zekveld, Sophia Kramer, Judith Kessens (TNO), Marcel Vlaming, Joost Festen, Tammo Houtgast VU medisch centrum, Amsterdam

Ontwikkeling van visueel hulpmiddel voor slechthorenden HearCom: mobiele telefoon met automatische spraakherkenner (Automatic Speech Recognition, ASR) ASR: fouten en vertraging Zijn slechthorenden in staat de onbetrouwbare visuele informatie te gebruiken voor het verbeteren van het spraakverstaan?

Opbouw presentatie - Onderzoek 1: Combineren van systematisch gemaskeerde tekst en spraak-in-ruis - Onderzoek 2: Profijt van tekst, afkomstig uit een automatische spraakherkenner, bij het verstaan van spraak in ruis

Onderzoek 1: combineren spraak-in-ruis en gemaskeerde teks Sytematisch gemaskeerde tekst (Text Reception Threshold test*) Spraak-in-ruis (Speech Reception Threshold test)? Combineren? * The development of the Text Reception Test: A visual analogue of the Speech Reception Threshold test. (2006) Zekveld, George, Kramer, Goverts, Houtgast. Submitted

Onderzoek 1: combineren spraak-in-ruis en gemaskeerde teks Test Stimulus Meting TRT Gemaskeerde tekst (adaptief) Leesvaardigheid (50%-drempel) SRT Spraak in ruis (adaptief) Spraakverstaan (50%-drempel) SRT+ tekst Spraak in ruis (adaptief) + gemaskeerde tekst (niet adaptief) Spraakverstaan mét visuele informatie (50%-drempel) Verschil audiovisuele en auditieve SRT: profijt van de visuele informatie * Audiovisual integration of speech in noise and masked written text. (2006). Zekveld, Kramer, Vlaming, Houtgast. Submitted.

Onderzoek 1: combineren spraak-in-ruis en gemaskeerde teks Resultaten: Leesbaarheid van de tekst (% zinnen correct gelezen) Verbetering van SRT (db SNR) 0-2 -4-6 -8-10 Veel maskering Weinig maskering 0 5 10 15 20 25 30 35 40-12 Tekst gemaskeerd met verticaal balkenpatroon Tekst gemaskeerd met stippen Als bijvoorbeeld ±25%van de zinnen leesbaar is, levert deze tekst ±7 db SNRwinst op tijdens de SRT test

Onderzoek 1: combineren spraak-in-ruis en gemaskeerde teks Conclusie: Proefpersonen zijn in staat om incomplete visuele informatie te combineren met het verstaan van spraak in achtergrondruis Onderzoek 2: Kunnen proefpersonen ook tekst van een automatische spraakherkenner combineren met het verstaan van spraak in ruis?

Onderzoek 2: combineren spraak-in-ruis en tekst uit spraakherkenner Drie deelonderzoeken: 1 ASR-woorden of ASR-fonemen? 2 3 Woorden mét of zónder indicatie van de ASRbetrouwbaarheid Effect van vertragen van tekst ten opzichte van spraak Alle 3 Effect van het aantal spraakherkennings-fouten

Onderzoek 2: combineren spraak-in-ruis en tekst uit spraakherkenner Deelonderzoek Stimulus ( Je ziet dat het bijna lente is ) 1 2 3 Visuele presentatie automatisch herkende woorden tegelijk óf na de spraak. (Interval: 0, 2, 4, of 6 seconden)

Onderzoek 2: combineren spraak-in-ruis en tekst uit spraakherkenner Leesbaarheid van de tekst (% zinnen correct gelezen) 4,0 2,0 0 10 20 30 40 50 Veel fouten in tekst Weinig fouten in tekst Gemiddelde verbetering in SRT (db SNR) 0,0-2,0-4,0-6,0-8,0-10,0-12,0 Woorden Fonemen - Dezelfde leesbaarheid: ± hetzelfde profijt - Leesbaarheid woorden > leesbaarheid fonemen

Onderzoek 2: combineren spraak-in-ruis en tekst uit spraakherkenner Gemiddelde verbetering in SRT (db SNR) Leesbaarheid van de tekst (% zinnen correct gelezen) 0 5 10 15 20 25 30 35 40 45 50 2,0 Veel fouten Weinig fouten 0,0-2,0-4,0-6,0-8,0-10,0-12,0-14,0 Geen info betrouwbaarheid Wel info betrouwbaarheid Weergeven van de ASR-betrouwbaarheid? Nee, geen effect op leesbaarheid van de tekst of het profijt van de tekst

Onderzoek 2: combineren spraak-in-ruis en tekst uit spraakherkenner Resultaten: effect van het vertragen van de tekst? Vertraging van de tekst ten opzichte van de spraak (s) 2 0 2 4 6 Verbetering in SRT (db SNR) 1 0-1 -2-3 -4-5 -6-7 veel spraakherkenningsfouten (~63%) gemiddeld aantal spraakherkenningsfouten (~45%) weinig spraakherkenningsfouten (~36%) Matig effect van het vertragen van de tekst op het profijt van de tekst tijdens de SRT test (tot ca. 4 seconden).

Conclusies - Kwaliteit tekst leesbaarheid & profijt - Woorden > fonemen - Weergeven van de betrouwbaarheid van spraakherkenner: nee - Vertragen van de tekst: SRT-winst