aimeetup #2: jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call...
TRANSCRIPT
Bartosz ZiółkoJak wykorzystaliśmy technologie rozpoznawania
mowy i mówcy do automatyzacji call centre.
www.techmo.pl www.dsp.agh.edu.pl
2
• Automatic speech recognition
• Speaker verification, identification and
profiling
• Speech synthesis
• Natural language processing
• VR sound simmulation
3
Speech recognition
Deep Neural Networks
4
5
Speech recognition
Fast
Accurate
Reliable
Easily integratable• GRPC • MRCP v2• Propietary protocol• C++ / Java clients
Industry standards• SRGS• Semantic Interpretation
Case #Words Speedup
Numbers 1000 7,7x / core
Streets 1300 5,5x / core
Towns 265 6,7x / core
Commands 50 26,5x / core
Case Samples Rate
Numbers 5600 98,4%
Streets 12000 99,1%
Towns 500 99,2%
Commands 4900 98,5%
[M. Ziółko, J. Gałka, B. Ziółko, T. Jadczyk, D. Skurzok, M. Mąsior, ”Automatic Speech Recognition System Dedicated for Polish, Interspeech 2011, Florence]
[B. Ziółko, T. Jadczyk, D. Skurzok, P. Żelasko, J. Gałka, T. Pędzimąz, I. Gawlik, S. Pałka "SARMATA 2.0 Automatic Polish Language Speech Recognition System", Interspeech, Dresden, 2015]
Recent and undergoing applications
6
Automatic system for
reporting failures by
customers
Automatic
infoline
Time alignment of film
transcripts for
audiodescription research
IVR + ASR
7
Example of a hypothesis without a grammar
9
[A system and a method for providing a dialog with a user, B. Ziółko, T. Pędzimąż (patent in USA, and applications in Canada, Japan & EPO)]
Quasi free dialogs in a game
10
a - graph structure of simple dialogue scenario ; b - schematic (two
dialogue coefficients a and b) representation of a multidimensional map of
possible dialogue transitions in a particular graph node with 3 possible exits.
Transitions map demonstrates simplified 2 dimensional case (in real
applications tens or hundreds of dimensions are needed). The marked fields
3, 6, 7 determine the transition in the dialogue graph.
11
Speaker verification,
identification and
profiling
Voice biometrics
convenience
price
Recording Matching Decision
Voiceprint database
YES NO
Speaker verification
System supporting speaker identification in emergency call center
[J. Gałka, J. Grzybowska, M. Igras, P. Jaciow, K. Wajda, M. Witkowski and M. Ziołko, "System supporting speaker identification in emergency call center", Interspeech, Dresden, 2015]
Application for:
Zastosowania
• Biometryczne systemy bezpieczeństwa
– Zalety w porównaniu do innych systemów
• Nieskończona ilość materiału do analizy (więcej nagrań – większa dokładność)
• Wymagany jedynie tani sprzęt
• Niewymagana obecność (zdalne rozpoznanie)
• Bezpieczeństwo
Zastosowania
• Biometryczne systemy bezpieczeństwa• Przez telefon
– Transakcje bankowe
» Zmniejszenie strat powiązanych z defraudacjami
» Zmniejszenie kosztów prewencji defraudacji
» Zwiększenie przychodu w związku ze wzrostem satysfakcji klientów
– Poczta głosowa
– Zakupy przez telefon
– Głosowe interaktywne systemy odpowiadające
Zastosowania
systemy bezpieczeństwa
Odzyskiwanie hasła przez telefon
30 do 40 % telefonów do obsługi klienta to problemy z hasłem
Telephony system
Authentication
centreTarget system
Password Reset
SR
USER
Zastosowanie
– Monitoring
• Kontrola zdalnej pracy i obecności pracowników
• Weryfikacja zwolnień warunkowych i aresztów domowych
• Gmina Iberville w LA (US) używa identyfikacji mówcy przez telefon dla osób objętych opieką kuratora
–Przed automatyzacją -> 1400 $/dziecko
–Po -> 193 $/dziecko
• Użycie telefonów więziennych
Zastosowania
• Wsparcie służb– W kryminalistyce– Rozpoznawanie mówców na żywo w identyfikacji osób
dzwoniących
• Śledzenie mówcy, wykrywanie i nadzór• Analiza mowy syntezowanej i modulowanej• Cechy głosu są trudniejsze do ukrycia niż twarz
Zastosowania
• Rozpoznawanie mowy i mówcy– Ulepszenie systemów bezpieczeństwa– Transkrybowanie wielu mówców na raz w
konwersacji- Rozprawy sądowe, parlamenty i inne
transkrypcje spotkań
Czy biometria głosowa jest atrakcyjna?
21
5 18 23 36 18
zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna
23% nieatrakcyjnaDlaczego?
11
12
28
41
nie ufam jej
jest
dziwna/śmieszna
łatwo nagrać mój
głos
głos może uleć
modyfikacji np.…
12
26
35
42
innowacyjna
łatwa w użyciu
bezpieczna
komfortowa
54% atrakcyjna
Źródło: di.com.pl
Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w
listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.
Czy biometria głosowa jest atrakcyjna?
22
5 18 23 36 18
zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna
23% nieatrakcyjnaDlaczego?
11
12
28
41
nie ufam jej
jest
dziwna/śmieszna
łatwo nagrać mój
głos
głos może uleć
modyfikacji np.…
12
26
35
42
innowacyjna
łatwa w użyciu
bezpieczna
komfortowa
54% atrakcyjna
Źródło: di.com.pl
Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w
listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.
Czy biometria głosowa jest atrakcyjna?
23
5 18 23 36 18
zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna
23% nieatrakcyjnaDlaczego?
11
12
28
41
nie ufam jej
jest
dziwna/śmieszna
łatwo nagrać mój
głos
głos może uleć
modyfikacji np.…
12
26
35
42
innowacyjna
łatwa w użyciu
bezpieczna
komfortowa
54% atrakcyjna
Źródło: di.com.pl
Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w
listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.
nawyki
• Zamknięty/ otwarty zbiór
• Weryfikacja / Identyfikacja
• Zależne (stałe lub zmienne) lub niezależne od tekstu
• Cechy niskiego poziomu (akustyczne) lub wysokiego (lingwistyczne, dialektowe, społeczne, itd.)
Klasyfikacja
System z zamkniętym zbiorem System ze zbiorem otwartymPoza bazą danych
Narzucone
błędne
rozpoznanie
Baza danych Baza danych
Tak
Nie
Mówca NNowak ?
Baza danych Baza danych
„nie pasuje
do
żadnego”
? ?
? ?
Poziomy rozpoznawania mówcy
Semantyka, dykcja,
wymowa
Status społeczno-finansowy, edukacja,
miejsce urodzin
Prozodia, rytm, tempo intonacji, modulacja
głośności
Typ osobowości,
wpływ rodziców
Akustyczne aspekty mowy
Anatomiczna struktura narządów
mowy
Cechy
wysokiego
poziomu
(nieakustyczne)
Cechy
niskiego
poziomu
(fizyczne)
Trudna
ekstrakcja
Łatwa
ekstrakcja
Playback detection
26
[J. Gałka, M. Grzywacz, R. Samborski Playback attackdetection for text-dependent speaker verification over telephonechannels, Speech Communication, vol. 67, pp. 143-153]
Patent pending
Playback attack detection
27
[J. Gałka, M. Grzywacz, R. Samborski Playback attackdetection for text-dependent speaker verification overtelephone channels, Speech Communication, IF, vol. 67, pp. 143-153]
Demo
• ASR
– Taxi: 12 333 76 12
• Biometry
– VoiceColor: 12 312 25 96
• TTS – techmo.pl/tts
• Soundtracer
– https://www.youtube.com/watch?v=EWatzCC7rk0
– https://www.youtube.com/watch?v=05EL5SumE_E
28
2929
DSP AGH Group and Techmo