riaditeľ ing. ladislav hluchý, csc. paralelného a distribuovaného spracovania informácií
DESCRIPTION
Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií Ing. L. Hluchý, CSc. Modelovanie a riadenie diskrétnych systémov Ing. Ivana Budinská Návrh a testovanie číslicových systémov M. Fischerová Elektrónová litografia RNDr. I. Kostič - PowerPoint PPT PresentationTRANSCRIPT
Riaditeľ Ing. Ladislav Hluchý, CSc.
Paralelného a distribuovaného spracovania informácií
Ing. L. Hluchý, CSc.Modelovanie a riadenie diskrétnych systémov
Ing. Ivana BudinskáNávrh a testovanie číslicových systémov
M. FischerováElektrónová litografia
RNDr. I. KostičNumerické metódy a algoritmy
Doc. RNDr. L. Halada, CSc.Spracovanie reči
Ing. M. RuskoSenzorické systémy
Ing. Š. Havlík, DrSc.
Speech databasesfor basic research, for training & testing of ASR and TTS
Speech recognition server
Telephone server
Speech synthesis server
Voice operated information systemsteleservices
Speech synthesis (TTS)
Text to speech, telephone applications, tools for the blind
Syntéza reči
Súčasný stav:„Unit selection“
syntetizátor s modelovaním prozódie pomocou CART stromov
Ukážka: Kempelen 2.1
S p e e c h D B5 0 0 pho ne tic al ly
balanc e d s e nte nc e s
A u to m a ticH M M la b e lle r
P ro s o d y m o d e lsb u ild ing
a b
c d
. . .
C A R T s U nit s e le c tio n
U nit c o nc a te na tio n
P ho ne tictra ns c rip tio n
T E X T
S P E E C H
syn th esisa n a lysis
Model tvorby reči
na princípe Zdroj - Filter
HMM syntéza - Motivácia
• Jeden z hlavných problémov korpusovej syntézy reči je „data sparsity“. Syntéza je veľmi kvalitná ak syntetizované jednotky majú pokrytie v korpuse, a naopak podstatne horšia ak požadované jednotky korpus neobsahuje. Inými slovami, problémom je generalizovanie „unseen data“.
• ASR založené na HMM-GMM majú práve túto vlastnosť generalizovania výborne rozpracovanú v tréningu AMs.
HMM syntéza používa natrénované AMs modely a reč generuje priamo z nich
HMMs modelujú spektrum a navyše - čo nie je v ASR – aj F0.
Výhody a nevýhody HMM syntézy
• Úplný model reči má veľkosť do 1MB, na rozdiel od korpusovej syntézy, ktorá má x100MB
• Kontextuálne zhlukovanie (ako v ASR) je oveľa flexibilnejšie ako výber jednotiek
• Výborný framework pre modifikáciu a konverziu hlasov (možno meniť kvalitu hlasu!)
• Dobrá plynulosť generovanej reči, ale stále nízka kvalita reči (reč zneje stále roboticky)
Dramatic Piece Reader (DRAPER)
Architecture of Draper
Automatic speech recognition (ASR)
Speech to text, dictation, media monitoring
Speech recognition schematic diagram
Automatický prepis diktátu pre MSSR (APD)
• Objednávka MSSR na vytvorenie softvéru na automatické prepisovanie diktátu do textu (napríklad diktovanie súdnych rozhodnutí sudcami)
Systém vykonáva:
– On-line prepis reči (Diktačný systém)
– Off-line prepis z diktafónových nahrávok reči
Ďakujeme za pozornosť
Oddelenie analýzy a syntézy rečiUI SAV