gépi bes zédfelismerés
DESCRIPTION
Gépi bes zédfelismerés. Vicsi Klára BME Távközlési és Médiainformatikai Tanszék [email protected]. BME TMIT. Általánosságban a beszédtudomány célja: - PowerPoint PPT PresentationTRANSCRIPT
Gépi beszédfelismerés
Vicsi KláraBME Távközlési és Médiainformatikai Tanszék
BME TMIT
BME TMIT
Általánosságban a beszédtudomány célja:a beszédkommunikáció körfolyamatának komplex leírása, a beszélő gondolatának nyelvi megfogalmazásától kezdve a beszédprodukción át, a létrejött beszéd akusztikai leírásán keresztül, a hallgató beszédpercepciós folyamatain át, a nyelvi tudása alapján a közölni szándékozott gondolat megértéséig.
BME TMIT
Beszéd-Beszéd-szintézisszintézis
A beszéd számítógépes feldolgozásánál (beszédtechnológiában) e körfolyamat egyes funkcióit ellátó egységek mesterséges eszközökkel való kiváltása történik. Az egyik fő célja az ember-gép közötti párbeszéd lehetővé tétele.
Beszéd-Beszéd-felismerésfelismerés
BME TMIT
Egy tipikus automatizált beszéd-dialógus rendszer fő komponensei
Az ember-gép közötti párbeszéd megteremtése ma többnyire a beszélt nyelvi interfészek megvalósításával történik. A beszélt nyelvi interfészek sok különböző technológiát és alkalmazást foglalnak magukban.
BME TMIT
A számítógépes beszédfelismerés átfogó beszédfeldolgozási témakör.
Az emberi beszédben rejlő összes információ felismerését jelenti.
Milyen nyelven beszél? Nyelvfelismerés
Ki beszél? Beszélő felismerés
Meg van fázva? Egészségi állapot felismerés
Ideges? Bánatos? Érzelem felismerés
Mit mond? Nyelvi tartalom felismerése, szöveglejegyzés
BME TMIT
„A jövő kommunikációjának multimédia világában a beszéd egyre fontosabb szerepet fog játszani a beszélő azonosításától az automatikus beszédfelismerésig és a kulcsszavak, kifejezések megértéséig. A kimondott szót kezelő perifériák át fogják venni a klaviatúrák és az olyan csatlakozó eszközök helyét, mint pl. az egér”.
Lawrence Rabiner (Center for Advanced Information Processing, Rutgers University) Science (2003. szeptember 12, 301. kötet, 5639, 1494-1495 old.)
Napjainkban az intelligens kommunikációs és információs eszközök (pl. mobiltelefonok, kézi számítógépek, stb.) mérete egyre csökken, míg funkcióik szaporodnak és kezelésük bonyolultabbá válik. A hagyományos eszközök (pl. egér, billentyűzet) kényelmetlenek, vagy a feladat velük meg sem oldható. A beszéddel történő információ csere az egyetlen, ami a kis fizikai méret mellett is megvalósítható.
BME TMIT
Két különböző információ az internetről:
1. Hirdetés Dragon NaturallySpeaking 10. v. diktáló rendszerérőla terjesztője az alábbiakat írja: A felismerő 3-szor gyorsabban teszi lehetővé a dokumentumok, jelentések, elektronikus levelek bevitelét a számítógépbe, mint ahogy ezt gépeléssel tennék -99%-os pontossággal!
http://www.nuance.com/naturallyspeaking/products/preferred.asp
BME TMIT
ügyfélügyfélautomataautomata (Julie) (Julie)
SziaSzia!!Julie vagyok, az Amtrak automatizált Julie vagyok, az Amtrak automatizált
ügynöke. Fogjunk bele! ügynöke. Fogjunk bele! Melyik városból indulsz?Melyik városból indulsz?
New York.New York.
Hmmm. Azt hiszem, Newarkot mondtál. Hmmm. Azt hiszem, Newarkot mondtál. Így van?Így van?
Nem.Nem.Oké. Próbáljuk meg újra. Melyik Oké. Próbáljuk meg újra. Melyik
városból indulsz?városból indulsz?
Úgy vélem, azt mondtad, Úgy vélem, azt mondtad, Meriden, így van?Meriden, így van?
2. Egy példa az interneten:egy potenciális Amtrak ügyfél hívta a társaság automatizált telefonrendszerét, viteldíj-információszerzés céljából
Végül Julie feladta, és átadta az ügyfelet az aktuális emberi lénynek.
Manhattan.Manhattan.
http://www.cioinsight.com/c/a/Technology/Weak-Speech-Recognition-Leaves-Customers-Cold/
BME TMIT
Mi itt az igazság?
Azt mondják, „beszédfelismerés”
és az ügyfél automatikusan a „2001: Űrodüsszeia” HAL-ára gondol”
A cégek pedig, amelyek a beszédtechnológiát ajánlják, hajlamosak „túlígérni”
és alulteljesíteni ezt az elvárást;
BME TMIT
Miért foglalkozunk a beszéd bemenet használatával?
Mert a technológia ma már ott tart, hogy bizonyos területeken
- Költséghatékonyan használható
A 20 milliárdos Cendant Corp. az ügyfelek hotelinformációkkal való ellátásakor 2,5 millió telefonhívás 15 %-át anélkül hajtják végre, hogy a hívó beszélt volna egy élő ügynökkel.
A Forrester Research Inc. szerint az automatizált rendszerek esetén a hívások percenként 20 centbe kerülnek, szemben az élő segítséggel, amely percenként 7 dollárba kerül.
- Ügyfeleknek nagyobb szabadságot ad abban, hogy információhoz jussanak, így örülnek a lehetőségnek. Amtrak eladási és ügyfélszolgálati vezetője szerint az új információs rendszerek igazi alternatívákat adnak ügyfeleiknek (pl. vonatstátus, menetrend és viteldíjak tudakozódása és egyszerű foglalások)
- A felhasználók egyre jobban megtanulják a felismerők használatát.
BME TMIT
•Ez a diagram a beszéd vonatkozású IBM aktivitás összbevételét ábrázolja.
•1 billió dollárt meghaladó bevételek 2006-tól kezdve
Hangvezérlésű technológiák előrejelzése
*Opus Research 02_2007
Beszédpiaci lehetőségek összefoglalása
$0
$500 000
$1 000 000
$1 500 000
$2 000 000
$2 500 000
$3 000 000
2006 2007 2008 2009 2010 2011
Hang alapú alkalmazások (Skype, MSN,internetes hangpostafiók)
Alkalmazások (hang alapú információsrendszerek, parancsfelismerés, szintézis)
Professzionális szolgáltatások
Szöveg-beszéd (felolvasás)
Automatikus beszédfelismerés (diktálás)
BME TMIT
Néhány tanács a beszédtechnológiát alkalmazni szándékozóknak:
1. Tisztában kell lenni, hogy a mai beszédfelismerési technológia mire képes. 2. Ennek tudatában realisztikus célokat kellkitűzni. 3. A szolgáltatást témakör- és felhasználó orientáltan kell megtervezni, 4. A felhasználót is tájékoztatni kell, hogy csak egy „géppel” áll szemben, amihez neki is alkalmazkodni kell!
Ehhez mindenképpen szükséges
hogy megfelelő felismerési technológiát használjunk,
képesek legyünk a reklámszöveg és a valóságos teljesítmény elkülönítésére.
BME TMIT
Alapvető szakmai kérdések
• Milyen nehézségekkel kell megküzdeni a fejlesztőknek?
• Hol tartunk ma? Hogy működik egy korszerű felismerő?
• Merre halad a kutatás?
• Realisztikus beszédfelismerő rendszerek.
BME TMIT
Milyen nehézségekkel kell megküzdeni?
BME TMIT
1. Folyamatos hangnyomás változásból kvantált minőségi jellemzők elkülönítése és azonosítása.
2. A hullámforma erősen változik az akusztikai környezet hatására – visszaverődések, zajok, interferencia!,
háttérbeszélgetés, zene stb.
a l m a v a n a l á d á b a n
a l m a v a n a l á d á b a n
Sound (OLE2)
Sound (OLE2)
BME TMIT
3. Egyazon mondanivaló végtelen sok akusztikai formában jelenik meg:
A beszélő személyétől függően: pl. az emberek különböző méretű
artikulációs csatornával rendelkeznek.
Egy beszélő esetén is: A lelki állapot, fáradtság,
rekedtség befolyásolja a paramétereket. Az akusztikai jelsor változik a hangkapcsolat és a
hang helyzete függvényében.
BME TMIT
4. A beszédsebesség változik a beszélő személyétől függően, és egy beszélő esetében is. A fonémák, sőt, fonémarészek időtartama nem egységesen változik meg.
a l m a v a n a l á d á b a n
a l m a v a n a l á d á b a n
Sound (OLE2)
Sound (OLE2)
BME TMIT
5. A beszéd több, mint elemek egymásutánisága!
A hangsúly, a dallam,
a szünetek, a ritmus, a tempóváltások is a felismerendő üzenet lényegi elemei.
Ezek is az értelmezést segítik, a közlendőt árnyalják, a beszédet emberivé, széppé teszik,
tehát ha a beszéd üzenetét kívánjuk felismerni ezek sem hagyhatók a folyamatból el.
Pragmatikai szint (megértési szint)
Szemantikai szint (jelentéstani szint)
Szintaktikai szint (mondattani szint)
Lexikai szint
Fonetikai, fonológiai szint
6. A beszédjel a beszédtartalmi információt részben akusztikus, részben nyelvi szinten hordozza.
A beszédfeldolgozás hierarchiaszintjei: (egyidejűleg aktívak)
Akusztikai szint
BME TMIT
Hol tartunk ma?Hogy működik egy korszerű beszédfelismerő?
BME TMIT
Ma a korszerű beszédfelismerők statisztikai elvi alapokon működnek
Akusztikai-fonetikai szinten létrehozott hangkapcsolat függő beszédhang modellek(Rejtett Markov modellek és/vagy Neurális hálózatok)
és
Szintaktikai (szó) szinten létrehozott statisztikai nyelvi modellek (N-gramm)
együttes alkalmazásával.
BME TMIT
A statisztikai alapú beszédfelismerő:akusztikai- fonetikai szint betanítás - modellépítés
akusztikai előfeldolgozás
beszédadatbázis hangkapcsolat függő
beszédhang modellek
10 ms-éntparamétervektorsor
Nyelvi tartalommal címkézetthanganyag
Akusztikai-fonetikai statisztikai modellek létrehozása
(hangkapcsolat függő fonémák,szótagok, szavak)
besorolás
Csoportosítottparamétervektorok
BME TMIT
A statisztikai alapú beszédfelismerő:akusztikai- fonetikai szint beszédhangfelismerés
s z é p a z i d ős z é p a z i d ő
hangkapcsolat függőbeszédhang
modellek
akusztikai előfeldolgozás iIlesztés, döntés
10 ms-kéntparamétervektorsor
karakterlánc
kibocsátási valószínűség
Szép az idő.Szép az idő.
Adaptáció lehetségesa beszélő hangjához
Kimeneten karakterlánc jelenik meg, amelyben még sok a tévesztés. Pusztán akusztikai alapon a felismerési pontosság alacsony, nagyobb pontosság eléréséhez nyelvi szintek bevonása szükséges.
BME TMIT
A statisztikai alapú beszédfelismerő: Szintaktikai (szó) szinten Nyelvi modell 1
értelmes szósorozatok
szabályalapú modellek: útvonalkeresés gráfban - Determinisztikus nyelvtan!
tizenszáz egy
huszon kettő
kétszáz harminc három
négy
Kilencszáz
BME TMIT
Statisztikai nyelvi modellek: valószínűségeket rendelünk az egyes szósorrendekhez (N-gramm modellek)
a kisebb előfordulási gyakoriságú szórendeknek kisebb valószínűséget adunk,így a nagyobb gyakoriságú – vélhetően helyes – szórendek felismerési aránya nagyobb
lesz.
A valószínűségek megállapításához, tehát a nyelvi szintű betanításhoznagy mennyiségű, a témához illeszkedő szöveganyag szükséges:
A statisztikai alapú beszédfelismerő:Szintaktikai (szó) szinten Nyelvi modell 2
Témaspecifikus szövegadatbázisok
szótárakszótárak
statisztikai nyelvi modellekstatisztikai nyelvi modellek
BME TMIT
N-gram modell használhatósága nyelvfüggő
Angol kötött szósorrend jól alkalmazható ragozott szóalak kisszámú
Magyar és kevéssé kötött szórend további kutatás egyéb morfoló- agglutináló –flektáló szükséges giailag gazdag szóalak változékony (morféma alapúnyelvek nyelvi modellezés)
A statisztikai alapú beszédfelismerő:N-gramm nyelvi modell jellemzése
BME TMIT
akusztikai előfeldolgozás
Dekóder(kereső algoritmus)
hangkap-csolatfüggőbeszédhang
modellek
ortografikus és kiejtés szótárak
statisztikai nyelvi modell
Szöveges adatbázisBeszéd-adatbázis
szép az időszép az időszólánszóláncc
Teljes kiépítésű statisztikai alapú beszédfelismerő
Szép az idő.Szép az idő.
BME TMIT
Teljes kiépítésű statisztikai alapúbeszédfelismerő – Jellemzés 1
A felismerő betanításához, optimális működéséhez
•az akusztikai környezet függvényében más és más beszédadatbázis kell!!!Telefonbeszéd adatbázis, beszédadatbázis kocsikban, hivatalokban, zajos utcán, stb.SPEECHDAT – CAR: French : Academic - Commercial 182 000 EUR
German : Academic - Commercial 120 000 EUR
• témacsoportonként más és más szövegadatbázist kell gyűjteni.erősen ragozott, toldalékolt nyelveknél ez még hangsúlyozottabb.
Különböző adaptációs technikák most fejlesztés alatt
•nyelvenként más és más szöveg és beszédadatbázis szükséges
A többnyelvű felismerők fejlesztése folyamatban van
BME TMIT
Magyar beszédadatbázisok összefoglaló adatai
Magyar referencia beszéd adatbázis
Csendes környezet, folyamatos szöveg
Magyar telefon beszéd adatbázis
Vonalas telefon, mobil, számok, szavak, tulajdonnevek, folyamatos szöveg
TESZTEL
Mobil zajos környezetben folyamatos szöveg
SpeechDat
Vonalas telefon, mobil, számok, szavak, tulajdonnevek, folyamatos szöveg
Babel – többnyelvű adatbázis
Tiszta beszéd szavak, folyamatos szöveg
SPECO
Tiszta gyermekbeszéd szavak, mondatokhttp://alpha.tmit.bme.hu/speech/databases.php
BME TMIT
Angol nyelvű nagyszótáras felismerő felismerési hibaaránya átlagos irodai környezetben (jó jel-zaj viszony esetén)
_______________________________________________
beszédstílus szóhiba arány_______________________________________________
olvasott, szépen kiejtett beszéd, beszélőadaptálás után < 5 %új beszélő 8-15 %
spontán interjú 20-25 % spontán társalgás 30-40 % !!!!!
_______________________________________________
A felismerő kimenetén szószekvenciák vannak.A valódi szemantikai és pragmatikai szint hiányzik.
Mesterséges intelligenciával ellátott dialógus rendszerekkel a pontosság jelentősen növelhető!!!!
Teljes kiépítésű statisztikai alapúbeszédfelismerő – Jellemzés 2.: folyamatos beszédfelismerő pontossága csendes környezetben
BME TMIT
Tiszta beszéd
Spontán beszéd
Teljes kiépítésű statisztikai alapúbeszédfelismerő – Jellemzés 3.: beszédfelismerő pontossága ma különböző felhasználási területeken
Diktálás híranyag interjú hang- swich - hívás tárgyalás posta board közp
%
szóhiba
BME TMITBME TMIT
Merre halad a kutatás?
•Zajtűrő akusztikai feldolgozás
•Természetes (spontán beszéd) feldolgozás statisztikai feldolgozással : híranyagok szöveggé alakítása, parlamenti beszédek gépi lejegyzése ~100 000 szó
•Morfológiailag gazdag, és kisebb beszélőszámú nyelvek feldolgozása arab, finn, magyar, török, észt, stb
Mesterséges intelligenciával kibővített dialógus rendszerek fejlesztése
•Statisztikai közelítésű Dialogus rendszerek fejlesztése
•Prozódia integrálása
•Modalitás növeléseAudio-vizuális beszédfelismerés
BME TMIT
Satoshi Tamura, Koji Iwano and Sadaoki Furui 2006
Audio – vizuális felismerés
AkusztikaiAkusztikaiElőfeldolg.Előfeldolg.
VizuálisVizuálisElőfeldolg.Előfeldolg.
Normali-Normali-zálás,zálás,InterpolInterpol.
Akuszt. par.
Vizuális par.
Audio-vizuális par.
Felism.eredm.
jel
jel
BME TMIT
Dialógusban rejlő információk kinyerése nem-verbális, multimodális feldolgozással:
beszéd+artikuláció+arcmimika+gesztus+test- és fejmozgás,
a társalgást követve a cél annak megértése, hogy mi történik a párbeszédben.
Egy folyamatelemzés elvégzése: --- a nyelvi információktól függetlenül,
vagy
--- a nyelvi információkkal együtt.
Nick Campbell, 2006
ATR Media Information Science Labs,Japan
Multi-modális kommunikáció feldolgozása
BME TMITEgy 360 fokos kamera és irányított mikrofonok segítségével audio-vizuális információk sorozatát gyűjtik össze, amelyből következtethetőek a gyűlés tagjainak társalgási eseményei.
BME TMITA videójel felbontása viszonylag alacsony. Nagyobb mozgások detektálása a bőr hőérzékelésével. A test-, a kéz- és a fejmozgásokat leíró egyszerű paraméterkészlet automatikus létrehozása.
BME TMITBME TMIT
Beszédfelismerő termékek
A felismerés ma már elfogadható pontosságú ahhoz, hogy felhasználói interfészként működjön számos területen:
- hangtárcsázás
- Egyszerű adatbevitel – kézmentes vezérlés
- Beszéd információs rendszerek – dialógusrendszerek – ember-gép kommunikáció
- Diktálás (beszéd-szöveg átalakítás) – zárt témakörű dokumentumok szerkesztése
- Böngészés hanggal – W3C beszéd interfész keretrendszer VoiceXML2+ Speech Grammar Specification
(SRGS) lehetővé teszi az emberek számára a hangvezérlést megfelelően megtervezett web-
alapú szolgáltatásoknál - Multimédia indexálás
- Ügyfélszolgálati beszélgetés elemzés
BME TMITBME TMIT
Beszédfelismerés hazánkban világszínvonalon!
• Beszéd szövegtartalmának felismerése (zárt témakörű !! diktálás) BME TMIT, SZTE IT • Telefonközpont irányítás BME TMIT, AITIA
• Természetes beszéd alapú dialógus rendszerek Telefonos beszédinformációs rendszerek BME TMIT, AITIA
• Audióvizuális beszédfelismerés MISKOLCI E.
• Beszéd-detekció BME TMIT
• Kulcsszó felismerés, hangbányászat BME TMIT, AITIA• Nagyszótáras folyamatos magyar nyelvű beszéd felismerése indexálási célokra! BME TMIT, AITIA
• Érzelmi töltet felismerése BME TMIT • Orvosi alkalmazások BME TMIT, SZTE IT
Köszönöm a figyelmet!
Platformtagok bemutatkozó demonstrációjára várjuk önöket délután!
BME TMIT