a k onvergenciapiac k+f igényeinek egyik konkrét megvalósítása: hangportál
DESCRIPTION
A k onvergenciapiac K+F igényeinek egyik konkrét megvalósítása: Hangportál. Dr. Vinkovits László ügyvezető igazgató [email protected] Elek Zsombor projektvezető Zsombor.Elek @t-systems.co.hu T-Systems RIC Kutatási Kft. Tartalom. Bevezető - PowerPoint PPT PresentationTRANSCRIPT
====!"§==Systems= T-Systems RIC 21.04.23 1. oldal
A konvergenciapiac K+F igényeinek egyik konkrét
megvalósítása: HangportálDr. Vinkovits László
ügyvezető igazgató
Elek Zsomborprojektvezető
T-Systems RIC Kutatási Kft.
====!"§==Systems= T-Systems RIC 21.04.23 2. oldal
Tartalom• Bevezető
•A Regionális Innovációs Centrum K+F feladatai
•A T-Research Laboratórium projektjei• A beszédfeldolgozási technológiák áttekintése
•Beszédfelismerés•Beszédszintézis
• A két technológia konvergenciája: a Hangportál•Tipikus alkalmazásai•Előnyei, hátrányai
• A technológia alapja: VoiceXML, dialógusok• Új alkalmazástípus: Személyreszabott portálok
•Hagyományos és hangvezérelt elérés•Várható elterjedésük
====!"§==Systems= T-Systems RIC 21.04.23 3. oldal
A kutatási irányok
Hosszútávú (5-10 éves) kutatások:- Online fordítás ( tanulmány készítése )- Bioszenzorika ( tanulmány készítése )
Prototípusok ( 1-2 év ):- Peer to peer ( tanulmány + platform előállítása )- PeMAP ( a magyar nyelvű implementáció )- Telebusiness ( platform készítése )- PPPoE ( prototípus kifejlesztése )
Rollout, SI-projektek:- I-Partner ( felmérés, fejlesztés, teszt, oktatás, átadás )- Tudor ( felmérés, fejlesztés, teszt, oktatás, átadás )
====!"§==Systems= T-Systems RIC 21.04.23 4. oldal
A kutatási irányok - projektekHosszútávú (5-10 éves) kutatások:
- Szabványosítás / Szabványosítási portál- Intelligens beszédtechnológiák
Prototípusok ( 1-2 év ):- Peer to peer folytatás- Dynamic Networking- Telebusiness folytatás
Rollout, SI-projektek:- I-Partner II- CRM ( Westel, Matáv )
====!"§==Systems= T-Systems RIC 21.04.23 5. oldal
3 952 500 €
1 190 000 €
1 972 000 €
790 500 €INM
TSI-ASP
Matáv
TSH
A terv 2003-ben:
Törzstőke: 121.500.000,-FtÁrbevétel: 1.880.000.000,-FtFoglalkoztatottak száma: 120 főA projektek/témák száma: 29
====!"§==Systems= T-Systems RIC 21.04.23 6. oldal
BMGE és RIC kooperáció
Kutató laboratóriumi program• Beszédinformációs rendszerek laboratórium• Peer-to-peer szolgáltatások laboratórium• Jellemzők: • A T-Systems RIC által elfogadott témák• Alap- és alkalmazott kutatás• Doktoranduszok és hallgatók bevonása, ösztöndíjak• Fix évi finanszírozás
Projekt alapú együttműködési program• Peer-to-peer rendszerek fejlesztése• Text-to-speech, speech-to-text rendszer fejlesztése• On-line fordítás (tanulmány)• Bioszenzorok alkalmazása INM rendszerekben (tanulmány) • Jellemzők: • A T-Systems RIC által definiált határidős feladatok• Alkalmazott kutatás-fejlesztés• Doktoranduszok és hallgatók bevonása, munkadíjak• Eseti finanszírozás
====!"§==Systems= T-Systems RIC 21.04.23 7. oldal
A beszédfeldolgozási technológiák áttekintéseBeszédfelismerés (Automatic Speech Recognition, ASR)
•Feladata: A beszédjelből az annak megfelelő szöveges átirat előállítása
•Fő elvárások: valósidejűség, beszélőfüggetlenség, zajérzéketlenség
Beszédszintézis (Text-to-Speech, TTS)•Feladata: egy szövegből a neki megfelelő
hangminta előállítása
•Fő elvárások: megfelelő intonáció, sebesség, hangnem, hangsúly, különböző személyiségek megjelenítése
====!"§==Systems= T-Systems RIC 21.04.23 8. oldal
Beszédfelismerés
A beszédfelismerés lehetséges csak az első szint felhasználásával, a második szint nagyobb pontosságot tesz lehetővé
Beszédjel
Mintavételezés,
előfeldolgozás
Mintaillesztés
első szintű átirat: szavak
Elemzésmásodik szintű átirat: mondatok
====!"§==Systems= T-Systems RIC 21.04.23 9. oldal
Beszédfelismerés: első szint
1. Mintavételezés, frekvenciaanalízis
2. Lényegkiemelés
3. Mintailesztés• Dinamikus idővetemítés• Neurális hálózatok• Rejtett Markov modell
a,b,…,z
?x y=‘a’
====!"§==Systems= T-Systems RIC 21.04.23 10. oldal
Beszédfelismerés: második szint•Az alapötlet: az emberi felismerés is ezt használja (ismeretlen nyelvű szöveg leírása nehéz feladat)
•A fő eszköz: elemzés (megértés)
•A cél: információ visszacsatolása az első szintre
•Fő módszerek:•Szintaktikai elemzés
•Valószínűségi: a felismart szavak sorrendje megadja annak a valószínűségét, hogy a mondat helyes-e
•Nyeltani alapú: környezetfüggetlen nyelvtani elemés (Chomsky)
•Szemantikai elemzés
====!"§==Systems= T-Systems RIC 21.04.23 11. oldal
Beszédszintézis 1.
„Text”
Szabály-adatbázis
Fonéma szótár
Előfeldolgozás
Fonéma átirat
Prozódiai tudás
(+érzelmek)
+ TTS Engin
e
•Az emberi beszédképző szervrendszer modellezése
•A beszédjel modelezése
•Mintaadatbázis használata
====!"§==Systems= T-Systems RIC 21.04.23 12. oldal
Beszédszintézis 2.
A TTS Engine:
•Az emberi beszédképző szervrendszer modellezése
•A beszédjel modelezése: formánsok manipulálása
•Minta-adatbázis használata: konkatenatív szintézis
F1 F2 F3f [Hz]
B(f)
+
====!"§==Systems= T-Systems RIC 21.04.23 13. oldal
Lehetővé válik a számítógéppel való beszéd alapú kommunikáció.
A számítógépen tárolt tartalom olyan környezetből is elérhető, amiből hagyományos formában eddig nehézkes vagy tilos volt.
A két technológia konvergenciája: a Hangportál
ASR
TTS
====!"§==Systems= T-Systems RIC 21.04.23 14. oldal
Tipikus alkalmazások
• E-mail üzenetek felolvasása• Nevek és címek• Hírek, időjárás• Pénzügyi információk: számlaegyenleg,
részvényárfolyamok lekérdezése• Dinamikus weboldalak• Figyelmeztetések• Riasztások
====!"§==Systems= T-Systems RIC 21.04.23 15. oldal
Előnyei, hátrányai
Hátrányok• Gyakori a visszakérdezés• Van esély félreértésre, rossz válasz rögzítésére• Könnyebben lerakják a telefont az emberek,
mintha egy emberrel beszélnének• Szabad szöveget válaszként nem tud rögzíteni
Előnyök• Alacsony költség• Normál munkaidőn kívül is használható• Nincs szabadság, betegállomány
====!"§==Systems= T-Systems RIC 21.04.23 16. oldal
Telefon hírmondó
• Aktuális hírek, óránként frissülve
• Az egyes hírcsoportok külön előfizethetők
• Tipikus parancsok:•Menüválasztás
•Ismétlés
•Előző hír
•Következő
Login
Főmenü
Időjárás
…Belföld
Hír1
Hír2
HírN
Új hívás
Külföld
Hír1
Hír2
HírN
====!"§==Systems= T-Systems RIC 21.04.23 17. oldal
Személyre szabott portálok
Az általános struktúra:
Alkalmazás szerver
Voice browser
VoiceXML(HTTP) DB
A felhasználó azonosítása után lehetőség van személyre szabott tartalom megjelenítésére.
ASR
TTS
Tel
VXML Interpr.
====!"§==Systems= T-Systems RIC 21.04.23 18. oldal
VoiceXML
• Voice eXtensible Markup Language• Feladat: audio dialógusok létrehozása• Fő funkciók:
•Szintetizált beszéd és Hangfelvételek lejátszása
•Beszéd és DTMF jelek felismerése•Telefonvonal kezelése (pl. átirányítás)
• Célja: a webes fejlesztések és tartalomszolgáltatások átültetése hangvezérelt környezetbe
Dokumentum szerver
VoiceXML Interpreter
VXML file
Kérés Implementációs platform
====!"§==Systems= T-Systems RIC 21.04.23 19. oldal
VoiceXML dialógusokMenu Form
Menu1
Menu2
Menu3
Menu4
Main menu
Exit
Kérem, válasszon:
Form
Budapest123-456
Név:Cím:Tel.:
Kovács
OK Mégse
Kérem, töltse ki:
====!"§==Systems= T-Systems RIC 21.04.23 20. oldal
Egy működő architektúra
Partnerek:
• BMGE, TMIT
• T-Systems RIC
• T-Systems Nova Berkom, Berlin
Felhasználás: •Hírportál
====!"§==Systems= T-Systems RIC 21.04.23 21. oldal
Közvéleménykutatás 2002
Főbb jellemzők• N=200 fős minta• Magas telefonköltségű egyéni Matáv ügyfelek
Kérdések• Információs eszközök elterjedtsége és használata • Vásárlási szokások, vásárlással kapcsolatos attitűdök • Információforrások preferenciája, igénybevételi jellemzők • Megközelítőleg mekkora összeget szánnának a
bevezetni tervezett szolgáltatásra az interjúalanyok?
====!"§==Systems= T-Systems RIC 21.04.23 22. oldal
25,3
21,2
20,2
4
29,3Nagyon felkeltette
Felkeltette
Igen is, nem is
Nem
Egyáltalán nem
Felkeltette az érdeklődését?
• A szolgáltatás a fiatalok érdeklődését jobban felkeltette, mint az idősebbeké
• Közel a válaszadók felének (46,4%) érdeklődését egyértelműen felkeltette a szolgáltatás az elhangzott ismertető alapján.
====!"§==Systems= T-Systems RIC 21.04.23 23. oldal
9,6
47,6
7,5
35,3Biztosan előfizet
Valószínüleg előfizet
Nem valószínű, hogyelőfizet
Biztos, hogy nem fizetelő
Várható elterjedés
• Közel a válaszadók tizede biztos abban, hogy előfizetne egy ilyen hírszolgáltatásra, míg nem egészen a felük valószínűnek tartja mindezt (47,6%).
====!"§==Systems= T-Systems RIC 21.04.23 24. oldal
8,1
18,9
25,7
39,2
8,1
Naponta
Hetente többször
Hetente
Havonta
Ritkábban
Várható használati gyakoriság
• A válaszadók több mint fele biztos abban, hogy legalább hetente igénybe venne egy hasonló szolgáltatást.
====!"§==Systems= T-Systems RIC 21.04.23 25. oldal
Fizetési hajlandóság
34,5
14,9
4,1
11,6
6,6
12,4
1,7 3,3 3,3 2,55,0
0,0
5,0
10,0
15,0
20,0
25,0
30,0
35,0
40,0
>3000
Ft
3000
Ft
2500
Ft
2000
Ft
1500
Ft
1000
Ft
800F
t
500F
t40
0
<400F
t
nem fiz
etne
Az átlag a 3000Ft feletti kategória magas aránya miatt 3226Ft
====!"§==Systems= T-Systems RIC 21.04.23 26. oldal
Vége
Köszönjük a figyelmet!