synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz fileprvn´ı 3 f´aze = nlp modul,...

129
Synt´ eza a rozpozn´ av´ an´ ıˇ reˇ ci Pavel Cenek, Aleˇ s Hor´ ak E-mail: [email protected] http://nlp.fi.muni.cz/poc_lingv/ Obsah: Synt´ eza ˇ reˇ ci Rozpozn´ av´ an´ ıˇ reˇ ci Souvisej´ ıc´ ı technologie ´ Uvod do poˇ ıtaˇ cov´ e lingvistiky 3/11 1 / 20

Upload: phamtruc

Post on 09-May-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza a rozpoznavanı reci

Pavel Cenek, Ales Horak

E-mail: [email protected]://nlp.fi.muni.cz/poc_lingv/

Obsah:

Synteza reci

Rozpoznavanı reci

Souvisejıcı technologie

Uvod do pocıtacove lingvistiky 3/11 1 / 20

Page 2: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci

Synteza reci

Text to Speech, TTS

Konverze textu do mluvene podoby

V idealnım prıpade by mela syntetizovana rec znıt tak, jako kdybydany text precetl clovek

Probıha obvykle ve 4 fazıch• Normalizace textu• Foneticky prepis• Prozodicky prepis• Akusticke modelovanı

Prvnı 3 faze = NLP modul, ctvrta faze = DSP modul

Uvod do pocıtacove lingvistiky 3/11 2 / 20

Page 3: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci

Synteza reci

Text to Speech, TTS

Konverze textu do mluvene podoby

V idealnım prıpade by mela syntetizovana rec znıt tak, jako kdybydany text precetl clovek

Probıha obvykle ve 4 fazıch• Normalizace textu• Foneticky prepis• Prozodicky prepis• Akusticke modelovanı

Prvnı 3 faze = NLP modul, ctvrta faze = DSP modul

Uvod do pocıtacove lingvistiky 3/11 2 / 20

Page 4: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci

Synteza reci

Text to Speech, TTS

Konverze textu do mluvene podoby

V idealnım prıpade by mela syntetizovana rec znıt tak, jako kdybydany text precetl clovek

Probıha obvykle ve 4 fazıch• Normalizace textu• Foneticky prepis• Prozodicky prepis• Akusticke modelovanı

Prvnı 3 faze = NLP modul, ctvrta faze = DSP modul

Uvod do pocıtacove lingvistiky 3/11 2 / 20

Page 5: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci

Synteza reci

Text to Speech, TTS

Konverze textu do mluvene podoby

V idealnım prıpade by mela syntetizovana rec znıt tak, jako kdybydany text precetl clovek

Probıha obvykle ve 4 fazıch• Normalizace textu• Foneticky prepis• Prozodicky prepis• Akusticke modelovanı

Prvnı 3 faze = NLP modul, ctvrta faze = DSP modul

Uvod do pocıtacove lingvistiky 3/11 2 / 20

Page 6: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci

Synteza reci

Text to Speech, TTS

Konverze textu do mluvene podoby

V idealnım prıpade by mela syntetizovana rec znıt tak, jako kdybydany text precetl clovek

Probıha obvykle ve 4 fazıch• Normalizace textu• Foneticky prepis• Prozodicky prepis• Akusticke modelovanı

Prvnı 3 faze = NLP modul, ctvrta faze = DSP modul

Uvod do pocıtacove lingvistiky 3/11 2 / 20

Page 7: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci

Synteza reci

Text to Speech, TTS

Konverze textu do mluvene podoby

V idealnım prıpade by mela syntetizovana rec znıt tak, jako kdybydany text precetl clovek

Probıha obvykle ve 4 fazıch• Normalizace textu• Foneticky prepis• Prozodicky prepis• Akusticke modelovanı

Prvnı 3 faze = NLP modul, ctvrta faze = DSP modul

Uvod do pocıtacove lingvistiky 3/11 2 / 20

Page 8: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci

Synteza reci

Text to Speech, TTS

Konverze textu do mluvene podoby

V idealnım prıpade by mela syntetizovana rec znıt tak, jako kdybydany text precetl clovek

Probıha obvykle ve 4 fazıch• Normalizace textu• Foneticky prepis• Prozodicky prepis• Akusticke modelovanı

Prvnı 3 faze = NLP modul, ctvrta faze = DSP modul

Uvod do pocıtacove lingvistiky 3/11 2 / 20

Page 9: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci

Synteza reci

Text to Speech, TTS

Konverze textu do mluvene podoby

V idealnım prıpade by mela syntetizovana rec znıt tak, jako kdybydany text precetl clovek

Probıha obvykle ve 4 fazıch• Normalizace textu• Foneticky prepis• Prozodicky prepis• Akusticke modelovanı

Prvnı 3 faze = NLP modul, ctvrta faze = DSP modul

Uvod do pocıtacove lingvistiky 3/11 2 / 20

Page 10: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Normalizace textu

Normalizace textu

Rozclenenı textu na vety

Rozvinutı zkratek, mernych jednotek, cısel apod.

“130895”

• cıslo

• telefonnı cıslo

• datum

• . . .

Uvod do pocıtacove lingvistiky 3/11 3 / 20

Page 11: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Normalizace textu

Normalizace textu

Rozclenenı textu na vety

Rozvinutı zkratek, mernych jednotek, cısel apod.

“130895”

• cıslo

• telefonnı cıslo

• datum

• . . .

Uvod do pocıtacove lingvistiky 3/11 3 / 20

Page 12: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Normalizace textu

Normalizace textu

Rozclenenı textu na vety

Rozvinutı zkratek, mernych jednotek, cısel apod.

“130895”

• cıslo

• telefonnı cıslo

• datum

• . . .

Uvod do pocıtacove lingvistiky 3/11 3 / 20

Page 13: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Normalizace textu

Normalizace textu

Rozclenenı textu na vety

Rozvinutı zkratek, mernych jednotek, cısel apod.

“130895”

• cıslo

• telefonnı cıslo

• datum

• . . .

Uvod do pocıtacove lingvistiky 3/11 3 / 20

Page 14: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Normalizace textu

Normalizace textu

Rozclenenı textu na vety

Rozvinutı zkratek, mernych jednotek, cısel apod.

“130895”

• cıslo

• telefonnı cıslo

• datum

• . . .

Uvod do pocıtacove lingvistiky 3/11 3 / 20

Page 15: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Foneticky prepis

Foneticky prepis

Prevede predzpracovany text do foneticke podoby (tj. do tvaru, kterypopisuje vyslovnost daneho textu)

Mezinarodnı foneticka abeceda (IPA) – v cestine cca 40 fonemu

Foneticky prepis cestiny musı zohlednit napr.• Spodoba znelosti (vcela/fcela, dub/dup)• Krajove zvyky (napr. shoda/zhoda nebo schoda).

Problemy prinası prepis cizıch vlastnıch jmen a cizıch slov obecne(napr. faux pas nebo francouzska vlastnı jmena)

Dve zakladnı metody• Foneticky prepis zalozeny na pravidlech (napr. pro cestinu funguje

dobre)• Foneticky prepis pomocı vyslovnostnıch lexikonu

Obe metody lze kombinovat

Uvod do pocıtacove lingvistiky 3/11 4 / 20

Page 16: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Foneticky prepis

Foneticky prepis

Prevede predzpracovany text do foneticke podoby (tj. do tvaru, kterypopisuje vyslovnost daneho textu)

Mezinarodnı foneticka abeceda (IPA) – v cestine cca 40 fonemu

Foneticky prepis cestiny musı zohlednit napr.• Spodoba znelosti (vcela/fcela, dub/dup)• Krajove zvyky (napr. shoda/zhoda nebo schoda).

Problemy prinası prepis cizıch vlastnıch jmen a cizıch slov obecne(napr. faux pas nebo francouzska vlastnı jmena)

Dve zakladnı metody• Foneticky prepis zalozeny na pravidlech (napr. pro cestinu funguje

dobre)• Foneticky prepis pomocı vyslovnostnıch lexikonu

Obe metody lze kombinovat

Uvod do pocıtacove lingvistiky 3/11 4 / 20

Page 17: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Foneticky prepis

Foneticky prepis

Prevede predzpracovany text do foneticke podoby (tj. do tvaru, kterypopisuje vyslovnost daneho textu)

Mezinarodnı foneticka abeceda (IPA) – v cestine cca 40 fonemu

Foneticky prepis cestiny musı zohlednit napr.• Spodoba znelosti (vcela/fcela, dub/dup)• Krajove zvyky (napr. shoda/zhoda nebo schoda).

Problemy prinası prepis cizıch vlastnıch jmen a cizıch slov obecne(napr. faux pas nebo francouzska vlastnı jmena)

Dve zakladnı metody• Foneticky prepis zalozeny na pravidlech (napr. pro cestinu funguje

dobre)• Foneticky prepis pomocı vyslovnostnıch lexikonu

Obe metody lze kombinovat

Uvod do pocıtacove lingvistiky 3/11 4 / 20

Page 18: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Foneticky prepis

Foneticky prepis

Prevede predzpracovany text do foneticke podoby (tj. do tvaru, kterypopisuje vyslovnost daneho textu)

Mezinarodnı foneticka abeceda (IPA) – v cestine cca 40 fonemu

Foneticky prepis cestiny musı zohlednit napr.• Spodoba znelosti (vcela/fcela, dub/dup)• Krajove zvyky (napr. shoda/zhoda nebo schoda).

Problemy prinası prepis cizıch vlastnıch jmen a cizıch slov obecne(napr. faux pas nebo francouzska vlastnı jmena)

Dve zakladnı metody• Foneticky prepis zalozeny na pravidlech (napr. pro cestinu funguje

dobre)• Foneticky prepis pomocı vyslovnostnıch lexikonu

Obe metody lze kombinovat

Uvod do pocıtacove lingvistiky 3/11 4 / 20

Page 19: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Foneticky prepis

Foneticky prepis

Prevede predzpracovany text do foneticke podoby (tj. do tvaru, kterypopisuje vyslovnost daneho textu)

Mezinarodnı foneticka abeceda (IPA) – v cestine cca 40 fonemu

Foneticky prepis cestiny musı zohlednit napr.• Spodoba znelosti (vcela/fcela, dub/dup)• Krajove zvyky (napr. shoda/zhoda nebo schoda).

Problemy prinası prepis cizıch vlastnıch jmen a cizıch slov obecne(napr. faux pas nebo francouzska vlastnı jmena)

Dve zakladnı metody• Foneticky prepis zalozeny na pravidlech (napr. pro cestinu funguje

dobre)• Foneticky prepis pomocı vyslovnostnıch lexikonu

Obe metody lze kombinovat

Uvod do pocıtacove lingvistiky 3/11 4 / 20

Page 20: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Foneticky prepis

Foneticky prepis

Prevede predzpracovany text do foneticke podoby (tj. do tvaru, kterypopisuje vyslovnost daneho textu)

Mezinarodnı foneticka abeceda (IPA) – v cestine cca 40 fonemu

Foneticky prepis cestiny musı zohlednit napr.• Spodoba znelosti (vcela/fcela, dub/dup)• Krajove zvyky (napr. shoda/zhoda nebo schoda).

Problemy prinası prepis cizıch vlastnıch jmen a cizıch slov obecne(napr. faux pas nebo francouzska vlastnı jmena)

Dve zakladnı metody• Foneticky prepis zalozeny na pravidlech (napr. pro cestinu funguje

dobre)• Foneticky prepis pomocı vyslovnostnıch lexikonu

Obe metody lze kombinovat

Uvod do pocıtacove lingvistiky 3/11 4 / 20

Page 21: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Foneticky prepis

Foneticky prepis

Prevede predzpracovany text do foneticke podoby (tj. do tvaru, kterypopisuje vyslovnost daneho textu)

Mezinarodnı foneticka abeceda (IPA) – v cestine cca 40 fonemu

Foneticky prepis cestiny musı zohlednit napr.• Spodoba znelosti (vcela/fcela, dub/dup)• Krajove zvyky (napr. shoda/zhoda nebo schoda).

Problemy prinası prepis cizıch vlastnıch jmen a cizıch slov obecne(napr. faux pas nebo francouzska vlastnı jmena)

Dve zakladnı metody• Foneticky prepis zalozeny na pravidlech (napr. pro cestinu funguje

dobre)• Foneticky prepis pomocı vyslovnostnıch lexikonu

Obe metody lze kombinovat

Uvod do pocıtacove lingvistiky 3/11 4 / 20

Page 22: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Foneticky prepis

Foneticky prepis

Prevede predzpracovany text do foneticke podoby (tj. do tvaru, kterypopisuje vyslovnost daneho textu)

Mezinarodnı foneticka abeceda (IPA) – v cestine cca 40 fonemu

Foneticky prepis cestiny musı zohlednit napr.• Spodoba znelosti (vcela/fcela, dub/dup)• Krajove zvyky (napr. shoda/zhoda nebo schoda).

Problemy prinası prepis cizıch vlastnıch jmen a cizıch slov obecne(napr. faux pas nebo francouzska vlastnı jmena)

Dve zakladnı metody• Foneticky prepis zalozeny na pravidlech (napr. pro cestinu funguje

dobre)• Foneticky prepis pomocı vyslovnostnıch lexikonu

Obe metody lze kombinovat

Uvod do pocıtacove lingvistiky 3/11 4 / 20

Page 23: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Foneticky prepis

Foneticky prepis

Prevede predzpracovany text do foneticke podoby (tj. do tvaru, kterypopisuje vyslovnost daneho textu)

Mezinarodnı foneticka abeceda (IPA) – v cestine cca 40 fonemu

Foneticky prepis cestiny musı zohlednit napr.• Spodoba znelosti (vcela/fcela, dub/dup)• Krajove zvyky (napr. shoda/zhoda nebo schoda).

Problemy prinası prepis cizıch vlastnıch jmen a cizıch slov obecne(napr. faux pas nebo francouzska vlastnı jmena)

Dve zakladnı metody• Foneticky prepis zalozeny na pravidlech (napr. pro cestinu funguje

dobre)• Foneticky prepis pomocı vyslovnostnıch lexikonu

Obe metody lze kombinovat

Uvod do pocıtacove lingvistiky 3/11 4 / 20

Page 24: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Foneticky prepis

Foneticky prepis

Prevede predzpracovany text do foneticke podoby (tj. do tvaru, kterypopisuje vyslovnost daneho textu)

Mezinarodnı foneticka abeceda (IPA) – v cestine cca 40 fonemu

Foneticky prepis cestiny musı zohlednit napr.• Spodoba znelosti (vcela/fcela, dub/dup)• Krajove zvyky (napr. shoda/zhoda nebo schoda).

Problemy prinası prepis cizıch vlastnıch jmen a cizıch slov obecne(napr. faux pas nebo francouzska vlastnı jmena)

Dve zakladnı metody• Foneticky prepis zalozeny na pravidlech (napr. pro cestinu funguje

dobre)• Foneticky prepis pomocı vyslovnostnıch lexikonu

Obe metody lze kombinovat

Uvod do pocıtacove lingvistiky 3/11 4 / 20

Page 25: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Prozodicky prepis

Prozodicky prepis

tzv. suprasegmentalnı rysy

popisuje recovy proud spolu s prepisem do fonemu

obohacenı textu o informace (viz SSML dale) o lokalnıch fyzikalnıchcharakteristikach vysledne zvukove vlny:

• delka fonemu – tempo reci, pauzy• intonace vety – vzor pro hladinu zakladnı frekvence (pitch)• ton – v nekterych (tzv. tonovych) jazycıch urcuje vyznam• lexikalnı prızvuk – v prızvukovych jazycıch ovlivnuje delku, hlasitost a

ton slov

kvalitnı vypocet prozodie = prirozenost syntetizovane recinapr. u tonalnıch jazyku silne ovlivnı i porozumenı

Emoce• clovek je pri projevu pouzıva• vyzkum syntezi s emocemi je o dost slozitejsı

Uvod do pocıtacove lingvistiky 3/11 5 / 20

Page 26: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Prozodicky prepis

Prozodicky prepis

tzv. suprasegmentalnı rysy

popisuje recovy proud spolu s prepisem do fonemu

obohacenı textu o informace (viz SSML dale) o lokalnıch fyzikalnıchcharakteristikach vysledne zvukove vlny:

• delka fonemu – tempo reci, pauzy• intonace vety – vzor pro hladinu zakladnı frekvence (pitch)• ton – v nekterych (tzv. tonovych) jazycıch urcuje vyznam• lexikalnı prızvuk – v prızvukovych jazycıch ovlivnuje delku, hlasitost a

ton slov

kvalitnı vypocet prozodie = prirozenost syntetizovane recinapr. u tonalnıch jazyku silne ovlivnı i porozumenı

Emoce• clovek je pri projevu pouzıva• vyzkum syntezi s emocemi je o dost slozitejsı

Uvod do pocıtacove lingvistiky 3/11 5 / 20

Page 27: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Prozodicky prepis

Prozodicky prepis

tzv. suprasegmentalnı rysy

popisuje recovy proud spolu s prepisem do fonemu

obohacenı textu o informace (viz SSML dale) o lokalnıch fyzikalnıchcharakteristikach vysledne zvukove vlny:

• delka fonemu – tempo reci, pauzy• intonace vety – vzor pro hladinu zakladnı frekvence (pitch)• ton – v nekterych (tzv. tonovych) jazycıch urcuje vyznam• lexikalnı prızvuk – v prızvukovych jazycıch ovlivnuje delku, hlasitost a

ton slov

kvalitnı vypocet prozodie = prirozenost syntetizovane recinapr. u tonalnıch jazyku silne ovlivnı i porozumenı

Emoce• clovek je pri projevu pouzıva• vyzkum syntezi s emocemi je o dost slozitejsı

Uvod do pocıtacove lingvistiky 3/11 5 / 20

Page 28: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Prozodicky prepis

Prozodicky prepis

tzv. suprasegmentalnı rysy

popisuje recovy proud spolu s prepisem do fonemu

obohacenı textu o informace (viz SSML dale) o lokalnıch fyzikalnıchcharakteristikach vysledne zvukove vlny:

• delka fonemu – tempo reci, pauzy• intonace vety – vzor pro hladinu zakladnı frekvence (pitch)• ton – v nekterych (tzv. tonovych) jazycıch urcuje vyznam• lexikalnı prızvuk – v prızvukovych jazycıch ovlivnuje delku, hlasitost a

ton slov

kvalitnı vypocet prozodie = prirozenost syntetizovane recinapr. u tonalnıch jazyku silne ovlivnı i porozumenı

Emoce• clovek je pri projevu pouzıva• vyzkum syntezi s emocemi je o dost slozitejsı

Uvod do pocıtacove lingvistiky 3/11 5 / 20

Page 29: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Prozodicky prepis

Prozodicky prepis

tzv. suprasegmentalnı rysy

popisuje recovy proud spolu s prepisem do fonemu

obohacenı textu o informace (viz SSML dale) o lokalnıch fyzikalnıchcharakteristikach vysledne zvukove vlny:

• delka fonemu – tempo reci, pauzy• intonace vety – vzor pro hladinu zakladnı frekvence (pitch)• ton – v nekterych (tzv. tonovych) jazycıch urcuje vyznam• lexikalnı prızvuk – v prızvukovych jazycıch ovlivnuje delku, hlasitost a

ton slov

kvalitnı vypocet prozodie = prirozenost syntetizovane recinapr. u tonalnıch jazyku silne ovlivnı i porozumenı

Emoce• clovek je pri projevu pouzıva• vyzkum syntezi s emocemi je o dost slozitejsı

Uvod do pocıtacove lingvistiky 3/11 5 / 20

Page 30: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Prozodicky prepis

Prozodicky prepis

tzv. suprasegmentalnı rysy

popisuje recovy proud spolu s prepisem do fonemu

obohacenı textu o informace (viz SSML dale) o lokalnıch fyzikalnıchcharakteristikach vysledne zvukove vlny:

• delka fonemu – tempo reci, pauzy• intonace vety – vzor pro hladinu zakladnı frekvence (pitch)• ton – v nekterych (tzv. tonovych) jazycıch urcuje vyznam• lexikalnı prızvuk – v prızvukovych jazycıch ovlivnuje delku, hlasitost a

ton slov

kvalitnı vypocet prozodie = prirozenost syntetizovane recinapr. u tonalnıch jazyku silne ovlivnı i porozumenı

Emoce• clovek je pri projevu pouzıva• vyzkum syntezi s emocemi je o dost slozitejsı

Uvod do pocıtacove lingvistiky 3/11 5 / 20

Page 31: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Prozodicky prepis

Prozodicky prepis

tzv. suprasegmentalnı rysy

popisuje recovy proud spolu s prepisem do fonemu

obohacenı textu o informace (viz SSML dale) o lokalnıch fyzikalnıchcharakteristikach vysledne zvukove vlny:

• delka fonemu – tempo reci, pauzy• intonace vety – vzor pro hladinu zakladnı frekvence (pitch)• ton – v nekterych (tzv. tonovych) jazycıch urcuje vyznam• lexikalnı prızvuk – v prızvukovych jazycıch ovlivnuje delku, hlasitost a

ton slov

kvalitnı vypocet prozodie = prirozenost syntetizovane recinapr. u tonalnıch jazyku silne ovlivnı i porozumenı

Emoce• clovek je pri projevu pouzıva• vyzkum syntezi s emocemi je o dost slozitejsı

Uvod do pocıtacove lingvistiky 3/11 5 / 20

Page 32: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Prozodicky prepis

Prozodicky prepis

tzv. suprasegmentalnı rysy

popisuje recovy proud spolu s prepisem do fonemu

obohacenı textu o informace (viz SSML dale) o lokalnıch fyzikalnıchcharakteristikach vysledne zvukove vlny:

• delka fonemu – tempo reci, pauzy• intonace vety – vzor pro hladinu zakladnı frekvence (pitch)• ton – v nekterych (tzv. tonovych) jazycıch urcuje vyznam• lexikalnı prızvuk – v prızvukovych jazycıch ovlivnuje delku, hlasitost a

ton slov

kvalitnı vypocet prozodie = prirozenost syntetizovane recinapr. u tonalnıch jazyku silne ovlivnı i porozumenı

Emoce• clovek je pri projevu pouzıva• vyzkum syntezi s emocemi je o dost slozitejsı

Uvod do pocıtacove lingvistiky 3/11 5 / 20

Page 33: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Prozodicky prepis

Prozodicky prepis

tzv. suprasegmentalnı rysy

popisuje recovy proud spolu s prepisem do fonemu

obohacenı textu o informace (viz SSML dale) o lokalnıch fyzikalnıchcharakteristikach vysledne zvukove vlny:

• delka fonemu – tempo reci, pauzy• intonace vety – vzor pro hladinu zakladnı frekvence (pitch)• ton – v nekterych (tzv. tonovych) jazycıch urcuje vyznam• lexikalnı prızvuk – v prızvukovych jazycıch ovlivnuje delku, hlasitost a

ton slov

kvalitnı vypocet prozodie = prirozenost syntetizovane recinapr. u tonalnıch jazyku silne ovlivnı i porozumenı

Emoce• clovek je pri projevu pouzıva• vyzkum syntezi s emocemi je o dost slozitejsı

Uvod do pocıtacove lingvistiky 3/11 5 / 20

Page 34: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci SSML

Speech Synthesis Markup Language (SSML)

Doporucenı W3C (jako HTML, XML, ...) – standardnı zpusob prodoplnenı fonetiky a prozodie do textu

Pokryva prvnı 3 faze syntezy reci (normalizace, foneticky prepis, prozodie)

<say-as> – explicitnı urcenı typu dat (napr. Type="Acronym",viz Normalizace)

<phoneme> – foneticky prepis textu

<voice> – zmena hlasu (atributy vek, muz/zena, . . . )

<emphasis> – pridanı/odebranı durazu

<break> – vlozenı/zrusenı pauzy

<prosody> – ovlivnenı prozodie (vyska hlasu, kontura, rychlost,hlasitost atd.)

Uvod do pocıtacove lingvistiky 3/11 6 / 20

Page 35: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci SSML

Speech Synthesis Markup Language (SSML)

Doporucenı W3C (jako HTML, XML, ...) – standardnı zpusob prodoplnenı fonetiky a prozodie do textu

Pokryva prvnı 3 faze syntezy reci (normalizace, foneticky prepis, prozodie)

<say-as> – explicitnı urcenı typu dat (napr. Type="Acronym",viz Normalizace)

<phoneme> – foneticky prepis textu

<voice> – zmena hlasu (atributy vek, muz/zena, . . . )

<emphasis> – pridanı/odebranı durazu

<break> – vlozenı/zrusenı pauzy

<prosody> – ovlivnenı prozodie (vyska hlasu, kontura, rychlost,hlasitost atd.)

Uvod do pocıtacove lingvistiky 3/11 6 / 20

Page 36: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci SSML

Speech Synthesis Markup Language (SSML)

Doporucenı W3C (jako HTML, XML, ...) – standardnı zpusob prodoplnenı fonetiky a prozodie do textu

Pokryva prvnı 3 faze syntezy reci (normalizace, foneticky prepis, prozodie)

<say-as> – explicitnı urcenı typu dat (napr. Type="Acronym",viz Normalizace)

<phoneme> – foneticky prepis textu

<voice> – zmena hlasu (atributy vek, muz/zena, . . . )

<emphasis> – pridanı/odebranı durazu

<break> – vlozenı/zrusenı pauzy

<prosody> – ovlivnenı prozodie (vyska hlasu, kontura, rychlost,hlasitost atd.)

Uvod do pocıtacove lingvistiky 3/11 6 / 20

Page 37: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci SSML

Speech Synthesis Markup Language (SSML)

Doporucenı W3C (jako HTML, XML, ...) – standardnı zpusob prodoplnenı fonetiky a prozodie do textu

Pokryva prvnı 3 faze syntezy reci (normalizace, foneticky prepis, prozodie)

<say-as> – explicitnı urcenı typu dat (napr. Type="Acronym",viz Normalizace)

<phoneme> – foneticky prepis textu

<voice> – zmena hlasu (atributy vek, muz/zena, . . . )

<emphasis> – pridanı/odebranı durazu

<break> – vlozenı/zrusenı pauzy

<prosody> – ovlivnenı prozodie (vyska hlasu, kontura, rychlost,hlasitost atd.)

Uvod do pocıtacove lingvistiky 3/11 6 / 20

Page 38: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci SSML

Speech Synthesis Markup Language (SSML)

Doporucenı W3C (jako HTML, XML, ...) – standardnı zpusob prodoplnenı fonetiky a prozodie do textu

Pokryva prvnı 3 faze syntezy reci (normalizace, foneticky prepis, prozodie)

<say-as> – explicitnı urcenı typu dat (napr. Type="Acronym",viz Normalizace)

<phoneme> – foneticky prepis textu

<voice> – zmena hlasu (atributy vek, muz/zena, . . . )

<emphasis> – pridanı/odebranı durazu

<break> – vlozenı/zrusenı pauzy

<prosody> – ovlivnenı prozodie (vyska hlasu, kontura, rychlost,hlasitost atd.)

Uvod do pocıtacove lingvistiky 3/11 6 / 20

Page 39: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci SSML

Speech Synthesis Markup Language (SSML)

Doporucenı W3C (jako HTML, XML, ...) – standardnı zpusob prodoplnenı fonetiky a prozodie do textu

Pokryva prvnı 3 faze syntezy reci (normalizace, foneticky prepis, prozodie)

<say-as> – explicitnı urcenı typu dat (napr. Type="Acronym",viz Normalizace)

<phoneme> – foneticky prepis textu

<voice> – zmena hlasu (atributy vek, muz/zena, . . . )

<emphasis> – pridanı/odebranı durazu

<break> – vlozenı/zrusenı pauzy

<prosody> – ovlivnenı prozodie (vyska hlasu, kontura, rychlost,hlasitost atd.)

Uvod do pocıtacove lingvistiky 3/11 6 / 20

Page 40: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci SSML

Speech Synthesis Markup Language (SSML)

Doporucenı W3C (jako HTML, XML, ...) – standardnı zpusob prodoplnenı fonetiky a prozodie do textu

Pokryva prvnı 3 faze syntezy reci (normalizace, foneticky prepis, prozodie)

<say-as> – explicitnı urcenı typu dat (napr. Type="Acronym",viz Normalizace)

<phoneme> – foneticky prepis textu

<voice> – zmena hlasu (atributy vek, muz/zena, . . . )

<emphasis> – pridanı/odebranı durazu

<break> – vlozenı/zrusenı pauzy

<prosody> – ovlivnenı prozodie (vyska hlasu, kontura, rychlost,hlasitost atd.)

Uvod do pocıtacove lingvistiky 3/11 6 / 20

Page 41: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci SSML

Speech Synthesis Markup Language (SSML)

Doporucenı W3C (jako HTML, XML, ...) – standardnı zpusob prodoplnenı fonetiky a prozodie do textu

Pokryva prvnı 3 faze syntezy reci (normalizace, foneticky prepis, prozodie)

<say-as> – explicitnı urcenı typu dat (napr. Type="Acronym",viz Normalizace)

<phoneme> – foneticky prepis textu

<voice> – zmena hlasu (atributy vek, muz/zena, . . . )

<emphasis> – pridanı/odebranı durazu

<break> – vlozenı/zrusenı pauzy

<prosody> – ovlivnenı prozodie (vyska hlasu, kontura, rychlost,hlasitost atd.)

Uvod do pocıtacove lingvistiky 3/11 6 / 20

Page 42: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci SSML

Speech Synthesis Markup Language (SSML) – prıklad

<?xml version="1.0" encoding="UTF-8"?>

<vxml version="2.0" xmlns="http://www.w3.org/2001/vxml">

<form>

<block>

<prompt>

<voice gender="male"><emphasis>Hello</emphasis> Jane.</voice>

<voice gender="female"><emphasis>Hello</emphasis> Mike,

how <emphasis>are</emphasis> you?</voice>

<voice gender="male">I am fine. And how are

<emphasis>you</emphasis> Jane?</voice>

<voice gender="female">Not bad.</voice>

<voice gender="male">OK, Goodbye.</voice>

<voice gender="female"><emphasis>Goodbye</emphasis>

Mike.</voice>

</prompt>

</block>

</form>

</vxml>

Uvod do pocıtacove lingvistiky 3/11 7 / 20

Page 43: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Akusticke modelovanı

Generovanı vysledneho akustickeho signalu z predzpracovaneho textu(resı DSP modul)

Dva zakladnı prıstupy• synteza reci v casove oblasti• synteza reci ve frekvencnı oblasti

Uvod do pocıtacove lingvistiky 3/11 8 / 20

Page 44: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Akusticke modelovanı

Generovanı vysledneho akustickeho signalu z predzpracovaneho textu(resı DSP modul)

Dva zakladnı prıstupy• synteza reci v casove oblasti• synteza reci ve frekvencnı oblasti

Uvod do pocıtacove lingvistiky 3/11 8 / 20

Page 45: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Akusticke modelovanı

Generovanı vysledneho akustickeho signalu z predzpracovaneho textu(resı DSP modul)

Dva zakladnı prıstupy• synteza reci v casove oblasti• synteza reci ve frekvencnı oblasti

Uvod do pocıtacove lingvistiky 3/11 8 / 20

Page 46: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Akusticke modelovanı

Generovanı vysledneho akustickeho signalu z predzpracovaneho textu(resı DSP modul)

Dva zakladnı prıstupy• synteza reci v casove oblasti• synteza reci ve frekvencnı oblasti

Uvod do pocıtacove lingvistiky 3/11 8 / 20

Page 47: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci v casove oblasti

= konkatenativnı synteza

Vysledna rec se sklada z vybranych, dopredu namluvenych segmentureci (difonu, trifonu, slabik apod.)

Relativne jednoduche na implementaci

Nutnost vytvorenı rozsahle databaze segmentu (koartikulace, napr. ’a’znı jinak v tata a mama):

• difony – t a t a

• trifony – t a t a

• kombinace – heterogennı segmenty (nekdy difony, trifony i cela slova)

Dochazı k deformaci segmentu jejich spojovanım a aplikacıprozodickych pravidel – “tajemstvı” komercnıch aplikacı

Uvod do pocıtacove lingvistiky 3/11 9 / 20

Page 48: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci v casove oblasti

= konkatenativnı synteza

Vysledna rec se sklada z vybranych, dopredu namluvenych segmentureci (difonu, trifonu, slabik apod.)

Relativne jednoduche na implementaci

Nutnost vytvorenı rozsahle databaze segmentu (koartikulace, napr. ’a’znı jinak v tata a mama):

• difony – t a t a

• trifony – t a t a

• kombinace – heterogennı segmenty (nekdy difony, trifony i cela slova)

Dochazı k deformaci segmentu jejich spojovanım a aplikacıprozodickych pravidel – “tajemstvı” komercnıch aplikacı

Uvod do pocıtacove lingvistiky 3/11 9 / 20

Page 49: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci v casove oblasti

= konkatenativnı synteza

Vysledna rec se sklada z vybranych, dopredu namluvenych segmentureci (difonu, trifonu, slabik apod.)

Relativne jednoduche na implementaci

Nutnost vytvorenı rozsahle databaze segmentu (koartikulace, napr. ’a’znı jinak v tata a mama):

• difony – t a t a

• trifony – t a t a

• kombinace – heterogennı segmenty (nekdy difony, trifony i cela slova)

Dochazı k deformaci segmentu jejich spojovanım a aplikacıprozodickych pravidel – “tajemstvı” komercnıch aplikacı

Uvod do pocıtacove lingvistiky 3/11 9 / 20

Page 50: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci v casove oblasti

= konkatenativnı synteza

Vysledna rec se sklada z vybranych, dopredu namluvenych segmentureci (difonu, trifonu, slabik apod.)

Relativne jednoduche na implementaci

Nutnost vytvorenı rozsahle databaze segmentu (koartikulace, napr. ’a’znı jinak v tata a mama):

• difony – t a t a

• trifony – t a t a

• kombinace – heterogennı segmenty (nekdy difony, trifony i cela slova)

Dochazı k deformaci segmentu jejich spojovanım a aplikacıprozodickych pravidel – “tajemstvı” komercnıch aplikacı

Uvod do pocıtacove lingvistiky 3/11 9 / 20

Page 51: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci v casove oblasti

= konkatenativnı synteza

Vysledna rec se sklada z vybranych, dopredu namluvenych segmentureci (difonu, trifonu, slabik apod.)

Relativne jednoduche na implementaci

Nutnost vytvorenı rozsahle databaze segmentu (koartikulace, napr. ’a’znı jinak v tata a mama):

• difony – t a t a

• trifony – t a t a

• kombinace – heterogennı segmenty (nekdy difony, trifony i cela slova)

Dochazı k deformaci segmentu jejich spojovanım a aplikacıprozodickych pravidel – “tajemstvı” komercnıch aplikacı

Uvod do pocıtacove lingvistiky 3/11 9 / 20

Page 52: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci v casove oblasti

= konkatenativnı synteza

Vysledna rec se sklada z vybranych, dopredu namluvenych segmentureci (difonu, trifonu, slabik apod.)

Relativne jednoduche na implementaci

Nutnost vytvorenı rozsahle databaze segmentu (koartikulace, napr. ’a’znı jinak v tata a mama):

• difony – t a t a

• trifony – t a t a

• kombinace – heterogennı segmenty (nekdy difony, trifony i cela slova)

Dochazı k deformaci segmentu jejich spojovanım a aplikacıprozodickych pravidel – “tajemstvı” komercnıch aplikacı

Uvod do pocıtacove lingvistiky 3/11 9 / 20

Page 53: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci v casove oblasti

= konkatenativnı synteza

Vysledna rec se sklada z vybranych, dopredu namluvenych segmentureci (difonu, trifonu, slabik apod.)

Relativne jednoduche na implementaci

Nutnost vytvorenı rozsahle databaze segmentu (koartikulace, napr. ’a’znı jinak v tata a mama):

• difony – t a t a

• trifony – t a t a

• kombinace – heterogennı segmenty (nekdy difony, trifony i cela slova)

Dochazı k deformaci segmentu jejich spojovanım a aplikacıprozodickych pravidel – “tajemstvı” komercnıch aplikacı

Uvod do pocıtacove lingvistiky 3/11 9 / 20

Page 54: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci v casove oblasti

= konkatenativnı synteza

Vysledna rec se sklada z vybranych, dopredu namluvenych segmentureci (difonu, trifonu, slabik apod.)

Relativne jednoduche na implementaci

Nutnost vytvorenı rozsahle databaze segmentu (koartikulace, napr. ’a’znı jinak v tata a mama):

• difony – t a t a

• trifony – t a t a

• kombinace – heterogennı segmenty (nekdy difony, trifony i cela slova)

Dochazı k deformaci segmentu jejich spojovanım a aplikacıprozodickych pravidel – “tajemstvı” komercnıch aplikacı

Uvod do pocıtacove lingvistiky 3/11 9 / 20

Page 55: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci ve frekvencnı oblasti

2 hlavnı prıstupy:

Modelovanı hlasoveho ustrojı• Generovany zvuk zavisı na parametrech tohoto hlasoveho ustrojı.• ⊕ Velka flexibilita (novy hlas lze vytvorit pouhou zmenou parametru)• ⊖ Velmi narocne vypocty (resı se fyzikalnı rovnice modelujıcı situaci ve

vokalnım traktu, diferencialnı rovnice, vets. degradujı na valce/koule,ale stejne moc narocne) ⇒v praxi se temer nepouzıva

Formantova synteza• Modelovanı (jen) hlavnıch akustickych rysu recoveho signalu• Zdroj/filtr model – zdroj generuje zakladnı ton pro znele casti reci a

sum pro neznele casti reci a filtry modifikujı zvukove spektrum anapodobujı tak hlavnı funkce lidskeho vokalnıho traktu

• Zdroj i filtr jsou rızeny mnozinou fonetickych pravidel → syntezazalozena na pravidlech

• Lze pocıtat v realnem case• Mnohem mensı data nez u konkatenativnı syntezy → vhodne i pro PDA

Uvod do pocıtacove lingvistiky 3/11 10 / 20

Page 56: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci ve frekvencnı oblasti

2 hlavnı prıstupy:

Modelovanı hlasoveho ustrojı• Generovany zvuk zavisı na parametrech tohoto hlasoveho ustrojı.• ⊕ Velka flexibilita (novy hlas lze vytvorit pouhou zmenou parametru)• ⊖ Velmi narocne vypocty (resı se fyzikalnı rovnice modelujıcı situaci ve

vokalnım traktu, diferencialnı rovnice, vets. degradujı na valce/koule,ale stejne moc narocne) ⇒v praxi se temer nepouzıva

Formantova synteza• Modelovanı (jen) hlavnıch akustickych rysu recoveho signalu• Zdroj/filtr model – zdroj generuje zakladnı ton pro znele casti reci a

sum pro neznele casti reci a filtry modifikujı zvukove spektrum anapodobujı tak hlavnı funkce lidskeho vokalnıho traktu

• Zdroj i filtr jsou rızeny mnozinou fonetickych pravidel → syntezazalozena na pravidlech

• Lze pocıtat v realnem case• Mnohem mensı data nez u konkatenativnı syntezy → vhodne i pro PDA

Uvod do pocıtacove lingvistiky 3/11 10 / 20

Page 57: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci ve frekvencnı oblasti

2 hlavnı prıstupy:

Modelovanı hlasoveho ustrojı• Generovany zvuk zavisı na parametrech tohoto hlasoveho ustrojı.• ⊕ Velka flexibilita (novy hlas lze vytvorit pouhou zmenou parametru)• ⊖ Velmi narocne vypocty (resı se fyzikalnı rovnice modelujıcı situaci ve

vokalnım traktu, diferencialnı rovnice, vets. degradujı na valce/koule,ale stejne moc narocne) ⇒v praxi se temer nepouzıva

Formantova synteza• Modelovanı (jen) hlavnıch akustickych rysu recoveho signalu• Zdroj/filtr model – zdroj generuje zakladnı ton pro znele casti reci a

sum pro neznele casti reci a filtry modifikujı zvukove spektrum anapodobujı tak hlavnı funkce lidskeho vokalnıho traktu

• Zdroj i filtr jsou rızeny mnozinou fonetickych pravidel → syntezazalozena na pravidlech

• Lze pocıtat v realnem case• Mnohem mensı data nez u konkatenativnı syntezy → vhodne i pro PDA

Uvod do pocıtacove lingvistiky 3/11 10 / 20

Page 58: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci ve frekvencnı oblasti

2 hlavnı prıstupy:

Modelovanı hlasoveho ustrojı• Generovany zvuk zavisı na parametrech tohoto hlasoveho ustrojı.• ⊕ Velka flexibilita (novy hlas lze vytvorit pouhou zmenou parametru)• ⊖ Velmi narocne vypocty (resı se fyzikalnı rovnice modelujıcı situaci ve

vokalnım traktu, diferencialnı rovnice, vets. degradujı na valce/koule,ale stejne moc narocne) ⇒v praxi se temer nepouzıva

Formantova synteza• Modelovanı (jen) hlavnıch akustickych rysu recoveho signalu• Zdroj/filtr model – zdroj generuje zakladnı ton pro znele casti reci a

sum pro neznele casti reci a filtry modifikujı zvukove spektrum anapodobujı tak hlavnı funkce lidskeho vokalnıho traktu

• Zdroj i filtr jsou rızeny mnozinou fonetickych pravidel → syntezazalozena na pravidlech

• Lze pocıtat v realnem case• Mnohem mensı data nez u konkatenativnı syntezy → vhodne i pro PDA

Uvod do pocıtacove lingvistiky 3/11 10 / 20

Page 59: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci ve frekvencnı oblasti

2 hlavnı prıstupy:

Modelovanı hlasoveho ustrojı• Generovany zvuk zavisı na parametrech tohoto hlasoveho ustrojı.• ⊕ Velka flexibilita (novy hlas lze vytvorit pouhou zmenou parametru)• ⊖ Velmi narocne vypocty (resı se fyzikalnı rovnice modelujıcı situaci ve

vokalnım traktu, diferencialnı rovnice, vets. degradujı na valce/koule,ale stejne moc narocne) ⇒v praxi se temer nepouzıva

Formantova synteza• Modelovanı (jen) hlavnıch akustickych rysu recoveho signalu• Zdroj/filtr model – zdroj generuje zakladnı ton pro znele casti reci a

sum pro neznele casti reci a filtry modifikujı zvukove spektrum anapodobujı tak hlavnı funkce lidskeho vokalnıho traktu

• Zdroj i filtr jsou rızeny mnozinou fonetickych pravidel → syntezazalozena na pravidlech

• Lze pocıtat v realnem case• Mnohem mensı data nez u konkatenativnı syntezy → vhodne i pro PDA

Uvod do pocıtacove lingvistiky 3/11 10 / 20

Page 60: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci ve frekvencnı oblasti

2 hlavnı prıstupy:

Modelovanı hlasoveho ustrojı• Generovany zvuk zavisı na parametrech tohoto hlasoveho ustrojı.• ⊕ Velka flexibilita (novy hlas lze vytvorit pouhou zmenou parametru)• ⊖ Velmi narocne vypocty (resı se fyzikalnı rovnice modelujıcı situaci ve

vokalnım traktu, diferencialnı rovnice, vets. degradujı na valce/koule,ale stejne moc narocne) ⇒v praxi se temer nepouzıva

Formantova synteza• Modelovanı (jen) hlavnıch akustickych rysu recoveho signalu• Zdroj/filtr model – zdroj generuje zakladnı ton pro znele casti reci a

sum pro neznele casti reci a filtry modifikujı zvukove spektrum anapodobujı tak hlavnı funkce lidskeho vokalnıho traktu

• Zdroj i filtr jsou rızeny mnozinou fonetickych pravidel → syntezazalozena na pravidlech

• Lze pocıtat v realnem case• Mnohem mensı data nez u konkatenativnı syntezy → vhodne i pro PDA

Uvod do pocıtacove lingvistiky 3/11 10 / 20

Page 61: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci ve frekvencnı oblasti

2 hlavnı prıstupy:

Modelovanı hlasoveho ustrojı• Generovany zvuk zavisı na parametrech tohoto hlasoveho ustrojı.• ⊕ Velka flexibilita (novy hlas lze vytvorit pouhou zmenou parametru)• ⊖ Velmi narocne vypocty (resı se fyzikalnı rovnice modelujıcı situaci ve

vokalnım traktu, diferencialnı rovnice, vets. degradujı na valce/koule,ale stejne moc narocne) ⇒v praxi se temer nepouzıva

Formantova synteza• Modelovanı (jen) hlavnıch akustickych rysu recoveho signalu• Zdroj/filtr model – zdroj generuje zakladnı ton pro znele casti reci a

sum pro neznele casti reci a filtry modifikujı zvukove spektrum anapodobujı tak hlavnı funkce lidskeho vokalnıho traktu

• Zdroj i filtr jsou rızeny mnozinou fonetickych pravidel → syntezazalozena na pravidlech

• Lze pocıtat v realnem case• Mnohem mensı data nez u konkatenativnı syntezy → vhodne i pro PDA

Uvod do pocıtacove lingvistiky 3/11 10 / 20

Page 62: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci ve frekvencnı oblasti

2 hlavnı prıstupy:

Modelovanı hlasoveho ustrojı• Generovany zvuk zavisı na parametrech tohoto hlasoveho ustrojı.• ⊕ Velka flexibilita (novy hlas lze vytvorit pouhou zmenou parametru)• ⊖ Velmi narocne vypocty (resı se fyzikalnı rovnice modelujıcı situaci ve

vokalnım traktu, diferencialnı rovnice, vets. degradujı na valce/koule,ale stejne moc narocne) ⇒v praxi se temer nepouzıva

Formantova synteza• Modelovanı (jen) hlavnıch akustickych rysu recoveho signalu• Zdroj/filtr model – zdroj generuje zakladnı ton pro znele casti reci a

sum pro neznele casti reci a filtry modifikujı zvukove spektrum anapodobujı tak hlavnı funkce lidskeho vokalnıho traktu

• Zdroj i filtr jsou rızeny mnozinou fonetickych pravidel → syntezazalozena na pravidlech

• Lze pocıtat v realnem case• Mnohem mensı data nez u konkatenativnı syntezy → vhodne i pro PDA

Uvod do pocıtacove lingvistiky 3/11 10 / 20

Page 63: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci ve frekvencnı oblasti

2 hlavnı prıstupy:

Modelovanı hlasoveho ustrojı• Generovany zvuk zavisı na parametrech tohoto hlasoveho ustrojı.• ⊕ Velka flexibilita (novy hlas lze vytvorit pouhou zmenou parametru)• ⊖ Velmi narocne vypocty (resı se fyzikalnı rovnice modelujıcı situaci ve

vokalnım traktu, diferencialnı rovnice, vets. degradujı na valce/koule,ale stejne moc narocne) ⇒v praxi se temer nepouzıva

Formantova synteza• Modelovanı (jen) hlavnıch akustickych rysu recoveho signalu• Zdroj/filtr model – zdroj generuje zakladnı ton pro znele casti reci a

sum pro neznele casti reci a filtry modifikujı zvukove spektrum anapodobujı tak hlavnı funkce lidskeho vokalnıho traktu

• Zdroj i filtr jsou rızeny mnozinou fonetickych pravidel → syntezazalozena na pravidlech

• Lze pocıtat v realnem case• Mnohem mensı data nez u konkatenativnı syntezy → vhodne i pro PDA

Uvod do pocıtacove lingvistiky 3/11 10 / 20

Page 64: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci ve frekvencnı oblasti

2 hlavnı prıstupy:

Modelovanı hlasoveho ustrojı• Generovany zvuk zavisı na parametrech tohoto hlasoveho ustrojı.• ⊕ Velka flexibilita (novy hlas lze vytvorit pouhou zmenou parametru)• ⊖ Velmi narocne vypocty (resı se fyzikalnı rovnice modelujıcı situaci ve

vokalnım traktu, diferencialnı rovnice, vets. degradujı na valce/koule,ale stejne moc narocne) ⇒v praxi se temer nepouzıva

Formantova synteza• Modelovanı (jen) hlavnıch akustickych rysu recoveho signalu• Zdroj/filtr model – zdroj generuje zakladnı ton pro znele casti reci a

sum pro neznele casti reci a filtry modifikujı zvukove spektrum anapodobujı tak hlavnı funkce lidskeho vokalnıho traktu

• Zdroj i filtr jsou rızeny mnozinou fonetickych pravidel → syntezazalozena na pravidlech

• Lze pocıtat v realnem case• Mnohem mensı data nez u konkatenativnı syntezy → vhodne i pro PDA

Uvod do pocıtacove lingvistiky 3/11 10 / 20

Page 65: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci Akusticke modelovanı

Synteza reci ve frekvencnı oblasti

2 hlavnı prıstupy:

Modelovanı hlasoveho ustrojı• Generovany zvuk zavisı na parametrech tohoto hlasoveho ustrojı.• ⊕ Velka flexibilita (novy hlas lze vytvorit pouhou zmenou parametru)• ⊖ Velmi narocne vypocty (resı se fyzikalnı rovnice modelujıcı situaci ve

vokalnım traktu, diferencialnı rovnice, vets. degradujı na valce/koule,ale stejne moc narocne) ⇒v praxi se temer nepouzıva

Formantova synteza• Modelovanı (jen) hlavnıch akustickych rysu recoveho signalu• Zdroj/filtr model – zdroj generuje zakladnı ton pro znele casti reci a

sum pro neznele casti reci a filtry modifikujı zvukove spektrum anapodobujı tak hlavnı funkce lidskeho vokalnıho traktu

• Zdroj i filtr jsou rızeny mnozinou fonetickych pravidel → syntezazalozena na pravidlech

• Lze pocıtat v realnem case• Mnohem mensı data nez u konkatenativnı syntezy → vhodne i pro PDA

Uvod do pocıtacove lingvistiky 3/11 10 / 20

Page 66: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci TTS systemy

TTS systemy ve svete

nejcastejsı pouzitı – telefonnı systemy

c©Nuance (http://www.nuance.com/) DEMO

c©Loquendo (http://www.loquendo.com/) DEMO

c©Acapela group (http://www.acapela-group.com/) DEMO

• zalozena v roce 2004 tremi spolecnostmi, jedna z nich autor Mbroly

c©IBM (http://www.research.ibm.com/tts/)

c©AT&T (http://www.research.att.com/)

Festival (http://www.cstr.ed.ac.uk/projects/festival/)

Mbrola (http://tcts.fpms.ac.be/synthesis/mbrola.html)

FreeTTS (http://freetts.sourceforge.net/)

Uvod do pocıtacove lingvistiky 3/11 11 / 20

Page 67: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci TTS systemy

TTS systemy ve svete

nejcastejsı pouzitı – telefonnı systemy

c©Nuance (http://www.nuance.com/) DEMO

c©Loquendo (http://www.loquendo.com/) DEMO

c©Acapela group (http://www.acapela-group.com/) DEMO

• zalozena v roce 2004 tremi spolecnostmi, jedna z nich autor Mbroly

c©IBM (http://www.research.ibm.com/tts/)

c©AT&T (http://www.research.att.com/)

Festival (http://www.cstr.ed.ac.uk/projects/festival/)

Mbrola (http://tcts.fpms.ac.be/synthesis/mbrola.html)

FreeTTS (http://freetts.sourceforge.net/)

Uvod do pocıtacove lingvistiky 3/11 11 / 20

Page 68: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci TTS systemy

TTS systemy ve svete

nejcastejsı pouzitı – telefonnı systemy

c©Nuance (http://www.nuance.com/) DEMO

c©Loquendo (http://www.loquendo.com/) DEMO

c©Acapela group (http://www.acapela-group.com/) DEMO

• zalozena v roce 2004 tremi spolecnostmi, jedna z nich autor Mbroly

c©IBM (http://www.research.ibm.com/tts/)

c©AT&T (http://www.research.att.com/)

Festival (http://www.cstr.ed.ac.uk/projects/festival/)

Mbrola (http://tcts.fpms.ac.be/synthesis/mbrola.html)

FreeTTS (http://freetts.sourceforge.net/)

Uvod do pocıtacove lingvistiky 3/11 11 / 20

Page 69: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci TTS systemy

TTS systemy ve svete

nejcastejsı pouzitı – telefonnı systemy

c©Nuance (http://www.nuance.com/) DEMO

c©Loquendo (http://www.loquendo.com/) DEMO

c©Acapela group (http://www.acapela-group.com/) DEMO

• zalozena v roce 2004 tremi spolecnostmi, jedna z nich autor Mbroly

c©IBM (http://www.research.ibm.com/tts/)

c©AT&T (http://www.research.att.com/)

Festival (http://www.cstr.ed.ac.uk/projects/festival/)

Mbrola (http://tcts.fpms.ac.be/synthesis/mbrola.html)

FreeTTS (http://freetts.sourceforge.net/)

Uvod do pocıtacove lingvistiky 3/11 11 / 20

Page 70: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci TTS systemy

TTS systemy ve svete

nejcastejsı pouzitı – telefonnı systemy

c©Nuance (http://www.nuance.com/) DEMO

c©Loquendo (http://www.loquendo.com/) DEMO

c©Acapela group (http://www.acapela-group.com/) DEMO

• zalozena v roce 2004 tremi spolecnostmi, jedna z nich autor Mbroly

c©IBM (http://www.research.ibm.com/tts/)

c©AT&T (http://www.research.att.com/)

Festival (http://www.cstr.ed.ac.uk/projects/festival/)

Mbrola (http://tcts.fpms.ac.be/synthesis/mbrola.html)

FreeTTS (http://freetts.sourceforge.net/)

Uvod do pocıtacove lingvistiky 3/11 11 / 20

Page 71: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci TTS systemy

TTS systemy ve svete

nejcastejsı pouzitı – telefonnı systemy

c©Nuance (http://www.nuance.com/) DEMO

c©Loquendo (http://www.loquendo.com/) DEMO

c©Acapela group (http://www.acapela-group.com/) DEMO

• zalozena v roce 2004 tremi spolecnostmi, jedna z nich autor Mbroly

c©IBM (http://www.research.ibm.com/tts/)

c©AT&T (http://www.research.att.com/)

Festival (http://www.cstr.ed.ac.uk/projects/festival/)

Mbrola (http://tcts.fpms.ac.be/synthesis/mbrola.html)

FreeTTS (http://freetts.sourceforge.net/)

Uvod do pocıtacove lingvistiky 3/11 11 / 20

Page 72: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci TTS systemy

TTS systemy ve svete

nejcastejsı pouzitı – telefonnı systemy

c©Nuance (http://www.nuance.com/) DEMO

c©Loquendo (http://www.loquendo.com/) DEMO

c©Acapela group (http://www.acapela-group.com/) DEMO

• zalozena v roce 2004 tremi spolecnostmi, jedna z nich autor Mbroly

c©IBM (http://www.research.ibm.com/tts/)

c©AT&T (http://www.research.att.com/)

Festival (http://www.cstr.ed.ac.uk/projects/festival/)

Mbrola (http://tcts.fpms.ac.be/synthesis/mbrola.html)

FreeTTS (http://freetts.sourceforge.net/)

Uvod do pocıtacove lingvistiky 3/11 11 / 20

Page 73: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci TTS systemy

TTS systemy ve svete

nejcastejsı pouzitı – telefonnı systemy

c©Nuance (http://www.nuance.com/) DEMO

c©Loquendo (http://www.loquendo.com/) DEMO

c©Acapela group (http://www.acapela-group.com/) DEMO

• zalozena v roce 2004 tremi spolecnostmi, jedna z nich autor Mbroly

c©IBM (http://www.research.ibm.com/tts/)

c©AT&T (http://www.research.att.com/)

Festival (http://www.cstr.ed.ac.uk/projects/festival/)

Mbrola (http://tcts.fpms.ac.be/synthesis/mbrola.html)

FreeTTS (http://freetts.sourceforge.net/)

Uvod do pocıtacove lingvistiky 3/11 11 / 20

Page 74: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci TTS systemy

Ceske TTS systemy

EPOS TTS (http://sourceforge.net/projects/epos) DEMO

• Ceska akademie ved + Karlova univerzita

Demosthenes, Popokatepetl• LSD FI

ERIS TTS (http://www.speechtech.cz/), heterogennı segmentyDEMO

• SpeechTech, s.r.o. + katedra kybernetiky FAV ZCUc© verze je nejlepsı cesky

Cesky hlas pro Mbrolu• Mikulas Pinos, NLP lab FI

Uvod do pocıtacove lingvistiky 3/11 12 / 20

Page 75: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci TTS systemy

Ceske TTS systemy

EPOS TTS (http://sourceforge.net/projects/epos) DEMO

• Ceska akademie ved + Karlova univerzita

Demosthenes, Popokatepetl• LSD FI

ERIS TTS (http://www.speechtech.cz/), heterogennı segmentyDEMO

• SpeechTech, s.r.o. + katedra kybernetiky FAV ZCUc© verze je nejlepsı cesky

Cesky hlas pro Mbrolu• Mikulas Pinos, NLP lab FI

Uvod do pocıtacove lingvistiky 3/11 12 / 20

Page 76: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci TTS systemy

Ceske TTS systemy

EPOS TTS (http://sourceforge.net/projects/epos) DEMO

• Ceska akademie ved + Karlova univerzita

Demosthenes, Popokatepetl• LSD FI

ERIS TTS (http://www.speechtech.cz/), heterogennı segmentyDEMO

• SpeechTech, s.r.o. + katedra kybernetiky FAV ZCUc© verze je nejlepsı cesky

Cesky hlas pro Mbrolu• Mikulas Pinos, NLP lab FI

Uvod do pocıtacove lingvistiky 3/11 12 / 20

Page 77: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Synteza reci TTS systemy

Ceske TTS systemy

EPOS TTS (http://sourceforge.net/projects/epos) DEMO

• Ceska akademie ved + Karlova univerzita

Demosthenes, Popokatepetl• LSD FI

ERIS TTS (http://www.speechtech.cz/), heterogennı segmentyDEMO

• SpeechTech, s.r.o. + katedra kybernetiky FAV ZCUc© verze je nejlepsı cesky

Cesky hlas pro Mbrolu• Mikulas Pinos, NLP lab FI

Uvod do pocıtacove lingvistiky 3/11 12 / 20

Page 78: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci

Automatic Speech Recognition, ASR

Konverze reci na text• Vystupem je vetsinou mnozina hypotez spolu s pravdepodobnostı

spravnosti dane hypotezy. K vyberu spravne hypotezy se beznevyuzıvajı jazykove modely

Lze zhruba rozdelit na• Rozpoznavanı izolovanych slov – slysitelna pauza mezi slovy• Rozpoznavanı kontinualnı reci – plynula rec (rec skoleneho mluvcıho

nebo cteny text)• Rozpoznavanı spontannı reci – prereky, pauzy, zacatky vet (false-starts)

Uvod do pocıtacove lingvistiky 3/11 13 / 20

Page 79: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci

Automatic Speech Recognition, ASR

Konverze reci na text• Vystupem je vetsinou mnozina hypotez spolu s pravdepodobnostı

spravnosti dane hypotezy. K vyberu spravne hypotezy se beznevyuzıvajı jazykove modely

Lze zhruba rozdelit na• Rozpoznavanı izolovanych slov – slysitelna pauza mezi slovy• Rozpoznavanı kontinualnı reci – plynula rec (rec skoleneho mluvcıho

nebo cteny text)• Rozpoznavanı spontannı reci – prereky, pauzy, zacatky vet (false-starts)

Uvod do pocıtacove lingvistiky 3/11 13 / 20

Page 80: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci

Automatic Speech Recognition, ASR

Konverze reci na text• Vystupem je vetsinou mnozina hypotez spolu s pravdepodobnostı

spravnosti dane hypotezy. K vyberu spravne hypotezy se beznevyuzıvajı jazykove modely

Lze zhruba rozdelit na• Rozpoznavanı izolovanych slov – slysitelna pauza mezi slovy• Rozpoznavanı kontinualnı reci – plynula rec (rec skoleneho mluvcıho

nebo cteny text)• Rozpoznavanı spontannı reci – prereky, pauzy, zacatky vet (false-starts)

Uvod do pocıtacove lingvistiky 3/11 13 / 20

Page 81: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci

Automatic Speech Recognition, ASR

Konverze reci na text• Vystupem je vetsinou mnozina hypotez spolu s pravdepodobnostı

spravnosti dane hypotezy. K vyberu spravne hypotezy se beznevyuzıvajı jazykove modely

Lze zhruba rozdelit na• Rozpoznavanı izolovanych slov – slysitelna pauza mezi slovy• Rozpoznavanı kontinualnı reci – plynula rec (rec skoleneho mluvcıho

nebo cteny text)• Rozpoznavanı spontannı reci – prereky, pauzy, zacatky vet (false-starts)

Uvod do pocıtacove lingvistiky 3/11 13 / 20

Page 82: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci

Automatic Speech Recognition, ASR

Konverze reci na text• Vystupem je vetsinou mnozina hypotez spolu s pravdepodobnostı

spravnosti dane hypotezy. K vyberu spravne hypotezy se beznevyuzıvajı jazykove modely

Lze zhruba rozdelit na• Rozpoznavanı izolovanych slov – slysitelna pauza mezi slovy• Rozpoznavanı kontinualnı reci – plynula rec (rec skoleneho mluvcıho

nebo cteny text)• Rozpoznavanı spontannı reci – prereky, pauzy, zacatky vet (false-starts)

Uvod do pocıtacove lingvistiky 3/11 13 / 20

Page 83: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci

Automatic Speech Recognition, ASR

Konverze reci na text• Vystupem je vetsinou mnozina hypotez spolu s pravdepodobnostı

spravnosti dane hypotezy. K vyberu spravne hypotezy se beznevyuzıvajı jazykove modely

Lze zhruba rozdelit na• Rozpoznavanı izolovanych slov – slysitelna pauza mezi slovy• Rozpoznavanı kontinualnı reci – plynula rec (rec skoleneho mluvcıho

nebo cteny text)• Rozpoznavanı spontannı reci – prereky, pauzy, zacatky vet (false-starts)

Uvod do pocıtacove lingvistiky 3/11 13 / 20

Page 84: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci

Automatic Speech Recognition, ASR

Konverze reci na text• Vystupem je vetsinou mnozina hypotez spolu s pravdepodobnostı

spravnosti dane hypotezy. K vyberu spravne hypotezy se beznevyuzıvajı jazykove modely

Lze zhruba rozdelit na• Rozpoznavanı izolovanych slov – slysitelna pauza mezi slovy• Rozpoznavanı kontinualnı reci – plynula rec (rec skoleneho mluvcıho

nebo cteny text)• Rozpoznavanı spontannı reci – prereky, pauzy, zacatky vet (false-starts)

Uvod do pocıtacove lingvistiky 3/11 13 / 20

Page 85: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Diktovacı stroje (napr. Dragon Naturally Speaking)• Schopne rozpoznat cokoliv• N-gramove statisticke jazykove modely• Zavisle na mluvcım (je potreba je natrenovat)

Rozpoznavace zalozene na gramatikach• Rozpoznajı jen fraze popsane (regularnı) gramatikou (gramatika =

jazykovy model)S → ”Jedu do ”MESTOMESTO → ”Prahy”| ”Brna”

• Nezavisle na mluvcım – telefonnı aplikace• Speech Recognition Grammar Specification (SRGS)

– standard W3 konzorcia, a la BNF

– existujı 2 notace – XML a sipkova pro ctenı

– da se do nı dat i “vyznam” vstupu

Uvod do pocıtacove lingvistiky 3/11 14 / 20

Page 86: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Diktovacı stroje (napr. Dragon Naturally Speaking)• Schopne rozpoznat cokoliv• N-gramove statisticke jazykove modely• Zavisle na mluvcım (je potreba je natrenovat)

Rozpoznavace zalozene na gramatikach• Rozpoznajı jen fraze popsane (regularnı) gramatikou (gramatika =

jazykovy model)S → ”Jedu do ”MESTOMESTO → ”Prahy”| ”Brna”

• Nezavisle na mluvcım – telefonnı aplikace• Speech Recognition Grammar Specification (SRGS)

– standard W3 konzorcia, a la BNF

– existujı 2 notace – XML a sipkova pro ctenı

– da se do nı dat i “vyznam” vstupu

Uvod do pocıtacove lingvistiky 3/11 14 / 20

Page 87: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Diktovacı stroje (napr. Dragon Naturally Speaking)• Schopne rozpoznat cokoliv• N-gramove statisticke jazykove modely• Zavisle na mluvcım (je potreba je natrenovat)

Rozpoznavace zalozene na gramatikach• Rozpoznajı jen fraze popsane (regularnı) gramatikou (gramatika =

jazykovy model)S → ”Jedu do ”MESTOMESTO → ”Prahy”| ”Brna”

• Nezavisle na mluvcım – telefonnı aplikace• Speech Recognition Grammar Specification (SRGS)

– standard W3 konzorcia, a la BNF

– existujı 2 notace – XML a sipkova pro ctenı

– da se do nı dat i “vyznam” vstupu

Uvod do pocıtacove lingvistiky 3/11 14 / 20

Page 88: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Diktovacı stroje (napr. Dragon Naturally Speaking)• Schopne rozpoznat cokoliv• N-gramove statisticke jazykove modely• Zavisle na mluvcım (je potreba je natrenovat)

Rozpoznavace zalozene na gramatikach• Rozpoznajı jen fraze popsane (regularnı) gramatikou (gramatika =

jazykovy model)S → ”Jedu do ”MESTOMESTO → ”Prahy”| ”Brna”

• Nezavisle na mluvcım – telefonnı aplikace• Speech Recognition Grammar Specification (SRGS)

– standard W3 konzorcia, a la BNF

– existujı 2 notace – XML a sipkova pro ctenı

– da se do nı dat i “vyznam” vstupu

Uvod do pocıtacove lingvistiky 3/11 14 / 20

Page 89: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Diktovacı stroje (napr. Dragon Naturally Speaking)• Schopne rozpoznat cokoliv• N-gramove statisticke jazykove modely• Zavisle na mluvcım (je potreba je natrenovat)

Rozpoznavace zalozene na gramatikach• Rozpoznajı jen fraze popsane (regularnı) gramatikou (gramatika =

jazykovy model)S → ”Jedu do ”MESTOMESTO → ”Prahy”| ”Brna”

• Nezavisle na mluvcım – telefonnı aplikace• Speech Recognition Grammar Specification (SRGS)

– standard W3 konzorcia, a la BNF

– existujı 2 notace – XML a sipkova pro ctenı

– da se do nı dat i “vyznam” vstupu

Uvod do pocıtacove lingvistiky 3/11 14 / 20

Page 90: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Diktovacı stroje (napr. Dragon Naturally Speaking)• Schopne rozpoznat cokoliv• N-gramove statisticke jazykove modely• Zavisle na mluvcım (je potreba je natrenovat)

Rozpoznavace zalozene na gramatikach• Rozpoznajı jen fraze popsane (regularnı) gramatikou (gramatika =

jazykovy model)S → ”Jedu do ”MESTOMESTO → ”Prahy”| ”Brna”

• Nezavisle na mluvcım – telefonnı aplikace• Speech Recognition Grammar Specification (SRGS)

– standard W3 konzorcia, a la BNF

– existujı 2 notace – XML a sipkova pro ctenı

– da se do nı dat i “vyznam” vstupu

Uvod do pocıtacove lingvistiky 3/11 14 / 20

Page 91: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Diktovacı stroje (napr. Dragon Naturally Speaking)• Schopne rozpoznat cokoliv• N-gramove statisticke jazykove modely• Zavisle na mluvcım (je potreba je natrenovat)

Rozpoznavace zalozene na gramatikach• Rozpoznajı jen fraze popsane (regularnı) gramatikou (gramatika =

jazykovy model)S → ”Jedu do ”MESTOMESTO → ”Prahy”| ”Brna”

• Nezavisle na mluvcım – telefonnı aplikace• Speech Recognition Grammar Specification (SRGS)

– standard W3 konzorcia, a la BNF

– existujı 2 notace – XML a sipkova pro ctenı

– da se do nı dat i “vyznam” vstupu

Uvod do pocıtacove lingvistiky 3/11 14 / 20

Page 92: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Diktovacı stroje (napr. Dragon Naturally Speaking)• Schopne rozpoznat cokoliv• N-gramove statisticke jazykove modely• Zavisle na mluvcım (je potreba je natrenovat)

Rozpoznavace zalozene na gramatikach• Rozpoznajı jen fraze popsane (regularnı) gramatikou (gramatika =

jazykovy model)S → ”Jedu do ”MESTOMESTO → ”Prahy”| ”Brna”

• Nezavisle na mluvcım – telefonnı aplikace• Speech Recognition Grammar Specification (SRGS)

– standard W3 konzorcia, a la BNF

– existujı 2 notace – XML a sipkova pro ctenı

– da se do nı dat i “vyznam” vstupu

Uvod do pocıtacove lingvistiky 3/11 14 / 20

Page 93: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Diktovacı stroje (napr. Dragon Naturally Speaking)• Schopne rozpoznat cokoliv• N-gramove statisticke jazykove modely• Zavisle na mluvcım (je potreba je natrenovat)

Rozpoznavace zalozene na gramatikach• Rozpoznajı jen fraze popsane (regularnı) gramatikou (gramatika =

jazykovy model)S → ”Jedu do ”MESTOMESTO → ”Prahy”| ”Brna”

• Nezavisle na mluvcım – telefonnı aplikace• Speech Recognition Grammar Specification (SRGS)

– standard W3 konzorcia, a la BNF

– existujı 2 notace – XML a sipkova pro ctenı

– da se do nı dat i “vyznam” vstupu

Uvod do pocıtacove lingvistiky 3/11 14 / 20

Page 94: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Diktovacı stroje (napr. Dragon Naturally Speaking)• Schopne rozpoznat cokoliv• N-gramove statisticke jazykove modely• Zavisle na mluvcım (je potreba je natrenovat)

Rozpoznavace zalozene na gramatikach• Rozpoznajı jen fraze popsane (regularnı) gramatikou (gramatika =

jazykovy model)S → ”Jedu do ”MESTOMESTO → ”Prahy”| ”Brna”

• Nezavisle na mluvcım – telefonnı aplikace• Speech Recognition Grammar Specification (SRGS)

– standard W3 konzorcia, a la BNF

– existujı 2 notace – XML a sipkova pro ctenı

– da se do nı dat i “vyznam” vstupu

Uvod do pocıtacove lingvistiky 3/11 14 / 20

Page 95: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Diktovacı stroje (napr. Dragon Naturally Speaking)• Schopne rozpoznat cokoliv• N-gramove statisticke jazykove modely• Zavisle na mluvcım (je potreba je natrenovat)

Rozpoznavace zalozene na gramatikach• Rozpoznajı jen fraze popsane (regularnı) gramatikou (gramatika =

jazykovy model)S → ”Jedu do ”MESTOMESTO → ”Prahy”| ”Brna”

• Nezavisle na mluvcım – telefonnı aplikace• Speech Recognition Grammar Specification (SRGS)

– standard W3 konzorcia, a la BNF

– existujı 2 notace – XML a sipkova pro ctenı

– da se do nı dat i “vyznam” vstupu

Uvod do pocıtacove lingvistiky 3/11 14 / 20

Page 96: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Probıha obvykle ve 3 fazıch:

1. Vstup signalu• Amplituda akustickeho vlnenı je snımana v pravidelnych intervalech a

ulozena ve forme celeho cısla (digitalizace a vzorkovanı signalu)

2. Vytvorenı akustickych charakteristik signalu (akusticke vektory)• Snizuje variabilitu a odstranuje redundanci (rec 300 000× redundantnı)• Pocıtajı se rozdelenım na segmenty 10–40 ms, ze kterych se odecıtajı

charakteristiky jako je pocet pruchodu nulou nebo prvnıch 12koeficientu FFT (cca 40 cısel, nenı presne dane ktere, ale vyber veliceovlivnı vysledek)

3. Porovnavanı vektoru parametru• K zıskane sekvenci vektoru parametru se hleda co nejpodobnejsı

sekvence znamych, predem naucenych, vektoru reprezentujıcı napr.fonemy, trifony, slabiky, cela slova apod.

Uvod do pocıtacove lingvistiky 3/11 15 / 20

Page 97: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Probıha obvykle ve 3 fazıch:

1. Vstup signalu• Amplituda akustickeho vlnenı je snımana v pravidelnych intervalech a

ulozena ve forme celeho cısla (digitalizace a vzorkovanı signalu)

2. Vytvorenı akustickych charakteristik signalu (akusticke vektory)• Snizuje variabilitu a odstranuje redundanci (rec 300 000× redundantnı)• Pocıtajı se rozdelenım na segmenty 10–40 ms, ze kterych se odecıtajı

charakteristiky jako je pocet pruchodu nulou nebo prvnıch 12koeficientu FFT (cca 40 cısel, nenı presne dane ktere, ale vyber veliceovlivnı vysledek)

3. Porovnavanı vektoru parametru• K zıskane sekvenci vektoru parametru se hleda co nejpodobnejsı

sekvence znamych, predem naucenych, vektoru reprezentujıcı napr.fonemy, trifony, slabiky, cela slova apod.

Uvod do pocıtacove lingvistiky 3/11 15 / 20

Page 98: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Probıha obvykle ve 3 fazıch:

1. Vstup signalu• Amplituda akustickeho vlnenı je snımana v pravidelnych intervalech a

ulozena ve forme celeho cısla (digitalizace a vzorkovanı signalu)

2. Vytvorenı akustickych charakteristik signalu (akusticke vektory)• Snizuje variabilitu a odstranuje redundanci (rec 300 000× redundantnı)• Pocıtajı se rozdelenım na segmenty 10–40 ms, ze kterych se odecıtajı

charakteristiky jako je pocet pruchodu nulou nebo prvnıch 12koeficientu FFT (cca 40 cısel, nenı presne dane ktere, ale vyber veliceovlivnı vysledek)

3. Porovnavanı vektoru parametru• K zıskane sekvenci vektoru parametru se hleda co nejpodobnejsı

sekvence znamych, predem naucenych, vektoru reprezentujıcı napr.fonemy, trifony, slabiky, cela slova apod.

Uvod do pocıtacove lingvistiky 3/11 15 / 20

Page 99: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Probıha obvykle ve 3 fazıch:

1. Vstup signalu• Amplituda akustickeho vlnenı je snımana v pravidelnych intervalech a

ulozena ve forme celeho cısla (digitalizace a vzorkovanı signalu)

2. Vytvorenı akustickych charakteristik signalu (akusticke vektory)• Snizuje variabilitu a odstranuje redundanci (rec 300 000× redundantnı)• Pocıtajı se rozdelenım na segmenty 10–40 ms, ze kterych se odecıtajı

charakteristiky jako je pocet pruchodu nulou nebo prvnıch 12koeficientu FFT (cca 40 cısel, nenı presne dane ktere, ale vyber veliceovlivnı vysledek)

3. Porovnavanı vektoru parametru• K zıskane sekvenci vektoru parametru se hleda co nejpodobnejsı

sekvence znamych, predem naucenych, vektoru reprezentujıcı napr.fonemy, trifony, slabiky, cela slova apod.

Uvod do pocıtacove lingvistiky 3/11 15 / 20

Page 100: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci

Rozpoznavanı reci pokrac.

Probıha obvykle ve 3 fazıch:

1. Vstup signalu• Amplituda akustickeho vlnenı je snımana v pravidelnych intervalech a

ulozena ve forme celeho cısla (digitalizace a vzorkovanı signalu)

2. Vytvorenı akustickych charakteristik signalu (akusticke vektory)• Snizuje variabilitu a odstranuje redundanci (rec 300 000× redundantnı)• Pocıtajı se rozdelenım na segmenty 10–40 ms, ze kterych se odecıtajı

charakteristiky jako je pocet pruchodu nulou nebo prvnıch 12koeficientu FFT (cca 40 cısel, nenı presne dane ktere, ale vyber veliceovlivnı vysledek)

3. Porovnavanı vektoru parametru• K zıskane sekvenci vektoru parametru se hleda co nejpodobnejsı

sekvence znamych, predem naucenych, vektoru reprezentujıcı napr.fonemy, trifony, slabiky, cela slova apod.

Uvod do pocıtacove lingvistiky 3/11 15 / 20

Page 101: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci Porovnavanı vektoru parametru

Porovnavanı vektoru parametru

Algoritmus borcenı casove osy (dynamic time warping, DTW)• odstranuje casove nerovnomernosti v akustickem signalu

Skryte Markovovy modely (Hidden Markov Models, HMM)• Pravdepodobnostnı konecne automaty• V kazdem okamziku je hlasove ustrojı v urcitem stavu a muze s urcitou

pravdepodobnostı prejıt do jednoho z nasledujıcıch stavu• Jako doplnek se mohou vyuzıt neuronove sıte• Je nejprve potreba natrenovat za pomocı dat z recoveho korpusu

Uvod do pocıtacove lingvistiky 3/11 16 / 20

Page 102: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci Porovnavanı vektoru parametru

Porovnavanı vektoru parametru

Algoritmus borcenı casove osy (dynamic time warping, DTW)• odstranuje casove nerovnomernosti v akustickem signalu

Skryte Markovovy modely (Hidden Markov Models, HMM)• Pravdepodobnostnı konecne automaty• V kazdem okamziku je hlasove ustrojı v urcitem stavu a muze s urcitou

pravdepodobnostı prejıt do jednoho z nasledujıcıch stavu• Jako doplnek se mohou vyuzıt neuronove sıte• Je nejprve potreba natrenovat za pomocı dat z recoveho korpusu

Uvod do pocıtacove lingvistiky 3/11 16 / 20

Page 103: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci Porovnavanı vektoru parametru

Porovnavanı vektoru parametru

Algoritmus borcenı casove osy (dynamic time warping, DTW)• odstranuje casove nerovnomernosti v akustickem signalu

Skryte Markovovy modely (Hidden Markov Models, HMM)• Pravdepodobnostnı konecne automaty• V kazdem okamziku je hlasove ustrojı v urcitem stavu a muze s urcitou

pravdepodobnostı prejıt do jednoho z nasledujıcıch stavu• Jako doplnek se mohou vyuzıt neuronove sıte• Je nejprve potreba natrenovat za pomocı dat z recoveho korpusu

Uvod do pocıtacove lingvistiky 3/11 16 / 20

Page 104: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci Porovnavanı vektoru parametru

Porovnavanı vektoru parametru

Algoritmus borcenı casove osy (dynamic time warping, DTW)• odstranuje casove nerovnomernosti v akustickem signalu

Skryte Markovovy modely (Hidden Markov Models, HMM)• Pravdepodobnostnı konecne automaty• V kazdem okamziku je hlasove ustrojı v urcitem stavu a muze s urcitou

pravdepodobnostı prejıt do jednoho z nasledujıcıch stavu• Jako doplnek se mohou vyuzıt neuronove sıte• Je nejprve potreba natrenovat za pomocı dat z recoveho korpusu

Uvod do pocıtacove lingvistiky 3/11 16 / 20

Page 105: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci Porovnavanı vektoru parametru

Porovnavanı vektoru parametru

Algoritmus borcenı casove osy (dynamic time warping, DTW)• odstranuje casove nerovnomernosti v akustickem signalu

Skryte Markovovy modely (Hidden Markov Models, HMM)• Pravdepodobnostnı konecne automaty• V kazdem okamziku je hlasove ustrojı v urcitem stavu a muze s urcitou

pravdepodobnostı prejıt do jednoho z nasledujıcıch stavu• Jako doplnek se mohou vyuzıt neuronove sıte• Je nejprve potreba natrenovat za pomocı dat z recoveho korpusu

Uvod do pocıtacove lingvistiky 3/11 16 / 20

Page 106: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci Porovnavanı vektoru parametru

Porovnavanı vektoru parametru

Algoritmus borcenı casove osy (dynamic time warping, DTW)• odstranuje casove nerovnomernosti v akustickem signalu

Skryte Markovovy modely (Hidden Markov Models, HMM)• Pravdepodobnostnı konecne automaty• V kazdem okamziku je hlasove ustrojı v urcitem stavu a muze s urcitou

pravdepodobnostı prejıt do jednoho z nasledujıcıch stavu• Jako doplnek se mohou vyuzıt neuronove sıte• Je nejprve potreba natrenovat za pomocı dat z recoveho korpusu

Uvod do pocıtacove lingvistiky 3/11 16 / 20

Page 107: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci ASR systemy

ASR systemy ve svete

c©Nuance (http://www.nuance.com/)

c©Loquendo (http://www.loquendo.com/) – nynı Nuance

c©LumenVox (http://www.lumenvox.com/)

c©IBM ViaVoice – nynı Nuance Dragon Naturally Speakinghttp://www.nuance.com/dragon/

Sphinx (http://cmusphinx.sourceforge.net/)

Uvod do pocıtacove lingvistiky 3/11 17 / 20

Page 108: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci ASR systemy

ASR systemy ve svete

c©Nuance (http://www.nuance.com/)

c©Loquendo (http://www.loquendo.com/) – nynı Nuance

c©LumenVox (http://www.lumenvox.com/)

c©IBM ViaVoice – nynı Nuance Dragon Naturally Speakinghttp://www.nuance.com/dragon/

Sphinx (http://cmusphinx.sourceforge.net/)

Uvod do pocıtacove lingvistiky 3/11 17 / 20

Page 109: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci ASR systemy

ASR systemy ve svete

c©Nuance (http://www.nuance.com/)

c©Loquendo (http://www.loquendo.com/) – nynı Nuance

c©LumenVox (http://www.lumenvox.com/)

c©IBM ViaVoice – nynı Nuance Dragon Naturally Speakinghttp://www.nuance.com/dragon/

Sphinx (http://cmusphinx.sourceforge.net/)

Uvod do pocıtacove lingvistiky 3/11 17 / 20

Page 110: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci ASR systemy

ASR systemy ve svete

c©Nuance (http://www.nuance.com/)

c©Loquendo (http://www.loquendo.com/) – nynı Nuance

c©LumenVox (http://www.lumenvox.com/)

c©IBM ViaVoice – nynı Nuance Dragon Naturally Speakinghttp://www.nuance.com/dragon/

Sphinx (http://cmusphinx.sourceforge.net/)

Uvod do pocıtacove lingvistiky 3/11 17 / 20

Page 111: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci ASR systemy

ASR systemy ve svete

c©Nuance (http://www.nuance.com/)

c©Loquendo (http://www.loquendo.com/) – nynı Nuance

c©LumenVox (http://www.lumenvox.com/)

c©IBM ViaVoice – nynı Nuance Dragon Naturally Speakinghttp://www.nuance.com/dragon/

Sphinx (http://cmusphinx.sourceforge.net/)

Uvod do pocıtacove lingvistiky 3/11 17 / 20

Page 112: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci ASR systemy

Ceske ASR systemy

Laborator pocıtacoveho zpracovanı reci na Fakulte mechatronikyTechnicke univerzity v Liberci(http://www.ite.tul.cz/speechlab/)

ERIS ASR (http://www.speechtech.cz/)• SpeechTech, s.r.o. + katedra kybernetiky FAV ZCU

Speech@FIT VUT Brno (http://speech.fit.vutbr.cz/)• keyword spotting – jestli se vyskytlo dane slovo v bezne reci

Uvod do pocıtacove lingvistiky 3/11 18 / 20

Page 113: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci ASR systemy

Ceske ASR systemy

Laborator pocıtacoveho zpracovanı reci na Fakulte mechatronikyTechnicke univerzity v Liberci(http://www.ite.tul.cz/speechlab/)

ERIS ASR (http://www.speechtech.cz/)• SpeechTech, s.r.o. + katedra kybernetiky FAV ZCU

Speech@FIT VUT Brno (http://speech.fit.vutbr.cz/)• keyword spotting – jestli se vyskytlo dane slovo v bezne reci

Uvod do pocıtacove lingvistiky 3/11 18 / 20

Page 114: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Rozpoznavanı reci ASR systemy

Ceske ASR systemy

Laborator pocıtacoveho zpracovanı reci na Fakulte mechatronikyTechnicke univerzity v Liberci(http://www.ite.tul.cz/speechlab/)

ERIS ASR (http://www.speechtech.cz/)• SpeechTech, s.r.o. + katedra kybernetiky FAV ZCU

Speech@FIT VUT Brno (http://speech.fit.vutbr.cz/)• keyword spotting – jestli se vyskytlo dane slovo v bezne reci

Uvod do pocıtacove lingvistiky 3/11 18 / 20

Page 115: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Souvisejıcı technologie

Souvisejıcı technologie

Dialogove systemy• Pocıtacove systemy komunikujıcı s uzivatelem pomocı prirozeneho

jazyka• Vyuzıvajı ASR a TTS jako sve komponenty

Rozpoznavanı mluvcıho• identifikace mluvcıho – urcenı, ktery z registrovanych mluvcıch pronesl

danou vetu• verifikace mluvcıho – akceptovanı nebo odmıtnutı identity mluvcıho

Identifikace mluveneho jazyka• fonemicko-foneticky rozpoznavac pro kazdy rozpoznavany jazyk –

sledujı se fonemy specificke pro kazdy jazyk• dana promluva je zpracovana vsemi rozpoznavaci a jako jazyk dane

promluvy je zvolen jazyk, jehoz rozpoznavac dosahl nejvyssıho skore

Uvod do pocıtacove lingvistiky 3/11 19 / 20

Page 116: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Souvisejıcı technologie

Souvisejıcı technologie

Dialogove systemy• Pocıtacove systemy komunikujıcı s uzivatelem pomocı prirozeneho

jazyka• Vyuzıvajı ASR a TTS jako sve komponenty

Rozpoznavanı mluvcıho• identifikace mluvcıho – urcenı, ktery z registrovanych mluvcıch pronesl

danou vetu• verifikace mluvcıho – akceptovanı nebo odmıtnutı identity mluvcıho

Identifikace mluveneho jazyka• fonemicko-foneticky rozpoznavac pro kazdy rozpoznavany jazyk –

sledujı se fonemy specificke pro kazdy jazyk• dana promluva je zpracovana vsemi rozpoznavaci a jako jazyk dane

promluvy je zvolen jazyk, jehoz rozpoznavac dosahl nejvyssıho skore

Uvod do pocıtacove lingvistiky 3/11 19 / 20

Page 117: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Souvisejıcı technologie

Souvisejıcı technologie

Dialogove systemy• Pocıtacove systemy komunikujıcı s uzivatelem pomocı prirozeneho

jazyka• Vyuzıvajı ASR a TTS jako sve komponenty

Rozpoznavanı mluvcıho• identifikace mluvcıho – urcenı, ktery z registrovanych mluvcıch pronesl

danou vetu• verifikace mluvcıho – akceptovanı nebo odmıtnutı identity mluvcıho

Identifikace mluveneho jazyka• fonemicko-foneticky rozpoznavac pro kazdy rozpoznavany jazyk –

sledujı se fonemy specificke pro kazdy jazyk• dana promluva je zpracovana vsemi rozpoznavaci a jako jazyk dane

promluvy je zvolen jazyk, jehoz rozpoznavac dosahl nejvyssıho skore

Uvod do pocıtacove lingvistiky 3/11 19 / 20

Page 118: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Souvisejıcı technologie

Souvisejıcı technologie

Dialogove systemy• Pocıtacove systemy komunikujıcı s uzivatelem pomocı prirozeneho

jazyka• Vyuzıvajı ASR a TTS jako sve komponenty

Rozpoznavanı mluvcıho• identifikace mluvcıho – urcenı, ktery z registrovanych mluvcıch pronesl

danou vetu• verifikace mluvcıho – akceptovanı nebo odmıtnutı identity mluvcıho

Identifikace mluveneho jazyka• fonemicko-foneticky rozpoznavac pro kazdy rozpoznavany jazyk –

sledujı se fonemy specificke pro kazdy jazyk• dana promluva je zpracovana vsemi rozpoznavaci a jako jazyk dane

promluvy je zvolen jazyk, jehoz rozpoznavac dosahl nejvyssıho skore

Uvod do pocıtacove lingvistiky 3/11 19 / 20

Page 119: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Souvisejıcı technologie

Souvisejıcı technologie

Dialogove systemy• Pocıtacove systemy komunikujıcı s uzivatelem pomocı prirozeneho

jazyka• Vyuzıvajı ASR a TTS jako sve komponenty

Rozpoznavanı mluvcıho• identifikace mluvcıho – urcenı, ktery z registrovanych mluvcıch pronesl

danou vetu• verifikace mluvcıho – akceptovanı nebo odmıtnutı identity mluvcıho

Identifikace mluveneho jazyka• fonemicko-foneticky rozpoznavac pro kazdy rozpoznavany jazyk –

sledujı se fonemy specificke pro kazdy jazyk• dana promluva je zpracovana vsemi rozpoznavaci a jako jazyk dane

promluvy je zvolen jazyk, jehoz rozpoznavac dosahl nejvyssıho skore

Uvod do pocıtacove lingvistiky 3/11 19 / 20

Page 120: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Souvisejıcı technologie

Souvisejıcı technologie

Dialogove systemy• Pocıtacove systemy komunikujıcı s uzivatelem pomocı prirozeneho

jazyka• Vyuzıvajı ASR a TTS jako sve komponenty

Rozpoznavanı mluvcıho• identifikace mluvcıho – urcenı, ktery z registrovanych mluvcıch pronesl

danou vetu• verifikace mluvcıho – akceptovanı nebo odmıtnutı identity mluvcıho

Identifikace mluveneho jazyka• fonemicko-foneticky rozpoznavac pro kazdy rozpoznavany jazyk –

sledujı se fonemy specificke pro kazdy jazyk• dana promluva je zpracovana vsemi rozpoznavaci a jako jazyk dane

promluvy je zvolen jazyk, jehoz rozpoznavac dosahl nejvyssıho skore

Uvod do pocıtacove lingvistiky 3/11 19 / 20

Page 121: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Souvisejıcı technologie

Souvisejıcı technologie

Dialogove systemy• Pocıtacove systemy komunikujıcı s uzivatelem pomocı prirozeneho

jazyka• Vyuzıvajı ASR a TTS jako sve komponenty

Rozpoznavanı mluvcıho• identifikace mluvcıho – urcenı, ktery z registrovanych mluvcıch pronesl

danou vetu• verifikace mluvcıho – akceptovanı nebo odmıtnutı identity mluvcıho

Identifikace mluveneho jazyka• fonemicko-foneticky rozpoznavac pro kazdy rozpoznavany jazyk –

sledujı se fonemy specificke pro kazdy jazyk• dana promluva je zpracovana vsemi rozpoznavaci a jako jazyk dane

promluvy je zvolen jazyk, jehoz rozpoznavac dosahl nejvyssıho skore

Uvod do pocıtacove lingvistiky 3/11 19 / 20

Page 122: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Souvisejıcı technologie

Souvisejıcı technologie

Dialogove systemy• Pocıtacove systemy komunikujıcı s uzivatelem pomocı prirozeneho

jazyka• Vyuzıvajı ASR a TTS jako sve komponenty

Rozpoznavanı mluvcıho• identifikace mluvcıho – urcenı, ktery z registrovanych mluvcıch pronesl

danou vetu• verifikace mluvcıho – akceptovanı nebo odmıtnutı identity mluvcıho

Identifikace mluveneho jazyka• fonemicko-foneticky rozpoznavac pro kazdy rozpoznavany jazyk –

sledujı se fonemy specificke pro kazdy jazyk• dana promluva je zpracovana vsemi rozpoznavaci a jako jazyk dane

promluvy je zvolen jazyk, jehoz rozpoznavac dosahl nejvyssıho skore

Uvod do pocıtacove lingvistiky 3/11 19 / 20

Page 123: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

Souvisejıcı technologie

Souvisejıcı technologie

Dialogove systemy• Pocıtacove systemy komunikujıcı s uzivatelem pomocı prirozeneho

jazyka• Vyuzıvajı ASR a TTS jako sve komponenty

Rozpoznavanı mluvcıho• identifikace mluvcıho – urcenı, ktery z registrovanych mluvcıch pronesl

danou vetu• verifikace mluvcıho – akceptovanı nebo odmıtnutı identity mluvcıho

Identifikace mluveneho jazyka• fonemicko-foneticky rozpoznavac pro kazdy rozpoznavany jazyk –

sledujı se fonemy specificke pro kazdy jazyk• dana promluva je zpracovana vsemi rozpoznavaci a jako jazyk dane

promluvy je zvolen jazyk, jehoz rozpoznavac dosahl nejvyssıho skore

Uvod do pocıtacove lingvistiky 3/11 19 / 20

Page 124: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

TTS Demo

TTS Demo

Nuance –http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html?demo=true

Loquendo Expressive Cues, jen ukazky –http://www.nuance.com/for-business/by-solution/customer-service-solutions/solutions-services/inbound-solutions/loquendo-

http://demo.acapela-group.com/

http://epos.ure.cas.cz/

http://www.speechtech.cz/cz/demo-tts,http://musslap.zcu.cz – Talking Head

realisticka Talking Head –http://www.tnt.uni-hannover.de/project/facialanimation/demo

Uvod do pocıtacove lingvistiky 3/11 20 / 20

Page 125: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

TTS Demo

TTS Demo

Nuance –http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html?demo=true

Loquendo Expressive Cues, jen ukazky –http://www.nuance.com/for-business/by-solution/customer-service-solutions/solutions-services/inbound-solutions/loquendo-

http://demo.acapela-group.com/

http://epos.ure.cas.cz/

http://www.speechtech.cz/cz/demo-tts,http://musslap.zcu.cz – Talking Head

realisticka Talking Head –http://www.tnt.uni-hannover.de/project/facialanimation/demo

Uvod do pocıtacove lingvistiky 3/11 20 / 20

Page 126: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

TTS Demo

TTS Demo

Nuance –http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html?demo=true

Loquendo Expressive Cues, jen ukazky –http://www.nuance.com/for-business/by-solution/customer-service-solutions/solutions-services/inbound-solutions/loquendo-

http://demo.acapela-group.com/

http://epos.ure.cas.cz/

http://www.speechtech.cz/cz/demo-tts,http://musslap.zcu.cz – Talking Head

realisticka Talking Head –http://www.tnt.uni-hannover.de/project/facialanimation/demo

Uvod do pocıtacove lingvistiky 3/11 20 / 20

Page 127: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

TTS Demo

TTS Demo

Nuance –http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html?demo=true

Loquendo Expressive Cues, jen ukazky –http://www.nuance.com/for-business/by-solution/customer-service-solutions/solutions-services/inbound-solutions/loquendo-

http://demo.acapela-group.com/

http://epos.ure.cas.cz/

http://www.speechtech.cz/cz/demo-tts,http://musslap.zcu.cz – Talking Head

realisticka Talking Head –http://www.tnt.uni-hannover.de/project/facialanimation/demo

Uvod do pocıtacove lingvistiky 3/11 20 / 20

Page 128: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

TTS Demo

TTS Demo

Nuance –http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html?demo=true

Loquendo Expressive Cues, jen ukazky –http://www.nuance.com/for-business/by-solution/customer-service-solutions/solutions-services/inbound-solutions/loquendo-

http://demo.acapela-group.com/

http://epos.ure.cas.cz/

http://www.speechtech.cz/cz/demo-tts,http://musslap.zcu.cz – Talking Head

realisticka Talking Head –http://www.tnt.uni-hannover.de/project/facialanimation/demo

Uvod do pocıtacove lingvistiky 3/11 20 / 20

Page 129: Synt´eza a rozpozn´av´an´ı ˇreˇci - nlp.fi.muni.cz filePrvn´ı 3 f´aze = NLP modul, ˇctvrt´a f´aze = DSP modul ´Uvod do poˇc´ıtaˇcov´e lingvistiky 3/11 2 / 20. Synt´eza

TTS Demo

TTS Demo

Nuance –http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html?demo=true

Loquendo Expressive Cues, jen ukazky –http://www.nuance.com/for-business/by-solution/customer-service-solutions/solutions-services/inbound-solutions/loquendo-

http://demo.acapela-group.com/

http://epos.ure.cas.cz/

http://www.speechtech.cz/cz/demo-tts,http://musslap.zcu.cz – Talking Head

realisticka Talking Head –http://www.tnt.uni-hannover.de/project/facialanimation/demo

Uvod do pocıtacove lingvistiky 3/11 20 / 20