ses tanima

53

Upload: erhan-cetin

Post on 21-Jul-2015

383 views

Category:

Education


6 download

TRANSCRIPT

Page 1: Ses tanima
Page 2: Ses tanima
Page 3: Ses tanima

Öznitelik Çıkarımı Frekans Spektrumu Katsayıları

Özellik vektörleri

Page 4: Ses tanima

Akustik İnceleme Gizli Durum Akustik İnceleme Benzerlikleri

Page 5: Ses tanima

“Six”

Page 6: Ses tanima
Page 7: Ses tanima

Konuşma birimleri inşa etme Nitelik benzerlikleri üretme Örnekleme oranı kritiktir! WSJ vs. WSJ_8k TIDIGITS, RM1, AN4, HUB4

Page 8: Ses tanima

Kelime Benzerlikleri

Page 9: Ses tanima

ARPA format Example:

1-grams:-3.7839 board -0.1552-2.5998 bottom -0.3207-3.7839 bunch -0.21742-grams:-0.7782 as the -0.2717-0.4771 at all 0.0000-0.7782 at the -0.29153-grams:-2.4450 in the lowest -0.5211 in the middle -2.4450 in the on

Page 10: Ses tanima

public <basicCmd> = <startPolite> <command> <endPolite>;

public <startPolite> = (please | kindly | could you ) *;

public <endPolite> = [ please | thanks | thank you ];

<command> = <action> <object>;

<action> = (open | close | delete | move); <object> = [the | a] (window | file | menu);

Page 11: Ses tanima

Ses birimleri için kelime haritaları

Page 12: Ses tanima

cmudict.06d ‘da bir örnek

POULTICE P OW L T AH SPOULTICES P OW L T AH S IH ZPOULTON P AW L T AH NPOULTRY P OW L T R IYPOUNCE P AW N SPOUNCED P AW N S TPOUNCEY P AW N S IYPOUNCING P AW N S IH NGPOUNCY P UW NG K IY

Page 13: Ses tanima

HMM arama grafları inşa etme : Akustik model İstatistik dil modeli Gramer Sözlük

Page 14: Ses tanima
Page 15: Ses tanima
Page 16: Ses tanima

Statik ve dinamik olarak inşa edilebilir

Page 17: Ses tanima

Düz (FlatLinguist) Dinamik düz (DynamicFlatLinguist) Sözcük Ağaçları (LexTreeLinguist)

Page 18: Ses tanima

Arama Grafları için harita özellik vektörleri

Page 19: Ses tanima

En uyumlu için grafı arama

P(sequence of feature vectors| word/phone) aka. P(O|W)

-> Giriş nasıl kelimelere benzetilir.

Page 20: Ses tanima

F ay ay ay ay v v v v vF f ay ay ay ay v v v vF f f ay ay ay ay v v vF f f f ay ay ay ay v vF f f f ay ay ay ay ay vF f f f f ay ay ay ay vF f f f f f ay ay ay v…

Page 21: Ses tanima

TimeO1 O2 O3

Page 22: Ses tanima

Algoritma kullanarak düşük değerler ayıklanır

Page 23: Ses tanima

Kelimeler!

Page 24: Ses tanima

En çok kullanılan ölçü Referans cümle içinden dönüştürürken

değişiklikler

Page 25: Ses tanima

Referans: “This is a reference sentence.” Sonuç: “This is neuroscience.” 2 Silme 1 Değiştirme Gerekli

Page 26: Ses tanima

Referans: “This is a reference sentence.” Sonuç: “This is neuroscience.”

WER=100×deletions+substitutions+insertionsLength

Page 27: Ses tanima

Referans: “This is a reference sentence.” Sonuç: “This is neuroscience.” D S D

WER=100×2+1+05

=100×3

5=60%

Page 28: Ses tanima
Page 29: Ses tanima
Page 30: Ses tanima
Page 31: Ses tanima
Page 32: Ses tanima
Page 33: Ses tanima
Page 34: Ses tanima
Page 35: Ses tanima
Page 36: Ses tanima
Page 37: Ses tanima
Page 38: Ses tanima
Page 39: Ses tanima

Çoklu konuşma engellenirse Tek kişi konuşurken

Page 40: Ses tanima

*Eğer girişte gürültü var ise hata oranı 2 katına çıkar

Page 41: Ses tanima

Diğer Değişkenler:-Sürekli vs. Yalıtılmış-Konuşma vs. Okuma-Lehçe

Page 42: Ses tanima

Sorular?

Page 43: Ses tanima

TimeO1 O2 O3

Page 44: Ses tanima

TimeO1 O2 O3

P(ay | f) *P(O2|ay)

P(f|f) * P(O2 | f)

Page 45: Ses tanima

TimeO1 O2 O3

P (O1) * P(ay | f) *P(O2|ay)

Page 46: Ses tanima

TimeO1 O2 O3

Page 47: Ses tanima

Sphinx4 Sık Sorulan Sorular:http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html

Page 48: Ses tanima

Soru. Arama grafı her tanıma sonucu için mi yoksa bir tanıma uygulaması için mi üretilir?

Cevap. Hangi Dilbilimini kullandığımıza göre değişir. Düz (The flat linguist) arama grafı oluşturur ve onu hafızada saklar. Küçük kelimeler için kullanılır. Sözcük Ağaçı

(The lexTreeLinguist) dinamik olarak arama graflarını düzenler.Böylece büyük kelimelere ulaşım kolaylaşır.

Page 49: Ses tanima

Soru.Ayrıştırıcı hangi algoritmayı kullanır? Cevap. Sphinx4 mutlak ve bağıl sinyal

ayrıştırma kullanır.

Page 50: Ses tanima

Mutlak Sinyal Genişliği - # aktif arama yolu <property name="absoluteBeamWidth" value="5000"/> Bağıl Sinyal Genişliği – Eşik olasılığı <property name="relativeBeamWidth" value="1E-120"/> Kelime Ekleme Olasılığı – <property name="wordInsertionProbability" value="0.7"/> Dil Ağırlık– Dil modeli puanları artırır. <property name="languageWeight" value="10.5"/>

Page 51: Ses tanima

Sessizlik girişi Olasılığı <property name="silenceInsertionProbability" value=".1"/> Dolgu girişi olasılığı <property name="fillerInsertionProbability" value="1E-10"/>

Page 52: Ses tanima

Python”da Java örneği:

import subprocess

subprocess.call(["java", "-mx1000m", "-jar","/Users/Username/sphinx4/bin/Transcriber.jar”)

Page 53: Ses tanima

Speech and Language Processing 2nd Ed.Daniel Jurafsky and James MartinPearson, 2009

Artificial Intelligence 6th Ed.George LugerAddison Wesley, 2009

Sphinx Whitepaperhttp://cmusphinx.sourceforge.net/sphinx4/#whitepaper

Sphinx Forumhttps://sourceforge.net/projects/cmusphinx/forums