ses tanima
DESCRIPTION
Ses Tanıma ile Hazırladığım bir SlaytçTRANSCRIPT
Öznitelik ÇıkarımıFrekans Spektrumu Katsayıları
Özellik vektörleri
Akustik İncelemeGizli DurumAkustik İnceleme Benzerlikleri
“Six”
Konuşma birimleri inşa etmeNitelik benzerlikleri üretmeÖrnekleme oranı kritiktir! WSJ vs. WSJ_8kTIDIGITS, RM1, AN4, HUB4
Kelime Benzerlikleri
ARPA format Example:
1-grams:-3.7839 board -0.1552-2.5998 bottom -0.3207-3.7839 bunch -0.21742-grams:-0.7782 as the -0.2717-0.4771 at all 0.0000-0.7782 at the -0.29153-grams:-2.4450 in the lowest -0.5211 in the middle -2.4450 in the on
public <basicCmd> = <startPolite> <command> <endPolite>;
public <startPolite> = (please | kindly | could you ) *;
public <endPolite> = [ please | thanks | thank you ];
<command> = <action> <object>;
<action> = (open | close | delete | move); <object> = [the | a] (window | file | menu);
Ses birimleri için kelime haritaları
cmudict.06d ‘da bir örnek
POULTICE P OW L T AH SPOULTICES P OW L T AH S IH ZPOULTON P AW L T AH NPOULTRY P OW L T R IYPOUNCE P AW N SPOUNCED P AW N S TPOUNCEY P AW N S IYPOUNCING P AW N S IH NGPOUNCY P UW NG K IY
HMM arama grafları inşa etme : Akustik model İstatistik dil modeli Gramer Sözlük
Statik ve dinamik olarak inşa edilebilir
Düz (FlatLinguist)Dinamik düz (DynamicFlatLinguist)Sözcük Ağaçları (LexTreeLinguist)
Arama Grafları için harita özellik vektörleri
En uyumlu için grafı arama
P(sequence of feature vectors| word/phone)
aka. P(O|W)
-> Giriş nasıl kelimelere benzetilir.
F ay ay ay ay v v v v vF f ay ay ay ay v v v vF f f ay ay ay ay v v vF f f f ay ay ay ay v vF f f f ay ay ay ay ay vF f f f f ay ay ay ay vF f f f f f ay ay ay v…
TimeO1 O2 O3
Algoritma kullanarak düşük değerler ayıklanır
Kelimeler!
En çok kullanılan ölçüReferans cümle içinden
dönüştürürken değişiklikler
Referans: “This is a reference sentence.”
Sonuç: “This is neuroscience.”2 Silme 1 Değiştirme Gerekli
Referans: “This is a reference sentence.”
Sonuç: “This is neuroscience.”
WER100deletions substitutions insertions
Length
Referans: “This is a reference sentence.”
Sonuç: “This is neuroscience.”
D S D
WER10021 05
1003
560%
Çoklu konuşma engellenirseTek kişi konuşurken
*Eğer girişte gürültü var ise hata oranı 2 katına çıkar
Diğer Değişkenler:-Sürekli vs. Yalıtılmış-Konuşma vs. Okuma-Lehçe
Sorular?
TimeO1 O2 O3
TimeO1 O2 O3
P(ay | f) *P(O2|ay)
P(f|f) * P(O2 | f)
TimeO1 O2 O3
P (O1) * P(ay | f) *P(O2|ay)
TimeO1 O2 O3
Sphinx4 Sık Sorulan Sorular:http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html
Soru. Arama grafı her tanıma sonucu için mi yoksa bir tanıma uygulaması için mi üretilir?
Cevap. Hangi Dilbilimini kullandığımıza göre değişir. Düz (The flat linguist) arama grafı oluşturur ve onu hafızada saklar. Küçük kelimeler için kullanılır. Sözcük Ağaçı
(The lexTreeLinguist) dinamik olarak arama graflarını düzenler.Böylece büyük kelimelere ulaşım kolaylaşır.
Soru.Ayrıştırıcı hangi algoritmayı kullanır?
Cevap. Sphinx4 mutlak ve bağıl sinyal ayrıştırma
kullanır.
Mutlak Sinyal Genişliği - # aktif arama yolu
<property name="absoluteBeamWidth" value="5000"/>
Bağıl Sinyal Genişliği – Eşik olasılığı <property name="relativeBeamWidth" value="1E-
120"/> Kelime Ekleme Olasılığı – <property name="wordInsertionProbability"
value="0.7"/> Dil Ağırlık– Dil modeli puanları artırır. <property name="languageWeight" value="10.5"/>
Sessizlik girişi Olasılığı <property name="silenceInsertionProbability"
value=".1"/>Dolgu girişi olasılığı <property name="fillerInsertionProbability"
value="1E-10"/>
Python”da Java örneği:
import subprocess
subprocess.call(["java", "-mx1000m", "-jar","/Users/Username/sphinx4/bin/Transcriber.jar”)
Speech and Language Processing 2nd Ed.Daniel Jurafsky and James MartinPearson, 2009
Artificial Intelligence 6th Ed.George LugerAddison Wesley, 2009
Sphinx Whitepaperhttp://cmusphinx.sourceforge.net/sphinx4/#whitepaper
Sphinx Forumhttps://sourceforge.net/projects/cmusphinx/forums