a study on pns and block length switching in mpeg-4 audio coding 電通所 碩二 研究生 :...
Post on 20-Dec-2015
242 views
TRANSCRIPT
Outline
1. MPEG-4 Audio Coding
2. Psychoacoustics ( 聽覺心理學 )
3.The structure of MPEG-4 General Audio Coding
4. Perceptual Noise Substitution (PNS, 類雜訊取代 )
5. The reserch of Block Length Switching
6. Conclusion
MPEG-4 Audio Coding (1)
MPEG-4 Audio Coding 概分為三大類 :
1. General audio coding
2. Speech coding
3. Structured Audio
MPEG-4 Audio Coding (2)
MPEG-4 Audio Coding 之特性 :
1. Low bit-rate 之壓縮技巧 2. 音訊物件之分類 3. Scalability 之應用
Psychoacoustic (1)
1. 聽覺心理學 (Psychoacoustics) 描述人耳對聲音訊號
的知覺特性
2. 聽覺心理學由聽覺實驗之結果得知
3. 音訊編碼主要利用聽覺心理學來達到壓縮的目的
Psychoacoustic (4)臨界頻帶之意義 :
1. 人耳之聽覺神經可由多個帶通濾波器 (band pass filter) 所組成之 模型來近似
2. 各頻帶之頻寬 , 即為該頻帶中心頻率單頻音所能遮蔽之範圍 ( 頻域之遮蔽 )
3. 愈高頻帶頻寬愈寬 , 訊號愈容易互相遮蔽 , 使得人耳對高頻訊號 較不敏感
Psychoacoustic (8)頻域遮蔽效應在音訊編碼上應用 :
1. 頻域遮蔽效應可分為 intra-band 與 inter-band 來討論2. Intra-band: 用 NMT 與 TMN 之區分方式 , 來近似頻帶內之遮蔽
效應3. Inter-band: 用 Spreading Function 來概略計算鄰近頻帶間之遮蔽
效 應4. 依上述步驟算出各頻帶訊號之遮蔽門檻 , 量化雜訊
(Quantization
Noise) 需小於遮蔽門檻
MPEG-4 General Audio Coding(1)1. MPEG-4 GA 除了沿襲自 MPEG-2 AAC, 並多了 LTP 與 PNS 兩模 組 , 以及 BSAC 與 Twin-VQ 兩編碼方式
2. 將訊號在時間上作區塊 (Block) 切分 , 並以區塊為單位作時頻轉換 (MDCT) 與量化編碼
3. 有長區塊 (Long block) 與短區塊 (Short block) 兩種區塊長度可供 切換
4. 將頻譜劃分成 49 個 scale factor band, 各頻帶有不同的量化單位 ,以
符合聽覺特性 Scalefactor: 各頻帶量化時之控制係數
MPEG-4 General Audio Coding(3)Psychoacoustic Model ( 聽覺心理模型 ):
The input of psychoacoustic model:
2048 點 (long block) 或 256 點 (short
block) 之時軸訊號與取樣頻率
The output of psychoacoustic model:
Signal to mask ratio(SMR) 與決定長短區塊切換之 時機
MPEG-4 General Audio Coding(5)Step3. 求各頻帶之預測誤差總和 c(b), b: band index
Step4. 用預測誤差來算各頻帶之 tonality index , 其值介於 0 到 1 之 間 , 1 代表 tone, 0 代表 noise
Step5. 由 tonality index 求各頻帶之 SMR
( 由 tonality index 可知 訊號中 tone 與 noise 所佔之比例 , 即可
利用 NMT 與 TMN 之分類 , 來計算 SMR)
MPEG-4 General Audio Coding(6)
Step6. 用 Spreading function 來修正各頻帶之 SMR 值 ( 考慮 inter-band)
Step7. 將各頻帶之遮蔽門檻 , 與靜音時絕對聽覺門檻取較大值
Step8. 由各頻帶之 SMR, 算出各頻帶之 Perceptual Entropy(PE), 並求 所有頻帶 PE 之總和 , 以決定長短區塊之切換
由各頻帶之 SMR 值 , 可決定各頻帶係數該用多少位元數作量化 ( 量化雜訊需小於遮蔽門檻 )
MPEG-4 General Audio Coding(7)AAC Quantization and Coding:
1. 利用雙巢狀式迴圈 , 來達到量化編碼之最佳化 內迴圈 : 控制編碼所使用之位元總數 外迴圈 : 使各頻帶之量化雜訊低於遮蔽門檻
2. 使用 Huffman coding 作編碼 , 有 12 種碼簿 (code-book) 可供選擇
Perceptual Noise Substitution (1)
PNS 之原理 : 人耳對不同雜訊之判別性低
PNS 之運作 :
1. 對 5 KHz (band 25) 以上之訊號 , 判別出類似雜訊的頻
帶 (Noise detection)
2. 類似雜訊之頻帶係數 , 不編碼不傳送
3. 解碼端以隨機產生同能量之雜訊 , 貼補於該頻帶
Perceptual Noise Substitution (3)
ISO 標準中之雜訊偵測方法 :
(1) 若聽覺心理模型中之 tonality index 小於某門檻值 (2) 前後區塊該頻帶能量之變化不能過大
(1) 與 (2) 同時成立時 , 將該頻帶訊號判段成雜訊
Perceptual Noise Substitution (4)ISO 雜訊偵測方法之缺點 :
1. Tonality index 對些微之頻率變化太過敏感
(1)6 KHz 弦波訊號 (2)6 ~6.1KHz 弦波訊號
Perceptual Noise Substitution (5)ISO 雜訊偵測方法之缺點 :
1. Tonality index 對些微之頻率變化太過敏感
(1) 針對 6 KHz 弦波訊號
之統計圖
(2) 針對 6 ~6.1 KHz 弦波訊號
之統計圖
Perceptual Noise Substitution (6)ISO 雜訊偵測方法之缺點 :
2. 用 tonality index 判別不太準確 , 且對不同類型音樂之判別性不好
Band: 1~24 Band: 25~49 ( 有作 PNS考慮之頻帶 )
Perceptual Noise Substitution (7)新雜訊偵測方法 (Donald Schulz 所提出之概念 )
PQF: Poly-phase Quadrature
Filter
P: 30 order linear
predictor
Perceptual Noise Substitution (8)Noise detection 新方法與 ISO 方法之比較 1:
(1) 針對 6 KHz 弦波訊號
(2) 針對 6 ~6.1KHz 弦波訊號
Perceptual Noise Substitution (10)
相似性貼補之概念與作法 :
1. 除了以雜訊貼補外之另一貼補方式
2. 用相似度夠高之低頻頻帶係數 , 貼補於有啟動 PNS 之高頻頻
帶
3. 若相似度不夠高 , 仍以雜訊貼補
Perceptual Noise Substitution (11)
相似性之計算 :
2. 將低頻與高頻頻帶 , 兩者之頻寬與總能量調整到一致 , 使兩者有相同之比較基準
3. 將兩組訊號相減求誤差 , 再將誤差作正規化 (Normalize), 以此
誤差來判斷相似性
Perceptual Noise Substitution (13)
聆聽實驗一 : 新雜訊偵測方法 ,
並僅以雜訊貼補
聆聽實驗二 : 新雜訊偵測方法 , 並
動態切換貼補方式
比較對象 : ISO 標準之方法
Reserch of Block Length Switching(1)為何使用 block length switching ? (Time resolution vs. Freq
resolution)
1. 短區塊 (512 點 ) 有較好之時間解析度 ( 針對 Transient signal )
2. 長區塊 (2048 點 ) 有較好之頻率解析度 , 且編碼效益較好 ( 針對 Stationary signal)
3. 對 Transient signal, 使用長區塊所算出之 SMR 值並不正確 , 僅得平
均之結果 , 無法反映出訊號頻譜分布在短時間內之變化
Reserch of Block Length Switching(2)對 Transient signal, 為何不能用長區塊編碼 ? (32 kbps)
(Short) (long)
(original)
Reserch of Block Length Switching(3)對 Transient signal, 為何不能用長區塊編碼 ? (32 kbps)
(橫軸 : 時間 , 縱軸 : 頻率 )
(original)
(Short) (long)
Reserch of Block Length Switching(4)區塊切換之缺點 :
1. 短區塊之編碼效益較差
2. Bit-rate 64 kbps 以上時 , 區塊切塊效果以不明顯 ( 位元數已
足夠 )
3. 區塊切換機制會增加編解碼器與音訊串流之複雜度
Reserch of Block Length Switching(6)取代區塊切換之方法 : (a) Pre-processing: 將該區塊訊號作倍率之調整 , 使訊號變小 (倍率約 1/6 ~ 1/10)
(b) Post-processing: 將訊號以此倍率之倒數 , 還原成原大小
Reserch of Block Length Switching(10)
為何長區塊編碼配合此新方法 , 可取代短區塊編碼 ?
對於暫態訊號 , 人耳在短瞬間的知覺並不靈敏 , 聽覺心理模型並
不適用 , 因此僅用量化單位固定之波形編碼 (waveform coding)即
可有相當之效果
Reserch of Block Length Switching(11)驗證新方法類似 waveform coding: 比較原訊號與倍率調整後之訊號之量化情形 1. 原訊號量化情形 2. 倍率調整後訊號量化情形