音声・音響信号を対象とした ブラインド音源分離
DESCRIPTION
音声・音響信号を対象とした ブラインド音源分離. 奈良先端科学技術大学院大学 猿渡 洋 [email protected]. 本日の発表内容. ブラインド音源分離( BSS )研究の背景 独立成分分析( ICA )に基づく BSS の説明 時間領域 ICA 周波数領域 ICA 各領域 ICA の適用限界を実証 周波数領域 ICA と時間領域 ICA を統合した多段 ICA に基づく音源分離手法の提案 実環境下における分離実験結果および考察 まとめ. ?. 干渉音. ユーザ以外の干渉音がマイクロホンに混入. 音声認識精度の劣化. 背景. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/1.jpg)
音声・音響信号を対象とした音声・音響信号を対象としたブラインド音源分離ブラインド音源分離
奈良先端科学技術大学院大学奈良先端科学技術大学院大学猿渡 洋猿渡 洋
[email protected]@is.aist-nara.ac.jp
![Page 2: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/2.jpg)
ブラインド音源分離( BSS )研究の背景
独立成分分析( ICA )に基づく BSS の説明 時間領域 ICA 周波数領域 ICA
各領域 ICA の適用限界を実証
周波数領域 ICA と時間領域 ICA を統合した多段 ICAに基づく音源分離手法の提案
実環境下における分離実験結果および考察
まとめ
本日の発表内容本日の発表内容
![Page 3: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/3.jpg)
背景背景
ハンズフリー音声通信・認識システム
ユーザマイクロホン
音声認識システム
?干渉音
ユーザ以外の干渉音がマイクロホンに混入音声認識精度の劣化
今日の天気は何?
![Page 4: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/4.jpg)
研究の目標 雑音に頑健なハンズフリー音声処理システム
の実現
マイクロホンアレー 複数のマイクロホン素子から構成される受音器 目的信号の強調,雑音抑圧が可能
マイクロホンアレー処理の欠点 音源の到来方位推定が必要 適応のために無音区間の推定が必要
背景(背景( Cont’dCont’d ))
![Page 5: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/5.jpg)
複数の音源信号が混在して観測される場合,観測信号のみから音源信号を推定する技術 独立成分分析( ICA )に基づく手法が主流
ブラインド音源分離ブラインド音源分離
![Page 6: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/6.jpg)
マイクロホン2
マイクロホン1互いに互いに独立独立 既知 既知
ICAICA に基づくブラインド音源分離に基づくブラインド音源分離
話者2
話者1おはよう
こんにちは
観測信号1
観測信号2音源2
音源1
音源信号を推定音源信号を推定
事前情報が不要(教師無し適応)
![Page 7: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/7.jpg)
複数の音源信号が混在して観測される場合,観測信号のみから音源信号を推定する技術 独立成分分析( ICA )に基づく手法が主流
ブラインド音源分離ブラインド音源分離
<音声応用における課題>残響に頑健なブラインド音源分離
アルゴリズムの構築
高残響(実)環境下では十分な性能が得られない(残響時間 =0.3 秒 ← 2400 taps FIR フィルタ)
![Page 8: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/8.jpg)
従来のアプローチ従来のアプローチ
時間領域 ICA ( TDICA ) 時間領域において FIR 型の音源分離フィルタ
を 推定
周波数領域 ICA ( FDICA ) 周波数領域において各周波数帯域毎に音源分
離フィルタを推定
![Page 9: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/9.jpg)
TDICATDICA に基づく音源分離手法に基づく音源分離手法
<利点><利点> 信号自身が有する独立性を評価可能 最適点近傍での収束性に優れている
![Page 10: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/10.jpg)
一般の残響抑圧信号処理においては,フィルタ長を長くすることにより残響抑圧性能が向上する
TDICATDICA の適用の適用
TDICA においても,分離フィルタ長を長くする ことにより,残響に頑健な音源分離が可能か?
<仮説>
フィルタ長と分離性能の関係を調査
![Page 11: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/11.jpg)
実験条件実験条件
原音声 : 男女各2名による2短文 12通りの組み合わせ
音源分離性能の尺度 : 干渉音の抑圧量 [dB]
素子間隔:4 cm残響時間:300 ms
![Page 12: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/12.jpg)
0.9
2.8
4.4
5.8
7.8
1.7
0.4 0.30
1
2
3
4
5
6
7
8
10 20 50 100 200 500 1000 2000 [point]音源分離フィルタ長
[dB]
音源
分離
性能
フィルタ長と分離性能の関係フィルタ長と分離性能の関係
フィルタ長を長くしてもフィルタ長を長くしても分離性能は向上しない分離性能は向上しない
<欠点><欠点> 反復学習規則が複雑 残響環境下では収束性が悪い 直接音,初期反射音成分の分離しかできない
![Page 13: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/13.jpg)
FDICAFDICA に基づく音源分離手法に基づく音源分離手法
f
<利点><利点> 周波数変換することにより混合問題を簡単化 分離フィルタの最適化を安定かつ高い収束性で実現
![Page 14: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/14.jpg)
一般の残響抑圧信号処理においては,帯域分割数(フィルタ長)を増やすことにより残響抑圧性能が向上
FDICAFDICA の適用の適用
FDICA においても,分離フィルタの帯域分割数を増やすことにより,残響に頑健な音源分離が可能か?
<仮説>
帯域分割数と分離性能の関係を調査
![Page 15: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/15.jpg)
帯域分割数と分離性能の関係帯域分割数と分離性能の関係
6.1 6.6 7.2 7.68.5
7.4
9.4
3.0
0
2
4
6
8
10
32 64 128 256 512 1024 2048 4096帯域分割数
[dB]
音源
分離
性能
過度に分割数を増やすと分離性能劣化過度に分割数を増やすと分離性能劣化
<新たな仮説><新たな仮説> 帯域分割数を過度に増やすと狭帯域信号間の 独立性の仮定が成立しなくなる?
狭帯域信号間の独立性を定量的に評価するために,帯域分割数と狭帯域信号間の相関値の関係を調査
![Page 16: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/16.jpg)
帯域分割数と狭帯域信号間の相関値の関係帯域分割数と狭帯域信号間の相関値の関係
0
0.02
0.04
0.06
0.08
0.1
32 64 128 256 512 1024 2048 4096帯域分割数
狭帯
域信
号間
の相関値 過度に分割数を増やすと相関が強くなる過度に分割数を増やすと相関が強くなる
<欠点><欠点> 帯域分割数を過度に増やすと狭帯域信号間の 相関が強くなり,独立性の仮定が成立しなくなる
![Page 17: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/17.jpg)
帯域分割数と分離性能の関係帯域分割数と分離性能の関係
帯域分割数 多い少ない
音源
分離
性能
相関強い
相関低い 残響に強い
残響に弱い<欠点><欠点> FDICA では帯域分割処理により十分な分離性能 に達しない段階で性能が飽和する
![Page 18: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/18.jpg)
利点周波数変換により
混合問題を簡単化反復学習における安
定性,高速収束性
欠点帯域分割処理により
独立性の仮定が崩壊分離性能が飽和
各領域各領域 ICAICA の利点 欠点・の利点 欠点・周波数領域 ICA ( FDICA ) 時間領域 ICA ( TDICA )
利点信号自身が有する
独立性を評価可能最適点近傍での収束
性に優れている
欠点反復学習規則が複雑残響環境下では収束
性が悪い
補う 補う 後段前段
利点を共に有効利用FDICA と TDICA を統合した
多段 ICA (MSICA ) by 西川 他 , 2001
![Page 19: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/19.jpg)
MSICAMSICA の分離過程の分離過程
混合問題を簡単化 反復学習における安定性, 高速収束性
信号自身が有する独立性を 評価可能 最適点近傍での高収束性
周波数領域 ICA( FDICA )
時間領域 ICA( TDICA )混合システム
![Page 20: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/20.jpg)
MSICA における TDICA部のフィルタ長と分離 性能の関係を調査
TDICA , FDICA ,及びMSICA の分離性能比較
提案手法の有効性検証提案手法の有効性検証
![Page 21: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/21.jpg)
10.2 10.1 10.4 10.6
12.5 12.7
0.9
2.8
4.45.8
7.8
1.70.4 0.3
10.011.0
0
2
4
6
8
10
12
14
10 20 50 100 200 500 1000 2000 [point]音源分離フィルタ長
[dB]
音源
分離
性能
TDICA MSICA FDICA
フィルタ長と分離性能の関係フィルタ長と分離性能の関係
MSICAMSICA のの TDICATDICA部部では長いフィルタによる学習が可能では長いフィルタによる学習が可能
9.4
![Page 22: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/22.jpg)
MSICA における TDICA部のフィルタ長と分離 性能の関係を調査
TDICA , FDICA ,及びMSICA の分離性能比較
提案手法の有効性検証提案手法の有効性検証
![Page 23: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/23.jpg)
各各 ICAICA の分離性能比較の分離性能比較
02468
1012141618
1 2 3 4 5 6 7 8 9 10 11 12話者の組み合わせ番号
[dB]
音源
分離
性能
TDICA FDICA MSICA
12 通りの平均: TDICA: 5.9 dB , FDICA: 9.4 dB ,MSICA:12.1 dB
![Page 24: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/24.jpg)
FDICA では帯域分割処理により十分な分離性能に達しない段階で性能が飽和
TDICA では反復学習規則が複雑であるため長いフィルタによる分離が困難
MSICA を用いることで TDICA , FDICA を上回る分離性能が得られた
MSICA は本質的に TDICA , FDICA の問題点を解決したといえる
考察考察
![Page 25: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/25.jpg)
MSICAMSICA による分離音声の一例による分離音声の一例
残響時間 300 ms
混合音声(女性,男性)
分離音声(女性)
分離音声(男性)
女声40°
男声-30°
2 素子4cm間隔
![Page 26: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/26.jpg)
まとめまとめ
残響環境下における時間領域 ICA ( TDICA ), 周波数領域 ICA ( FDICA )の適用限界を実証
FDICA と TDICA を統合した多段 ICA (MSICA )に基づくブラインド音源分離手法を提案
TDICA , FDICA ,及びMSICA の分離性能比較 MSICA における TDICA部では長いフィルタの学習
が可能であることを確認 MSICA の性能は TDICA , FDICA の性能を上回るこ
とを確認
![Page 27: 音声・音響信号を対象とした ブラインド音源分離](https://reader036.vdocuments.site/reader036/viewer/2022081507/56815e32550346895dcc8f53/html5/thumbnails/27.jpg)
今後の課題今後の課題
音声認識による性能評価さらに複雑な混合の分離問題に関する検討
雑音が付加された混合3個以上の複数音源が存在する混合
現在の ICA ではまだまだ長い残響に対応できない
⇒音響信号処理の知見を有効に利用 空間情報(音源の方位 ,位置など)の利
用