Copyright©2014 NTT corp. All Rights Reserved.
あらゆる音の検出・識別を目指して-- 音響イベント検出研究の現在と未来 --
大石康智
日本電信電話株式会社NTT コミュニケーション科学基礎研究所
1Copyright©2014 NTT corp. All Rights Reserved.
音によるシーン理解とは
音
映像
時間
時間
時間
時間
2Copyright©2014 NTT corp. All Rights Reserved.
音によるシーン理解とは
音
映像
音声音声 音声 音楽 音声
音声 音声 音楽
時間
時間
時間
時間
3Copyright©2014 NTT corp. All Rights Reserved.
音によるシーン理解とは
音
映像
笑声咳払 物音 鳥声 車音 警笛
足音 物音 悲鳴 楽器音 機材音 歓声
音声音声 音声 音楽 音声
音声 音声 音楽
会議の状況認識
場所や出来事の記録
高精度な警備システム
時間
時間
時間
ライブ感メディア検索
時間
4Copyright©2014 NTT corp. All Rights Reserved.
音によるシーン理解とは
音
映像
笑声咳払 物音 鳥声 車音 警笛
足音 物音 悲鳴 楽器音 機材音 歓声
音声音声 音声 音楽 音声
音声 音声 音楽
会議の状況認識
場所や出来事の記録
高精度な警備システム
時間
時間
音声/音楽の囲いを取り払い,あらゆる音を対象とするため,大幅な音アプリケーションエリアの拡大が見込まれる
時間
ライブ感メディア検索
時間
5Copyright©2014 NTT corp. All Rights Reserved.
音によるシーン理解の研究の10年間
国際会議ICASSPにおける発表件数
85
0
10
15
20
25
発表件数
7 810 9 10
13 14
24
17
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 [年]
• 「audio」「event」「sound」「scene」「detection」「classification」をキーワードとしてタイトル検索し,内容を精査して判断した結果
• 2013年は音響イベント検出のスペシャルセッションが開催された
10年間で研究発表件数が徐々に増えている
6Copyright©2014 NTT corp. All Rights Reserved.
音によるシーン理解の研究の10年間
研究発表が増えている要因
85
0
10
15
20
25
発表件数
7 810 9 10
13 14
24
17
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 [年]
競争型ワークショップの開催
CLEARD-CASE
TRECVID MED
TRECVID MER
Albayzin
機械学習の発展
SVMGMM
HMM
DNN・・・
・・・
ベイズ
7Copyright©2014 NTT corp. All Rights Reserved.
音によるシーン理解の研究の現在と未来
競争型ワークショップが取り組む研究課題の調査
機械学習を駆使した音シーン理解の研究紹介
10年間に渡って取り組まれてきた研究課題の整理音の特定度(Specificity)と時間的参照範囲(Temporal scope)
8Copyright©2014 NTT corp. All Rights Reserved.
音によるシーン理解の研究の現在と未来
競争型ワークショップが取り組む研究課題の調査
機械学習を駆使した音シーン理解の研究紹介
10年間に渡って取り組まれてきた研究課題の整理音の特定度(Specificity)と時間的参照範囲(Temporal scope)
9Copyright©2014 NTT corp. All Rights Reserved.
音によるシーン理解の研究課題
長い
短い
時間的参照範囲(Temporal scope)
信号全体の統計的な特徴に基づいて検出・識別
フレーム毎の特徴照合に基づいて検出・識別
特定度(Specificity)高い 低い
データベースの音と全く同一の音を観測信号から検出・識別
データベースの音と何らかの観点で同一の音を検出・識別
・ 同一音楽検索 (音響指紋技術)
・ カバー曲・バージョン違い曲検索
・ ジャンル曲検索 etc.
[Grosche+2012]
内容に基づく音楽検索から類推
10Copyright©2014 NTT corp. All Rights Reserved.
課題3: 音声/非音声/音楽の区間検出・識別
音声・音楽符号化
著作権管理 音声認識
音によるシーン理解の研究課題
特定度(Specificity)高い 低い
長い
短い
時間的参照範囲
(Tem
pora
l scope)
課題1: 同一音の検出・識別
ヘルスケア
福祉 警備安全保障
課題4: 音環境(場所や出来事)の検出・識別
マルチメディア探索
索引付け
レコメンデーション
会議状況認識
ユビキタス・コンピューティング
環境保護ライフログ
課題2: 音響イベント(環境音や非言語音声)の検出・識別
11Copyright©2014 NTT corp. All Rights Reserved.
課題1:同一音の検出・識別
データベースに登録された音と全く同一の音を検出・識別する
警報ブザー,電化製品音,信号機音,音響商標(サウンドロゴ)など
福祉用具,警備,健康管理,権利保護
今年4月に音や色,映像も商標登録の対象に追加する改正商標法が成立
検出・識別手法
音響指紋技術の利用 [Ogle+2007]
スペクトログラムの画像処理によって得られる特徴の利用 [Dat+2014]
特定度
時間的参照範囲
研究の数は少ないが,社会的ニーズは大きいため,今後活発に研究されることを期待する
課題2
課題3 課題4
課題1
観測信号
データベース
警報ブザー
電化製品音
12Copyright©2014 NTT corp. All Rights Reserved.
課題2:音響イベントの検出・識別
「音響イベント」を定義し,音響的特徴の観点で同一の音を検出・識別 音源や収録環境,話者性の違いを含めるため特定度は低く,単発音であるため時間的参照範囲は短い
ライフログ,状況認識,環境保護
検出・識別手法 MFCCとHMMによる時間区間検出
[Weninger+2011, Chaudhuri+2013]
NMFのようなスパース信号解析[Cotton+2011, Heittola+2011]
実験用データベース RWCP実環境音声・音響データベース
特定度
時間的参照範囲
課題3 課題4
課題2課題1
AMI Meeting Corpus,BBC Sound Effects
観測信号
データベース
ドアノック音 咳払い
13Copyright©2014 NTT corp. All Rights Reserved.
課題3:音声/非音声/音楽区間の検出・識別
音声と音声以外(非音声や音楽)の時間区間を検出・識別する
特定度が音響イベント検出と同程度で,時間的参照範囲が長い
検出・識別手法 ITU-TやETSIより標準化された音声区間検出技術が音声符号化や音声認識などに応用される [藤本2012]
音声/非音声/音楽の汎用信号区間検出技術(GSAD)もITU-Tより標準化
実験データベース CENSREC-1-C [Kitaoka+2009],
GSADにおいても評価データが公開
特定度
時間的参照範囲 課題4
課題2課題1
課題3
観測信号
データベース
音声 非音声
音声 非音声 音楽
14Copyright©2014 NTT corp. All Rights Reserved.
課題4:音環境(場所や出来事)の検出・識別
「場所」や「出来事」を定義し,音響的特徴が同一の音環境を検出・識別
同じ場所や出来事でも個々の構造は極めて多様であるため特定度は低く,時間的な参照範囲は長い
映像クリップへの索引付,探索,推薦
検出・識別手法
Bag of Words (MFCCなどの特徴量のベクトル量子化とヒストグラム作成),SVMなど識別器[Pancoast+2013,Huang+2014]
実験用データベース
Columbia Consumer Video Dataset[Jiang+2011]
特定度
時間的参照範囲
課題2課題1
課題3
観測信号
データベース
地下鉄
ドッグショー
ドッグショー
課題4
15Copyright©2014 NTT corp. All Rights Reserved.
音によるシーン理解の研究の現在と未来
競争型ワークショップが取り組む研究課題の調査
機械学習を駆使した音シーン理解の研究紹介
10年間に渡って取り組まれてきた研究課題の整理音の特定度(Specificity)と時間的参照範囲(Temporal scope)
16Copyright©2014 NTT corp. All Rights Reserved.
競争型ワークショップが取り組む研究課題
CLEAR D-CASE
Albayzin
TRECVID MED
音響イベント検出
音声/非音声/音楽区間検出
映像分類
映像内容説明 TRECVID MER
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014
特定度
時間的参照範囲
課題1 課題2
課題3課題4
①どの課題に取り組むか
②どんなデータを使うか
③ どんな手法が効果的で,現状どの程度の性能か
17Copyright©2014 NTT corp. All Rights Reserved.
CLEAR (2006-2007)
特定度
時間的参照範囲
課題1
課題3
課題2
課題4 VACEとCHILの協賛の下で開催
CLassification of Events, Activities
and Relationships
課題2: 12種類の音響イベント検出
課題4: 9種類の音環境の識別
効果的な手法
課題2: MFCC等の特徴量をAdaBoost
で選別,HMMで区間推定 [Zhou+2008]
正解率:30 –40% 程度
音響イベントが重なると検出が難しい
課題4: MFCC等の特徴量,各環境のHMMの事後確率で識別 [Malkin2006]
正解率:84.6%
レストラン
公園
バス
0 5 10 15 20 25 [秒]0
40
40
4
[kHz]
4
0
ノック音 電話音 笑い声
セミナー環境
18Copyright©2014 NTT corp. All Rights Reserved.
D-CASE (2012-2013)
2012 IEEE AASP Challenge: Detection and Classification of
Acoustic Scenes and Events
課題2: 16種類の音響イベント検出
課題4: 10種類の音環境の識別
効果的な手法 課題2: MFCC,Gabor FilterBank特徴を利用し,HMMで検出 [Schroder+2013]
正解率:45.1%(イベントの重なり無し)
正解率:8.4%(イベントの重なり有り)
課題4: 再帰定量化解析を用いてMFCCの動特性を抽出し,SVMで識別 正解率:75.0%
人間による識別能力と同等 [Roma+2013]
特定度
時間的参照範囲
課題1
課題3
課題2
課題4
市場
公道
地下鉄
0 5 10 15 20 25 [秒]0
40
40
4
[kHz]
4
0
キーボード 咳 音声
オフィス環境
19Copyright©2014 NTT corp. All Rights Reserved.
Albayzin (2010-2014)
スペインの大学機関の下で開催
音声言語処理の競争型ワークショップ
課題3: 87時間分のTVニュース番組の音響信号の時間区分化
「音声」,「音楽」,「背景に雑音が重畳する音声」,「背景に音楽が重畳する音声」,「その他」からなる5つのクラス
効果的な手法
MFCCやクロマ特徴量などの1秒程度の統計量を特徴量に用いること
HMMを利用して,5つのクラスを階層的に識別すること [Butko+2011]
正解率: 69.8% (Albayzin2010)
特定度
時間的参照範囲
課題1 課題2
課題4課題3
MFCC特徴量の系列
1秒間の統計量Silence
Music
Speech over
music階層的に識別
20Copyright©2014 NTT corp. All Rights Reserved.
TRECVID MED (2010-2014)
TREC Video Retrieval Evaluation
Multimedia Event Detection
課題4:映像クリップから音情報を含めたイベントを検出して識別する 「タイヤを交換する」「誕生日を祝う」等
5840時間の映像,30個のイベント(MED 2013)
効果的な手法
MFCC,GMM Supervector+SVM,木構造GMMによる高速探索 [篠田2014]
意味インデキシングや音声認識,OCRで得られた情報を「中間表現」として利用
Mean average precision: 30%程度(MED 2013)
特定度
時間的参照範囲
課題1 課題2
課題3課題4
MFCC
木構造
SVM
21Copyright©2014 NTT corp. All Rights Reserved.
TRECVID MER (2012-2014)
TREC Video Retrieval Evaluation
Multimedia Event Recounting
課題2: イベントが検出された証拠を列挙して,説明する 証拠の場所と時刻,および説明文をXML
形式で書き起こす
MEDの性能解析・向上とともに,検索インタフェースの利便性向上を目的
効果的な手法
MEDで得られた中間表現を利用して書き起こす
人手による判定で,60%程度のMED
のイベントの「説明」が可能
特定度
時間的参照範囲
課題1
課題3課題4
課題2
<observation
id=“Obs01”description="noise"
confidence="0.30"
importance="0.49"
presentation_order="1">
<sources_list>
<source type=“speech”/>
</sources_list>
<snippet type="audio"
start_time="0.00"
end_time="1.00">
</snippet>
</observation>
22Copyright©2014 NTT corp. All Rights Reserved.
競争型ワークショップを踏まえて
シンプルな特徴量や識別器で大規模データを評価
MFCC,Bag of Words,GMM,HMM,SVM
音響イベント検出が音環境識別よりも性能が低い
時間的に重なった音響イベントの検出・識別は極めて困難
音環境の識別は実用化が近い?!
TRECVID MEDとMERが活発に
⇒注力する課題:音響イベント検出
音響イベントの精緻な特徴抽出が必要
特定度
時間的参照範囲
課題1
課題3課題4
課題2
洗練されつつある機械学習が音響イベントの特徴抽出に
貢献するのでは?
23Copyright©2014 NTT corp. All Rights Reserved.
音によるシーン理解の研究の現在と未来
競争型ワークショップが取り組む研究課題の調査
機械学習を駆使した音響イベント検出の研究紹介
10年間に渡って取り組まれてきた研究課題の整理音の特定度(Specificity)と時間的参照範囲(Temporal scope)
24Copyright©2014 NTT corp. All Rights Reserved.
機械学習を駆使した音響イベント検出研究
計算機環境の性能向上,学習アルゴリズムの確立
深層学習(DNN) [Kons+2013, Espi+2014]
MFCCなどの特徴量に比べて,時間的に重なった音響イベントの詳細な音響特徴抽出が可能
音声認識と同じく,検出精度が大幅に改善される
音響イベントごとに,大量のラベル付き学習データが必要
計算コストが大きい
ベイズ学習
音のスパース性や連続性など事前知識を導入でき,データが少ない場合,過学習を防げる
大規模なデータに対して計算コストが大きい
・・・
・・・
[Mesaros+2011, Imoto+2013, Ohishi+2013, Sasaki+2013]
良い面,悪い面があるが,どちらも有望なアプローチ
25Copyright©2014 NTT corp. All Rights Reserved.
深層学習に基づく音響イベント特徴抽出
深層学習(DNN)の導入 [Kons+2013, Espi+2014]
RBMに基づく自己符号化器によって事前学習された隠れ層を積み重ねて多層の階層ネットワークを構築
最終層の出力を使った識別ネットワークを追加して,全体として教師あり学習
入力層
出力層
h(1)
h(S)
h(2)
W(S)
W(1)
W(2)
Softmaxユニット層1 unit/HMM state
1 state/音響イベント + 無音
Fine-tuning
隠れ層 (RBMs)
W(1)W(1)
可視層: h(S)
隠れ層: h(1)
可視層: h(S)’
隠れ層: h(S)
スペクトルパッチ再構成
スペクトルパッチ
W(S) W(S)
26Copyright©2014 NTT corp. All Rights Reserved.
深層学習に基づく音響イベント特徴抽出
検出・識別方法
教師なし学習された隠れ層が,時間的に重なった音響イベントの詳細な特徴抽出の役割を果たす
事前に特徴抽出されたMFCC やフィルタバンク出力値よりも,およそ200ms 区間のスペクトルを並べたスペクトルパッチを入力層に使うことによって,検出精度が向上した
各音響イベントに対して,大量の学習データが必要
計算コスト大
DNNの出力
音響イベントのユニグラム確率
定数HMMに統合
Viterbi アルゴリズムによるイベント列推定
27Copyright©2014 NTT corp. All Rights Reserved.
ベイズ学習に基づく音響イベント特徴抽出
様々な事前知識やノンパラメトリックベイズの導入[Ohishi+2013]
音響イベントD
アクティベーション
基底選択列
基底スペクトル
② ③①
音響イベントd
アクティベーション
基底選択列
基底スペクトル
② ③①
スペクトログラム
時間
周波数
音響イベント1
アクティベーション
基底選択列
基底スペクトル
② ③①
音のスパース性⇒NMFの利用
音の連続性⇒マルコフ性
音響イベント数推定⇒ノンパラメトリックベイズ
28Copyright©2014 NTT corp. All Rights Reserved.
ベイズ学習に基づく音響イベント特徴抽出
音響信号の生成過程
検出方法:アクティベーションの利用(on:黒,off:白)
個々の音響イベントを特定するために,教師あり学習する
KL-NMF アクティベーション:Markov Indian Buffet過程(音響イベント数推定)
基底スペクトル:ガンマ分布
基底選択列:多項分布
時間
音響イベント1
・・・
音響イベント2
音響イベントd
GMM学習による検出手法と同等以上の性能
29Copyright©2014 NTT corp. All Rights Reserved.
まとめと今後の課題
音によるシーン理解の研究の現在と未来
85
0
10
15
20
25
発表件数
7 810 9 10
13 14
24
17
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 [年]
競争型ワークショップの開催
CLEARD-CASE
TRECVID MED
TRECVID MER
Albayzin
機械学習の発展
SVMGMM
HMM
DNN・・・
・・・
ベイズ
競争型ワークショップが取り組む研究課題の調査⇒特に難しい課題:音響イベント検出
機械学習を駆使した音響イベント検出の研究紹介⇒深層学習とベイズ学習
10年間に渡って取り組まれてきた研究課題の整理音の特定度(Specificity)と時間的参照範囲(Temporal scope)
計算の高速化,スケーラビリティ,アプリケーションの構築