Download - あらゆる音の検出・識別を目指して · ため時間的参照範囲は短いライフログ，状況認識，環境保護検出・識別手法 MFCCとHMMによる時間区間検出

Copyright©2014 NTT corp. All Rights Reserved.

あらゆる音の検出・識別を目指して-- 音響イベント検出研究の現在と未来 --

大石康智

日本電信電話株式会社NTT コミュニケーション科学基礎研究所

1Copyright©2014 NTT corp. All Rights Reserved.

音によるシーン理解とは

音

映像

時間

時間

時間

時間



音

映像

音声音声音声音楽音声

音声音声音楽

時間

時間

時間

時間



音

映像

笑声咳払物音鳥声車音警笛

足音物音悲鳴楽器音機材音歓声


音声音声音楽

会議の状況認識

場所や出来事の記録

高精度な警備システム

時間

時間

時間

ライブ感メディア検索

時間



音

映像

笑声咳払物音鳥声車音警笛

足音物音悲鳴楽器音機材音歓声


音声音声音楽

会議の状況認識

場所や出来事の記録

高精度な警備システム

時間

時間

音声/音楽の囲いを取り払い，あらゆる音を対象とするため，大幅な音アプリケーションエリアの拡大が見込まれる

時間

ライブ感メディア検索

時間


音によるシーン理解の研究の10年間

国際会議ICASSPにおける発表件数

85

0

10

15

20

25

発表件数

7 810 9 10

13 14

24

17

2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 [年]

• 「audio」「event」「sound」「scene」「detection」「classification」をキーワードとしてタイトル検索し，内容を精査して判断した結果

• 2013年は音響イベント検出のスペシャルセッションが開催された

10年間で研究発表件数が徐々に増えている


音によるシーン理解の研究の10年間

研究発表が増えている要因

85

0

10

15

20

25

発表件数

7 810 9 10

13 14

24

17

2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 [年]

競争型ワークショップの開催

CLEARD-CASE

TRECVID MED

TRECVID MER

Albayzin

機械学習の発展

SVMGMM

HMM

DNN・・・

・・・

ベイズ


音によるシーン理解の研究の現在と未来

競争型ワークショップが取り組む研究課題の調査

機械学習を駆使した音シーン理解の研究紹介

10年間に渡って取り組まれてきた研究課題の整理音の特定度(Specificity)と時間的参照範囲(Temporal scope)


音によるシーン理解の研究課題

長い

短い

時間的参照範囲(Temporal scope)

信号全体の統計的な特徴に基づいて検出・識別

フレーム毎の特徴照合に基づいて検出・識別

特定度(Specificity)高い低い

データベースの音と全く同一の音を観測信号から検出・識別

データベースの音と何らかの観点で同一の音を検出・識別

・同一音楽検索（音響指紋技術）

・カバー曲・バージョン違い曲検索

・ジャンル曲検索 etc.

[Grosche+2012]

内容に基づく音楽検索から類推


課題3: 音声/非音声/音楽の区間検出・識別

音声・音楽符号化

著作権管理音声認識

音によるシーン理解の研究課題

特定度(Specificity)高い低い

長い

短い

時間的参照範囲

(Tem

pora

l scope)

課題1: 同一音の検出・識別

ヘルスケア

福祉警備安全保障

課題4: 音環境（場所や出来事）の検出・識別

マルチメディア探索

索引付け

レコメンデーション

会議状況認識

ユビキタス・コンピューティング

環境保護ライフログ

課題2: 音響イベント（環境音や非言語音声）の検出・識別


課題1：同一音の検出・識別

データベースに登録された音と全く同一の音を検出・識別する

警報ブザー，電化製品音，信号機音，音響商標（サウンドロゴ）など

福祉用具，警備，健康管理，権利保護

今年4月に音や色，映像も商標登録の対象に追加する改正商標法が成立

検出・識別手法

音響指紋技術の利用 [Ogle+2007]

スペクトログラムの画像処理によって得られる特徴の利用 [Dat+2014]

特定度


研究の数は少ないが，社会的ニーズは大きいため，今後活発に研究されることを期待する

課題2

課題3 課題4

課題1

観測信号

データベース

警報ブザー

電化製品音


課題2：音響イベントの検出・識別

「音響イベント」を定義し，音響的特徴の観点で同一の音を検出・識別音源や収録環境，話者性の違いを含めるため特定度は低く，単発音であるため時間的参照範囲は短い

ライフログ，状況認識，環境保護

検出・識別手法 MFCCとHMMによる時間区間検出

[Weninger+2011, Chaudhuri+2013]

NMFのようなスパース信号解析[Cotton+2011, Heittola+2011]

実験用データベース RWCP実環境音声・音響データベース

特定度


課題3 課題4

課題2課題1

AMI Meeting Corpus，BBC Sound Effects

観測信号

データベース

ドアノック音咳払い


課題3：音声/非音声/音楽区間の検出・識別

音声と音声以外（非音声や音楽）の時間区間を検出・識別する

特定度が音響イベント検出と同程度で，時間的参照範囲が長い

検出・識別手法 ITU-TやETSIより標準化された音声区間検出技術が音声符号化や音声認識などに応用される [藤本2012]

音声/非音声/音楽の汎用信号区間検出技術（GSAD）もITU-Tより標準化

実験データベース CENSREC-1-C [Kitaoka+2009]，

GSADにおいても評価データが公開

特定度

時間的参照範囲課題4

課題2課題1

課題3

観測信号

データベース

音声非音声

音声非音声音楽


課題4：音環境（場所や出来事）の検出・識別

「場所」や「出来事」を定義し，音響的特徴が同一の音環境を検出・識別

同じ場所や出来事でも個々の構造は極めて多様であるため特定度は低く，時間的な参照範囲は長い

映像クリップへの索引付，探索，推薦

検出・識別手法

Bag of Words （MFCCなどの特徴量のベクトル量子化とヒストグラム作成），SVMなど識別器[Pancoast+2013，Huang+2014]

実験用データベース

Columbia Consumer Video Dataset[Jiang+2011]

特定度


課題2課題1

課題3

観測信号

データベース

地下鉄

ドッグショー

ドッグショー

課題4


競争型ワークショップが取り組む研究課題

CLEAR D-CASE

Albayzin

TRECVID MED

音響イベント検出

音声/非音声/音楽区間検出

映像分類

映像内容説明 TRECVID MER

2005 2006 2007 2008 2009 2010 2011 2012 2013 2014

特定度


課題1 課題2

課題3課題4

①どの課題に取り組むか

②どんなデータを使うか

③ どんな手法が効果的で，現状どの程度の性能か


CLEAR (2006-2007)

特定度


課題1

課題3

課題2

課題4 VACEとCHILの協賛の下で開催

CLassification of Events, Activities

and Relationships

課題2: 12種類の音響イベント検出

課題4: 9種類の音環境の識別

効果的な手法

課題2: MFCC等の特徴量をAdaBoost

で選別，HMMで区間推定 [Zhou+2008]

正解率：30 –40% 程度

音響イベントが重なると検出が難しい

課題4: MFCC等の特徴量，各環境のHMMの事後確率で識別 [Malkin2006]

正解率：84.6%

レストラン

公園

バス

0 5 10 15 20 25 [秒]0

40

40

4

[kHz]

4

0

ノック音電話音笑い声

セミナー環境


D-CASE (2012-2013)

2012 IEEE AASP Challenge： Detection and Classification of

Acoustic Scenes and Events

課題2: 16種類の音響イベント検出

課題4: 10種類の音環境の識別

効果的な手法課題2: MFCC，Gabor FilterBank特徴を利用し，HMMで検出 [Schroder+2013]

正解率：45.1%（イベントの重なり無し）

正解率：8.4%（イベントの重なり有り）

課題4: 再帰定量化解析を用いてMFCCの動特性を抽出し，SVMで識別正解率：75.0%

人間による識別能力と同等 [Roma+2013]

特定度


課題1

課題3

課題2

課題4

市場

公道

地下鉄

0 5 10 15 20 25 [秒]0

40

40

4

[kHz]

4

0

キーボード咳音声

オフィス環境


Albayzin (2010-2014)

スペインの大学機関の下で開催

音声言語処理の競争型ワークショップ

課題3: 87時間分のTVニュース番組の音響信号の時間区分化

「音声」，「音楽」，「背景に雑音が重畳する音声」，「背景に音楽が重畳する音声」，「その他」からなる5つのクラス

効果的な手法

MFCCやクロマ特徴量などの1秒程度の統計量を特徴量に用いること

HMMを利用して，5つのクラスを階層的に識別すること [Butko+2011]

正解率： 69.8% (Albayzin2010)

特定度


課題1 課題2

課題4課題3

MFCC特徴量の系列

1秒間の統計量Silence

Music

Speech over

music階層的に識別


TRECVID MED (2010-2014)

TREC Video Retrieval Evaluation

Multimedia Event Detection

課題4:映像クリップから音情報を含めたイベントを検出して識別する「タイヤを交換する」「誕生日を祝う」等

5840時間の映像，30個のイベント(MED 2013)

効果的な手法

MFCC，GMM Supervector+SVM，木構造GMMによる高速探索 [篠田2014]

意味インデキシングや音声認識，OCRで得られた情報を「中間表現」として利用

Mean average precision: 30%程度(MED 2013)

特定度


課題1 課題2

課題3課題4

MFCC

木構造

SVM


TRECVID MER (2012-2014)

TREC Video Retrieval Evaluation

Multimedia Event Recounting

課題2: イベントが検出された証拠を列挙して，説明する証拠の場所と時刻，および説明文をXML

形式で書き起こす

MEDの性能解析・向上とともに，検索インタフェースの利便性向上を目的

効果的な手法

MEDで得られた中間表現を利用して書き起こす

人手による判定で，60%程度のMED

のイベントの「説明」が可能

特定度


課題1

課題3課題4

課題2

<observation

id=“Obs01”description="noise"

confidence="0.30"

importance="0.49"

presentation_order="1">

<sources_list>

<source type=“speech”/>

</sources_list>

<snippet type="audio"

start_time="0.00"

end_time="1.00">

</snippet>

</observation>


競争型ワークショップを踏まえて

シンプルな特徴量や識別器で大規模データを評価

MFCC，Bag of Words，GMM，HMM，SVM

音響イベント検出が音環境識別よりも性能が低い

時間的に重なった音響イベントの検出・識別は極めて困難

音環境の識別は実用化が近い?!

TRECVID MEDとMERが活発に

⇒注力する課題：音響イベント検出

音響イベントの精緻な特徴抽出が必要

特定度


課題1

課題3課題4

課題2

洗練されつつある機械学習が音響イベントの特徴抽出に

貢献するのでは？




機械学習を駆使した音響イベント検出の研究紹介



機械学習を駆使した音響イベント検出研究

計算機環境の性能向上，学習アルゴリズムの確立

深層学習(DNN) [Kons+2013, Espi+2014]

MFCCなどの特徴量に比べて，時間的に重なった音響イベントの詳細な音響特徴抽出が可能

音声認識と同じく，検出精度が大幅に改善される

音響イベントごとに，大量のラベル付き学習データが必要

計算コストが大きい

ベイズ学習

音のスパース性や連続性など事前知識を導入でき，データが少ない場合，過学習を防げる

大規模なデータに対して計算コストが大きい

・・・

・・・

[Mesaros+2011, Imoto+2013, Ohishi+2013, Sasaki+2013]

良い面，悪い面があるが，どちらも有望なアプローチ


深層学習に基づく音響イベント特徴抽出

深層学習(DNN)の導入 [Kons+2013, Espi+2014]

RBMに基づく自己符号化器によって事前学習された隠れ層を積み重ねて多層の階層ネットワークを構築

最終層の出力を使った識別ネットワークを追加して，全体として教師あり学習

入力層

出力層

h(1)

h(S)

h(2)

W(S)

W(1)

W(2)

Softmaxユニット層1 unit/HMM state

1 state/音響イベント + 無音

Fine-tuning

隠れ層 (RBMs)

W(1)W(1)

可視層: h(S)

隠れ層: h(1)

可視層: h(S)’

隠れ層: h(S)

スペクトルパッチ再構成

スペクトルパッチ

W(S) W(S)


深層学習に基づく音響イベント特徴抽出

検出・識別方法

教師なし学習された隠れ層が，時間的に重なった音響イベントの詳細な特徴抽出の役割を果たす

事前に特徴抽出されたMFCC やフィルタバンク出力値よりも，およそ200ms 区間のスペクトルを並べたスペクトルパッチを入力層に使うことによって，検出精度が向上した

各音響イベントに対して，大量の学習データが必要

計算コスト大

DNNの出力

音響イベントのユニグラム確率

定数HMMに統合

Viterbi アルゴリズムによるイベント列推定


ベイズ学習に基づく音響イベント特徴抽出

様々な事前知識やノンパラメトリックベイズの導入[Ohishi+2013]

音響イベントD

アクティベーション

基底選択列

基底スペクトル

② ③①

音響イベントd


基底選択列


② ③①

スペクトログラム

時間

周波数

音響イベント1


基底選択列


② ③①

音のスパース性⇒NMFの利用

音の連続性⇒マルコフ性

音響イベント数推定⇒ノンパラメトリックベイズ


ベイズ学習に基づく音響イベント特徴抽出

音響信号の生成過程

検出方法：アクティベーションの利用（on:黒，off：白）

個々の音響イベントを特定するために，教師あり学習する

KL-NMF アクティベーション：Markov Indian Buffet過程（音響イベント数推定）

基底スペクトル：ガンマ分布

基底選択列：多項分布

時間

音響イベント1

・・・

音響イベント2

音響イベントd

GMM学習による検出手法と同等以上の性能


まとめと今後の課題


85

0

10

15

20

25

発表件数

7 810 9 10

13 14

24

17

2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 [年]

競争型ワークショップの開催

CLEARD-CASE

TRECVID MED

TRECVID MER

Albayzin

機械学習の発展

SVMGMM

HMM

DNN・・・

・・・

ベイズ

競争型ワークショップが取り組む研究課題の調査⇒特に難しい課題：音響イベント検出

機械学習を駆使した音響イベント検出の研究紹介⇒深層学習とベイズ学習


計算の高速化，スケーラビリティ，アプリケーションの構築

Download - あらゆる音の検出・識別を目指して · ため時間的参照範囲は短い ライフログ，状況認識，環境保護 検出・識別手法 MFCCとHMMによる時間区間検出

Top Related

Download - あらゆる音の検出・識別を目指して · ため時間的参照範囲は短いライフログ，状況認識，環境保護検出・識別手法 MFCCとHMMによる時間区間検出