動作認識におけるディープラーニングの最新動向２sequential dl for har

動作認識におけるディープラーニングの最新動向② Sequential DL for HAR

2016/3/15 株式会社ウェブファーマー

大政　孝充

今回取り上げるのはこれ

[1]M.Baccouche, F.Mamalet, C.Wolf, C.Garcia, A.Baskurt. “Sequential deep learning for human action recognition.” In Human Behavior Understanding, page 29-39. Apringer, 2011.

3D-CNNとRNNを組み合わせることで、認識率を向上させた！

まず基本 3D-CNNとは？

[1]のFigure 1, Figure2より

2DのCNN

3D-CNN

vijwy = tanh bij + wijm

pqv(i−1)m(x+p)(y+q)

q=0

Qi−1

∑p=0

Pi−1

∑m∑

⎛

⎝⎜⎜

⎞

⎠⎟⎟ vij

wyz = tanh bij + wijmpqv(i−1)m

(x+p)(y+q)(z+r )

r=0

Ri−1

∑q=0

Qi−1

∑p=0

Pi−1

∑m∑

⎛

⎝⎜⎜

⎞

⎠⎟⎟

時間軸方向に展開

詳細はこちら→http://www.slideshare.net/ssuser07aa33

もうひとつ基本 RNNとは？

入力層出力層中間層

ある時刻の出力が次の時刻の入力へと回帰する →つまり情報が次の時刻に記憶される！

これが全体の構造！

[1]のFigure 3より


3D-CNNで特徴をもとめ


それをさらにRNNにかける

3D-CNNの部分はこうだ！

[1]のFigure 1より

3D-CNNな部分の詳細（１）

input画像を3Dで畳み込む連続する9シーンのうち 5シーンで畳み込む

3D-CNNな部分の詳細（2）

あとは通常の2D-CNNで畳み込み、プーリング、全結合し、クラスごとに出力


これをどんどん学習させると・・・


C3層に3×8×5=120次元の特徴ベクトルが形成される

→これをRNNに入力する

RNNな部分の詳細（1）

一連のシーンのうち最初の9シーンを切り出し

3D-CNNへ入力

特徴ベクトルをt=1のデータとしてRNNへ入力

t=1におけるRNNからの出力


次の9シーンを切り出し 3D-CNNへ入力

t=2におけるRNNからの出力

特徴ベクトルをt=2のデータとしてRNNへ入力


最後の9シーンを切り出し 3D-CNNへ入力

出力をt=nのデータとしてRNNへ入力

t=nにおけるRNNからの出力


これをどんどん学習させる


テスト時には、t=nの出力結果をもって判断する！

動作認識におけるディープラーニングの最新動向２sequential dl for har

Data & Analytics