Download - 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR
動作認識におけるディープラーニングの 最新動向② Sequential DL for HAR
2016/3/15 株式会社ウェブファーマー
大政 孝充
今回取り上げるのはこれ
[1]M.Baccouche, F.Mamalet, C.Wolf, C.Garcia, A.Baskurt. “Sequential deep learning for human action recognition.” In Human Behavior Understanding, page 29-39. Apringer, 2011.
3D-CNNとRNNを組み合わせることで、認識率を向上させた!
まず基本 3D-CNNとは?
[1]のFigure 1, Figure2より
2DのCNN
3D-CNN
vijwy = tanh bij + wijm
pqv(i−1)m(x+p)(y+q)
q=0
Qi−1
∑p=0
Pi−1
∑m∑
⎛
⎝⎜⎜
⎞
⎠⎟⎟ vij
wyz = tanh bij + wijmpqv(i−1)m
(x+p)(y+q)(z+r )
r=0
Ri−1
∑q=0
Qi−1
∑p=0
Pi−1
∑m∑
⎛
⎝⎜⎜
⎞
⎠⎟⎟
時間軸方向 に展開
詳細はこちら→http://www.slideshare.net/ssuser07aa33
もうひとつ基本 RNNとは?
入力層 出力層中間層
ある時刻の出力が次の時刻の入力へと回帰する →つまり情報が次の時刻に記憶される!
これが全体の構造!
[1]のFigure 3より
これが全体の構造!
3D-CNNで特徴をもとめ
これが全体の構造!
それをさらにRNNにかける
3D-CNNの部分はこうだ!
[1]のFigure 1より
3D-CNNな部分の詳細(1)
input画像を3Dで畳み込む 連続する9シーンのうち 5シーンで畳み込む
3D-CNNな部分の詳細(2)
あとは通常の2D-CNNで畳み込み、 プーリング、全結合し、クラスごとに出力
3D-CNNな部分の詳細(3)
これをどんどん学習させると・・・
3D-CNNな部分の詳細(4)
C3層に3×8×5=120次元の 特徴ベクトルが形成される
→これをRNNに入力する
RNNな部分の詳細(1)
一連のシーンのうち 最初の9シーンを切り出し
3D-CNNへ入力
特徴ベクトルをt=1のデータとしてRNNへ入力
t=1におけるRNNからの出力
RNNな部分の詳細(2)
次の9シーンを切り出し 3D-CNNへ入力
t=2におけるRNNからの出力
特徴ベクトルをt=2のデータとしてRNNへ入力
RNNな部分の詳細(3)
最後の9シーンを切り出し 3D-CNNへ入力
出力をt=nのデータとしてRNNへ入力
t=nにおけるRNNからの出力
RNNな部分の詳細(4)
これをどんどん学習させる
RNNな部分の詳細(5)
テスト時には、t=nの出力結果をもって判断する!