動作認識におけるディープラーニングの最新動向2sequential dl for har
TRANSCRIPT
![Page 1: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/1.jpg)
動作認識におけるディープラーニングの 最新動向② Sequential DL for HAR
2016/3/15 株式会社ウェブファーマー
大政 孝充
![Page 2: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/2.jpg)
今回取り上げるのはこれ
[1]M.Baccouche, F.Mamalet, C.Wolf, C.Garcia, A.Baskurt. “Sequential deep learning for human action recognition.” In Human Behavior Understanding, page 29-39. Apringer, 2011.
3D-CNNとRNNを組み合わせることで、認識率を向上させた!
![Page 3: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/3.jpg)
まず基本 3D-CNNとは?
[1]のFigure 1, Figure2より
2DのCNN
3D-CNN
vijwy = tanh bij + wijm
pqv(i−1)m(x+p)(y+q)
q=0
Qi−1
∑p=0
Pi−1
∑m∑
⎛
⎝⎜⎜
⎞
⎠⎟⎟ vij
wyz = tanh bij + wijmpqv(i−1)m
(x+p)(y+q)(z+r )
r=0
Ri−1
∑q=0
Qi−1
∑p=0
Pi−1
∑m∑
⎛
⎝⎜⎜
⎞
⎠⎟⎟
時間軸方向 に展開
詳細はこちら→http://www.slideshare.net/ssuser07aa33
![Page 4: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/4.jpg)
もうひとつ基本 RNNとは?
入力層 出力層中間層
ある時刻の出力が次の時刻の入力へと回帰する →つまり情報が次の時刻に記憶される!
![Page 5: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/5.jpg)
これが全体の構造!
[1]のFigure 3より
![Page 6: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/6.jpg)
これが全体の構造!
3D-CNNで特徴をもとめ
![Page 7: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/7.jpg)
これが全体の構造!
それをさらにRNNにかける
![Page 8: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/8.jpg)
3D-CNNの部分はこうだ!
[1]のFigure 1より
![Page 9: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/9.jpg)
3D-CNNな部分の詳細(1)
input画像を3Dで畳み込む 連続する9シーンのうち 5シーンで畳み込む
![Page 10: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/10.jpg)
3D-CNNな部分の詳細(2)
あとは通常の2D-CNNで畳み込み、 プーリング、全結合し、クラスごとに出力
![Page 11: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/11.jpg)
3D-CNNな部分の詳細(3)
これをどんどん学習させると・・・
![Page 12: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/12.jpg)
3D-CNNな部分の詳細(4)
C3層に3×8×5=120次元の 特徴ベクトルが形成される
→これをRNNに入力する
![Page 13: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/13.jpg)
RNNな部分の詳細(1)
一連のシーンのうち 最初の9シーンを切り出し
3D-CNNへ入力
特徴ベクトルをt=1のデータとしてRNNへ入力
t=1におけるRNNからの出力
![Page 14: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/14.jpg)
RNNな部分の詳細(2)
次の9シーンを切り出し 3D-CNNへ入力
t=2におけるRNNからの出力
特徴ベクトルをt=2のデータとしてRNNへ入力
![Page 15: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/15.jpg)
RNNな部分の詳細(3)
最後の9シーンを切り出し 3D-CNNへ入力
出力をt=nのデータとしてRNNへ入力
t=nにおけるRNNからの出力
![Page 16: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/16.jpg)
RNNな部分の詳細(4)
これをどんどん学習させる
![Page 17: 動作認識におけるディープラーニングの最新動向2Sequential DL for HAR](https://reader033.vdocuments.site/reader033/viewer/2022051006/587790d61a28ab0f778b51b9/html5/thumbnails/17.jpg)
RNNな部分の詳細(5)
テスト時には、t=nの出力結果をもって判断する!