chainer meetup2016 03-19pub

21
動画の苦しみ 1 2016-03-19 @chainer meetup #02

Upload: yuta-kashino

Post on 15-Apr-2017

1.810 views

Category:

Technology


0 download

TRANSCRIPT

動画の苦しみ

1

2016-03-19 @chainer meetup #02

Yuta Kashino• BakFoo, Inc. CEO

• Astro Physics /Observational Cosmology

• Zope / Python

• Realtime Data Platform for Enterprise

本日のお話

• 「やってみた」「できた」という自慢系ではありません.皆様に相談するのが趣旨です.

• 動画に深層学習を適用する苦しみを共有したいです.

動画の深層学習

なにから始めればいいか…

NeuralTalk and Walk

Neural Image Caption

• 画像をみてその画像を描写するキャプションを生成 Vinyals+ CVPR 2015

NIC = CNN + LSTM

CNN + LSTM予測確率

学習データ

MSCOCO

GoogLeNet

プレトレーニング: ImageNet + DropOut 初期値:

ランダム -> uniform

いくつか既実装がある

• "Image caption generation by CNN and LSTM” Satoshi Tsutsui (Chainer)

• “Neural Talk” / “Neural Talk2” Andrej Karpathy (Python / Torch)

• “Show, Attend and Tell” Xu+2015の実装

(Theano)

NIC Chainer実装

• GoogLeNet学習済みモデル: https://github.com/BVLC/

caffe/tree/master/models/bvlc_googlenet

• MSCOCOのプリプロセス: https://github.com/karpathy/

neuraltalk2#id-like-to-train-my-own-network-on-ms-coco

• MSCOCOのGoogLeNetによる学習 Satoshi Tsutsui:

pre_extract_googlenet_features.py

• NICモデルの学習 Satoshi Tsutsui, train_ptb

動画のNICパイプライン

動画 OpenCV フレーム分割

NIC gen caption

NIC gen caption

Embarrassingly Parallel !

NIC gen caption

demo

だがしかし

問題点

• NICはオーバフィッティングしやすく,転移学習の効果が低い.

• 動画から静止画を切り出しただけ.動画の時間依存性を全く使っていない.たくさんある画像の深層学習にすぎない.

• 音声情報を全く利用していない.

• 自然言語処理としての日本語を生成する大変さ.

• 日本人・日本・日本語に関するすぐに利用可能な教師データが皆無 -> データ整備から始める必要がある.

教えてください

• 前提:教師データが少ない大量の映像データがあります.

• うまくいった研究例を教えて下さい.

• どうすれば動画を使うという良さがでるのか?

• どのような深層学習の手法(あまり複雑でない)を用いれば面白い結果ができるのか?

• どのようなデータを使えばNICより先にいけるのか?

例えば…

• 外部データを教師データとする

• Large-scale Video Classification with Convolutional Neural Networks Karpathy+ http://cs.stanford.edu/people/karpathy/deepvideo/ CVPR 2014

• Youtubeの映像とタグを教師データとして,任意のスポーツを分類

• But…

• この研究結果はヒドく当たり前でツマラナイ.

最後に…

• NVIDIAのTITAN Xが年度末までに4枚欲しいのですが,どうにも手に入りません….

• もしも入手可能な情報をお持ちでしたら,是非お教えください.

Resources

Resources• "Show and Tell: A Neural Image Caption Generator” Oriol Vinyals, Alexander

Toshev, Samy Bengio, Dumitru Erhan http://arxiv.org/abs/1411.4555

• 上記講演: http://techtalks.tv/talks/show-and-tell-a-neural-image-caption-

generator/61592/

• "Image caption generation by CNN and LSTM” Satoshi Tsutsui http://t-satoshi.blogspot.jp/2015/12/image-caption-generation-by-cnn-and-lstm.html

• "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention” Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard Zemel, Yoshua Bengio http://arxiv.org/abs/1502.03044

• 上記実装: http://kelvinxu.github.io/projects/capgen.html https://github.com/

kelvinxu/arctic-captions

• NeuralTalk / NueralTalk2 https://github.com/karpathy/neuraltalk2

20

Comments & Questions

[email protected]

21

@yutakashino