chainer meetup2016 03-19pub

動画の苦しみ

1

2016-03-19 @chainer meetup #02

Yuta Kashino• BakFoo, Inc. CEO

• Astro Physics /Observational Cosmology

• Zope / Python

• Realtime Data Platform for Enterprise

https://vimeo.com/125105210

本日のお話

• 「やってみた」「できた」という自慢系ではありません．皆様に相談するのが趣旨です．

• 動画に深層学習を適用する苦しみを共有したいです．

動画の深層学習

なにから始めればいいか…

NeuralTalk and Walk

Neural Image Caption

• 画像をみてその画像を描写するキャプションを生成 Vinyals+ CVPR 2015

NIC = CNN + LSTM

CNN + LSTM予測確率

学習データ

MSCOCO

GoogLeNet

プレトレーニング： ImageNet + DropOut 初期値:

ランダム -> uniform

いくつか既実装がある

• "Image caption generation by CNN and LSTM” Satoshi Tsutsui (Chainer)

• “Neural Talk” / “Neural Talk2” Andrej Karpathy (Python / Torch)

• “Show, Attend and Tell” Xu+2015の実装

(Theano)

NIC Chainer実装

• GoogLeNet学習済みモデル: https://github.com/BVLC/

caffe/tree/master/models/bvlc_googlenet

• MSCOCOのプリプロセス: https://github.com/karpathy/

neuraltalk2#id-like-to-train-my-own-network-on-ms-coco

• MSCOCOのGoogLeNetによる学習 Satoshi Tsutsui:

pre_extract_googlenet_features.py

• NICモデルの学習 Satoshi Tsutsui, train_ptb

動画のNICパイプライン

動画 OpenCV フレーム分割

NIC gen caption

NIC gen caption

Embarrassingly Parallel !

NIC gen caption

だがしかし

問題点

• NICはオーバフィッティングしやすく，転移学習の効果が低い．

• 動画から静止画を切り出しただけ．動画の時間依存性を全く使っていない．たくさんある画像の深層学習にすぎない．

• 音声情報を全く利用していない．

• 自然言語処理としての日本語を生成する大変さ．

• 日本人・日本・日本語に関するすぐに利用可能な教師データが皆無 -> データ整備から始める必要がある．

教えてください

• 前提：教師データが少ない大量の映像データがあります．

• うまくいった研究例を教えて下さい．

• どうすれば動画を使うという良さがでるのか？

• どのような深層学習の手法（あまり複雑でない）を用いれば面白い結果ができるのか？

• どのようなデータを使えばNICより先にいけるのか？

例えば…

• 外部データを教師データとする

• Large-scale Video Classification with Convolutional Neural Networks Karpathy+ http://cs.stanford.edu/people/karpathy/deepvideo/ CVPR 2014

• Youtubeの映像とタグを教師データとして，任意のスポーツを分類

• But…

• この研究結果はヒドく当たり前でツマラナイ．

http://cs.stanford.edu/people/karpathy/deepvideo/

最後に…

• NVIDIAのTITAN Xが年度末までに4枚欲しいのですが，どうにも手に入りません…．

• もしも入手可能な情報をお持ちでしたら，是非お教えください．

Resources

Resources• "Show and Tell: A Neural Image Caption Generator” Oriol Vinyals, Alexander

Toshev, Samy Bengio, Dumitru Erhan http://arxiv.org/abs/1411.4555

• 上記講演: http://techtalks.tv/talks/show-and-tell-a-neural-image-caption-

generator/61592/

• "Image caption generation by CNN and LSTM” Satoshi Tsutsui http://t-satoshi.blogspot.jp/2015/12/image-caption-generation-by-cnn-and-lstm.html

• "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention” Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard Zemel, Yoshua Bengio http://arxiv.org/abs/1502.03044

• 上記実装: http://kelvinxu.github.io/projects/capgen.html https://github.com/

kelvinxu/arctic-captions

• NeuralTalk / NueralTalk2 https://github.com/karpathy/neuraltalk2

20

http://arxiv.org/abs/1411.4555

http://techtalks.tv/talks/show-and-tell-a-neural-image-caption-generator/61592/

http://kelvinxu.github.io/projects/capgen.html

https://github.com/karpathy/neuraltalk2

Comments & Questions

[email protected]

21

@yutakashino

mailto:[email protected]?subject=

chainer meetup2016 03-19pub

Technology