chainer meetup2016 03-19pub
TRANSCRIPT
Yuta Kashino• BakFoo, Inc. CEO
• Astro Physics /Observational Cosmology
• Zope / Python
• Realtime Data Platform for Enterprise
いくつか既実装がある
• "Image caption generation by CNN and LSTM” Satoshi Tsutsui (Chainer)
• “Neural Talk” / “Neural Talk2” Andrej Karpathy (Python / Torch)
• “Show, Attend and Tell” Xu+2015の実装
(Theano)
NIC Chainer実装
• GoogLeNet学習済みモデル: https://github.com/BVLC/
caffe/tree/master/models/bvlc_googlenet
• MSCOCOのプリプロセス: https://github.com/karpathy/
neuraltalk2#id-like-to-train-my-own-network-on-ms-coco
• MSCOCOのGoogLeNetによる学習 Satoshi Tsutsui:
pre_extract_googlenet_features.py
• NICモデルの学習 Satoshi Tsutsui, train_ptb
動画のNICパイプライン
動画 OpenCV フレーム分割
NIC gen caption
NIC gen caption
Embarrassingly Parallel !
NIC gen caption
問題点
• NICはオーバフィッティングしやすく,転移学習の効果が低い.
• 動画から静止画を切り出しただけ.動画の時間依存性を全く使っていない.たくさんある画像の深層学習にすぎない.
• 音声情報を全く利用していない.
• 自然言語処理としての日本語を生成する大変さ.
• 日本人・日本・日本語に関するすぐに利用可能な教師データが皆無 -> データ整備から始める必要がある.
教えてください
• 前提:教師データが少ない大量の映像データがあります.
• うまくいった研究例を教えて下さい.
• どうすれば動画を使うという良さがでるのか?
• どのような深層学習の手法(あまり複雑でない)を用いれば面白い結果ができるのか?
• どのようなデータを使えばNICより先にいけるのか?
例えば…
• 外部データを教師データとする
• Large-scale Video Classification with Convolutional Neural Networks Karpathy+ http://cs.stanford.edu/people/karpathy/deepvideo/ CVPR 2014
• Youtubeの映像とタグを教師データとして,任意のスポーツを分類
• But…
• この研究結果はヒドく当たり前でツマラナイ.
Resources• "Show and Tell: A Neural Image Caption Generator” Oriol Vinyals, Alexander
Toshev, Samy Bengio, Dumitru Erhan http://arxiv.org/abs/1411.4555
• 上記講演: http://techtalks.tv/talks/show-and-tell-a-neural-image-caption-
generator/61592/
• "Image caption generation by CNN and LSTM” Satoshi Tsutsui http://t-satoshi.blogspot.jp/2015/12/image-caption-generation-by-cnn-and-lstm.html
• "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention” Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard Zemel, Yoshua Bengio http://arxiv.org/abs/1502.03044
• 上記実装: http://kelvinxu.github.io/projects/capgen.html https://github.com/
kelvinxu/arctic-captions
• NeuralTalk / NueralTalk2 https://github.com/karpathy/neuraltalk2
20