cvpr2017 参加報告 速報版 本会議3日目

15
CVPR2017参加報告 (速報版・三日目) 2017.7.24(現地時間) @a_hasimoto

Upload: atsushi-hashimoto

Post on 21-Jan-2018

1.651 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: CVPR2017 参加報告 速報版 本会議3日目

CVPR2017参加報告(速報版・三日目)

2017.7.24(現地時間)@a_hasimoto

Page 2: CVPR2017 参加報告 速報版 本会議3日目

このスライドについて

1. 本会議での発表の内容を

2. 印象に残ったものだけ

3. その時の印象と,あとでのreferenceをたどるために

メモしたものです.

9/18(月・祝),関西CVPRML勉強会にて,解説を予定.→ https://twitter.com/kansaicvprml

私の理解が深まるので,勘違いの指摘や質問,リンクの紹介,その他議論大歓迎.

Page 3: CVPR2017 参加報告 速報版 本会議3日目

三日目総評• 今日は午前中だけ.

• 人が少ないことを見越したのか,Deep Learningではない研究(3D visionやPhotometry,クラスタリングなど)がこの日に集められている印象→ Organizerの悪意を若干,というか結構感じてしまう.

• Deep Learning関連でも,余り面白いものが少ない?

• Clusteringについては,Deep Learning旋風は吹き荒れていない.• ただし,前提知識が無いとoralの長い発表でも数式を追えず,全然わ

からない(><)

• Subspace Clusteringばかり.まぁ,当然か.

• CNNの大域解への収束に関する面白い研究が一番印象に残った.

Page 4: CVPR2017 参加報告 速報版 本会議3日目

会議のBooklet無くしました(T T)

• 昨日までと違って,計画的に回れていません.

• ポスターに関してのメモ(手書きだった)なども残せていません(><)

• 昨日までの内容をこっちに残しておいて良かった.

Page 5: CVPR2017 参加報告 速報版 本会議3日目

夕方にCaffe2のmeetupイベントが有った

• 言ったら,宣伝ばかりで,実装してみよう,とかは無かった.

• 主な特徴• PC間の通信の最適化→台数を増やしても効率が落ちにくい(90%程度を

保持)

• 専用のハードウェアは不要.安価なGPUをたくさんつなげて大量のデータを処理できる.

• 16bit浮動小数点数に対応(普通は32bit)→モデルサイズやメモリ消費を効率化.binaryと違って,精度も維持できる!

• NvidiaのTensorRTも使ってね☆• 学習済みのモデルをHWに合わせて最適化したりできる!

→組み込みの製品化に非常に役立つ!

Page 6: CVPR2017 参加報告 速報版 本会議3日目

Global Optimality in Neural Network Training, Benjamin D. Haeffele, René Vidal

• みんな不思議に思ってる: なんでdeep learning 動くの? • 局所解に落ちないの?

• 最適化と汎化とアーキテクチャ(ネットの構造)は互いに関係しているはず.• ネットの構造で,最適化のしやすさ/しにくさってあるの?

• 大事なのは下記の3つだ,という論文.• positive homogeneity: sigmoid layer以外は大体なんでも成り立つ.

• parallel subnetworks: まぁ,成り立つよね.

• Weight Decay: positive homogeneityとregularizationのそれぞれのスケール(詳細は図が無いと説明しにくい)が合っていないと良くない.

Page 7: CVPR2017 参加報告 速報版 本会議3日目

Compact Matrix Factorization With Dependent Subspaces, Viktor Larsson, Carl Olsson Program

• rankベースのMF→missing dataに強い.SfMとかに重要.• low-rank embedding が当たり前になってきた印象.

• matrixがpoint trajectoriesを含むとき.• シーンが複雑であるほどrankが高くなる.

• 一方で,設定したrankが高すぎるとoverfitting

• 行列のrankを上手く決めることが大事.• point trajectoriesは複数のsubspaceに分布する,と仮定.

• union-of-subspace(subspaceの分布するsubspaceみたいなもの?)に対してもrankの拘束をいれるといい感じになる

• missing dataがない場合は普通にやった方が誤差が少ない???

• Compact matrix factorization

• overparametrizationを避けながらmissingデータに対処できる.

Page 8: CVPR2017 参加報告 速報版 本会議3日目

Age Progression/Regression by Conditional Adversarial AutoencoderZhifei Zhang, Yang Song, Hairong Qi

• 従来手法は,Age groupに分けて,labelとして年齢を推定(回帰でも良いと思うけれど)→ Group-wised learning.←これはしない.

• Manifold Traversing

• 人の顔の経年変化を学習して,任意の顔について経年変化をGANで生成させる. • 年齢推定は下記の手順?詳細は発表やポスターでは不明

1. 推定対象人物の各年代として予測される顔を生成

2. 入力に一番近い顔を選ぶ.

• 人毎の経年変化のしかたの違いがモデルに組み込まれている→従来より良い.

• 印象としては問題の難しさに対してオーバーキル…

Page 9: CVPR2017 参加報告 速報版 本会議3日目

On the Global Geometry of Sphere-Constrained Sparse Blind DeconvolutionYuqian Zhang et al.

• 顕微鏡画像とかでは特にdeblurは重要.

• The activation signals are sparse (細胞とかエッジとかそういうの(?) )

• motion blurではなく,ボケですね.

• symmetric solution creates a local optima

• 議論から落ちた…わかりません….

Page 10: CVPR2017 参加報告 速報版 本会議3日目

Probabilistic Temporal Subspace Clustering, Behnam Gholami, Vladimir Pavlovic Clustering Time Series Data

• Subspace Clustering: 同じsubspaceに属する→同じクラスタ• Time Dependency: ガウス分布

• Number of Subspaces: stick-breaking process

• Dimensionality: Beta-Bernoulli Process

• Missing data: Marginalization

• 肝心な部分を聴き逃しました…,むぅ.集中力が落ちてきています.

• Mocap Datasetで実験

• Missing Dataに対しても良いパフォーマンス.

Page 11: CVPR2017 参加報告 速報版 本会議3日目

Provable Self-Representation Based Outlier Detection in a Union of Subspaces, Chong You, Daniel P. Robinson, René Vidal

• 同じくSubspace クラスタリング.

• Outlierが面倒くさい.

• outlierを一つのsubspaceに押し込める!←あれ??

• Computer self-representation

• inlierは顔,outliersは顔以外• 多分,問題として簡単すぎるので,査読がちょっとゆるくない?

# 自分はoutlier detection + クラスタ数推定で,これより上手く動きそうなのに落とされたので不満がある….

• random walkで,ぐるぐる廻れるならinlier• outlierでもinlierに近ければグルグル回れそうなのだが,詳細不明.

Page 12: CVPR2017 参加報告 速報版 本会議3日目

Learning to Extract Semantic Structure From Documents Using Multimodal Fully Convolutional Neural Networks Xiao Yang et al.

• 文書画像をブロックや見出しなどの領域に分ける.

• Text Embedding Mapというものを作成し,最終層(FC)の前に追加.

• 一方で,手前の方で分岐しておいて,元の画像を復元するように学習(←predictの時は使わない)

• 実装自体は,論文の図を見れば一発でわかる.

Page 13: CVPR2017 参加報告 速報版 本会議3日目

FFTLasso: Large-Scale LASSO in the Fourier DomainAdel Bibi, Hani Itani, Bernard Ghanem

• L1正則化の計算• 提案手法は計算時間が早い

• 計算量的には O(m^3)→O(mnlog m)

• m^2 > n log m なら早い.正方行列はこれを満たす.n^2>n log n?

• 計算量の理論値に対して,実験結果から得られる,実際の速度の改善幅が小さいようにも見える.• コード: https://github.com/adelbibi/FFTLasso

Page 14: CVPR2017 参加報告 速報版 本会議3日目

ポスターまで記述するのは力尽きました• 希望があれば関西CVPRML勉強会で解説.

• 良く見て聴いてきたリスト(面白いと思ったもののみ掲載)

• Deeply Supervised Salient Object Detection with Short Connections, Qibin Hou, Ming-Ming Cheng, Xiaowei Hu, Ali Borji, Zhuowen Tu, Philip Torr

• 抽象度の高い層のfeature mapを浅い層のfeature mapにくっつけて(short connections),各層でsaliency mapを作成し,それらのmapをlinear sumすると良い結果を得られるらしい.

• 抽象度が高すぎると物体のディテールが失われる?,ということだと思う.

• それぞれの層の寄与度がよくわからないから,本当にそれが利いているのかポスターからも,質問しても,よくわからなかった.

• Learning Cross-Modal Deep Representations for Robust Pedestrian Detection, Dan Xu, Wanli Ouyang, Elisa Ricci, Xiaogang Wang, Nicu Sebe

• 可視光画像と温度画像のデータを相互に利用して,それぞれのセンサが苦手なところを,補うような学習ができる→RGB画像のみでの精度があがる.

• Annotating Object Instances with a Polygon-RNN, Lluís Castrejón, Kaustav Kundu, Raquel Urtasun, Sanja Fidler [Best Paper Honorable Mention Awards]

• 詳細な領域形状のアノテーションを楽にするために,物体を囲むPolygonの編集点をRNNで出力するような学習を行った

• 人間がacceptableなレベル(どうやって決めた??)まで精度が出た

Page 15: CVPR2017 参加報告 速報版 本会議3日目

続き• 希望があれば関西CVPRML勉強会で解説

• 良く見て聴いてきたリスト(面白いと思ったもののみ掲載)

• Online Graph Completion: Multivariate Signal Recovery in Computer Vision, Won Hwa Kim, Mona Jalal, Seongjae Hwang, Sterling C. Johnson, Vikas Singh

• グラフ信号処理を利用しているように思える.

• 点群の欠損を上手く保管しているみたい.

• やはり,グラフ信号処理の勉強が足りない….

• A Message Passing Algorithm for the Minimum Cost Multicut Problem, Paul Swoboda, Bjoern Andres

• 普通のgraph cutはグラフを2つにしか分けられない.multicut(3つ以上に分ける)はNP-hard

• 近似非(lower bound)などの詳細がポスターにはなかったが,linearで動くらしい.

• Depth from Defocus in the Wild, Huixuan Tang, Scott Cohen, Brian Price, Stephen Schiller, Kiriakos N. Kutulakos

• 手法の詳細は不明だが,CNN使ってない!?しかし,かなり出来ていそうだった.スマホ画像に対して動作させていた模様.一見すると,そこまでdefocusが目立つようには見えない画像.