kdd2014勉強会発表資料

Efficient Mini-batch Training for Stochastic Optimization

京大石井研 M2 小山田創哲

@sotetsuk

@ KDD2014読み会関西会場

Li, M., Zhang, T., Chen, Y., & Smola, A. J.

紹介する論文

SGDと最近の傾向ビッグデータと計算機性能の向上を背景に膨大なパラメータ数の識別器を，大量のデータで SGD(Stochastic Gradient Descent) によって学習する場面が目立つ

例えば Deep learning

[Taigman et al., 2014] [Le et al., 2012] [Szegedy et al., 2014]

SGD Stochastic Gradient Descent 【問題】次のコスト関数の最小化をしたい

【SGD】次のように逐次的に最適化

Ex.

MSGD Mini-batch SGD

Distributed implementation 応用上，パラメータ数やサンプルサイズが膨大な場面では，分散処理が行われる．

【問題点】更新式の実行毎にコミュニケーションコストが発生する

コミュニケーションの回数を減らして，たくさんのデータをみるため，batch size を大きくしたい

MSGDのトレードオフコミュニケーションコストを減らして，たくさんデータをみるため，batch sizeを大きくしたいが， batch sizeを大きくしすぎると，たくさんのデータをみても，なかなか学習が進まなくなる． n コスト関数が凸な場合について，理論的に収束が遅くなることが示される [Dekel et al., 2012]

提案手法 Batch sizeを大きくしても学習が遅くならないMSGDを提案基本アイディア:

Mini-batch毎の一回の更新の質を向上させる

各mini-batchにおけるパラメータの更新を正則化項を含むコスト関数の最小化問題の近似だと捉える（次で説明）

提案手法の基本アイディア Mini-batch毎の一回の更新の質を向上させる

は

と等価．さらにこれを

の一次近似とみなす．これをMini-batch毎に解く．

［］の中をwで微分して0とおくと…

Mini-batch毎の更新を正則化項を含むコスト関数の最小化問題（部分問題）へと発想を逆転させる

EMSO（提案手法）各mini-batch毎に定義される部分問題をまた勾配法で解く n EMSO-GD

n Gradient Descentで解く n EMSO-CD

n Coordinate Descentで解く

図はh"p://en.wikipedia.org/から参照

並列計算でのEMSO Mini-batchのデータを分割して，それぞれについてをEMSO-GDまたはCDで並列に計算し，それらの平均をとって更新する

数値実験 n データセット

n KDD04 n URL n CTR

n モデル n Logistic regressionによる2値分類

表は論文より参照

単一ノードでの結果 URLデータセット

すべて10^7サンプル学習後 Batch sizeは各手法毎に最適なものを使用

EMSO-CD が10倍早い

図は論文より参照

複数ノードでの結果

単一ノードの時と同じく EMSO-CDが10倍早い

ノード数を変えた時 EMSO-CDのコストが特定の値まで下がるまでに要した時間の比較

図,表は論文より参照

総括【手法】

Mini-batch毎の更新を，正則化項を含むコスト関数の最適化問題で置き換え，より繊細に更新を行うことによって，batch-sizeを大きくしても学習が遅くならない手法を提案している

【理論】

凸なコスト関数を仮定した場合，bが大きい時の収束速度の改善が証明されている（今回触れず）

【数値実験】

二値分類Logistic regressionにおける数値実験でEMSO-CDが他の手法より高い性能を示した

kdd2014勉強会 発表資料

Data & Analytics

kdd2014勉強会発表資料