論文輪読資料「why regularized auto-encoders learn sparse representation?」dl hacks
TRANSCRIPT
"Why regularized Auto-Encoders learn Sparse Representation?" @ DL Hacks paper reading session
2015/06/05
東京大学大学院工学系研究科技術経営戦略学専攻 松尾研究室
黒滝 紘生[email protected]
目次
3
1. Introduction
2. Auto-Encoders and Sparse Representation
3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)
4. Empirica Analysis and Observations
5. Conclusion
目次
4
1. Introduction
2. Auto-Encoders and Sparse Representation
3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)
4. Empirica Analysis and Observations
5. Conclusion
概要
・基本情報- Why regularized Auto-Encoders learn Sparse Representation?
- Devansh Arpit, Yingbo Zhou, Hung Ngo, Venu Govindaraju Department of Computer Science SUNY Buffalo
- http://arxiv.org/pdf/1505.05561.pdf
・論文の内容- AE で学習した素性が、なぜ sparse になるのか、形式的な分析をした。
- sparse になる十分条件を与え、既存の AE がそれを満たすことを示した。
- 正則化項と、活性化関数の、両方が関係していることがわかった。
- 分析に基づいて、より sparse になりやすい、新たな活性化関数を提案した。
5
先行研究
・経験的 / 実験的に、 sparseness を得るための条件を示している研究はある
- Why does the unsupervised pretraning encourage moderate-sparseness? [Li, 2013]
- Zero-bias autoencoders and the benefits of co-adapting features [Memisevic, 2014] (ICLR)
- Rectified linear units improve restricted boltzmann machines [Nair, 2010] (ICML)
・しかし、形式的 (formally) に、なぜ Autoencoder が sparse な表現を得られるのかを分析した論文は、筆者の知る限り、見つかっていない。
・これは、目的関数が、非線形、非凸の場合の分析が難しいためであるが、筆者らはこれに挑戦している。
7
論文の構成
2. Auto-Encoders and Sparse Representation
2.1 Part I: What encourages sparsity during Auto-Encoder training?・ Auto-Encoder(AE) が、 Sparse な表現を学習する条件を、
定式化した
2.2 Part II: Do existing Auto-Encoders learn Sparse Representation? ・既存の AE が、 2.1 の条件を満たすことを示した
3. Improving Bias Gradient of ReLU with Rectified Softplus (ReS)2.1 の分析を活かして、新しい活性化関数を提案した
4. Empirical Analysis and Observations2 と 3 の内容を、実験によって確かめた
8
目次
9
1. Introduction
2. Auto-Encoders and Sparse Representation
3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)
4. Empirica Analysis and Observations
5. Conclusion
AE が Sparse な表現を学習する、とは ?
・得られた表現が sparse である= hidden unit の値が小さい= pre-activation (a) が小さく、活性化関数が負の極限でゼロなら OK
11
隠れ層の
活性化前
(pre-activation)
正則化有りの
AE の誤差関数
AE が Sparse な表現を学習するための条件 1/2
・得られた表現が sparse である= hidden unit の値が小さい= pre-activation (a) が小さく、活性化関数が負の極限でゼロなら OK
12
隠れ層の
活性化前
(pre-activation)
正則化有りの
AE の誤差関数
かつ
と が成り立つ。
ならば
AE が Sparse な表現を学習するための条件 2/2
・得られた表現が sparse である= hidden unit の値が小さい= pre-activation (a) が小さく、活性化関数が負の極限でゼロなら OK
13
隠れ層の
活性化前
(pre-activation)
正則化有りの
AE の誤差関数
かつ
と が成り立つ。
ならば
bias gradient が正 j は、隠れ層のユニット番号 データの平均がゼロ
pre-activation の平均は減少し続ける。 pre-activation の分散には上界がある。
以降、「どうやって bias gradient を正にするか」が焦点になる。
( は、 λ を一定以上に上げると、効果が減るので、考えなくてよい。 )
"AE が Sparse な表現を学習するための条件 " の系
・この後の、 Auto-Encoder に対する証明では、前ページの定理を直接使わずに、こちらの系 (Corollary) の方を使う。
14
隠れ層の
活性化前
(pre-activation)
正則化有りの
AE の誤差関数
系 1. 活性化関数 S_e が単調増加、かつ、正則化項の形が
ならば、前ページの条件が成り立つ。
系 2. 活性化関数 S_e が単調増加で凸、かつ、正則化項の形が
ならば、前ページの条件が成り立つ。
と が成り立つ。
pre-activation の平均は減少し続ける。 pre-activation の分散には上界がある。
つまり
条件を満たす活性化関数
・ ReLU 、 Softplus 、前ページの系 1 や系 2 の「単調増加で凸関数」を満たす。・ Sigmoid は、一般には満たさない。
- しかし、 AE では、凸関数の部分しか使われない。結果として sparse になる- これは、 4 章の実験で示される。
・ Maxout 、 tanh は、満たさない。
15
系 1. 活性化関数 S_e が単調増加、かつ、正則化項の形が
ならば、前ページの条件が成り立つ。
系 2. 活性化関数 S_e が単調増加で凸、かつ、正則化項の形が
ならば、前ページの条件が成り立つ。
と が成り立つ。
pre-activation の平均は減少し続ける。 pre-activation の分散には上界がある。
つまり
条件を満たす活性化関数
・ ReLU 、 Softplus 、 Sigmoid のような、「単調増加で凸関数」かつ「負の無限大を取ると、ゼロになる」ような性質をもっている活性化関数を使うと、発火しないユニットがどんどん増えていく。 (de-activation が進む )
・「負の無限大でゼロ」の中でも、「ほとんどゼロ」より「完全にゼロ」の方が、性能が優れていることが、他の研究で明らかになっている。 (hard zero)
・上の 3 つの中では、 ReLU が hard zero を強制する性質をもっている。
・ hard zero が実際に効いていることは、 4 章の実験でも確認される。
16
条件を満たす活性化関数の性質
・ ReLU の場合- 系 1( 単調増加 ) と系 2( 単調増加 & 凸関数 ) の条件を満たす- 2 次微分をもたないので、系 2 の R 項の条件を満たさず、 sparsity が
下がる- hard zero を強制する
・ Softplus の場合- 系 1 と 2 を満たす- ただし、 hard zero を強制しない
・ sigmoid の場合- 系 1 を無条件で満たすが、系 2 は満たしていない- ただし、後述の実験によれば、 AE は sigmoid の凸関数の部分だけを
使っている- hard zero を強制しない
- Theorem1 の 2 番目が適用しにくい ( 割愛 )
17
既存の AE が条件を満たす証明
・系 1 と系 2 は、「活性化関数」と「正則化項」の組み合わせに関する条件・いま、「どの活性化関数を使えばよいか」はわかった・では、どの活性化関数 & 正則化項の組み合わせを使えばよいのか ?
18
系 1. 活性化関数 S_e が単調増加、かつ、正則化項の形が
ならば、前ページの条件が成り立つ。
系 2. 活性化関数 S_e が単調増加で凸、かつ、正則化項の形が
ならば、前ページの条件が成り立つ。
と が成り立つ。
pre-activation の平均は減少し続ける。 pre-activation の分散には上界がある。
つまり
既存の AE が条件を満たす証明
Denoising AE (DAE) → 系 2
Contractive AE (CAE) → 系 2
Merginalized Denoising AE (mDAE) → 系 2
Sparse AE (SAE) → 系 1
によって、条件を満たすことを示した。 ( 割愛 )
・ DAE は、そのままでは正則化項が分離されていない。2 次の Taylor 展開によって分離することで、解析できた。
・ SAE では、 ρ=0 を仮定したときについて示した。
19
目次
20
1. Introduction
2. Auto-Encoders and Sparse Representation
3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)
4. Empirica Analysis and Observations
5. Conclusion
新しい活性化関数、 Rectified Softplus (ReS)
・ Maxout と tanh は、 sparsity を保証しない。・ ReLU は、系 2 の場合に bias grad を持たないので、 sparsity が下がる。・ softplus と sigmoid は、 hard zero を作らない。
・そこで、筆者らは、新たな活性化関数として、Rectified Softplus(ReS) を提案した。
・ ReS は、
21
目次
22
1. Introduction
2. Auto-Encoders and Sparse Representation
3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)
4. Empirical Analysis and Observations
5. Conclusion
実験
・実験は、 MNIST と CIFAR-10 の全データで行われた。
・二乗和誤差と、 linear decoding を用いた。
・バイアス項はゼロで初期化した。
・各訓練データから、平均値を引いた。
23
実験 1 : AE における Sigmoid 関数の性質
AE における Sigmoid 関数が、・実際には、系 2 の条件 ( 単調増加の凸関数 ) を満たす・ sigmoid の linear な部分のみを使っている
ことを示すため、 ・ 系 2 の条件を満たしているユニットの数をカウントした。 ( 図はなし )
・値が 0.1 < h_j <= 0.9 の範囲になっている隠れユニットの % を計測した ( 下図 )
24
実験 2 : 正則化係数の影響、活性化関数の比較 1/2
・直感的には、正則化係数が高ければ、 pre-activation が減少する・しかし、 CAE/mDAE と、 ReLU の組み合わせでは、不安定・活性化関数の観点では、正則化項からの bias grad. がなく、誤差関数に頼って
いるからと考えられる
25
実験 2 : 正則化係数の影響、活性化関数の比較 2/2
・この推測を、平均と分散の直接計測で示した。・ ReLU で、 bias の grad. が低く、平均が高く保たれてしまっていると確認でき
る
26
実験 3 : AE の目的関数の、正則化係数への感度比較
・目的関数が、正則化係数の変化でどういう影響を受けるか・正則化係数の増加と共に、発火しているユニット数が減少してほしい (sparsity)・しかし、 CAE と mDAE では、正則化係数の増加に対して不安定 (ReLU 以外で
も )・目的関数の観点では、係数が non-linear に効いてくるから
27
実験 4 : True Sparsity(hard zero) の効果
・教師あり学習に、 True Sparsity が貢献するのかどうかを、実験した・単層 AE の教師無し学習の効力に注目するため、 fine-tune は行わなかった・ AE で得られた素性に、 SVM をかけて、 MNIST のラベリングで教師データと比較
1) CAE / mDAE について、 ReLU は Sigmoid / Softplus より誤差が大きい。これは、 true sparsity よりも、 bias grad. がない方が大きいと考えられる。
2) DAE / SAE で、 ReLU は Sigmoid / Softplus より誤差が小さい。これは、 true sparsity が効いているからと考えられる。
3) ReS は全体的に性能が良い。
28
目次
29
1. Introduction
2. Auto-Encoders and Sparse Representation
3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)
4. Empirica Analysis and Observations
5. Conclusion
まとめ ( 論文の貢献 )
・ Autoencoder の理論面からの分析を行った。・新しい活性化関数 / 正則化が、 sparsity をもたらすか予測するための、新たな方法を作った。
・分析面 a) encode側の bias grad. が正になるような AE 正則化は、 sparsity をもたら
す b) 活性化関数が、単調増加 / 凸関数 / 負の無限大で 0 だと、 sparsity をも
たらす c) 既存の AE の正則化は、 sparsity の条件を満たす。 d) 新たな活性化関数 Rectified Softplus(ReS) を提案した。
・実験面 a) AE は、シグモイド関数の convex な部分のみを使っている b) ReLU は、 CAE / mDAE と組み合わせると、 bias grad. が無いため、
sparsity に欠ける。 c) DAE / SAE は、 CAE / mDAE に比べて、 sparsity の正則化項係数への
感度が低い。 d) DAE は、 mDAE よりも sparsity が高い。 1 次と 2 次の効果を共に
捉えているから。30
参考文献
[Arpit 2015] Why Regularized Auto-Encoders learn Sparse Representation? Devansh Arpit, Yingbo Zhou, Hung Ngo, Venu Govindaraju. http://arxiv.org/abs/1505.05561
[Li, 2013] Unsupervised Pretraining Encourages Moderate-Sparseness. Jun Li, Wei Luo, Jian Yang, Xiaotong Yuan. http://arxiv.org/abs/1312.5813
[Memisevic, 2014] Zero-bias autoencoders and the benefits of co-adapting features. Kishore Konda, Roland Memisevic, David Krueger. http://arxiv.org/abs/1402.3337
[Nair, 2010] Rectified linear units improve restricted boltzmann machines. Vinod Nair, Geoffrey E. Hinton. ICML 2010.
31