情報幾何勉強会 emアルゴリズム

18
2016/02/16 情報幾何勉強会 情報幾何学の新展開:12章 隠れ変数のあるモデル : emEMアルゴリズム, 非忠実なモデル,Bayes統計 担当: 品川 政太朗 ( 知能コミュニケーション研究室 ) 2016/2/16 2016Seitaro Shinagawa AHC-lab NAIST 1/18

Upload: shinagawa-seitaro

Post on 06-Apr-2017

537 views

Category:

Engineering


0 download

TRANSCRIPT

2016/02/16 情報幾何勉強会情報幾何学の新展開:12章

隠れ変数のあるモデル : emとEMアルゴリズム,

非忠実なモデル,Bayes統計

担当: 品川 政太朗(知能コミュニケーション研究室)

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST 1/18

2016/2/16

今回の勉強会の目標

EMアルゴリズムの情報幾何的解釈を理解する

隠れ変数を持つ他の統計モデルとの関連を概観する

情報幾何勉強会の(今年度の)目標

2016ⒸSeitaro Shinagawa AHC-lab NAIST

情報幾何と機械学習の関わりについて概観する

2/18

2016/2/16

1. EMアルゴリズム

2. 情報幾何からみたEMアルゴリズム

3. まとめ

4. 参考文献

Index

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3/18

2016/2/16

1. EMアルゴリズム

2. 情報幾何からみたEMアルゴリズム

3. まとめ

4. 参考文献

Index

2016ⒸSeitaro Shinagawa AHC-lab NAIST 4/18

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST

はじめに:EMアルゴリズムとは隠れ変数(潜在変数)をもつ確率モデルの最尤解を求めるための一般的手法 (ボルツマンマシンの学習、誤差逆伝搬法にもEMが現れる)

EMアルゴリズム

可視変数(観測データ) 𝑿 = 𝒙(1), ⋯ , 𝒙(𝑛) , 隠れ変数 𝒁

パラメータを初期化𝜽𝑜𝑙𝑑 = 𝜽𝑖𝑛𝑖while:

Eステップ:𝑝(𝒁|𝑿; 𝜽𝑜𝑙𝑑)を計算

Mステップ:𝑄 𝜽, 𝜽𝑜𝑙𝑑 = 𝒁𝑝(𝒁|𝑿;𝜽𝑜𝑙𝑑) ln 𝑝(𝑿, 𝒁; 𝜽)𝜽𝑛𝑒𝑤 = argmax

𝜃𝑄(𝜽, 𝜽𝑜𝑙𝑑)

if(収束条件): break

else: 𝜽𝑜𝑙𝑑 ← 𝜽𝑛𝑒𝑤

Eステップ可視変数、パラメータ固定で事後分布を計算

Mステップ可視変数、隠れ変数固定でパラメータを更新

1. EMアルゴリズム

5/18

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST

なぜEステップでは事後分布を計算するのか

変分下限による説明を試みる

まず𝑄𝑖(𝒛(𝑖))を隠れ変数の任意の分布とする

対数尤度

𝑖

log 𝑝(𝒙 𝑖 ; 𝜽) =

𝑖

log 𝑝(𝒙 𝑖 , 𝒛 𝑖 ; 𝜽) 𝑑𝒛(𝑖)

𝑖

𝑄𝑖 𝒛𝑖 log

𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽

𝑄𝑖(𝒛(𝑖))

𝑑𝒛(𝑖)

Jensenの不等式log 𝔼 𝑥 ≥ 𝔼 log(𝑥)

𝑦 = log(𝑥)

𝔼 𝑥

log(𝔼 𝑥 )

𝔼 log(𝑥)

パラメータ固定だったらどのような𝑄𝑖(𝑧(𝑖))を選べば変分下限は最大となるか?

=

𝑖

log 𝑄𝑖(𝒛(𝑖))

𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽

𝑄𝑖(𝒛(𝑖))

𝑑𝒛(𝑖)

変分下限

1. EMアルゴリズム

6/18

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST

答え:事後分布 𝑄𝑖 𝒛𝑖 = 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)

𝐷𝐾𝐿 𝑄𝑖 𝒛𝑖 ||𝑝 𝒛 𝑖 |𝒙 𝑖 ; 𝜽

= 𝑄𝑖 𝒛𝑖 log

𝑄𝑖(𝒛(𝑖))

𝑝 𝒛 𝑖 |𝒙 𝑖 ; 𝜽𝑑𝒛(𝑖)

= 𝑄𝑖 𝒛𝑖 log

𝑄𝑖(𝒛(𝑖))𝑝 𝒙 𝑖 ; 𝜽

𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽𝑑𝒛(𝑖)

= − 𝑄𝑖 𝒛𝑖 log

𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽

𝑄𝑖 𝒛𝑖

𝑑𝒛 𝑖 + 𝑄𝑖 𝒛𝑖 log 𝑝(𝒙 𝑖 ; 𝜽) 𝑑𝒛(𝑖)

= − 𝑄𝑖 𝒛𝑖 log

𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽

𝑄𝑖 𝒛𝑖

𝑑𝒛 𝑖 + log𝑝(𝒙 𝑖 ; 𝜽)

∴ log 𝑝(𝒙 𝑖 ; 𝜽) = 𝑄𝑖 𝒛𝑖 log

𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽

𝑄𝑖 𝒛𝑖

𝑑𝒛 𝑖 + 𝐷𝐾𝐿 𝑄𝑖 𝒛𝑖 ||𝑝 𝒛 𝑖 |𝒙 𝑖 ; 𝜽

※本来の導出はちょっと分かりませんでした。(参考:次ページ)

確認

変分下限 𝑄𝑖 𝒛𝑖 = 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)で 0

log 𝑝(𝒙 𝑖 ; 𝜽)

𝐷𝐾𝐿 → 0

(PRML Fig 9.11,12より)

1. EMアルゴリズム

7/18

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST

http://cs229.stanford.edu/notes/cs229-notes8.pdfによると

𝑄𝑖 𝒛𝑖 = 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)となる理由

1. EMアルゴリズム

8/18

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST

Mステップの計算

𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽) log𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽

𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)𝑑𝒛 𝑖

= 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽) log 𝑝 𝒙 𝑖 , 𝒛 𝑖 ; 𝜽 𝑑𝒛 𝑖 − 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽) log 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽) 𝑑𝒛 𝑖

変分下限

𝑄𝑖 𝒛𝑖 = 𝑝(𝒛 𝑖 |𝒙(𝑖); 𝜽)を代入して、

定数

(PRML Fig 9.13より)

𝐷𝐾𝐿𝑛𝑒𝑤

log 𝑝(𝒙 𝑖 ; 𝜽𝑛𝑒𝑤)

完全データの期待値→勾配法で計算𝜽𝑛𝑒𝑤 = argmax

𝜃𝑄(𝜽, 𝜽𝑜𝑙𝑑)

𝜽𝑜𝑙𝑑 ← 𝜽𝑛𝑒𝑤

Eステップ、Mステップは対数尤度を単調に増加させる

1. EMアルゴリズム

9/18

2016/2/16

1. EMアルゴリズム

2. 情報幾何からみたEMアルゴリズム

3. まとめ

4. 参考文献

Index

2016ⒸSeitaro Shinagawa AHC-lab NAIST 10/18

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST

emアルゴリズム(exponential-mixture)

2. 情報幾何からみたEMアルゴリズム

双対平坦な多様体Sに含まれる2つの部分多様体D,Mについて最近接点を求めるアルゴリズム

双対平坦 : 曲がった空間Sで直線の概念を定義するのに必要

多様体S : n次元の点の集合,ここでは確率密度関数

(赤穂昭太郎, 情報幾何で見る機械学習, p11)

確率密度関数のパラメータの空間はユークリッド空間ではない

𝜇1 = 1, 𝜇2 = 4, 𝜎1 = 2, 𝜎2 = 1のとき,

𝐷𝐾𝐿(𝐴| 𝐵 = 2𝐷𝐾𝐿(𝐶| 𝐷 = 8

A-B,C-D間でKLダイバージェンスが異なる⇒空間が“曲がっている”

𝟐

𝟖

11/18

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST

emアルゴリズム

2. 情報幾何からみたEMアルゴリズム

双対平坦な多様体Sに含まれる2つの部分多様体D,Mについて最近接点を求めるアルゴリズム

(テキストp126)

D:観測データの多様体(データが指定する分布)M:確率モデルの多様体(同時分布) と思って見てください

Mのある一点について最近接点となるDの一点を求める(M→Dの射影)

Dのある一点について最近接点となるMの一点を求める(D→Mの射影)

12/18

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST

emアルゴリズム

2. 情報幾何からみたEMアルゴリズム

双対平坦な多様体Sに含まれる2つの部分多様体D,Mについて最近接点を求めるアルゴリズム

(テキストp126)

D:観測データの多様体(データが指定する分布)M:確率モデルの多様体(同時分布) と思って見てください

Mのある一点について最近接点となるDの一点を求める(M→Dの射影)

Dのある一点について最近接点となるMの一点を求める(D→Mの射影)

13/18

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST

EMアルゴリズム(expectation-maximization)

2. 情報幾何からみたEMアルゴリズム

• 変数𝒙 = (𝒚, 𝒛)で与えられる確率分布全体の空間を𝑆 = {𝑝(𝒚, 𝒛)}とする• パラメータ𝝃で指定されるモデル多様体Mは𝑀 = {𝑝(𝒚, 𝒛, 𝝃)}とする• 観測データによる分布を 𝑞(𝒚)とする(経験分布とする)

データ多様体Dは任意の分布を𝑞(𝒛|𝒚)として

𝐷 = { 𝑞 𝒚 𝑞 𝒛 𝒚 ; 𝑞(𝒛|𝒚)は任意} (12.8)

𝑞 𝒚, 𝒛 =1

𝑛 𝑖 𝛿(𝒚 − 𝒚𝑖)𝑞 𝒛 𝒚𝒊 (12.9)

𝐿 𝑞 𝒛 𝒚 , 𝝃 = 𝑞 𝒚 𝑞 𝒛 𝒚 log 𝑞 𝒚 𝑞 𝒛 𝒚

𝑝(𝒚, 𝒛, 𝝃)𝑑𝒚𝑑𝒛 (12.10)

(iは観測データ番号)

𝑫𝑲𝑳(𝑫||𝑴)

観測データが多数の場合(𝒚1, 𝒚2, ⋯ , 𝒚𝑛)では

観測できるのはデータ多様体の方なので、DとMのKLダイバージェンスを考える

14/18

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST

𝐿 𝑞 𝒛 𝒚 , 𝝃 = 𝑞 𝒚 𝑞 𝒛 𝒚 log 𝑞 𝒚 𝑞 𝒛 𝒚

𝑝(𝒚, 𝒛, 𝝃)𝑑𝒚𝑑𝒛 (12.10)

これを最小にする 𝑞 𝒛 𝒚 , 𝝃はDとM間のダイバージェンスを最小にする最近接点

𝐷𝐾𝐿 𝑞 𝒚 𝑞||𝑝 𝒚, 𝒛, 𝝃

= [ 𝑞 𝒚 𝑞 𝒛 𝒚 log 𝑞 𝒛 𝒚 𝑑𝒛

𝐷𝐾𝐿 𝑞 𝒚 𝑞||𝑝 𝒚, 𝒛, 𝝃

− 𝑞 𝒚 𝑞 𝒛 𝒚 𝑝 𝒚, 𝒛, 𝝃 𝑑𝒛 + 𝑞 𝒚 log 𝑞 𝒚 ]𝑑𝒚

(12.11)

定理12.1: DとMのダイバージェンスを最小

にする 𝝃は,最尤推定に一致する

定理12.2: Mの一点からデータ多様体Dへのe-射影に対して,条件付き分布𝑞 𝒛 𝒚 は不変で,𝒛の条件付き期待値は元のものと同じになる

2. 情報幾何からみたEMアルゴリズム

15/18

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST

Mステップ1

𝑞(𝐷)

Eステップ

(テキストp127)

16/18

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST

まとめ

情報幾何学の立場からのEMアルゴリズムの解釈を試みた Eステップはモデル多様体の1点からデータ多様体の1点への射影だといえる(e-射影)

Mステップはデータ多様体の1点からモデル多様体の1点への射影だといえる(m-射影)

Eステップ、Mステップの繰り返しはデータ多様体とモデル多様体の最近接点を求めることに等しい

今回扱わなかった(踏み込まなかった)内容双対平坦(e-平坦,m-平坦),指数型分布族・混合型分布族ベイズ統計への応用

17/18

2016/2/16 2016ⒸSeitaro Shinagawa AHC-lab NAIST

参考文献

甘利俊一,情報幾何の新展開,第3章,12章藤原彰夫,情報幾何学の基礎C.M.ビショップ,パターン認識と機械学習下, 第9章混合モデルとEM

赤穂昭太郎, 情報幾何で見る機械学習,

https://unit.aist.go.jp/airc/docs/seminar02-akaho.pdf

Andrew Ng, CS229 Lecture notes,

http://cs229.stanford.edu/notes/cs229-notes8.pdf

村田昇,池田思朗,神経回路網とEMアルゴリズムhttp://www.ism.ac.jp/~shiro/papers/books/embook2000.pdf

18/18