prml ベイズロジスティック回帰

21
4.5 ベイズロジスティック回帰 PRML復々習レーン #5 2012/11/03 @hagino3000

Upload: hagino-3000

Post on 18-Jan-2015

1.533 views

Category:

Documents


2 download

DESCRIPTION

 

TRANSCRIPT

Page 1: PRML ベイズロジスティック回帰

4.5  ベイズロジスティック回帰 PRML復々習レーン  #5  

2012/11/03  

@hagino3000

Page 2: PRML ベイズロジスティック回帰

ロジスティック回帰のベイズ的な取り扱い

4.5  ベイズロジスティック回帰

Page 3: PRML ベイズロジスティック回帰

ロジスティック回帰に対して、ベイズ推論を適用する

•  厳密にやるのは難しい  

•  事後確率分布がガウス分布でない  

•  予測分布の評価をどうするか  

Page 4: PRML ベイズロジスティック回帰

事後確率分布がガウス分布でない。     ラプラス近似を適用して事後確率分布のガウス分布表現を探索する。

Page 5: PRML ベイズロジスティック回帰

p(w) = N(w |m0,S0 )

p(w | t)∝ p(w)p(t |w)

事前ガウス分布の一般形

wの上の事後確率分布

4.140

4.141

ロジスティック回帰の場合、ロジスティックシグモイド

関数が含まれる

尤度関数にロジスティックシグモイド関数が含まれるため、ガウス分布では無い

Page 6: PRML ベイズロジスティック回帰

ln(p(w | t))= ln(p(w)p(t |w))= ln(p(w))+ ln(p(t |w))

= ln(N(w |m0,S0 ))+ ln(p(t |w))

= ln(N(w |m0,S0 ))+ ln( yntn{1− yn}

1−tn )n=1

N

4.141の両辺の対数を取る

事前ガウス分布は式4.140を使う

ロジスティック回帰の尤度関数は式4.89

Page 7: PRML ベイズロジスティック回帰

ln(N(w |m0,S0 ))

= ln( 1(2π )D/2

1S0

1/2 exp{−12(x −m0 )

T S0 (x −m0 )})

= ln( 1(2π )D/2

1S0

1/2 )−12(x −m0 )

T S0 (x −m0 )

= −12(x −m0 )

T S0 (x −m0 )+ const

事前ガウス分布の項について、多変量ガウス分布の式(2.43)を使って整理

Page 8: PRML ベイズロジスティック回帰

尤度関数の項について整理

ln( yntn{1− yn}

1−tn )n=1

N

= (tn ln yn + (1− tn )ln(1− yn ))n=1

N

Page 9: PRML ベイズロジスティック回帰

4.142の式が得られる

ln(p(w | t)) =

−12(x −m0 )

T S0 (x −m0 )

+ (tn ln yn + (1− tn )ln(1− yn )n=1

N

∑ )

+ const

この時 yn =σ (wTφn )

Page 10: PRML ベイズロジスティック回帰

SN−1 = −∇∇ ln p(w | t)

      = S0−1 + yn (1− yn )φnφn

T∑

次に事後確率分布を最大化するMAP解を求める。  (MAP解はなんらかの数値最適化アルゴリズムで求める 4.4  ラプラス近似)  求めたMAP解をWMAPとする。    共分散は、負の対数尤度における2回微分行列の逆行列で与えられる。(4.132のヘッセ行列と同じ)

Page 11: PRML ベイズロジスティック回帰

q(w) = N(w |wMAP,SN )

最大事後確率WMAPはガウス分布の平均、共分散の逆行列であるヘッセ行列が求まると、事後確率分布のガウス分布による近似は次の式となる。  

ここまでがラプラス近似の適用  

Page 12: PRML ベイズロジスティック回帰

予測分布 新たな特徴ベクトルφ(x)が与えられた際のクラスC1に対する予測分布を、ラプラス近似によって導出したガウス分布q(w)使って近似すると。  

p(C1|φ, t) = p(C1|φ,w)p(w | t)dw∫                 ≈ σ (wTφ)q(w)dw∫

p(C1|φ,w) =σ (wTφ)※4.87より

4.145

Page 13: PRML ベイズロジスティック回帰

は、φ上への射影を通してのみwに依存する  

a =wTφ と表すと σ (wTφ) は次の通り

σ (wTφ)

σ (wTφ) = δ(a−wTφ)σ (a)da∫

wTφは常にセット、他との組み合わせでは登場しないので  a  とおける

ディラックのデルタ関数(計算に便利)

Page 14: PRML ベイズロジスティック回帰

よって  

p(C1|φ, t) = p(C1|φ,w)p(w | t)dw∫                 ≈ σ (wTφ)q(w)dw∫                 = ( σ (a−wTφ)σ (a)q(w)da∫ )dw∫                 = ( σ (a−wTφ)q(w)d∫ w)σ (a)da∫                 = p(a)σ (a)da∫

p(a) = δ(a−wTφ)q(w)dw∫ここで  

Page 15: PRML ベイズロジスティック回帰

平均  

µa = E[a]= p(a)ada∫                = δ(a−wTφ)q(w)adwda∫∫                = ( δ(a−wTφ)ada∫ )q(w)dw∫                = q(w)wTφ dw∫                = ( q(w)wdw)Tφ∫                = E[w]Tφ =wMAP

T    φ

Page 16: PRML ベイズロジスティック回帰

共分散  

σ a2 = var[a]= p(a){a2 −Ε[a]2}da∫

a =wTφ4.146で  

4.148で   p(a) = δ(a−wTφ)q(w)dw∫ をあてはめて  

                   = q(w){(wTφ)2 − (mNTφ)2}dw∫

                   = φTSNφ

Page 17: PRML ベイズロジスティック回帰

予測分布  

これは2.3.2節で与えられたガウス分布の周辺分布に対する結果を用いて、直接この結果を導く事もできる。

p(C1 | t) = σ (a)p(a)da∫             = σ (a)N(a |µa,σ a

2 )da∫

a上での積分は、ロジスティックシグモイド関数でのガウス分布のたたみ込み積分を表しており、解析的に評価する事ができない。

Page 18: PRML ベイズロジスティック回帰

a上での積分は、ロジスティックシグモイド関数でのガウス分布のたたみ込み積分を表しており、解析的に評価する事ができない。

→ ロジスティックシグモイド関数σ(a)  4.59とプロビット関数 4.114  の逆関数の高い類似性を利用すれば良い近似を得る事ができる。(図  4.9)

PATTERN  RECOGNITION  AND  MACHINE  LEARNING  (CM.  BISHOP)  から引用

Page 19: PRML ベイズロジスティック回帰

p(C1 | t) = σ (a)p(a)da∫             = σ (a)N(a |µa,σ a

2 )da∫             ≈ Φ(λa)N(a |µa,σ a

2 )da∫

σ(a)の代りにプロビット関数の逆関数を使って近似

Page 20: PRML ベイズロジスティック回帰

Φ(λa)N(a |µa,σ a2 )da =Φ∫ µ

(λ−2 + ρ2 )1/2$

%&

'

()

別のプロビット関数の逆関数で解析的に表現できる。具体的には以下の表現

σ (a)N(a |µa,σ a2 )da ≈σ (k(σ 2 )µ)∫

両辺に現れるプロビット関数の逆関数に  近似 σ(a)≒φ(λa)  を適用

k(σ 2 ) = (1+πσ 2 / 8)−1/2ここで

Page 21: PRML ベイズロジスティック回帰

p(C1 |φ, t) =σ (k(σ2a )µa )

σ (a)N(a |µa,σ a2 )da ≈σ (k(σ 2 )µ)∫

p(C1 | t) = σ (a)N(a |µa,σ a2 )da∫

に適用すると。次の近似予測分布が得られる。