prml ベイズロジスティック回帰
DESCRIPTION
TRANSCRIPT
4.5 ベイズロジスティック回帰 PRML復々習レーン #5
2012/11/03
@hagino3000
ロジスティック回帰のベイズ的な取り扱い
4.5 ベイズロジスティック回帰
ロジスティック回帰に対して、ベイズ推論を適用する
• 厳密にやるのは難しい
• 事後確率分布がガウス分布でない
• 予測分布の評価をどうするか
事後確率分布がガウス分布でない。 ラプラス近似を適用して事後確率分布のガウス分布表現を探索する。
p(w) = N(w |m0,S0 )
p(w | t)∝ p(w)p(t |w)
事前ガウス分布の一般形
wの上の事後確率分布
4.140
4.141
ロジスティック回帰の場合、ロジスティックシグモイド
関数が含まれる
尤度関数にロジスティックシグモイド関数が含まれるため、ガウス分布では無い
ln(p(w | t))= ln(p(w)p(t |w))= ln(p(w))+ ln(p(t |w))
= ln(N(w |m0,S0 ))+ ln(p(t |w))
= ln(N(w |m0,S0 ))+ ln( yntn{1− yn}
1−tn )n=1
N
∏
4.141の両辺の対数を取る
事前ガウス分布は式4.140を使う
ロジスティック回帰の尤度関数は式4.89
ln(N(w |m0,S0 ))
= ln( 1(2π )D/2
1S0
1/2 exp{−12(x −m0 )
T S0 (x −m0 )})
= ln( 1(2π )D/2
1S0
1/2 )−12(x −m0 )
T S0 (x −m0 )
= −12(x −m0 )
T S0 (x −m0 )+ const
事前ガウス分布の項について、多変量ガウス分布の式(2.43)を使って整理
尤度関数の項について整理
ln( yntn{1− yn}
1−tn )n=1
N
∏
= (tn ln yn + (1− tn )ln(1− yn ))n=1
N
∑
4.142の式が得られる
ln(p(w | t)) =
−12(x −m0 )
T S0 (x −m0 )
+ (tn ln yn + (1− tn )ln(1− yn )n=1
N
∑ )
+ const
この時 yn =σ (wTφn )
SN−1 = −∇∇ ln p(w | t)
= S0−1 + yn (1− yn )φnφn
T∑
次に事後確率分布を最大化するMAP解を求める。 (MAP解はなんらかの数値最適化アルゴリズムで求める 4.4 ラプラス近似) 求めたMAP解をWMAPとする。 共分散は、負の対数尤度における2回微分行列の逆行列で与えられる。(4.132のヘッセ行列と同じ)
q(w) = N(w |wMAP,SN )
最大事後確率WMAPはガウス分布の平均、共分散の逆行列であるヘッセ行列が求まると、事後確率分布のガウス分布による近似は次の式となる。
ここまでがラプラス近似の適用
予測分布 新たな特徴ベクトルφ(x)が与えられた際のクラスC1に対する予測分布を、ラプラス近似によって導出したガウス分布q(w)使って近似すると。
p(C1|φ, t) = p(C1|φ,w)p(w | t)dw∫ ≈ σ (wTφ)q(w)dw∫
p(C1|φ,w) =σ (wTφ)※4.87より
4.145
は、φ上への射影を通してのみwに依存する
a =wTφ と表すと σ (wTφ) は次の通り
σ (wTφ)
σ (wTφ) = δ(a−wTφ)σ (a)da∫
wTφは常にセット、他との組み合わせでは登場しないので a とおける
ディラックのデルタ関数(計算に便利)
よって
p(C1|φ, t) = p(C1|φ,w)p(w | t)dw∫ ≈ σ (wTφ)q(w)dw∫ = ( σ (a−wTφ)σ (a)q(w)da∫ )dw∫ = ( σ (a−wTφ)q(w)d∫ w)σ (a)da∫ = p(a)σ (a)da∫
p(a) = δ(a−wTφ)q(w)dw∫ここで
平均
µa = E[a]= p(a)ada∫ = δ(a−wTφ)q(w)adwda∫∫ = ( δ(a−wTφ)ada∫ )q(w)dw∫ = q(w)wTφ dw∫ = ( q(w)wdw)Tφ∫ = E[w]Tφ =wMAP
T φ
共分散
σ a2 = var[a]= p(a){a2 −Ε[a]2}da∫
a =wTφ4.146で
4.148で p(a) = δ(a−wTφ)q(w)dw∫ をあてはめて
= q(w){(wTφ)2 − (mNTφ)2}dw∫
= φTSNφ
予測分布
これは2.3.2節で与えられたガウス分布の周辺分布に対する結果を用いて、直接この結果を導く事もできる。
p(C1 | t) = σ (a)p(a)da∫ = σ (a)N(a |µa,σ a
2 )da∫
a上での積分は、ロジスティックシグモイド関数でのガウス分布のたたみ込み積分を表しており、解析的に評価する事ができない。
a上での積分は、ロジスティックシグモイド関数でのガウス分布のたたみ込み積分を表しており、解析的に評価する事ができない。
→ ロジスティックシグモイド関数σ(a) 4.59とプロビット関数 4.114 の逆関数の高い類似性を利用すれば良い近似を得る事ができる。(図 4.9)
PATTERN RECOGNITION AND MACHINE LEARNING (CM. BISHOP) から引用
p(C1 | t) = σ (a)p(a)da∫ = σ (a)N(a |µa,σ a
2 )da∫ ≈ Φ(λa)N(a |µa,σ a
2 )da∫
σ(a)の代りにプロビット関数の逆関数を使って近似
Φ(λa)N(a |µa,σ a2 )da =Φ∫ µ
(λ−2 + ρ2 )1/2$
%&
'
()
別のプロビット関数の逆関数で解析的に表現できる。具体的には以下の表現
σ (a)N(a |µa,σ a2 )da ≈σ (k(σ 2 )µ)∫
両辺に現れるプロビット関数の逆関数に 近似 σ(a)≒φ(λa) を適用
k(σ 2 ) = (1+πσ 2 / 8)−1/2ここで
p(C1 |φ, t) =σ (k(σ2a )µa )
σ (a)N(a |µa,σ a2 )da ≈σ (k(σ 2 )µ)∫
p(C1 | t) = σ (a)N(a |µa,σ a2 )da∫
を
に適用すると。次の近似予測分布が得られる。