prmlrevenge 4.4
TRANSCRIPT
PRML 復々習レーン4.4, 4.4.1
@risuoku
中村直哉
4.4 ラプラス近似問題
(モデルはできたのに計算できない・・)
• 確率分布が複雑― 必要な計算ができない
— ロジスティック回帰のベイズ的な取扱い(4.5)
解決策
1. 解析的な近似(10章)2. 数値的なサンプリング(11章)
今回は、ラプラス近似を利用
ラプラス近似導入
(※続き)
0になる
無視する (4.127)
4.代入して完成— (4.127)を変形→(4.129)— (4.129)を正規化→(4.130)
注意点など
(4.130)
• ガウス分布による近似式(4.130)が適切に定義されるのは、A>0の場合のみ
• Aの値による関数の違い— 上に凸→A>0— 下に凸→A<0
モードとして使える点
多次元に拡張• 1次元の場合とほとんどいっしょ• 「勾配」「ヘッセ行列」について、直観的な説明
— 勾配:関数を各変数について偏微分して、ベクトルとして集めたもの(M次元ベクトル)
— ヘッセ行列:重複を許した2変数の組み合わせで関数を偏微分して、行列として集めたもの(M×M行列)
(4.134)
ラプラス近似について補足・考察
モデルの比較とBIC• 正規化係数Zの近似
• モデルエビデンス
(4.136)
(4.135)
(4.137)
Occam係数
(4.137)は、条件を満たせば次のように近似できる
(4.139)
• N:データ数、M:θに含まれるパラメータ数• ベイズ情報量基準(BIC) or シュワルツ基準
BICの性質• AICと比較して、BICはモデルの複雑さにより重いペナルティを科している• (4.139)の、Mが大きくなる(=モデルが複雑になる)ほど、モデルエビデンスが小さくなる。AICと比較して、BICの方が係数部分が大きい(AICは1、BICはlnN/2)
• 多くのパラメータが「well-determined」でないた
め、ヘッセ行列が非退化であるという仮定が多くの場合妥当でない問題がある• (4.137)を(4.139)のように近似することが妥当でない• ニューラルネットワークの枠組みでは、(4.137)を使って、
もっと精度よくモデルエビデンスを推定できる