第六週 良い近似式を選ぶ - toyo...
TRANSCRIPT
-
第六週 良い近似式を選ぶ
-
今週の内容
• 確率モデルの導入. • 尤度(および対数尤度)の考え方. • モデルの良さを比べるものさし(赤池情報量基準:AIC)の導入
• AIC によるモデルの比較.
-
今回も2つ1組のデータを用いる
• 番目のデータを と表し,データの個数を で表すことにする.
• だけ集めて並べたデータを , だけ集めて並べたデータを と表す.このとき,全データは と表される.
-
相関関数で近似式を比べると.
• 前回の講義で説明したように, Excel の R-2 乗値を用いると,近似式のあてはまりの良さが計算できる.
• しかし,ふたつの式を比較する場合,パラメータ数が異なると問題が生じる.
• 右に示したような例を考える.これは何次式と考えるべきだろうか?
• 試してみるとわかるが,これは3次式以上では相関係数が1になる.
-
一般的には… • パラメータの数が多いほど,推定曲線の相関係数がよくなる.(感覚的に言えば,調節するボリュームの数が多いほうが調整がしやすいという感じ)
• 整式の場合,パラメータの数がデータの組数以上な場合,相関係数を1にすることが可能.
• しかし,(例えば)データ数が18のとき18次式で近似するのはナンセンス.
• そこで,パラメータの数をペナルティとするような枠組が必要になる.
-
確率モデル
• 前述のようなものさしを使うためには,データのばらつきを説明する「確率モデル」を作らなければならない.
• 以下では誤差が平均ゼロ分散σ2で正規分布するという確率モデルのもとで話を進めていく.(このモデルは妥当なものである)
-
近似曲線の復習
• 前回と同様に,近似曲線を
と表現することにする.縦棒よりも右はパラメータを示している.例えば整式だったら以下のようになる。
-
近似曲線の確率モデル
• 誤差が正規分布すると仮定したので,近似曲線の確率モデルは以下のようになる.
• 例えば一次関数の場合は以下の式になる.
-
尤度 • 与えられたデータのもとで,その分布の当てはまりの良さを示す尺度に尤度(likelihood) が使われる.尤度は次に示すように,確率モデルに対してパラメータ値とデータの値を代入して計算される.
• 尤度が大きいほど分布の当てはまりがよいと考えられる.
• 尤度はかけ算のかたちをしているので,たし算のかたちになる対数尤度(尤度の自然対数,log likelihood)が実際には使われることの方が多い.(以下では対数はすべて自然対数である)
-
尤度の計算 • 尤度は確率密度関数を用いて以下の式で計算される.
• 対数尤度は尤度の対数だから,かけ算がたし算になる.
• この授業では正規分布のみを考える.従って,対数尤度は以下の形になる.第二項は残差平方和になっている.
-
最大尤度法(最尤法)
• 前回説明したパラメータ推定は最小自乗法であったが,尤度(対数尤度でも同じ)を最大にするようにパラメータを推定する方法を最尤法という.
• 誤差が正規分布するという確率モデルを用いる場合,最尤法によって推定されたパラメータと最小自乗法によって推定されたパラメータは同じ式になる(なぜ?前のスライドにヒントがある)
• 最尤法によって推定されたパラメータを最尤推定量と呼ぶ.
-
分散の最尤推定量
• σ2の最尤推定量は偏差の自乗の平均である(他のパラメータは最小自乗法で得られた式).パラメータの上にハットを付けてそれが最尤推定量であることを表すことにする.
• この式を対数尤度の式に代入して最大対数尤度を計算することができる.
-
Excel による分散最尤推定量の計算(その1)
• 近似式の係数のリストを作成する.
• 係数の順に注意すること.
-
Excel による分散最尤推定量の計算(その2)
• 予測値の計算を行う.
-
Excel による分散最尤推定量の計算(その3)
• 残差の自乗の計算を行う.
• 残差の自乗の平均から分散の最尤推定量を求める.
-
最大対数尤度の計算
• データの個数と分散から最大対数尤度を求める.自然対数を用いることに注意する.
-
赤池情報量規準(AIC)
• 確率モデルの優劣を判断する規準として赤池によって導入された式.
• −2×(最大対数尤度)+2×(パラメータの数)を計算する.
• AIC が小さいほどよいモデルと言われている.1程度の違いがあるとモデルに差があると思ってよい.
• 値には意味がない.モデル間の値の差に意味がある.
-
Excel による AIC の計算 (その1)
• 最大対数尤度とパラメータの数から AIC が求められる.
• 第二項の1はσの分.
-
Excel による AIC の計算 (その2)
• 一番小さな値をもつモデルが最良のモデルなので,今回の場合には2次回帰モデルが最も良いモデルになる.
-
例のまとめ
• 今回の例では2次式への近似が最良であることがわかった.
-
まとめ
• AICによってモデルの近似のよさを比較する方法を学んだ.
• AIC が最小のモデルが最良のモデルである.値そのものには意味がない.
• AIC を計算するために尤度を導入した. • パラメータ推定の方法として最尤法という手法があることを学んだ.