bishop prml 14.2_wk77_100910-1802

PRML § 14.2 p. 1

「パターン認識と機械学習」読書会「パターン認識と機械学習」読書会

第第 14 14 章モデルの結合章モデルの結合

§ 14.2 § 14.2 コミッティコミッティ

Twitter ID: wk77Twitter ID: wk77

PRML § 14.2 p. 2

§ 14.2 コミッティ• コミッティ

- 複数のモデルを組み合わせて利用することで単一のモデルを使うよりも性能を改善すること

§ 14.3 ブースティング (boosting)§ 14.4 決定木 (decision tree)§ 14.5 条件付き混合モデル

• § 14.2 では、モデル集合内からの個々の予測を平均するという、最も簡単なコミッティ構築方法について議論する

PRML § 14.2 p. 3

コミッティを計算する動機• モデルの誤差 = バイアス要素 + 分散要素（3.2 節）

- バイアス要素：モデルと真の予測すべき関数との差異- 分散要素：個々のデータ点に対する、モデルの感度- 両者はトレードオフの関係にある（3 章の図 3.6 を参照）

• バイアス小（＝分散大）の複数のモデルを平均化する- 例）真の関数は三角関数で、モデルが多項式関数

- 複数のモデルの訓練結果（左）を平均化（右）すると、分散項の寄与がキャンセルされ、予測性能が改善する

平均化

PRML § 14.2 p. 4

異なる複数のモデルを作る• 一つしかないデータ集合から、複数のモデルを作る• ブートストラップデータ集合の利用がその方法の一つ

- M (>>N) 個のブートストラップデータ集合を生成する• 元のN点のデータ集合から、N点の復旧 (=重複を許す) サンプルを行う

- 個々のデータ集合について、予測モデル ym(x) を訓練する- 例）一個の連続変数の値を予測する回帰問題

真の分布の平均（緑）と元のデータ集合（黒点）ブートストラップデータ集合（赤点）と予測モデル

PRML § 14.2 p. 5

コミッティの予測• コミッティの予測、すなわち

M 個の予測モデル ym(x) (m=1,...,M) の平均は

• この手続きは

- ブートストラップ集約 (Bootstrap aggregation)- バギング (bagging) (Breiman, 1996)

として知られている

PRML § 14.2 p. 6

個々のモデルの動作から得られる平均誤差• 予測しようとする本当の回帰関数を h(x) とし、

それぞれのモデル ym(x) の出力は

本当の値に誤差 εm(x) を足したものとする

• 個々のモデルの平均二乗和誤差は次の式となる

• 個々のモデルの動作から得られる平均誤差は

PRML § 14.2 p. 7

コミッティについての二乗誤差の期待値• コミッティ

についての、本当の回帰関数との二乗誤差の期待値は

- ECOM では、複数のモデルを平均してから二乗誤差を求める- EAV では、各モデルでの二乗誤差を求めてから平均している

PRML § 14.2 p. 8

モデルの誤差の平均とコミッティの誤差の関係• 誤差の平均が 0 で無相関であると仮定するならば

• このとき、EAV と ECOM との間に次の関係が成り立つ

- 単純に M 個の異なるモデルを平均するだけで、

モデルの平均誤差を 1 / M に低減できるという一見すると衝撃的な結果を示している。しかし…

- 残念ながら個々のモデルの誤差が無相関という仮説に依拠- 実際には、典型的には誤差間に高い相関が存在するため、

一般的に全体としての誤差の低減効果は小さい

PRML § 14.2 p. 9

式（14.14）の証明（演習 14.2）• 式（14.14）の両辺の差を計算する

- モデルの前提としてを満たす必要がある

PRML § 14.2 p. 10

しかしながら、ECOM は EAV 以下である

• しかしながら、コミッティ誤差の期待値は、構成要素の誤差の期待値を超えず、ECOM ≦ EAV であることが示せる（演習 14.3）- Jensen の不等式（1 章の式 1.115）を利用して証明する

f(x) が凸なので不等式が成立

bishop prml 14.2_wk77_100910-1802

Technology