mlapp 4章 「ガウシアンモデル」

185
Gaussian models ガウシアンモデル MLaPP Chapter 4

Upload: shinichi-tamura

Post on 15-Aug-2015

482 views

Category:

Technology


0 download

TRANSCRIPT

Gaussian modelsガウシアンモデル

MLaPP Chapter 4

きょうの話題

ガウス分布とは

ガウス分布にもとづく判別分析

ガウス分布を用いた補間

ガウス分布とベイジアン

きょうの話題

ガウス分布とは

ガウス分布にもとづく判別分析

ガウス分布を用いた補間

ガウス分布とベイジアン

割愛しますm(_ _)m

きょうの話題

ガウス分布とは

ガウス分布にもとづく判別分析

ガウス分布を用いた補間

きょうの話題

ガウス分布とは

ガウス分布にもとづく判別分析

ガウス分布を用いた補間

ガウス分布 (Gaussian Distribution)

もっともよく使われる分布の王者

正規分布 (Normal Distribution) とも呼ぶ

ガウス分布とは

概要

ガウス分布 (Gaussian Distribution)

もっともよく使われる分布の王者

正規分布 (Normal Distribution) とも呼ぶ

単変量が許されるのは小学生まで!!!

ガウス分布とは

概要

ガウス分布 (Gaussian Distribution)

もっともよく使われる分布の王者

正規分布 (Normal Distribution) とも呼ぶ

ガウス分布とは

概要

ガウス分布とは

概要

ガウス分布 (Gaussian Distribution)

もっともよく使われる分布の王者

正規分布 (Normal Distribution) とも呼ぶ

ガウス分布とは

概要

ガウス分布 (Gaussian Distribution)

もっともよく使われる分布の王者

正規分布 (Normal Distribution) とも呼ぶ

大事なのはこの後ろの部分

(前半は正規化係数)

ガウス分布とは

expの中を詳しく

ガウス分布とは

expの中を詳しく

ガウス分布とは

expの中を詳しく

こういう v⊤Av みたいな形を「2次形式」といいます

ガウス分布とは

expの中を詳しく

こういう v⊤Av みたいな形を「2次形式」といいます

2次形式の性質はあいだの行列の固有値で決まるので

ちょっと Σ-1 を固有値分解してみましょう

ガウス分布とは

expの中を詳しく

とすると

ガウス分布とは

expの中を詳しく

とすると

ガウス分布とは

expの中を詳しく

とすると

ガウス分布とは

expの中を詳しく

ということは、2次元で考えれば

ガウス分布とは

expの中を詳しく

ということは、2次元で考えれば

Σ は半正定値(固有値が非負)

↓分布の等高線が楕円になる!

ガウス分布とは

expの中を詳しく

この

ガウス分布とは

expの中を詳しく

この

は x と μ のユークリッド距離

の分散を補正したもの(=マハラノビス距離)の2乗

ガウス分布とは

expの中を詳しく

この

は x と μ のユークリッド距離

の分散を補正したもの(=マハラノビス距離)の2乗

ガウス分布とは

expの中を詳しく

この

は x と μ のユークリッド距離

の分散を補正したもの(=マハラノビス距離)の2乗

→ ガウス分布を書き直すと

ガウス分布 (Gaussian Distribution)

もっともよく使われる分布の王者

正規分布 (Normal Distribution) とも呼ぶ

ガウス分布とは

概要、再び

ガウス分布 (Gaussian Distribution)

もっともよく使われる分布の王者

正規分布 (Normal Distribution) とも呼ぶ

ガウス分布とは

概要、再び

一言でいえば

ガウス分布とは

どの辺が王者なのか

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

ガウス分布とは

どの辺が王者なのか

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

「シンプルでありながら現実に即している」

ガウス分布とは

どの辺が王者なのか

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

「シンプルでありながら現実に即している」

• 中心極限定理のたどり着く先である

ガウス分布とは

どの辺が王者なのか

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

「シンプルでありながら現実に即している」

• 中心極限定理のたどり着く先である

• たった2つのパラメータで定まる

ガウス分布とは

どの辺が王者なのか

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

「シンプルでありながら現実に即している」

• 中心極限定理のたどり着く先である

• たった2つのパラメータで定まる

• しかもその2つが解釈しやすい(平均と分散)

ガウス分布とは

どの辺が王者なのか

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

「シンプルでありながら現実に即している」

• 中心極限定理のたどり着く先である

• たった2つのパラメータで定まる

• しかもその2つが解釈しやすい(平均と分散)

• 平均と分散以外に持っている知識は最小限

ガウス分布とは

どの辺が王者なのか

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

「シンプルでありながら現実に即している」

• 中心極限定理のたどり着く先である

• たった2つのパラメータで定まる

• しかもその2つが解釈しやすい(平均と分散)

• 平均と分散以外に持っている知識は最小限

• 一見複雑なのに線形代数だけで計算がすむ

ガウス分布とは

どの辺が王者なのか

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

「シンプルでありながら現実に即している」

• 中心極限定理のたどり着く先である

• たった2つのパラメータで定まる

• しかもその2つが解釈しやすい(平均と分散)

• 平均と分散以外に持っている知識は最小限

• 一見複雑なのに線形代数だけで計算がすむ

ガウス分布とは

どの辺が王者なのか

実際には世の中みんなガウス分布に従っているわけじゃない

対数正規分布、パレート分布、二項分布、ポアソン分布……

分布に対して分かっていることがあるならそれを使えばいいないなら、ガウス分布を使おう

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

「シンプルでありながら現実に即している」

• 中心極限定理のたどり着く先である

• たった2つのパラメータで定まる

• しかもその2つが解釈しやすい(平均と分散)

• 平均と分散以外に持っている知識は最小限

• 一見複雑なのに線形代数だけで計算がすむ

ガウス分布とは

どの辺が王者なのか

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

「シンプルでありながら現実に即している」

• 中心極限定理のたどり着く先である

• たった2つのパラメータで定まる

• しかもその2つが解釈しやすい(平均と分散)

• 平均と分散以外に持っている知識は最小限

• 一見複雑なのに線形代数だけで計算がすむ

ガウス分布とは

どの辺が王者なのか

いま、一つのガウス分布に独立に従う N 個のデータ点{x1, x2,…, xN} があるとする:

ガウス分布とは

最尤推定法によるあてはめ

いま、一つのガウス分布に独立に従う N 個のデータ点{x1, x2,…, xN} があるとする:

このとき、 μ と Σの最尤推定量は

ガウス分布とは

最尤推定法によるあてはめ

いま、一つのガウス分布に独立に従う N 個のデータ点{x1, x2,…, xN} があるとする:

このとき、 μ と Σの最尤推定量は

ガウス分布とは

最尤推定法によるあてはめ

最尤推定量が標本平均・標本分散そのもの!

2つのパラメータが単に分布の平均と分散である

というだけでなく、最尤推定量が標本平均・分散と一致

ガウス分布とは

最尤推定法によるあてはめ

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

「シンプルでありながら現実に即している」

• 中心極限定理のたどり着く先である

• たった2つのパラメータで定まる

• しかもその2つが解釈しやすい(平均と分散)

• 平均と分散以外に持っている知識は最小限

• 一見複雑なのに線形代数だけで計算がすむ

ガウス分布とは

どの辺が王者なのか

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

「シンプルでありながら現実に即している」

• 中心極限定理のたどり着く先である

• たった2つのパラメータで定まる

• しかもその2つが解釈しやすい(平均と分散)

• 平均と分散以外に持っている知識は最小限

• 一見複雑なのに線形代数だけで計算がすむ

ガウス分布とは

どの辺が王者なのか

【定理】

ガウス分布は特定の平均と分散を持つ分布の中で、もっともエントロピーが大きい分布である

(証明は教科書参照)

ガウス分布とは

ガウス分布の情報量

【定理】

ガウス分布は特定の平均と分散を持つ分布の中で、もっともエントロピーが大きい分布である

(証明は教科書参照)

エントロピーが大きい=表現できる情報量が多い

正体不明の分布を表すのに、できるだけ仮定を置かず幅広い可能性に対応できるようにしている

ガウス分布とは

ガウス分布の情報量

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

「シンプルでありながら現実に即している」

• 中心極限定理のたどり着く先である

• たった2つのパラメータで定まる

• しかもその2つが解釈しやすい(平均と分散)

• 平均と分散以外に持っている知識は最小限

• 一見複雑なのに線形代数だけで計算がすむ

ガウス分布とは

どの辺が王者なのか

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

「シンプルでありながら現実に即している」

• 中心極限定理のたどり着く先である

• たった2つのパラメータで定まる

• しかもその2つが解釈しやすい(平均と分散)

• 平均と分散以外に持っている知識は最小限

• 一見複雑なのに線形代数だけで計算がすむ

ガウス分布とは

どの辺が王者なのか

ガウス分布は

ガウス分布とは

ガウス分布の変換

ガウス分布は

• 線形変換した分布

ガウス分布とは

ガウス分布の変換

ガウス分布は

• 線形変換した分布

• 周辺分布

ガウス分布とは

ガウス分布の変換

ガウス分布は

• 線形変換した分布

• 周辺分布

• 条件付き分布

ガウス分布とは

ガウス分布の変換

ガウス分布は

• 線形変換した分布

• 周辺分布

• 条件付き分布

もガウス分布になる

ガウス分布とは

ガウス分布の変換

ガウス分布は

• 線形変換した分布

• 周辺分布

• 条件付き分布

もガウス分布になる

→ 分布関数全体は不要。 μ と Σさえ求めればいい!

ガウス分布とは

ガウス分布の変換

ガウス分布は

• 線形変換した分布

• 周辺分布

• 条件付き分布

もガウス分布になる

→ 分布関数全体は不要。 μ と Σさえ求めればいい!

ガウス分布とは

ガウス分布の変換

x1 ∼ N (μ1,Σ1) を以下のように変換すると

ガウス分布とは

ガウス分布の線形変換

x1 ∼ N (μ1,Σ1) を以下のように変換すると

変換後も x2 ∼ N (μ2,Σ2) となる

ガウス分布とは

ガウス分布の線形変換

x1 ∼ N (μ1,Σ1) を以下のように変換すると

変換後も x2 ∼ N (μ2,Σ2) となる

ただし

ガウス分布とは

ガウス分布の線形変換

x1 ∼ N (μ1,Σ1) を以下のように変換すると

変換後も x2 ∼ N (μ2,Σ2) となる

ただし

ガウス分布とは

ガウス分布の線形変換

x1 と同じ変換

x1 の拡大分の2乗拡大

ガウス分布は

• 線形変換した分布

• 周辺分布

• 条件付き分布

もガウス分布になる

→ 分布関数全体は不要。 μ と Σさえ求めればいい!

ガウス分布とは

ガウス分布の変換

ガウス分布は

• 線形変換した分布

• 周辺分布

• 条件付き分布

もガウス分布になる

→ 分布関数全体は不要。 μ と Σさえ求めればいい!

ガウス分布とは

ガウス分布の変換

x = (x1,x2) ∼ N (μ,Σ) とする。ただし

ガウス分布とは

ガウス分布の周辺分布

x = (x1,x2) ∼ N (μ,Σ) とする。ただし

ガウス分布とは

ガウス分布の周辺分布

x2

x1

Σ =

Σ12

Σ11 Σ12

Σ21

x2x1

μ2

μ1

μ =

x2

x1

対応する部分を区切っただけ

x = (x1,x2) ∼ N (μ,Σ) とする。ただし

ガウス分布とは

ガウス分布の周辺分布

x = (x1,x2) ∼ N (μ,Σ) とする。ただし

周辺分布はx1 ∼ N (μ1,Σ11)

ガウス分布とは

ガウス分布の周辺分布

対応する部分を区切っただけ

x = (x1,x2) ∼ N (μ,Σ) とする。ただし

周辺分布はx1 ∼ N (μ1,Σ11)

x2 ∼ N (μ2,Σ22)

ガウス分布とは

ガウス分布の周辺分布

対応する部分を区切っただけ

ガウス分布は

• 線形変換した分布

• 周辺分布

• 条件付き分布

もガウス分布になる

→ 分布関数全体は不要。 μ と Σさえ求めればいい!

ガウス分布とは

ガウス分布の変換

ガウス分布は

• 線形変換した分布

• 周辺分布

• 条件付き分布

もガウス分布になる

→ 分布関数全体は不要。 μ と Σさえ求めればいい!

ガウス分布とは

ガウス分布の変換

x = (x1,x2) ∼ N (μ,Σ) とする。ただし

ガウス分布とは

ガウス分布の条件付き分布

x = (x1,x2) ∼ N (μ,Σ) とする。ただし

ガウス分布とは

ガウス分布の条件付き分布

精度行列(分散の逆行列)を考えると見通しが良い

x = (x1,x2) ∼ N (μ,Σ) とする。ただし

ガウス分布とは

ガウス分布の条件付き分布

x = (x1,x2) ∼ N (μ,Σ) とする。ただし

条件付き分布は x1|x2 ∼ N (μ1|2,Σ1|2)

ガウス分布とは

ガウス分布の条件付き分布

x = (x1,x2) ∼ N (μ,Σ) とする。ただし

条件付き分布は x1|x2 ∼ N (μ1|2,Σ1|2)

ガウス分布とは

ガウス分布の条件付き分布

x = (x1,x2) ∼ N (μ,Σ) とする。ただし

条件付き分布は x1|x2 ∼ N (μ1|2,Σ1|2)

ガウス分布とは

ガウス分布の条件付き分布

μ に x2 が入ることだけ注意!

x = (x1,x2) ∼ N (μ,Σ) とする。ただし

条件付き分布は x1|x2 ∼ N (μ1|2,Σ1|2)

ガウス分布とは

ガウス分布の条件付き分布

μ に x2 が入ることだけ注意!

ガウス分布は

• 線形変換した分布

• 周辺分布

• 条件付き分布

もガウス分布になる

→ 分布関数全体は不要。 μ と Σさえ求めればいい!

ガウス分布とは

ガウス分布の変換

ガウス分布は

• 線形変換した分布

• 周辺分布

• 条件付き分布

もガウス分布になる

→ 分布関数全体は不要。 μ と Σさえ求めればいい!

ガウス分布とは

ガウス分布の変換

一言でいえば

「ガウス分布たん可愛いよ (;´Д`)ハァハァ」

「シンプルでありながら現実に即している」

• 中心極限定理のたどり着く先である

• たった2つのパラメータで定まる

• しかもその2つが解釈しやすい(平均と分散)

• 平均と分散以外に持っている知識は最小限

• 一見複雑なのに線形代数だけで計算がすむ

ガウス分布とは

どの辺が王者なのか

ガウス分布 (Gaussian Distribution)

• 中心極限定理のたどり着く先である

• たった2つのパラメータで定まる

• しかもその2つが解釈しやすい(平均と分散)

• 平均と分散以外に持っている知識は最小限

• 一見複雑なのに線形代数だけで計算がすむ

ガウス分布とは

まとめ

きょうの話題

ガウス分布とは

ガウス分布にもとづく判別分析

ガウス分布を用いた補間

きょうの話題

ガウス分布とは

ガウス分布にもとづく判別分析

ガウス分布を用いた補間

ガウス分布にもとづく判別分析

判別分析とは

分類問題に対する手法の一つ

分類問題 (classification)

クラスのわかっているデータ(教師データ)をもとに、未知のデータを分類する問題

ガウス分布にもとづく判別分析

判別分析とは

ガウス判別分析の解き方

1. データは、クラスごとに固有のガウス分布から iid で生成されていると仮定する

2. 教師データからパラメータを推定する

3. 未知のデータに対し各クラスに属する確率を求め最も高いクラスに分類する

55 60 65 70 75 8080

100

120

140

160

180

200

220

240

260

280

ガウス分布にもとづく判別分析

判別分析とは

ガウス判別分析の解き方

1. データは、クラスごとに固有のガウス分布から iid で生成されていると仮定する

2. 教師データからパラメータを推定する

3. 未知のデータに対し各クラスに属する確率を求め最も高いクラスに分類する

55 60 65 70 75 8080

100

120

140

160

180

200

220

240

260

280

55 60 65 70 75 8080

100

120

140

160

180

200

220

240

260

280

ガウス分布にもとづく判別分析

判別分析とは

ガウス判別分析の解き方

1. データは、クラスごとに固有のガウス分布から iid で生成されていると仮定する

2. 教師データからパラメータを推定する

3. 未知のデータに対し各クラスに属する確率を求め最も高いクラスに分類する

生成モデルを仮定

55 60 65 70 75 8080

100

120

140

160

180

200

220

240

260

280

ガウス分布にもとづく判別分析

判別分析とは

ガウス判別分析の解き方

1. データは、クラスごとに固有のガウス分布から iid で生成されていると仮定する

2. 教師データからパラメータを推定する

3. 未知のデータに対し各クラスに属する確率を求め最も高いクラスに分類する

生成モデルを仮定

ガウス分布にもとづく判別分析

生成モデル

クラスごとに固有のガウス分布

パラメータ θ が与えられて、クラスを c に定めたときにx が生成される確率

ガウス分布にもとづく判別分析

生成モデル

クラスごとに固有のガウス分布

パラメータ θ が与えられて、クラスを c に定めたときにx が生成される確率

ガウス分布にもとづく判別分析

生成モデル

クラスごとに固有のガウス分布

パラメータ θ が与えられて、クラスを c に定めたときにx が生成される確率

ガウス分布にもとづく判別分析

生成モデル

クラスごとに固有のガウス分布

パラメータ θ が与えられて、クラスを c に定めたときにx が生成される確率

ガウス分布にもとづく判別分析

生成モデル

クラスごとに固有のガウス分布

パラメータ θ が与えられて、クラスを c に定めたときにx が生成される確率

ガウス分布にもとづく判別分析

生成モデル

クラスごとに固有のガウス分布

パラメータ θ が与えられて、クラスを c に定めたときにx が生成される確率

クラス c の平均と分散

モデル全体のパラメータ(各 μc, Σc を含む)

ガウス分布にもとづく判別分析

生成モデル

クラスごとに固有のガウス分布

パラメータ θ が与えられて、クラスを c に定めたときにx が生成される確率

ついでに、下記も仮定:クラス c の出やすさは πc

ガウス分布にもとづく判別分析

生成モデル

クラスごとに固有のガウス分布

パラメータ θ が与えられて、クラスを c に定めたときにx が生成される確率

ついでに、下記も仮定:クラス c の出やすさは πc

各 πc もパラメータ θ

の一部

ガウス分布にもとづく判別分析

判別分析とは

ガウス判別分析の解き方

1. データは、クラスごとに固有のガウス分布から iid で生成されていると仮定する

2. 教師データからパラメータを推定する

3. 未知のデータに対し各クラスに属する確率を求め最も高いクラスに分類する

55 60 65 70 75 8080

100

120

140

160

180

200

220

240

260

280

ガウス分布にもとづく判別分析

判別分析とは

ガウス判別分析の解き方

1. データは、クラスごとに固有のガウス分布から iid で生成されていると仮定する

2. 教師データからパラメータを推定する

3. 未知のデータに対し各クラスに属する確率を求め最も高いクラスに分類する

55 60 65 70 75 8080

100

120

140

160

180

200

220

240

260

280

55 60 65 70 75 8080

100

120

140

160

180

200

220

240

260

280

ガウス分布にもとづく判別分析

判別分析とは

ガウス判別分析の解き方

1. データは、クラスごとに固有のガウス分布から iid で生成されていると仮定する

2. 教師データからパラメータを推定する

3. 未知のデータに対し各クラスに属する確率を求め最も高いクラスに分類する

ベイズの法則により計算

55 60 65 70 75 8080

100

120

140

160

180

200

220

240

260

280

ガウス分布にもとづく判別分析

判別分析とは

ガウス判別分析の解き方

1. データは、クラスごとに固有のガウス分布から iid で生成されていると仮定する

2. 教師データからパラメータを推定する

3. 未知のデータに対し各クラスに属する確率を求め最も高いクラスに分類する

ベイズの法則により計算

ガウス分布にもとづく判別分析

クラス事後確率

未知のデータ点 x が与えられたときに、それがクラス c に属する確率

ガウス分布にもとづく判別分析

クラス事後確率

未知のデータ点 x が与えられたときに、それがクラス c に属する確率

ガウス分布にもとづく判別分析

クラス事後確率

未知のデータ点 x が与えられたときに、それがクラス c に属する確率

ガウス分布にもとづく判別分析

クラス事後確率

未知のデータ点 x が与えられたときに、それがクラス c に属する確率

ガウス分布にもとづく判別分析

クラス事後確率

未知のデータ点 x が与えられたときに、それがクラス c に属する確率

みなさんベイズの公式覚えてますか!?

ガウス分布にもとづく判別分析

クラス事後確率

未知のデータ点 x が与えられたときに、それがクラス c に属する確率

ガウス分布にもとづく判別分析

クラス事後確率

未知のデータ点 x が与えられたときに、それがクラス c に属する確率

尤度

ガウス分布にもとづく判別分析

クラス事後確率

未知のデータ点 x が与えられたときに、それがクラス c に属する確率

尤度 事前分布

ガウス分布にもとづく判別分析

クラス事後確率

未知のデータ点 x が与えられたときに、それがクラス c に属する確率

尤度 事前分布

ガウス分布にもとづく判別分析

クラス事後確率

未知のデータ点 x が与えられたときに、それがクラス c に属する確率

ガウス分布にもとづく判別分析

クラス事後確率

未知のデータ点 x が与えられたときに、それがクラス c に属する確率

ガウス分布にもとづく判別分析

クラス事後確率

未知のデータ点 x が与えられたときに、それがクラス c に属する確率

よって x は下記のように分類される

ガウス分布にもとづく判別分析

判別分析とは

ガウス判別分析の解き方

1. データは、クラスごとに固有のガウス分布から iid で生成されていると仮定する

2. 教師データからパラメータを推定する

3. 未知のデータに対し各クラスに属する確率を求め最も高いクラスに分類する

55 60 65 70 75 8080

100

120

140

160

180

200

220

240

260

280

ガウス分布にもとづく判別分析

判別分析とは

ガウス判別分析の解き方

1. データは、クラスごとに固有のガウス分布から iid で生成されていると仮定する

2. 教師データからパラメータを推定する

3. 未知のデータに対し各クラスに属する確率を求め最も高いクラスに分類する

55 60 65 70 75 8080

100

120

140

160

180

200

220

240

260

280

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし QDA• 等分散 LDA• 特徴量が独立 Naïve Bayes• 等分散&特徴量が独立 Diagonal LDA• 事前分布で正則化

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし• 等分散• 特徴量が独立• 等分散&特徴量が独立• 事前分布で正則化

ガウス分布にもとづく判別分析

2次判別分析

パラメータへなにも制約をおかなかった場合、一般に分離境界は2次式になる

→ 2次判別分析 (Quadratic Discriminant Analysis)

ガウス分布にもとづく判別分析

2次判別分析

パラメータへなにも制約をおかなかった場合、一般に分離境界は2次式になる

→ 2次判別分析 (Quadratic Discriminant Analysis)

ガウス分布にもとづく判別分析

2次判別分析

パラメータへなにも制約をおかなかった場合、一般に分離境界は2次式になる

→ 2次判別分析 (Quadratic Discriminant Analysis)

ガウス分布にもとづく判別分析

2次判別分析

パラメータへなにも制約をおかなかった場合、一般に分離境界は2次式になる

→ 2次判別分析 (Quadratic Discriminant Analysis)

分散が同じだと境界が直線に

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし• 等分散• 特徴量が独立• 等分散&特徴量が独立• 事前分布で正則化

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし 2次判別分析 (QDA)• 等分散• 特徴量が独立• 等分散&特徴量が独立• 事前分布で正則化

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし 2次判別分析 (QDA)• 等分散• 特徴量が独立• 等分散&特徴量が独立• 事前分布で正則化

ガウス分布にもとづく判別分析

2次判別分析

分散が各クラスで共通だと分離境界は1次式になる→ 線形判別分析 (Linear Discriminant Analysis)

ガウス分布にもとづく判別分析

2次判別分析

分散が各クラスで共通だと分離境界は1次式になる→ 線形判別分析 (Linear Discriminant Analysis)

ガウス分布にもとづく判別分析

2次判別分析

分散が各クラスで共通だと分離境界は1次式になる→ 線形判別分析 (Linear Discriminant Analysis)

よく PCA との対比で語られることの多い LDA ですが、実は背後に

等分散なガウス分布を生成モデルとして仮定していた!

ガウス分布にもとづく判別分析

2次判別分析

分散が各クラスで共通だと分離境界は1次式になる→ 線形判別分析 (Linear Discriminant Analysis)

よく PCA との対比で語られることの多い LDA ですが、実は背後に

等分散なガウス分布を生成モデルとして仮定していた!

LDAって言ってもトピックモデルの方 (Latent Dirichlet allocation) じゃないよ!

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし 2次判別分析 (QDA)• 等分散• 特徴量が独立• 等分散&特徴量が独立• 事前分布で正則化

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし 2次判別分析 (QDA)• 等分散 線形判別分析 (LDA)• 特徴量が独立• 等分散&特徴量が独立• 事前分布で正則化

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし 2次判別分析 (QDA)• 等分散 線形判別分析 (LDA)• 特徴量が独立• 等分散&特徴量が独立• 事前分布で正則化

ガウス分布にもとづく判別分析

単純ベイズ法

特徴量が独立=データの各次元が独立x = (x1, x2, …, xi, …, xN)

独立

ガウス分布にもとづく判別分析

単純ベイズ法

特徴量が独立=データの各次元が独立x = (x1, x2, …, xi, …, xN)

つまり独立

独立 ⇔ 同時分布を積に

分解できる

ガウス分布にもとづく判別分析

単純ベイズ法

特徴量が独立=データの各次元が独立x = (x1, x2, …, xi, …, xN)

つまり

これはガウス分布による単純ベイズ (Naïve Bayes)と等価!

独立独立 ⇔

同時分布を積に分解できる

ガウス分布にもとづく判別分析

単純ベイズ法

特徴量が独立=データの各次元が独立x = (x1, x2, …, xi, …, xN)

つまり独立

独立 ⇔ 同時分布を積に

分解できる

ガウス分布にもとづく判別分析

単純ベイズ法

特徴量が独立=データの各次元が独立x = (x1, x2, …, xi, …, xN)

つまり独立

独立 ⇔ 同時分布を積に

分解できる

ガウス分布にもとづく判別分析

単純ベイズ法

特徴量が独立=データの各次元が独立x = (x1, x2, …, xi, …, xN)

つまり独立

独立 ⇔ 同時分布を積に

分解できる

ただし

ガウス分布にもとづく判別分析

単純ベイズ法

特徴量が独立=データの各次元が独立x = (x1, x2, …, xi, …, xN)

つまり独立

独立 ⇔ 同時分布を積に

分解できる

ただし

ガウス判別分析の観点で言うと、分散を対角行列に制限している(無相関)ことに等しい

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし 2次判別分析 (QDA)• 等分散 線形判別分析 (LDA)• 特徴量が独立• 等分散&特徴量が独立• 事前分布で正則化

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし 2次判別分析 (QDA)• 等分散 線形判別分析 (LDA)• 特徴量が独立 単純ベイズ• 等分散&特徴量が独立• 事前分布で正則化

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし 2次判別分析 (QDA)• 等分散 線形判別分析 (LDA)• 特徴量が独立 単純ベイズ• 等分散&特徴量が独立• 事前分布で正則化

ガウス分布にもとづく判別分析

対角線形判別分析

分散行列を対角かつ各クラスで共通に制限したものを対角線形判別分析 (Diagonal LDA) と呼ぶ

ガウス分布にもとづく判別分析

対角線形判別分析

分散行列を対角かつ各クラスで共通に制限したものを対角線形判別分析 (Diagonal LDA) と呼ぶ

正則化がかなり強く働くので、高次元データに強い

ガウス分布にもとづく判別分析

対角線形判別分析

分散行列を対角かつ各クラスで共通に制限したものを対角線形判別分析 (Diagonal LDA) と呼ぶ

正則化がかなり強く働くので、高次元データに強い

Σの推定値には合併経験分散 (Pooled Empirical Variance) を用いることが多い

ガウス分布にもとづく判別分析

対角線形判別分析

分散行列を対角かつ各クラスで共通に制限したものを対角線形判別分析 (Diagonal LDA) と呼ぶ

正則化がかなり強く働くので、高次元データに強い

Σの推定値には合併経験分散 (Pooled Empirical Variance) を用いることが多い

クラス内分散の不偏推定量

みたいなもの

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし 2次判別分析 (QDA)• 等分散 線形判別分析 (LDA)• 特徴量が独立 単純ベイズ• 等分散&特徴量が独立• 事前分布で正則化

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし 2次判別分析 (QDA)• 等分散 線形判別分析 (LDA)• 特徴量が独立 単純ベイズ• 等分散&特徴量が独立 対角線形判別分析• 事前分布で正則化

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし 2次判別分析 (QDA)• 等分散 線形判別分析 (LDA)• 特徴量が独立 単純ベイズ• 等分散&特徴量が独立 対角線形判別分析• 事前分布で正則化

ガウス分布にもとづく判別分析

事前分布による正則化

ベイジアンなら直截的に Σの値を制限するのではなく事前分布を使って正則化をすることも出来る

ここでは2種類紹介する• 分散に逆ウィシャート分布• 平均のオフセットにラプラス分布

ガウス分布にもとづく判別分析

事前分布による正則化

ベイジアンなら直截的に Σの値を制限するのではなく事前分布を使って正則化をすることも出来る

ここでは2種類紹介する• 分散に逆ウィシャート分布• 平均のオフセットにラプラス分布

ガウス分布にもとづく判別分析

事前分布による正則化

ベイジアンなら直截的に Σの値を制限するのではなく事前分布を使って正則化をすることも出来る

ここでは2種類紹介する• 分散に逆ウィシャート分布• 平均のオフセットにラプラス分布

おさらい:ベイズの公式

MAP推定では尤度だけでなく事前分布も推定に影響を与える

ガウス分布にもとづく判別分析

事前分布による正則化

ベイジアンなら直截的に Σの値を制限するのではなく事前分布を使って正則化をすることも出来る

ここでは2種類紹介する• 分散に逆ウィシャート分布• 平均のオフセットにラプラス分布

ガウス分布にもとづく判別分析

事前分布による正則化

ベイジアンなら直截的に Σの値を制限するのではなく事前分布を使って正則化をすることも出来る

ここでは2種類紹介する• 分散に逆ウィシャート分布• 平均のオフセットにラプラス分布

ガウス分布にもとづく判別分析

正則化判別分析

分散の事前分布として逆ウィシャート分布

をおく

ガウス分布にもとづく判別分析

正則化判別分析

分散の事前分布として逆ウィシャート分布

をおくこのとき分散の推定量は以下( λ は ν0 で定まる量)

ガウス分布にもとづく判別分析

正則化判別分析

分散の事前分布として逆ウィシャート分布

をおくこのとき分散の推定量は以下( λ は ν0 で定まる量)

の非対角成分を薄めている感じ

(λ=1で対角LDAに一致)

ガウス分布にもとづく判別分析

正則化判別分析

分散の事前分布として逆ウィシャート分布

をおくこのとき分散の推定量は以下( λ は ν0 で定まる量)

次元が高すぎて( D>N )、 が計算出来ないときはデータ行列 X の特異値分解 を使うとよい

ガウス分布にもとづく判別分析

事前分布による正則化

ベイジアンなら直截的に Σの値を制限するのではなく事前分布を使って正則化をすることも出来る

ここでは2種類紹介する• 分散に逆ウィシャート分布• 平均のオフセットにラプラス分布

ガウス分布にもとづく判別分析

事前分布による正則化

ベイジアンなら直截的に Σの値を制限するのではなく事前分布を使って正則化をすることも出来る

ここでは2種類紹介する• 分散に逆ウィシャート分布• 平均のオフセットにラプラス分布

ガウス分布にもとづく判別分析

Nearest Shrunken Centroids Classifier

対角LDAですら高次元データには弱い→ Σは対角行列かつ各クラス共通に制限したうえで

さらに不要な特徴量を削りたい(L0 正則化に近い)

クラス平均 μc を各次元 j について、クラス共通の平均各クラスごとのオフセットという形に分解

この Δcj が0になろうとするような事前分布(中心0のラプラス分布)をおく→ すべての c についてΔcj=0 となれば特徴量 j は削れた!

ガウス分布にもとづく判別分析

Nearest Shrunken Centroids Classifier

対角LDAですら高次元データには弱い→ Σは対角行列かつ各クラス共通に制限したうえで

さらに不要な特徴量を削りたい(L0 正則化に近い)

クラス平均 μc を各次元 j について、クラス共通の平均各クラスごとのオフセットという形に分解

この Δcj が0になろうとするような事前分布(中心0のラプラス分布)をおく→ すべての c についてΔcj=0 となれば特徴量 j は削れた!

ガウス分布にもとづく判別分析

Nearest Shrunken Centroids Classifier

対角LDAですら高次元データには弱い→ Σは対角行列かつ各クラス共通に制限したうえで

さらに不要な特徴量を削りたい(L0 正則化に近い)

ガウス分布にもとづく判別分析

事前分布による正則化

ベイジアンなら直截的に Σの値を制限するのではなく事前分布を使って正則化をすることも出来る

ここでは2種類紹介する• 分散に逆ウィシャート分布• 平均のオフセットにラプラス分布

ガウス分布にもとづく判別分析

事前分布による正則化

ベイジアンなら直截的に Σの値を制限するのではなく事前分布を使って正則化をすることも出来る

ここでは2種類紹介する• 分散に逆ウィシャート分布• 平均のオフセットにラプラス分布

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし 2次判別分析 (QDA)• 等分散 線形判別分析 (LDA)• 特徴量が独立 単純ベイズ• 等分散&特徴量が独立 対角線形判別分析• 事前分布で正則化

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし 2次判別分析 (QDA)• 等分散 線形判別分析 (LDA)• 特徴量が独立 単純ベイズ• 等分散&特徴量が独立 対角線形判別分析• 事前分布で正則化 正則化判別分析

Nearest Shrunken Centroids Classifier

ガウス分布にもとづく判別分析

いろいろなガウス判別分析

パラメータへの制限や推定法によって、ガウス判別分析はいくつかの種類に分けられる

• 制限なし 2次判別分析 (QDA)• 等分散 線形判別分析 (LDA)• 特徴量が独立 単純ベイズ• 等分散&特徴量が独立 対角線形判別分析• 事前分布で正則化 正則化判別分析

Nearest Shrunken Centroids Classifier

きょうの話題

ガウス分布とは

ガウス分布にもとづく判別分析

ガウス分布を用いた補間

きょうの話題

ガウス分布とは

ガウス分布にもとづく判別分析

ガウス分布を用いた補間

ガウス分布による補間

補間とは

補間問題 (Interpolation)与えられたデータ点 {(xi,yi)} から定義域全体の関数 y(x) の振る舞いを推定すること(ふつう最小点と最大点のあいだのみを扱うことが多い)

機械学習の言葉でいえば回帰 (regression) にあたる

ガウス分布による補間

2通りのデータ

ここで扱う手法は、データの種類によって2つに別れる

• ノイズのないデータ• ノイズのあるデータ

ガウス分布による補間

2通りのデータ

ここで扱う手法は、データの種類によって2つに別れる

• ノイズのないデータ• ノイズのあるデータ

ガウス分布による補間

ノイズのないデータの補間

対象とする区間を D 等分し、そのi番目をyi = ƒ(xi)

とする

ガウス分布による補間

ノイズのないデータの補間

対象とする区間を D 等分し、そのi番目をyi = ƒ(xi)

とする。 ƒ はなめらかだと仮定して

とおく(両隣の平均+ずれ)

ガウス分布による補間

ノイズのないデータの補間

対象とする区間を D 等分し、そのi番目をyi = ƒ(xi)

とする。 ƒ はなめらかだと仮定して

とおく(両隣の平均+ずれ)

ガウス分布による補間

ノイズのないデータの補間

対象とする区間を D 等分し、そのi番目をyi = ƒ(xi)

とする。 ƒ はなめらかだと仮定して

とおく(両隣の平均+ずれ)

ただし

行列の形で書き直した

ガウス分布による補間

ノイズのないデータの補間

対象とする区間を D 等分し、そのi番目をyi = ƒ(xi)

とする。 ƒ はなめらかだと仮定して

とおく(両隣の平均+ずれ)

ただし

行列の形で書き直した

D 列

D-2 行

ガウス分布による補間

ノイズのないデータの補間

対象とする区間を D 等分し、そのi番目をyi = ƒ(xi)

とする。 ƒ はなめらかだと仮定して

とおく(両隣の平均+ずれ)

ただし

行列の形で書き直した

ガウス分布による補間

ノイズのないデータの補間

y=(y1, y2), y1:未知データ, y2:既知データとする

y = 既知未知

ガウス分布による補間

ノイズのないデータの補間

y=(y1, y2), y1:未知データ, y2:既知データとする

すると

y = 既知未知

ガウス分布による補間

ノイズのないデータの補間

y=(y1, y2), y1:未知データ, y2:既知データとする

すると

→ y1が予測できる!

y = 既知未知

ガウス分布による補間

ノイズのないデータの補間

y=(y1, y2), y1:未知データ, y2:既知データとする

すると

→ y1が予測できる!

y = 既知未知

ガウス分布による補間

2通りのデータ

ここで扱う手法は、データの種類によって2つに別れる

• ノイズのないデータ• ノイズのあるデータ

ガウス分布による補間

2通りのデータ

ここで扱う手法は、データの種類によって2つに別れる

• ノイズのないデータ• ノイズのあるデータ

ガウス分布による補間

ノイズのあるデータの補間

やることはさっきと同じ!唯一の違いはデータ y が線形ガウスシステムで生成されているとみなすこと

すると

ガウス分布による補間

2通りのデータ

ここで扱う手法は、データの種類によって2つに別れる

• ノイズのないデータ• ノイズのあるデータ

ガウス分布による補間

2通りのデータ

ここで扱う手法は、データの種類によって2つに別れる

• ノイズのないデータ• ノイズのあるデータ

きょうの話題

ガウス分布とは

ガウス分布にもとづく判別分析

ガウス分布を用いた補間

きょうの話題

ガウス分布とは

ガウス分布にもとづく判別分析

ガウス分布を用いた補間

きょうの話題

ガウス分布とは

ガウス分布にもとづく判別分析

ガウス分布を用いた補間