第 2 章 確率分布
DESCRIPTION
第 2 章 確率分布. 2009/06/05( 金 ) PRML ゼミ M1 山田孝太郎. 二値変数の確率分布 ベータ分布 多値変数の確率分布 ディリクレ分布 ガウス分布 条件付きガウス分布 周辺ガウス分布 ガウス変数に対するベイズの定理 ガウス分布の最尤推定 逐次推定(来週). 内容. はじめに. 密度推定 観測値の集合 {X 1 ,…,X n } が与えられた時に,確率変数 X の従う確率分布を求めること。 候補は無数にあるので,多項式曲線フィッティングやモデル選択問題と関係がある。 パラメトリックな確率分布 - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/1.jpg)
第 2章 確率分布
2009/06/05( 金 )PRML ゼミ
M1 山田孝太郎
![Page 2: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/2.jpg)
2
内容
1. 二値変数の確率分布– ベータ分布
2. 多値変数の確率分布– ディリクレ分布
3. ガウス分布– 条件付きガウス分布– 周辺ガウス分布– ガウス変数に対するベイズの定理– ガウス分布の最尤推定– 逐次推定(来週)
![Page 3: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/3.jpg)
はじめに
3
• 密度推定• 観測値の集合 {X1,…,Xn} が与えられた時に,確率変数 X の従
う確率分布を求めること。• 候補は無数にあるので,多項式曲線フィッティングやモデル
選択問題と関係がある。
• パラメトリックな確率分布• パラメータによって定まる確率分布を求める
• 頻度主義的アプローチ:尤度関数などの基準最適化• ベイズ主義的アプローチ:事前分布を導入し,パラメー
タが得られた時の事後分布を求める。
• ノンパラメトリックな確率分布• 分布の形状を制限しない。• データ集合の大きさに形状が依存• パラメータはあっても分布の複雑さの調整
![Page 4: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/4.jpg)
1.二値変数
4
例) 歪なコイン投げ表 (x=1) が出る確率 ( ) のコイン裏 (x=0) が出る確率 なので, x の値をとる確率は
•ベルヌーイ分布:二値確率変数 x∊ {0,1} が従う分布
となる。これがベルヌーイ分布の確率密度関数。
•二項分布:表が出る回数 m の確率分布
ただし,
という N 個から m 個取り出す組み合わせの数
![Page 5: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/5.jpg)
1.二値変数
5
となる。ここで,頻度主義的に μ を求める・・・尤度関数最大化!
μ で微分し,微分係数を =0 とおいて μ の最尤推定量を求めると
という,サンプル平均が求められる。
データ集合 が取れたとき,尤度関数は,
尤度関数の対数をとって,
![Page 6: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/6.jpg)
1.1 ベータ分布
6
•頻度主義的では,データ集合が少ない時,過学習の可能性( ex.3 回投げて 3 回表が出る)⇒ ベイズ主義的アプローチ:パラメータの事前分布 を設定•どう設定するか?
•事後分布∝事前分布 × 尤度関数⇒事前分布と事後分布は同じ関数形(共役性)
•パラメータ a,b は μ の分布を決めるので,超パラメータと呼ばれる。
μ と( 1 - μ )のべき乗の形
いろいろな a,b のときのベータ分布の形
•ベータ分布
![Page 7: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/7.jpg)
1.1 ベータ分布
7
•事後分布∝事前分布 × 尤度関数(二項分布)として μ に関する項だけにし,正規化係数をつけると
となり、 l=N-m (裏の出た回数)である。
•つまり,あるデータ集合が得られた時, a と b をそれぞれ m,l だけ増やせば,事前分布から事後分布が求められる。•このとき a,b は有効観測数として解釈できる。•そして,得られた事後分布は次の試行の事前分布となりうる。⇒ 逐次学習のアプローチ
結局,
例)あるデータ集合が得られたときの次の試行で表が出る確率
![Page 8: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/8.jpg)
2.多値変数
8
•異なる K 個の可能な状態を取りうる確率変数についての記述1 対 K 法 :変数は要素の一つ xk が 1 で残りは 0 と記述されるようなベクトルになる。たとえば K=6 で x3 =1 のときは
X の分布は, Xk=1 となる確率を μk とおくと,
となる。これはベルヌーイ分布の一般化である。
![Page 9: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/9.jpg)
2.多値変数
9
•あるデータ集合 x1 ,…,xN がとれたとき,尤度関数は,
となる。この式から N 個のデータ点は, K 個の
の値によってきまる。これは, 各 xk が出た回数であり,十分統計量と呼ばれる。
のもとで最大化(ラグランジュ乗数法)し,最尤推定解を求めると,
となる。これは全体の中で xk が出た割合。
この尤度関数を条件
![Page 10: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/10.jpg)
2.多項分布
10
•パラメータ μ (各 xk が出る確率のベクトル)と観測値数 Nが与えられたとき, m1 ,…,mK の同時確率分布は
という多項分布の形になる。
は, N 個のものを m1 ,…,mK 個ずつの K 個のグループに分割する場合の数である。したがって,次の制約条件が付く。
![Page 11: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/11.jpg)
2.2. 1 ディリクレ分布
11
•多項分布もベイズ主義的に考える。事前分布⇒多項分布と共役なもの
条件より,この分布は K-1次元の単体上に制限される。
ただし
•この共役分布を正規化すると,次のディリクレ分布を得る
ただし, 0≦μ k≦1, ∑k μ k=1
例) K=3 のとき(縦軸を密度,横軸は単体上の座標)左から{αk}=0.1 , {αk}=1, {αk}=10
例) K=3 のとき
![Page 12: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/12.jpg)
2.2. 1 ディリクレ分布
12
•事後分布∝事前分布 × 尤度関数とすると。
という,事後分布もディリクレ分布の形になる。結局,
となり, αk は xk =1 となる有効観測数と解釈できる。
![Page 13: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/13.jpg)
2.3 ガウス分布
13
•1 変数の場合
μ は平均 ,σ は分散
•多変数の場合
μ は D 次元の平均ベクトル ,∑ は D×D 共分散行列 ,|∑| は∑の行列式
•中心極限定理どんな分布に従う確率変数の和も,多くの和を取ると,ガウス分布に従うようになる。例)一様分布に従う N 個の確率変数の平均
( 2.43 )
![Page 14: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/14.jpg)
2.3 ガウス分布の線形変換
14
•ガウス分布は
という二次形式で x に依存する。この Δ をマハラノビス距離という。ここで,共分散行列∑は実対称行列なので, i=1,…,D について固有方程式
がかける。実対称行列は対角化できて,対角成分が λi
のベクトル
となる。
( 2.44 )
ここで
となり, にまとめると,
となる。 U は uiT を i 行に持つ直交行列。
( 2.52 )
(2.44)に戻すと
( 2. 50 )
![Page 15: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/15.jpg)
15
•共分散行列の行列式 |∑| も固有値の積でかけるので
となり,( 2.50 )と合わせて (2.43) は
と正規化できる。
2.3 ガウス分布の線形変換
例)二次元空間上のガウス分布赤線内が密度一定の楕円体の面(μ1, μ2)方向に新たに楕円の軸が定義される
![Page 16: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/16.jpg)
2.3.1 条件付きガウス分布
16
•2 つの変数集合の同時分布がガウス分布に従うとき•一方の変数集合が与えられたとき,もう一方の条件付き分布もガウス分布に従う(赤)•どちらの変数集合の周辺分布もガウス分布に従う(青) C
例)二次元空間上のガウス分布条件付き分布 : xb=0.7 の軸で切った切り口周辺分布: xa 軸から見た分布の正射影
![Page 17: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/17.jpg)
2.3.1 条件付きガウス分布
17
•X を二つの互いに素な部分集合 Xa と Xb に分割する。平均と共分散行列も以下のように与えられる。
•共分散行列の逆行列(対称行列になる)を考える。これを精度行列という。
( 2.65 )
( 2.66 )
( 2.67 )
ただし, である。
同様に, である。
![Page 18: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/18.jpg)
2.3.1 条件付きガウス分布
18
•p(xa|xb) の表現を考えるため,ガウス分布の指数部分に着目する。指数部分の二次形式は (2.65),(2.66) より,
と分解でき, Xb を固定して考えると, Xa の二次形式になっている。これと,次の一般の X の二次形式と比較する。
![Page 19: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/19.jpg)
2.3.1 条件付きガウス分布
19
これを( 2.71 )の xa の二次の項と比較して
•( 2.70 )の xa の二次の項をとりだすと,
を得る。次に一次の項を考え, の性質を利用すると,
という一次の項が得られる。これと一般形 (2.71) の一次の項を比較して,
という形で平均が得られる。
![Page 20: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/20.jpg)
2.3.1 条件付きガウス分布
20
をもとの分割された共分散行列で表現する。関形式
と,次のシューア補行列を用いて,
という関形式を得るので,結局,
となり,条件付きガウス分布の平均と分散が表現できる。
![Page 21: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/21.jpg)
2.3.2 周辺ガウス分布
21
•周辺分布
もガウス分布になることを確認する。
ただし,
は共分散行列の逆行列にのみ依存する正規化係数の逆数になる。よって Xb を積分消去することができる。
(2.84)の右辺第1項は標準的なガウス分布の二次形式部分なので,この部分を指数にとった積分
まず, Xb を積分消去するため, (2.70) から Xb を含む項を取り出すと,
![Page 22: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/22.jpg)
2.3.2 周辺ガウス分布
22
•m も含め,残る Xa に関する項のみをまとめると,
これを再び (2.71) と比較すると,
これより,平均は
となり,精度行列とシューア補行列を用いて,
となるので,結局,周辺分布の平均と分散は,それぞれの集合の平均と分散であらわされることがわかる。
![Page 23: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/23.jpg)
2.3.3 ガウス変数に対するベイズの定理
23
•あるガウス周辺分布 p(x) と平均が x の線形関数で,共分散は x とは独立なガウス条件付き分布 p(y|x) を考える。これは,線形ガウスモデルの例である。
周辺分布と条件付き分布を
とおく。
![Page 24: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/24.jpg)
2.3.3 ガウス変数に対するベイズの定理
24
•まず, x と y の同時分布の表現を求める。次のような z を定義する。
同時分布の対数を考えると,
x,y の 2 次の項を取り出すと,
よって,共分散行列は
![Page 25: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/25.jpg)
と を比較して,
25
•平均は 1 次の項
2.3.3 ガウス変数に対するベイズの定理
を得る。また,これと,
と
の比較により, y の周辺確率の平均と分散
が得られる。
![Page 26: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/26.jpg)
2.4.4 ガウス分布の最尤推定
26
•ある多変量ガウス分布から,観測値 {xn} が独立に取れたデータ集合 X=(x1,…,xN)T がある時,パラメータを最尤推定法で求める。•対数尤度関数は,
なので,これを最大化する。 μ,Σ で偏微分し, =0 とおいて, μ,Σ の最尤推定量を求めると,
この真の分布の下での期待値を求めると,
となるが,共分散は不偏推定量ではないので,次のように補正する。
![Page 27: 第 2 章 確率分布](https://reader036.vdocuments.site/reader036/viewer/2022081421/5681443d550346895db0d63d/html5/thumbnails/27.jpg)
逐次推定は来週