人工知能特論 ii 　第 8 回

人工知能特論 II 　第 8 回二宮　崇

今日の講義の予定

HMM の教師付学習 HMM の教師無し学習

EM アルゴリズムの導入 EM アルゴリズム

教科書北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル

東大出版会 C. D. Manning & Hinrich Schütze “FOUNDATIONS OF

STATISTICAL NATURAL LANGUAGE PROCESSING” MIT Press, 1999

Christopher M. Bishop “PATTERN RECOGNITION AND MACHINE LEARNING” Springer, 2006

隠れマルコフモデルHidden Markov Model (HMM)

Q: 状態の有限集合Σ: 出力記号の有限集合πq: 文頭が状態 q になる確率

Σr∈Q πr=1aq,r: 状態 q から状態 r への遷移確率

Σr∈Q aq,r=1bq,o: 状態 q における記号 o の出力確率

Σo Σ∈ bq,o = 1

状態記号列の確率と生成確率

状態と記号の列が与えられた時

記号列のみが与えられた時

解析 ( 入力 : o1o2…oT)

tqqqTT

ttttbaoqoqoqp

oqoqoq

2,2211

状態記号列

QqQqQq

oqoqoqpooop

,,221121

:記号列(生成確率 )

)(maxarg~~~2211

TTQqQqQq

T oqoqoqpqqqT

(この問題はビタビアルゴリズムで効率的に解ける )

ラグランジュの未定乗数法

　　はラグランジュ関数と呼ばれる

0,...,0,0

)(...)()()(

0)(,...,0)()(maxarg

LLLggfL

θθθθ

ただし

学習 ( パラメータ推定 ): HMMの教師付学習

HMM の教師付学習Supervised Learning of HMMs

パラメータ推定訓練データ ( 入力 )

パラメータ ( 出力 )πq … |Q| 個の変数aq,r … |Q|×|Q| 個の変数bq,o … |Q|×|Σ| 個の変数

とする。。正解品詞列に対応する正解状態列

の記号列長

とする。。単語列文を表す記号列

訓練データ

iTiiiiii

iTiiiii

qqqqyxyxT

ooooxxyyyxxx

パラメータ推定

iiTiTiiii

oqoqoqp

)1(1maxarg

)(maxarg

),(maxarg,,

logloglog),,(log

制約付き最適化問題

) allfor (1

),,(logmaxarg

ラグランジュ関数

ラグランジュの未定乗数法

oqqQq Qr

Qq ooqq

Qq Qrrqq

ittii ,,1 1

111logloglog

111),,(log

ラグランジュ乗数ρ … 1個の変数αq … |Q|個の変数βq … |Q|個の変数

πq を求める

に代入して、。これを式よって、

であるからところで

ただし、

アイバーソンの記法(Iverson bracket)

otherwise0

trueis if1][

C1(q) は訓練データ中で、文の先頭が q になっている回数

aq,r を求める

t itti

rqCrqCa

rqqqrqC

1 2 )1(

)',(),(

)1()',(

)1(),(

に代入して、。これを式よって、

ただし、

C(q,r) は訓練データ中で、状態 qから状態 r に遷移した回数

bq,o を求める

t itit

oqCoqCb

ooqqoqC

)',(),(

)1()',(

)1(),(b

ただし、

に代入して、。式よって、

ただし、

C(q,o) は訓練データ中で、状態q から記号 o を出力した回数

C(q) は訓練データ中で、状態q が出現した回数

の出現回数を出力した回数から

に遷移した回数から任意のに遷移した回数から

全文数になっている文の数先頭の状態が

oqCoqCb

rqCrqCa

)',(),(

t itit

t itti

ooqqoqC

rqqqrqC

1 2 )1(

)(ただし、

HMM の教師無し学習 : EM アルゴリズムの導入

HMM の教師無し学習Unsupervised Learning of HMMs

パラメータ ( 出力 )

i QqQqQqiTTii

oqoqoqp

1 ,,2211

)(maxarg

)(maxarg,,

の記号列長

とする。。単語列文を表す記号列

訓練データ

iTiiiii

ooooxxxxx

HMM の教師無し学習Unsupervised Learning of HMMs

EM アルゴリズムによる教師無し学習不完全データ（欠損や曖昧性のあるデータ）

に対する有名な学習法EM アルゴリズム＋前向き後向きアルゴリズ

EM アルゴリズム

EM アルゴリズムの問題設定 (1/2) 実際に観測されたデータ x1,...,xNが存在それぞれのデータ xiは隠れ状態 yi1,...,yiTのいずれかから生成されたと仮定

隠れ状態の集合はデータ毎に変わっても良い (機械学習一般には隠れ状態集合は固定であることが多い )

パラメータ集合 θ により p(x, y) が計算される

... ... ...p(x1, y11)y11 y12 y13

y31 y32 y33 y34 y35

p(x1, y12) p(x1, y13)

p(x2, y21)

p(x3, y31) p(x3, y32) p(x3, y33)p(x3, y34) p(x3, y35)

パラメータ ( 出力 )

)(maxarg~);,(log)(

);,(logmaxarg

);,(maxarg

);(maxarg~

i xYyi

とおくと

に対する隠れ状態集合

訓練データ

xxYxxx n

:)(: 21

EM アルゴリズムの問題設定 (2/2)

EM アルゴリズムの全体像

)(maxarg~

),(maxarg )()1(

問題変形

個々の問題に応じて決まる Q関数の極値を解析的に求める個々の問題によって決まるパラメータ更新式

[E ステップ ] p(y | x ; θ)を計算

[M ステップ ]

によりパラメータ更新

),(maxarg )()1(

Q 関数の導出 (1) 問題 : 実際に観測されたデータ x1,...,xn が存在して、それ

に対して、対数尤度を最大化するパラメータを求める

問題チェンジ : パラメータを θ から θ’ にした時の対数尤度の差を最大化することを繰り返せば極大値が求まる

);(logmaxarg)(maxarg~1

iii xpxp

);(log);(logmaxarg

argmaxを求めているが、ようは正の値になればより尤度の高いパラメータが得られることに注意

Q 関数の導出 (2) 個々の事象の対数尤度の差

xypxypxyp

yxpyxpxyp

xypxyp

yxpyxpxyp

xpxpxyp

xypxpxp

xpxpxpxp

);|();|(log);|(

);,();,(log);|(

);|();|(

);,();,(log);|(

);();(log);|(

);|();();(log

);();(log);(log);(log

ジェンセンの不等式より、常に≧ 0

Q 関数の導出 (3) 個々の事象の対数尤度の差

yxpxypyxpxypyxpyxpxyp

xypxypxyp

yxpyxpxypxpxp

);,(log);|();,(log);|();,();,(log);|(

);|();|(log);|(

);,();,(log);|();(log);(log

ここを Q関数とみなす

yii yxpxypQ );,(log);|(),(

),( Qすると、ここは、

Q 関数の導出 (4) まとめ

対数尤度の差は次のようにおける

ただし

より良いパラメータ θ’ を見つけるためには、 Q(θ, θ’) － Q(θ, θ) 0≧ となれば良いが、効率を考えると、対数尤度の差が最大になるほうが良い Q(θ, θ) は θ’ に関わりなく一定なので、対数尤度の最大化するに

は、 Q(θ, θ’) を最大化すれば良い θ’ = θ とおくと ( 古いパラメータと同じにすると )Q 関数の差は 0

になる⇒ argmax をとれば、常に Q(θ, θ’)-Q(θ, θ) ≧0

),()',();(log);(log QQxpxp ii

ii yxpxypQ );,(log);|(),(

EM アルゴリズム : Q 関数の最大化

次のパラメータ更新を繰り返すアルゴリズム

),(maxarg )()1(

ただし、

しかし、まだ問題は解けていない！argmax Qをどうやって求めるか？？

i yii yxpxypQ

);,(log);|(),(

全ての観測データ x1, x2, ..., xnに対しては、

とすればよい

休憩 : Q 関数の直感的な意味 (1)

Q 関数

( 古いパラメータ θ で計算した隠れ状態の条件付き確率 )× ( 新しいパラメータ θ’ による xi と y の同時確率の対数 )≒ xi と y の同時確率の対数の期待値

);,(log 1 yxp i

);,(log 2 yxp i

);,(log 3 yxp i

);|( 1 ixyp

);|( 2 ixyp

);|( 3 ixyp

休憩 : Q 関数の直感的な意味 (2)

そもそもなぜ直接 θ を最大化しないのか？

);,(log

);,(log)(

⇒パラメータ更新式にすれば、実はこの sumを logの外にだすことができるのであった

ジェンセンの不等式凸関数 f(x) は区間 I 上の実数値関数 p1,p2,...,pn は p1+p2+...+pn=1 を満たす非負の実数任意の x1,x2,...,xn I ∈ に対し次の不等式が成り立

休憩 : ジェンセンの不等式

f(x)= － log(x) 、 xi=qi /pi とおくと

)()()()( 22112211 nnnn xpxpxpfxfpxfpxfp

0logloglog

まとめ

HMM の教師付学習HMM の教師無し学習

EM アルゴリズムの導入EM アルゴリズム

Q 関数の導出資料

http://aiweb.cs.ehime-u.ac.jp/~ninomiya/ai2/

人工知能特論 ii 　第 8 回

Documents

情報セキュリティ特論（ 6 ）

人工知能特論 ii 　第 2 回

人工知能特論 ii 　第 13 回

ゲームグラフィックス特論第７回

プログラム理論特論第７回

chapter 14 知溝理論

ゲームグラフィックス特論第４回

大規模知識処理特論（前半第2回）minato/lskp2017/lskp2017...大規模知識処理特論（前半第2回）...

人工知能特論 ii 　第 3 回

『マクロ金融特論』（３）

人工知能特論 ii 　第 7 回

『マクロ金融特論』( ２ )

ゲームグラフィックス特論第１０回

ゲームグラフィックス特論第５回

vygotsky 的認知發展論

情報セキュリティ特論（ 3 ）

ゲームグラフィックス特論第１４回

知能情報システム特論...

画像情報特論 (11)

ゲームグラフィックス特論第１１回

人工知能特論 ii 第 8 回

人工知能特論 ii 　第 8 回