murpy's machine learing: 10. directed graphical model

36
ML study 4th

Upload: jungkyu-lee

Post on 25-Jan-2015

293 views

Category:

Technology


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Murpy's Machine Learing: 10. Directed Graphical Model

ML study4th

Page 2: Murpy's Machine Learing: 10. Directed Graphical Model

10.1 Introduction

• 이 장에 다룰 내용• joint distribution p(x|θ) 을 어떻게 컴팩트하게 표현할 수 있을까 ?

• Chain rule• Conditional Independence(CI)• Graphical Model

• 특정 변수가 주어졌을 때 , 다른 변수를 어떻게 효율적으로 추론할 수 있을까 ?• maginalization

• 분포의 파라메터들을 어떻게 효율적으로 학습할 수 있을까 ?• Factorized posterior

Page 3: Murpy's Machine Learing: 10. Directed Graphical Model

10.1.1 Chain rule

Page 4: Murpy's Machine Learing: 10. Directed Graphical Model

10.1.2 Conditional independence

바로 이전에만 영향을 받는다고 가정하면

Page 5: Murpy's Machine Learing: 10. Directed Graphical Model

10.1.3 Graphical models

• graphical model (GM) 은 Cl 가정으로 joint distribution 을 표현하는 것이다 .

• 그래프의 node 들은 랜덤 변수를 표현한다 .

• edge 의 부재는 Cl 가정을 표현한다 .

Page 6: Murpy's Machine Learing: 10. Directed Graphical Model

10.1.4 Graph terminology

Descen-dent

Ances-tor

Par-ent

X

Y1 Y2

Non-descen-dent

Page 7: Murpy's Machine Learing: 10. Directed Graphical Model

10.1.5 Directed graphical models

• directed graphical mode = DGM = DAG = Bayesian networks = belief networks = causal networks

• The key property of DAGs: topological ordering = 부모는 자식 전에 나온다 = 부모의 순서가 자식보다 먼저다• 이러한 순서가 주어졌을 때 다음과 같은 ordered Markov property 를 정의할 수 있다 .

• 노드는 단지 부모한테만 영향을 받는다 ( 부모가 아닌 조상들은 영향을 끼치지 않는다 .)

• Graphical model 을 조인트 확률로 바꾸는 방법• 부모가 없을 경우 , 그냥 확률 써주고• 부모가 있을 경우 , 조건부에 기입해준다

p(x|G) emphasizethat this equation only holds if the CI assumptions encoded in DAG G are correct

Page 8: Murpy's Machine Learing: 10. Directed Graphical Model

• 앞에 처럼 그래프 분포로 변환하는 방법에 대한 이론적 근거 ? d-separated 개념이 필요

Page 9: Murpy's Machine Learing: 10. Directed Graphical Model

10.2 Examples

Page 10: Murpy's Machine Learing: 10. Directed Graphical Model

10.2.2 Markov and hidden Markov models

Page 11: Murpy's Machine Learing: 10. Directed Graphical Model

10.2.2 Markov and hidden Markov models

Page 12: Murpy's Machine Learing: 10. Directed Graphical Model

Case study, Deep learning(RBM) for Collaborative Filter-ing

likelihood

learning= MLE w.r.t W

학습 자세히는 MCMC 랑 gibbs sampling 배우고 난 뒤

h= 0 또는 1V = [0 0 1 0 0] // 평점 3 이면

Page 13: Murpy's Machine Learing: 10. Directed Graphical Model

• GM 은 결합 확률 분포 (joint probability distribution) 를 정의하는 간단한 방식을 제공• 결합 분포가 주어졌을 때 , 무엇을 할 수 있을까 ? 확률적 추론• HMM 의 예를 들면 , 관찰 (speech signal) 로부터 hidden state (word) 를 추론하는 것이 하나의 목표이다 .

결합 분포 p(x1:V|θ) 와 같이 연관된 랜덤 변수의 집합이 있자고 하자볼수 있는 (visible) 변수 xv숨겨진 ( hidden) 변수 , 토

• 알고 있는 것이 주어졌을 때 , 모르는 것의 posterior 의 계산은 다음과 같다 :

• 때로는 숨겨진 변수 중 일부만을 추론하고 싶을수도 있다 .

• query variables, xq: value we wish to knownuisance variables xn: 관심 밖 변수

• nuisance 변수를 marginalize 함으로써 쿼리 변수를 알수 있다

10.3 Inference

Page 14: Murpy's Machine Learing: 10. Directed Graphical Model
Page 15: Murpy's Machine Learing: 10. Directed Graphical Model

P(x1=w)p(x2=sal|x1=winter)p(x3=m|x2=sal)p(x4=th|x2=sal)= 0.25*0.9*0.33*0.6 = 0.4455

Page 16: Murpy's Machine Learing: 10. Directed Graphical Model

10.4 Learning

Structure learning : DGM 의 구조를 학습 = 변수 간의 연관관계가 있냐 없냐를 학습 , chapter 26

베이지안은 파라메터들도 다 그래프에 넣어버린다 .

LDA

Page 17: Murpy's Machine Learing: 10. Directed Graphical Model

10.4.1 Plate notation

Page 18: Murpy's Machine Learing: 10. Directed Graphical Model
Page 19: Murpy's Machine Learing: 10. Directed Graphical Model

변수 별로

Page 20: Murpy's Machine Learing: 10. Directed Graphical Model

부모조합

tck: t 번째 노드의 c 번째 부모조합의 k 번째 state

c 번째 부모조합이 주어졌을 때 t 노드의 상태가 k 였던 횟수

θtck 의 hyperparamter

multinomial(θtc)

multinomial-dirichlet 모델에 의해서 factorized 된 posterior 는 dirichlet 분포를 따르고 posterior 의 기대값은

노드 4 번에 대한 CPT 테이블

변수간의 관계를 DGM 으로 그림

트레이닝 셋

Page 21: Murpy's Machine Learing: 10. Directed Graphical Model

짚고 넘어갈 것• theta 를 알아내는 것이 graphical model(=joint distribution 의 그래프 표현 ) 의 learning

• joint distribution 을 표현하기 위해 필요한 모든 CPT 를 구해야 한다 .

• 베이지안 프레임웍을 사용해서 graphical model 의 learning 을 쉽게 했다 (factorized posterior)

Page 22: Murpy's Machine Learing: 10. Directed Graphical Model

10.4.3 learning with missing and/or latent variables

• 데이터에 missing 변수이나 latent 변수가 있다면 , likelihood 는 더 이상 분해되지도 않고 더 이상 convex해지지도 않는다 (11.3 에서 자세히 )

• 즉 local optimal 한 MLE 나 MAP 을 구할 수밖에 없다 .

• parameters 의 베이지안 추정은 더 어려워진다 . 후에 근사 추론에 대해서 다룬다 .

Page 23: Murpy's Machine Learing: 10. Directed Graphical Model

10.5 Conditional independence properties of DGMs

CI 조건은 그래프 상에서 edge 의 부재이다 (ci 조건이 많을수록 그래프는 sparse 해진다 )어떤 변수들의 진짜 분포 p( 최대로 sparse 한 그래프 ) 가 있고 , 변수간의 어떤 연관 관계가 있다그러한 진짜 분포의 ci 조건 중 일부를 갖는 그래프 G(p 보다는 덜 sparse 한 그래프 ) 가 있으면 , 그 그래프로 실제 분포 p 를 표현할 수 있다 .I(p) 비해 모자라는 ci 조건은 수식을 더 복잡하게 하지만 , 분포 p 정보의 삭제는 아니다즉 G 가 p 의 imap 이라는 것은 G 로 p 를 graphical model 로 표현할 수 있다는 것이다

CI 조건없이 Chain rule 만으로도 실제분포를 표현가능

Page 24: Murpy's Machine Learing: 10. Directed Graphical Model

X1

X3

X2

X4

Minimal I-Map Example

• If is a minimal I-Map

• Then, these are not I-Maps:

X1

X3

X2

X4

X1

X3

X2

X4

이 CI 는 true 분포 p 와 일치하는 CI 가 아니다

Page 25: Murpy's Machine Learing: 10. Directed Graphical Model

10.5.1 d-separation and the Bayes Ball algorithm (global Markov properties)

Page 26: Murpy's Machine Learing: 10. Directed Graphical Model

The Bayes ball algorithm(Shachter 1998)

• E 가 주어졌을 때 , A 는 B 로부터 d- 분리임을 판별하는 간단한 방법• A 의 각 노드에 공을 놓고 , 어떤 규칙에 의해서 튕기고 , 모든 볼이 B 의 어떤 노드에 도착함을 판별

Page 27: Murpy's Machine Learing: 10. Directed Graphical Model

The Bayes ball algorithm(Shachter 1998)

Page 28: Murpy's Machine Learing: 10. Directed Graphical Model

The Bayes ball algorithm(Shachter 1998)

조건부 없이 독립

Page 29: Murpy's Machine Learing: 10. Directed Graphical Model
Page 30: Murpy's Machine Learing: 10. Directed Graphical Model
Page 31: Murpy's Machine Learing: 10. Directed Graphical Model
Page 32: Murpy's Machine Learing: 10. Directed Graphical Model

10.5.2 Other Markov properties of DGMs

자손

자손

노드 t

자손부모

독립

From the d-separation criterion, one can conclude that

Page 33: Murpy's Machine Learing: 10. Directed Graphical Model

ordered Markov property,

topological ordering 에서 노드 t 보다 이전 숫자를 가진 노드

독립

Page 34: Murpy's Machine Learing: 10. Directed Graphical Model

짚고 넘어가기• 그래프에서 변수 ( 노드 ) 간 독립 ( 엣지 지움 ) 을 표시하는 세가지 법칙이 있었음

• global Markov property G

• the ordered Markov property O

• directed local Markov property L

• d-separated 판별법에 이해서 G 가 유도되고 사실 G <->L <-> O 이다 (Koller and Friedman 2009)

• G 가 true p 의 i-map 이면 분포 p 는 그래프 G 에 의해 다음과 같이 factorize 될 수 있다 (F 조건 )

• F = O ((Koller and Friedman 2009) for the proof), 즉 G = L = O = F

• d-separated -> G -> O -> L -> F 로 이어진 후 , 그래프 상에서 표현되는 엣지가 CI 조건을 잘 표현함을 보장한 후• 즉 그래프 G 가 우리가 알고자하는 분포 p 의 ci 조건을 일부분 가지고 있다면 compact 하게 factorize 할 수 있다라는

결론을 이끌어낸 듯 ( 확실치 않음 ㅠㅠ )

그래프분포 할 수 있는 theorem

Page 35: Murpy's Machine Learing: 10. Directed Graphical Model

10.5.3 Markov blanket and full conditionals

d- 분리로 확인해 볼 수 있겠죠 ? 마코프 블랭킷도 d- 분리 개념에서 나온듯 ?

Page 36: Murpy's Machine Learing: 10. Directed Graphical Model

즉 full conditional posterior 는 마코프 블랭킷만 보면 된다