expectation maximization: o básico do básico
DESCRIPTION
Palestra muito superfical e não muito bem organizada sobre o algoritmo Expectation-MaximizationTRANSCRIPT
Expectation Maximization:o básico do básico
Nicolau L. Werneck
Geekie
Geekie, São Paulo03 de Setembro de 2014
Resumo e Sumário
Expectation Maximization (EM) é um algoritmo latosensu. É uma técnica de estimação de parâmetros quepermite lidar com dados faltantes.
Muitos algoritmos já foram e são propostos para lidarcom esse problema, e na verdade são instâncias do EM.
Caso usual: estimação de parâmetros θ dadasobservações x com classes z desconhecidas.
p(x ,z ,θ )
1 / 18
Métodos de estimação
Vários metodos de estimação foram desenvolvidos aolongo da história...
Máxima probabilidade—pega o valor mais provável.
Máxima verossimilhança—Fisher, ca. 1912...
Máxima probabilidade a posteriori— MP via Bayes.ML é MAP com uma priori uniforme.
EM — Maximização do valor esperado daverossimilhança. Média de funções de verossimilhançasobre variáveis não-observadas.
2 / 18
Métodos de estimaçãoMáxima probabilidade
x̂ = argmaxx
p(x)
Máxima verossimilhança
θ̂ = argmaxθ
p(x |θ )
Máxima probabilidade a posteriori
θ̂ = argmaxθ
p(x |θ )p(θ )
EM e EAP
θ̂ = argmaxθ
Ez{p(x |z ,θ )}
3 / 18
História
1960s, 1970s — M-estimation, IRLS. (Tukey,Huber, Wedderburn...)1970 — Algoritmo de Baum et al. para HMM.1977 — EM por Dempster, Laird e Rubin.1981 — Wu, prova de convergência do EM.1981 — Bock e Aitkin, EM aplicado à TRI.
4 / 18
M-estimação
5 / 18
M-estimação
MLE:θ̂ = argmax
θ∏
ip(xi |θ )
θ̂ = argminθ
∑i−log(p(xi |θ ))
M-estimation:
θ̂ = argminθ
∑i
ρ(xi)
Modelo gaussiano vira minimizar o erro médioquadrático. M-estimação generaliza a função de erro.
6 / 18
M-estimação: IRLS
Problema:ri = yi − f (xi ,θ )
θ̂ = argminθ
∑i
ρ(ri)
Solução: IRLS (iteratively re-weighted least squares.)
θ̂t = argmin
θ∑i
w(r t−1i )r2
i
7 / 18
M-estimação: funções
8 / 18
M-estimação: funções
9 / 18
EM: motivação
10 / 18
EM: motivação
11 / 18
EM: motivação
12 / 18
EM: motivação
13 / 18
EM: algoritmoEM se resume a aplicar alguma otimização para resolver
θ̂ = argmaxθ
Ez{p(x |z ,θ )}
Isto é feito iterativamente, atravé sde dois passosalternantes
Passo “E”, encontrar os parâmetros de
Q(θ |θ (t)) = EZ|X,θ (t) [logL(θ ;X,Z)]
Passo “M”, aplicar alguma otimização para
θ(t+1) = argmax
θ
Q(θ |θ (t))
14 / 18
EM: algoritmo
Passo “E”yi ,j =
ai fY (xj ;θi)
fX (xj)
Passo “M”
ai =1N
N∑j=1
yi ,j
µi =∑j yi ,jxj
∑j yi ,j
15 / 18
EM: demo
16 / 18
EM: demo
17 / 18
EM: demo
18 / 18