3-estimação de parâmetros: máxima verosimilhança e...
TRANSCRIPT
3-Estimação de Parâmetros: Máxima Verosimilhança e
Bayes
CT 720 Tópicos em Aprendizagem de Máquina eClassificação de Padrões
ProfFernandoGomide DCA-FEEC-Unicamp
1. Introdução
2. Estimador de máxima verosimilhança
3. Estimador de Bayes
4. Teoria geral estimadores Bayesianos
5. Problemas de dimensionalidade
6. Modelos de Markov
7. Resumo
Conteúdo
DCA-FEEC-UnicampProfFernandoGomide
1-Introdução
� Teoria Bayesiana de decisão– assume P(ωi) e p(x/ωi) completamente conhecidos
– na prática estes valores não são conhecidos
– projeto necessita de dados de treinamento
– problema de estimar função → estimar parâmetros
� Este capítulo– apresenta métodos principais de estimação
– problema da dimensão e complexidade
– classificação estática e dinâmica
DCA-FEEC-UnicampProfFernandoGomide
� Estimador de máxima verosimilhança– parâmetros de p(x/ωi) são valores fixos, mas desconhecidos
– melhor estimativa: maximiza a probabilidade de obter as observações
� Estimador de Bayes– parâmetros são variáveis aleatórias com distribuições a priori dadas
– observações convertem estas distribuições em a posteriori
� Aprendizagem– amostras x obtidas selecionando estado ωi com probabilidade P(ωi)
– amostras independentemente selecionadas de acordo com p(x/ωi)
– supervisionada: classe (estado) ωi de cada amostra é conhecida
– não supervisionada
DCA-FEEC-UnicampProfFernandoGomide
2-Estimador de máxima verosimilhança
� Características– boa convergência quando número de amostras de treinamento aumenta
– mais simples que métodos alternativos (Bayes, EM, etc.)
� Princípio geralD1,...., Dc : c conjuntos de dados
Dj : conjunto de amostras independentemente de p(x/ωj) (i.i.d.)
p(x/ωj) : forma paramétrica é, por hipótese, conhecida
θθθθj: vetor de parâmetros que caracteriza p(x/ωj) de forma única
p(x/ωj) = p(x/ωj,θθθθj)
problema: θθθθj ?
� HipóteseDi : não tem informação sobre θθθθj se i ≠ j
parâmetros são funcionalmente independentes
permite tratar cada classe separadamente
� Problema de estimação
Estimar o vetor de parâmetros θθθθj a partir das amostras em D
amostras estas geradas independentemente a partir de p(x/θθθθ)
D = {x1, ....,xn}
ProfFernandoGomide DCA-FEEC-Unicamp
∏=
=n
kkpp
1)|()|( θxθD likelihood de θθθθ com relação a D (1)
� Estimador de máxima verosimilhança (MV)– maximiza p(D/θθθθ)
– valor de θθθθ mais aderente aos dados de treinamento
– em geral usa-selog-likelihood
θ̂
)|(ln)( θθ Dpl =
)(maxargˆ θθθ
l=
∑=
=n
kkpl
1)|(ln)( θxθ
0)|(ln1
=∇=∇ ∑=
n
kkpl θxθθ condição necessária (7)
DCA-FEEC-UnicampProfFernandoGomide
ProfFernandoGomide DCA-FEEC-Unicamp
� Caso Gaussiano:µµµµ desconhecido
)()(2
1||)2ln[(
2
1)|(ln 1
µxΣµxΣµx −−−π−= −k
tk
dkp
)()|(ln 1 µxΣµxµ −=∇ −kkp
0)(1
1 =−∑=
−n
kk µxΣ
∑=
=n
kkn 1
1xµ
(multiplicando por ∑∑∑∑–1 e rearranjando)
DCA-FEEC-UnicampProfFernandoGomide
� Caso Gaussiano:µµµµ e ∑∑∑∑ desconhecidos
21
22 )(
2
12ln[
2
1)|(ln θx
θθxp kk −−π−=θ
θ−+θ
−
θ−=∇=∇
22
21
2
12
2
)(
2
1
)(1
)|(ln
θ
x
xθ
plk
k
k θxθθ
221 e σ=µ= θθ
DCA-FEEC-UnicampProfFernandoGomide
0)ˆ(ˆ1
11
2=θ−∑
=
n
kkx
θ
0ˆ2
)ˆ(ˆ2
1
122
21
2=θ−+
θ−∑
=
n
k
k
θ
x
∑=
=µn
kkx
n 1
1ˆ
∑=
µ−=σn
kkx
n 1
222 )ˆ(
1
∑=
=n
kkn 1
1ˆ xµ
tk
n
kkn
)ˆ()ˆ(1ˆ
1µxµxΣ −−= ∑
=
DCA-FEEC-UnicampProfFernandoGomide
� Tendenciosidade (bias)
é um estimador não tendencioso de θθθθ se se somente seθ̂ θθ =]ˆ[E
22
1
2 1)(
1 σ≠σ−=
−∑
= n
nxx
nE
n
kk
tk
n
kkn
)ˆ()ˆ(1
1
1µxµxC −−
−= ∑
=
tendencioso
não tendencioso
DCA-FEEC-UnicampProfFernandoGomide
3-Estimador de Bayes
� Densidades condicionais de classe
– P(ωi| x) é essencial em classificação Bayesiana
– como obter P(ωi| x) se P(x|ωi) e P(ωi) dão desconhecidos ?
– usar conhecimento e.g. forma funcional e faixas dos parâmetros
– amostras para treinamento: conjuntoD
– P(ωi| x, D) ?
∑=
=c
jjj
iii
ωPωp
ωPωpωP
1)|(),|(
)|(),|(),|(
DD
DDD
x
xx
DCA-FEEC-UnicampProfFernandoGomide
� Hipóteses
– probabilidades a priori conhecidas/calculadas: P(ωi|D) = P(ωi)
–D1,...., Dc conjuntos de dados de treinamento
Di : não influencia p(x|ωj, D) se i ≠ j
– classes são tratadas separadamente: c problemas independentes
Di para estimar p(x|ωj, D)
∑=
=c
jjj
iii
ωPωp
ωPωpωP
1)(),|(
)(),|(),|(
D
DD
x
xx
DCA-FEEC-UnicampProfFernandoGomide
� Aprendizagem Bayesiana
Usa um conjunto D de amostras observadas independentemente
de acordo com uma distribuição de probabilidade fixa, mas
desconhecida p(x) para estimar p(x| D)
DCA-FEEC-Unicamp
� Distribuição de parâmetros
– densidade de probabilidade p(x) desconhecida
– assume-se forma paramétrica de p(x) conhecida: p(x|θθθθ)
– problema: determinar vetor de parâmetros θθθθ– conhecimento a priori sobreθθθθ: p(θθθθ)– observações de D converte p(θθθθ) em p(θθθθ|D )
ProfFernandoGomide
∫= θθxx dpp )|,()|( DD
)|(),|()|,( DDD θθxθx ppp =
),(),|( θxθx pp =D
∫= θθθxx dppp )|()|()|( DD
seleção de x são independentes
(integrar numericamente) (25)
DCA-FEEC-UnicampProfFernandoGomide
� Exemplo: caso Gaussiano
p(θθθθ|D ) = ?, p(x|D ) = ?
p(x|µµµµ) ~ N(µµµµ, ΣΣΣΣ)
1) Caso univariado: p(µ|D ), µ é o único parâmetro desconhecido
),()|( 2σµ=µ Nxp
),()( 2ooNp σµ=µ
D = {x1, ....,xn}
∏∫ =
µµα=µµµ
µµ=µn
kk pxp
dpp
ppp
1)()|(
)()|(
)()|()|(
D
DD
(26)
DCA-FEEC-UnicampProfFernandoGomide
σµ−µ−
σ
σµ−−
σπα=µ ∏
=
22
1 2
1exp
2
1
2
1exp
2
1)|(
o
o
o
kn
k
xp D
σµ−µ+
σ−µ−α′= ∑
=
2
1
2
2
1exp
o
on
k
kx
µ
σµ+
σ−µ
σ+
σ−α ′′= ∑
=
n
k o
okx
n
122
222
12
1
2
1exp
),(~2
1exp
2
1)|(
2
nnn
n
nNp σµ
σµ−µ−
σπ=µ D
(29)
(30)
p(xk|µ) p(µ)
DCA-FEEC-UnicampProfFernandoGomide
igualando (29) e (30)
22211
on
n
σ+
σ=
σ
222ˆ
o
on
n
n n
σµ+µ
σ=
σµ
∑=
=µn
kkn x
n 1
1ˆ
oo
no
on
nn
n µσ+σ
σ+µ
σ+σσ=µ
22
2
22
2ˆ
22
222
σ+σσσ=σ
o
on
n
DCA-FEEC-Unicamp
� Aprendizagem Bayesiana
ProfFernandoGomide
DCA-FEEC-UnicampProfFernandoGomide
2) Caso univariado:p(x|D )
∫ θθθ= dpxpxp )|()|()|( DD
),()|( 2σµ=µ Nxp
),(~2
1exp
2
1)|(
2
nnn
n
nNp σµ
σµ−µ−
σπ=µ D
(25)
(26)
(30)
DCA-FEEC-UnicampProfFernandoGomide
∫ µµµ= dpxpxp )|()|()|( DD
∫ µ
σµ−−
σπ
σµ−−
σπ= d
xx
n
n
n
22
2
1exp
2
1
2
1exp
2
1
),()(
2
1exp
2
122
2
nn
n
nf
x σσ
σ+σµ−−
πσσ=
∫ µ
σ+σµσ+σ−µ
σσσ+σ−=σσ d
xf
n
nn
n
nn
2
22
22
22
22
2
1exp),(
),|(),(~)|( 22jDD jnn ωxpNxp =σ+σµ
DCA-FEEC-UnicampProfFernandoGomide
3) Caso Gaussiano multivariado
p(θθθθ|D ) = ? p(x|D ) = ?
p(x|µµµµ) ~ N(µµµµ, ΣΣΣΣ), p(µµµµ) ~ N(µµµµo, ΣΣΣΣo)
D = {x1, ....,xn}, x1, ....,xn amostras independentes
Após observar as n amostras de D e usando a fórmula de Bayes:
∏=
α=n
kk ppp
1)()|()|( µµxµ D
+−+−α′= ∑
=
−−−− n
kk
tt n1
o1
o11
o1 2)(
2
1exp µΣxΣµµΣΣµ
(39)
DCA-FEEC-UnicampProfFernandoGomide
p(µµµµ|D ) tem a forma
),(~)()(2
1exp)|( 1
nnnnt
n Np ΣµµµΣµµµ
−−−α ′′= −D (40)
igualando (39) e (40)
1o
11 −−− Σ+Σ=Σ nn
o1
o11 ˆ µµµ −−− Σ+Σ=Σ nnn n
∑=
=n
kkn n 1
1ˆ xµ
DCA-FEEC-UnicampProfFernandoGomide
o
1
o
1
oo11
ˆ1
µΣΣΣµΣΣΣµ
−−
++
+=nnn nn
ΣΣΣΣΣnnn11 1
oo
−
+=
),()|()|()|( nnNdppp ΣΣµµµµxx +== ∫ DD
DCA-FEEC-UnicampProfFernandoGomide
4-Teoria geral estimadores Bayesianos
� Hipóteses
– forma da densidade p(x|θθθθ) é conhecida
– valor de θθθθ não é conhecido exatamente
– conhecimento inicial sobre θθθθ contido densidade a priori p(θθθθ)
– restante do conhecimento sobre θθθθ contido em conjunto D
–D = {x1,..., xn}, cada xi obtido independente de acordo com p(x)
– p(x) desconhecida
DCA-FEEC-UnicampProfFernandoGomide
� Problema básico
determinar distribuição a posteriori p(θθθθ|D) pois com ela calculamos
∫ θθθ= dpxpxp )|()|()|( DD
∫=
θθθ
θθθ
dpp
ppp
)()|(
)()|()|(
D
DD
∏=
=n
kkpp
1)|()|( θxθD
1) fórmula de Bayes
3) hipótese de independência
solução:
(49)
(50)
(51)
� Análise
1) p(D|θθθθ) tem um pico em
p(θθθθ) ≠ 0 para e não varia significativamente na vizinhança
(50) → p(θθθθ|D) tem um pico neste ponto
(49) →
mesmo resultado que o de MV se fosse o verdadeiro
2) se pico de p(D|θθθθ) é muito acentuado, a influência da informação
a priori sobre incerteza de θθθθ pode ser desprezada
3) solução Bayesiana usa toda informação disponível
θθ ˆ=
θθ ˆ=
)ˆ|()|( θxpxp ≈D
θ̂
DCA-FEEC-UnicampProfFernandoGomide
� Aprendizagem Bayesiana incremental
1)Dn = {x1,..., xn}
2) de (51), se n > 1
3) densidade a posteriori
)|()|()|( 1θθxθ
n-n ppp DDn =
∫−
−=
θθθ
θθxθ
dpp
ppp
nn
nnn
)|()|(
)|()|()|(
1
1
DD
DD
)()|( 0θθ pp =D
(52)
(53)
DCA-FEEC-UnicampProfFernandoGomide
� Exemplo: caso unidimensional, distribuição uniforme
≤≤
=contráriocaso
Uxp0
θx0θ/1)θ,0(~)|( θ
,10)0((θ)|(θ 0 Upp == )D
D = {4, 7, 2, 8}
1) x1 = 4 e usando (53)
≤≤
=α.c.c0
10θ4θ/1)|(θθ)|()|(θ 01 DD pxpp
DCA-FEEC-UnicampProfFernandoGomide
2) x2 = 7 e usando (53)
≤≤=α
.c.c0
10θ7/θ1)|(θθ)|()|(θ
212 DD pxpp
n) xn = 8 (n = 4) e usando (53)
≤≤
=α −
.c.c0
10θ][max/θ1)|(θθ)|()|(θ 1
n
x
nnn pxpp
DDD
DCA-FEEC-UnicampProfFernandoGomide
≤≤
=α −
.c.c0
10θ][max/θ1)|(θθ)|()|(θ 1
n
x
nnn pxpp
DDD
p(θ|Dn)
∫ θθθ= dpxpxp )|()|()|( DD
x
p(x|D )
Bayes
MV
DCA-FEEC-UnicampProfFernandoGomide
� Questões
– como a precisão de classificação depende da:
• dimensão do espaço de atributos
• quantidade de amostras de treinamento
– complexidade computacional do classificador
– overfitting
5-Problemas de dimensionalidade
DCA-FEEC-UnicampProfFernandoGomide
� Precisão, dimensão e quantidade dados treinamento
– resultados teóricos para atributos independentes
– exemplo com dois atributos: p(x|ωj) ~ N(µµµµj , ΣΣΣΣ), j = 1, 2
P(ω1) = P(ω2)
erro classificação Bayes
dueePr
u∫∞
−σπ
=2/
2/2
2
1)(
)()( 211
212
µµµµ −Σ−= −tr
DCA-FEEC-UnicampProfFernandoGomide
– P(e) diminui quando r aumenta; P(e) → 0 quando r → ∞
– caso condicionalmente independente ΣΣΣΣ = diag(σ12,...., σd
2)
2
1
212 ∑=
σµ−µ=
d
i i
iir
– atributos mais relevantes: aqueles em que a diferença das
médias é grande comparada com o desvio padrão
– atributo é útil se suas médias para os classificadores diferem
– como reduzir erro? adicionar novos atributos independentes
– observa-se na prática que acrescentar atributos além de
um certo limite deteriora o desempenho do classificador.
– razões principais são as seguintes:
1. hipóteses erradas sobre o modelo
(e.g. Gaussiano, condicionamento)
2. número amostras treinamento pequeno
� Complexidade computacional
– parâmetros distribuição normal para o MV
)(ln|ˆ|ln2
12ln
2)ˆ(ˆ)ˆ(
2
1)( 1
ωPd
g t +−π−−−−= −ΣµxΣµxx
O(dn) O(nd2) O(1) O(d2n) O(n)
– classificação: O(d2)
– aprendizagem Bayesiana: mais complexo devido à integração
� Overftting
– erro dados de treinamento × generalização
– em geral, interpolação ou extrapolação só pode ser feita
de forma confiável se a solução é sobredeterminada, isto é,
o número de pontos é maior do que o número de parâmetros
a serem determinados.
– heurísticas: e.g. shrinkage
nn
nn
i
iii α+α−
α+α−=α)1(
)1()(
ΣΣΣ
IΣΣ β+β−=β )1()( 0 < α, β < 1
),0(~)()( 22 σεε+++= Npcbxaxxf
polinômio 10° grau
polinômio 2° grau
6-Modelos de Markov
� Modelos de Markov de 1a ordem
– ω(t): estado em t
ωωωωT = {ω(1), ω(2), ...., ω(T)} sequência de tamanho T
exemplo: ωωωω6 = {ω1, ω4, ω2, ω2, ω1, ω2}
– P(ωj(t + 1)|ωi(t)) = aij probabilidade de transição de estado
– modelo θθθθ: conjunto de todos os valores aij
probabilidade modelo gerar ωωωωT : produto das probabilidades
exemplo: P(ωωωω6|θθθθ) = a14a42a22a21a14
Modelo de Markov de 1a ordem discreto: estado em t + 1depende somente do estado em t e das probabilidades detransição.
� Modelo Markov de 1a ordem
� Hidden Markov Models de 1a ordem
– ω(t): estado sistema em t
– estado emite símbolos visíveis v(t)
VT = {v(1), v(2), ...., v(T)} sequência de símbolos visíveis
exemplo: V6 = {v5, v1, v1, v5, v2, v3}
– P(vk(t)|ωi(t)) = bjk probabilidade de emitir símbolo vk
– ω não é observável; acesso somente a símbolos visíveis
modelos escondidos de Markov de 1a ordem
� Modelo escondido de Markov de 1a ordem
� Características
– grafos são máquinas de estado finito
– grafos + probabilidades transição = modelos Markov
– MM são estritamente causais
– ergódigos: aij ≠ 0 ∀i, j
– absorção: estado ωo com aoo = 1
))(|)1(( tωtωPa ijij +=
))(|)(( tωtvPb jkjk =
iaj
ij ∀=∑ 1
jak
jk ∀=∑ 1
� Problemas importantesem HMM
1) Avaliação: temos HMM com aij e bjk ; qual probabilidade
que uma sequência particular VT foi gerada pelo modelo?
2) Decodificação: temos HMM e VT; determinar a sequência
mais provável de estados escondidos ωωωωT que produziu VT.
3) Aprendizagem: dado a estrutura do modelo e um conjunto
de observações de treinamento, determinar aij e bjk .
1) Avaliação
dado um modelo HMM, determinar a probabilidade que este
modelo gerou uma sequência particular VT de estados visíveis
)()|()(1
Tr
Tr
r
r
TT PPPmax
ωωVV ∑=
=
)}(,),2(),1({ TωωωTr K=ω
c estados escondidos → rmax= cT termos possíveis
∏=
−=T
i
Tr tωtωPP
1)1(|)(()(ω
∏=
=T
i
Tr
T tωtvPP1
)(|)(()|( ωV
))1(|)(())(|)(()(1 1∑ ∏= =
−=maxr
r
T
t
T tωtωPtωtvPP V (135)
cálculo de (135): O(TcT) c = 10 e T = 20 → 1021 operações
P(VT) calculado recursivamente: envolve v(t), ω(t) e ω(t – 1)
−α==≠=
=α∑ ..)(])1([
inicialestado01
inicialestado00
)(
cctvbat
jt
jt
t
i jkiji
j
bjkv(t): probabilidade bjk associada estado visível v(t)
Algoritmo HMM Forward
1 inicialize t ← 0, aij, bjk, sequência visível VT, αj(0)
2 for t ← t + 1
3 αj(t) ← bjk v(t)[ ∑i = 1,..,c(αi(t – 1) aij ]
4 until t = T
5 return P(VT) ← α0(T)
O(c2T) ~ 2000 operações para c = 10 e T = 20
classificação: Bayes)(
)()|()|(
T
TT
P
PPP
V
θθVVθ =
k
c
iii ba 2
122 ])2([)3( ∑
=α=α
� Exemplo: avaliação
V4 = {v1, v3, v2, v0}
v0: absorbing state
=
1.00.01.08.0
1.02.05.02.0
4.01.03.02.0
0001
][ ija
=
2.01.02.05.00
1.07.01.01.00
2.01.04.03.00
00001
][ jkb
P(VT|θ) = 0.0011
2) Decodificação
dada uma sequênciaVT de estados visíveis, determinar
a sequência mais provável de estados escondidos
Algoritmo HMM Decoding
1 inicialize t ← 0, Path ← {}
2 for t ← t + 1
3 j ← j + 1
4 for j ← j + 1
5 αj(t) ← bjk v(t)[ ∑i = 1,..,c(αi(t – 1) aij ]
6 until t = T
7 j' = arg maxj αj(t)
8 Append ωj ' to Path
9 until t = T
10 return Path
obs: máximos locais → não garante consistência da solução global
� Exemplo: decodificação (exemplo de avaliação)
solução: {ω1, ω3, ω2, ω1, ω0} (inconsistente !! a32 = 0)
3) Aprendizagem
determinar os parâmetros do modelo, aij, bjk
algoritmoforward-backward
αi(t): probabilidade modelo estar no estado ωi(t) e gerou sequência
de referência atét
βi(t): probabilidade modelo está no estado ωi(t) e vai gerar sequência
de referência de t + 1 atéT
++β===≠
=∑ ..)1()1(
)(1
)(0
)(β 0
0
cctvbat
Ttωtω
Ttωtω
t
j jkijj
i
i
i (138)
– supor αi(t) conhecido atéT – 1
– probabilidade que o modelo gerar o último símbolo visível ?
– esta probabilidade éβi(T)
– βi(T) = probabilidade transição para ωi(T)×
probabilidade estado emitir símbolo visível correto
– definição: βi(T) = 0, se ωi(T) ≠ ω0
βi(T) = 1, se ωi(T) = ω0
– logo βi(T – 1) = ∑jaijbjk(T) βi(T)
� Justificativa de (138)
– γij(t) probabilidade transição entre ωi(t – 1) e ωj(t) dado que o
modelo gerou toda a sequência de treinamento VT em
qualquer caminho
– definimos γij(t)
)|(
)()1()(
θVTjjkiji
ijP
tbatt
β−α=γ
– γij(t) probabilidade transição de ωi(t – 1) para ωj(t) dado que o
modelo gerou a sequência visível VT completamente
∑ = γTt ij t1 )(
∑ ∑= γTt k ik1
número esperado de transições de ωi(t – 1) para ωj(t)na sequência de treinamento
número total esperado de transições de ωj(t) paraqualquer outro estado
)(
)()(ˆ
1
1
t
tta
tt k ik
Tt ij
ij∑ ∑
∑
=
=
γ
γ=
)(
)(
)(ˆ
1
)(1
t
t
tbtt l jl
T
vtvt
l jl
jkk
∑ ∑
∑ ∑
=
==
γ
γ
=
� Estimativa das probabilidades de transição
(140) (141)
Algoritmo Forward-Backward
1 inicialize z ← 0, aij, bjk, sequência treinamentoVT, ε convergência
2 do t ← t + 1
3 calcular â(z) usando a(z – 1) e (140)
4 calcular usandob(z – 1) e (141)
5 aij (z) ← âij (z – 1)
6
7 until max[aij (z) – aij (z – 1), aij (z) – aij (z – 1)] < ε8 return aij ← aij (z), bij ← bij (z),
)(ˆ zb
jkjk bzb ˆ)( ←
9-Resumo
� Forma densidades condicionais classe conhecida
� Aprendizagem– estimação de parâmetros MV
– estimação densidades Bayes
� Impacto da dimensão espaço atributos e dados de treinamento
� Decisão sequencial com modelos de Markov
DCA-FEEC-Unicamp
Este material refere-se às notas de aula do curso CT 720 Tópicos Especiais em Aprendizagem de Máquina e Classificação de Padrões da Faculdade de Engenharia Elétrica e de Computação da Unicamp e do Centro Federal de Educação Tecnológica do Estado de Minas Gerais. Não substitui o livro texto, as referências recomendadas e nem as aulas expositivas. Este material não pode ser reproduzido sem autorização prévia dos autores. Quando autorizado, seu uso é exclusivo para atividades de ensino e pesquisa em instituições sem fins lucrativos.
Observação
ProfFernandoGomide