3-estimação de parâmetros: máxima verosimilhança e...

3-Estimação de Parâmetros: Máxima Verosimilhança e

Bayes

CT 720 Tópicos em Aprendizagem de Máquina eClassificação de Padrões

ProfFernandoGomide DCA-FEEC-Unicamp

1. Introdução

2. Estimador de máxima verosimilhança

3. Estimador de Bayes

4. Teoria geral estimadores Bayesianos

5. Problemas de dimensionalidade

6. Modelos de Markov

7. Resumo

Conteúdo

DCA-FEEC-UnicampProfFernandoGomide

1-Introdução

� Teoria Bayesiana de decisão– assume P(ωi) e p(x/ωi) completamente conhecidos

– na prática estes valores não são conhecidos

– projeto necessita de dados de treinamento

– problema de estimar função → estimar parâmetros

� Este capítulo– apresenta métodos principais de estimação

– problema da dimensão e complexidade

– classificação estática e dinâmica


� Estimador de máxima verosimilhança– parâmetros de p(x/ωi) são valores fixos, mas desconhecidos

– melhor estimativa: maximiza a probabilidade de obter as observações

� Estimador de Bayes– parâmetros são variáveis aleatórias com distribuições a priori dadas

– observações convertem estas distribuições em a posteriori

� Aprendizagem– amostras x obtidas selecionando estado ωi com probabilidade P(ωi)

– amostras independentemente selecionadas de acordo com p(x/ωi)

– supervisionada: classe (estado) ωi de cada amostra é conhecida

– não supervisionada


2-Estimador de máxima verosimilhança

� Características– boa convergência quando número de amostras de treinamento aumenta

– mais simples que métodos alternativos (Bayes, EM, etc.)

� Princípio geralD1,...., Dc : c conjuntos de dados

Dj : conjunto de amostras independentemente de p(x/ωj) (i.i.d.)

p(x/ωj) : forma paramétrica é, por hipótese, conhecida

θθθθj: vetor de parâmetros que caracteriza p(x/ωj) de forma única

p(x/ωj) = p(x/ωj,θθθθj)

problema: θθθθj ?

� HipóteseDi : não tem informação sobre θθθθj se i ≠ j

parâmetros são funcionalmente independentes

permite tratar cada classe separadamente

� Problema de estimação

Estimar o vetor de parâmetros θθθθj a partir das amostras em D

amostras estas geradas independentemente a partir de p(x/θθθθ)

D = {x1, ....,xn}


∏=

=n

kkpp

1)|()|( θxθD likelihood de θθθθ com relação a D (1)

� Estimador de máxima verosimilhança (MV)– maximiza p(D/θθθθ)

– valor de θθθθ mais aderente aos dados de treinamento

– em geral usa-selog-likelihood

θ̂

)|(ln)( θθ Dpl =

)(maxargˆ θθθ

l=

∑=

=n

kkpl

1)|(ln)( θxθ

0)|(ln1

=∇=∇ ∑=

n

kkpl θxθθ condição necessária (7)


� Caso Gaussiano:µµµµ desconhecido

)()(2

1||)2ln[(

2

1)|(ln 1

µxΣµxΣµx −−−π−= −k

tk

dkp

)()|(ln 1 µxΣµxµ −=∇ −kkp

0)(1

1 =−∑=

−n

kk µxΣ

∑=

=n

kkn 1

1xµ

(multiplicando por ∑∑∑∑–1 e rearranjando)


� Caso Gaussiano:µµµµ e ∑∑∑∑ desconhecidos

21

22 )(

2

12ln[

2

1)|(ln θx

θθxp kk −−π−=θ

θ−+θ

−

θ−=∇=∇

22

21

2

12

2

)(

2

1

)(1

)|(ln

θ

x

xθ

plk

k

k θxθθ

221 e σ=µ= θθ


0)ˆ(ˆ1

11

2=θ−∑

=

n

kkx

θ

0ˆ2

)ˆ(ˆ2

1

122

21

2=θ−+

θ−∑

=

n

k

k

θ

x

∑=

=µn

kkx

n 1

1ˆ

∑=

µ−=σn

kkx

n 1

222 )ˆ(

1

∑=

=n

kkn 1

1ˆ xµ

tk

n

kkn

)ˆ()ˆ(1ˆ

1µxµxΣ −−= ∑

=


� Tendenciosidade (bias)

é um estimador não tendencioso de θθθθ se se somente seθ̂ θθ =]ˆ[E

22

1

2 1)(

1 σ≠σ−=

−∑

= n

nxx

nE

n

kk

tk

n

kkn

)ˆ()ˆ(1

1

1µxµxC −−

−= ∑

=

tendencioso

não tendencioso


� Hipóteses

– probabilidades a priori conhecidas/calculadas: P(ωi|D) = P(ωi)

–D1,...., Dc conjuntos de dados de treinamento

Di : não influencia p(x|ωj, D) se i ≠ j

– classes são tratadas separadamente: c problemas independentes

Di para estimar p(x|ωj, D)

∑=

=c

jjj

iii

ωPωp

ωPωpωP

1)(),|(

)(),|(),|(

D

DD

x

xx


� Aprendizagem Bayesiana

Usa um conjunto D de amostras observadas independentemente

de acordo com uma distribuição de probabilidade fixa, mas

desconhecida p(x) para estimar p(x| D)

DCA-FEEC-Unicamp

� Distribuição de parâmetros

– densidade de probabilidade p(x) desconhecida

– assume-se forma paramétrica de p(x) conhecida: p(x|θθθθ)

– problema: determinar vetor de parâmetros θθθθ– conhecimento a priori sobreθθθθ: p(θθθθ)– observações de D converte p(θθθθ) em p(θθθθ|D )

ProfFernandoGomide

∫= θθxx dpp )|,()|( DD

)|(),|()|,( DDD θθxθx ppp =

),(),|( θxθx pp =D

∫= θθθxx dppp )|()|()|( DD

seleção de x são independentes

(integrar numericamente) (25)


� Exemplo: caso Gaussiano

p(θθθθ|D ) = ?, p(x|D ) = ?

p(x|µµµµ) ~ N(µµµµ, ΣΣΣΣ)

1) Caso univariado: p(µ|D ), µ é o único parâmetro desconhecido

),()|( 2σµ=µ Nxp

),()( 2ooNp σµ=µ

D = {x1, ....,xn}

∏∫ =

µµα=µµµ

µµ=µn

kk pxp

dpp

ppp

1)()|(

)()|(

)()|()|(

D

DD

(26)


σµ−µ−

σ

σµ−−

σπα=µ ∏

=

22

1 2

1exp

2

1

2

1exp

2

1)|(

o

o

o

kn

k

xp D

σµ−µ+

σ−µ−α′= ∑

=

2

1

2

2

1exp

o

on

k

kx

µ

σµ+

σ−µ

σ+

σ−α ′′= ∑

=

n

k o

okx

n

122

222

12

1

2

1exp

),(~2

1exp

2

1)|(

2

nnn

n

nNp σµ

σµ−µ−

σπ=µ D

(29)

(30)

p(xk|µ) p(µ)


igualando (29) e (30)

22211

on

n

σ+

σ=

σ

222ˆ

o

on

n

n n

σµ+µ

σ=

σµ

∑=

=µn

kkn x

n 1

1ˆ

oo

no

on

nn

n µσ+σ

σ+µ

σ+σσ=µ

22

2

22

2ˆ

22

222

σ+σσσ=σ

o

on

n

DCA-FEEC-Unicamp

� Aprendizagem Bayesiana

ProfFernandoGomide


2) Caso univariado:p(x|D )

∫ θθθ= dpxpxp )|()|()|( DD

),()|( 2σµ=µ Nxp

),(~2

1exp

2

1)|(

2

nnn

n

nNp σµ

σµ−µ−

σπ=µ D

(25)

(26)

(30)


∫ µµµ= dpxpxp )|()|()|( DD

∫ µ

σµ−−

σπ

σµ−−

σπ= d

xx

n

n

n

22

2

1exp

2

1

2

1exp

2

1

),()(

2

1exp

2

122

2

nn

n

nf

x σσ

σ+σµ−−

πσσ=

∫ µ

σ+σµσ+σ−µ

σσσ+σ−=σσ d

xf

n

nn

n

nn

2

22

22

22

22

2

1exp),(

),|(),(~)|( 22jDD jnn ωxpNxp =σ+σµ


3) Caso Gaussiano multivariado

p(θθθθ|D ) = ? p(x|D ) = ?

p(x|µµµµ) ~ N(µµµµ, ΣΣΣΣ), p(µµµµ) ~ N(µµµµo, ΣΣΣΣo)

D = {x1, ....,xn}, x1, ....,xn amostras independentes

Após observar as n amostras de D e usando a fórmula de Bayes:

∏=

α=n

kk ppp

1)()|()|( µµxµ D

+−+−α′= ∑

=

−−−− n

kk

tt n1

o1

o11

o1 2)(

2

1exp µΣxΣµµΣΣµ

(39)


p(µµµµ|D ) tem a forma

),(~)()(2

1exp)|( 1

nnnnt

n Np ΣµµµΣµµµ

−−−α ′′= −D (40)

igualando (39) e (40)

1o

11 −−− Σ+Σ=Σ nn

o1

o11 ˆ µµµ −−− Σ+Σ=Σ nnn n

∑=

=n

kkn n 1

1ˆ xµ


o

1

o

1

oo11

ˆ1

µΣΣΣµΣΣΣµ

−−

++

+=nnn nn

ΣΣΣΣΣnnn11 1

oo

−

+=

),()|()|()|( nnNdppp ΣΣµµµµxx +== ∫ DD


4-Teoria geral estimadores Bayesianos

� Hipóteses

– forma da densidade p(x|θθθθ) é conhecida

– valor de θθθθ não é conhecido exatamente

– conhecimento inicial sobre θθθθ contido densidade a priori p(θθθθ)

– restante do conhecimento sobre θθθθ contido em conjunto D

–D = {x1,..., xn}, cada xi obtido independente de acordo com p(x)

– p(x) desconhecida


� Problema básico

determinar distribuição a posteriori p(θθθθ|D) pois com ela calculamos


∫=

θθθ

θθθ

dpp

ppp

)()|(

)()|()|(

D

DD

∏=

=n

kkpp

1)|()|( θxθD

1) fórmula de Bayes

3) hipótese de independência

solução:

(49)

(50)

(51)

� Análise

1) p(D|θθθθ) tem um pico em

p(θθθθ) ≠ 0 para e não varia significativamente na vizinhança

(50) → p(θθθθ|D) tem um pico neste ponto

(49) →

mesmo resultado que o de MV se fosse o verdadeiro

2) se pico de p(D|θθθθ) é muito acentuado, a influência da informação

a priori sobre incerteza de θθθθ pode ser desprezada

3) solução Bayesiana usa toda informação disponível

θθ ˆ=

θθ ˆ=

)ˆ|()|( θxpxp ≈D

θ̂


� Aprendizagem Bayesiana incremental

1)Dn = {x1,..., xn}

2) de (51), se n > 1

3) densidade a posteriori

)|()|()|( 1θθxθ

n-n ppp DDn =

∫−

−=

θθθ

θθxθ

dpp

ppp

nn

nnn

)|()|(

)|()|()|(

1

1

DD

DD

)()|( 0θθ pp =D

(52)

(53)


� Exemplo: caso unidimensional, distribuição uniforme

≤≤

=contráriocaso

Uxp0

θx0θ/1)θ,0(~)|( θ

,10)0((θ)|(θ 0 Upp == )D

D = {4, 7, 2, 8}

1) x1 = 4 e usando (53)

≤≤

=α.c.c0

10θ4θ/1)|(θθ)|()|(θ 01 DD pxpp


2) x2 = 7 e usando (53)

≤≤=α

.c.c0

10θ7/θ1)|(θθ)|()|(θ

212 DD pxpp

n) xn = 8 (n = 4) e usando (53)

≤≤

=α −

.c.c0

10θ][max/θ1)|(θθ)|()|(θ 1

n

x

nnn pxpp

DDD


≤≤

=α −

.c.c0

10θ][max/θ1)|(θθ)|()|(θ 1

n

x

nnn pxpp

DDD

p(θ|Dn)


x

p(x|D )

Bayes

MV


� Questões

– como a precisão de classificação depende da:

• dimensão do espaço de atributos

• quantidade de amostras de treinamento

– complexidade computacional do classificador

– overfitting

5-Problemas de dimensionalidade


� Precisão, dimensão e quantidade dados treinamento

– resultados teóricos para atributos independentes

– exemplo com dois atributos: p(x|ωj) ~ N(µµµµj , ΣΣΣΣ), j = 1, 2

P(ω1) = P(ω2)

erro classificação Bayes

dueePr

u∫∞

−σπ

=2/

2/2

2

1)(

)()( 211

212

µµµµ −Σ−= −tr


– P(e) diminui quando r aumenta; P(e) → 0 quando r → ∞

– caso condicionalmente independente ΣΣΣΣ = diag(σ12,...., σd

2)

2

1

212 ∑=

σµ−µ=

d

i i

iir

– atributos mais relevantes: aqueles em que a diferença das

médias é grande comparada com o desvio padrão

– atributo é útil se suas médias para os classificadores diferem

– como reduzir erro? adicionar novos atributos independentes

– observa-se na prática que acrescentar atributos além de

um certo limite deteriora o desempenho do classificador.

– razões principais são as seguintes:

1. hipóteses erradas sobre o modelo

(e.g. Gaussiano, condicionamento)

2. número amostras treinamento pequeno

� Complexidade computacional

– parâmetros distribuição normal para o MV

)(ln|ˆ|ln2

12ln

2)ˆ(ˆ)ˆ(

2

1)( 1

ωPd

g t +−π−−−−= −ΣµxΣµxx

O(dn) O(nd2) O(1) O(d2n) O(n)

– classificação: O(d2)

– aprendizagem Bayesiana: mais complexo devido à integração

� Overftting

– erro dados de treinamento × generalização

– em geral, interpolação ou extrapolação só pode ser feita

de forma confiável se a solução é sobredeterminada, isto é,

o número de pontos é maior do que o número de parâmetros

a serem determinados.

– heurísticas: e.g. shrinkage

nn

nn

i

iii α+α−

α+α−=α)1(

)1()(

ΣΣΣ

IΣΣ β+β−=β )1()( 0 < α, β < 1

),0(~)()( 22 σεε+++= Npcbxaxxf

polinômio 10° grau

polinômio 2° grau

6-Modelos de Markov

� Modelos de Markov de 1a ordem

– ω(t): estado em t

ωωωωT = {ω(1), ω(2), ...., ω(T)} sequência de tamanho T

exemplo: ωωωω6 = {ω1, ω4, ω2, ω2, ω1, ω2}

– P(ωj(t + 1)|ωi(t)) = aij probabilidade de transição de estado

– modelo θθθθ: conjunto de todos os valores aij

probabilidade modelo gerar ωωωωT : produto das probabilidades

exemplo: P(ωωωω6|θθθθ) = a14a42a22a21a14

Modelo de Markov de 1a ordem discreto: estado em t + 1depende somente do estado em t e das probabilidades detransição.

� Modelo Markov de 1a ordem

� Hidden Markov Models de 1a ordem

– ω(t): estado sistema em t

– estado emite símbolos visíveis v(t)

VT = {v(1), v(2), ...., v(T)} sequência de símbolos visíveis

exemplo: V6 = {v5, v1, v1, v5, v2, v3}

– P(vk(t)|ωi(t)) = bjk probabilidade de emitir símbolo vk

– ω não é observável; acesso somente a símbolos visíveis

modelos escondidos de Markov de 1a ordem

� Modelo escondido de Markov de 1a ordem

� Características

– grafos são máquinas de estado finito

– grafos + probabilidades transição = modelos Markov

– MM são estritamente causais

– ergódigos: aij ≠ 0 ∀i, j

– absorção: estado ωo com aoo = 1

))(|)1(( tωtωPa ijij +=

))(|)(( tωtvPb jkjk =

iaj

ij ∀=∑ 1

jak

jk ∀=∑ 1

� Problemas importantesem HMM

1) Avaliação: temos HMM com aij e bjk ; qual probabilidade

que uma sequência particular VT foi gerada pelo modelo?

2) Decodificação: temos HMM e VT; determinar a sequência

mais provável de estados escondidos ωωωωT que produziu VT.

3) Aprendizagem: dado a estrutura do modelo e um conjunto

de observações de treinamento, determinar aij e bjk .

1) Avaliação

dado um modelo HMM, determinar a probabilidade que este

modelo gerou uma sequência particular VT de estados visíveis

)()|()(1

Tr

Tr

r

r

TT PPPmax

ωωVV ∑=

=

)}(,),2(),1({ TωωωTr K=ω

c estados escondidos → rmax= cT termos possíveis

∏=

−=T

i

Tr tωtωPP

1)1(|)(()(ω

∏=

=T

i

Tr

T tωtvPP1

)(|)(()|( ωV

))1(|)(())(|)(()(1 1∑ ∏= =

−=maxr

r

T

t

T tωtωPtωtvPP V (135)

cálculo de (135): O(TcT) c = 10 e T = 20 → 1021 operações

P(VT) calculado recursivamente: envolve v(t), ω(t) e ω(t – 1)

−α==≠=

=α∑ ..)(])1([

inicialestado01

inicialestado00

)(

cctvbat

jt

jt

t

i jkiji

j

bjkv(t): probabilidade bjk associada estado visível v(t)

Algoritmo HMM Forward

1 inicialize t ← 0, aij, bjk, sequência visível VT, αj(0)

2 for t ← t + 1

3 αj(t) ← bjk v(t)[ ∑i = 1,..,c(αi(t – 1) aij ]

4 until t = T

5 return P(VT) ← α0(T)

O(c2T) ~ 2000 operações para c = 10 e T = 20

classificação: Bayes)(

)()|()|(

T

TT

P

PPP

V

θθVVθ =

k

c

iii ba 2

122 ])2([)3( ∑

=α=α

� Exemplo: avaliação

V4 = {v1, v3, v2, v0}

v0: absorbing state

=

1.00.01.08.0

1.02.05.02.0

4.01.03.02.0

0001

][ ija

=

2.01.02.05.00

1.07.01.01.00

2.01.04.03.00

00001

][ jkb

P(VT|θ) = 0.0011

2) Decodificação

dada uma sequênciaVT de estados visíveis, determinar

a sequência mais provável de estados escondidos

Algoritmo HMM Decoding

1 inicialize t ← 0, Path ← {}

2 for t ← t + 1

3 j ← j + 1

4 for j ← j + 1

5 αj(t) ← bjk v(t)[ ∑i = 1,..,c(αi(t – 1) aij ]

6 until t = T

7 j' = arg maxj αj(t)

8 Append ωj ' to Path

9 until t = T

10 return Path

obs: máximos locais → não garante consistência da solução global

� Exemplo: decodificação (exemplo de avaliação)

solução: {ω1, ω3, ω2, ω1, ω0} (inconsistente !! a32 = 0)

3) Aprendizagem

determinar os parâmetros do modelo, aij, bjk

algoritmoforward-backward

αi(t): probabilidade modelo estar no estado ωi(t) e gerou sequência

de referência atét

βi(t): probabilidade modelo está no estado ωi(t) e vai gerar sequência

de referência de t + 1 atéT

++β===≠

=∑ ..)1()1(

)(1

)(0

)(β 0

0

cctvbat

Ttωtω

Ttωtω

t

j jkijj

i

i

i (138)

– supor αi(t) conhecido atéT – 1

– probabilidade que o modelo gerar o último símbolo visível ?

– esta probabilidade éβi(T)

– βi(T) = probabilidade transição para ωi(T)×

probabilidade estado emitir símbolo visível correto

– definição: βi(T) = 0, se ωi(T) ≠ ω0

βi(T) = 1, se ωi(T) = ω0

– logo βi(T – 1) = ∑jaijbjk(T) βi(T)

� Justificativa de (138)

– γij(t) probabilidade transição entre ωi(t – 1) e ωj(t) dado que o

modelo gerou toda a sequência de treinamento VT em

qualquer caminho

– definimos γij(t)

)|(

)()1()(

θVTjjkiji

ijP

tbatt

β−α=γ

– γij(t) probabilidade transição de ωi(t – 1) para ωj(t) dado que o

modelo gerou a sequência visível VT completamente

∑ = γTt ij t1 )(

∑ ∑= γTt k ik1

número esperado de transições de ωi(t – 1) para ωj(t)na sequência de treinamento

número total esperado de transições de ωj(t) paraqualquer outro estado

)(

)()(ˆ

1

1

t

tta

tt k ik

Tt ij

ij∑ ∑

∑

=

=

γ

γ=

)(

)(

)(ˆ

1

)(1

t

t

tbtt l jl

T

vtvt

l jl

jkk

∑ ∑

∑ ∑

=

==

γ

γ

=

� Estimativa das probabilidades de transição

(140) (141)

Algoritmo Forward-Backward

1 inicialize z ← 0, aij, bjk, sequência treinamentoVT, ε convergência

2 do t ← t + 1

3 calcular â(z) usando a(z – 1) e (140)

4 calcular usandob(z – 1) e (141)

5 aij (z) ← âij (z – 1)

6

7 until max[aij (z) – aij (z – 1), aij (z) – aij (z – 1)] < ε8 return aij ← aij (z), bij ← bij (z),

)(ˆ zb

jkjk bzb ˆ)( ←

9-Resumo

� Forma densidades condicionais classe conhecida

� Aprendizagem– estimação de parâmetros MV

– estimação densidades Bayes

� Impacto da dimensão espaço atributos e dados de treinamento

� Decisão sequencial com modelos de Markov

DCA-FEEC-Unicamp

Este material refere-se às notas de aula do curso CT 720 Tópicos Especiais em Aprendizagem de Máquina e Classificação de Padrões da Faculdade de Engenharia Elétrica e de Computação da Unicamp e do Centro Federal de Educação Tecnológica do Estado de Minas Gerais. Não substitui o livro texto, as referências recomendadas e nem as aulas expositivas. Este material não pode ser reproduzido sem autorização prévia dos autores. Quando autorizado, seu uso é exclusivo para atividades de ensino e pesquisa em instituições sem fins lucrativos.

Observação

ProfFernandoGomide

3-estimação de parâmetros: máxima verosimilhança e...

Documents