anÁlise discriminante lig, 13 de novembro de 2008

ANÁLISE DISCRIMINANTE

LIG, 13 de novembro de 2008

Duas populações normais, covariâncias desiguais

)()()()(

2

1-exp

)(

)(2

1221

111

-1/2

2

1

2

1 xxxxxf

xf TT

Tomando-se o logaritmo da expressão acima obtemos:

121

212

2

1221

111

2

11

Cln)()()()(

2

1ln

2

1:

CxxxxR TT

Covariâncias desiguais

Rearrumando os termos da equação anterior, obtém-se:

21-2

T

211-

1T

12

1

121

2120

1-2

T

21-

1T

101

21

101

ln 2

1 com

Cln)(

2

1:

k

CkxxxR T

Observe que quando Σ1= Σ2 , o termo quadrático na equação acima se anula e as regiões obtidas reduzem-se às regiões obtidas anteriormente.

Covariâncias desiguais

Na prática, a regra de classificação obtida é implementada substituindo-se os parâmetros populacionais pelas suas respectivas estimativas

Assim, a regra de classificação quadrática estimada é alocar x0 à 1 se

2121 e ,, SSxx

21-2

T21

1-1

T1

2

1

121

2120

1-2

T2

1-1

T10

12

1101

ln 2

1ˆ com

Clnˆ)(

2

1:

xxxxS

Sk

CkxSxSxxSSxR T

Comentários

A classificação com funções quadráticas é bastante complicada em mais de duas dimensões, e pode levar a alguns resultados estranhos. Isto é particularmente verdadeiro quando a suposição de normalidade multivariada é violada.

Se os dados não são normais multivariados, duas alternativas para contornar este fato são dadas a seguir.

1. transformar os dados para dados aproximadamente normais e realizar um teste para verificar a igualdade ou não das estruturas de covariância;

2. usar uma regra de classificação linear (ou quadrática) sem se preocupar com a forma da distribuição populacional e esperar que elas funcionem razoavelmente bem. O procedimento de Fisher, por exemplo, não depende da forma das populações, exceto pela suposição de covariâncias iguais.

Comentários Krzanowski (1977) e Lachenbruch (1975) mostraram que

existem casos não-normais para os quais a função discriminante linear de Fisher tem uma performance ruim, apesar das matrizes de covariância populacionais serem idênticas.

O conselho deixado aqui é sempre verificar a performance de qualquer procedimento de classificação.

Isto deve ser feito pelo menos com os conjuntos de dados usados para construir o procedimento.

O ideal é que exista uma disponibilidade de dados suficiente, de forma a fornecer amostras de treinamento (aprendizagem) e amostras de validação. As primeiras são usadas para construir a função de classificação e as outras, para avaliar a performance da função de classificação.

Exemplo no R dados=read.table(“http://www.im.ufrj.br//~flavia/mad484/testeqda.txt,header=T) plot(dados[1:30,1],dados[1:30,2],xlim=c(-3,5),ylim=c(-3,5),xlab=“x1”,ylab=“x2”) points(dados[31:60,1],dados[31:60,2],col=“red”)

Exemplo: continuação

Alocada em 1

Alocada em 2

Total

Obs. de 1

31 19 50

Obs. de 2

8 42 50

Total 39 61 100

Resultado das classificações sob qda.


Comparando com o resultado via lda.

Alocada em 1

Alocada em 2

Total

Obs. de 1

32 18 50

Obs. de 2

11 39 50

Total 43 57 100

Avaliação das funções de classificação

Uma forma de julgar a performance de qualquer procedimento é calcular suas “taxas de erro”, ou probabilidades de classificação incorreta.

Quando as formas das distribuições populacionais são conhecidas, as probabilidades de classificação incorreta podem ser calculadas com certa facilidade.

Como as formas de tais distribuições são raramente conhecidas, vamos nos concentrar nas taxas de erro associadas à função de classificação.

Uma vez que a função de classificação é construída, uma medida de sua performance em amostras futuras será de interesse.

Vimos que a probabilidade total de classificação incorreta é dada por PTCI= 1 p21 + 2 p 12 .

O menor valor desta probabilidade, obtido por uma escolha criteriosa de R1 e R2 é chamado Taxa de Erro Ótima (TEO).

12

21)()( min 2211},{

RR

RR xdxfxdxfTEO

Exemplo:

.0)()(2

1)(:

211

2101

211 TT xR

Suponha num dado problema de classificação que as duas populações sejam normais com covariâncias iguais e médias μ1 e μ2.Além disso, suponha probabilidades de incidência a priori iguais e custos de classificação incorreta iguais. Neste caso, a regra da PTCI mínima é alocar x0 à 1 se

Essa região pode ser expressa em termos da variável Y definida por

)(2

1 :R

que tal)(

211

1

21

T

TT

aY

XaXY

Exemplo: continuação Se, de fato, os dados são normais, teremos que

22

2211

222

211

e,

com ,~| e ,~|

aaaa

NYNYT

YT

YT

Y

YYYY

Neste caso, PTCI=(p12+p21)/2. Mas,

221

)()()(21

)()(2

1

2

1

1

2121

1

211

21

1

2121

ZP

YP

YPp

TT

Y

Y

T


Assim, temos, TEO=(-/2). 2=2,56, então TEO=0,2119. Ou seja, a regra de classificação alocará incorretamente a

uma população ou outra cerca de 21% dos objetos, se a distância quadrada entre as duas populações for igual a 2,56.

2212

1

)()()(21

)()(2

1

2

2

1

2121

1

212

21

1

2112

ZP

YP

YPp

TT

Y

Y

T

)(1 yf)(2 yf

12p 21p

2

2

2

2 Y1Y2

Comentários

Em geral, os parâmetros μ1, μ2 e são desconhecidos e devem ser estimados.

Neste caso a avaliação da taxa de erro não é imediata. A performance das funções de classificação amostrais pode,

em princípio, ser avaliada calculando-se a Taxa de Erro Real (TER) definida por

Os domínios de integração representam as regiões de classificação determinadas a partir das amostras de tamanhos n1 e n2.

12

ˆ22

ˆ11 )()(

RR

xdxfxdxfTER

Comentários A “TER” indica como a função de classificação se comportará em

amostras futuras. Assim como a “TEO”, ela não pode, em geral, ser calculada, pois

depende das densidades desconhecidas. Porém, uma estimativa de uma quantidade relacionada à “TER” pode ser calculada, e esta estimativa será apresentada adiante.

Uma medida de performance que não depende da forma das distribuições populacionais e que pode ser calculada para qualquer procedimento de classificação é chamada de taxa de erro aparente (TEA), e é definida como a fração das observações na amostra de treinamento que são incorretamente classificadas pela função de classificação amostral.

Comentários

Sendo n1 e n2 e os tamanhos das duas amostras, sejam n1c o número de objetos de 1 classificados corretamente e n1m = n1 - n1c o número de objetos de 1 classificados incorretamente e,

sejam n2c o número de objetos de 2 classificados corretamente e n2m = n2 - n2c o número de objetos de 2

classificados incorretamente.

21

21

nn

nnTEA mm

Comentários

A TEA é uma medida intuitiva e fácil de calcular. Porém, ela tende a subestimar a “TER” e este problema persiste a não ser que n1 e n2 e sejam muito grandes.

Essencialmente, esta estimativa otimista ocorre porque os dados usados para construir a função de classificação são também usados para avaliá-la.

Estimativas de taxas de erro melhores que a TEA podem ser construídas mantendo-se uma relativa facilidade de cálculo e não exigindo suposições sobre a forma das distribuições populacionais.

Comentários Um procedimento é dividir a amostra total em uma amostra de

treinamento e uma amostra de validação. A taxa de erro é determinada pela proporção de itens classificados

incorretamente na amostra de validação. Apesar deste método superar o problema do viés de estimação por

não usar os mesmos dados usados na construção da função de classificação ele apresenta duas desvantagens, a saber,

1. requer grandes amostras;

2. a função avaliada não é a função de interesse. (No final, quase toda observação deve ser usada para construir a função de classificação. Caso contrário, pode-se estar perdendo informação.)

Outra abordagem Uma segunda abordagem que parece funcionar bem é chamada

procedimento “holdout” (deixar de fora) de Lachenbruch (1968) que equivale a um tipo de validação cruzada:

1. Comece com as observações de 1. Omita uma observação deste grupo e desenvolva uma função de classificação baseada nas n1 + n2 -1 observações restantes.

2. Classifique a observação deixada de fora usando a função obtida em 1.

3. Repita os passos 1 e 2 até que todas as observações de 1 sejam classificadas.

4. Repita os passos 1, 2 e 3 para as observações 2.

Outra abordagem

Sejam n1M(H) - o número de observações deixadas de fora em 1

classificadas incorretamente, e n2M

(H) - o número de observações deixadas de fora em 2 classificadas incorretamente.

As estimativas das probabilidades de classificação incorreta são dadas por:

esperada. real erro de

taxada sa tendencionão estimativa uma moderadas amostras para é

é incorreta çãoclassifica de proporção a e ˆ e ˆ

21

)(2

)(1

2

)(2

121

)(1

21

nn

nn

n

np

n

np

HM

HM

HM

HM

Comentário

Para terminar, deve ser intuitivamente claro que uma regra de classificação boa (baixas taxas de erro) dependerá da “separação” entre as populações.

Quanto mais separadas, mais provavelmente uma classificação útil será obtida.

anÁlise discriminante lig, 13 de novembro de 2008

Documents