um método para localização facial invariante a rotação · 2017. 11. 2. · contraste...
TRANSCRIPT
Keylly Eyglys Araújo dos Santos
Um método para Localização FacialInvariante a Rotação
NatalFevereiro de 2011
Seção de Informação e ReferênciaCatalogação da Publicação na Fonte. UFRN / Biblioteca Central Zila Mamede
Santos, Keylly Eyglys Araújo dosUm método para localização facial Invariante a rotação. Keylly
Eyglys Araújo dos Santos – Natal, RN, 2011.64 f.; il.
Orientador: Adrião Duarte Dória NetoCo-orientador: Allan Medeiros Martins
Dissertação (Mestrado) - Programa de Pós-Graduação em Engen-haria Elétrica e Computação da Universidade Federal do Rio Grande doNorte. 1. Imagem – Dissertação. 2. Localização facial – Dissertação. 3.
Invariância a rotação. – Dissertação. 4. Busca de padrões – Dissertação.5. Segmentação de pele – Dissertação. I Dória Neto, Adrião Duarte. IIMartins, Allan Medeiros. III. Universidade Federal do Rio Grande doNorte. IV. Título.
RN/UF/BCZM CDU 621.397.33
Dedico este trabalho aos meus pais, que sempre me apoiaram e incentivaram, dando-me
a oportunidade que não tiveram.
Agradecimentos
Ao prof. Adrião, meu orientador, pela sua grande ajuda e paciência, servindo como
exemplo para mim.
Ao prof. Allan, meu co-orientador, por despertar minha curiosidade pelas imagens
digitais e por sempre me ajudar quando preciso.
Aos meus amigos do LSI, pelo incentivo, disposição para ajudar sempre que necessário
e pelas horas de descontração.
Aos professores do DCA, pela contribuição em minha formação.
A minha noiva, Emmliene, pelo apoio desprendido diariamente, por emprestar suas
fotos para realizar testes e principalmente pelo seu carinho quando bate o cansaço.
Resumo
A localização facial tornou-se um assunto muito discutido nos últimos anos, surgiram
inúmeras aplicações, desde sistemas biométricos (que necessitam localizar a face antes
de identifica-la), até sistemas complexos de varredura de multidões (procurando por
criminosos). O método mais utilizado para localizar faces em imagens digitais é a técnica
de Vioja e Jones, que não é invariante a rotação, conseguindo identificar apenas pequenos
ângulos de rotação, mesmo assim comprometendo alguns algoritmos que necessitam da
face sem rotação, como a biometria facial.
A técnica apresentada propõe a invariância a rotação de face em imagens digitais,
baseando-se na segmentação da pele para calcular a dispersão e estimar o ângulo de
rotação da face. Possibilitando que técnicas já consolidadas possam realizar a localização
da face em uma imagem rotacionada no sentido inverso.
Sumário
Lista de Figuras 3
Lista de Tabelas 6
1 Introdução 8
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Organização do texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Processamento de Imagens 10
2.1 Representação da cor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1 Fenômenos visuais . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2 RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3 CMY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Representação espacial de imagens . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 Pixel e Voxel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.2 Relação de vizinhança . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3 Segmentação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.1 Segmentação por amplitude . . . . . . . . . . . . . . . . . . . . . . 20
2.3.2 Segmentação por Agrupamento . . . . . . . . . . . . . . . . . . . . 23
2.3.3 Segmentação de pele . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Sumário 2
2.4 Rotação de imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 Técnicas de localização facial 35
3.1 Rede Neural Convolutiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Técnica de Viola-Jones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1 Extração de Características . . . . . . . . . . . . . . . . . . . . . . 39
3.2.2 Integral da imagem . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2.3 Classificador AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . 41
4 Deteção de rotação de face 48
5 Resultados 50
6 Conclusão e Perspectivas Futuras 54
6.1 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.2 Perspectivas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Referências Bibliográficas 56
A Apêndice A 60
A.0.1 Matriz de variância e covariância . . . . . . . . . . . . . . . . . . . 60
A.1 Matriz de variância e covariância discreta . . . . . . . . . . . . . . . . . . 62
A.1.1 Autovalor e Autovetor . . . . . . . . . . . . . . . . . . . . . . . . . 62
Lista de Figuras
2.1 Contrastes simultâneos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Contrastes simultâneos com os pequenos quadrados deslocados . . . . . . 12
2.3 Diagrama ilustrativo, mostrando o processo físico ocorrido na mistura de
cores aditivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Cubo de cores RBG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5 Diagrama de mistura de cores RGB, partindo do preto e seguindo para o
branco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 Diagrama de mistura de cores CMY, partindo do branco e seguindo para
o preto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7 Representação de imagens digitais por matrizes de pontos discretos em um
grid retangular. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.8 Consistência do pixel em uma imagem digital. Em um grid quadrado,
cada pixel representa uma região quadrada da imagem. A figura mostra
a mesma imagem, representada por uma quantidade diferente de pixels,
caso a quantidade de pixels seja suficiente, a imagem parecerá contínua. . 18
2.9 Os dois tipos de vizinhança em imagens bidimensionais. A área escura de
c, representa um objeto digital conectado pela vizinhança-8. . . . . . . . . 19
2.10 Os três tipos de vizinhança de um voxel em imagens tridimensionais. . . . 19
2.11 Exemplo de um texto escaneado e o seu histograma . . . . . . . . . . . . . 21
Lista de Figuras 4
2.12 Exemplo de segmentação de uma única imagem utilizando vários níveis de
separação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.13 Parábola que aproxima o vale entre os dois picos de luminosidade . . . . . 23
2.14 Segmentação multinível, primeiro nível de segmentação . . . . . . . . . . . 24
2.15 Segmentação multinível, segundo nível, primeira ramificação . . . . . . . . 25
2.16 Segmentação multinível, segundo nível, segunda ramificação . . . . . . . . 26
2.17 Agrupamento de classes para uma medida bi-dimensional . . . . . . . . . 28
2.18 Versão simplificada do algoritmo de segmentação de Coleman e Andrews
(1979) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.19 Exemplo do plano de espaço de cor YCbCr com Y fixado em 0.5 (utilizando
uma escala de 0 a 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.20 Exemplo da imagem em YCbCr . . . . . . . . . . . . . . . . . . . . . . . . 31
2.21 Algumas amostras de pele utilizadas para gerar a função de densidade de
probabilidade de um pixel ser de pele . . . . . . . . . . . . . . . . . . . . . 31
2.22 Exemplo da aplicação da probabilidade em cada pixel de uma imagem . . 32
2.23 Exemplo da função de densidade de probabilidade representativo da pele . 33
2.24 Ilustração de uma rotação 𝜃 . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.25 Exemplo de rotação em uma imagem em 𝜋5 rad, utilizando interpolação
bilinear (Späth, 1995) e sem preenchimento de pixels inexistentes. . . . . . 34
3.1 Rede convolutiva para o processamento de imagens . . . . . . . . . . . . . 37
3.2 Exemplo de retângulos de características. 2 retângulos de características
são exibidos em A e B, 3 retângulos de características são exibidos em C
e 4 retângulos em D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3 Cálculo de uma região retangular . . . . . . . . . . . . . . . . . . . . . . . 42
3.4 Cálculo de um elemento de característica . . . . . . . . . . . . . . . . . . . 43
3.5 Características selecionadas pelo AdaBoost . . . . . . . . . . . . . . . . . 45
5 Lista de Figuras
3.6 Figura esquemática da árvore de decisão em cascata . . . . . . . . . . . . 46
3.7 Exemplo de faces que fazem parte do treinamento . . . . . . . . . . . . . . 47
4.1 Diagrama de blocos do processo . . . . . . . . . . . . . . . . . . . . . . . . 49
5.1 A esquerda (em a e b) frames aplicados ao Viola-Jones, a direita (em a e
b) aplicados ao método proposto . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Comparação entre o seno do ângulo real e do estimado . . . . . . . . . . . 51
5.3 Amostras em um ambiente diferente. Viola-Jones/Proposto . . . . . . . . 52
5.4 Amostras de imagens utilizadas para realizar o teste de localização . . . . 53
A.1 Variações do autovalor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Lista de Tabelas
5.1 Tabela comparativa entre os métodos de Viola-Jones e aquele aqui Proposto 53
Lista de Algoritmos
1 Cálculo de uma característica como mostrado na Figura 3.2 A ou B . . . . 41
Capítulo 1
Introdução
A busca de padrões, associado a áreas como interação humano-computador e segurança,
vem crescendo na última década, um exemplo disso seria o controle para vídeo game
Kinect, comercializado pela Microsoft, em que o conceito de segurar algum objeto para
controlar um jogo está sendo questionado, já que o próprio usuário é o controle. Na área
de segurança, a necessidade de analisar/procurar pessoas em câmeras de vigilância tenta
automatizar esta tarefa e inclusive ampliar, realizando este trabalho em multidões, sem
a necessidade de intervenção humana.
1.1 Motivação
A segurança é um dos temas mais discutidos em jornais, revista e televisão. Surgem
novos equipamentos, técnicas e treinamentos para segurança doméstica, pública e até
análise forense. Esta última é de fundamental importância em crimes planejados e sem
testemunha ocular, apenas câmeras de vigilância. A busca automática de faces elimina a
necessidade de que técnicos forenses analisem as gravações de segurança com várias horas
de duração, para identificarem quem entrou ou saiu da região onde aconteceu o crime,
reduzindo horas de investigação criminal e de custos corporativos. Ao mesmo tempo em
9 1.2. Objetivos
que torna-se possível aumentar a interação entre deficientes físicos que são impossibili-
tados de movimentar seus membros. Com um simples movimento da cabeça, inclinando
para a direita ou esquerda ele pode realizar ações, visualizar fotos, ou seja, disponibilizar
um controle adicional para quem é impossibilitado de utilizar os dispositivos atuais de
entrada para computadores (teclado e mouse).
1.2 Objetivos
É possível verificar que existem muitas técnicas de localização facial na literatura, mas
poucas delas são invariantes à rotação no plano. A principal motivação para a idealização
deste trabalho foi elaborar uma técnica que localizasse faces em imagens digitais mesmo
que estejam rotacionadas, realizando assim uma contribuição para a área de pesquisa em
reconhecimento de padrões com invariância a rotação.
Além de realizar o processo de localização facial, também se objetiva identificar o
ângulo de rotação, possibilitando a correção do ângulo de captura, ou utilizando esta
informação para outra finalidade.
1.3 Organização do texto
Este texto está organizado em um capítulo sobre Processamento de imagens, Capítulo
2, onde será abordado temas como a formação da imagem, percepção visual humana,
espaço de cores, segmentação, rotação. Segue-se por um capítulo onde serão abordadas
algumas técnicas de localização facial, o Capítulo 3, onde algumas das principais técnicas
de localização facial serão abordadas, seguindo com a proposta apresentada (Capítulo
4), resultados, (Capítulo 5) e finalmente as conclusões e perspectivas futuras que estão
no Capítulo 6.
Capítulo 2
Processamento de Imagens
Este capítulo irá apresentar a representação de imagens digitais através da representação
espacial, além de explanar rapidamente o funcionamento do sistema de visão humano e
os espaços de cores. Será abordado o tema da segmentação e rotação de imagens, além
de matriz de covariância, autovetores e autovalores.
2.1 Representação da cor
Embora o processo realizado pelo cérebro humano para perceber e interpretar as cores
seja um fenômeno fisiológico não completamente compreendido, a natureza física da cor
pode ser expressada como em uma base formal, assegurada por resultados teóricos e
experimentais.
A caracterização da cor é o centro da ciência da cor. Em uma luz acromática (sem
cor), seu único atributo é a intensidade ou quantidade. As luzes cromáticas são espectros
eletromagnéticos na faixa de aproximada de 400 a 700 nm. Três quantidades básicas
de qualidade são utilizadas para descrever uma fonte de luz cromática: radiância, lu-
minância e brilho. A radiância é a quantidade de energia que flui da fonte de luz, sendo
normalmente medida em Watts (W). A luminância, medida em lumens (lm), é a quan-
11 2.1. Representação da cor
Figura 2.1: Contrastes simultâneos
tidade de energia que um observador percebe estar vindo da fonte de luz. Por exemplo,
uma fonte de luz trabalhando em uma faixa infra-vermelha de espectro, terá um valor
de radiância, pois está emitindo energia, mas um observador não conseguirá percebê-la,
ou seja, a luminância será zero. Finalmente tem-se o brilho que é um descritor subjetivo
praticamente impossível de se mensurar. Isto personifica a noção acromática de inten-
sidade sendo um dos fatores para a descrição de sensação de cor (Gonzalez e Woods,
2008).
2.1.1 Fenômenos visuais
O sistema visual é muito complexo, mas possui alguns fenômenos que necessitam serem
mencionados. Tais fenômenos estão inter-relacionados, em alguns casos minimamente,
em outros largamente.
Contraste Simultâneo
O fenômeno de contraste simultâneo é ilustrado pela Figura 2.1. Os quadrados menores
possuem a mesma intensidade luminosa, mas devido a intensidade ao redor, os pequenos
quadrados não parecem ter o mesmo brilho. Na Figura 2.2 os pequenos quadrados foram
deslocados, colocados um ao lado do outro, e só então é possível perceber que são iguais.
Capítulo 2. Processamento de Imagens 12
Figura 2.2: Contrastes simultâneos com os pequenos quadrados deslocados
Adaptação cromática
A matiz de percepção da cor depende da adaptação do visualizador (Brindley, 1963). Por
exemplo, a bandeira dos Estados Unidos por alguns instantes não aparenta ser vermelha,
branca e azul se o visualizador for submetido a uma luz vermelha de alta intensidade
antes de ver a bandeira. As cores da bandeira aparentarão se deslocar na matiz em
direção ao complemento do vermelho, o ciano (Pratt, 2007).
2.1.2 RGB
O RGB é considerado um espaço de cor aditivo, onde a cor principal é o preto e o restante
das cores são formadas adicionando luz Vermelha (Red), Verde (Green) ou Azul (Blue).
O processo de reprodução de cor é simples, bastando misturar as três luzes (cores) básicas
para formar cores diferentes. Em termos físicos, o espectro de cada luz é sobreposto pelo
espectro do outro, realizando uma mistura dos comprimentos de onda, como é possível
ver na Figura 2.3. Este processo é chamado de reprodução aditiva (Poynton, 2003).
Este é o principal espaço de cor utilizado em imagens digitais. A Figura 2.4 ilustra
a composição das cores através do sistema RGB. A mistura de todas as cores primárias
resulta na cor branca, como exemplificado pela Figura 2.5.
13 2.1. Representação da cor
Figura 2.3: Diagrama ilustrativo, mostrando o processo físico ocorrido na mistura decores aditivas
Fonte: Poynton (2003)
Figura 2.4: Cubo de cores RBG
Capítulo 2. Processamento de Imagens 14
Figura 2.5: Diagrama de mistura de cores RGB, partindo do preto e seguindo para obranco.
2.1.3 CMY
Já o CMY é considerado um espaço de cor subtrativo. No espaço de cor aditivo,
adicionam-se luzes para misturar as cores, e no espaço de cor subtrativo a ideia é misturar
tintas, pigmentos, com o objetivo de subtrair cores de uma luz branca. Este é o processo
que normalmente ocorre na natureza ao nosso redor: os objetos recebem luz branca (luz
com todos os espectros de cores), e o material de cada objeto é que irá lhe dar sua cor.
Por exemplo, um fruto quando verde, possui esta cor devido a clorofila absorver todos
os espectros de cores, exceto a cor verde. A medida que a fruta amadurece, a clorofila
é quebrada/degradada pelo etileno (Khan, 2006), e com isso perdendo sua característica
de absorver todas as cores exceto o verde. Quando maduro, a clorofila já está degradada,
e outros elementos serão responsáveis por compor a cor do fruto, absorvendo alguns
espectros de cores (dependendo de sua composição química) e refletindo outros.
O CMY é largamente utilizado na indústria gráfica, misturando tintas com o objetivo
de compor uma mistura capaz de absorver determinados espectros de luz. As cores
básicas do CMY são o Ciano (Cyan), Magenta (Magenta) e Amarelo (Yellow). A mistura
15 2.1. Representação da cor
Figura 2.6: Diagrama de mistura de cores CMY, partindo do branco e seguindo para opreto.
de todas as cores básicas irá resultar na cor preta (absorção de todos os espectros de luz),
como se pode ver na Figura 2.6.
Existe uma variação chamada CMYK, onde o K representa exclusivamente a cor
preta. A adição de uma tinta na for preta tem como vantagens:
� A combinação em 100% de ciano, magenta e amarelo embebeda o papel, demorando
para secar, e por algumas vezes sendo impraticável. Isto, em alguns momentos pode
causar borrões na impressão
� A combinação em 100% de ciano, magenta e amarelo (com as tintas comumente
oferecidas no mercado) resulta em um marrom muito escuro mas, não que chega a
ser totalmente preto.
� Os textos são tipicamente pretos
� Usando uma tinta preta, diminuem os custos com as outras tintas.
Capítulo 2. Processamento de Imagens 16
2.2 Representação espacial de imagens
2.2.1 Pixel e Voxel
Imagens constituem uma distribuição de irradiação em um plano. Em termos matemáti-
cos, a irradiação espacial pode ser descrita como uma função contínua de duas variáveis
espaciais:
𝐸(𝑥1,𝑥2) = 𝐸(𝑥) (2.1)
Computadores não podem representar imagens contínuas, somente matrizes de números
digitais. Sendo assim, é necessário representar imagens como matrizes de pontos bi-
dimensionais. O ponto do grid 2-D é chamado de pixel, o ponto do grid 3-D, embora
pouco conhecido, é chamado de voxel. O pixel representa a irradiação correspondente à
sua posição no grid. A posição do pixel (em sua representação mais simples) é comumente
obtida através da notação de matrizes. O primeiro índice, 𝑚, representa a posição da
linha, o segundo, 𝑛, a posição da coluna (ver Figura 2.7a). Se a imagem digital contém
𝑀 x 𝑁 pixels, ou seja, é representado por uma matriz 𝑀 x 𝑁 , o índice 𝑛 percorre de 0
até 𝑁 − 1, e o índice 𝑚 de 0 até 𝑀 − 1. Em concordância com a notação de matriz, o
eixo vertical (eixo y), cresce de cima para baixo e não ao contrário, como é comumente
visto em gráficos no plano cartesiano (primeiro quadrante). Por sua vez, o eixo horizontal
(eixo x), cresce da forma usual, da esquerda para a direita.
Cada pixel não representa apenas um ponto na imagem, mas toda uma região retan-
gular, a célula elementar do grid. O valor associado, representa a irradiação média de seu
correspondente na imagem contínua. A Figura 2.8 mostra a mesma imagem representada
por um número diferente de pixels, como indicado na legenda.
Qual a quantidade suficiente de pixels? Não existe uma resposta única para esta
17 2.2. Representação espacial de imagens
(a) Imagem 2-D (b) Imagem 3-D
Figura 2.7: Representação de imagens digitais por matrizes de pontos discretos em umgrid retangular.
pergunta. Para uma observação visual de uma imagem digital, o tamanho do pixel deve
ser tão pequeno quanto a resolução espacial do sistema de visão do observador. Para uma
determinada tarefa, o pixel deve ser tão pequeno quanto a menor escala de um objeto
que desejamos observar. O que impede a obtenção de resoluções cada vez melhores é a
limitação de pixels da tecnologia dos sensores.
2.2.2 Relação de vizinhança
Uma propriedade importante em imagens discretas é a sua relação de vizinhança, uma vez
que definem uma região ligada, e portanto, um objeto digital. Um grid retangular em duas
dimensões, possui dois critérios de vizinhança (Figura 2.9), vizinhança-4 e vizinhança-8.
Ambos os tipos de vizinhança são necessários para uma definição apropriada dos
objetos de regiões conectadas. A região ou objeto é chamada de conectada, quando
conseguimos chegar a qualquer pixel na região, passando por um pixel vizinho. O objeto
escuro mostrado na Figura 2.9c é um objeto de vizinhança-8, embora constitua dois
objetos em vizinhança-4. Na Figura 2.10 podemos visualizar a vizinhança de um voxel,
Capítulo 2. Processamento de Imagens 18
(a) 3x4 (b) 12x16
(c) 48x64 (d) 192x256
Figura 2.8: Consistência do pixel em uma imagem digital. Em um grid quadrado, cadapixel representa uma região quadrada da imagem. A figura mostra a mesma imagem,representada por uma quantidade diferente de pixels, caso a quantidade de pixels sejasuficiente, a imagem parecerá contínua.
Fonte: Jähne (2005)
19 2.3. Segmentação
(a) vizinhança-4 (b) vizinhança-8 (c) Objeto digital
Figura 2.9: Os dois tipos de vizinhança em imagens bidimensionais. A área escura de c,representa um objeto digital conectado pela vizinhança-8.
Fonte: Jähne (2005)
com 6, 18 e 26 voxeis vizinhos.
2.3 Segmentação
Segmentar uma imagem implica na separação da imagem em regiões de atributos semel-
hantes. O atributo mais comum para segmentação é a amplitude da luminância em uma
imagem monocromática e os componentes de cores para imagens coloridas. Bordas e
texturas também são atributos bastante utilizados para segmentação (Pratt, 2007).
Segundo Pratt (2007), não existe uma teoria de segmentação de imagens. Não surgiu
(a) vizinhança-6 (b) vizinhança-18 (c) vizinhança-26
Figura 2.10: Os três tipos de vizinhança de um voxel em imagens tridimensionais.Fonte: Jähne (2005)
Capítulo 2. Processamento de Imagens 20
um método padrão para segmentação de imagens, ao invés disso, surgiram uma coleção de
métodos que ganharam popularidade. Haralick e Shapiro (1985) estabeleceram o seguinte
guia qualitativo para uma boa segmentação de imagem: “Regiões de uma segmentação
de imagem devem ser uniformes e homogêneas com respeito a mesma característica como
o tom de cinza ou textura. Regiões interiores devem ser simples e sem pequenos buracos.
Regiões adjacentes de uma segmentação devem ter valores significantemente diferentes
com respeito a característica em que eles são uniformes. Os limites de cada segmento
devem ser simples, não serrilhados, e serem espacialmente precisas.”.
Descreveremos algumas técnicas de segmentação de imagens.
2.3.1 Segmentação por amplitude
Os métodos de segmentação apresentadas nesta sessão, são baseadas em um limiar de
separação na amplitude de luminância ou na componente de cor.
Limiarização de luminância de dois níveis
Muitas imagens podem ser caracterizadas por conter objetos observados com brilho ra-
zoavelmente uniforme, sobre um fundo com brilho diferente. Exemplos típicos são cartas
escritas a mão, textos impressos, amostras biomédicas microscópicas e até aviões em uma
pista. Para estas imagens, a luminância é uma característica que separa muito bem o ob-
jeto observado do restante da imagem. Quando o objeto observado é próximo do branco
e o fundo próximo do preto, ou vice-versa, a tarefa torna-se trivial, basta escolher um
valor de cinza intermediário entre os dois níveis de cores (objeto e fundo). O problema
prático deste método, é quando a imagem está sujeita a ruídos e quando o objeto e o
fundo podem assumir uma ampla faixa de cinza. Outro problema é quando o fundo não
é uniforme.
Na Figura 2.11a, vemos um texto escaneado em escala de cinza. Na Figura 2.11b
temos o histograma de 2.11a, dividido em 256 níveis de cinza (0 a 255). Nas Figuras
21 2.3. Segmentação
(a) Texto escaneado (b) Histograma
Figura 2.11: Exemplo de um texto escaneado e o seu histograma
de 2.12a a 2.12f visualizamos a segmentação da Figura 2.11a, utilizando 6 limiares de
separação diferentes. Com isso, percebe-se que a escolha do limiar de separação deve ser
feita com a maior cautela possível (baseando-se no histograma da imagem), uma escolha
inadequada irá resultar em uma segmentação imprópria ou de pior qualidade.
Existem algumas técnicas para encontrar o melhor nível de separação para a limi-
arização de luminância de dois níveis. A solução para um histograma apresentado na
Figura 2.13, por exemplo, seria o mínimo da parábola, que aproxima o vale entre os picos
de luminosidade, o qual para a parábola 𝑦 = 𝑎𝑥2 + 𝑏𝑥+ 𝑐, é dado por 𝑥 = −𝑏/2𝑎.
Outros algoritmos para localizar um limiar de separação foram desenvolvidos: Otsu
(1979) desenvolveu um algoritmo usando diferença euclidiana. Posteriormente, Sahoo
et al. (1988) reportaram que o método desenvolvido por Otsu (1979) é a melhor técnica
de seleção de um limiar que eles tenham testado (sendo hoje uma das técnicas mais
consolidadas para obtenção de tal limiar de separação).
Limiarização multinível de luminância
Uma segmentação eficaz pode ser obtida em algumas classes de imagens utilizando uma
aplicação recursiva da limiarização multinível sugerida por Tomita et al. (1973). Na
primeira etapa do processo, a imagem é limiarizada para separar a região com maior
Capítulo 2. Processamento de Imagens 22
(a) Nível 100 (b) Nível 150
(c) Nível 180 (d) Nível 210
(e) Nível 230 (f) Nível 240
Figura 2.12: Exemplo de segmentação de uma única imagem utilizando vários níveis deseparação
23 2.3. Segmentação
Figura 2.13: Parábola que aproxima o vale entre os dois picos de luminosidade
luminância da região com menor luminância. Este processo é repetido enquanto o his-
tograma não for unimodal, conforme as Figuras 2.15a a 2.16d.
2.3.2 Segmentação por Agrupamento
A segmentação por agrupamento ganhou destaque na comunidade científica com a pub-
licação de Haralick e Kelly (1969), onde imagens aéreas multi-espectrais, de regiões agrí-
colas, eram segmentadas de acordo com sua cobertura de terra. A segmentação por
agrupamento é simples, mas normalmente necessita de um grande poder computacional.
Considerando-se um vetor 𝑥 = [𝑥1, 𝑥2, ..., 𝑥𝑁 ]𝑇 mensurando cada pixel de coorde-
nadas (j,k) em uma imagem. A medida de cada pixel pode ser valores multiespectrais,
componente de cor, cor derivada, ou até características dos pixels vizinhos, como a mé-
dia e desvio padrão sobre uma janela de movimento. Na Figura 2.17, podemos ver um
exemplo de agrupamento para um vetor 𝑥 com duas dimensões.
Capítulo 2. Processamento de Imagens 24
(a) Imagem original (b) Histograma
(c) Segmento 0 (d) Histograma
(e) Segmento 1 (f) Histograma
Figura 2.14: Segmentação multinível, primeiro nível de segmentação
25 2.3. Segmentação
(a) Segmento 00 (b) Histograma
(c) Segmento 01 (d) Histograma
Figura 2.15: Segmentação multinível, segundo nível, primeira ramificação
Capítulo 2. Processamento de Imagens 26
(a) Segmento 10 (b) Histograma
(c) Segmento 11 (d) Histograma
Figura 2.16: Segmentação multinível, segundo nível, segunda ramificação
27 2.3. Segmentação
Coleman e Andrews (1979) desenvolveram uma segmentação de imagem robusta e
relativamente eficiente. A Figura 2.18 é um diagrama de fluxo que descreve a versão sim-
plificada do algoritmo de segmentação de imagens monocromáticas. O primeiro estágio
do algoritmo envolve a extração das características. Em um conjunto de experimentos,
Coleman e Andrews (1979) utilizaram 12 medidas em janelas quadradas de tamanho 1x1,
3x3, 7x7 e 15x15 pixels. No segmentador (última etapa), cada pixel é associado ao centro
mais próximo.
O algoritmo de computação dos agrupamentos começa por estabelecer dois centros de
agrupamentos iniciais. Todos os vetores de características são associados ao centro mais
próximo. Em seguida, o número de centros de agrupamentos é incrementado por uma
unidade, e o fator de qualidade 𝛽 é computado a cada iteração, até que o valor máximo de
𝛽 seja determinado. Isto estabelece o número ótimo de agrupamentos. Quando o número
de agrupamentos é incrementado por uma unidade, o novo centro do agrupamento torna
o vetor de característica mais distante do seu atual centro mais próximo. O fator 𝛽 é
definido por
𝛽 = 𝑡𝑟{𝑆𝑊 }𝑡𝑟{𝑆𝐵} (2.2)
onde 𝑆𝑊 e 𝑆𝐵 são a matriz interna e entre agrupamentos de dispersão, sendo 𝑡𝑟{.} o
traço da matriz. A matriz interna de dispersão (𝑆𝑊 ) é calculada por
𝑆𝑊 =1
𝐾
𝐾∑︁𝑘=1
1
𝑀𝑘
∑︁𝑥𝑖𝜖𝑆𝑘
(𝑥𝑖 − 𝑢𝑘)(𝑥𝑖 − 𝑢𝑘)𝑇 (2.3)
onde K é um número de agrupamentos, 𝑀𝑘 é o número de elementos no vetor no k-ésimo
agrupamento, 𝑥𝑖 é o vetor de elementos no k-ésimo agrupamento, 𝑢𝑘 é a média do k-
ésimo agrupamento e 𝑆𝑘 é o conjunto de elementos no k-ésimo agrupamento. A matriz
de dispersão entre-agrupamentos (𝑆𝐵) é definida por
Capítulo 2. Processamento de Imagens 28
Figura 2.17: Agrupamento de classes para uma medida bi-dimensionalFonte: Pratt (2007)
𝑆𝐵 =1
𝐾
𝐾∑︁𝑘=1
(𝑢𝑘 − 𝑢0)(𝑢𝑘 − 𝑢0)𝑇 (2.4)
onde 𝑢0 é a média de todos os vetores de características, calculado por
𝑢0 =1
𝑀
𝑀∑︁𝑖=1
𝑥𝑖 (2.5)
onde 𝑀 representa o número de pixels que deverão ser agrupados. Coleman e Andrews
(1979) conseguiu, subjetivamente, um excelentes resultados do seu algoritmo de agrupa-
mento em imagens coloridas e monocromáticas.
2.3.3 Segmentação de pele
A detecção de pele tem um papel muito importante em várias aplicações de visão com-
putacional, entre os principais estão a localização/reconhecimento facial, reconhecimento
de gestos, segurança visual.
Normalmente, a região de pele é segmentada e detectada por correspondência de
29 2.3. Segmentação
Figura 2.18: Versão simplificada do algoritmo de segmentação de Coleman e Andrews(1979)
Fonte: Pratt (2007)
histograma, classificação estatística e limiarização baseada em pixel ou por agrupamento
(Huang et al., 2008).
A cor da pele humana de raças diferentes, embora percebida diferentemente pelos
humanos, diferencia-se apenas em intensidade, ao invés de crominância. A invariância de
crominância da pele humana possibilita a implementação de um método simples e consis-
tente método de segmentação de pele. Para o problema de detecção de face envolvendo
imagens coloridas contendo cenas complexas, recomendam-se os trabalhos de Petrescu e
Gelgon (2000) e de Manza (2010).
O algoritmo utilizado neste trabalho para segmentação de pele foi baseado no trabalho
de Jones e Rehg (1999) e Zheng et al. (2004), utilizando um modelo representativo da
pele, construído a partir de um conjunto de imagens de treinamento contendo amostras
de pele retiradas de diversos pontos da face, de vários indivíduos de diferentes idades,
etnias e ambos os sexos.
Neste algoritmo a imagem em estudo, em formato RGB, é processada de forma a
diminuir a influência da luminosidade. A imagem é convertida para o formato de cor
YCbCr, onde Y representa a intensidade luminosa (sendo descartada na segmentação). O
processo também é realizado nas amostras de pele, utilizando-se apenas as componentes
de crominância.
Capítulo 2. Processamento de Imagens 30
Figura 2.19: Exemplo do plano de espaço de cor YCbCr com Y fixado em 0.5 (utilizandouma escala de 0 a 1)
Conversão da imagem no formato RGB para YCbCr
YCbCr é conhecido como o espaço de cores puras, onde o Y representa a intensidade
luminosa, Cb a componente de diferença de azul e Cr a componente de diferença de
vermelho. Na Figura 2.19, é possível ver o espaço de cor do YCbCr para o Y fixado em
0.5.
A Figura 2.20 exemplifica como os canais do formato YCbCr são distribuídos. Pode-
mos visualizar que toda a informação de luminância se concentra no canal Y e as infor-
mações de cores nos canais Cb e Cr.
A conversão entre o espaço de cor RGB e o espaço de cor YCbCr é realizado através
da Equação 2.6 (Kuo et al., 2006). Os valores obtidos em YCbCr estarão entre 0 e 255.
⎡⎢⎢⎢⎢⎣𝑌
𝐶𝑏
𝐶𝑟
⎤⎥⎥⎥⎥⎦ =
⎡⎢⎢⎢⎢⎣0.257 0.504 0.098
−0.148 −0.291 0.439
0.439 −0.368 −0.071
⎤⎥⎥⎥⎥⎦⎡⎢⎢⎢⎢⎣
𝑅
𝐺
𝐵
⎤⎥⎥⎥⎥⎦+
⎡⎢⎢⎢⎢⎣16
128
128
⎤⎥⎥⎥⎥⎦ (2.6)
A Figura 2.21 exibe algumas amostras de pele utilizadas para gerar a função de
31 2.3. Segmentação
(a) RGB (b) Y
(c) Cb (d) Cr
Figura 2.20: Exemplo da imagem em YCbCr
Figura 2.21: Algumas amostras de pele utilizadas para gerar a função de densidade deprobabilidade de um pixel ser de pele
Capítulo 2. Processamento de Imagens 32
(a) Imagem original (b) Probabilidade do pixel
(c) Imagem binária inter-mediária
(d) Imagem binária
Figura 2.22: Exemplo da aplicação da probabilidade em cada pixel de uma imagem
densidade de probabilidade de um pixel ser de pele, representado pela Figura 2.23. Como
é possível perceber, a função de densidade de probabilidade é gaussiana e cada pixel da
imagem recebe uma probabilidade de ser de pele de acordo com a Equação 2.7.
𝑓(𝐶𝑏,𝐶𝑟) = 𝑒−12(𝑥−𝜇)𝑇𝐶−1(𝑥−𝜇) (2.7)
Onde 𝑥 = (𝐶𝑏,𝐶𝑟)𝑇 , 𝜇 = 𝐸{𝑥} e 𝐶 = 𝐸{(𝑥 − 𝜇)(𝑥 − 𝜇)𝑇 }. C é uma matriz 2x2 onde
sua inversa será calculada uma única vez.
A Figura 2.22b mostra a segmentação da imagem utilizando a Equação 2.7, onde
cada pixel recebe uma probabilidade de ser pele. A Figura 2.22c exibe a segmentação
por limiarização, considerando cada pixel com probabilidade superior a 0.4 (obtido em-
piricamente) e a Figura 2.22d exibe o objeto final, após a aplicação de operadores mor-
fológicos de abertura e fechamento. Esta segmentação de pele foi utilizada originalmente
33 2.4. Rotação de imagens
Figura 2.23: Exemplo da função de densidade de probabilidade representativo da pele
por Carvalho e Tavares (2005) para localizar faces.
2.4 Rotação de imagens
A rotação de um sistema de coordenadas possui duas propriedades importantes. O vetor
não tem o seu tamanho ou norma modificados e o sistema de coordenadas continua
ortogonal. A transformação com essas duas propriedades é conhecido na álgebra como
transformação ortonormal.
A imagem rotacionada por ser calculada através da Equação 2.8, realizando uma
rotação 𝜃 em sentido anti-horário (observar Figura 2.24), os pixels na nova imagem que
não possuem correspondentes na imagem antiga são preenchidos utilizando a interpolação
dos pixels ao redor.
⎡⎢⎣ 𝑥′
𝑦′
⎤⎥⎦ =
⎡⎢⎣ cos 𝜃 − sin 𝜃
sin 𝜃 cos 𝜃
⎤⎥⎦⎡⎢⎣ 𝑥
𝑦
⎤⎥⎦ (2.8)
Na Figura 2.25b, nas quatro pontas, existem regiões na cor preta, que são pixels que
não existiam na imagem sem rotação.
Capítulo 2. Processamento de Imagens 34
Figura 2.24: Ilustração de uma rotação 𝜃
(a) Imagem Original (b) Imagem rotacionada
Figura 2.25: Exemplo de rotação em uma imagem em 𝜋5 rad, utilizando interpolação
bilinear (Späth, 1995) e sem preenchimento de pixels inexistentes.
Capítulo 3
Técnicas de localização facial
Neste capítulo serão apresentadas algumas técnicas de localização facial que apresentam
bons resultados na literatura atual. Começaremos pelas Redes Neurais Convolutivas, que
é uma das novidades e seguiremos pela técnica de Viola e Jones (2001) que, sem dúvida,
é a principal técnica de localização facial da atualidade.
3.1 Rede Neural Convolutiva
A Rede Neural Convolutiva é uma classe especial de perceptrons de múltiplas camadas.
Uma rede convolutiva é um perceptron de múltiplas camadas projetado para reconhecer
formas bidimensionais com um alto grau de invariância quanto a translação, escala,
inclinação e outras formas de distorção. Esta difícil tarefa é aprendida de uma forma su-
pervisionada por meio de uma rede cuja estrutura inclui as seguintes formas de restrições
(LeCun e Bengio, 1995):
1. Extração de características. Cada neurônio recebe seus sinais de entrada de um
campo receptivo local na camada anterior, o que o força a extrair características
locais. Uma vez que uma característica seja extraída, sua localização exata se torna
menos importante desde que a sua posição em relação a outras características seja
Capítulo 3. Técnicas de localização facial 36
aproximadamente preservada.
2. Mapeamento de características. Cada camada computacional da rede é composta
de múltiplos mapas de características, sendo cada mapa de características na forma
de um plano dentro do qual os neurônios individuais estão restritos a compartilhar
o mesmo conjunto de pesos sinápticos.
� Invariância a deslocamento, introduzida na operação de um mapa de carac-
terísticas através do uso de convolução com um núcleo (kernel) de pequeno
tamanho, seguido por uma função sigmóide (limitadora)
� Redução do número de parâmetros livres, obtida através do uso de compartil-
hamento de pesos.
3. Subamostragem. Cada camada convolutiva é seguida por uma camada computa-
cional que calcula a média local e realiza uma subamostragem, reduzindo, desta
forma, a resolução do mapa de características. Esta operação tem o efeito de re-
duzir a sensibilidade da saída do mapa de características em relação a deslocamentos
e outras formas de distorção.
O desenvolvimento de redes convolutivas, como descrito acima, tem motivação neu-
robiológica, com origem no trabalho de Hubel e Wiesel (1962) sobre sensibilidade local e
neurônios seletivos à orientação no córtex visual de um gato.
A Figura 3.1 mostra a planta arquitetural por uma rede convolutiva constituída de
uma camada de entrada, quatro camadas ocultas e uma camada de saída. Esta rede é
projetada para realizar processamento de imagens. A camada de entrada, constituída de
28x28 nós sensoriais, recebe a imagem de diferentes caracteres manuscritos que foram
aproximadamente centradas e normalizadas em tamanho. Depois disso, as plantas com-
putacionais se alternam entre convolução e sub-amostragem.
37 3.1. Rede Neural Convolutiva
Figura 3.1: Rede convolutiva para o processamento de imagens
� A primeira camada oculta realiza convolução. Consiste de quatro mapas de car-
acterísticas, com cada mapa consistindo de 24x24 neurônios. A cada neurônio é
atribuído um campo receptivo de tamanho 5x5.
� A segunda camada oculta realiza subamostragem e calcula a média local. Consiste
também de quatro mapas de características, mas cada mapa é constituído agora
de 12x12 neurônios. Cada neurônio tem um campo receptivo de tamanho 2x2,
um coeficiente treinável, um bias treinável e uma função de ativação sigmóide.
O coeficiente treinável e o bias controlam o ponto de operação do neurônio; por
exemplo, se o coeficiente é pequeno, o neurônio opera em um modo quase linear.
� A terceira camada oculta realiza uma segunda convolução. Consiste de 12 mapas de
características, com cada mapa consistindo de 8x8 neurônios. Cada neurônio nesta
camada oculta pode ter conexões sinápticas com vários mapas de características
da camada oculta antecedente. De resto, ela opera de forma similar à primeira
camada convolutiva.
� A quarta camada oculta realiza uma segunda subamostragem e cálculo da média
local. Consiste de 12 mapas de caractetísticas, mas cada mapa consiste de 4x4
neurônios. De resto, opera de forma similar à primeira camada de subamostragem.
� A camada de saída realiza um estágio final de convolução. Consiste de 26 neurônios,
Capítulo 3. Técnicas de localização facial 38
sendo que a cada neurônio é atribuído um caracter de 26 caracteres possíveis. Como
anteriormente, a cada neurônio é atribuído um campo receptivo de tamanho 4x4.
O perceptron de múltiplas camadas descrito na Figura 3.1 contém aproximadamente
100.000 conexões sinápticas, mas apenas cerca de 2600 parâmetros livres. Esta dramática
redução do número de parâmetros livre é obtida pelo uso de compartilhamento de pesos.
A capacidade da máquina de aprendizagem é, desta forma, reduzida, o que, por sua
vez, melhora a sua habilidade de generalização. O que é ainda mais notável é que os
ajustes dos parâmetros livres são feitos a partir da forma estocástica da aprendizagem
por retropropagação
A arquitetura apresentada na Figura 3.1 é chamada de LeNet-5 (LeCun et al., 1998),
foi utilizada para realizar o reconhecimento dos caracteres manuscritos do alfabeto. As
aplicações das Redes Neurais Convolutivas no reconhecimento de padrões em imagens
vai muito além do reconhecimento de caracteres, existem aplicações em reconhecimento
de objetos e inclusive face.
Poucas foram as pesquisas que realizaram publicações na arquitetura original da
rede convolutiva. As pesquisas mais promissoras realizaram algumas modificações na
arquitetura como é o caso de Matsugu et al. (2002); Tivive e Bouzerdoum (2004, 2003).
Tivive e Bouzerdoum (2003) conseguindo um resultado de até 96.9% de acerto.
3.2 Técnica de Viola-Jones
Desenvolvida por Viola e Jones (2001), é possivelmente a técnica de localização de
faces/objetos mais utilizada no meio científico e na industria, sendo facilmente encon-
trado em câmeras fotográficas digitais, softwares de webcam e na maioria dos softwares
de identificação facial (a quem pertence a face). Sua principal vantagem é baixa com-
plexidade computacional e sua paralelização, podendo realizar a localização da face em
uma imagem de 320x240 em tempo real.
39 3.2. Técnica de Viola-Jones
Esta técnica não utiliza do movimento de um vídeo nem da cor do pixel para acel-
erar o processamento da imagem. É utilizada a ideia de Janela de Processamento que
extrai características da imagem, aplica-a a uma árvore de decisão que iterativamente irá
informar a existência ou não de uma face nesta janela.
Existem 3 pontos importantes na concretização do algoritmo, que seriam a Integral da
Imagem o que permite uma rápida avaliação da característica de cada janela esquecendo
a ideia de trabalhar diretamente com a luminosidade do pixel, o método com que o
classificador é construído, que seleciona o mínimo de características a serem treinadas
com uma implementação do AdaBoost (Adaptative Boosting) e por último a combinação
sucessiva entre classificadores simples em uma estrutura em cascata.
3.2.1 Extração de Características
A extração de características é baseada em uma ideia simples, que não utiliza diretamente
a intensidade do pixel, o que torna a tarefa de aprendizagem mais fácil, o que é um dos
motivos para a grande velocidade da técnica.
A característica utilizada é a transformada de Haar exemplificada por Horta (2007)
para segmentar regiões da imagem, como mostrado na Figura 3.2, da forma como descrita
por Papageorgiou et al. (1998).
A característica nada mais é do que a soma de todos os pixels da região branca
subtraído da soma dos pixels da região hachurada.
3.2.2 Integral da imagem
Um algoritmo convencional para calcular a característica descrita em 3.2.1. seria a utiliza-
ção de 2 laços aninhados para realizar a soma de cada uma das regiões de cada retângulo
e em seguida realizar a subtração de cada um, como demonstrado pelo Algoritmo 1:
onde I(x,y) é a luminância da imagem
A Integral da Imagem acelera esse cálculo realizando apenas uma vez, fazendo com
Capítulo 3. Técnicas de localização facial 40
Figura 3.2: Exemplo de retângulos de características. 2 retângulos de características sãoexibidos em A e B, 3 retângulos de características são exibidos em C e 4 retângulos emD
que o cálculo da característica seja realizado com pouquíssimas operações aritméticas. A
equação 3.1 representa como a obtemos.
𝑖𝑖(𝑥,𝑦) =∑︁
𝑥′≤𝑥,𝑦′≤𝑦
𝑖(𝑥′,𝑦′) (3.1)
onde ii(x,y) é a Integral da Imagem e i(x,y) é o valor do pixel da imagem original. Com
esta representação é possível calcular a soma de qualquer retângulo realizando apenas 4
acessos a matriz da Integral da Imagem.
A Figura 3.3 ilustra como a Integral da imagem funciona. No ponto 1 teremos a soma
de todas os valores dos pixels da imagem a partir do ponto (0,0).
A soma de todos os pixels da área D é calculada realizando 4 acessos a ii(x,y) como
demonstrado na equação 3.2.
𝐴𝐷 = 𝑉4 − 𝑉3 − (𝑉2 − 𝑉1) (3.2)
Na Figura 3.4 tem-se um exemplo de uma das caraterísticas explicadas em 3.2.1. Para
41 3.2. Técnica de Viola-Jones
𝑎𝑙𝑡𝑏 ← altura da região branca𝑎𝑙𝑡ℎ ← altura da região hachurada𝑙𝑎𝑟𝑔𝑏 ← largura da região branca𝑙𝑎𝑟𝑔ℎ ← largura da região hachurada𝑠𝑜𝑚𝑎1 ← 0;for 𝑥← 1 to 𝑙𝑎𝑟𝑔𝑏 do
for 𝑦 ← 1 to 𝑎𝑙𝑡𝑏 do𝑠𝑜𝑚𝑎1 ← 𝑠𝑜𝑚𝑎1 + 𝐼(𝑥,𝑦);
𝑠𝑜𝑚𝑎2 ← 0;for 𝑥← 1 to 𝑙𝑎𝑟𝑔ℎ do
for 𝑦 ← 1 to 𝑎𝑙𝑡𝑏 do𝑠𝑜𝑚𝑎2 ← 𝑠𝑜𝑚𝑎2 + 𝐼(𝑥,𝑦)
𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑖𝑠𝑡𝑖𝑐𝑎← 𝑠𝑜𝑚𝑎1 − 𝑠𝑜𝑚𝑎2Algoritmo 1: Cálculo de uma característica como mostrado na Figura 3.2 A ou B
calcular esta característica é necessário realizar apenas seis acessos a Integral da Imagem
como é demonstrado na equação 3.3.
𝐴𝑟𝑒𝑎𝑏𝑟𝑎𝑛𝑐𝑎 = 𝑉6 − 𝑉5 − (𝑉4 − 𝑉3)
𝐴𝑟𝑒𝑎ℎ𝑎𝑐ℎ𝑢𝑟𝑎𝑑𝑎 = 𝑉4 − 𝑉3 − (𝑉2 − 𝑉 1)
𝐶𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑖𝑠𝑡𝑖𝑐𝑎 = 𝐴𝑟𝑒𝑎𝑏𝑟𝑎𝑛𝑐𝑎 −𝐴𝑟𝑒𝑎ℎ𝑎𝑐ℎ𝑢𝑟𝑎𝑑𝑎 (3.3)
3.2.3 Classificador AdaBoost
Com a ideia da Integral da Imagem formada podemos partir para o classificador. Uma
variação do Adaptative Boosting (Kuncheva, 2004) é utilizadoa tanto para selecionar
um pequeno conjunto de características como para treinar o classificador. Na sua forma
original, o AdaBoost é utilizado para auxiliar o treinamento de classificadores simples,
do tipo simples separadores lineares. O classificador linear simples é definido por:
𝑆 =
𝑐∑︁𝑖=1
𝑊 [𝑖]𝑥𝐼𝑛𝑡𝑒𝑔𝑟𝑎𝑙𝐼𝑚𝑎𝑔𝑒𝑚[𝐹.𝐼𝑛𝑑𝑒𝑥[𝑖]], (3.4)
Capítulo 3. Técnicas de localização facial 42
Figura 3.3: Cálculo de uma região retangular
𝐹.𝑠𝑐𝑜𝑟𝑒 = 𝑎𝑏𝑠(𝑆 − 𝐹.𝑚𝑒𝑑𝑖𝑎_𝑓𝑎𝑐𝑒) < 𝑎𝑏𝑠(𝑆 − 𝐹.𝑚𝑒𝑑𝑖𝑎_𝑛𝑎𝑜_𝑓𝑎𝑐𝑒), (3.5)
𝐹𝑎𝑐𝑒𝐿𝑜𝑐𝑎𝑙𝑖𝑧𝑎𝑑𝑎 =
𝑛∑︁𝑗=1
𝐹 [𝑗].𝑠𝑐𝑜𝑟𝑒 > 𝑙𝑖𝑚𝑖𝑎𝑟 (3.6)
onde c é o número de características, o i representa cada característica utilizada pelo
classificador, W é o vetor de pesos para as características, IntegralImagem[F.Index[i]]
representa o resultado da operação da transformada de Haar na imagem. S é o so-
matório das características para cada classificador, F.media_face é a média para S que o
classificador encontrou durante o treinamento de amostras positivas, F.media_nao_face
é a média para S durante o treinamento de amostras negativas, limiar é a separação para
o somatório de todas as características do classificador. Se o somatório ultrapassar o
limiar, o classificador simples considera como face.
É utilizada uma janela de 24x24 pixels para extrair as características discutidas em
3.2.1. Nesta janela é possível formar uma combinação de aproximadamente 180.000
características. Esta combinação é absurdamente elevada, e qualquer classificador que
tivesse que analisar todas estas combinações estaria fadado a lentidão na classificação.
43 3.2. Técnica de Viola-Jones
Figura 3.4: Cálculo de um elemento de característica
Para solucionar este problema, o classificador é projetado para uma única caracterís-
tica que melhor separe um exemplo positivo de um exemplo negativo de face. Para cada
característica, um classificador simples determina um limiar de separação ótimo para a
função de classificação.
Um classificador simples ℎ𝑗(𝑥) consiste de uma característica 𝑓𝑗 , um limiar 𝜃𝑗 e uma
paridade 𝑝𝑗 que indica a direção do sinal da inequação:
ℎ(𝑥) =
⎧⎪⎨⎪⎩ 1 𝑠𝑒𝑝𝑗𝑓𝑗(𝑥) < 𝑝𝑗𝜃𝑗
0 𝑐.𝑐.
Na prática, apenas uma característica não é suficiente para realizar uma detecção
com poucos erros. As características são selecionadas em vários passos, como ilustrado a
seguir.
� Obter amostras das imagens (𝑥1,𝑦1), ..., (𝑥𝑛,𝑦𝑛), onde 𝑦𝑖 = 0,1 para exemplos pos-
itivos e negativos da imagem
Capítulo 3. Técnicas de localização facial 44
� Inicializar os pesos 𝑢1,𝑖 =12𝑚 , 12𝑙 para 𝑦𝑖 = 0,1 respectivamente, onde m e l são o
número de amostras negativas e positivas, respectivamente
� Para t = 1, ..., T:
1. Normalize os pesos, 𝑢𝑡,𝑖 ← 𝑢𝑡,𝑖∑︀𝑛𝑗=1 𝑢𝑡,𝑗
, onde 𝑢𝑡 é uma distribuição de probabili-
dade.
2. Para cada característica, j, treinar o classificador ℎ𝑗 , que deve ser treinado ape-
nas com esta característica. O erro é avaliado observando 𝑢𝑡, 𝜖𝑗 =∑︀
𝑖 𝑢𝑖|ℎ𝑗(𝑥𝑖)−
𝑦𝑖|
3. Escolher o classificador ℎ𝑡, com o menor erro 𝜖𝑡.
4. Atualize os pesos: 𝑢𝑡+1,𝑖 = 𝑢𝑡,𝑖𝛽1−𝜖𝑖𝑡
onde 𝜖𝑖 = 0 se o exemplo 𝑥𝑖 é classificado corretamente, 𝜖𝑖 = 1 caso contrário,
e 𝛽𝑡 =𝜖𝑡
1−𝜖𝑡.
� O melhor classificador é
ℎ(𝑥) =
⎧⎪⎨⎪⎩ 1∑︀𝑇
𝑡=1 𝛼𝑡ℎ𝑡(𝑥) ≥ 12
∑︀𝑇𝑡=1 𝛼𝑡
0 𝑐.𝑐.
onde 𝛼𝑡 = log 1𝛽𝑡
O resultado da utilização do algoritmo para a seleção de um conjunto reduzido de
características pode ser demonstrado na Figura 3.5. É possível perceber que as carac-
terísticas selecionadas foram a de dois retângulos na altura dos olhos com o nariz e a
outra foi entre os olhos e a testa. No primeiro caso o algoritmo percebeu a diferença de
luminosidade entre o nariz e a região dos olhos, no segundo caso percebeu a semelhança
de luminosidade entre os olhos e a diferença para a região superior do nariz.
45 3.2. Técnica de Viola-Jones
Figura 3.5: Características selecionadas pelo AdaBoost
O segredo para ter uma detecção rápida é ter uma sequência de classificadores. O
primeiro classificador descarta a maioria das sub-janelas da imagem com falso-positivo
com pouquíssimo processamento, pois realiza o cálculo de apenas 2 características (Figura
3.5), Viola e Jones (2001) estimam que essa operação é realizada com aproximadamente
60 instruções de um microprocessador, os classificadores seguintes realizam a mesmo
procedimento, mas utilizam um número maior de características. À medida que a sub-
janela passa pelos classificadores ela é aplicada a outro classificador mais complexo e que
utiliza mais processamento. Se a sub-janela passar em todas as etapas é reconhecida
como uma face. A Figura 3.6 ilustra esta árvore de decisão. Nesta figura é possível
observar que existe um nível hierárquico entre os classificadores, o primeiro classificador
é aplicado a todas as imagens, caso ele classifique como face, o segundo classificador é
aplicado e assim por diante. As sub-janelas rejeitadas são descartadas como faces não
sendo necessário a aplicação do restante dos classificadores.
Pelo fato dos classificadores serem treinados com a meta heurística AdaBoost, os clas-
sificadores subsequentes são treinados com as amostras que os primeiros classificadores
possuem maior dificuldade, ou seja os falso-positivo que passam pelos primeiros classifi-
cadores dificilmente irão passar pelos classificadores subsequentes.
Capítulo 3. Técnicas de localização facial 46
Figura 3.6: Figura esquemática da árvore de decisão em cascata
A varredura da imagem
A varredura da imagem é realizada a partir do pixel (0,0) com uma sub-janela de 24x24
pixels. A busca segue crescendo no eixo X, seguido pelo eixo Y (linha a linha). Ao
término da busca de 24x24 pixels a janela é aumentada por um fator de escala e o
processo recomeça com a sub-janela de um tamanho aumentado. Isto se repete até que
a sub-janela esteja do tamanho da janela original.
Treinamento
Classificadores com mais características possuem uma taxa de falsos-positivos menor e
uma alta taxa de detecção. Em contrapartida, necessitam de mais processamento. A
técnica ideal seria, para cada classificador, selecionar um limiar de separação entre as
amostras positiva e negativamente classificadas, de forma que minimize o número de
características que serão utilizadas. Solucionar este problema, porém, não é simples.
Na prática uma técnica simples é utilizada para o treinamento. Em cada estágio
de treinamento é selecionado um limite mínimo de reconhecimento e um limiar máximo
de falsos-positivos. O treinamento consiste em acrescentar retângulos de característi-
cas como descrito na Sessão (3.2.1) nas várias faces que fazem parte do treinamento
47 3.2. Técnica de Viola-Jones
Figura 3.7: Exemplo de faces que fazem parte do treinamento
(na Figura 3.7 se podem observar exemplos das faces) até que esses parâmetros sejam
respeitados. Terminado este procedimento, o treinamento está concluído.
Capítulo 4
Deteção de rotação de face
Este capítulo irá apresentar o método proposto para realizar a localização facial assim
como o seu ângulo de rotação. A segmentação da pele na imagem é realizada através do
método proposto por Jones e Rehg (1999) e Zheng et al. (2004) e o ângulo de rotação
estimado através da densidade dos pixels.
Visão Geral
O método se divide em 3 principais etapas. Na primeira etapa a imagem é segmentada,
na segunda é calculada a dispersão dos pixels e na terceira etapa a imagem é rotacionada
no sentido inverso. A Figura 4.1 apresenta o diagrama de blocos de todo o processo
realizado para localizar a face.
Inicialmente a imagem é convertida do espaço de cor RGB para YCbCr, onde as
características da pele podem ser detectadas nos canais Cb e Cr. Cada canal é uma nova
imagem em escala de cinza. Na etapa de segmentação, a cada par de pixel (das imagens
Cb e Cr) é aplicada a Equação 2.7 (Página 32): e todos os pixels com probabilidade
superior a 0.4 são considerados pixels de pele. A saída do processo de segmentação é
uma imagem binária (Figura 2.22d, Página 32). Na etapa seguinte é calculada a matriz
de covariância (Equação A.8, Página 62), que irá calcular a variância e covariância dos
49
Figura 4.1: Diagrama de blocos do processo
vetores 𝑥 e 𝑦 da imagem binária, formados com a posição espacial de cada pixel. Em
seguida é calculado os autovalores e autovetores da matriz de covariância, onde será
obtido o ângulo médio de dispersão dos pixels, dado por
𝜃 = 𝑐𝑜𝑠−1(𝑒𝑚 · 𝑦𝑣) (4.1)
onde 𝑒𝑚 é o autovetor de maior autovalor e 𝑦𝑣 é o vetor vertical (1,0)𝑇 . Como a face pode
estar de cabeça para baixo, estima-se um segundo ângulo acrescido de 𝜋 rad, resultando
em 𝜃1 e 𝜃2. Com os dois ângulos estimados são geradas duas novas imagens (baseando-se
na imagem original), essas imagens são rotacionadas em sentido contrário (ou seja, −𝜃1
e −𝜃2) e aplicadas ao algoritmo de Viola e Jones (2001).
Capítulo 5
Resultados
Todas as imagens apresentadas neste capítulo foram obtidas através do software imple-
mentado para este trabalho, na linguagem C. Os resultados foram obtidos aplicando o
algoritmo de Viola e Jones (2001) e aquele aqui o proposto a um vídeo. A Figura 5.1
exibe alguns frames comparando o desempenho do método de Viola-Jones e do método
proposto. Nesta figura, mostra-se que o método de Viola-Jones consegue localizar faces
com algumas leves rotações, mas quando essa inclinação começa a se aproximar de 15°a
face deixa de ser localizada. Isto se deve ao fato de que as funções de base de Haar que
são utilizadas como descritores deixam de aprovar a imagem como uma possível face, as
características da localização espacial dos olhos, boca, nariz se perdem (Ver Figura 3.5,
na Página 45). Neste momento o método proposto é ativado para estimar o ângulo de
rotação, realizando uma rotação inversa e possibilitando que o método de Viola-Jones
possa novamente localizar a face.
A Figura 5.2 mostra o erro na estimativa do ângulo de rotação. Para realizar o
experimento foi utilizada uma foto sem rotação na face. Esta foto foi rotacionada em
ângulos variando de 0°a 360°, armazenado o ângulo estimado e o ângulo real. A Linha
preta representa o seno do ângulo real de rotação da face (obtido utilizando a Equação
2.8), enquanto a linha azul é o seno ângulo estimado. O erro médio de 5.5297 graus com
51
(a) Viola-Jones/Proposto (b) Viola-Jones/Proposto
Figura 5.1: A esquerda (em a e b) frames aplicados ao Viola-Jones, a direita (em a e b)aplicados ao método proposto
Figura 5.2: Comparação entre o seno do ângulo real e do estimado
Capítulo 5. Resultados 52
Figura 5.3: Amostras em um ambiente diferente. Viola-Jones/Proposto
variância de 2.7376 graus.
A Figura 5.3 é um exemplo do resultado em um ambiente completamente diferente,
com uma textura de pele diferente, com iluminação diferente. Neste novo ambiente,
mesmo com um foco de luz atrás da face, o método proposto se mostrou eficiente em
localizar a face. É possível perceber que o algoritmo está sujeito aos falsos-positivos
gerados pela técnica de Viola-Jones (Figura 5.3, quarta linha), uma vez que só entra em
ação quando o método de Viola-Jones é incapaz de localizar a face, como o algoritmo de
Viola-Jones informa que localizou uma face (mesmo não existindo) o método proposto
não é ativado.
A Tabela 5.1 apresenta uma comparação dos falsos-positivos (quando o algoritmo
localiza uma face que não existe) e falsos-negativos (quando o algoritmo deixa de lo-
calizar uma face existente) entre o método de Viola-Jones e o método aqui proposto.
O resultado foi extraído aplicando-se um vídeo com 1193 frames (Na Figura 5.4 são
53
Figura 5.4: Amostras de imagens utilizadas para realizar o teste de localização
Algoritmo Falso-positivo Falso-negativoViola-Jones 3.43% 46.71%Proposto 8.35% 4.02%
Tabela 5.1: Tabela comparativa entre os métodos de Viola-Jones e aquele aqui Proposto
exibidos alguns destes frames), contendo propositalmente variação na rotação da face,
gerando como saídas imagens como as encontradas pela Figura 5.1. Foi realizada uma
contagem (humana) da quantidade de erros contidos em cada imagem, assim como os
acertos. Embora a tabela não expresse a taxa de acerto, ela pode ser obtida através do
complemento da soma dos erros. Como o método proposto é acionado apenas quando
o método de Viola-Jones não localiza a face, o erro de falso positivo acaba sendo uma
soma do erro de Viola-Jones acrescido dos erros gerados pelo método proposto. Também
é possível perceber que a taxa de falso-negativo diminui de 46.71% para 4.02%.
Capítulo 6
Conclusão e Perspectivas Futuras
6.1 Conclusão
A Interação Humano-Computador é um dos temas mais abordados em feiras de tecnolo-
gia, mostrando que a operação através de um mouse ou teclado está ficando obsoleta.
Assim como os sistemas biométricos caminham para uma abordagem não invasiva, a lo-
calização da face e seu respectivo ângulo de rotação permitem que algoritmos já existentes
possam funcionar sem realizar modificações em seu funcionamento.
O método proposto mostrou-se satisfatório para uma grande quantidade de imagens
apresentadas, realizando a localização da face independente de seu ângulo de rotação
com uma pequena taxa de falso-positivo e falso-negativo. Uma notável melhora em
relação ao método de Viola-Jones é percebida a medida que o ângulo de rotação da face
cresce. Os métodos se segmentação de pele estão em constante evolução, possibilitando
a melhora dos resultados em um momento futuro. O desenvolvimento de uma heurística
para decidir quando utilizar apenas o Viola-Jones e quando utilizar o método proposto
poderia diminuir as taxas de falso-negativo, embora não fosse possível diminuir a taxa
de falso-positivo.
55 6.2. Perspectivas Futuras
6.2 Perspectivas Futuras
Este trabalho abre caminho para pesquisa na área de Interação Humano-Computador,
melhorando o seu desempenho, podendo ser usado em jogos que utilizam o movimento
da cabeça. A mesma ideia pode ser utilizada como um novo meio de comunicação entre
os tetraplégicos com os computadores,
Referências Bibliográficas
Brindley, G. S. (1963). Afterimages. Scientific American.
Carvalho, F. J. S. e Tavares, J. M. R. S. (2005). Metodologias para identificação de faces
em imagens: Introdução e exemplos de resultados. Congreso de Métodos Numéricos
en Ingeniería.
Coleman, G. B. e Andrews, H. C. (1979). Image segmentation by clustering. Proc. IEEE,
57.
Gonzalez, R. C. e Woods, R. E. (2008). Digital Image Processing, Third edition. Pearson.
Haralick, R. M. e Kelly, G. L. (1969). Pattern recognition with measurement space and
spatial clustering for multiple images. Proc. IEEE, 57.
Haralick, R. M. e Shapiro, L. G. (1985). Image Segmentation Techniques. Machine Vision
International.
Horta, T. C. O. (2007). Um estudo das transformadas wavelets de haar e gabor para
detecção de objetos. Master’s thesis, Universidade de Brasília.
Huang, D., Wunsch, D., Levine, D., e Jo, K. (2008). Advanced Intelligent Computing
Theories and Applications with Aspects of Contemporary Intelligent Computing Tech-
niques: 4th International Conference on Intelligent Computing, ICIC 2008 Shanghai,
57 Referências Bibliográficas
China, September 15-18, 2008, Proceedings. Communications in computer and infor-
mation science. Springer.
Hubel, D. H. e Wiesel, T. N. (1962). Receptive fields, binocular interaction and functional
architecture in the cat’s visual cortex. Journal of Phisiology.
Jones, M. J. e Rehg, J. M. (1999). Statistical color models with application to skin
detection. IEEE Conference on Computer Vision and Pattern Recognition.
Jähne, B. (2005). Digital Image Processing, 6th revised and extended edition. Springer.
Khan, N. (2006). Ethylene action in plants. Springer.
Kuncheva, L. I. (2004). Combining Pattern Classifiers, Methods and Algorithms. Wiley-
Interscience.
Kuo, S., Lee, B., e Tian, W. (2006). Real-time digital signal processing: implementations
and applications. John Wiley.
LeCun, Y. e Bengio, Y. (1995). The Handbook of Brain Theory and Neural Networks.
MIT Press.
LeCun, Y., Bottou, L., Bengio, Y., e Haffner, P. (1998). Gradient-based learning applied
to document recognition. Proceedings of the IEEE.
Manza, K. (2010). Computer Vision and Information Technology: Advances and Appli-
cations. I. K. International Pvt Ltd.
Matsugu, M., Mori, K., Ishii, M., e Mitarai, Y. (2002). Convolutional spiking neural net-
work model for robust face detection. Proceedings of the 9th International Conference
on Neural Networks.
Otsu, N. (1979). A threshold selection method from gray-level histograms.
Referências Bibliográficas 58
Papageorgiou, C., Oren, M., e Poggio, T. (1998). A general framework for object detec-
tion. International Conference on Computer Vision.
Petrescu, D. e Gelgon, M. (2000). Face detection from complex scene in colour images.
Proceedings of Eusipco2000, pp, 933-936.
Poynton, C. (2003). Digital video and HDTV: algorithms and interfaces. Morgan Kauf-
mann series in computer graphics and geometric modeling. Morgan Kaufmann Pub-
lishers.
Pratt, W. K. (2007). Digital Image Processing. Wiley Interscience.
Sahoo, P. K., Soltani, S., e Wong, A. K. C. (1988). SURVEY: A Survey of Thresholding
Techniques. Computer Graphics Image Processing.
Santos, R. (2001). Um curso de geometria analítica e álgebra linear. UFMG.
Späth, H. (1995). Two dimensional spline interpolation algorithms. Ak Peters Series.
A.K. Peters.
Tivive, F. H. C. e Bouzerdoum, A. (2003). A new class of convolutional neural networks
(siconnets) and their application of face detection. International Joint Conference on
Neural Networks.
Tivive, F. H. C. e Bouzerdoum, A. (2004). A face detection system using shunting
inhibitory convolutional neural networks. International Joint Conference on Neural
Networks.
Tomita, F., Yachida, M., e Tsuji, S. (1973). Detection of homogeneous regions by struc-
tural analysis.
Viola, P. e Jones, M. (2001). Rapid object detection using a boosted cascade of simple
features. Conference on Computer Vision and Pattern Recognition.
59 Referências Bibliográficas
Zheng, H., Daoudiy, M., e Jedynak, B. (2004). Blocking Adult Images Based on Statistical
Skin Detection. Electronic Letters on Computer Vision and Image Analysis, vol. 4,
pp. 1-14.
Apêndice A
Apêndice A
A.0.1 Matriz de variância e covariância
Sejam 𝑥1,...,𝑥𝑛 variáveis aleatórias com variâncias 𝜎21,· · · ,𝜎2
𝑛 e covariâncias 𝜎12,𝜎13,· · · ,𝜎(𝑘−1)𝑘.
Ou seja:
𝜎2𝑖 = 𝐸[(𝑥𝑖 − 𝐸(𝑥𝑖))
2], 𝜎𝑖𝑗 = 𝐸[(𝑥𝑖 − 𝐸(𝑥𝑖))(𝑥𝑗 − 𝐸(𝑥𝑗))], 𝑝𝑎𝑟𝑎 𝑖 ̸= 𝑗 (A.1)
Reunindo as variâncias e covariâncias em uma matriz, ficamos com
𝑉 𝑎𝑟(𝑋) = 𝑉 =
⎡⎢⎢⎢⎢⎢⎢⎢⎣
𝜎21 𝜎12 · · · 𝜎1𝑛
𝜎12 𝜎22 · · · 𝜎2𝑛
......
......
𝜎1𝑛 𝜎2𝑛 · · · 𝜎2𝑛
⎤⎥⎥⎥⎥⎥⎥⎥⎦(A.2)
que é chamada de matriz de variância e covariância ou matriz de dispersão
das variáveis aleatórias 𝑥1,· · · ,𝑥𝑛. Ela é simétrica (𝑉 𝑡 = 𝑉 ), o elemento de posição i,i é
a variância da variável 𝑥𝑖 e o elemento i,j para 𝑖 ̸= 𝑗, é a covariância, entre as variáveis
𝑥𝑖 e 𝑥𝑗 . Assim, podemos expressar V como
61
𝑉 = 𝑉 𝑎𝑟(𝑋) = 𝐸[(𝑋 − 𝐸(𝑋))(𝑋 − 𝐸(𝑋))𝑡] (A.3)
Seja A uma matriz m × n. Então,
𝐸(𝐴𝑋) = 𝐴𝐸(𝑋) (A.4)
pois
𝐸(𝐴𝑋) = 𝐸
⎡⎢⎢⎢⎢⎢⎢⎢⎣
𝑎11𝑥1 + 𝑎12𝑥2 + · · · + 𝑎1𝑛𝑥𝑛
𝑎21𝑥1 + 𝑎22𝑥2 + · · · + 𝑎2𝑛𝑥𝑛... · · ·
...
𝑎𝑚1𝑥1 + 𝑎𝑚2𝑥2 + · · · + 𝑎𝑚𝑛𝑥𝑛
⎤⎥⎥⎥⎥⎥⎥⎥⎦
=
⎡⎢⎢⎢⎢⎢⎢⎢⎣
𝑎11𝐸(𝑥1) + 𝑎12𝐸(𝑥2) + · · · + 𝑎1𝑛𝐸(𝑥𝑛)
𝑎21𝐸(𝑥1) + 𝑎22𝐸(𝑥2) + · · · + 𝑎2𝑛𝐸(𝑥𝑛)
... · · ·...
𝑎𝑚1𝐸(𝑥1) + 𝑎𝑚2𝐸(𝑥2) + · · · + 𝑎𝑚𝑛𝐸(𝑥𝑛)
⎤⎥⎥⎥⎥⎥⎥⎥⎦
= 𝐴𝐸(𝑋)
(A.5)
De forma análoga podemos mostrar que se B é uma matriz n × m, então
𝐸(𝑋𝐵) = 𝐸(𝑋)𝐵 𝑒 𝐸(𝐴𝑋𝐵) = 𝐴𝐸(𝑋)𝐵 (A.6)
Pelas Equações A.4 e A.6 segue-se que
Apêndice A. Apêndice A 62
𝑉 𝑎𝑟(𝐴𝑋) = 𝐸[(𝐴𝑋 − 𝐸(𝐴𝑋))(𝐴𝑋 − 𝐸(𝐴𝑋))𝑡] = 𝐸[(𝐴𝑋 −𝐴𝐸(𝑋))(𝐴𝑋 −𝐴𝐸(𝑋))𝑡]
= 𝐸[𝐴(𝑋 − 𝐸(𝑋))(𝑋 − 𝐸(𝑋))𝑡𝐴𝑡] = 𝐴𝐸[(𝑋 − 𝐸(𝑋))(𝑋 − 𝐸(𝑋))𝑡]𝐴𝑡
= 𝐴𝑉 𝑎𝑟(𝑋)𝐴𝑡
(A.7)
A.1 Matriz de variância e covariância discreta
A matriz de variância e covariância pode ser aproximada pela equação
𝐶𝑥 =1
𝑀
𝑀∑︁𝑘=1
𝑥𝑘𝑥𝑇𝑘 −𝑚𝑥𝑚
𝑇𝑥 (A.8)
onde 𝑚𝑥 pode ser aproximado por
𝑚𝑥 =1
𝑀
𝑀∑︁𝑘=1
𝑥𝑘 (A.9)
A.1.1 Autovalor e Autovetor
Seja A uma matriz n × n. Um número real 𝜆 é chamado autovalor (real) de A, se existe
um vetor não nulo 𝑉 =
⎡⎢⎢⎢⎢⎣𝑣1...
𝑣𝑛
⎤⎥⎥⎥⎥⎦ de ℜ𝑛, tal que:
𝐴𝑉 = 𝜆𝑉 (A.10)
Um vetor não nulo 𝑉 que satisfaça A.10, é chamado de autovetor de A.
Observe-se que usando o fato de que a matriz identidade
63 A.1. Matriz de variância e covariância discreta
(a) 𝜆 > 1 (b) 0 < 𝜆 < 1 (c) 𝜆 < 0
Figura A.1: Variações do autovalor
𝐼𝑛 =
⎡⎢⎢⎢⎢⎢⎢⎢⎣
1 0 · · · 0
0 1 · · · 0
.... . .
...
0 · · · 0 1
⎤⎥⎥⎥⎥⎥⎥⎥⎦(A.11)
é tal que 𝐼𝑛𝑉 = 𝑉 , a equação A.10 pode ser escrita como
𝐴𝑉 = 𝜆𝐼𝑛𝑉 (A.12)
ou
(𝐴− 𝜆𝐼𝑛)𝑉 = 0 (A.13)
Como os autovetores são vetores não nulos, os autovalores são os valores de 𝜆, para
os quais o sistema (𝐴−𝜆𝐼𝑛)𝑋 = 0 tem solução não trivial. Mas, este sistema homogêneo
tem solução não trivial se, e somente se, 𝑑𝑒𝑡(𝐴− 𝜆𝐼𝑛) = 0, (Santos, 2001).
Os autovalores (reais) de A são as raízes reais do polinômio (polinômio característico).
𝑝(𝑡) = 𝑑𝑒𝑡(𝐴− 𝑡𝐼𝑛) (A.14)
Para cada autovalor 𝜆, os autovetores associados a 𝜆 são os vetores não nulos da
solução do sistema
Apêndice A. Apêndice A 64
(𝐴− 𝜆𝐼𝑛)𝑋 = 0 (A.15)