um método para localização facial invariante a rotação · 2017. 11. 2. · contraste...

Keylly Eyglys Araújo dos Santos

Um método para Localização FacialInvariante a Rotação

NatalFevereiro de 2011

Seção de Informação e ReferênciaCatalogação da Publicação na Fonte. UFRN / Biblioteca Central Zila Mamede

Santos, Keylly Eyglys Araújo dosUm método para localização facial Invariante a rotação. Keylly

Eyglys Araújo dos Santos – Natal, RN, 2011.64 f.; il.

Orientador: Adrião Duarte Dória NetoCo-orientador: Allan Medeiros Martins

Dissertação (Mestrado) - Programa de Pós-Graduação em Engen-haria Elétrica e Computação da Universidade Federal do Rio Grande doNorte. 1. Imagem – Dissertação. 2. Localização facial – Dissertação. 3.

Invariância a rotação. – Dissertação. 4. Busca de padrões – Dissertação.5. Segmentação de pele – Dissertação. I Dória Neto, Adrião Duarte. IIMartins, Allan Medeiros. III. Universidade Federal do Rio Grande doNorte. IV. Título.

RN/UF/BCZM CDU 621.397.33

Dedico este trabalho aos meus pais, que sempre me apoiaram e incentivaram, dando-me

a oportunidade que não tiveram.

Agradecimentos

Ao prof. Adrião, meu orientador, pela sua grande ajuda e paciência, servindo como

exemplo para mim.

Ao prof. Allan, meu co-orientador, por despertar minha curiosidade pelas imagens

digitais e por sempre me ajudar quando preciso.

Aos meus amigos do LSI, pelo incentivo, disposição para ajudar sempre que necessário

e pelas horas de descontração.

Aos professores do DCA, pela contribuição em minha formação.

A minha noiva, Emmliene, pelo apoio desprendido diariamente, por emprestar suas

fotos para realizar testes e principalmente pelo seu carinho quando bate o cansaço.

Resumo

A localização facial tornou-se um assunto muito discutido nos últimos anos, surgiram

inúmeras aplicações, desde sistemas biométricos (que necessitam localizar a face antes

de identifica-la), até sistemas complexos de varredura de multidões (procurando por

criminosos). O método mais utilizado para localizar faces em imagens digitais é a técnica

de Vioja e Jones, que não é invariante a rotação, conseguindo identificar apenas pequenos

ângulos de rotação, mesmo assim comprometendo alguns algoritmos que necessitam da

face sem rotação, como a biometria facial.

A técnica apresentada propõe a invariância a rotação de face em imagens digitais,

baseando-se na segmentação da pele para calcular a dispersão e estimar o ângulo de

rotação da face. Possibilitando que técnicas já consolidadas possam realizar a localização

da face em uma imagem rotacionada no sentido inverso.

Sumário

Lista de Figuras 3

Lista de Tabelas 6

1 Introdução 8

1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.3 Organização do texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Processamento de Imagens 10

2.1 Representação da cor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.1 Fenômenos visuais . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.2 RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1.3 CMY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.2 Representação espacial de imagens . . . . . . . . . . . . . . . . . . . . . . 16

2.2.1 Pixel e Voxel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2.2 Relação de vizinhança . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.3 Segmentação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.3.1 Segmentação por amplitude . . . . . . . . . . . . . . . . . . . . . . 20

2.3.2 Segmentação por Agrupamento . . . . . . . . . . . . . . . . . . . . 23

2.3.3 Segmentação de pele . . . . . . . . . . . . . . . . . . . . . . . . . . 28

Sumário 2

2.4 Rotação de imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Técnicas de localização facial 35

3.1 Rede Neural Convolutiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.2 Técnica de Viola-Jones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.2.1 Extração de Características . . . . . . . . . . . . . . . . . . . . . . 39

3.2.2 Integral da imagem . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2.3 Classificador AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . 41

4 Deteção de rotação de face 48

5 Resultados 50

6 Conclusão e Perspectivas Futuras 54

6.1 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

6.2 Perspectivas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

Referências Bibliográficas 56

A Apêndice A 60

A.0.1 Matriz de variância e covariância . . . . . . . . . . . . . . . . . . . 60

A.1 Matriz de variância e covariância discreta . . . . . . . . . . . . . . . . . . 62

A.1.1 Autovalor e Autovetor . . . . . . . . . . . . . . . . . . . . . . . . . 62

Lista de Figuras

2.1 Contrastes simultâneos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Contrastes simultâneos com os pequenos quadrados deslocados . . . . . . 12

2.3 Diagrama ilustrativo, mostrando o processo físico ocorrido na mistura de

cores aditivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.4 Cubo de cores RBG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.5 Diagrama de mistura de cores RGB, partindo do preto e seguindo para o

branco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.6 Diagrama de mistura de cores CMY, partindo do branco e seguindo para

o preto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.7 Representação de imagens digitais por matrizes de pontos discretos em um

grid retangular. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.8 Consistência do pixel em uma imagem digital. Em um grid quadrado,

cada pixel representa uma região quadrada da imagem. A figura mostra

a mesma imagem, representada por uma quantidade diferente de pixels,

caso a quantidade de pixels seja suficiente, a imagem parecerá contínua. . 18

2.9 Os dois tipos de vizinhança em imagens bidimensionais. A área escura de

c, representa um objeto digital conectado pela vizinhança-8. . . . . . . . . 19

2.10 Os três tipos de vizinhança de um voxel em imagens tridimensionais. . . . 19

2.11 Exemplo de um texto escaneado e o seu histograma . . . . . . . . . . . . . 21

Lista de Figuras 4

2.12 Exemplo de segmentação de uma única imagem utilizando vários níveis de

separação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.13 Parábola que aproxima o vale entre os dois picos de luminosidade . . . . . 23

2.14 Segmentação multinível, primeiro nível de segmentação . . . . . . . . . . . 24

2.15 Segmentação multinível, segundo nível, primeira ramificação . . . . . . . . 25

2.16 Segmentação multinível, segundo nível, segunda ramificação . . . . . . . . 26

2.17 Agrupamento de classes para uma medida bi-dimensional . . . . . . . . . 28

2.18 Versão simplificada do algoritmo de segmentação de Coleman e Andrews

(1979) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.19 Exemplo do plano de espaço de cor YCbCr com Y fixado em 0.5 (utilizando

uma escala de 0 a 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.20 Exemplo da imagem em YCbCr . . . . . . . . . . . . . . . . . . . . . . . . 31

2.21 Algumas amostras de pele utilizadas para gerar a função de densidade de

probabilidade de um pixel ser de pele . . . . . . . . . . . . . . . . . . . . . 31

2.22 Exemplo da aplicação da probabilidade em cada pixel de uma imagem . . 32

2.23 Exemplo da função de densidade de probabilidade representativo da pele . 33

2.24 Ilustração de uma rotação 𝜃 . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.25 Exemplo de rotação em uma imagem em 𝜋5 rad, utilizando interpolação

bilinear (Späth, 1995) e sem preenchimento de pixels inexistentes. . . . . . 34

3.1 Rede convolutiva para o processamento de imagens . . . . . . . . . . . . . 37

3.2 Exemplo de retângulos de características. 2 retângulos de características

são exibidos em A e B, 3 retângulos de características são exibidos em C

e 4 retângulos em D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3 Cálculo de uma região retangular . . . . . . . . . . . . . . . . . . . . . . . 42

3.4 Cálculo de um elemento de característica . . . . . . . . . . . . . . . . . . . 43

3.5 Características selecionadas pelo AdaBoost . . . . . . . . . . . . . . . . . 45

5 Lista de Figuras

3.6 Figura esquemática da árvore de decisão em cascata . . . . . . . . . . . . 46

3.7 Exemplo de faces que fazem parte do treinamento . . . . . . . . . . . . . . 47

4.1 Diagrama de blocos do processo . . . . . . . . . . . . . . . . . . . . . . . . 49

5.1 A esquerda (em a e b) frames aplicados ao Viola-Jones, a direita (em a e

b) aplicados ao método proposto . . . . . . . . . . . . . . . . . . . . . . . 51

5.2 Comparação entre o seno do ângulo real e do estimado . . . . . . . . . . . 51

5.3 Amostras em um ambiente diferente. Viola-Jones/Proposto . . . . . . . . 52

5.4 Amostras de imagens utilizadas para realizar o teste de localização . . . . 53

A.1 Variações do autovalor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

Lista de Tabelas

5.1 Tabela comparativa entre os métodos de Viola-Jones e aquele aqui Proposto 53

Lista de Algoritmos

1 Cálculo de uma característica como mostrado na Figura 3.2 A ou B . . . . 41

Capítulo 1

Introdução

A busca de padrões, associado a áreas como interação humano-computador e segurança,

vem crescendo na última década, um exemplo disso seria o controle para vídeo game

Kinect, comercializado pela Microsoft, em que o conceito de segurar algum objeto para

controlar um jogo está sendo questionado, já que o próprio usuário é o controle. Na área

de segurança, a necessidade de analisar/procurar pessoas em câmeras de vigilância tenta

automatizar esta tarefa e inclusive ampliar, realizando este trabalho em multidões, sem

a necessidade de intervenção humana.

1.1 Motivação

A segurança é um dos temas mais discutidos em jornais, revista e televisão. Surgem

novos equipamentos, técnicas e treinamentos para segurança doméstica, pública e até

análise forense. Esta última é de fundamental importância em crimes planejados e sem

testemunha ocular, apenas câmeras de vigilância. A busca automática de faces elimina a

necessidade de que técnicos forenses analisem as gravações de segurança com várias horas

de duração, para identificarem quem entrou ou saiu da região onde aconteceu o crime,

reduzindo horas de investigação criminal e de custos corporativos. Ao mesmo tempo em

9 1.2. Objetivos

que torna-se possível aumentar a interação entre deficientes físicos que são impossibili-

tados de movimentar seus membros. Com um simples movimento da cabeça, inclinando

para a direita ou esquerda ele pode realizar ações, visualizar fotos, ou seja, disponibilizar

um controle adicional para quem é impossibilitado de utilizar os dispositivos atuais de

entrada para computadores (teclado e mouse).

1.2 Objetivos

É possível verificar que existem muitas técnicas de localização facial na literatura, mas

poucas delas são invariantes à rotação no plano. A principal motivação para a idealização

deste trabalho foi elaborar uma técnica que localizasse faces em imagens digitais mesmo

que estejam rotacionadas, realizando assim uma contribuição para a área de pesquisa em

reconhecimento de padrões com invariância a rotação.

Além de realizar o processo de localização facial, também se objetiva identificar o

ângulo de rotação, possibilitando a correção do ângulo de captura, ou utilizando esta

informação para outra finalidade.

1.3 Organização do texto

Este texto está organizado em um capítulo sobre Processamento de imagens, Capítulo

2, onde será abordado temas como a formação da imagem, percepção visual humana,

espaço de cores, segmentação, rotação. Segue-se por um capítulo onde serão abordadas

algumas técnicas de localização facial, o Capítulo 3, onde algumas das principais técnicas

de localização facial serão abordadas, seguindo com a proposta apresentada (Capítulo

4), resultados, (Capítulo 5) e finalmente as conclusões e perspectivas futuras que estão

no Capítulo 6.

Capítulo 2

Processamento de Imagens

Este capítulo irá apresentar a representação de imagens digitais através da representação

espacial, além de explanar rapidamente o funcionamento do sistema de visão humano e

os espaços de cores. Será abordado o tema da segmentação e rotação de imagens, além

de matriz de covariância, autovetores e autovalores.

2.1 Representação da cor

Embora o processo realizado pelo cérebro humano para perceber e interpretar as cores

seja um fenômeno fisiológico não completamente compreendido, a natureza física da cor

pode ser expressada como em uma base formal, assegurada por resultados teóricos e

experimentais.

A caracterização da cor é o centro da ciência da cor. Em uma luz acromática (sem

cor), seu único atributo é a intensidade ou quantidade. As luzes cromáticas são espectros

eletromagnéticos na faixa de aproximada de 400 a 700 nm. Três quantidades básicas

de qualidade são utilizadas para descrever uma fonte de luz cromática: radiância, lu-

minância e brilho. A radiância é a quantidade de energia que flui da fonte de luz, sendo

normalmente medida em Watts (W). A luminância, medida em lumens (lm), é a quan-

11 2.1. Representação da cor

Figura 2.1: Contrastes simultâneos

tidade de energia que um observador percebe estar vindo da fonte de luz. Por exemplo,

uma fonte de luz trabalhando em uma faixa infra-vermelha de espectro, terá um valor

de radiância, pois está emitindo energia, mas um observador não conseguirá percebê-la,

ou seja, a luminância será zero. Finalmente tem-se o brilho que é um descritor subjetivo

praticamente impossível de se mensurar. Isto personifica a noção acromática de inten-

sidade sendo um dos fatores para a descrição de sensação de cor (Gonzalez e Woods,

2008).

2.1.1 Fenômenos visuais

O sistema visual é muito complexo, mas possui alguns fenômenos que necessitam serem

mencionados. Tais fenômenos estão inter-relacionados, em alguns casos minimamente,

em outros largamente.

Contraste Simultâneo

O fenômeno de contraste simultâneo é ilustrado pela Figura 2.1. Os quadrados menores

possuem a mesma intensidade luminosa, mas devido a intensidade ao redor, os pequenos

quadrados não parecem ter o mesmo brilho. Na Figura 2.2 os pequenos quadrados foram

deslocados, colocados um ao lado do outro, e só então é possível perceber que são iguais.

Capítulo 2. Processamento de Imagens 12

Figura 2.2: Contrastes simultâneos com os pequenos quadrados deslocados

Adaptação cromática

A matiz de percepção da cor depende da adaptação do visualizador (Brindley, 1963). Por

exemplo, a bandeira dos Estados Unidos por alguns instantes não aparenta ser vermelha,

branca e azul se o visualizador for submetido a uma luz vermelha de alta intensidade

antes de ver a bandeira. As cores da bandeira aparentarão se deslocar na matiz em

direção ao complemento do vermelho, o ciano (Pratt, 2007).

2.1.2 RGB

O RGB é considerado um espaço de cor aditivo, onde a cor principal é o preto e o restante

das cores são formadas adicionando luz Vermelha (Red), Verde (Green) ou Azul (Blue).

O processo de reprodução de cor é simples, bastando misturar as três luzes (cores) básicas

para formar cores diferentes. Em termos físicos, o espectro de cada luz é sobreposto pelo

espectro do outro, realizando uma mistura dos comprimentos de onda, como é possível

ver na Figura 2.3. Este processo é chamado de reprodução aditiva (Poynton, 2003).

Este é o principal espaço de cor utilizado em imagens digitais. A Figura 2.4 ilustra

a composição das cores através do sistema RGB. A mistura de todas as cores primárias

resulta na cor branca, como exemplificado pela Figura 2.5.


Figura 2.3: Diagrama ilustrativo, mostrando o processo físico ocorrido na mistura decores aditivas

Fonte: Poynton (2003)

Figura 2.4: Cubo de cores RBG


Figura 2.5: Diagrama de mistura de cores RGB, partindo do preto e seguindo para obranco.

2.1.3 CMY

Já o CMY é considerado um espaço de cor subtrativo. No espaço de cor aditivo,

adicionam-se luzes para misturar as cores, e no espaço de cor subtrativo a ideia é misturar

tintas, pigmentos, com o objetivo de subtrair cores de uma luz branca. Este é o processo

que normalmente ocorre na natureza ao nosso redor: os objetos recebem luz branca (luz

com todos os espectros de cores), e o material de cada objeto é que irá lhe dar sua cor.

Por exemplo, um fruto quando verde, possui esta cor devido a clorofila absorver todos

os espectros de cores, exceto a cor verde. A medida que a fruta amadurece, a clorofila

é quebrada/degradada pelo etileno (Khan, 2006), e com isso perdendo sua característica

de absorver todas as cores exceto o verde. Quando maduro, a clorofila já está degradada,

e outros elementos serão responsáveis por compor a cor do fruto, absorvendo alguns

espectros de cores (dependendo de sua composição química) e refletindo outros.

O CMY é largamente utilizado na indústria gráfica, misturando tintas com o objetivo

de compor uma mistura capaz de absorver determinados espectros de luz. As cores

básicas do CMY são o Ciano (Cyan), Magenta (Magenta) e Amarelo (Yellow). A mistura


Figura 2.6: Diagrama de mistura de cores CMY, partindo do branco e seguindo para opreto.

de todas as cores básicas irá resultar na cor preta (absorção de todos os espectros de luz),

como se pode ver na Figura 2.6.

Existe uma variação chamada CMYK, onde o K representa exclusivamente a cor

preta. A adição de uma tinta na for preta tem como vantagens:

� A combinação em 100% de ciano, magenta e amarelo embebeda o papel, demorando

para secar, e por algumas vezes sendo impraticável. Isto, em alguns momentos pode

causar borrões na impressão

� A combinação em 100% de ciano, magenta e amarelo (com as tintas comumente

oferecidas no mercado) resulta em um marrom muito escuro mas, não que chega a

ser totalmente preto.

� Os textos são tipicamente pretos

� Usando uma tinta preta, diminuem os custos com as outras tintas.


2.2 Representação espacial de imagens

2.2.1 Pixel e Voxel

Imagens constituem uma distribuição de irradiação em um plano. Em termos matemáti-

cos, a irradiação espacial pode ser descrita como uma função contínua de duas variáveis

espaciais:

𝐸(𝑥1,𝑥2) = 𝐸(𝑥) (2.1)

Computadores não podem representar imagens contínuas, somente matrizes de números

digitais. Sendo assim, é necessário representar imagens como matrizes de pontos bi-

dimensionais. O ponto do grid 2-D é chamado de pixel, o ponto do grid 3-D, embora

pouco conhecido, é chamado de voxel. O pixel representa a irradiação correspondente à

sua posição no grid. A posição do pixel (em sua representação mais simples) é comumente

obtida através da notação de matrizes. O primeiro índice, 𝑚, representa a posição da

linha, o segundo, 𝑛, a posição da coluna (ver Figura 2.7a). Se a imagem digital contém

𝑀 x 𝑁 pixels, ou seja, é representado por uma matriz 𝑀 x 𝑁 , o índice 𝑛 percorre de 0

até 𝑁 − 1, e o índice 𝑚 de 0 até 𝑀 − 1. Em concordância com a notação de matriz, o

eixo vertical (eixo y), cresce de cima para baixo e não ao contrário, como é comumente

visto em gráficos no plano cartesiano (primeiro quadrante). Por sua vez, o eixo horizontal

(eixo x), cresce da forma usual, da esquerda para a direita.

Cada pixel não representa apenas um ponto na imagem, mas toda uma região retan-

gular, a célula elementar do grid. O valor associado, representa a irradiação média de seu

correspondente na imagem contínua. A Figura 2.8 mostra a mesma imagem representada

por um número diferente de pixels, como indicado na legenda.

Qual a quantidade suficiente de pixels? Não existe uma resposta única para esta

17 2.2. Representação espacial de imagens

(a) Imagem 2-D (b) Imagem 3-D

Figura 2.7: Representação de imagens digitais por matrizes de pontos discretos em umgrid retangular.

pergunta. Para uma observação visual de uma imagem digital, o tamanho do pixel deve

ser tão pequeno quanto a resolução espacial do sistema de visão do observador. Para uma

determinada tarefa, o pixel deve ser tão pequeno quanto a menor escala de um objeto

que desejamos observar. O que impede a obtenção de resoluções cada vez melhores é a

limitação de pixels da tecnologia dos sensores.

2.2.2 Relação de vizinhança

Uma propriedade importante em imagens discretas é a sua relação de vizinhança, uma vez

que definem uma região ligada, e portanto, um objeto digital. Um grid retangular em duas

dimensões, possui dois critérios de vizinhança (Figura 2.9), vizinhança-4 e vizinhança-8.

Ambos os tipos de vizinhança são necessários para uma definição apropriada dos

objetos de regiões conectadas. A região ou objeto é chamada de conectada, quando

conseguimos chegar a qualquer pixel na região, passando por um pixel vizinho. O objeto

escuro mostrado na Figura 2.9c é um objeto de vizinhança-8, embora constitua dois

objetos em vizinhança-4. Na Figura 2.10 podemos visualizar a vizinhança de um voxel,


(a) 3x4 (b) 12x16

(c) 48x64 (d) 192x256

Figura 2.8: Consistência do pixel em uma imagem digital. Em um grid quadrado, cadapixel representa uma região quadrada da imagem. A figura mostra a mesma imagem,representada por uma quantidade diferente de pixels, caso a quantidade de pixels sejasuficiente, a imagem parecerá contínua.

Fonte: Jähne (2005)

19 2.3. Segmentação

(a) vizinhança-4 (b) vizinhança-8 (c) Objeto digital

Figura 2.9: Os dois tipos de vizinhança em imagens bidimensionais. A área escura de c,representa um objeto digital conectado pela vizinhança-8.

Fonte: Jähne (2005)

com 6, 18 e 26 voxeis vizinhos.

2.3 Segmentação

Segmentar uma imagem implica na separação da imagem em regiões de atributos semel-

hantes. O atributo mais comum para segmentação é a amplitude da luminância em uma

imagem monocromática e os componentes de cores para imagens coloridas. Bordas e

texturas também são atributos bastante utilizados para segmentação (Pratt, 2007).

Segundo Pratt (2007), não existe uma teoria de segmentação de imagens. Não surgiu

(a) vizinhança-6 (b) vizinhança-18 (c) vizinhança-26

Figura 2.10: Os três tipos de vizinhança de um voxel em imagens tridimensionais.Fonte: Jähne (2005)


um método padrão para segmentação de imagens, ao invés disso, surgiram uma coleção de

métodos que ganharam popularidade. Haralick e Shapiro (1985) estabeleceram o seguinte

guia qualitativo para uma boa segmentação de imagem: “Regiões de uma segmentação

de imagem devem ser uniformes e homogêneas com respeito a mesma característica como

o tom de cinza ou textura. Regiões interiores devem ser simples e sem pequenos buracos.

Regiões adjacentes de uma segmentação devem ter valores significantemente diferentes

com respeito a característica em que eles são uniformes. Os limites de cada segmento

devem ser simples, não serrilhados, e serem espacialmente precisas.”.

Descreveremos algumas técnicas de segmentação de imagens.

2.3.1 Segmentação por amplitude

Os métodos de segmentação apresentadas nesta sessão, são baseadas em um limiar de

separação na amplitude de luminância ou na componente de cor.

Limiarização de luminância de dois níveis

Muitas imagens podem ser caracterizadas por conter objetos observados com brilho ra-

zoavelmente uniforme, sobre um fundo com brilho diferente. Exemplos típicos são cartas

escritas a mão, textos impressos, amostras biomédicas microscópicas e até aviões em uma

pista. Para estas imagens, a luminância é uma característica que separa muito bem o ob-

jeto observado do restante da imagem. Quando o objeto observado é próximo do branco

e o fundo próximo do preto, ou vice-versa, a tarefa torna-se trivial, basta escolher um

valor de cinza intermediário entre os dois níveis de cores (objeto e fundo). O problema

prático deste método, é quando a imagem está sujeita a ruídos e quando o objeto e o

fundo podem assumir uma ampla faixa de cinza. Outro problema é quando o fundo não

é uniforme.

Na Figura 2.11a, vemos um texto escaneado em escala de cinza. Na Figura 2.11b

temos o histograma de 2.11a, dividido em 256 níveis de cinza (0 a 255). Nas Figuras


(a) Texto escaneado (b) Histograma

Figura 2.11: Exemplo de um texto escaneado e o seu histograma

de 2.12a a 2.12f visualizamos a segmentação da Figura 2.11a, utilizando 6 limiares de

separação diferentes. Com isso, percebe-se que a escolha do limiar de separação deve ser

feita com a maior cautela possível (baseando-se no histograma da imagem), uma escolha

inadequada irá resultar em uma segmentação imprópria ou de pior qualidade.

Existem algumas técnicas para encontrar o melhor nível de separação para a limi-

arização de luminância de dois níveis. A solução para um histograma apresentado na

Figura 2.13, por exemplo, seria o mínimo da parábola, que aproxima o vale entre os picos

de luminosidade, o qual para a parábola 𝑦 = 𝑎𝑥2 + 𝑏𝑥+ 𝑐, é dado por 𝑥 = −𝑏/2𝑎.

Outros algoritmos para localizar um limiar de separação foram desenvolvidos: Otsu

(1979) desenvolveu um algoritmo usando diferença euclidiana. Posteriormente, Sahoo

et al. (1988) reportaram que o método desenvolvido por Otsu (1979) é a melhor técnica

de seleção de um limiar que eles tenham testado (sendo hoje uma das técnicas mais

consolidadas para obtenção de tal limiar de separação).

Limiarização multinível de luminância

Uma segmentação eficaz pode ser obtida em algumas classes de imagens utilizando uma

aplicação recursiva da limiarização multinível sugerida por Tomita et al. (1973). Na

primeira etapa do processo, a imagem é limiarizada para separar a região com maior


(a) Nível 100 (b) Nível 150

(c) Nível 180 (d) Nível 210

(e) Nível 230 (f) Nível 240

Figura 2.12: Exemplo de segmentação de uma única imagem utilizando vários níveis deseparação


Figura 2.13: Parábola que aproxima o vale entre os dois picos de luminosidade

luminância da região com menor luminância. Este processo é repetido enquanto o his-

tograma não for unimodal, conforme as Figuras 2.15a a 2.16d.

2.3.2 Segmentação por Agrupamento

A segmentação por agrupamento ganhou destaque na comunidade científica com a pub-

licação de Haralick e Kelly (1969), onde imagens aéreas multi-espectrais, de regiões agrí-

colas, eram segmentadas de acordo com sua cobertura de terra. A segmentação por

agrupamento é simples, mas normalmente necessita de um grande poder computacional.

Considerando-se um vetor 𝑥 = [𝑥1, 𝑥2, ..., 𝑥𝑁 ]𝑇 mensurando cada pixel de coorde-

nadas (j,k) em uma imagem. A medida de cada pixel pode ser valores multiespectrais,

componente de cor, cor derivada, ou até características dos pixels vizinhos, como a mé-

dia e desvio padrão sobre uma janela de movimento. Na Figura 2.17, podemos ver um

exemplo de agrupamento para um vetor 𝑥 com duas dimensões.


(a) Imagem original (b) Histograma

(c) Segmento 0 (d) Histograma

(e) Segmento 1 (f) Histograma

Figura 2.14: Segmentação multinível, primeiro nível de segmentação


(a) Segmento 00 (b) Histograma


Figura 2.15: Segmentação multinível, segundo nível, primeira ramificação


(a) Segmento 10 (b) Histograma


Figura 2.16: Segmentação multinível, segundo nível, segunda ramificação


Coleman e Andrews (1979) desenvolveram uma segmentação de imagem robusta e

relativamente eficiente. A Figura 2.18 é um diagrama de fluxo que descreve a versão sim-

plificada do algoritmo de segmentação de imagens monocromáticas. O primeiro estágio

do algoritmo envolve a extração das características. Em um conjunto de experimentos,

Coleman e Andrews (1979) utilizaram 12 medidas em janelas quadradas de tamanho 1x1,

3x3, 7x7 e 15x15 pixels. No segmentador (última etapa), cada pixel é associado ao centro

mais próximo.

O algoritmo de computação dos agrupamentos começa por estabelecer dois centros de

agrupamentos iniciais. Todos os vetores de características são associados ao centro mais

próximo. Em seguida, o número de centros de agrupamentos é incrementado por uma

unidade, e o fator de qualidade 𝛽 é computado a cada iteração, até que o valor máximo de

𝛽 seja determinado. Isto estabelece o número ótimo de agrupamentos. Quando o número

de agrupamentos é incrementado por uma unidade, o novo centro do agrupamento torna

o vetor de característica mais distante do seu atual centro mais próximo. O fator 𝛽 é

definido por

𝛽 = 𝑡𝑟{𝑆𝑊 }𝑡𝑟{𝑆𝐵} (2.2)

onde 𝑆𝑊 e 𝑆𝐵 são a matriz interna e entre agrupamentos de dispersão, sendo 𝑡𝑟{.} o

traço da matriz. A matriz interna de dispersão (𝑆𝑊 ) é calculada por

𝑆𝑊 =1

𝐾

𝐾∑︁𝑘=1

1

𝑀𝑘

∑︁𝑥𝑖𝜖𝑆𝑘

(𝑥𝑖 − 𝑢𝑘)(𝑥𝑖 − 𝑢𝑘)𝑇 (2.3)

onde K é um número de agrupamentos, 𝑀𝑘 é o número de elementos no vetor no k-ésimo

agrupamento, 𝑥𝑖 é o vetor de elementos no k-ésimo agrupamento, 𝑢𝑘 é a média do k-

ésimo agrupamento e 𝑆𝑘 é o conjunto de elementos no k-ésimo agrupamento. A matriz

de dispersão entre-agrupamentos (𝑆𝐵) é definida por


Figura 2.17: Agrupamento de classes para uma medida bi-dimensionalFonte: Pratt (2007)

𝑆𝐵 =1

𝐾

𝐾∑︁𝑘=1

(𝑢𝑘 − 𝑢0)(𝑢𝑘 − 𝑢0)𝑇 (2.4)

onde 𝑢0 é a média de todos os vetores de características, calculado por

𝑢0 =1

𝑀

𝑀∑︁𝑖=1

𝑥𝑖 (2.5)

onde 𝑀 representa o número de pixels que deverão ser agrupados. Coleman e Andrews

(1979) conseguiu, subjetivamente, um excelentes resultados do seu algoritmo de agrupa-

mento em imagens coloridas e monocromáticas.

2.3.3 Segmentação de pele

A detecção de pele tem um papel muito importante em várias aplicações de visão com-

putacional, entre os principais estão a localização/reconhecimento facial, reconhecimento

de gestos, segurança visual.

Normalmente, a região de pele é segmentada e detectada por correspondência de


Figura 2.18: Versão simplificada do algoritmo de segmentação de Coleman e Andrews(1979)

Fonte: Pratt (2007)

histograma, classificação estatística e limiarização baseada em pixel ou por agrupamento

(Huang et al., 2008).

A cor da pele humana de raças diferentes, embora percebida diferentemente pelos

humanos, diferencia-se apenas em intensidade, ao invés de crominância. A invariância de

crominância da pele humana possibilita a implementação de um método simples e consis-

tente método de segmentação de pele. Para o problema de detecção de face envolvendo

imagens coloridas contendo cenas complexas, recomendam-se os trabalhos de Petrescu e

Gelgon (2000) e de Manza (2010).

O algoritmo utilizado neste trabalho para segmentação de pele foi baseado no trabalho

de Jones e Rehg (1999) e Zheng et al. (2004), utilizando um modelo representativo da

pele, construído a partir de um conjunto de imagens de treinamento contendo amostras

de pele retiradas de diversos pontos da face, de vários indivíduos de diferentes idades,

etnias e ambos os sexos.

Neste algoritmo a imagem em estudo, em formato RGB, é processada de forma a

diminuir a influência da luminosidade. A imagem é convertida para o formato de cor

YCbCr, onde Y representa a intensidade luminosa (sendo descartada na segmentação). O

processo também é realizado nas amostras de pele, utilizando-se apenas as componentes

de crominância.


Figura 2.19: Exemplo do plano de espaço de cor YCbCr com Y fixado em 0.5 (utilizandouma escala de 0 a 1)

Conversão da imagem no formato RGB para YCbCr

YCbCr é conhecido como o espaço de cores puras, onde o Y representa a intensidade

luminosa, Cb a componente de diferença de azul e Cr a componente de diferença de

vermelho. Na Figura 2.19, é possível ver o espaço de cor do YCbCr para o Y fixado em

0.5.

A Figura 2.20 exemplifica como os canais do formato YCbCr são distribuídos. Pode-

mos visualizar que toda a informação de luminância se concentra no canal Y e as infor-

mações de cores nos canais Cb e Cr.

A conversão entre o espaço de cor RGB e o espaço de cor YCbCr é realizado através

da Equação 2.6 (Kuo et al., 2006). Os valores obtidos em YCbCr estarão entre 0 e 255.

⎡⎢⎢⎢⎢⎣𝑌

𝐶𝑏

𝐶𝑟

⎤⎥⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎣0.257 0.504 0.098

−0.148 −0.291 0.439

0.439 −0.368 −0.071

⎤⎥⎥⎥⎥⎦⎡⎢⎢⎢⎢⎣

𝑅

𝐺

𝐵

⎤⎥⎥⎥⎥⎦+

⎡⎢⎢⎢⎢⎣16

128

128

⎤⎥⎥⎥⎥⎦ (2.6)

A Figura 2.21 exibe algumas amostras de pele utilizadas para gerar a função de


(a) RGB (b) Y

(c) Cb (d) Cr

Figura 2.20: Exemplo da imagem em YCbCr

Figura 2.21: Algumas amostras de pele utilizadas para gerar a função de densidade deprobabilidade de um pixel ser de pele


(a) Imagem original (b) Probabilidade do pixel

(c) Imagem binária inter-mediária

(d) Imagem binária

Figura 2.22: Exemplo da aplicação da probabilidade em cada pixel de uma imagem

densidade de probabilidade de um pixel ser de pele, representado pela Figura 2.23. Como

é possível perceber, a função de densidade de probabilidade é gaussiana e cada pixel da

imagem recebe uma probabilidade de ser de pele de acordo com a Equação 2.7.

𝑓(𝐶𝑏,𝐶𝑟) = 𝑒−12(𝑥−𝜇)𝑇𝐶−1(𝑥−𝜇) (2.7)

Onde 𝑥 = (𝐶𝑏,𝐶𝑟)𝑇 , 𝜇 = 𝐸{𝑥} e 𝐶 = 𝐸{(𝑥 − 𝜇)(𝑥 − 𝜇)𝑇 }. C é uma matriz 2x2 onde

sua inversa será calculada uma única vez.

A Figura 2.22b mostra a segmentação da imagem utilizando a Equação 2.7, onde

cada pixel recebe uma probabilidade de ser pele. A Figura 2.22c exibe a segmentação

por limiarização, considerando cada pixel com probabilidade superior a 0.4 (obtido em-

piricamente) e a Figura 2.22d exibe o objeto final, após a aplicação de operadores mor-

fológicos de abertura e fechamento. Esta segmentação de pele foi utilizada originalmente

33 2.4. Rotação de imagens

Figura 2.23: Exemplo da função de densidade de probabilidade representativo da pele

por Carvalho e Tavares (2005) para localizar faces.

2.4 Rotação de imagens

A rotação de um sistema de coordenadas possui duas propriedades importantes. O vetor

não tem o seu tamanho ou norma modificados e o sistema de coordenadas continua

ortogonal. A transformação com essas duas propriedades é conhecido na álgebra como

transformação ortonormal.

A imagem rotacionada por ser calculada através da Equação 2.8, realizando uma

rotação 𝜃 em sentido anti-horário (observar Figura 2.24), os pixels na nova imagem que

não possuem correspondentes na imagem antiga são preenchidos utilizando a interpolação

dos pixels ao redor.

⎡⎢⎣ 𝑥′

𝑦′

⎤⎥⎦ =

⎡⎢⎣ cos 𝜃 − sin 𝜃

sin 𝜃 cos 𝜃

⎤⎥⎦⎡⎢⎣ 𝑥

𝑦

⎤⎥⎦ (2.8)

Na Figura 2.25b, nas quatro pontas, existem regiões na cor preta, que são pixels que

não existiam na imagem sem rotação.


Figura 2.24: Ilustração de uma rotação 𝜃

(a) Imagem Original (b) Imagem rotacionada

Figura 2.25: Exemplo de rotação em uma imagem em 𝜋5 rad, utilizando interpolação

bilinear (Späth, 1995) e sem preenchimento de pixels inexistentes.

Capítulo 3

Técnicas de localização facial

Neste capítulo serão apresentadas algumas técnicas de localização facial que apresentam

bons resultados na literatura atual. Começaremos pelas Redes Neurais Convolutivas, que

é uma das novidades e seguiremos pela técnica de Viola e Jones (2001) que, sem dúvida,

é a principal técnica de localização facial da atualidade.

3.1 Rede Neural Convolutiva

A Rede Neural Convolutiva é uma classe especial de perceptrons de múltiplas camadas.

Uma rede convolutiva é um perceptron de múltiplas camadas projetado para reconhecer

formas bidimensionais com um alto grau de invariância quanto a translação, escala,

inclinação e outras formas de distorção. Esta difícil tarefa é aprendida de uma forma su-

pervisionada por meio de uma rede cuja estrutura inclui as seguintes formas de restrições

(LeCun e Bengio, 1995):

1. Extração de características. Cada neurônio recebe seus sinais de entrada de um

campo receptivo local na camada anterior, o que o força a extrair características

locais. Uma vez que uma característica seja extraída, sua localização exata se torna

menos importante desde que a sua posição em relação a outras características seja

Capítulo 3. Técnicas de localização facial 36

aproximadamente preservada.

2. Mapeamento de características. Cada camada computacional da rede é composta

de múltiplos mapas de características, sendo cada mapa de características na forma

de um plano dentro do qual os neurônios individuais estão restritos a compartilhar

o mesmo conjunto de pesos sinápticos.

� Invariância a deslocamento, introduzida na operação de um mapa de carac-

terísticas através do uso de convolução com um núcleo (kernel) de pequeno

tamanho, seguido por uma função sigmóide (limitadora)

� Redução do número de parâmetros livres, obtida através do uso de compartil-

hamento de pesos.

3. Subamostragem. Cada camada convolutiva é seguida por uma camada computa-

cional que calcula a média local e realiza uma subamostragem, reduzindo, desta

forma, a resolução do mapa de características. Esta operação tem o efeito de re-

duzir a sensibilidade da saída do mapa de características em relação a deslocamentos

e outras formas de distorção.

O desenvolvimento de redes convolutivas, como descrito acima, tem motivação neu-

robiológica, com origem no trabalho de Hubel e Wiesel (1962) sobre sensibilidade local e

neurônios seletivos à orientação no córtex visual de um gato.

A Figura 3.1 mostra a planta arquitetural por uma rede convolutiva constituída de

uma camada de entrada, quatro camadas ocultas e uma camada de saída. Esta rede é

projetada para realizar processamento de imagens. A camada de entrada, constituída de

28x28 nós sensoriais, recebe a imagem de diferentes caracteres manuscritos que foram

aproximadamente centradas e normalizadas em tamanho. Depois disso, as plantas com-

putacionais se alternam entre convolução e sub-amostragem.

37 3.1. Rede Neural Convolutiva

Figura 3.1: Rede convolutiva para o processamento de imagens

� A primeira camada oculta realiza convolução. Consiste de quatro mapas de car-

acterísticas, com cada mapa consistindo de 24x24 neurônios. A cada neurônio é

atribuído um campo receptivo de tamanho 5x5.

� A segunda camada oculta realiza subamostragem e calcula a média local. Consiste

também de quatro mapas de características, mas cada mapa é constituído agora

de 12x12 neurônios. Cada neurônio tem um campo receptivo de tamanho 2x2,

um coeficiente treinável, um bias treinável e uma função de ativação sigmóide.

O coeficiente treinável e o bias controlam o ponto de operação do neurônio; por

exemplo, se o coeficiente é pequeno, o neurônio opera em um modo quase linear.

� A terceira camada oculta realiza uma segunda convolução. Consiste de 12 mapas de

características, com cada mapa consistindo de 8x8 neurônios. Cada neurônio nesta

camada oculta pode ter conexões sinápticas com vários mapas de características

da camada oculta antecedente. De resto, ela opera de forma similar à primeira

camada convolutiva.

� A quarta camada oculta realiza uma segunda subamostragem e cálculo da média

local. Consiste de 12 mapas de caractetísticas, mas cada mapa consiste de 4x4

neurônios. De resto, opera de forma similar à primeira camada de subamostragem.

� A camada de saída realiza um estágio final de convolução. Consiste de 26 neurônios,


sendo que a cada neurônio é atribuído um caracter de 26 caracteres possíveis. Como

anteriormente, a cada neurônio é atribuído um campo receptivo de tamanho 4x4.

O perceptron de múltiplas camadas descrito na Figura 3.1 contém aproximadamente

100.000 conexões sinápticas, mas apenas cerca de 2600 parâmetros livres. Esta dramática

redução do número de parâmetros livre é obtida pelo uso de compartilhamento de pesos.

A capacidade da máquina de aprendizagem é, desta forma, reduzida, o que, por sua

vez, melhora a sua habilidade de generalização. O que é ainda mais notável é que os

ajustes dos parâmetros livres são feitos a partir da forma estocástica da aprendizagem

por retropropagação

A arquitetura apresentada na Figura 3.1 é chamada de LeNet-5 (LeCun et al., 1998),

foi utilizada para realizar o reconhecimento dos caracteres manuscritos do alfabeto. As

aplicações das Redes Neurais Convolutivas no reconhecimento de padrões em imagens

vai muito além do reconhecimento de caracteres, existem aplicações em reconhecimento

de objetos e inclusive face.

Poucas foram as pesquisas que realizaram publicações na arquitetura original da

rede convolutiva. As pesquisas mais promissoras realizaram algumas modificações na

arquitetura como é o caso de Matsugu et al. (2002); Tivive e Bouzerdoum (2004, 2003).

Tivive e Bouzerdoum (2003) conseguindo um resultado de até 96.9% de acerto.

3.2 Técnica de Viola-Jones

Desenvolvida por Viola e Jones (2001), é possivelmente a técnica de localização de

faces/objetos mais utilizada no meio científico e na industria, sendo facilmente encon-

trado em câmeras fotográficas digitais, softwares de webcam e na maioria dos softwares

de identificação facial (a quem pertence a face). Sua principal vantagem é baixa com-

plexidade computacional e sua paralelização, podendo realizar a localização da face em

uma imagem de 320x240 em tempo real.

39 3.2. Técnica de Viola-Jones

Esta técnica não utiliza do movimento de um vídeo nem da cor do pixel para acel-

erar o processamento da imagem. É utilizada a ideia de Janela de Processamento que

extrai características da imagem, aplica-a a uma árvore de decisão que iterativamente irá

informar a existência ou não de uma face nesta janela.

Existem 3 pontos importantes na concretização do algoritmo, que seriam a Integral da

Imagem o que permite uma rápida avaliação da característica de cada janela esquecendo

a ideia de trabalhar diretamente com a luminosidade do pixel, o método com que o

classificador é construído, que seleciona o mínimo de características a serem treinadas

com uma implementação do AdaBoost (Adaptative Boosting) e por último a combinação

sucessiva entre classificadores simples em uma estrutura em cascata.

3.2.1 Extração de Características

A extração de características é baseada em uma ideia simples, que não utiliza diretamente

a intensidade do pixel, o que torna a tarefa de aprendizagem mais fácil, o que é um dos

motivos para a grande velocidade da técnica.

A característica utilizada é a transformada de Haar exemplificada por Horta (2007)

para segmentar regiões da imagem, como mostrado na Figura 3.2, da forma como descrita

por Papageorgiou et al. (1998).

A característica nada mais é do que a soma de todos os pixels da região branca

subtraído da soma dos pixels da região hachurada.

3.2.2 Integral da imagem

Um algoritmo convencional para calcular a característica descrita em 3.2.1. seria a utiliza-

ção de 2 laços aninhados para realizar a soma de cada uma das regiões de cada retângulo

e em seguida realizar a subtração de cada um, como demonstrado pelo Algoritmo 1:

onde I(x,y) é a luminância da imagem

A Integral da Imagem acelera esse cálculo realizando apenas uma vez, fazendo com


Figura 3.2: Exemplo de retângulos de características. 2 retângulos de características sãoexibidos em A e B, 3 retângulos de características são exibidos em C e 4 retângulos emD

que o cálculo da característica seja realizado com pouquíssimas operações aritméticas. A

equação 3.1 representa como a obtemos.

𝑖𝑖(𝑥,𝑦) =∑︁

𝑥′≤𝑥,𝑦′≤𝑦

𝑖(𝑥′,𝑦′) (3.1)

onde ii(x,y) é a Integral da Imagem e i(x,y) é o valor do pixel da imagem original. Com

esta representação é possível calcular a soma de qualquer retângulo realizando apenas 4

acessos a matriz da Integral da Imagem.

A Figura 3.3 ilustra como a Integral da imagem funciona. No ponto 1 teremos a soma

de todas os valores dos pixels da imagem a partir do ponto (0,0).

A soma de todos os pixels da área D é calculada realizando 4 acessos a ii(x,y) como

demonstrado na equação 3.2.

𝐴𝐷 = 𝑉4 − 𝑉3 − (𝑉2 − 𝑉1) (3.2)

Na Figura 3.4 tem-se um exemplo de uma das caraterísticas explicadas em 3.2.1. Para


𝑎𝑙𝑡𝑏 ← altura da região branca𝑎𝑙𝑡ℎ ← altura da região hachurada𝑙𝑎𝑟𝑔𝑏 ← largura da região branca𝑙𝑎𝑟𝑔ℎ ← largura da região hachurada𝑠𝑜𝑚𝑎1 ← 0;for 𝑥← 1 to 𝑙𝑎𝑟𝑔𝑏 do

for 𝑦 ← 1 to 𝑎𝑙𝑡𝑏 do𝑠𝑜𝑚𝑎1 ← 𝑠𝑜𝑚𝑎1 + 𝐼(𝑥,𝑦);

𝑠𝑜𝑚𝑎2 ← 0;for 𝑥← 1 to 𝑙𝑎𝑟𝑔ℎ do

for 𝑦 ← 1 to 𝑎𝑙𝑡𝑏 do𝑠𝑜𝑚𝑎2 ← 𝑠𝑜𝑚𝑎2 + 𝐼(𝑥,𝑦)

𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑖𝑠𝑡𝑖𝑐𝑎← 𝑠𝑜𝑚𝑎1 − 𝑠𝑜𝑚𝑎2Algoritmo 1: Cálculo de uma característica como mostrado na Figura 3.2 A ou B

calcular esta característica é necessário realizar apenas seis acessos a Integral da Imagem

como é demonstrado na equação 3.3.

𝐴𝑟𝑒𝑎𝑏𝑟𝑎𝑛𝑐𝑎 = 𝑉6 − 𝑉5 − (𝑉4 − 𝑉3)

𝐴𝑟𝑒𝑎ℎ𝑎𝑐ℎ𝑢𝑟𝑎𝑑𝑎 = 𝑉4 − 𝑉3 − (𝑉2 − 𝑉 1)

𝐶𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑖𝑠𝑡𝑖𝑐𝑎 = 𝐴𝑟𝑒𝑎𝑏𝑟𝑎𝑛𝑐𝑎 −𝐴𝑟𝑒𝑎ℎ𝑎𝑐ℎ𝑢𝑟𝑎𝑑𝑎 (3.3)

3.2.3 Classificador AdaBoost

Com a ideia da Integral da Imagem formada podemos partir para o classificador. Uma

variação do Adaptative Boosting (Kuncheva, 2004) é utilizadoa tanto para selecionar

um pequeno conjunto de características como para treinar o classificador. Na sua forma

original, o AdaBoost é utilizado para auxiliar o treinamento de classificadores simples,

do tipo simples separadores lineares. O classificador linear simples é definido por:

𝑆 =

𝑐∑︁𝑖=1

𝑊 [𝑖]𝑥𝐼𝑛𝑡𝑒𝑔𝑟𝑎𝑙𝐼𝑚𝑎𝑔𝑒𝑚[𝐹.𝐼𝑛𝑑𝑒𝑥[𝑖]], (3.4)


Figura 3.3: Cálculo de uma região retangular

𝐹.𝑠𝑐𝑜𝑟𝑒 = 𝑎𝑏𝑠(𝑆 − 𝐹.𝑚𝑒𝑑𝑖𝑎_𝑓𝑎𝑐𝑒) < 𝑎𝑏𝑠(𝑆 − 𝐹.𝑚𝑒𝑑𝑖𝑎_𝑛𝑎𝑜_𝑓𝑎𝑐𝑒), (3.5)

𝐹𝑎𝑐𝑒𝐿𝑜𝑐𝑎𝑙𝑖𝑧𝑎𝑑𝑎 =

𝑛∑︁𝑗=1

𝐹 [𝑗].𝑠𝑐𝑜𝑟𝑒 > 𝑙𝑖𝑚𝑖𝑎𝑟 (3.6)

onde c é o número de características, o i representa cada característica utilizada pelo

classificador, W é o vetor de pesos para as características, IntegralImagem[F.Index[i]]

representa o resultado da operação da transformada de Haar na imagem. S é o so-

matório das características para cada classificador, F.media_face é a média para S que o

classificador encontrou durante o treinamento de amostras positivas, F.media_nao_face

é a média para S durante o treinamento de amostras negativas, limiar é a separação para

o somatório de todas as características do classificador. Se o somatório ultrapassar o

limiar, o classificador simples considera como face.

É utilizada uma janela de 24x24 pixels para extrair as características discutidas em

3.2.1. Nesta janela é possível formar uma combinação de aproximadamente 180.000

características. Esta combinação é absurdamente elevada, e qualquer classificador que

tivesse que analisar todas estas combinações estaria fadado a lentidão na classificação.


Figura 3.4: Cálculo de um elemento de característica

Para solucionar este problema, o classificador é projetado para uma única caracterís-

tica que melhor separe um exemplo positivo de um exemplo negativo de face. Para cada

característica, um classificador simples determina um limiar de separação ótimo para a

função de classificação.

Um classificador simples ℎ𝑗(𝑥) consiste de uma característica 𝑓𝑗 , um limiar 𝜃𝑗 e uma

paridade 𝑝𝑗 que indica a direção do sinal da inequação:

ℎ(𝑥) =

⎧⎪⎨⎪⎩ 1 𝑠𝑒𝑝𝑗𝑓𝑗(𝑥) < 𝑝𝑗𝜃𝑗

0 𝑐.𝑐.

Na prática, apenas uma característica não é suficiente para realizar uma detecção

com poucos erros. As características são selecionadas em vários passos, como ilustrado a

seguir.

� Obter amostras das imagens (𝑥1,𝑦1), ..., (𝑥𝑛,𝑦𝑛), onde 𝑦𝑖 = 0,1 para exemplos pos-

itivos e negativos da imagem


� Inicializar os pesos 𝑢1,𝑖 =12𝑚 , 12𝑙 para 𝑦𝑖 = 0,1 respectivamente, onde m e l são o

número de amostras negativas e positivas, respectivamente

� Para t = 1, ..., T:

1. Normalize os pesos, 𝑢𝑡,𝑖 ← 𝑢𝑡,𝑖∑︀𝑛𝑗=1 𝑢𝑡,𝑗

, onde 𝑢𝑡 é uma distribuição de probabili-

dade.

2. Para cada característica, j, treinar o classificador ℎ𝑗 , que deve ser treinado ape-

nas com esta característica. O erro é avaliado observando 𝑢𝑡, 𝜖𝑗 =∑︀

𝑖 𝑢𝑖|ℎ𝑗(𝑥𝑖)−

𝑦𝑖|

3. Escolher o classificador ℎ𝑡, com o menor erro 𝜖𝑡.

4. Atualize os pesos: 𝑢𝑡+1,𝑖 = 𝑢𝑡,𝑖𝛽1−𝜖𝑖𝑡

onde 𝜖𝑖 = 0 se o exemplo 𝑥𝑖 é classificado corretamente, 𝜖𝑖 = 1 caso contrário,

e 𝛽𝑡 =𝜖𝑡

1−𝜖𝑡.

� O melhor classificador é

ℎ(𝑥) =

⎧⎪⎨⎪⎩ 1∑︀𝑇

𝑡=1 𝛼𝑡ℎ𝑡(𝑥) ≥ 12

∑︀𝑇𝑡=1 𝛼𝑡

0 𝑐.𝑐.

onde 𝛼𝑡 = log 1𝛽𝑡

O resultado da utilização do algoritmo para a seleção de um conjunto reduzido de

características pode ser demonstrado na Figura 3.5. É possível perceber que as carac-

terísticas selecionadas foram a de dois retângulos na altura dos olhos com o nariz e a

outra foi entre os olhos e a testa. No primeiro caso o algoritmo percebeu a diferença de

luminosidade entre o nariz e a região dos olhos, no segundo caso percebeu a semelhança

de luminosidade entre os olhos e a diferença para a região superior do nariz.


Figura 3.5: Características selecionadas pelo AdaBoost

O segredo para ter uma detecção rápida é ter uma sequência de classificadores. O

primeiro classificador descarta a maioria das sub-janelas da imagem com falso-positivo

com pouquíssimo processamento, pois realiza o cálculo de apenas 2 características (Figura

3.5), Viola e Jones (2001) estimam que essa operação é realizada com aproximadamente

60 instruções de um microprocessador, os classificadores seguintes realizam a mesmo

procedimento, mas utilizam um número maior de características. À medida que a sub-

janela passa pelos classificadores ela é aplicada a outro classificador mais complexo e que

utiliza mais processamento. Se a sub-janela passar em todas as etapas é reconhecida

como uma face. A Figura 3.6 ilustra esta árvore de decisão. Nesta figura é possível

observar que existe um nível hierárquico entre os classificadores, o primeiro classificador

é aplicado a todas as imagens, caso ele classifique como face, o segundo classificador é

aplicado e assim por diante. As sub-janelas rejeitadas são descartadas como faces não

sendo necessário a aplicação do restante dos classificadores.

Pelo fato dos classificadores serem treinados com a meta heurística AdaBoost, os clas-

sificadores subsequentes são treinados com as amostras que os primeiros classificadores

possuem maior dificuldade, ou seja os falso-positivo que passam pelos primeiros classifi-

cadores dificilmente irão passar pelos classificadores subsequentes.


Figura 3.6: Figura esquemática da árvore de decisão em cascata

A varredura da imagem

A varredura da imagem é realizada a partir do pixel (0,0) com uma sub-janela de 24x24

pixels. A busca segue crescendo no eixo X, seguido pelo eixo Y (linha a linha). Ao

término da busca de 24x24 pixels a janela é aumentada por um fator de escala e o

processo recomeça com a sub-janela de um tamanho aumentado. Isto se repete até que

a sub-janela esteja do tamanho da janela original.

Treinamento

Classificadores com mais características possuem uma taxa de falsos-positivos menor e

uma alta taxa de detecção. Em contrapartida, necessitam de mais processamento. A

técnica ideal seria, para cada classificador, selecionar um limiar de separação entre as

amostras positiva e negativamente classificadas, de forma que minimize o número de

características que serão utilizadas. Solucionar este problema, porém, não é simples.

Na prática uma técnica simples é utilizada para o treinamento. Em cada estágio

de treinamento é selecionado um limite mínimo de reconhecimento e um limiar máximo

de falsos-positivos. O treinamento consiste em acrescentar retângulos de característi-

cas como descrito na Sessão (3.2.1) nas várias faces que fazem parte do treinamento


Figura 3.7: Exemplo de faces que fazem parte do treinamento

(na Figura 3.7 se podem observar exemplos das faces) até que esses parâmetros sejam

respeitados. Terminado este procedimento, o treinamento está concluído.

Capítulo 4

Deteção de rotação de face

Este capítulo irá apresentar o método proposto para realizar a localização facial assim

como o seu ângulo de rotação. A segmentação da pele na imagem é realizada através do

método proposto por Jones e Rehg (1999) e Zheng et al. (2004) e o ângulo de rotação

estimado através da densidade dos pixels.

Visão Geral

O método se divide em 3 principais etapas. Na primeira etapa a imagem é segmentada,

na segunda é calculada a dispersão dos pixels e na terceira etapa a imagem é rotacionada

no sentido inverso. A Figura 4.1 apresenta o diagrama de blocos de todo o processo

realizado para localizar a face.

Inicialmente a imagem é convertida do espaço de cor RGB para YCbCr, onde as

características da pele podem ser detectadas nos canais Cb e Cr. Cada canal é uma nova

imagem em escala de cinza. Na etapa de segmentação, a cada par de pixel (das imagens

Cb e Cr) é aplicada a Equação 2.7 (Página 32): e todos os pixels com probabilidade

superior a 0.4 são considerados pixels de pele. A saída do processo de segmentação é

uma imagem binária (Figura 2.22d, Página 32). Na etapa seguinte é calculada a matriz

de covariância (Equação A.8, Página 62), que irá calcular a variância e covariância dos

49

Figura 4.1: Diagrama de blocos do processo

vetores 𝑥 e 𝑦 da imagem binária, formados com a posição espacial de cada pixel. Em

seguida é calculado os autovalores e autovetores da matriz de covariância, onde será

obtido o ângulo médio de dispersão dos pixels, dado por

𝜃 = 𝑐𝑜𝑠−1(𝑒𝑚 · 𝑦𝑣) (4.1)

onde 𝑒𝑚 é o autovetor de maior autovalor e 𝑦𝑣 é o vetor vertical (1,0)𝑇 . Como a face pode

estar de cabeça para baixo, estima-se um segundo ângulo acrescido de 𝜋 rad, resultando

em 𝜃1 e 𝜃2. Com os dois ângulos estimados são geradas duas novas imagens (baseando-se

na imagem original), essas imagens são rotacionadas em sentido contrário (ou seja, −𝜃1

e −𝜃2) e aplicadas ao algoritmo de Viola e Jones (2001).

Capítulo 5

Resultados

Todas as imagens apresentadas neste capítulo foram obtidas através do software imple-

mentado para este trabalho, na linguagem C. Os resultados foram obtidos aplicando o

algoritmo de Viola e Jones (2001) e aquele aqui o proposto a um vídeo. A Figura 5.1

exibe alguns frames comparando o desempenho do método de Viola-Jones e do método

proposto. Nesta figura, mostra-se que o método de Viola-Jones consegue localizar faces

com algumas leves rotações, mas quando essa inclinação começa a se aproximar de 15°a

face deixa de ser localizada. Isto se deve ao fato de que as funções de base de Haar que

são utilizadas como descritores deixam de aprovar a imagem como uma possível face, as

características da localização espacial dos olhos, boca, nariz se perdem (Ver Figura 3.5,

na Página 45). Neste momento o método proposto é ativado para estimar o ângulo de

rotação, realizando uma rotação inversa e possibilitando que o método de Viola-Jones

possa novamente localizar a face.

A Figura 5.2 mostra o erro na estimativa do ângulo de rotação. Para realizar o

experimento foi utilizada uma foto sem rotação na face. Esta foto foi rotacionada em

ângulos variando de 0°a 360°, armazenado o ângulo estimado e o ângulo real. A Linha

preta representa o seno do ângulo real de rotação da face (obtido utilizando a Equação

2.8), enquanto a linha azul é o seno ângulo estimado. O erro médio de 5.5297 graus com

51

(a) Viola-Jones/Proposto (b) Viola-Jones/Proposto

Figura 5.1: A esquerda (em a e b) frames aplicados ao Viola-Jones, a direita (em a e b)aplicados ao método proposto

Figura 5.2: Comparação entre o seno do ângulo real e do estimado

Capítulo 5. Resultados 52

Figura 5.3: Amostras em um ambiente diferente. Viola-Jones/Proposto

variância de 2.7376 graus.

A Figura 5.3 é um exemplo do resultado em um ambiente completamente diferente,

com uma textura de pele diferente, com iluminação diferente. Neste novo ambiente,

mesmo com um foco de luz atrás da face, o método proposto se mostrou eficiente em

localizar a face. É possível perceber que o algoritmo está sujeito aos falsos-positivos

gerados pela técnica de Viola-Jones (Figura 5.3, quarta linha), uma vez que só entra em

ação quando o método de Viola-Jones é incapaz de localizar a face, como o algoritmo de

Viola-Jones informa que localizou uma face (mesmo não existindo) o método proposto

não é ativado.

A Tabela 5.1 apresenta uma comparação dos falsos-positivos (quando o algoritmo

localiza uma face que não existe) e falsos-negativos (quando o algoritmo deixa de lo-

calizar uma face existente) entre o método de Viola-Jones e o método aqui proposto.

O resultado foi extraído aplicando-se um vídeo com 1193 frames (Na Figura 5.4 são

53

Figura 5.4: Amostras de imagens utilizadas para realizar o teste de localização

Algoritmo Falso-positivo Falso-negativoViola-Jones 3.43% 46.71%Proposto 8.35% 4.02%

Tabela 5.1: Tabela comparativa entre os métodos de Viola-Jones e aquele aqui Proposto

exibidos alguns destes frames), contendo propositalmente variação na rotação da face,

gerando como saídas imagens como as encontradas pela Figura 5.1. Foi realizada uma

contagem (humana) da quantidade de erros contidos em cada imagem, assim como os

acertos. Embora a tabela não expresse a taxa de acerto, ela pode ser obtida através do

complemento da soma dos erros. Como o método proposto é acionado apenas quando

o método de Viola-Jones não localiza a face, o erro de falso positivo acaba sendo uma

soma do erro de Viola-Jones acrescido dos erros gerados pelo método proposto. Também

é possível perceber que a taxa de falso-negativo diminui de 46.71% para 4.02%.

Capítulo 6

Conclusão e Perspectivas Futuras

6.1 Conclusão

A Interação Humano-Computador é um dos temas mais abordados em feiras de tecnolo-

gia, mostrando que a operação através de um mouse ou teclado está ficando obsoleta.

Assim como os sistemas biométricos caminham para uma abordagem não invasiva, a lo-

calização da face e seu respectivo ângulo de rotação permitem que algoritmos já existentes

possam funcionar sem realizar modificações em seu funcionamento.

O método proposto mostrou-se satisfatório para uma grande quantidade de imagens

apresentadas, realizando a localização da face independente de seu ângulo de rotação

com uma pequena taxa de falso-positivo e falso-negativo. Uma notável melhora em

relação ao método de Viola-Jones é percebida a medida que o ângulo de rotação da face

cresce. Os métodos se segmentação de pele estão em constante evolução, possibilitando

a melhora dos resultados em um momento futuro. O desenvolvimento de uma heurística

para decidir quando utilizar apenas o Viola-Jones e quando utilizar o método proposto

poderia diminuir as taxas de falso-negativo, embora não fosse possível diminuir a taxa

de falso-positivo.

55 6.2. Perspectivas Futuras

6.2 Perspectivas Futuras

Este trabalho abre caminho para pesquisa na área de Interação Humano-Computador,

melhorando o seu desempenho, podendo ser usado em jogos que utilizam o movimento

da cabeça. A mesma ideia pode ser utilizada como um novo meio de comunicação entre

os tetraplégicos com os computadores,

Referências Bibliográficas

Brindley, G. S. (1963). Afterimages. Scientific American.

Carvalho, F. J. S. e Tavares, J. M. R. S. (2005). Metodologias para identificação de faces

em imagens: Introdução e exemplos de resultados. Congreso de Métodos Numéricos

en Ingeniería.

Coleman, G. B. e Andrews, H. C. (1979). Image segmentation by clustering. Proc. IEEE,

57.

Gonzalez, R. C. e Woods, R. E. (2008). Digital Image Processing, Third edition. Pearson.

Haralick, R. M. e Kelly, G. L. (1969). Pattern recognition with measurement space and

spatial clustering for multiple images. Proc. IEEE, 57.

Haralick, R. M. e Shapiro, L. G. (1985). Image Segmentation Techniques. Machine Vision

International.

Horta, T. C. O. (2007). Um estudo das transformadas wavelets de haar e gabor para

detecção de objetos. Master’s thesis, Universidade de Brasília.

Huang, D., Wunsch, D., Levine, D., e Jo, K. (2008). Advanced Intelligent Computing

Theories and Applications with Aspects of Contemporary Intelligent Computing Tech-

niques: 4th International Conference on Intelligent Computing, ICIC 2008 Shanghai,

57 Referências Bibliográficas

China, September 15-18, 2008, Proceedings. Communications in computer and infor-

mation science. Springer.

Hubel, D. H. e Wiesel, T. N. (1962). Receptive fields, binocular interaction and functional

architecture in the cat’s visual cortex. Journal of Phisiology.

Jones, M. J. e Rehg, J. M. (1999). Statistical color models with application to skin

detection. IEEE Conference on Computer Vision and Pattern Recognition.

Jähne, B. (2005). Digital Image Processing, 6th revised and extended edition. Springer.

Khan, N. (2006). Ethylene action in plants. Springer.

Kuncheva, L. I. (2004). Combining Pattern Classifiers, Methods and Algorithms. Wiley-

Interscience.

Kuo, S., Lee, B., e Tian, W. (2006). Real-time digital signal processing: implementations

and applications. John Wiley.

LeCun, Y. e Bengio, Y. (1995). The Handbook of Brain Theory and Neural Networks.

MIT Press.

LeCun, Y., Bottou, L., Bengio, Y., e Haffner, P. (1998). Gradient-based learning applied

to document recognition. Proceedings of the IEEE.

Manza, K. (2010). Computer Vision and Information Technology: Advances and Appli-

cations. I. K. International Pvt Ltd.

Matsugu, M., Mori, K., Ishii, M., e Mitarai, Y. (2002). Convolutional spiking neural net-

work model for robust face detection. Proceedings of the 9th International Conference

on Neural Networks.

Otsu, N. (1979). A threshold selection method from gray-level histograms.

Referências Bibliográficas 58

Papageorgiou, C., Oren, M., e Poggio, T. (1998). A general framework for object detec-

tion. International Conference on Computer Vision.

Petrescu, D. e Gelgon, M. (2000). Face detection from complex scene in colour images.

Proceedings of Eusipco2000, pp, 933-936.

Poynton, C. (2003). Digital video and HDTV: algorithms and interfaces. Morgan Kauf-

mann series in computer graphics and geometric modeling. Morgan Kaufmann Pub-

lishers.

Pratt, W. K. (2007). Digital Image Processing. Wiley Interscience.

Sahoo, P. K., Soltani, S., e Wong, A. K. C. (1988). SURVEY: A Survey of Thresholding

Techniques. Computer Graphics Image Processing.

Santos, R. (2001). Um curso de geometria analítica e álgebra linear. UFMG.

Späth, H. (1995). Two dimensional spline interpolation algorithms. Ak Peters Series.

A.K. Peters.

Tivive, F. H. C. e Bouzerdoum, A. (2003). A new class of convolutional neural networks

(siconnets) and their application of face detection. International Joint Conference on

Neural Networks.

Tivive, F. H. C. e Bouzerdoum, A. (2004). A face detection system using shunting

inhibitory convolutional neural networks. International Joint Conference on Neural

Networks.

Tomita, F., Yachida, M., e Tsuji, S. (1973). Detection of homogeneous regions by struc-

tural analysis.

Viola, P. e Jones, M. (2001). Rapid object detection using a boosted cascade of simple

features. Conference on Computer Vision and Pattern Recognition.

59 Referências Bibliográficas

Zheng, H., Daoudiy, M., e Jedynak, B. (2004). Blocking Adult Images Based on Statistical

Skin Detection. Electronic Letters on Computer Vision and Image Analysis, vol. 4,

pp. 1-14.

Apêndice A

Apêndice A

A.0.1 Matriz de variância e covariância

Sejam 𝑥1,...,𝑥𝑛 variáveis aleatórias com variâncias 𝜎21,· · · ,𝜎2

𝑛 e covariâncias 𝜎12,𝜎13,· · · ,𝜎(𝑘−1)𝑘.

Ou seja:

𝜎2𝑖 = 𝐸[(𝑥𝑖 − 𝐸(𝑥𝑖))

2], 𝜎𝑖𝑗 = 𝐸[(𝑥𝑖 − 𝐸(𝑥𝑖))(𝑥𝑗 − 𝐸(𝑥𝑗))], 𝑝𝑎𝑟𝑎 𝑖 ̸= 𝑗 (A.1)

Reunindo as variâncias e covariâncias em uma matriz, ficamos com

𝑉 𝑎𝑟(𝑋) = 𝑉 =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

𝜎21 𝜎12 · · · 𝜎1𝑛

𝜎12 𝜎22 · · · 𝜎2𝑛

......

......

𝜎1𝑛 𝜎2𝑛 · · · 𝜎2𝑛

⎤⎥⎥⎥⎥⎥⎥⎥⎦(A.2)

que é chamada de matriz de variância e covariância ou matriz de dispersão

das variáveis aleatórias 𝑥1,· · · ,𝑥𝑛. Ela é simétrica (𝑉 𝑡 = 𝑉 ), o elemento de posição i,i é

a variância da variável 𝑥𝑖 e o elemento i,j para 𝑖 ̸= 𝑗, é a covariância, entre as variáveis

𝑥𝑖 e 𝑥𝑗 . Assim, podemos expressar V como

61

𝑉 = 𝑉 𝑎𝑟(𝑋) = 𝐸[(𝑋 − 𝐸(𝑋))(𝑋 − 𝐸(𝑋))𝑡] (A.3)

Seja A uma matriz m × n. Então,

𝐸(𝐴𝑋) = 𝐴𝐸(𝑋) (A.4)

pois

𝐸(𝐴𝑋) = 𝐸

⎡⎢⎢⎢⎢⎢⎢⎢⎣

𝑎11𝑥1 + 𝑎12𝑥2 + · · · + 𝑎1𝑛𝑥𝑛

𝑎21𝑥1 + 𝑎22𝑥2 + · · · + 𝑎2𝑛𝑥𝑛... · · ·

...

𝑎𝑚1𝑥1 + 𝑎𝑚2𝑥2 + · · · + 𝑎𝑚𝑛𝑥𝑛

⎤⎥⎥⎥⎥⎥⎥⎥⎦

=

⎡⎢⎢⎢⎢⎢⎢⎢⎣

𝑎11𝐸(𝑥1) + 𝑎12𝐸(𝑥2) + · · · + 𝑎1𝑛𝐸(𝑥𝑛)

𝑎21𝐸(𝑥1) + 𝑎22𝐸(𝑥2) + · · · + 𝑎2𝑛𝐸(𝑥𝑛)

... · · ·...

𝑎𝑚1𝐸(𝑥1) + 𝑎𝑚2𝐸(𝑥2) + · · · + 𝑎𝑚𝑛𝐸(𝑥𝑛)

⎤⎥⎥⎥⎥⎥⎥⎥⎦

= 𝐴𝐸(𝑋)

(A.5)

De forma análoga podemos mostrar que se B é uma matriz n × m, então

𝐸(𝑋𝐵) = 𝐸(𝑋)𝐵 𝑒 𝐸(𝐴𝑋𝐵) = 𝐴𝐸(𝑋)𝐵 (A.6)

Pelas Equações A.4 e A.6 segue-se que

Apêndice A. Apêndice A 62

𝑉 𝑎𝑟(𝐴𝑋) = 𝐸[(𝐴𝑋 − 𝐸(𝐴𝑋))(𝐴𝑋 − 𝐸(𝐴𝑋))𝑡] = 𝐸[(𝐴𝑋 −𝐴𝐸(𝑋))(𝐴𝑋 −𝐴𝐸(𝑋))𝑡]

= 𝐸[𝐴(𝑋 − 𝐸(𝑋))(𝑋 − 𝐸(𝑋))𝑡𝐴𝑡] = 𝐴𝐸[(𝑋 − 𝐸(𝑋))(𝑋 − 𝐸(𝑋))𝑡]𝐴𝑡

= 𝐴𝑉 𝑎𝑟(𝑋)𝐴𝑡

(A.7)

A.1 Matriz de variância e covariância discreta

A matriz de variância e covariância pode ser aproximada pela equação

𝐶𝑥 =1

𝑀

𝑀∑︁𝑘=1

𝑥𝑘𝑥𝑇𝑘 −𝑚𝑥𝑚

𝑇𝑥 (A.8)

onde 𝑚𝑥 pode ser aproximado por

𝑚𝑥 =1

𝑀

𝑀∑︁𝑘=1

𝑥𝑘 (A.9)

A.1.1 Autovalor e Autovetor

Seja A uma matriz n × n. Um número real 𝜆 é chamado autovalor (real) de A, se existe

um vetor não nulo 𝑉 =

⎡⎢⎢⎢⎢⎣𝑣1...

𝑣𝑛

⎤⎥⎥⎥⎥⎦ de ℜ𝑛, tal que:

𝐴𝑉 = 𝜆𝑉 (A.10)

Um vetor não nulo 𝑉 que satisfaça A.10, é chamado de autovetor de A.

Observe-se que usando o fato de que a matriz identidade

63 A.1. Matriz de variância e covariância discreta

(a) 𝜆 > 1 (b) 0 < 𝜆 < 1 (c) 𝜆 < 0

Figura A.1: Variações do autovalor

𝐼𝑛 =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

1 0 · · · 0

0 1 · · · 0

.... . .

...

0 · · · 0 1

⎤⎥⎥⎥⎥⎥⎥⎥⎦(A.11)

é tal que 𝐼𝑛𝑉 = 𝑉 , a equação A.10 pode ser escrita como

𝐴𝑉 = 𝜆𝐼𝑛𝑉 (A.12)

ou

(𝐴− 𝜆𝐼𝑛)𝑉 = 0 (A.13)

Como os autovetores são vetores não nulos, os autovalores são os valores de 𝜆, para

os quais o sistema (𝐴−𝜆𝐼𝑛)𝑋 = 0 tem solução não trivial. Mas, este sistema homogêneo

tem solução não trivial se, e somente se, 𝑑𝑒𝑡(𝐴− 𝜆𝐼𝑛) = 0, (Santos, 2001).

Os autovalores (reais) de A são as raízes reais do polinômio (polinômio característico).

𝑝(𝑡) = 𝑑𝑒𝑡(𝐴− 𝑡𝐼𝑛) (A.14)

Para cada autovalor 𝜆, os autovetores associados a 𝜆 são os vetores não nulos da

solução do sistema

Apêndice A. Apêndice A 64

(𝐴− 𝜆𝐼𝑛)𝑋 = 0 (A.15)

um método para localização facial invariante a rotação · 2017. 11. 2. · contraste...

Documents