universidade estadual paulista “júlio de mesquita filho” fclassis – depto de ciências...

30
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração Caracterização e Aplicação da Diversidade BiológicaAnálise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Dr. Fernando Frei

Upload: jace

Post on 06-Jan-2016

20 views

Category:

Documents


0 download

DESCRIPTION

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas. Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Programa de Pós-graduação em Biociências Área de Concentração “ Caracterização e Aplicação da Diversidade Biológica ”. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Programa de Pós-graduação em Biociências

Área de Concentração

“Caracterização e Aplicação da Diversidade Biológica”

Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.

Dr. Fernando Frei

Page 2: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Conceito: Padrão

Um padrão é qualquer entidade da qual é possível extrair algum tipo de característica, seja ela simbólica ou numérica (Nogueira, 2012).

O reconhecimento de padrões é a área de pesquisa que tem por objetivo a classificação de objetos em um número de categorias ou classes (Theodoridis and Koutroumbas, 1999).

O Reconhecimento de Padrões é uma disciplina científica que estuda e desenvolve técnicas com o objetivo de descrever, classificar ou reconhecer regularidades significativas, em meios ruidosos e complexos (Schalkoff 1992).

Dr. Fernando Frei

O Reconhecimento de Padrões está ligada a busca de “ Regularidades ”

Page 3: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Importância:

Restringir nossa atenção a um conjunto de casos selecionado pelo sistema. Ex. Imagens médicas

Para automatizar completamente o processo de tomada de decisão, sem necessidade de intervenção humana. Ex. placas de carro.

Predizer resultados baseados em características.

Ex. diagnóstico médico.

Dr. Fernando Frei

O princípio básico de qualquer técnica de reconhecimento de padrões é classificaçãoclassificação objetos.

Exemplos

Page 4: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

ClassificaçãoA solução de um problema de classificação consiste na caracterização das relações existentes entre um conjunto de classes consideradas C, um conjunto O de objetos a serem classificados e um conjunto X de observações tomadas sobre os objetos.

Dr. Fernando Frei

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Classes – Características Comuns

Objetos – todos os objetos a serem classificados,

Observações – Conjunto formado por valores de medidas obtidas sobre os objetos

Page 5: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Dr. Fernando Frei

EstatísticaÉ o campo de estudo preocupado com (1) a coleta, organização, síntese e análise de dados, e (2) com o estabelecimento de inferências para um corpo de dados (população ou universo estatístico) quando somente parte dos dados é observado (amostra).

Contextualização da Análise de Agrupamentos

Análise Exploratória Inferência

Page 6: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Dr. Fernando Frei

Análise ExploratóriaConsiste na coleta, apresentação, análise e interpretação de dados numéricos. Visa descrever e analisar um certo grupo (amostra) sem daí retirar conclusões ou inferências sobre a população da qual foi retirado esse grupo. Face aos resultados de experiências e da observação dos processos naturais, a questão básica que se põe é quase sempre, a seguinte: como resumir os aspectos essenciais dos dados? Será que existem regularidades, tendências, ciclos, concentrações,..., padrões, dignos de nota nos dados?

Contextualização da Análise de Agrupamentos

Page 7: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Dr. Fernando Frei

Análise InferencialÉ o conjunto de técnicas, baseada na teoria das probabilidades, que permitem construir proposições de caráter probabilístico acerca da população, partindo da observação de alguns dos seus elementos (amostra). Assim, os métodos de inferência estatística envolvem o cálculo de estatísticas, a partir das quais se infere sobre os parâmetros da população, isto é, permitem com determinado grau de probabilidade, generalizar à população certas conclusões, por comparação com os resultados amostrais.

Contextualização da Análise de Agrupamentos

Page 8: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Dr. Fernando Frei

Análise Univariada: Análise de distribuições de uma única variável.

Análise Bivariada: classificação cruzada, correlação, análise de variância e regressão simples para analisar duas variáveis.

Análise Multivariada: Análise simultânea de múltiplas variáveis em um único relacionamento ou conjunto de relações.

Análise de Agrupamentos: Análise Multivariada

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Page 9: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Técnicas MultivariadasEstrutura dos dados

X1 X2 ... Xp

Caso 1 x11 x12 ... x1p

Caso 2 x21 x22 ... x2p

.... ... ... ... ..

Caso n xn1 xn2 ... xnp

Dr. Fernando Frei

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Page 10: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Sujeito Peso Altura CC1 CQ2 Coles3 TG4

1 70,3 177,0 81,4 79,0 190,4 80,0

2 65,9 160,0 83,6 81,5 170,5 69,0

3 66,0 166,8 77,4 78,0 169,6 96,0

4 92,5 178,9 90,2 90,6 169,7 93,0

5 56,0 164,3 75,0 81,0 177,0 77,0

6 76,7 180,0 69,4 90,4 198,7 86,0

7 61,0 170,0 67,3 97,8 173,9 83,0

8 65,9 171,7 77,9 71,0 200,3 83,0

9 55,0 160,7 87,3 88,0 179,0 85,0

10 77,5 181,0 91,0 79,0 205,5 80,5

11 89,0 183,4 77,3 93,3 188,5 90,5

... ... ... ... ... ... ...

76 58,0 159,0 75,4 92,0 199,0 83,0

1 – Circunferência da Cintura2 – Circunferência do Quadril 3 – Colesterol4 - Triglicérides

Matriz (Exemplo Obesidade)

Dr. Fernando Frei

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Page 11: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

O TOC é representado como uma desordem homogênea, com os pacientes agrupados de acordo com a gravidade dos sintomas sem levar em conta os diferentes subtipos de obsessões e compulsões.

Motivação Transtorno Obsessivo-Compulsivo (TOC)

MOCI Inventário Maudsley de Obsessões e Compulsões, consta de 30 itens com respostas dicotômicas, como verdadeiro ou falso.

Paciente S1 S2 S3 ... S29 S30

1 1 0 1 ... 0 1

2 0 0 1 ... 1 0

3 1 1 0 ... 0 0

4 1 1 1 ... 1 1

5 0 0 0 ... 0 0

6 0 0 1 ... 1 1

... ... ... ... ... ... ...

13 1 1 0 ... 0 1

14 0 1 1 ... 0 0

15 1 0 1 ... 1 1

16 0 1 0 ... 1 0

Dr. Fernando Frei

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Page 12: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Técnicas Multivariadas

• Técnica de Dependência– É aquela na qual uma variável ou um conjunto de

variáveis é identificado como variável dependente a ser predita ou explicada por outras variáveis independentes;

• Técnica de Interdependência– É aquela na qual nenhuma das variáveis é definida

como dependente ou independente, mas o procedimento envolve a análise simultânea de todas as variáveis no conjunto.

Dr. Fernando Frei

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Page 13: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Técnicas Multivariadas

• Técnicas de Dependência– Podem ser classificadas por duas características:

• O número de variáveis dependentes,• O tipo de escala das variáveis.

• Exemplos de técnicas– Regressão Linear Múltipla– MANOVA– Análise Discriminante– Análise de Correlação Canônica– Análise Conjunta

Dr. Fernando Frei

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Page 14: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Técnicas Multivariadas

• Técnicas de Interdependência– Depende da estrutura procurada:

• Estrutura de variáveis;• Estrutura de casos;• Estrutura de objetos (da matriz de dados).

• Exemplos– Análise Fatorial– Análise de Agrupamentos– Escalonamento Multidimensional– Análise de Correspondências

Dr. Fernando Frei

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Page 15: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Dr. Fernando Frei

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Análise de Agrupamentos é o nome genérico atribuído a uma extensa variedade de métodos que procuram elaborar critériospara agrupar objetos (seres humanos, animais, plantas, municípios, regiões etc.). São técnicas estatísticas multivariadas, com conotação exploratória. Desta forma, dada uma amostra de n objetos, cada um deles medidos segundos p variáveis, procura-se um esquema de classificação que agrupe os objetos em k grupos. Os objetos são mensurados nas diversas variáveis de interesse fornecendo uma matriz de dados de n objetos por p variáveis, a qual será manuseada através de algoritmos para a obtenção dos grupos homogêneos.

Page 16: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Programa“Análise de Agrupamentos para Reconhecimento de

Padrões em Saúde e Ecologia.”

1 – Introdução2 – Contextualização da Análise de Agrupamentos na Estatística3 – Níveis de Mensuração4 – Medidas de similaridade5 – Representação Gráfica6 – Métodos De Agrupamentos 6.1 – Métodos Hierárquicos Aglomerativos 6.2 – Métodos Não Hierárquicos 6.2.1 – Método K-means7 – Estratégias para o Reconhecimento do Número de Grupos 8 – Programas Computacionais9 – Aplicações Práticas

Dr. Fernando Frei

Page 17: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Programa“Análise de Agrupamentos para Reconhecimento de

Padrões em Saúde e Ecologia.”Bibliografia

ConceituaisConceituais

1. Everitt B, Landau S, Leese M. Cluster Analysis, 4th edition, NY, Wiley, 2009.

2. Frei, F. Introdução à Análise de Agrupamentos: Teoria e Prática. SP, Editora UNESP, 2006.

3. Kaufman L, Rousseeuw P. Finding Groups in Data: An Introduction to Cluster Analysis New Jersey, Wiley-Interscience; 2005.

4. Frei, F. Tópicos de Análise de Agrupamentos. Notas de Aula. FCLAssis – UNESP, 2012.

Dr. Fernando Frei

Page 18: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”

Bibliografia

AplicaçõesAplicações

1. Albuquerque MA, Caraciolo RLF, Silva JAA, Santos ES, Stosic B, Souza AL. Estabilidade em Análise de Agrupamento: estudo de caso em Ciência florestal. Revista Árvore, 30, (2), pp. 257-265, 2006.

2. Dilts D, Khamalah J, Plotkin A. Using Cluster Analysis for Medical ResourceDecision Making. Med Decis Making; vol. 15, 4: pp. 333-346, 1995.

3. Fernandes FBP, Andrade EM, Fontenele SB, Meireles CM, Ribeiro JÁ.Análise de agrupamento como suporte à gestão qualitativa da água subterrânea no semiárido cearense. Revista Agro@mbiente On-line, v. 4, n. 2, p. 86-95, jul-dez, 2010.

Dr. Fernando Frei

Page 19: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”

Bibliografia

AplicaçõesAplicações

4. Lima-Verde EPA, Hernández MIM. Sucessão ecológica em áreas reflorestadas de restingas: respostas da comunidade de borboletas Nymphalidae. In: Iniciados (V.B. Bezerra, org.). Universidade Federal da Paraíba. Vol. 12, p. 13-22. 2007.

5. Resende APC, Silveira NAPR, Sabroza PC, Souza-Santos R. Determinação de áreas prioritárias para ações de controle da dengue. Rev Saúde Pública;44(2):274-82, 2010.

6. Selvy PT, Palanisamy V, Purusothaman T. Performance Analysis of Clustering Algorithms in Brain Tumor Detection of MR Images. European Journal of Scientific Research. vol.62 No.3 pp. 321-330, 2011.

Dr. Fernando Frei

Page 20: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”

Bibliografia

AplicaçõesAplicações

7. Schneider S, Huy C, Schuessler M, Diehl K, Schwarz S. Optimising lifestyle interventions: identification of health behaviour patterns by cluster analysis in a German 50+ survey. European Journal of Public Health, Vol. 19, No. 3, 271–277, 2009.

8. Takeuchi Y, Mori Y. Behavioral Profiles of Feline Breeds in Japan. J. Vet. Med. Sci. 71(8): 1053–1057, 2009.

9. Seidel EJ, Moreira Jr FJ , Ansuj AP, Noal MRC. Comparação entre o método Ward e o método K-médias no agrupamento de produtores de leite. Ciência e Natura, UFSM, 30 (1): 7- 15, 2008.

Dr. Fernando Frei

Page 21: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”

Conceitos e Ferramentas Computacionais

www.assis.unesp.br/ffrei/posgraduacao.html

Dr. Fernando Frei

Page 22: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”

Avaliação

Dr. Fernando Frei

Trabalho prático

Page 23: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”

Breve Revisão

Dr. Fernando Frei

Escalas (ou níveis) de mensuração

Importância

Escalas Qualitativas:Não possuem valores quantitativos.Classificação dos objetos em categorias

Escalas Quantitativas: são as características que podem ser medidas emuma escala quantitativa.Valores numéricos que fazem sentido

Page 24: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”

1. Escala Qualitativa Nominal: escala que divide as respostas em categorias discretas, não relacionadas numericamente entre si.

Uma escala nominal não mede mas, sobretudo, nomeia.

Variáveis Nominais: números não podem ser sujeitos a quaisquer operações aritméticas. O uso das escalas nominais exige que cada elemento seja incluído única e exclusivamente numa categoria

Exemplos: cor, religião, raça, localização geográfica, o local de nascimento ou os setores de atividade econômica.

Dr. Fernando Frei

Page 25: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”

Dr. Fernando Frei

Um caso particular deste tipo de escala de medida ocorre quando a característica em estudo (variável) tem apenas duas categorias: Sucesso ou Fracasso.

São exemplos deste tipo de características: Sexo: Masculino/Feminino)Germinação de determinada semente: Germinou/Não Germinou

1. Variável Qualitativa Binária (Dicotômica)

Page 26: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”

Dr. Fernando Frei

Escala em que as respostas são ordenadas quanto à sua dimensão relativa, mas em que os intervalos entre as sucessivas posições de ordem não são necessariamente iguais. Tem origem no ponto zero, seguindo-se diferentes valores das observações por ordem crescente ou decrescente, mas não quantifica as diferenças entre esses níveis. As classificações ordinais não podem, portanto, ser somadas ou subtraídas.

ExemploOpinião sobre o sabor de determinado produto alimentar 1- detesta; 2- gosta pouco; 3- indiferente; 4- gosta; 5- adora

2. Escala Qualitativa Ordinal

Page 27: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”

Dr. Fernando Frei

Características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores. Somente fazem sentido valores inteiros. Exemplos: Todos os tipos de Contagem!

3. Escala Quantitativa Discreta

Page 28: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”

Dr. Fernando Frei

Características mensuráveis que assumem valores em uma escala contínua (na reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas através de algum instrumento.

Exemplos: Peso, Altura, Diâmetro do tronco da

4. Escala Quantitativa Contínuas

Escala Quantitativa Contínuas – Intervalar e de Razão

Page 29: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”

Dr. Fernando Frei

Medidas

Qualitativa Quantitativa

Nominal Ordinal Discreta Contínua

- +

Page 30: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas

“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”

Dr. Fernando Frei