aulas praticas - similaridade e analise aglomerativa]

13
Similaridade e Análise Aglomerativa Análise Aglomerativa Joana Patrício Biologia e Ecologia Marinha práticas 2009

Upload: gabise

Post on 19-Dec-2015

220 views

Category:

Documents


3 download

DESCRIPTION

Similaridade Aglomerativa

TRANSCRIPT

Page 1: Aulas Praticas - Similaridade e Analise Aglomerativa]

SimilaridadeeAnálise AglomerativaAnálise Aglomerativa

Joana Patrício

Biologia e Ecologia Marinha – práticas2009

Page 2: Aulas Praticas - Similaridade e Analise Aglomerativa]

Medidas de similaridade

Numa análise de similaridade:

1º passo: colocar os dados na forma de uma matriz na qual os objectos1 passo: colocar os dados na forma de uma matriz na qual os objectos (estações, amostras, etc) são colocados em colunas e os descritores (taxa, variáveis ambientais) são colocados em linhas

Espécies A1 A2 A3 A4 A5 B1 B2 B3 B4 B5 C1 C2 C3 C4 C5 D1 D2 D3 D4 D5Acanthochitona crinitus 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 3Amphipholis squamata 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 9 0Bittium reticulatum 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 2Chthamalus montagui 0 0 0 0 0 234 624 389 11 641 0 15 0 1 108 0 0 0 0 0Chthamalus stellatus 0 0 0 0 0 0 0 0 0 0 15 0 0 0 0 0 0 0 0 0Cymodoce truncata 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0Cymodoce truncata 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0Diptera (larva) 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0Dynamene bidentata 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2Dynamene magnitorata 1 1 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2Eulalia viridis 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0Gibbula pennanti 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0Gibbula umbilicalis 3 0 6 7 9 0 5 1 0 0 1 0 1 0 3 0 0 0 0 0Gibbula umbilicalis 3 0 6 7 9 0 5 1 0 0 1 0 1 0 3 0 0 0 0 0Hyale perieri 0 0 0 0 0 0 0 0 0 0 4 0 1 0 45 0 0 0 5 0Idotea baltica 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1Idotea granulosa 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 1Idotea pelagica 0 0 0 1 0 0 1 0 0 0 115 43 0 27 121 0 0 0 0 0Lepidochitona cinerea 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0Littorina neritoides 0 0 0 0 1 30 6 6 3 35 0 0 0 0 0 0 0 0 0 0Littorina neritoides 0 0 0 0 1 30 6 6 3 35 0 0 0 0 0 0 0 0 0 0Lumbrineris sp. 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 31 6 0 13 0Modiolus modiolus 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2Modiolus phaseolina 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 13Musculos costulatus 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 6 4Mytilus edulis 15 0 0 4 15 71 78 47 31 49 868 2 259 516 433 283 0 6 19 19N i 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 6 6Nereis sp. 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 6 6Nucella lapillus 0 0 0 0 0 0 0 0 0 0 3 2 4 3 3 0 1 0 2 1Ocenebra erinacea 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1Pachygrapsus marmoratus 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0Paracentrotus lividus 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 1 0Patella aspera 0 0 0 0 0 0 0 0 0 0 0 2 0 0 15 0 0 0 0 0

Page 3: Aulas Praticas - Similaridade e Analise Aglomerativa]

2º passo: A matriz de dados pode ser estudada de 2 pontos de vista:

Medidas de similaridade

2 passo: A matriz de dados pode ser estudada de 2 pontos de vista:

1)Similaridade entre objectos (amostras) – Análise Q2)Similaridade entre descritores – Análise R2)Similaridade entre descritores – Análise R

Estes 2 modos de análises baseiam-se em diferentes medidas de associaçãoEstes 2 modos de análises baseiam se em diferentes medidas de associação

Para escolher a medida de similaridade apropriada têm que se ter em conta as seguintes considerações:g ç

1)A natureza do estudo (questão inicial e hipótese) determina o tipo de estrutura ecológica a ser evidenciada pela matriz de similaridade e logo do tipo de g p g pmedidade de similaridade a ser usada;

1)As diferentes medidas têm constrangimentos matemáticos, e os métodos de análise a que a matriz de similaridade vai estar sujeita (cluster, ordenação) frequentemente requerem medidas de similaridade com propriedades matemáticas especificas

1)Disponibilidade oferecida pelos softwares de cálculo

Page 4: Aulas Praticas - Similaridade e Analise Aglomerativa]

Medidas de similaridade

Análise R: nos coeficientes de dependência, ZERO corresponde a ausência de p , passociação

Análise Q: nos coeficientes de similaridade, maximo quando 2 objectos são idênticos; minimo quando 2 objectos são completamente diferentesNos coeficientes de distância (ou dissimilaridade) é o contrário

Maior número de coeficientes existente na literatura são os de similaridade. Estas nunca são métricas, por isso as similaridades não podem ser usadas directamente para posicionar objectos no espaço métrico têm que serdirectamente para posicionar objectos no espaço métrico, têm que ser convertidas em distâncias

Page 5: Aulas Praticas - Similaridade e Analise Aglomerativa]

Medidas de similaridade

Coeficientes de similaridade podem ser:Coeficientes de similaridade podem ser:

1)Simétricos: os zeros para 2 objectos são tratados como qualquer outro par de valores (2 lagos com 0 mgL-1 de O2)outro par de valores (2 lagos com 0 mgL 1 de O2)

Binários: Rogers & Tanimoto; Yule, Hamann, Pearson’s phi (R)Quantitativos: Gower’s

2) Assimétricos: os zeros são tratados de forma diferente dos outros valores (exclui double-zeros)

Binários: Jaccard’s, Sorensen’s, KulczynskiQuantitativos: Bray-Curtis; (dados em bruto)

Page 6: Aulas Praticas - Similaridade e Analise Aglomerativa]

Medidas de similaridade

Coeficientes de distância podem ser:

1)Métricos: distância Euclideana (não deve ser usado com ) (abundâncias – double zero problem), Manhattan, Czekanowski, etc2)Semimétricos: percentage difference3)Não métricos

Page 7: Aulas Praticas - Similaridade e Analise Aglomerativa]

Análise aglomerativa (Clustering)Análise aglomerativa (Clustering)

A análise aglomerativa é uma técnica da análise multivariavel gque consiste em dividir um conjunto de objectos (ou descritores). Desta forma cada objecto ou descritor pertence a um e apenas a um subconjunto do total. Esta definição impõe uma estrutura descontinua dos dados, mesmo que originalmente os dados tenham sido amostrados num continuo.

“x1 está mais próximo de x2 do que de x3”

As amostras são unidas por linhas como ramos de árvores. As amostras mais similares estarão em ramos próximos, as amostras mais diferentes estão localizadas em ramos afastados.

Page 8: Aulas Praticas - Similaridade e Analise Aglomerativa]

Análise aglomerativa (Clustering)Análise aglomerativa (Clustering)

Page 9: Aulas Praticas - Similaridade e Analise Aglomerativa]

Análise aglomerativa (Clustering)Análise aglomerativa (Clustering)

As técnicas mais usadas de análise aglomerativa são os métodos aglomerativos hierárquicos (dendogramas)

Partem de uma matriz de similaridade e vão fundindo sucessivamente as amostras em grupos e estes grupos em grupossucessivamente as amostras em grupos e estes grupos em grupos maiores, começando com as similaridades mutuas mais elevadas e descendo gradualmente o nivel de similaridade em que os grupos são formadosgrupos são formados.

Page 10: Aulas Praticas - Similaridade e Analise Aglomerativa]

Análise aglomerativa (Clustering)Análise aglomerativa (Clustering)

Análise aglomerativa hierárquica:

1 Single linkage agglomerative clustering1.Single linkage agglomerative clustering2.Complete linkage agglomerative clustering3.Intermediate linkage agglomerative clustering4 Unweighted arithmetic average clustering (UPGMA)4.Unweighted arithmetic average clustering (UPGMA)5.Weighted arithmetic average clustering (WPGMA)6.Unweighted centroid clustering (UPGMC)7.Weighted Centroid clustering (WPGMC)g g ( )

Page 11: Aulas Praticas - Similaridade e Analise Aglomerativa]

Análise aglomerativa (Clustering)Análise aglomerativa (Clustering)

Recomendações:

1 A hierarchical clustering with group-average linking baseada1.A hierarchical clustering with group-average linking, baseada na medidade de similaridade de Bray Curtis, provou ser uma técnica útil em muitos estudos ecológicos. É apropriada para delinear grupos de locais com distintas comunidadesdelinear grupos de locais com distintas comunidades

2.A análise aglomerativa é menos útil quando há apenas um gradiente na estrutura das comunidades de local para local. g pNestes casos as técnicas de ordenação são preferíveis.

3.Mesmo para amostras fortemente agrupadas é preferivel p g p pusar a análise aglomerativa juntamente com a ordenação.

Page 12: Aulas Praticas - Similaridade e Analise Aglomerativa]

EXERCÍCIO:Em termos de similaridade, o que podem concluir sobre os 4 estratos amostrados?os 4 estratos amostrados?

Page 13: Aulas Praticas - Similaridade e Analise Aglomerativa]

Mãos à obra!!!!Abrir o programa PRIMERFile – Open “estratos.xls” OKSample data properties – title: estratosNumber of columns: 20Number of rows: 45Samples as columns: √ OK

Edit – FactorsFactors – Add “estrato” – colocar a mesma letra para cada réplica de um mesmo estrato OK

CLUSTERData – similarityAnalyse between samplesAnalyse between – samplesTransformation: square rootMeasure: Bray-Curtis similarity OKAnalyse Cluster

1) Testar cenários:Alterar o tipo de transformação aAnalyse – Cluster

Cluster mode: group averagePlot dendogram: √ OK

Alterar o tipo de transformação, a medida de similaridade e o modo de agrupamento

2) discutir qual a influencia destas alterações nosresultados