cluster - icex - ufmgmarcosop/est171-ml/slides/cluster.pdf · cluster motivação nunca é demais a...
TRANSCRIPT
![Page 1: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/1.jpg)
Cluster
Larissa Sayuri Futino Castro dos Santos
![Page 2: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/2.jpg)
AgendaO que faremos
Reconhecimento
MelhoriasK-MediansK-MedoidsK-Modes
Modelos de MisturaLDA
OverviewMét.
Particionais E Hierárquicos
Mét. Probabilís
ticosSpectral
Dbscan
Mét. Densidad
e
![Page 3: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/3.jpg)
ClusterMotivação nunca é demais
A análise de cluster divide
dados em grupos (clusters) que
tenham significado ou sejam úteis (ou
ambos).
![Page 4: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/4.jpg)
ClusterMotivação nunca é demais
Resumo de Dados
Passo intermediário para demais algoritmos
Segmentação de Clientes
Filtros Colaborativos
Determ. de
comunidades em
uma rede Social
Determ. músicas similares
Noção de padrões de
seq genéticas
Determ. Padrões de mudança
![Page 5: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/5.jpg)
Mét. Particionais e Hierárquicos1
Desenvolve uma estrutura de árvore binária chamada dendograma.
A escolha do número de clusters dá-se particionando a árvore em diferentes níveis para obter soluções distintas para o mesmo banco sem a necessidade da repetição do emprego do algoritmo.Sensibilidade a ruídos e outliersExige a especificação de vários parâmetros, incluindo uma métrica de distância
Hierárquico
Otimiza uma função objetivo específica e iterativamente melhora a qualidade das partições.
O método necessita do número de clusters da base, previamente.
Escolha dos centróides iniciais
Parâmetro do número de clusters predefinidoComportamento não determinístico
Particional
Definição do Número de
Clusters
Simplicidade e Facilidade de Implementação
Como funciona
Problema de otimização minimizando SSE (Soma de Quadrados do Erro). Definição
Aspectos dificulta
dores
ShapeFormato esférico
![Page 6: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/6.jpg)
Mét. Particionais1Métodos para Inicializar os centróides
MacQueenHartigan e
Wang Bradley e Fayyad Kmeans++
1967 1981 1998 2007
Milligan
1979
K centróides iniciais
amostrados aleatoriamente
![Page 7: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/7.jpg)
Mét. Particionais1Métodos para Inicializar os centróides
MacQueenHartigan e
Wang Bradley e Fayyad Kmeans++
1967 1981 1998 2007
Milligan
1979
K centróides iniciais
amostrados aleatoriamente
![Page 8: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/8.jpg)
Mét. Particionais1Métodos para Inicializar os centróides
MacQueenHartigan e
Wang Bradley e Fayyad Kmeans++
1967 1981 1998 2007
Milligan
1979
Nearest neighbor density
Pontos bem separados e que tem muitos pontos na
sua redondeza multidimensional são bons
candidatos
![Page 9: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/9.jpg)
Mét. Particionais1Métodos para Inicializar os centróides
MacQueenHartigan e
Wang Bradley e Fayyad Kmeans++
1967 1981 1998 2007
Milligan
1979
Tenta usar resultados de cluster hierárquico aglomerativo
![Page 10: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/10.jpg)
Mét. Particionais1Métodos para Inicializar os centróides
MacQueenHartigan e
Wang Bradley e Fayyad Kmeans++
1967 1981 1998 2007
Milligan
1979
Toma amostras dos dados e faz os clusters
com elas.Usa os centróides dos clusters obtidos como centróides iniciais no cluster com todas as
observações.
![Page 11: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/11.jpg)
Mét. Particionais1Métodos para Inicializar os centróides
MacQueenHartigan e
Wang Bradley e Fayyad Kmeans++
1967 1981 1998 2007
Milligan
1979
Abordagem baseada em probabilidade
![Page 12: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/12.jpg)
Mét. Particionais e Hierárquicos1Determinando número de Clusters
IsoDataCalinski-Harabasz Bradley e Fayyad
Gap statisticAIC
1965 1977 1990 2001
BIC
1974
Método do centróide mais pŕoximo
1973
Duda e Hart
Merge de clusters: a distância entre eles é menor que
um threshod
Split de clusters: Desvio padrão
dentro do cluster supera um threshod
Merge de clusters:
Cluster com menos que um dado
número de pontos
![Page 13: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/13.jpg)
Mét. Particionais e Hierárquicos1Determinando número de Clusters
IsoDataCalinski-Harabasz Bradley e Fayyad
Gap statisticAIC
1965 1977 1990 2001
BIC
1974
Como escolher o melhor ponto de corte
do dendograma
1973
Duda e Hart
![Page 14: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/14.jpg)
Mét. Particionais e Hierárquicos1Determinando número de Clusters
IsoDataCalinski-Harabasz Bradley e Fayyad
Gap statisticAIC
1965 1977 1990 2001
BIC
1974
K que maximiza uma função que relaciona Soma Quadrados dentro e entre clusters
1973
Duda e Hart
K que minimiza BIC K que minimiza AIC
![Page 15: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/15.jpg)
Mét. Particionais e Hierárquicos1Determinando número de Clusters
IsoDataCalinski-Harabasz Bradley e Fayyad
Gap statisticAIC
1965 1977 1990 2001
BIC
1974
Sillhouette coefficient
Considera distâncias intra e entre clusters.
Calcula sillhouette de todos os pontos
Sillhouette médio é uma medida da qualidade de um
cluster
1973
Duda e Hart
![Page 16: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/16.jpg)
Variações do K-Means1
K-medoids - próprios pontosMais robusto a outliers
Alto custo computacionalPAM: minimizar trocas
CLARA: considera muitas amostras
K-medians - mediana do clusterMais robusto a outliers
K-modesPermite aplicações com dados
categóricos
Escolher ≠ centróides representativos
Intelligent K-means
Genetic K-means
Escolher melhor estimativas dos
centróides
Weighted K-means
Kernel k-means
Aplicar técnica de transformação de
atributos
![Page 17: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/17.jpg)
Variações Hierárquicas1
CURE Chameleon COBWEBSOM
Representar um cluster a partir de pontos dispersos representativos
Formatos arbitráriosRobusto a outliers
Usa métodos para particionar grafos.As partições são sementes para a
formação dos clusters
Formatos arbitrários
Usa Redes Neurais artificiais.
Se assemelha ao algoritmo
Hierárquico alterando apenas a
etapa de atualização.
Possibilita visualização
Usa Naive-Bayes e Árvore de Decisão
![Page 18: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/18.jpg)
Análise de Cluster hojeO que vai além dos Métodos Hierárquicos e particionais
![Page 19: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/19.jpg)
Mét. ProbabilísticosProblema de estimação de parâmetros
Cada cluster é representado
por uma distribuição de probabilidade paramétrica
![Page 20: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/20.jpg)
Mét. Probabilísticos - GMMModelo de Mistura Normal
Mod. Normal
Conhecido/FamiliarDisponível em softwares
Vida real
Densidade de formato não usual
Normal mostra-se uma densidade limitada:
● Simétrica● Unimodal
Vida realSolução
Modelo de Mistura
Se a gente escolhe os elementos Gaussianos adequados a gente pode expressar toda/qualquer distribuição
não usual.
“”
![Page 21: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/21.jpg)
Mét. Probabilísticos - GMMModelo de Mistura Normal
Garantir que o GMM é uma densidade de Probabilidade que integra 1
![Page 22: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/22.jpg)
Mét. Probabilísticos - GMMModelo de Mistura Normal
Se é possível tomar k arbitrariamente grande e
variâncias arbitrariamente pequenas pode-se expressar
qualquer formato de distribuição, em teoria.
“
”
![Page 23: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/23.jpg)
Mét. Probabilísticos - GMMModelo de Mistura Normal
Flexibilidade
Aumento do número de parâmetros a serem estimados
Não há solução analítica/fechada
Risco de superajustamento
Necessita-se especificar/decidir um
valor para K
Computação iterativa
sem garantia de solução ótima global
![Page 24: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/24.jpg)
Mét. Probabilísticos - GMMModelo de Mistura Normal
EM Expectation
Maximization
Estimadores de Máx. Verossim.
(“valores dos parâmetros mais
prováveis de produzir os dados
observados”)
Estimação iterativa
Sem garantia de solução ótima
global
V.a. latente (não observamos diretamente)Representar a componente/cluster de onde a observação veio
Razão relativa da densidade da Gaussiana 01 no ponto xi
![Page 25: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/25.jpg)
Mét. DensidadeClusters de formatos arbitrários
MotivaçãoUsualmente, os métodos para detecção de clusters captam os agrupamentos de shape
esférico
Necessita-se de um método para detecção de clusters de formato arbitrário
CLARANS
DbScan
![Page 26: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/26.jpg)
Mét. Densidade - DbScanClusters de formatos arbitrários
Como estimar a
densidade?
Como definir conectivi
dade?
Questões/aspectos do delineamento
Não exige definição do número de clusters
Método não-paramétrico para detecção de clusters
Sem pressupostos sobre a distribuição dos clusters
Podem existir observações sem cluster
Sensível a parâmetros de entrada
![Page 27: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/27.jpg)
Mét. Densidade - DbScanClusters de formatos arbitrários
CORE point
Raio Eps
A vizinhança de raio Eps contém
pelo menos MinPts
(5, por exemplo)
q é diretamente acessível por
densidade
Ponto q está dentro da
vizinhança de raio Eps de p
pq
p e q são conectados por densidade
Existe um ponto O tal que p e q
são alcançáveis por densidade
Border point
Ponto q está dentro da
vizinhança de raio Eps de p e
não é core point
q
p pq
o
![Page 28: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/28.jpg)
Mét. Densidade - DbScanClusters de formatos arbitrários
Cluster Ruído
Conjunto máximo de
pontos conectados por
densidade
Conjunto de pontos que
não pertence a algum cluster
![Page 29: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/29.jpg)
SpectralClusters de formatos arbitrários
MotivaçãoUsualmente, os métodos para detecção de clusters captam os agrupamentos de shape
esférico
Necessita-se de um método para detecção de clusters de formato arbitrário
![Page 30: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/30.jpg)
SpectralClusters de formatos arbitrários
Podemos usar os autovetores de uma Matriz de Adjacência
para determinar clusters
![Page 31: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/31.jpg)
SpectralClusters de formatos arbitrários
1º passo: Construir Matriz de Adjacência ou Afinidade
Modela a estrutura de geometria local dos dados
k-vizinhos mais próximos
Totalmente conectadoVizinhança દ
Vi conectado a Vj se: Vj é um dos k vizinhos de Vi
ouVi é um dos k vizinhos de Vj
A distância entre Vi e Vj é menor que દ
![Page 32: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/32.jpg)
SpectralClusters de formatos arbitrários
2º passo: Computar graph laplacian matrices
Passo essencial da técnica
L = D - WMatriz de Adjacência
Degree MatrixSoma dos pesos que incidem no vértice 01
![Page 33: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/33.jpg)
SpectralClusters de formatos arbitrários
3º passo: Spectrum Analysis
L pode ser representada por uma estrutura bloco-diagonal
Autovetores de L (matriz F) podem ser determinados resolvendo:
Toma k autovetores associados aos k menores autovalores de L
Constrói matriz com os k autovetores
Empregar um método usual de
agrupamento
![Page 34: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/34.jpg)
SpectralClusters de formatos arbitrários
2
3
1
Se aplica a qualquer tipo de dado.
Trabalha com a matriz de similaridade dos dados ao invés dos dados de pontos originais.
É possível trabalhar com dados arbitrários ao invés de pontos de dados representados em um espaço multi dimensional.
1 A obtenção da matriz de similaridade é custosa computacionalmente - especialmente para muitas observações.
2 Nem todo tipo de dado tem uma métrica de similaridade/distância bem definida
3 Para dados multidimensionais o uso da matriz de similaridade ao invés das observações originais é redundante.4 Não faz pressuposto sobre o formato do
cluster.
![Page 35: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/35.jpg)
Mét. Probabilísticos - LDAModelo de Mistura de Tópicos para Textos
![Page 36: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/36.jpg)
Mét. Probabilísticos - LDAModelo de Mistura de Tópicos para Textos
![Page 37: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/37.jpg)
Mét. Probabilísticos - LDAModelo de Mistura de Tópicos para Textos
Problema:
➔ Observamos apenas os documentos
➔ A quais tópicos cada palavra pertence?
➔ Quantos e quais tópicos existem?
➔ As estruturas estão ocultas (latentes)
Objetivo:
➔ Inferir a mistura de tópicos de cada documento
➔ inferir quais são os tópicos mais relevantes num conjunto de textos
![Page 38: Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou](https://reader035.vdocuments.site/reader035/viewer/2022071212/602467de2c39855af12bf0b4/html5/thumbnails/38.jpg)
Dúvidas?Obrigado