cradle: clustering by random minimization dispersion based learning - un algortimo di clustering...
TRANSCRIPT
A.A. 2009-2010
Tesi di Laurea Triennale inInformatica e Tecnologie per la Produzione del Software
CRADLE:Clustering by RAndom minimum Dispersion based LEarning
Un algoritmo di clustering basato suminimizzazione random della dispersione
Relatore: Laureando:Prof.ssa CASTELLANO
GIOVANNADI DONATOLEONARDO
Il clustering 2
Il clustering 2
� E il processo di raggruppamento auto-matico di dati non etichettati in gruppiomogenei e significativi
Il clustering 2
� E il processo di raggruppamento auto-matico di dati non etichettati in gruppiomogenei e significativi.
Il clustering 3
�La crescita esponenziale dell’informa-zione rende necessario analizzare l’e-norme mole di dati:
Il clustering 3
�La crescita esponenziale dell’informa-zione rende necessario analizzare l’e-norme mole di dati:� il clustering trova applicazione in tutti quei contesti
in cui occorre ricercare schemi e/o strutture intrinse-che nei dati•data mining, pattern recognition, machine lear-
ning, image analysis
Approcci di clustering 4
Approcci di clustering 4
Approcci di clustering 4
Shape clustering 5
Shape clustering 5
�La caratterizzazione delle immagini tra-mite le forme di oggetti in esse conte-nuti rappresenta uno dei maggiori stru-menti utilizzati per la comprensione au-tomatica delle immagini
Shape clustering 5
�La caratterizzazione delle immagini tra-mite le forme di oggetti in esse conte-nuti rappresenta uno dei maggiori stru-menti utilizzati per la comprensione au-tomatica delle immagini� Studi di psicologia-congnitiva dimostrano che il con-
cetto di forma, in quanto invariante e generico, e unaspetto chiave e basilare dei processi di riconoscimen-to delle immagini
�Possibili campi applicativi:•medico, militare, sicurezza, computer vision, ac-
tion recognition, human detection, image retrie-val
Min.Variance Clustering 6
Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
� idea di base� ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
� idea di base� ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
� rappresentazione dei pattern� basata sulle geodetiche
Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
� idea di base� ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
� rappresentazione dei pattern� basata sulle geodetiche
� similarita fra pattern� basata sulla distanza geodetica
Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
� idea di base� ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
� rappresentazione dei pattern� basata sulle geodetiche
� similarita fra pattern� basata sulla distanza geodetica
� funzione di costo� varianza totale delle distanze fra i pattern appartenenti ad un cluster
Min.Variance Clustering 6
Srivastava et.al, A geometric approach to shape clustering and learning.
IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-
602, April 2005.
� idea di base� ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una
configurazione di cluster che rende minima la varianza
� rappresentazione dei pattern� basata sulle geodetiche
� similarita fra pattern� basata sulla distanza geodetica
� funzione di costo� varianza totale delle distanze fra i pattern appartenenti ad un cluster
� criterio di convergenza� basato sul valore della temperatura (Simulated Annealing)
L’algoritmo proposto 7
L’algoritmo proposto 7
�CRADLE�Clustering by RAndom minimum Dispersion based
LEarning
L’algoritmo proposto 7
�CRADLE�Clustering by RAndom minimum Dispersion based
LEarning
�Progettato per superare le limitazionidell’algoritmo MVC� complessita• il calcolo della distanza geodetica e molto costoso
� lenta convergenza
CRADLE 8
CRADLE 8
� idea di base� ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione
di cluster che rende minima la dispersione
CRADLE 8
� idea di base� ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione
di cluster che rende minima la dispersione
�rappresentazione dei pattern� basata sui descrittori di Fourier
CRADLE 8
� idea di base� ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione
di cluster che rende minima la dispersione
�rappresentazione dei pattern� basata sui descrittori di Fourier
� similarita fra pattern� basata sulla distanza euclidea
CRADLE 8
� idea di base� ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione
di cluster che rende minima la dispersione
�rappresentazione dei pattern� basata sui descrittori di Fourier
� similarita fra pattern� basata sulla distanza euclidea
� funzione di costo� dispersione totale
Q(C) =k∑
i=1
2ni
∑va∈Ci
∑vb∈Ci, b<c
d (va, vb)2
CRADLE 9
�Fasi dell’algoritmo
CRADLE 9
�Fasi dell’algoritmo� 1 – Configurazione iniziale• si crea una configurazione iniziale di cluster assegnando i pattern
in base ad una distribuzione normale
CRADLE 9
�Fasi dell’algoritmo� 1 – Configurazione iniziale• si crea una configurazione iniziale di cluster assegnando i pattern
in base ad una distribuzione normale
� 2 – Raggruppamento• procedura iterativa basata su un approccio di clustering divisivo
CRADLE 9
�Fasi dell’algoritmo� 1 – Configurazione iniziale• si crea una configurazione iniziale di cluster assegnando i pattern
in base ad una distribuzione normale
� 2 – Raggruppamento• procedura iterativa basata su un approccio di clustering divisivo
� 3 – Selezione (non prevista in MVC)•mediante valutazioni statistiche si seleziona un insieme di pattern
da sottoporre nuovamente alla fase di raggruppamento
CRADLE 9
�Fasi dell’algoritmo� 1 – Configurazione iniziale• si crea una configurazione iniziale di cluster assegnando i pattern
in base ad una distribuzione normale
� 2 – Raggruppamento• procedura iterativa basata su un approccio di clustering divisivo
� 3 – Selezione (non prevista in MVC)•mediante valutazioni statistiche si seleziona un insieme di pattern
da sottoporre nuovamente alla fase di raggruppamento
� 4 – Calcolo prototipi• per ogni cluster si prende come prototipo il pattern che minimizza
la distanza intracluster
CRADLE 10
�Punti di forza
CRADLE 10
�Punti di forza�Ridotto costo computazionale• Il calcolo della distanza euclidea e poco costoso• La costruzione della matrice delle distanze avviene solo in fase di
configurazione
CRADLE 10
�Punti di forza�Ridotto costo computazionale• Il calcolo della distanza euclidea e poco costoso• La costruzione della matrice delle distanze avviene solo in fase di
configurazione
�Rapida convergenza• La fase di selezione accelera notevolmente il processo di minimiz-
zazione
CRADLE 10
�Punti di forza�Ridotto costo computazionale• Il calcolo della distanza euclidea e poco costoso• La costruzione della matrice delle distanze avviene solo in fase di
configurazione
�Rapida convergenza• La fase di selezione accelera notevolmente il processo di minimiz-
zazione
Setup sperimentale 11
Setup sperimentale 11
� Indici di validita utilizzati:
Setup sperimentale 11
� Indici di validita utilizzati:� Dunn’s Index
DI = mini 6=j, i,j⊂{1,...,k}
min1≤j≤k ∧ i 6=j
inter(Ci, Cj)
max1≤z≤k {intra(Cz)}
Setup sperimentale 11
� Indici di validita utilizzati:� Dunn’s Index
DI = mini 6=j, i,j⊂{1,...,k}
min1≤j≤k ∧ i 6=j
inter(Ci, Cj)
max1≤z≤k {intra(Cz)}
� Davies-Bouldin Index
DB = 1n
n∑i=1
maxSn(Ci) + Sn(Cj)
S(Ci, Cj)
i 6=j
Setup sperimentale 11
� Indici di validita utilizzati:� Dunn’s Index
DI = mini 6=j, i,j⊂{1,...,k}
min1≤j≤k ∧ i 6=j
inter(Ci, Cj)
max1≤z≤k {intra(Cz)}
� Davies-Bouldin Index
DB = 1n
n∑i=1
maxSn(Ci) + Sn(Cj)
S(Ci, Cj)
i 6=j
�Dataset utilizzato:� surrey fish database (www.surrey.ac.uk): 1100 shape di animali marini� selezione di 225 shape appartenti a 10 categorie diverse� creazione di 10 pattern set
Setup sperimentale 11
� Indici di validita utilizzati:� Dunn’s Index
DI = mini 6=j, i,j⊂{1,...,k}
min1≤j≤k ∧ i 6=j
inter(Ci, Cj)
max1≤z≤k {intra(Cz)}
� Davies-Bouldin Index
DB = 1n
n∑i=1
maxSn(Ci) + Sn(Cj)
S(Ci, Cj)
i 6=j
�Dataset utilizzato:� surrey fish database (www.surrey.ac.uk): 1100 shape di animali marini� selezione di 225 shape appartenti a 10 categorie diverse� creazione di 10 pattern set
� run di CRADLE con diverso numero di cluster (k = 3, . . . , 14):
� 5 run per ogni valore di k
� calcolo dei valori medi degli indici di validita
Sperimentazione 12
Sperimentazione 12
�Valore medio degli indici di validita
Sperimentazione 12
�Valore medio degli indici di validita
Sperimentazione 13
�Estratto del risultato di clustering delpattern set VI
Sperimentazione 13
�Estratto del risultato di clustering delpattern set VI
Sperimentazione 14
�Valutazione della fase di selezione
Sperimentazione 14
�Valutazione della fase di selezione
Sperimentazione 14
�Valutazione della fase di selezione
Conclusioni 15
Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
� Efficienza� ridotto costo computazionale� rapida convergenza
Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
� Efficienza� ridotto costo computazionale� rapida convergenza
�Robustezza� bassissima sensibilita alla configurazione iniziale
Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
� Efficienza� ridotto costo computazionale� rapida convergenza
�Robustezza� bassissima sensibilita alla configurazione iniziale
�Generalita� possibilita di fare clustering su qualunque tipologia di pattern
Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
� Efficienza� ridotto costo computazionale� rapida convergenza
�Robustezza� bassissima sensibilita alla configurazione iniziale
�Generalita� possibilita di fare clustering su qualunque tipologia di pattern
� Scalabilita� l’approccio incrementale permette il clustering di data set di grandi dimensioni
Conclusioni 15
Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-
taggi.
� Efficienza� ridotto costo computazionale� rapida convergenza
�Robustezza� bassissima sensibilita alla configurazione iniziale
�Generalita� possibilita di fare clustering su qualunque tipologia di pattern
� Scalabilita� l’approccio incrementale permette il clustering di data set di grandi dimensioni
� Flessibilita� e possibile parametrizzare la fase di selezione� supporto per 32 diversi indici di validita
Sviluppi futuri 16
Sviluppi futuri 16
�Approccio gerarchico� possibilita di analizzare meglio i risultati di clustering
su data set di grandi dimensioni
Sviluppi futuri 16
�Approccio gerarchico� possibilita di analizzare meglio i risultati di clustering
su data set di grandi dimensioni
� Introduzione di meccanismi piu sofisti-cati per� creare la configurazione iniziale random� spostare i pattern durante la fase di raggruppamento
Fine