cradle: clustering by random minimization dispersion based learning - un algortimo di clustering...

A.A. 2009-2010

Tesi di Laurea Triennale inInformatica e Tecnologie per la Produzione del Software

CRADLE:Clustering by RAndom minimum Dispersion based LEarning

Un algoritmo di clustering basato suminimizzazione random della dispersione

Relatore: Laureando:Prof.ssa CASTELLANO

GIOVANNADI DONATOLEONARDO

Il clustering 2

Il clustering 2

� E il processo di raggruppamento auto-matico di dati non etichettati in gruppiomogenei e significativi

Il clustering 2

� E il processo di raggruppamento auto-matico di dati non etichettati in gruppiomogenei e significativi.

Il clustering 3

�La crescita esponenziale dell’informa-zione rende necessario analizzare l’e-norme mole di dati:

Il clustering 3

�La crescita esponenziale dell’informa-zione rende necessario analizzare l’e-norme mole di dati:� il clustering trova applicazione in tutti quei contesti

in cui occorre ricercare schemi e/o strutture intrinse-che nei dati•data mining, pattern recognition, machine lear-

ning, image analysis

Approcci di clustering 4

Shape clustering 5

Shape clustering 5

�La caratterizzazione delle immagini tra-mite le forme di oggetti in esse conte-nuti rappresenta uno dei maggiori stru-menti utilizzati per la comprensione au-tomatica delle immagini

Shape clustering 5

�La caratterizzazione delle immagini tra-mite le forme di oggetti in esse conte-nuti rappresenta uno dei maggiori stru-menti utilizzati per la comprensione au-tomatica delle immagini� Studi di psicologia-congnitiva dimostrano che il con-

cetto di forma, in quanto invariante e generico, e unaspetto chiave e basilare dei processi di riconoscimen-to delle immagini

�Possibili campi applicativi:•medico, militare, sicurezza, computer vision, ac-

tion recognition, human detection, image retrie-val

Min.Variance Clustering 6


Srivastava et.al, A geometric approach to shape clustering and learning.

IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4):590-

602, April 2005.

� idea di base� ricerca casuale, tramite l’algoritmo Markov Chain Monte Carlo (MCMC), di una

configurazione di cluster che rende minima la varianza




602, April 2005.



� rappresentazione dei pattern� basata sulle geodetiche




602, April 2005.




� similarita fra pattern� basata sulla distanza geodetica




602, April 2005.





� funzione di costo� varianza totale delle distanze fra i pattern appartenenti ad un cluster




602, April 2005.





� funzione di costo� varianza totale delle distanze fra i pattern appartenenti ad un cluster

� criterio di convergenza� basato sul valore della temperatura (Simulated Annealing)

L’algoritmo proposto 7


�CRADLE�Clustering by RAndom minimum Dispersion based

LEarning


�CRADLE�Clustering by RAndom minimum Dispersion based

LEarning

�Progettato per superare le limitazionidell’algoritmo MVC� complessita• il calcolo della distanza geodetica e molto costoso

� lenta convergenza

CRADLE 8

CRADLE 8

� idea di base� ricerca casuale, tramite distribuzione normale dei pattern, di una configurazione

di cluster che rende minima la dispersione

CRADLE 8



�rappresentazione dei pattern� basata sui descrittori di Fourier

CRADLE 8




� similarita fra pattern� basata sulla distanza euclidea

CRADLE 8




� similarita fra pattern� basata sulla distanza euclidea

� funzione di costo� dispersione totale

Q(C) =k∑

i=1

2ni

∑va∈Ci

∑vb∈Ci, b<c

d (va, vb)2

CRADLE 9

�Fasi dell’algoritmo

CRADLE 9

�Fasi dell’algoritmo� 1 – Configurazione iniziale• si crea una configurazione iniziale di cluster assegnando i pattern

in base ad una distribuzione normale

CRADLE 9



� 2 – Raggruppamento• procedura iterativa basata su un approccio di clustering divisivo

CRADLE 9




� 3 – Selezione (non prevista in MVC)•mediante valutazioni statistiche si seleziona un insieme di pattern

da sottoporre nuovamente alla fase di raggruppamento

CRADLE 9




� 3 – Selezione (non prevista in MVC)•mediante valutazioni statistiche si seleziona un insieme di pattern

da sottoporre nuovamente alla fase di raggruppamento

� 4 – Calcolo prototipi• per ogni cluster si prende come prototipo il pattern che minimizza

la distanza intracluster

CRADLE 10

�Punti di forza

CRADLE 10

�Punti di forza�Ridotto costo computazionale• Il calcolo della distanza euclidea e poco costoso• La costruzione della matrice delle distanze avviene solo in fase di

configurazione

CRADLE 10

�Punti di forza�Ridotto costo computazionale• Il calcolo della distanza euclidea e poco costoso• La costruzione della matrice delle distanze avviene solo in fase di

configurazione

�Rapida convergenza• La fase di selezione accelera notevolmente il processo di minimiz-

zazione

Setup sperimentale 11


� Indici di validita utilizzati:


� Indici di validita utilizzati:� Dunn’s Index

DI = mini 6=j, i,j⊂{1,...,k}

min1≤j≤k ∧ i 6=j

inter(Ci, Cj)

max1≤z≤k {intra(Cz)}



DI = mini 6=j, i,j⊂{1,...,k}


inter(Ci, Cj)


� Davies-Bouldin Index

DB = 1n

n∑i=1

maxSn(Ci) + Sn(Cj)

S(Ci, Cj)

i 6=j



DI = mini 6=j, i,j⊂{1,...,k}


inter(Ci, Cj)



DB = 1n

n∑i=1

maxSn(Ci) + Sn(Cj)

S(Ci, Cj)

i 6=j

�Dataset utilizzato:� surrey fish database (www.surrey.ac.uk): 1100 shape di animali marini� selezione di 225 shape appartenti a 10 categorie diverse� creazione di 10 pattern set

www.surrey.ac.uk



DI = mini 6=j, i,j⊂{1,...,k}


inter(Ci, Cj)



DB = 1n

n∑i=1

maxSn(Ci) + Sn(Cj)

S(Ci, Cj)

i 6=j

�Dataset utilizzato:� surrey fish database (www.surrey.ac.uk): 1100 shape di animali marini� selezione di 225 shape appartenti a 10 categorie diverse� creazione di 10 pattern set

� run di CRADLE con diverso numero di cluster (k = 3, . . . , 14):

� 5 run per ogni valore di k

� calcolo dei valori medi degli indici di validita

www.surrey.ac.uk

Sperimentazione 12

Sperimentazione 12

�Valore medio degli indici di validita

Sperimentazione 13

�Estratto del risultato di clustering delpattern set VI

Sperimentazione 14

�Valutazione della fase di selezione

Conclusioni 15

Conclusioni 15

Rispetto a MVC, l’algoritmo CRADLE proposto presenta diversi van-

taggi.

� Efficienza� ridotto costo computazionale� rapida convergenza

Conclusioni 15


taggi.


�Robustezza� bassissima sensibilita alla configurazione iniziale

Conclusioni 15


taggi.



�Generalita� possibilita di fare clustering su qualunque tipologia di pattern

Conclusioni 15


taggi.




� Scalabilita� l’approccio incrementale permette il clustering di data set di grandi dimensioni

Conclusioni 15


taggi.




� Scalabilita� l’approccio incrementale permette il clustering di data set di grandi dimensioni

� Flessibilita� e possibile parametrizzare la fase di selezione� supporto per 32 diversi indici di validita

Sviluppi futuri 16

Sviluppi futuri 16

�Approccio gerarchico� possibilita di analizzare meglio i risultati di clustering

su data set di grandi dimensioni

Sviluppi futuri 16

�Approccio gerarchico� possibilita di analizzare meglio i risultati di clustering

su data set di grandi dimensioni

� Introduzione di meccanismi piu sofisti-cati per� creare la configurazione iniziale random� spostare i pattern durante la fase di raggruppamento

cradle: clustering by random minimization dispersion based learning - un algortimo di clustering...

Technology