presentation tisic 2011
TRANSCRIPT
![Page 1: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/1.jpg)
Presentation de quelques methodes et applications declustering de graphes
Etienne Come,[email protected]
8 Decembre 2011
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 1 / 68
![Page 2: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/2.jpg)
Outline
1 IntroductionGraphesProblematique de la recherche de communaute
2 Clustering de graphes, quelques methodesModele de melange d’Erdos RenyiMaximisation de la modulariteClustering spectral
3 Extraction locale de communauteProblematiqueSolutions existantesNoise cluster modelExperimentation : extraction de communautes de blogs
4 Clustering hierarchique / multi-echellesProblematiqueClustering spectral sur graphes orientesExtension hierarchiqueExperimentation : Identification d’aires urbaines
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 2 / 68
![Page 3: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/3.jpg)
Introduction Graphes
Introduction, graphes
Graphe
Deux elements G = {V ,E} :
I V : nœuds ou sommets
I E : liens, arcs (oriente) ou aretes (non-oriente)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 3 / 68
![Page 4: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/4.jpg)
Introduction Graphes
Introduction, graphes
Plusieurs representations
I Matrice d’adjacence A :
A :
{Aij = 1, si i ∼ j
Aij = 0, sinon.
I liste d’adjacence
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 4 / 68
![Page 5: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/5.jpg)
Introduction Graphes
Introduction, graphes
Plusieurs variationsI oriente / non oriente
I value / non value
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 5 / 68
![Page 6: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/6.jpg)
Introduction Graphes
Introduction, graphes
Plusieurs variationsI oriente / non oriente
I value / non value
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 6 / 68
![Page 7: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/7.jpg)
Introduction Graphes
Introduction, graphes
Plusieurs variationsI oriente / non oriente
I value / non value
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 7 / 68
![Page 8: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/8.jpg)
Introduction Graphes
Introduction, graphes
Beaucoup de domaines d’application
I reseaux routiers, biologiques, sociaux, ....
I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv
I ...
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 8 / 68
![Page 9: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/9.jpg)
Introduction Graphes
Introduction, graphes
Beaucoup de domaines d’application
I reseaux routiers, biologiques, sociaux, ....
I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv
I ...
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 9 / 68
![Page 10: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/10.jpg)
Introduction Graphes
Introduction, graphes
Beaucoup de domaines d’application
I reseaux routiers, biologiques, sociaux, ....
I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv
I ...
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 10 / 68
![Page 11: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/11.jpg)
Introduction Graphes
Introduction, graphes
Beaucoup de domaines d’application
I reseaux routiers, biologiques, sociaux, ....
I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv
I ...
−8 −6 −4 −2 0 2 4 6 8−6 −4 −2 0 2 4 6 8 10
−8
−6
−4
−2
0
2
4
6
8
1234
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 11 / 68
![Page 12: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/12.jpg)
Introduction Graphes
Introduction, graphes
Beaucoup de domaines d’application
I reseaux routiers, biologiques, sociaux, ....
I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv
I ...
100 200 300 400 500 600 700 800 900 1000
100
200
300
400
500
600
700
800
900
1000
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 12 / 68
![Page 13: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/13.jpg)
Introduction Graphes
Introduction, graphes
Beaucoup de domaines d’application
I reseaux routiers, biologiques, sociaux, ....
I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv
I ...
100 200 300 400 500 600 700 800 900 1000
100
200
300
400
500
600
700
800
900
1000
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 13 / 68
![Page 14: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/14.jpg)
Introduction Problematique de la recherche de communaute
Problematique
”A community could be loosely described as a collection of vertices withina graph that are densely connected amongst themselves while beingloosely connected to the rest of the graph.”
I regrouper les nœuds d’un graphe dans differents groupes ou clusters⇒ de maniere a ”maximiser la connectivite intra-cluster et/ouminimiser la connectivite inter-cluster”.
I Rmq : le nombre de clusters peut etre connu ou inconnu.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 14 / 68
![Page 15: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/15.jpg)
Clustering de graphes, quelques methodes Modele de melange d’Erdos Renyi
Modele de melange d’Erdos Renyi
Variables :I Xij ∈ {0, 1} variable binaire encodant la presence ou l’absence d’un
liens entre i et j :
xij =
{1, si il existe un liens entre i et j
0, sinon.(1)
I Zj ∈ {1, . . . ,K} sont des variables latentes, decrivant l’appartenancede j a un des K clusters possibles :
zj = k , si j appartient au cluster k . (2)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 15 / 68
![Page 16: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/16.jpg)
Clustering de graphes, quelques methodes Modele de melange d’Erdos Renyi
Modele de melange d’Erdos Renyi
Modele generatif :
1 tirer le groupe de chaque noeud suivant les proportions γ
2 ajouter un lien entre i et j avec une probabilite πkl si i appartient aucluster k et j appartient au cluster l .
Zji .i .d∼ M(1, γ), ∀j ∈ {1, . . . ,N} (3)
Xij |Zi = k ,Zj = li .i .d∼ B(πkl), ∀i , j ∈ {1, . . . ,N}, (4)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 16 / 68
![Page 17: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/17.jpg)
Clustering de graphes, quelques methodes Modele de melange d’Erdos Renyi
Modele de melange d’Erdos Renyi
Parametres :I γ : proportions, exemple γ = (0.1, 0.2, 0.6, 0.1)
I π : matrice de liens, exemple :
π =
0.1 0.01 0.01 0.005
0.005 0.2 0.01 0.010.005 0.001 0.1 0.010.005 0.001 0.01 0.3
.
Recherche de communaute :
π =
α1 ε ε εε α2 ε εε ε α3 εε ε ε α4
,
avec α >> ε.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 17 / 68
![Page 18: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/18.jpg)
Clustering de graphes, quelques methodes Modele de melange d’Erdos Renyi
Modele de melange d’Erdos Renyi
Optimization :
Strategie alternee de type EM...! mais probleme plus complique que EM classique (pas d’independanceconditionnellement aux donnees observees)
I approche variationnelle
I CEM, online CEM
I ...
Remarques
I permet une modelisation assez fine (pas limite a la recherche decommunaute)
I k doit etre fixe ou choisi par balayage
I assez lourd en temps de calcul (difficile de traiter des gros graphes)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 18 / 68
![Page 19: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/19.jpg)
Clustering de graphes, quelques methodes Maximisation de la modularite
Maximisation de la modularite
Definition du critere
La modularite Q est egale a la somme des connectivites intra-clustermoins la connectivite intra-cluster attendue sous hypothese uniforme.
Q =∑i 6=j
(Aij −kikj
m)δ(zi , zj),
avec ki =∑N
j=1 Aij le degre du nœud i et m =∑N
j=1 kj , zi le numero decluster du noeud i et δ la fonction de Kronecker.
Remarques
I permet de travailler sans un nombre de clusters predefini.
I assez leger en temps de calcul.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 19 / 68
![Page 20: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/20.jpg)
Clustering de graphes, quelques methodes Maximisation de la modularite
Maximisation de la modularite
Optimisation
I Recuit Simule
I Optimisation gloutonne Louvain
I ...
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 20 / 68
![Page 21: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/21.jpg)
Clustering de graphes, quelques methodes Clustering spectral
Clustering spectral recursif sur graphe oriente/value
L, matrice Laplacienne (graphes non orientes) :
L = D − A (5)
! f tLf =∑
i∼j(fi − fj)2 (Mesure de regularite de f sur L)
L, matrice Laplacienne normalisee (graphes non orientes) :
L = D−1/2LD−1/2 = I − D−1/2AD1/2 (6)
Proprietes :
1 L et L etant symetriques, leurs valeurs propres sont reelles et nonnegatives.
2 0 = λ0 <= λ1 <= ... <= λn−1.
3 Nombre de composante connexe de G = multiplicite de la valeurpropre 0.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 21 / 68
![Page 22: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/22.jpg)
Clustering de graphes, quelques methodes Clustering spectral
Definitions : coupe S , volume vol , ...
Coupe
S
S
I Coupe :V = {S ∪ S} (7)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 22 / 68
![Page 23: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/23.jpg)
Clustering de graphes, quelques methodes Clustering spectral
Definitions : coupe S , volume vol , ...
Coupe
S
S
I Volume d’un noeud :vol v =
∑u
Av ,u (8)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 23 / 68
![Page 24: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/24.jpg)
Clustering de graphes, quelques methodes Clustering spectral
Definitions : coupe S , volume vol , ...
Coupe
S
S
I Volume d’un ensemble de noeuds :
vol S =∑v∈S
vol v (9)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 24 / 68
![Page 25: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/25.jpg)
Clustering de graphes, quelques methodes Clustering spectral
Definition : coupe S , volume vol , ...
Coupe
S
S
I Volume d’une coupe :
vol δS =∑
u∈S ,v∈S
Au,v (10)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 25 / 68
![Page 26: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/26.jpg)
Clustering de graphes, quelques methodes Clustering spectral
Criteres de coupes
Ration Cut :
RatioCut(S , S) =vol δS
|S |.|S |, (11)
ou |S | et |S | sont respectivement les nombres de sommets de S et de S .Le probleme de minimisation pour trouver la solution approximee se resouta partir de la matrice laplacienne L et de son second plus petit vecteurpropre(cf. [HK92]).
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 26 / 68
![Page 27: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/27.jpg)
Clustering de graphes, quelques methodes Clustering spectral
Criteres de coupes
Conductance ou constante de Cheeger :
φG (S) =vol δS
min(vol S , vol S)(12)
On peut aussi definir la conductance d’un graphe :
φG = minS⊂V
φG (S) (13)
Inegalite de cheeeger :
φ2G
2≤ λ1 ≤ 2φG (14)
Ces inegalites permettent de considerer la solution relachee obtenue apartir de la matrice laplacienne normalisee, comme le montre Chung dans[Chu07].
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 27 / 68
![Page 28: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/28.jpg)
Clustering de graphes, quelques methodes Clustering spectral
Criteres de coupes
Normalized Cut :
ncut(S) = vol δS(1
vol S+
1
vol S) (15)
La solution relachee de la minimisation de ce critere se trouve a partir dela matrice laplacienne normalisee L et de son second plus petit vecteurpropre (cf. [SM00]).
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 28 / 68
![Page 29: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/29.jpg)
Clustering de graphes, quelques methodes Clustering spectral
Algorithme de recherche coupe optimale
1 Calcul de la matrice L ou L du graphe G (on suppose ici que legraphe est fortement connexe)
2 Calcul du vecteur propre v1 associe a la seconde plus petite valeurpropre λ1
3 Tri du vecteur v1 pour obtenir une permutation p de la matrice L ou L4 Calcul du critere de coupe sur chaque coupe possible de la matrice Lp
ou Lp apres permutation
5 Choix de la coupe I qui minimise le critere parmi les n − 1 coupespossibles
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 29 / 68
![Page 30: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/30.jpg)
Extraction locale de communaute
Extraction locale de communaute
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 30 / 68
![Page 31: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/31.jpg)
Extraction locale de communaute Problematique
Introduction
Motivations Extraction de communauteI Extraire une communaute en partant d’un ensemble de graines
I Algorithme ”On line”, complexite ∼ taille de la communaute
Solution : Noise cluster modelI Modele generatif simple
I Une communaute environnee par du bruit
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 31 / 68
![Page 32: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/32.jpg)
Extraction locale de communaute Problematique
Introduction, (exemple jouet)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 32 / 68
![Page 33: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/33.jpg)
Extraction locale de communaute Problematique
Introduction, (graphe clustering)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 33 / 68
![Page 34: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/34.jpg)
Extraction locale de communaute Problematique
Introduction, (graines)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 34 / 68
![Page 35: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/35.jpg)
Extraction locale de communaute Problematique
Introduction, (extraction d’une communaute)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 35 / 68
![Page 36: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/36.jpg)
Extraction locale de communaute Problematique
Introduction, (community extraction)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 36 / 68
![Page 37: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/37.jpg)
Extraction locale de communaute Problematique
Avantages
I les graines permettent d’avoir un focus pour analyser le graphe
I meilleure complexite
I exploration du graphe complet evitee
I moins de probleme avec des tailles de communautes differentes
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 37 / 68
![Page 38: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/38.jpg)
Extraction locale de communaute Solutions existantes
Solutions existantes au probleme de l’extraction
Bagrow & al [BB05]
I Parcours en largeur d’abord du graph en partant d’une graine ;
I jusqu’a ce que le taux d’expansion tombe en-dessous d’un seuilpredefini. (i.e. la proportion de liens trouves au niveau courant qui nemenent pas a des noeuds deja connus)
ProblemesI Uniquement une graıne
I Tous les noeuds d’un niveau sont inclus.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 38 / 68
![Page 39: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/39.jpg)
Extraction locale de communaute Solutions existantes
Solutions existantes au probleme de l’extraction
Clauset [Cla05]
I optimisation gloutonne a partir d’une graine d’un critere ”modularitelocale” Qloc ;
I frontiere B : ensemble des noeuds ayant un voisin encore inconnu ;
I ”modularite locale” : nombre de liens entre B et l’ensemble desnoeuds connus C diviser par le nombre total de liens ayant au moinsune extremite dans B.
Qloc =
∑i∈C,j∈B Bij +
∑i∈B,j∈C Bij∑
i ,j Bij, (16)
avec Bij = 1 si i j et l’un ou l’autre des noeuds appartient a B.
ProblemesI Ne peut prendre en compte qu’une graıne
I definition et choix du critere d’arret
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 39 / 68
![Page 40: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/40.jpg)
Extraction locale de communaute Solutions existantes
Solutions existantes au probleme de l’extraction
Autres solutionsI [AL06] marche aleatoire et conductance
I [SG10] optimisation combinatoire
ProblemeI complexite depend de la taille du graphe.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 40 / 68
![Page 41: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/41.jpg)
Extraction locale de communaute Noise cluster model
Noise cluster model
Definition du modele
Zii .i .d∼ B(γ), ∀i ∈ {1, . . . ,N}, (17)
Xij |Zi × Zj = 1i .i .d∼ B(α), ∀i , j ∈ {1, . . . ,N}, (18)
Xij |Zi × Zj = 0i .i .d∼ B(β), ∀i , j ∈ {1, . . . ,N}, (19)
avec zi = 1, si i appartient a la communaute et 0 sinon.
π =
(α ββ β
),
avec α >> β.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 41 / 68
![Page 42: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/42.jpg)
Extraction locale de communaute Noise cluster model
Notations :I Taille de la communaute :
Nc =∑
i
zi
I Degres :
d inj =
∑i :zi =1
xij , doutj =
∑i :zi =1
xji , dj =∑
i :zi =1
(xij + xji )
I Probabilite a posteriori :
pinj = P(Zj = 1|Xij = xij ,Zi = zi , ∀i ∈ {1, . . . ,N}),
poutj = P(Zj = 1|Xji = xji ,Zi = zi , ∀i ∈ {1, . . . ,N}),
pin,outj = P(Zj = 1|Xij = xij ,Xji = xji ,Zi = zi , ∀i ∈ {1, . . . ,N}),
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 42 / 68
![Page 43: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/43.jpg)
Extraction locale de communaute Noise cluster model
Simplifications :
Avec ce modele les probabilites a posteriori se simplifient :
I parametres (α, β, γ) ;
I nombre de liens avec la communaute (d inj , d
outj , d in,out
j ) ;
I taille de la communaute (Nc) ;
Exemple pour pinj
pinj =
αd inj × (1− α)(Nc−d in
j ) × γαd in
j × (1− α)(Nc−d inj ) × γ + βd in
j × (1− β)(Nc−d inj ) × (1− γ)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 43 / 68
![Page 44: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/44.jpg)
Extraction locale de communaute Noise cluster model
Test d’appartenance a la communaute
Test d’appartenance a la communaute : seuil sur le nombre de liens avecles membres de la communaute.
{pinj > s} ⇔ {d in
j > dmin}, (20)
with
dmin =
⌊log(s × (1− β)Nc × (1− γ)
)− log
((1− s)× (1− α)Nc × γ
)log (α× (1− β))− log ((1− α)× β)
⌋
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 44 / 68
![Page 45: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/45.jpg)
Extraction locale de communaute Noise cluster model
● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0 10 20 30 40 50
0.0
0.4
0.8
alpha=0.1,beta=0.001,gamma=0.05,Nc=200
din
pc
0 100 200 300 400
24
68
10
alpha=0.1,beta=0.001,gamma=0.05
Nc
dmin
Fig.: (haut) valeur de pinj en fonction de d in
j avec α = 0.1, β = 0.001, γ = 0.05et Nc = 200 ; (bas) evolution du seuil dmin par rapport a Nc avec α = 0.1,β = 0.001, γ = 0.05 et s = 0.5.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 45 / 68
![Page 46: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/46.jpg)
Extraction locale de communaute Noise cluster model
Apprentissage des parametres ”CEM on line”[ZAM08]
Vraisemblance classifiante :
Lc(X,Z, θ) =∑
i
zi log(γ) +∑
i
(1− zi ) log(1− γ)
+∑
i ,j :i 6=j
zi × zj × xij log(α) +∑
i ,j :i 6=j
zi × zj(1−×xij) log(1− α)
+∑
i ,j :i 6=j
(1− zi × zj)× xij log(β) +∑
i ,j :i 6=j
(1− zi × zj)× (1− xij) log(1− β)
avec Z = {z1, . . . , zN}, X = {xij : i 6= j , i , j ∈ {1, . . . ,N}}, et θ = (γ, α, β)le vecteur de parametres.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 46 / 68
![Page 47: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/47.jpg)
Extraction locale de communaute Noise cluster model
Apprentissage des parametres ”CEM on line”[ZAM08]
Si la partition Z = {z1, . . . , zN} est connue, les parametres maximisant lavraisemblance classifiante sont donnees par :
γ =Nc
N, (21)
α =1
N2c
N∑i ,j=1, i 6=j
(zi × zj)xij , (22)
β =1
Nc × (N + Nc)
N∑i ,j=1, i 6=j
(1− zi × zj)xij , (23)
avec Nc = N − Nc .
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 47 / 68
![Page 48: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/48.jpg)
Extraction locale de communaute Noise cluster model
Procedure d’extraction proposee
Algorithme
Couple un algorithme de parcours de graphe en largeur (en partant desgraines) avec la procedure suivante,Pour chaque noeuds traverse :
1 utiliser le test d’appartenance definit precedemment (20) pourl’ajouter ou non a la communaute
2 mettre a jour les parametres (21, 22, 23), en utilisant la partitioncourante
Jusqu’a ce qu’aucun noeud ne passe le test d’appartenance.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 48 / 68
![Page 49: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/49.jpg)
Extraction locale de communaute Experimentation : extraction de communautes de blogs
Experimentation : extraction de communautes de blogs
Protocole :I crawler multi-thread utilisant l’algorithme precedent ;
I graınes : classement de blogs pour differentes categories ( URLshttp ://www.wikio.com)
I 100 ou 50 graines pour 4 communautes test :
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 49 / 68
![Page 50: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/50.jpg)
Extraction locale de communaute Experimentation : extraction de communautes de blogs
Extraction de communautes de blogs
Illustration (fr) Scrapbooking (fr) Cuisine(fr) Politics (en)
α 0.01829 0.02955 0.03846 0.02004
β 0.00094 0.00232 0.00209 0.00068
β/α 0.05139 0.07851 0.05434 0.03393Nc 1 360 701 622 1 808N 37 101 13 467 16 364 84 702dia 8 8 6 7apl 3.059 2.749 2.71 3.014
Tab.: Parametres estimees α, β et statistiques descriptives des communautesextraites : dia diametre, apl longueur moyen des chemin entre membres de lacommunaute.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 50 / 68
![Page 51: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/51.jpg)
Extraction locale de communaute Experimentation : extraction de communautes de blogs
Extraction de communautes de blogs
Community Precision Vocabulary extracted
Illustration (fr) 99% (animation 34.37%, drawing 28.96%,illustration 25.30%, sketches 24.55%,world 20.31%,...)
Scrapbooking (fr) 98% (scrap 84.16%, scrapbooking 58.24%,tampons 47.71%, scrapper 29.58%,embellissements 22.53%,...)
Cooking (fr) 100% (cuisine 83.72%, recettes 79.45%, re-cette 73.81%, chocolat 68.73%, sucre64.14%,...)
Politics (en) 96% (senate 28.78%, conservatives21.12%, pundit 20.11%, terrorism19.76%, congressional 19.25%,...)
Tab.: Analyse du contenue. Precision evaluee sur 100 blogs au hasard,vocabulaire representatif de la communaute.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 51 / 68
![Page 52: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/52.jpg)
Extraction locale de communaute Experimentation : extraction de communautes de blogs
Fig.: Illustration (fr).
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 52 / 68
![Page 53: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/53.jpg)
Extraction locale de communaute Experimentation : extraction de communautes de blogs
Fig.: Scrapbooking (fr).
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 53 / 68
![Page 54: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/54.jpg)
Extraction locale de communaute Experimentation : extraction de communautes de blogs
Fig.: Cuisine (fr).
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 54 / 68
![Page 55: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/55.jpg)
Extraction locale de communaute Experimentation : extraction de communautes de blogs
Fig.: Cuisine (fr).
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 55 / 68
![Page 56: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/56.jpg)
Extraction locale de communaute Experimentation : extraction de communautes de blogs
Fig.: Politics (en).
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 56 / 68
![Page 57: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/57.jpg)
Extraction locale de communaute Experimentation : extraction de communautes de blogs
Fig.: Politics (en).
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 57 / 68
![Page 58: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/58.jpg)
Extraction locale de communaute Experimentation : extraction de communautes de blogs
Conclusion
ConclusionI approche gloutonne simple ;
I complexite ∼ taille de la communaute ;
I extraction de communautes de blogs
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 58 / 68
![Page 59: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/59.jpg)
Clustering hierarchique / multi-echelles
Clusteringhierarchique / multi-echelles
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 59 / 68
![Page 60: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/60.jpg)
Clustering hierarchique / multi-echelles Problematique
Problematique
Introduction
Analyse de graphe presentant differentes echelles d’analyse pertinentes :Regionales, Aire urbaines, ...
Piste etudiee
Mise en relation des poles urbains elementaires grace a des donneesrelatives au transport :
I flux (domicile-travail/ecole et autres)
I infrastructures (transports en commun et individuels)
Traitement sous forme de graphe, aspect multi-echelle et hierarchique.Recherche de communautes, clustering de graphe :
I clustering spectral recursif [Gleich06,Chung05]
I maximisation de la modularite hierarchique [Newman04]
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 60 / 68
![Page 61: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/61.jpg)
Clustering hierarchique / multi-echelles Clustering spectral sur graphes orientes
Extension aux graphes orientes
Matrice laplacienne normalisee dirigee :
L = L(G ) = I − 1
2(Π1/2PΠ−1/2 + Π−1/2PΠ1/2), (24)
ou P est la matrice de transition associe a G ; Π est la matrice diagonaleformee par π la distribution stationnaire de la marche aleatoire.
Avantages :
I extension des notions de coupe, volumes ...
I permet de se ramener a une matrice symetrique
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 61 / 68
![Page 62: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/62.jpg)
Clustering hierarchique / multi-echelles Extension hierarchique
Extension aux graphes orientes
Algorithme de clustering hierarchique
1 Calcul de la matrice laplacienne dirigee L du graphe G
2 Separation de G en composantes connexes et application des etapessuivantes sur chaque composante
3 Calcul du vecteur propre v1 associe a la seconde plus petite valeurpropre
4 Tri du vecteur v1 pour obtenir une permutation p1 de la matrice L5 Calcul du critere ncut, ou ϕ sur la matrice Lp1 apres permutation
6 Choix de la coupe I qui minimise le critere choisi sur Lp1
7 Application recursive des etapes 2 a 7 sur les partitions engendreespar la coupe I , tant que les partitions obtenues sont de taillesuperieure a p (la taille minimale definie initialement).
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 62 / 68
![Page 63: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/63.jpg)
Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines
Experimentation : Identification d’aires urbaines
Donnees
Matrice OD (domicile/travail, INSEE) = Graphe oriente value.37 948 communes=communes, 1 560 058 arcs.
Fig.: Matrice d’adjacence ordonnee aleatoirement.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 63 / 68
![Page 64: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/64.jpg)
Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines
Experimentation : Identification d’aires urbaines
Donnees
Matrice OD (domicile/travail, INSEE) = Graphe oriente value.37 948 communes=communes, 1 560 058 arcs.
Fig.: Matrice d’adjacence ordonnee par clustering spectral.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 64 / 68
![Page 65: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/65.jpg)
Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines
Experimentation : Identification d’aires urbaines
Région Nord-Est de la France :
Champagne-ArdenneAlsaceLorraineFranche-Comté(+département de l'Aisne)
Flux transfrontaliers :Belgique, Luxembourg,Allemagne, Suisse
Fig.: Imbrication des structures de communes sur la matrice WS apres permutation.
Premier niveau : cluster de communes du Nord-Est de la France
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 65 / 68
![Page 66: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/66.jpg)
Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines
Experimentation : Identification d’aires urbaines
Région Est de la France :AlsaceFranche-Comté(+départements Haute-Marneet Vosges)
Flux transfrontaliers :Allemagne, Suisse
Fig.: Imbrication des structures de communes sur la matrice WS apres permutation.
Deuxieme niveau : cluster de communes de l’Est de la France (zoom sur le 1er niveau)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 66 / 68
![Page 67: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/67.jpg)
Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines
Experimentation : Identification d’aires urbaines
Régions Est :Centrée certaines communes du Doubs :
Cantons de Morteau, Montbenoit,Russey, Vercel, Pierrefontaine les Varans,Clerval
Et de certaines communes Suisseau Nord de Neuchâtel
Fig.: Imbrication des structures de communes sur la matrice WS apres permutation.
Troisieme niveau : cluster de communes du Doubs (zoom sur le 2eme niveau)
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 67 / 68
![Page 68: Presentation Tisic 2011](https://reader033.vdocuments.site/reader033/viewer/2022052913/55a23e481a28ab146e8b46d1/html5/thumbnails/68.jpg)
Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines
R. Andersen and K. Lang.Communities from seed sets.In Proceedings of the 15th International Conference on World Wide Web, pages 223–232.ACM Press, 2006.
J.P. Bagrow and E.M. Bollt.A local method for detecting communities.Phys Rev E Stat Nonlin Soft Matter Phys, 72(4) :046108, 2005.
F. Chung.Four proofs for the cheeger inequality and graph partition algorithms.In Proceedings of ICCM, volume 2, pages 751–772, 2007.
A. Clauset.Finding local community structure in networks.Phys Rev E Stat Nonlin Soft Matter Phys, 72(2) :026132, 2005.
L. Hagen and A.B. Kahng.New spectral methods for ratio cut partitioning and clustering.11(9) :1074–1085, 1992.
M. Sozio and A. Gionis.The community-search problem and how to plan a successful cocktail party.In Proceedings of the 16th ACM SIGKDD Conference On Knowledge Discovery and DataMining (KDD), pages –, 2010.
J. Shi and J. Malik.Normalized cuts and image segmentation.22(8) :888–905, 2000.
H. Zanghi, C. Ambroise, and V. Miele.Fast online graph clustering via erdos-renyi mixture.Pattern Recognition, 41(12) :3592–3599, December 2008.
Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 68 / 68