utilisation de réseau de neurones siamois en clustering ... · validation of cluster...

31
Utilisation de r´ eseau de neurones siamois en clustering : application aux ´ ev´ enements du r´ eseau ´ electriquefran¸cais XXVIe Rencontres de la Soci´ et´ e Francophone de Classification Laure Crochepierre* 1 , Antoine Marot*, Vincent Barbesant*, Benjamin Donnot*, Lydia Boudjeloud* R´ eseau de Transport d’Electricit´ e, INRIA, CNRS LORIA, Universit´ e de Lorraine 5 Septembre 2019 1 [email protected]

Upload: others

Post on 05-Nov-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Utilisation de reseau de neurones siamois en clustering :application aux evenements du reseau electrique francais

XXVIe Rencontres de la Societe Francophone de Classification

Laure Crochepierre•*1, Antoine Marot*, Vincent Barbesant*,Benjamin Donnot*, Lydia Boudjeloud•

* Reseau de Transport d’Electricite,• INRIA, CNRS LORIA, Universite de Lorraine

5 Septembre 2019

[email protected]

Page 2: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Plan

1 Contexte

2 Approche experte

3 Approche non-supervisee

4 Approche semi-supervisee

5 Conclusion et perspectives

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 2 / 31

Page 3: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Contexte

Introduction

Figure 1: Postes operateurs dans un dispatching Rte.

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 3 / 31

Page 4: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Contexte

Quelles donnees ?

P C

P

C

C

P : ProducteurC : Consommateur

Figure 2: Reseau electrique simplifie.Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 4 / 31

Page 5: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Contexte

Quels labels ?

P C

P

C

C

Horodate Mesure Capteur

01/01/2017 08:02:41 1 SA

01/03/2017 08:03:47 1 SA

Figure 3: Reseau electrique simplifie lors d’une operation de maintenance.Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 5 / 31

Page 6: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Contexte

Quelles mesures ?

Horodate Poste Mesure Capteur

01/01/2017 08:02:41 Sub1 -1 SA01/03/2017 08:03:21 Sub2 -1 SA01/03/2017 08:03:37 Sub1 1 SA01/03/2017 08:03:43 Sub2 1 SA01/03/2017 08:03:47 Sub2 -1 DJ

Table 1: Exemple de donnee temps reel.Le label associe n’est pas enregistre

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 6 / 31

Page 7: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Contexte

Description des donnees

Restriction des actions

Region electrique de Lyon (parmis les 7 regions du reseau francais)

Sur l’annee 2017

Soit 103 075 actions

Decoupage des sequences

Une sequence = Ensemble des actions sur une journee et un groupecoherent de capteurs

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 7 / 31

Page 8: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Contexte Modelisation des donnees

Exemple de sequence S

Figure 4: Sequence temporelle multivariee.

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 8 / 31

Page 9: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Contexte Modelisation des donnees

Focus sur 3 classes principales

Consignation (A) Manoeuvre periodique (B) Evenement C

Figure 5: Sequence caracteristique de chaque classe

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 9 / 31

Page 10: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche experte

Plan

1 Contexte

2 Approche experte

3 Approche non-supervisee

4 Approche semi-supervisee

5 Conclusion et perspectives

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 10 / 31

Page 11: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche experte Pre-labellisation experte

Protocole de l’approche experte

Donnees

Pour l’application des regles : 103075 mesures d’actions

Pour validation des labels: Fichiers du personnel operationnel

Protocole

Application de regles logiques construites iterativement en collaborationavec des experts du metier

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 11 / 31

Page 12: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche experte Pre-labellisation experte

Resultats de l’approche experte

Figure 6: Matrice de confusion normalisee2 de l’approche experte.

2La normalisation se fait par ligne (ie. sur le nombre total d’elements de la classe).Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 12 / 31

Page 13: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche experte Pre-labellisation experte

Conclusions sur la pre-labellisation experte

Conclusions

3 classes identifiees pour le moment

6907 sequences labellisees (17%)

Difficile d’inclure de nouvelles regles

Encore 33579 sequences non labellisees dont la moitie sans labelconnu (74% de l’ensemble des sequences)

Donnees utilisees

Restriction du dataset aux 3 classes labellisees :

Classe A : 3044 sequences

Classe B : 3389 sequences

Classe C : 474 sequences

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 13 / 31

Page 14: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche non-supervisee

Plan

1 Contexte

2 Approche experte

3 Approche non-supervisee

4 Approche semi-supervisee

5 Conclusion et perspectives

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 14 / 31

Page 15: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche non-supervisee Protocole

Experience non-supervisee : Protocole

Donnees

On travaille avec les 6907 sequences precedemment labellisees par lamethode experte

Protocole

Etape 1 : Application du Clustering Ascendant hierarchique parmethode de Ward pour un nombre variable de clusters enutilisant la mesure de Dynamic Time Warping

Etape 2 : Extension de label par application du label majoritaire achaque cluster

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 15 / 31

Page 16: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche non-supervisee Protocole

Choix du critere de validation des clusters

Criteres de validation internes a maximiser

Silhouettea

Sk =∑

i∈Ck

b(i)−a(i)max(b(i), a(i))

Calinski-harabaszb

CH = n−NCNC−1 × BCSS

WCSSou B/WCSS = Between / Winthin Clusters Sum of Squares

aPeter J Rousseeuw. “Silhouettes: a graphical aid to the interpretation andvalidation of cluster analysis”. In: Journal of computational and appliedmathematics 20 (1987), pp. 53–65.

bTadeusz Calinski and Jerzy Harabasz. “A dendrite method for clusteranalysis”. In: Communications in Statistics-theory and Methods 3.1 (1974),pp. 1–27.

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 16 / 31

Page 17: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche non-supervisee Resultats

Resultats de l’approche non-supervisee

Figure 7: Choix du nombre de clusters par maximisation de l’indice Calinski.

Resultats

Largeur de la silhouette faible (< 0.5)

Critere optimise : indice de Calinski Harabasz (max pour 3 classes)

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 17 / 31

Page 18: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche non-supervisee Resultats

Purete des clusters : Resultats de l’extension de labels

Figure 8: Matrice de confusion normalisee de l’extension de labelssur le clustering de ward a 3 classes.

F1-score pondere = 0.57% labels corrects = 53

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 18 / 31

Page 19: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche non-supervisee Resultats

Resultats de l’approche non-supervisee

Limitations

Resultats faibles

Probleme de scalabilite : DTW tres longue a calculer (17h)

S’affranchir de l’utilisation des labels experts (et donc de laconnaissance experte) est restrictif

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 19 / 31

Page 20: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche semi-supervisee

Plan

1 Contexte

2 Approche experte

3 Approche non-supervisee

4 Approche semi-supervisee

5 Conclusion et perspectives

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 20 / 31

Page 21: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche semi-supervisee Objectifs

Objectifs de l’approche par reseaux de neurones siamois

Objectifs globaux

Creer un algorithme performant pour avec peu de labels

Pouvoir faire de la recherche de classes iterative

Pouvoir inclure potentiellement de nouvelles classes

Pourquoi des reseaux de neurones ?

Structure complexe et heterogene des donnees (images, sequences, ...)

Reseaux siamois performants face a des problemes similaires dedetections de classesa

aSara Bahaadini et al. “DIRECT: Deep Discriminative Embedding forClustering of LIGO Data”. In: arXiv preprint arXiv:1805.02296 (2018);Vahid Noroozi et al. “Seven: deep semi-supervised verification networks”. In:arXiv preprint arXiv:1706.03692 (2017).

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 21 / 31

Page 22: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche semi-supervisee Metric learning et projection des donnees

Description du reseau siamois

Figure 9: Projection des sequences par un reseau siamois convolutif.3

3Jane Bromley et al. “Signature verification using a” siamese” time delay neuralnetwork”. In: Advances in neural information processing systems. 1994, pp. 737–744.

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 22 / 31

Page 23: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche semi-supervisee Metric learning et projection des donnees

Experience 1 :

Exploration de la projection

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 23 / 31

Page 24: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche semi-supervisee Metric learning et projection des donnees

Visualisation de la similarite entre les donnees par t-SNE

Figure 10: Representation des donnees projetees reduite par t-SNE4.

4Laurens van der Maaten and Geoffrey Hinton. “Visualizing data using t-SNE”. In:Journal of machine learning research 9.Nov (2008), pp. 2579–2605.

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 24 / 31

Page 25: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche semi-supervisee Metric learning et projection des donnees

Visualisation de la similarite entre les donnees par t-SNE

(a) similarites avec la mesure de DTWsur les sequences

(b) similarites apprises dans l’espace deprojection

Figure 11: Comparaison de representations de donnees reduites par t-SNE.

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 25 / 31

Page 26: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche semi-supervisee Metric learning et projection des donnees

Experience 2 :

Clustering de la projection

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 26 / 31

Page 27: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche semi-supervisee Experiences sur la projection

Experience 2 : Protocole

Donnees

6907 sequences prealabelement labellisees A, B, et C par la methodeexperte

Protocole

Etape 1 : Entrainement d’un reseau siamois avec les 3 classes A, B, C

Etape 2 : Application du clustering hierarchique ascendant avec lamethode de Ward sur la projection

Etape 3 : Extension de label par application du label majoritaire achaque cluster

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 27 / 31

Page 28: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Approche semi-supervisee Experiences sur la projection

Experience 2 : Resultats

Resultats

Plus grand nombre de clusters detectes (9 clusters au maximum del’indice CH)

Score de silhouette superieur a 0.5

Sur la purete des clusters

Application du label majoritaire a chaque cluster

F1-score pondere 0.64 et % labels corrects 63

Classe C jamais detectee : label jamais majoritaire

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 28 / 31

Page 29: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Conclusion et perspectives

Conclusions

Conclusions

Apprentissage d’une metrique adaptee au donnees

Projection des sequences dans un espace euclidien conservant lesproprietes de l’espace initial

Decouverte de groupes et sous-groupes de sequences a explorer

Methode extensible a plus de sequences et plus de classes

Gestion de la memoire facillite avec TensorflowTemps de convergence entre 2h et 5h (selon le nombre d’iterations)

Limitations

Application a 3 categories d’evenements uniquement

Pourcentage de donnees labellisees encore faible

Choix initial du format des sequences

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 29 / 31

Page 30: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Conclusion et perspectives

Perspectives

Perspectives

Variation du nombre de sequences pour entraıner le reseau

Extrapolation de la methode a l’ensemble des sequences

Exploration de nouvelles architectures Triplet Neural Net,Conditionnal Variationnal Auto-Encodeur (CVAE)

Proposer un nouveau decoupage des sequences

Creation d’un processus iteratif de labellisation interactif s’inspirantde l’Active Learninga et du Machine Teachingb

aBurr Settles. “Active learning”. In: Synthesis Lectures on ArtificialIntelligence and Machine Learning 6.1 (2012), pp. 1–114.

bWeiyang Liu et al. “Iterative machine teaching”. In: arXiv preprintarXiv:1705.10470 (2017).

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 30 / 31

Page 31: Utilisation de réseau de neurones siamois en clustering ... · validation of cluster analysis".In: Journal of computational and applied mathematics 20 (1987), pp. 53{65. bTadeusz

Conclusion et perspectives

Merci pour votre attention.

Des questions ?

Crochepierre et al. (Rte) Reseau de neurones siamois en clustering 5 Septembre 2019 31 / 31