vers un entrepôt de données pour le trafic routier
DESCRIPTION
Vers un entrepôt de données pour le trafic routier. Claudia Bauzer-Medeiros (1) , Olivier Carles (2) , Florian Devuyst (3) , Georges Hébrail (4) , Bernard Hugueney (5) , Marc Joliveau (3) , Geneviève Jomier (5) , Maude Manouvrier (5) , Yosr Naïja (5) , Gérard Scemama (1) , Laurent Steffan (5) - PowerPoint PPT PresentationTRANSCRIPT
Vers un entrepôt de données pour le trafic routier
Claudia Bauzer-Medeiros(1), Olivier Carles(2), Florian Devuyst(3), Georges Hébrail(4), Bernard Hugueney(5), Marc Joliveau(3), Geneviève Jomier(5), Maude Manouvrier(5), Yosr Naïja(5),
Gérard Scemama(1), Laurent Steffan(5)
(1) IC UNICAMP – Université de Campinas – Brésil
(2) GRETIA - INRETS
(3) MAS – École Centrale de Paris
(4) I3 – ENST Paris
(5) LAMSADE – Université Paris-Dauphine
Dans le cadre de l’ACI Masses de Données CADDYhttp://norma.mas.ecp.fr/wikimas/Caddy
Plan
1. Introduction et contexte
2. Données du trafic routier
3. Construction de l’entrepôt
4. Multi-représentation de séries temporelles
5. Architecture du système d’information
6. État de l’art
7. Conclusion et perspectives
ACI CADDY - EDA 2006 2
IntroductionProblématique :
Entrepôt de données spatio-temporelles
Sources de données de type capteurs enregistrant périodiquement des phénomènes spécifiques
Prise en compte, pour extraire de l’information, de : la localisation des capteurs, la périodicité des prises de valeurs la variation espace-temps des valeurs
Application à la gestion de trafic urbain
ACI CADDY - EDA 2006 3
Contexte Combinaison de travaux issus de la recherche en
entrepôt de données spatiales, en série temporelles et en modélisation mathématique
Dans le cadre d’une ACI Masses de Données CADDY (Contrôle de l’Acquisition de Données temporelles massives, stockage et modèles DYnamiques)
Collaboration avec l’INRETS (Institut National de Recherche sur les Transports et leur Sécurité)
Objectif : produire un système pour l’aide à la décision pour la gestion du trafic routier
ACI CADDY - EDA 2006 4
Données du trafic routier (1/2) Variables macroscopiques temporelles mesurées par des
capteurs implantés sur des axes routiers
– Débit : nombre de véhicules par unité de temps (minute ou heure)
– Taux d’occupation : exprimé en pourcentage
Mesures de débit et de taux d’occupation constituant des séries temporelles
ACI CADDY - EDA 2006 5
Données du trafic routier (2/2)Graphe modélisant le réseau routier d’une ville
ACI CADDY - EDA 2006 6
Plus de 400 capteurs
Valeurs enregistrées toutes les 3 minutes
Plus de 400 000 valeurs élémentaires par jour
Construction de l’entrepôt (1/3) Insertion des données hors ligne dans un premier temps avec un souhait de l’étendre au temps réel Données de la base organisées selon différents axes :
– Capteurs
– Temps
– Valeurs mesurées
Mise en valeur de la corrélation de l’évolution de ces séquences temporelles avec l’activité humaine
7
Taux d’occupation d’un jour de semaine ordinaire (lundi à vendredi – non férié)
Pics entre 8h et 10h et entre 17h et 20h
Corrélation avec les valeurs de débits
ACI CADDY - EDA 2006
Construction de l’entrepôt (2/3)
8ACI CADDY - EDA 2006
Pour analyser l’activité humaine à travers le temps
Pour une analyse spatiale selon la topologie du réseau
Pour analyser l’incidence des conditions météo et/ou des événements ayant un impact sur la circulation
Fluide ou congestionné
Construction de l’entrepôt (3/3)
9ACI CADDY - EDA 2006
Intégrer les informations de l’entrepôt à d’autres systèmes urbains (ex. cadastre) + Faciliter la visualisation
Dériver des relations entre les valeurs mesurées et différents types d’événements temporels associés à des activités humaines
Plusieurs expérimentations pour valider ces agrégations sémantiques« Quels sont les axes fluides, les veilles de week-end de vacances scolaires
entre 15h et 17h par beau temps? »« Quelles sont les zones congestionnées d’un quartier en fin de soirée lors de manifestations sportives ? »
Multi-représentation de séries temporelles
Utilisation de représentation compacte des séries afin de pouvoir les étudier ou les analyser Objectif : construire une représentation
– Préservant au maximum l’information présente dans les données
– Sans connaissance a priori sur cette information Deux types de résumés :
– Résumés numériques
– Résumés symboliques
10ACI CADDY - EDA 2006
Résumés numériques (1/2)
Partition du domaine de définition temporel en épisodes Découpage régulier en épisodes ou adapté localement aux données Modèles les plus simples : modèles linéaires d’ordre 0 et d’ordre 1 Choix du modèle et choix du nombre d’épisodes généralement liés aux
données à représenter
11ACI CADDY - EDA 2006
Résumés numériques (2/2)
12ACI CADDY - EDA 2006
Extrait de série temporelle de taux d’occupation
Modélisation par ACPA (Adaptive Piecewise
Constant Approximation)
ACPA : Chakrabarti, K., E. Keogh, S. Mehrotra, et M. Pazzani (2002). Locally adaptive dimensionality reduction for indexing large time series databases. ACM Trans. on Database Systems (TODS) 27(2), 188–228.
Résumés symboliques (1/2) Intégration d’algorithmes de segmentation de courbes et de recherche de formes types journalières Association d’un symbole à une classe d’extraits de séries temporelles considérés comme équivalents Ex. Association de symboles à des profils typiques de circulation journalière ou à de niveaux typiques
d’encombrement dus axes routiers
Obtention d’un alphabet de symboles par classification Représentation symbolique calculée à la demande de l’utilisateur ou à l’entrée des données brutes dans le
système
13ACI CADDY - EDA 2006
Résumés symboliques (2/2)
14ACI CADDY - EDA 2006
Extrait de série temporelle de taux d’occupation et de sa modélisation par CBSR (Clustering Based Symbolic
Representation)Hugueney, B. (2003). Représentations symboliques de longues séries temporelles. Thèse dedoctorat, Univ. Paris 6.
Architecture du SI (1/6)
15
Public de décideurs (experts de compagnie de transports publics) et de chercheurs du domaine routier, d’hommes politiques, d’opérateurs du SI, voire plus général
ACI CADDY - EDA 2006
Architecture du SI (2/6)
16ACI CADDY - EDA 2006
Plusieurs sources de données : Données spatio-temporelles fournies par les capteurs Annotations textuelles et fichiers de documentation
Données géographiques (associées principalement au tracés urbains)
Informations météorologiques
Nettoyage préalable des données
Stockage des données dans un Entrepôt de données appartenant à la couche Stockage
Architecture du SI (3/6)
17ACI CADDY - EDA 2006
Ensemble d’ontologies : Pour organiser les définitions et la terminologie utilisée dans le domaine
d’application Plusieurs dimensions ou axes de connaissance fournis par différentes demandes ou
profils utilisateurs Magasins de données :
Contenant des « vues matérialisées » sur l’entrepôt Créés au fur et à mesure de l’apparition de nouvelles demandes sur un sous-
ensembles des données
Couche Stockage
Architecture du SI (4/6)
18
Responsable des interactions des utilisateurs avec le système
Prévision de différentes formes de visualisations interactives
Actuellement : visualisation sous la forme de carte, de table de données, ou de courbes
Couche Interface
ACI CADDY - EDA 2006
Debrégeas A., Hébrail G., Interactive interpretation of Kohonen maps applied to curves, Int. Conf. on Knowledge Discovery and Data Mining (KDD’98), New-York, Août 1998
Architecture du SI (5/6)
19
Ensemble de composants intervenant dans le traitement des demandes utilisateurs
Aide à la transformation d’une demande utilisateur depuis l’Interface dans un ensemble d’accès à la couche Stockage
Responsable du traitement des données depuis la couche Stockage et de leur transformation en vue de leur visualisation
Couche Modules Dédiés
ACI CADDY - EDA 2006
Architecture du SI (6/6)
20
Modules d’Analyse : Recherche de motifs dans les séries temporelles
Module Requêtes : Intégration des résultats partiels des requêtes envoyées à l’entrepôt et aux magasins et correspondance entre Stockage et Interface
Module Systèmes : Opérations de maintenance du système utilisées exclusivement par les opérateurs du SI (ex. nettoyage des données)
Module Ontologies : Construction et mise à jour des ontologies
Couche Modules Dédiés
ACI CADDY - EDA 2006
État de l’art Couplage SIG, bases de données, outils d’aide à la décision et outils de
visualisation pour déterminer des itinéraires
Utilisation des SOLAP à des fins de stockage et de visualisation Bertini, R., S. Matthews, S. Hansen, A. Delcambre, et A. Rodriguez (2005). ITS Archived Data User
Service in Portland, Oregon : Now and Into the Future. In 8th Int. IEEE Conf. On Intel. Transport. Sys., Vienna (Austria),
Bédard, Y., M. J. Proulx, et S. Rivest (2005). Enrichissement du OLAP pour l’analyse géographique : exemples de réalisation et différentes possibilités technologiques. In 1ère journée francophone EDA 2005, Lyon (France)
Lu, C., L. Sripada, S. Shekhar, et R. Liu (2005). Transportation Data Visualization and Mining for Emergency Management. Int. Journal of Critical Infrastructures (Inderscience) 1(2/3)
Rivest, S., P. Gignac, J. Charron, et Y. Bédard (2004). Développement d’un système d’exploration spatio-temporelle interactive des données de la Banque d’information corporative du ministère des Transports du Québec. In Colloque Géomatique - Un choix stratégique !, Montréal (Canada)
Pas de prise en compte de l’activité humaine
ACI CADDY - EDA 2006 21
Conclusion Démarche multidisciplinaire pour le traitement de masses de données
spatio-temporelles dans le domaine du trafic routier Intégration d’un entrepôt de données à des fonctionnalités d’analyse
et et de représentation multi-échelles numériques et symboliques Mécanismes d’agrégation permettant de répondre à des requêtes telles
que : « Quel est le débit moyen par capteur les lundis de 2005 entre 10h et
12h? » « Quels sont les états (fluides ou saturés) du trafic sur un ensemble de
capteurs pour les jeudis du premier semestre de 2005 entre 17h et 20h ? »
ACI CADDY - EDA 2006 22
Perspectives Étendre les mécanismes pour répondre à des requêtes plus complexes telles que :
« Étant donné un événement (ex. match de rugby) devant avoir lieu à un endroit (ex. Stade Charlety à Paris), à une date d et une heure h, quel est l’état prévu du trafic dans la zone z aux heures h-i ou h+i ? »
« La rue r est-elle bouchée le dimanche entre 14h et 16h ? » Découverte et visualisation de motifs spatio-temporels Analyse en ligne multi-échelle et multi-représentation Restitution de l’information adaptée à l’utilisateur (décideur, exploitant, usager) Apprentissage Après CADDY :
Acquisition et traitement temps réel des flux de données, simulation et prévision Étude d’autres systèmes complexes avec corrélations spatio-temporelles entre les flux de
données : hydrologie au Sahel (AGRHYMET, CIRAD), consommation d’électricité (EDF), collaboration avec le CEA …
ACI CADDY - EDA 2006 23