seance 1 & 2 deploiement de la bi dans l'entreprise
TRANSCRIPT
PLAN DU COURS Mise en œuvre du processus de BI L’intégration des données Les outils de restitutions Déploiement de la BI
Définition des terminologiesLe data Warehouse, le datamart, le data mining
Définition (Datawarehouse)Le lieu de stockage intermédiaire des différentes données en vue de la constitution du système d'information décisionnel. Le datawarehouse est ainsi le lieu unique de consolidation de l'ensemble des données de l'entreprises. Selon Bill INMON « Un datawarehouse est une collection de données orientées sujet, Intégrées, non volatiles et historisées pour la prise de décisions. »
Définition (Datamart)Le terme Datamart (littéralement magasin de données) désigne un sous-ensemble du datawarehouse contenant les données du datawarehouse pour un secteur particulier de l'entreprise (département, direction, service, gamme de produit, etc.). On parle ainsi par exemple de DataMart Marketing, DataMart Commercial, ...
Définition (Data mining)C’est l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données. Le Data Mining est une étape dans le processus d’extraction des connaissances, qui consiste à appliquer des algorithmes d’analyse des données.
Eléments de base d’un Datawarehouse
Source: base de données source ou autre
Base intermédiaire de données (ODS)
Cible : Serveur de présentation des données contenues dans le datawarehouse.
Source ODS Cible
Caractéristiques et fonctionnalitésUn datawarehouse:• Est un dépôt d’information• Améliore l’accès aux données intégrées• Garantie l’intégrité et la qualité• Fournie une perspective historique• Enregistre les résultats et les données synthétiques• Est utilisé par plusieurs utilisateurs de profils différent dans
des contextes et des besoins différents• Réduit l’impact du reporting et de l’analyse sur les bases
opérationnelles • Requières un effort d’intégration des systèmes (agilité du SI)
Exploration du Datawarehouse
Les données sont organisées et stockées par sujet métier et non par application. Cela signifie que les données collectées doivent être orientées « métier » et donc triées par thème
Application opérationnelles Sujet Datawarehouse
Contentieux
Assurances
Dépôts
Crédits
Titres
Informationfinancière
client
Le datawarehouse - IntégrationC'est-à-dire qu'un « nettoyage » préalable des données est nécessaire dans un souci de rationalisation et de normalisation
Le datawarehouse - Non volatileUne donnée entrée dans l'entrepôt l'est pour de bon et n'a pas vocation à être supprimée
Le datawarehouse - HistorisationLes données doivent être datées
Modèle physique d’un schéma en étoile
Processus inductif, itératif et interactif de découverte dans les BD larges de modèles de données valides, nouveaux, utiles et compréhensibles.
Itératif: nécessite plusieurs passes
Interactif: l’utilisateur est dans la boucle du processus
Valides: valables dans le futur
Nouveaux: non prévisibles
Utiles: permettent à l’utilisateur de prendre des décisions
Compréhensibles: présentation simple
Abduction: diagnostic médical, ... Toutes les voitures ont 4 roues La Peugeot 206 a 4 roues ==> La Peugeot 206 est une voiture
Déduction: Raisonnement qui conclut à partir de prémisses et d’hypothèses à la vérité d’une proposition en usant des règles d’inférence Toutes les voitures ont 4 roues La Peugeot 206 est une voiture ==> La Peugeot 206 a 4 roues
Induction: Généralisation d’une observation ou d’un raisonnement établis à partir de cas singuliers.
Utilisée en Datamining (tirer une conclusion à partir d’une série de faits, pas sûre à 100%) La clio a 4 roues, La Peugeot 106 a 4 roues, La BMW M3 a 4 roues, La Mercedes 190
a 4 roues ==> Toutes les voitures ont 4 roues
Classification
Clustering (Segmentation)
Règle d’associations
Recherche de séquences
Détection de déviation
Elle permet de prédire si un élément est membre d’un groupe ou d’une catégorie donné.
Classes Identification de groupes avec des profils particuliers Apprentissage supervisé: classes connues à l’avance Applications : marketing direct (profils des
consommateurs), grande distribution (classement des clients), médecine (malades/non malades), etc.
Exemple : les acheteurs de voiture de sport sont de jeunes citadins ayant un revenu important
Partitionnement logique de la base de données en clusters
Clusters : groupes d’instances ayant les mêmes caractéristiques
Apprentissage non supervisé (classes inconnues)
Pb : interprétation des clusters identifiés
Applications : Economie (segmentation de marchés), médecine (localisation de tumeurs dans le cerveau), etc.
Corrélations (ou relations) entre attributs (méthode non supervisée)
Applications : grande distribution, gestion des stocks, web (pages visitées), etc.
Exemple
BD commerciale : panier de la ménagère
Articles figurant dans le même ticket de caisse
Ex: achat de riz + vin blanc, achat de poisson achats bières et couche-culotte
Recherche de séquences
Liaisons entre événements sur une période de temps Extension des règles d’association
- Prise en compte du temps (série temporelle)
- Achat Télévision ==> Achat Magnétoscope d’ici 5 ans Applications : marketing direct (anticipation des
commandes), bourse (prédiction des valeurs des actions)
Exemple
BD commerciale (ventes par correspondance) Commandes de clients
Ex: 60% des consommateurs qui commandent la bière «Mort subite» commandent de l’aspro juste après.
Instances ayant des caractéristiques les plus différentes des autres Basée sur la notion de distance entre instances Expression du problème- Temporelle : évolution des instances ?- Spatiale : caractéristique d’un cluster d’instances ?
Applications Détection de fraudes (transactions avec une carte
bancaire inhabituelle en télémarketing)Caractéristiques Problème d’interprétation : bruit ou exception (donc
connaissance intéressante)
Exemple 1 - Marketing
Vous êtes gestionnaire marketing d’un opérateur de télécommunications mobiles :
Les clients reçoivent un téléphone gratuit avec un contrat d’un an; vous payer une commission de vente de 250€ par contrat
Problème: Taux de renouvellement(à la fin du contrat) est de 25%
Donner un nouveau téléphone à toute personne ayant expirer son contrat coûte cher.
Faire revenir un client après avoir quitter est difficile et coûteux.
Trois mois avant l’expiration du contrat, prédire les clients qui vont quitter :
Si vous voulez les garder, offrir un nouveau téléphone.
Exemple 2 – Web
Les logs des accès Web sont analysés pour…
Découvrir les préférences des utilisateurs
Améliorer l’organisation du site Web
De manière similaire…
L’analyse de tous les types d’informations sur les logs
Adaptation de l’interface
Exemple 3 – Banque, Télécom
Vous êtes à l’étranger et quelqu’un a volé votre carte bancaire ou votre mobile …
Compagnies bancaires… Utiliser les données historiques pour construire un
modèle de comportement frauduleux et utiliser le data mining pour identifier des instances similaires.
Compagnies téléphoniques… Analyser les “patterns” qui dérivent du comportement
attendu (destinataire, durée, etc.)
Objectifs
Comment mettre en place des processus d’extraction, de transformation et de chargement pour la construction d’un datawarehouse.
Les différentes techniques d’extraction, de transformation, et de chargement.
Processus d’Extraction, de Transformation et de Chargement (ETL)
Extraire les donnés sources Transformer et nettoyer les données Indexation et agrégation Charger les données dans le datawarehouse Détecter les changements Rafraîchir les données
Extraction de données
Les sources de données sont souvent diverses et variées et le but est de trouver des outils ETL (Extraction / Transformation / Loading) afin de les extraire, de les nettoyer, de les transformer et de les mettre dans l'entrepôt de données
Qualités des données
La qualité des données extraites est critique pour : Standardisation dans le datawarehouse Un bon rapprochement entre noms, adresses …. La création de règles et contraintes exactes Prévision et analyse Création d’une infrastructure solide de support BI
centré sur le client Réduction des risques dans les projets Réduction des coût à long terme
Transformation
Les Transformations éliminent les anomalies dans les données opérationnelles : Nettoyer Éliminer le superflu Enrichir Fusionner Intégrer Transformer avant chargement
Pourquoi transformer?
Chargement Le chargement alimente le datawarehouse des
données. Le rafraichissement fréquent charge de petits
volumes. Le processus métier détermine le cycle de
chargement
Online Analytical Processing (OLAP) OLAP a pour but d'organiser les données à analyser par
domaine/thème et d'en ressortir des résultats pertinents pour le décideur. Les résultats sont donc des résumés et peuvent être obtenus par différents algorithmes de datamining (fouille de données) du serveur d'analyse.
On peut par exemple établir le résultat suivant : « Les clients qui achètent généralement du beurre et du pain achètent aussi du lait ». Ces résultats pourraient amener l'organisation (ici en l'occurrence une grande distribution) à disposer ses rayons de telle façon qu'à côté de l'emplacement du beurre, elle mettra le pain et le lait..
l'OLAP signifie faire de l'analyse de données. Analyser les ventes, détecter les fraudes, prospecter des clients font partie du processus OLAP.
Module de restitution d’un SID
Les plus visibles pour l’utilisateur Régit les conditions d'accès de l'utilisateur aux
informations. Assure le fonctionnement du poste de travail, le contrôle
d'accès, la prise en charge des requêtes, la visualisation des résultats sous une forme ou une autre.
Utilise toutes les techniques de communication possibles (outils bureautiques, requêteurs et générateurs d'états spécialisés, infrastructure web, télécommunications mobiles, etc.)
Définitions (Reporting)
Présentation périodique (hebdomadaire, mensuelle, annuelle) des données liées à l’activité de l’entreprise globale ou par métier (Reporting financier, commercial), le plus souvent restituées sous la forme de tableaux de bord (ex : graphiques du CA mensuel etc.) et de rapports d’activité (ex : rapport d’activité financière).
Définitions (Tableaux de bord)
Outil de Reporting de l’activité d’entreprise au global ou par métier sous forme de tableaux dynamiques ou statiques. Chaque utilisateur peut réaliser ses propres tableaux de bord en croisant les données selon différents axes d’analyse (analyse simple= un seul critère d’information ou multidimensionnelle = plusieurs critères d’information). Le tableau de bord est également un outil d’aide au pilotage de l’activité permettant de prendre les décisions en temps réel.
Pour qu’un tableau de bord soit efficace il faut choisir de bons indicateurs.
Qu’est ce qu’un bon indicateur
Temps réel: le tableau de bord de pilotage doit comporter les indicateurs dont le rafraîchissement est compatible avec la prise de décision lorsque l’information est délivrée l’action est possible.
Réalisable à coût acceptable : un bon indicateur est réalisable avec un coût acceptable; il faut chercher le juste milieu entre le profit à tirer des indicateurs en terme de décision et le coût de leurs disponibilités.
Fiable :le décideur doit avoir une totale confiance en son tableau de bord, si le doute s’installe l’outil sera rejeté
Présentation :la présentation de l’indicateur doit être étudiée, les longs tableaux de bord sont à éviter et les présentations (Courbes, Jauges, listes etc.) sont à utiliser chacun dans sons contexte précis.
Quelques exemples
Quelques exemples
Comparaisons entre certains outils
Les projets de mise en place et déploiement de solutionsde Business Intelligence ont ceci de particulier qu’ils nécessitenttrès tôt une implication et une sollicitation forte des utilisateurs.Les besoins fonctionnels sont en effet très répartis au sein del’entreprise ; il s’agit dans la majorité des cas de remplacer desoutils personnels, développés par les utilisateurs eux mêmes(bureautique).Il en découle certaines spécificités, sur lesquelles nous devonsprêter une attention particulière : La présence d’un sponsor fort, et la communication en interne
des objectifs stratégiques de l’entreprise. Un lien très étroit entre la définition des besoins (maitrise
d’œuvre) et la réalisation technique (maitrise d’ouvrage). La mise en place d’équipes mixtes (techniques et fonctionnelles)
tout au long du projet. De manière standard, un projet de déploiement de solution de
Business Intelligence se base sur les étapes suivantes :
Phase Objectifs Livrables
PRE ÉTUDE - LANCEMENTEstimer les coûts internes et externes
Analyser les opportunités
Description des fonctionnalités attendues
Définition des enjeux pour l'entreprise
Macro Planning
CADRAGE
Présenter le projet en interne
Identifier les utilisateurs
Identifier les sources de données
Choisir la solution technique (architecture)
Définir l'équipe projet
Description de la solution retenue
Planning de réalisation
Annuaire du projet
CONCEPTION
Concevoir architecture technique et applicative
Rédiger la modélisation multidimensionnelle
Rédiger les spécifications techniques (alimentation
et métadonnées, outil d'administration et de
restitution, portail et sécurité
Dossier de spécifications
Cahier de recettes techniques
Cahier de recettes fonctionnelles
RÉALISATION
Mettre en place les environnements de tests
Réaliser les prototypes
Réaliser les recettes techniques et fonctionnelles
Assurer le déploiement de la solution
PV de recettes
Documentations techniques (architecture,
paramétrage)
ACCOMPAGNEMENT AU CHANGEMENTFormations des utilisateurs
Formations des équipes techniques
Documentation utilisateur
Dossier de support
Outils pour la phase de Run
Bilan du projet