blue dme - covea : projet xdstore sur l'accès aux données externes dans l'assurance....
TRANSCRIPT
Big Data Paris 2017
Accélérer la connaissance des clients et des risques grâce à la donnée externe
Blue DME
Big Data Paris 2017
La genèse du XDStore
Big Data Paris 2017
Une conviction
3
Accélérer la connaissance des clients et la maitrise des risques grâce à la donnée externe pour tous les data scientists du groupe
Big Data Paris 2017
Un constat
4
1 groupe historique de l’assurance, 3 marques commerciales
- Un patrimoine de données internes et externes conséquent
- Mais aussi des silos historiques et organisationnels Une exploitation de la donnée externe difficile et épineuse
Big Data Paris 2017
Un catalyseur
5
Contexte exogène: Le deluge de la donnée (externe)
L’avènement de la donnée ouverte: + de 150 portails en France*
*Source: OpenDataSoft, 2015, « La liste des portails open data dans le monde, https://www.opendatasoft.fr/ressource-liste-portails-open-data-dans-le-monde/
Big Data Paris 2017
Notre idée: Intégrer l’usage de la donnée externe dans le quotidien des statisticiens du groupe
6
… en leur proposant un magasin partagé et intelligent de la donnée externe
Big Data Paris 2017
L’eXternal Data Store
un projet de rupture à 4 points de vue
Big Data Paris 2017
1- Un catalogue unique pour les données externes
8
Un réceptacle unique et partagé de données externes de sources diverses, composé
d’environ 2700 jeux de données de l’open data
Big Data Paris 2017
2- Des données traitées, qualifiées, mises à jour, prêtes à l’emploi
9
Des jeux de données préparés, mis à jour, certifiés, prêts à l’emploi avec une note
qualité qui permet d’estimer leurs valeurs
Big Data Paris 2017
3- Une plateforme de e-shopping de la donnée externe
10
Motivation à l’achat
Prise d’information
Comparaison
Sauvegarde du produit
Achat
Exploration du patrimoine de données externesAmélioration de la connaissance d’un client ou d’un risque
Consultation du détail d’un jeu de données
Métadonnées (note qualité, like/dislike, commentaires, etc.)
Télécharger le jeu de données (initial ou enrichi)
Ajouter au favoris
La donnée externe devient une ressource disponible, accessible et facile d’utilisation
Big Data Paris 2017
4- Des infos clés pour les data scientists et data analysts
11
Un service d’exploration automatique de la donnée externe, qui permet aux data scientists
une valorisation immédiate de son apport
Big Data Paris 2017
Usage
Comment sélectionner la donnée?
Big Data Paris 2017
Deux utilisations: Une approche exploratoire
13
Naviguer dans le catalogue Consulter la « fiche descriptive » du jeu de données
« Zoomer » pour analyser le contenu du jeu de données via le profiling
Partager son appréciation du jeu de données: like/dislike, commentaire, etc.
Big Data Paris 2017
Deux utilisations: Une approche analytique – le XDMiner
14
Croiser un jeu de données interne avec l’ensemble des jeux de données du
catalogue
Améliorer la pertinence d’un modèle de prédiction en lui injectant des variables
exogènes
Big Data Paris 2017
Innovations technologiques dans le projet XDStore
Big Data Paris 2017
Analyses systématiques et automatiques de toutes les données
16
Analyse sémantique Données géographiques
– Codes postaux, communes, quartiers IRIS…– Coordonnées géographiques…
Données d’entreprises– SIREN…
Données commerciales:– Immatriculations véhicule…
Analyse technique et statistique Inférence de type Distribution, Cardinalité Catégories, variables continues
Big Data Paris 2017
Découverte des relations sous-jacentes avec les données externes
Métadonnées (thèmes, tags)
Sémantique des noms de colonne, des contenus
Distribution des données
…permettent de découvrir le graphe de relations entre tous les jeux de données et celui de l’utilisateur
17
Big Data Paris 2017
Algorithme automatisé d’enrichissement des données utilisateur
18
Analyse automatique
Détermination de clé de matching• Inférence de type• Inférence
sémantique (patterns)
• Mesure de distribution et cardinalité
Matchings possibles
Identification de paires de colonnes• Matching strict• Matching fuzzy• Matching
géographique• Matching de données
anonymisées
Heuristiques d’élimination
Algorithmes probabilistes d’estimation de matching
Enrichissement
Exécution de la « jointure »
Enrichissement de la donnée initiale avec des infos externes
clients
age
code commun
edate
souscript°
DatasetUtilisateur id_contra
t
revenus en FR
commune
3000DatasetsExternes
rev median
id_zoneXXX
XXX
Clé possible
Clé possible
Clé possible
Clé possible
Match possible
Match possible
Elimination
Nouvelle donnée
JOIN
Big Data Paris 2017
Des données internes trop limitées pour obtenir de bons modèles prédictifs
19
y = f (X)Variable à prédire(eg. « acheteur »)
010010…
yx1 x2 x3 … xn
322356711924…
759233180113…
VIPPROFamilleSenior15/25STD…
0.1-0.7 0.0 0.5 0.8 0.4…
…
Données internes
Big Data Paris 2017
Amélioration de modèles prédictifs par apport de données externes
20
y = f ’ ( X X’ )
010010…
yx1 x2 x3 … xn
322356711924…
759233180113…
VIPPROFamilleSenior15/25STD…
0.1-0.7 0.0 0.5 0.8 0.4…
…
Données internes
1.25.68.90.05.412.0…
110011…
8527415696963654…
x'1 x'2 … x'n
Variables exogènes apportées
automatiquement
Un gain d’information mesurable
Big Data Paris 2017
Plateforme technologique
21
• Language and synonyms
Core technologique issu de la R&D Blue DMEXDStore co-construit avec COVEA
Big Data Paris 2017
Retours d’expérience
Big Data Paris 2017
Le XDStore: un projet collaboratif
23
La mise en œuvre du projet a nécessité des ressources internes (métier et IT) et externes (la startup Blue DME)
Des ateliers de cadrage mais aussi de validation avec les data scientists ont permis l’ajustement de
l’outil aux besoins
L’approche collaborative continue, une fois l’outil en production, pour surveiller la qualité du catalogue, son utilisabilité et sa
pertinence
Phase de développement
Phase de production
Big Data Paris 2017
Transformer la donnée externe en levier
24
Amener la culture de la donnée externe1
Accélérer le processus de valorisation de la donnée externe
2
Faire profiter le groupe du patrimoine de données externes mettre en place une
gouvernance de la donnée externe
3
Big Data Paris 2017
Trophées de l’innovation Big Data - Catégorie B2B: demain à 12h40
Votez pour nous !
Merci !Venez nous voir au village startup !
Atelier Blue DME : demain à 10h30 en salle D
Blue DME
Blue DME
Soumaya Ben HassineCOVEA
@soumayabenhassi
Mathieu DESPRIEEBlue DME
@mdespriee