gouvernance des informations big data. le cycle de vie de ... · hadoop teradata database data lake...

17
© 2015 Teradata Gouvernance des informations Big Data. Le cycle de vie de la donnée Denis Esperandieu

Upload: vukhanh

Post on 03-Jul-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

© 2015 Teradata

Gouvernance des informations Big Data.

Le cycle de vie de la donnée

Denis Esperandieu

Plus de 2,800 clients dans 77 pays.

Présence dans 42 pays

Teradata : Qui sommes nous?

12.500 collaborateurs dont 3.000 Consultants

“Advanced Analytics »

Fondée en 1979 en

Californie

Revenu 2016 : 2,3 Milliards

USD

Gartner’s Magic Quadrant & Forrester Reports Leader

consécutif depuis plus de 10 ans

Fournisseur de solutions « Data Analytic » depuis plus de

35 ans

Partenaire de confiance de très grands groupes

mondiaux

© 2017 Teradata

REAL TIME

Acquisition Analytics Access

EMERGING

Data Engines

MULTI GENRE

Aster Analytics

R, Spark, Giraph

SAS, SPSS, KXEN

DATAWAREHOUSE

TeradataDatabase

IN MEMORY

Hana

HadoopTeradataDatabase

DATA LAKE

No SQL

MongoDB

COMPUTE CLUSTER

OPERATIONAL

Oracle

INGEST

Listener

Users

Operational

Systems

Customers

Partners

Engineers

Data

Scientists

Business

Analysts

Knowledge

Workers

Marketing

Executives

Platform Services DEVELOPMENTDATA OPERATIONS

PRIVATE HYBRIDCloud Deployment PUBLIC

Sources

ERP

SCM

CRM

Sensors

Audio

and Video

Machine

Logs

Text

Web and

Social

APP FRAMEWORK

AppCenter

QueryGrid

VIRTUAL QUERY

CONVENTIONAL

Business

Intelligence

Languages

Integrated

Development

Environment

© 2016 Teradata

Nos domaines d’action / Nos savoir faire

3

© 2017 Teradata

Nos Partenaires

4

Partnership is Key in an Ecosystem

Enterprise Solutions

Independent Software Vendors

Business Intelligence & Advanced Analytics

Hadoop/Big Data

Data Acquisition/Integration ToolsApplications

© 2017 Teradata

La Gouvernance des donnéesUne opportunité à saisir.

Pour gérer ces enjeux, un process structuré de Gouvernance des donnée est indispensable

L’irruption des Big Data qui démultiplie

les besoins

Volume, Variété et Vélocité

Bruit de fond

Démultiplication des référentiels internes

et externes

Données à Raffiner

Projet (nombreux) en mode speed

Outillage en devenir

Des pressions de plus en plus fortes

Pression pour préserver les revenus, et réduire

les coûts

Nouvelles opportunités Business

Concurrence accrue, nouveaux acteurs

Pression règlementaire croissante

• Ciblée Exemple : les risques bancaires

• Transverse Exemple : GDPR

5

© 2017 Teradata

La prolifération des données dans l’entreprise

66

Disposer de bons

critères de

risque et des

indicateurs de

pertes

pertinentsComptabilité

Marketing et distribution

Gestion des

Operations

Segmentation

Des Clients

Fraude

Indices de

satisfaction des

clients

Déclarations de

sinistres

Non-

renouvellemen

ts

Valeur client

Polices émises

RH

Réduire les

coûts, la fraude

et améliorer la

qualité de

service

Analyse

Actuarielle

Réseaux sociaux

Vision 360o

Évènements clients

Données clients

Taux de

conversion des

polices

Gestion des

sinistres et back

office

Résiliation

Catastrophes

naturelles

Pertes actuelles

/ estimées

Produits de la

concurrence

State Filings

Accroitre le revenu en

apportant plus de

valeur à nos clients les

plus rentables

Pricing

Produit

Primes

encaissées

Investissements

Trésorerie

Objectifs

commerciaux

des agents

PromotionsCommercial

Revenue

Prévisions

Canaux de

Distribution

Web & Apps

Clickstream

PrimesConcentration

des risques

Most useful data

Often useful data

Rarely useful data

KEY FOR:Pricing and Product intelligence

Performance

v/v

concurrence

Marketing et

expérience client

ArchitectureUrbanisation

Partage,

promotion et

feedback

Store one

Use manyProtection &

Juridiction

© 2017 Teradata

De nombreuses étapes de collecte

77

Données contrôlées

transformées, dérivées

Primes encaissées

Type police

Type véhicule

Valeur client

Couverture

Données sources

Client

typ

e

ass

ura

nc

e

Bien assuré

Assurance automobile

Reporting

Visualisation

Traçabilité & piste d’audit

Certification des Données

Modélisation &

Moteurs de calculMaîtriser le cycle

de vie

Modèle et

nommage

intègres

Cartographie et

data lineage

© 2017 Teradata

De nombreux axes

88

Dimension Description Exemple

JUSTESSEUne mesure de l’exactitude des données

Un solde de €10,000 est stocké comme un solde de €10,000 !

COHÉRENCEMesure des conflits avec des données redondantes

Un solde de €10,000 dans le système ABC est également enregistré comme solde de €10,000 dans le système XYZ.

INTÉGRALITÉA mesure de la quantité d’entités créées Un appel téléphonique est bien enregistré et conservé pour la facturation.

COMPLÉTUDE

Mesure de la couverture de l’information pour une entité spécifique

Nom, âge, et fonction renseignés pour tous les clients.

UNICITÉMesure des réplications non nécessaires des données

Les données clients ne sont stockées qu’une fois pour chaque client.

FRAICHEURMesure si l’enregistrement est bien à jour

L’ensemble des adresses du client sont à jour.

PROFONDEURMesure de l’historique conservé Un historique complet des contacts et de leur détail est conservé pour chaque

client.

INTÉGRITÉMesure de la validité relative à une autre donnée

Un détail d’appel contient l’indicatif (33) 0130999999.

LA QUALITE DES DONNEES ETAIT CONSIDEREE JUSQU’A PRESENT COMME NON PRIORITAIRE PAR

L’IT ET RELEGUEE EN PRIORITE BASSE. MANQUE D’INTERACTION IT & METIERS SUR CE SUJET.

Synthèse d’études réalisées entre 2011 et 2015 par :

Gartner, The Data Warehouse Institute, The Insurance Data Management Association

Audit

Mesure

systématique

Qualité mesurée

Qualité ressentie

Expression de la

charte de qualité

© 2017 Teradata

Gouvernance des données

99

• ORGANISATION

– Modèles de responsabilités

– Rôles et périmètre de responsabilités

– Décideurs et gestionnaires

• PROCESSUS

– Priorisation et financement

– Identification et résolution des problèmes

– Règles, principes, standards et métriques

– Mode de communication

– Revue, monitoring et mesure

• TECHNOLOGIE

– Outil de modélisation & Dictionnaire de données

– Scorecards de qualité des données

– Outil de data lineage

– Outils de profiling des données

– Outils analytique d’exploration

– Système de Master Data Management

– Qualité de service (SLAs)

– Contrôles (sécurité, accès, Cryptage, …)

GOUVERNANCE

STEWARDSHIP

Information sécurisée et

fiable

Integration

Modélisation Qualité

Master Data

Mgmt.

MetaDonnées

Sécurité

Personnes, Processus, et Technologie

FRAMEWORK DE GOUVERNANCE DES DONNÉES

Un programme à

part entière

Actions

pluridisciplinaires

Optimisation

Coûts / Bénéfices

Stratégie callée

sur le business et

ses évolutions

© 2017 Teradata

Une démarche qui s’inscrit dans le temps

1010

Des progrès réalisés

• Une fonction de Data Quality Manager (DQM) largement répandue

• Des dictionnaires de données développés

• Une meilleure responsabilisation des acteurs

• Une première vague d’outillage sur la documentation des flux de données

• Une amélioration dans la formalisation des contrôles

Synthèse de l’enquête Deloitte Qualité des données & Solvency 2 auprès de 11 assureurs majeurs Français

... et des efforts a accomplir

• Un déploiement de la fonction Data Quality a poursuivre

• Une couverture encore partielle du périmètre par les dictionnaires de données

• Un outillage toujours peu performant à améliorer sur plusieurs couches de la gouvernance des données

• Un système d’information a mieux urbaniser

• Une automatisation des traitements et contrôles a déployer

2014 2016

72% des sondés ont implémenté une fonction de Data Quality Manager

84% des sondés ont une architecture non conforme

avec les attentes

du régulateur

45% des sondés estiment ne pas avoir de démarche globale de qualité des

données

64% des sondés disposent de moins d’un quart de contrôles automatisés

90% des sondés utilisent excel comme outil de documentation et de

maintenance du dictionnaire de données

2014 20162016

© 2017 Teradata

Impact des Big data…. Une réelle opportunité pour les Directions Métiers

11

2014 2016201Déclarations de sinistre

frauduleuses

Cyber fraude

Customer journey

Fraude partenaire

© 2017 Teradata

Gouvernance de données et big data

1313

2014

Données Structurés / SGBDR Big Data / Hadoop

Outillage en devenir Data Quality & Data Lineage

Culture / Agilité / Projet Speed

Organisation et process transversesArchitecture et Urbanisation robuste

Maîtrise du cycle de vie des données

Maîtrise de la qualité des données

Sponsor, Organisation et Process transverses

Partage des informations & Feedback

Culture / Méthode / Process

Description struct. données Description struct. données

Une frontière

technologique

Une frontière

culturelle

Des processus

transverses

© 2017 Teradata

Gouvernance de données et big data

1414

2014

Données Structurés / SGBDR Big Data / Hadoop

Organisation et process transverses

Projet et développement industriels

Datalab, étude et actions véloces

(Analytic, Fouille de données, Prototypage, …)

© 2017 Teradata

Gouvernance des données : Comment commencer

1515

2014 2016201• Définir une feuille de route– Périmètre fonctionnel conciliant enjeux règlementaires, impact business et

budget disponible

– « Chic et pas cher » en se concentrant sur les containers de données importants

– Objectifs de qualité et de cohérence différenciés

• Mettre en œuvre une stratégie pragmatique et véloce– Gouvernance des données sur un périmètre ciblé

– « Quick wins »

– Vision long term

• Combiner outils / personnes et processus– S’appuyer sur les systèmes existants et identifier les gaps

– Mettre en œuvre des score cards pour piloter les évolutions

– S’appuyer sur les organisation / comités existants

– Identifier les relais dans les directions métier

– Se doter de compétences analytiques

• Associer l’entreprise & communiquer– Priorité haute sur les sujets à haute valeur métier => ROI

– Communiquer et devenir visible

– Un sponsor est indispensable

© 2017 Teradata

Exemple : Une grande banque européenne (1/2)

1616

2014• Roadmap :

– Planification du programme sur plusieurs années- Données / besoins fonctionnels

– Premier besoin = rentabilité pour créer de la valeur

• Stratégie– Standardisation

- Des indicateurs

- Des process

– Outils

Efficiency Range

-

+IT

co

sts

Error costs- +

Increasing quality level

Trade off IT costs / Quality level

achieved

© 2017 Teradata

Exemple : Une grande banque européenne (2/2)

1717

2014• Organisation– Equipe centralisée

– De 2 à 50 ETP

– Relais dans tous les pays

• Positionnement – Rattachement hiérarchique : Du CFO au CEO

– Couverture progressive de l’ensemble des métiers

– Interface entre les métiers & l’IT

– Développer la confiance dans les données

– Mise en place d’un label

Governance organization Governance processes

Technical Architecture

Branches and technology trends

System Architecture

Business Architecture

Business

Strategy

Project

portfolio

Architecture

comparison

Prioritization

and Funding

Projects Roadmap

Technical Architecture

Branches and technology trends

System Architecture

Business Architecture

Business

Strategy

Project

portfolio

Architecture

comparison

Prioritization

and Funding

Projects Roadmap

Data stewards

Division 3Division 1 Division 2 …

Business architects

BI governance board IT strategy & architecture board

Data governance

Data governance manager (DGM)

BI governance

BI governancemanager

Infra-structure

operations

Databaseadministrator

Cen

tral

Dec

entra

lized

Com

mitt

ees

DS coord.DS coord.

ALIGNMENT ALIGNMENT

Division 3Division 1 Division 2 …

Power users & report users

Techn. BI/EDW team

Techn. BI/EDW leadTechn. BI/EDW lead

Data modellerData modeller

ETL analystETL analyst

Division 1 Division 2 Division 3 …

OPV OPV OPVOPV

BI analystBI analyst

EDW admin. BI admin.

Une Ambition / Une organisation / un Portfolio

© 2014 Teradata