information builders - comment integrer les big data a votre si - data forum micropole 2016

31
Comment intégrer les Big Data à votre Système d’Information et gérer leur qualité ? Jeudi 1 er décembre 2016 Fateh Naili Enterprise Solutions Manager, Information Builders

Upload: micropole-group

Post on 12-Apr-2017

120 views

Category:

Presentations & Public Speaking


1 download

TRANSCRIPT

Comment intégrer les Big Data à votre Système d’Information

et gérer leur qualité ?Jeudi 1er décembre 2016

Fateh Naili

Enterprise Solutions Manager, Information Builders

Agenda

02 03

Intégrez les Big Data Gérez la qualité

des données

Information Builders

01

Agenda

02 03

Intégrez les Big Data Gérez la qualité

des données

Information Builders

01

90%Of all the data in the

world has been generated

over the last 2 years

Data Output is growing rapidly

2009 2010 2011 2012 2013 2014 2015

A quelle vitesse vos données augmentent ?

Avec les réseaux sociaux…

5

Cisco SystemsD’ici 2020, le traffic

généré sur le web

667 ExaBytes / an

Google+1 mille milliards

de pages indéxées

24 PetaBytes / jour

Facebook2,7 milliards

de “J’aime”

+500 TB / jour

Twitter400 millions

de tweets

12 TB / jour

… mais pas seulement !

6

TransactionsD’ici 2020, les transactions

B2B et B2C sur le web

450 milliards / jour

NASALes données météo et

climatiques stockées

32 PetaBytes

BoeingUn Boeing 737

génère en moyenne

240 TeraBytes / vol

Walmart+1 million

de transactions

2,5 PetaBytes / heure

Les 4V

7

VolumeVariété

Véracité

Vélocité

Volumes plus importants de transactions issues d’Internet,

des machines...

Impact sur l’ensemble des technologies et déploiements

• Cloud, Business Intelligence, Data Warehouse

• Faire toujours plus, plus rapidement et à moindre coût

Ensembles de données volumineux, difficiles à gérer en

utilisant des bases de données relationnelles:

• Stockage/Coût

• Recherche/Performance

• Analyse et visualisation

Traitements parallèles sur des centaines de machines qui ne

peuvent pas être réalisés dans un délai raisonnable

• Outils traditionnels (ETL,...)

Les enjeux du Big Data

Transition vers des technologies innovantes

9

Données d’entreprise et données non structurées

Fewer

use cases

More

use cases

ModernTraditional

OLTP

OLAP

Data warehouses

Data marts

Point-to-point

Integration

EII

Architecture Big Data de Information Builders

10

Sq

oo

p, F

lum

e…

Av

ro, JS

ON

Applicationstraditionnelleset data stores

iWay Big Data Integrator

Intégration native, innovanteet simplifiée à Hadoop

Big Data Apache Hadoop

Toute distribution,tout type de données

BI & Analytics Plateforme de BI & Analytique WebFOCUS

Self-service for Everyone

WebFOCUS access, ETL, metadata

WebFOCUS access, ETL, metadata

1. Data Hub/Data Lake.

2. Augmentation du Data Warehouse.

3. Archives de données/

Capacité de stockage supplémentaire.

4. Qualité des données.

5. Data Discovery.

6. Business Intelligence.

7. Optimisation.

8. Modèles prédictifs.

11

InterfaceSimplifiée

Génération native de script Hadoop

Gouvernance et gestion des processus

Sq

oo

p, F

lum

e…

Av

ro, JS

ON

Data Sources

Big DataNative: Runs in Hadoop cluster

Purpose-built: Fully Exploits all Hadoop Services

Simple: Replaces coding with mapping

� Simplified, easy-to-use interface to integrate in Hadoop

� Marshals Hadoop resources and standards

� Takes advantage of performance and resource negotiation

� Includes sophisticated process management & governance

iWay Big Data Integrator

iWay Big Data Integrator

12

• Interface Utilisateur basée sur Eclipse.

• Ingestion des données utilisant l’abstraction au-dessus de Sqoop, Flume, Hive, Spark,

et tout contenu de canal de streaming propriétaire.

• Transformation & Mapping – MapReduce et Spark.

• Nettoyage, mise en correspondance et fusion.

• Publication aux sources de données non-Hadoop.

• Scripts auto-générés/Tâches et code compilés pour soumission de tâches.

• Déploiement d’intégration, tests, création Spark de bout-en-bout.

• Adapté à Kerberos.

• Sécurité basée sur la gestion des rôles via l’intégration de Apache Sentry.

Agenda

02 03

Intégrez les Big Data Gérez la qualité

des données

Information Builders

01

L’impact de la qualité des données sur votre business

14

Faits et chiffres

• La mauvaise qualité des données coûte aux entreprises au moins 10% de leur chiffre d'affaires;

20% est probablement une meilleure estimation. DM Review

• Pour les assurances, le coût (des mauvaises données) est estimé entre 15 et 20% de leur

revenu d'exploitation. Insurance Data Management Association

• Gartner estime que plus de 25% des données critiques au sein des grandes entreprises sont

inexactes ou incomplètes. InformationWeek

• 50% des projets de Data Warehouse échoueront pour ne pas avoir traité de façon proactive les

problèmes de qualité des données. Thomas Redman – Data-Driven

Avec le Big Data, le problème ne va pas disparaître mais s’amplifier ...

Qu’est ce que la qualité des données?

15

Des données exactes, complètes, cohérentes, uniques, à jour, valides...

Sur cette base, une stratégie de qualité des donnée s doit être définie et appliquée!

Exacte

Complète

Cohérente

Unique

A jour

Valide

Solution iWay Data Quality Edition

� Une solution conçue pour optimiser

l’intégrité de l’information au sein

de l’entreprise ou d’un département.

�Mise à disposition de règles

de gestion entièrement

personnalisées et d’un portfolio

de dictionnaires de données.

ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring

ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring

� Règles de validation

� Analyses statistiques

�Minimum

�Maximum

�Moyenne

� Nombre d’occurrences

� Rapport et recommandations:

� Rapport statistique

détaillé sur la qualité de vos données

� Actions nécessaires à mettre en place.

Etape 1: Profilage de la qualité des données

� Parsing des données

� Validation des règles métier.

� Fonctions de Scoring et d’explication

des traitements natifs.

� Traitements en temps réel et en différé.

� Dictionnaires intégrés.

ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring

Etape 2: Nettoyage des données

Etape 3: Enrichissement des données

� Utilisation de librairies prêtes a l’emploi

� Utilisation de librairies personnalisées

� Utilisation de référentiels (Look up)

� Référentiel de société

� Nom standard de la société

� Numéro SIREN

� Adresse officielle

� Compte bancaire

� Classification

� Loqate

� Référentiel et validation d’adresse

Ajout d’informations manquantes:

� Rue

� Code Postal

� Ville

� Validation d’adresses existantes

� Ajout de noms, prénoms, titres…

ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring

Etape 4: Réconciliation et Fusion des données

�Objectif

� Identifier des groupes

d’enregistrements de nature

identique provenant de

différentes sources

pour homogénéiser les données.

� Remarque

� Exercice assez complexe.

� Gestion des données manquantes,

erronées, en conflit.

� Solution

� Le Matching est un algorithme

en deux étapes:

� Groupes Candidats

Tous les enregistrements sont assemblés

en groupes selon des règles au sens large.

� Groupes Clients

Consiste à diviser les groupes candidats

en utilisant des règles à granularité

plus fine.

ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring

Réconciliation

Etape 4: Réconciliation et Fusion des donnéesFusion

� Utilisation des règles métier pour déterminer

le meilleur champ ou enregistrement.

� Exemples

� Enregistrement provenant d’un système de référence.

� Enregistrement le plus récent.

� Enregistrement de meilleure qualité (Scoring).

� Utilisation de fonctions d’agrégation.

� SQL-like: count, sum, minimum, maximum, average.

� L’objectif… Créer le Golden Record!

ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring

Etape 5: Suivi et contrôle de la qualité de l’information

ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring

La qualité des données dans le contexte Big DataData Preparation

Unstructured

Semi-Structured

Structured

External

23

Data Lake

Raw Data

Data Ponds

BI Apps

Raw Data Actionable Data World Class Analytics

Data Marts

Operational System

Operational System

Data Marts

Profile, cleanse, master, etc.

Profile, cleanse, master, etc.

Ingest withoutcoding

Ingest withoutcoding

Create w/relevant data

Create w/relevant data

Data Swamp

Architecture Technique

Data in Motion

Data at Rest

Flume

Other Process

Sqoop

Agent 2

Agent 1

Agent 3

Producers Data

Preparation

Data

QualityHDFS

Hive

RDBMSData

Kafka

Topics

0 1 2

0 1 2

0 1 2

Job 1

Job 2

Job 3

Streaming

Content, IoT,

Application Data

Spark ProcessingData

Storing

Agenda

02 03

Intégrez les Big Data Gérez la qualité

des données

Information Builders

01

Information Builders, en quelques chiffres

41ans d’innovation

60bureaux

1 400collaborateurs

30 000clients

Aider nos clients à développer leur activité,grâce à la puissance de l’information !

Gerry Cohen, Président Fondateur, Information Builders Inc.

Aider nos clients à développer leur activité,grâce à la puissance de l’information !

Gerry Cohen, Président Fondateur, Information Builders Inc.

Plateforme 3i complète et modulaire

Portal Embedded InfoApps™

ApplicationsLegacy Systems Relational/Cubes Big Data Columnar/In Memory Unstructured Social Media Web Services Trading Partners

Intégration

Mobile Write-Back

Data Discovery Reporting Dashboards

High-PerformanceData Store

DataQuality

Data Governance

Master DataManagement

BatchETL

Real-TimeESB

Intégrité

Intelligence

Location Analytics

In-DocumentAnalytics

Casting and Archiving

SearchPredictive Analytics

Sentiment and Word Analytics

Performance Management

SSSSocialocialocialocialHotHotHotHot

BBBBadadadadFFFFeedbackeedbackeedbackeedback

Big Data Integrator

Une expertise reconnue

En conclusion

Une intégration des Big Data:

� Rapide, facile, sécurisée.

� Capitalisant sur les technologies Hadoop.

� Certifiée par les acteurs majeurs Big Data.

Gestion de la qualité des données de bout-en-bout:

� Analyse et profilage des données.

� Validation, enrichissement et fusion.

� Monitoring.

� Architecture et processus intégrés à la plateforme Hadoop.

29

Questions / Réponses

30

Merci pour votre attention

Fateh Naili

Enterprise Solutions Manager, Information Builders

Tél : +33 (0)1 49 00 66 11 | [email protected]