information builders - comment integrer les big data a votre si - data forum micropole 2016

Download INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data forum MICROPOLE 2016

Post on 12-Apr-2017

118 views

Embed Size (px)

TRANSCRIPT

  • Comment intgrer les Big Data votre Systme dInformation

    et grer leur qualit ?Jeudi 1er dcembre 2016

    Fateh Naili

    Enterprise Solutions Manager, Information Builders

  • Agenda

    02 03

    Intgrez les Big Data Grez la qualit

    des donnes

    Information Builders

    01

  • Agenda

    02 03

    Intgrez les Big Data Grez la qualit

    des donnes

    Information Builders

    01

  • 90%Of all the data in the

    world has been generated

    over the last 2 years

    Data Output is growing rapidly

    2009 2010 2011 2012 2013 2014 2015

    A quelle vitesse vos donnes augmentent ?

  • Avec les rseaux sociaux

    5

    Cisco SystemsDici 2020, le traffic

    gnr sur le web

    667 ExaBytes / an

    Google+1 mille milliards

    de pages indxes

    24 PetaBytes / jour

    Facebook2,7 milliards

    de Jaime

    +500 TB / jour

    Twitter400 millions

    de tweets

    12 TB / jour

  • mais pas seulement !

    6

    TransactionsDici 2020, les transactions

    B2B et B2C sur le web

    450 milliards / jour

    NASALes donnes mto et

    climatiques stockes

    32 PetaBytes

    BoeingUn Boeing 737

    gnre en moyenne

    240 TeraBytes / vol

    Walmart+1 million

    de transactions

    2,5 PetaBytes / heure

  • Les 4V

    7

    VolumeVarit

    Vracit

    Vlocit

  • Volumes plus importants de transactions issues dInternet,

    des machines...

    Impact sur lensemble des technologies et dploiements

    Cloud, Business Intelligence, Data Warehouse Faire toujours plus, plus rapidement et moindre cot

    Ensembles de donnes volumineux, difficiles grer en

    utilisant des bases de donnes relationnelles:

    Stockage/Cot Recherche/Performance Analyse et visualisation

    Traitements parallles sur des centaines de machines qui ne

    peuvent pas tre raliss dans un dlai raisonnable

    Outils traditionnels (ETL,...)

    Les enjeux du Big Data

  • Transition vers des technologies innovantes

    9

    Donnes dentreprise et donnes non structures

    Fewer

    use cases

    More

    use cases

    ModernTraditional

    OLTP

    OLAP

    Data warehouses

    Data marts

    Point-to-point

    Integration

    EII

  • Architecture Big Data de Information Builders

    10

    Sq

    oo

    p, F

    lum

    e

    Av

    ro, JS

    ON

    Applicationstraditionnelleset data stores

    iWay Big Data Integrator

    Intgration native, innovanteet simplifie Hadoop

    Big Data Apache Hadoop

    Toute distribution,tout type de donnes

    BI & Analytics Plateforme de BI & Analytique WebFOCUS

    Self-service for Everyone

    WebFOCUS access, ETL, metadata

    WebFOCUS access, ETL, metadata

    1. Data Hub/Data Lake.

    2. Augmentation du Data Warehouse.

    3. Archives de donnes/

    Capacit de stockage supplmentaire.

    4. Qualit des donnes.

    5. Data Discovery.

    6. Business Intelligence.

    7. Optimisation.

    8. Modles prdictifs.

  • 11

    InterfaceSimplifie

    Gnration native de script Hadoop

    Gouvernance et gestion des processus

    Sq

    oo

    p, F

    lum

    e

    Av

    ro, JS

    ON

    Data Sources

    Big DataNative: Runs in Hadoop cluster

    Purpose-built: Fully Exploits all Hadoop Services

    Simple: Replaces coding with mapping

    Simplified, easy-to-use interface to integrate in Hadoop

    Marshals Hadoop resources and standards

    Takes advantage of performance and resource negotiation

    Includes sophisticated process management & governance

    iWay Big Data Integrator

  • iWay Big Data Integrator

    12

    Interface Utilisateur base sur Eclipse. Ingestion des donnes utilisant labstraction au-dessus de Sqoop, Flume, Hive, Spark, et tout contenu de canal de streaming propritaire.

    Transformation & Mapping MapReduce et Spark. Nettoyage, mise en correspondance et fusion. Publication aux sources de donnes non-Hadoop. Scripts auto-gnrs/Tches et code compils pour soumission de tches. Dploiement dintgration, tests, cration Spark de bout-en-bout. Adapt Kerberos. Scurit base sur la gestion des rles via lintgration de Apache Sentry.

  • Agenda

    02 03

    Intgrez les Big Data Grez la qualit

    des donnes

    Information Builders

    01

  • Limpact de la qualit des donnes sur votre business

    14

    Faits et chiffres

    La mauvaise qualit des donnes cote aux entreprises au moins 10% de leur chiffre d'affaires;20% est probablement une meilleure estimation. DM Review

    Pour les assurances, le cot (des mauvaises donnes) est estim entre 15 et 20% de leur revenu d'exploitation. Insurance Data Management Association

    Gartner estime que plus de 25% des donnes critiques au sein des grandes entreprises sont inexactes ou incompltes. InformationWeek

    50% des projets de Data Warehouse choueront pour ne pas avoir trait de faon proactive les problmes de qualit des donnes. Thomas Redman Data-Driven

    Avec le Big Data, le problme ne va pas disparatre mais samplifier ...

  • Quest ce que la qualit des donnes?

    15

    Des donnes exactes, compltes, cohrentes, uniques, jour, valides...

    Sur cette base, une stratgie de qualit des donne s doit tre dfinie et applique!

    Exacte

    Complte

    Cohrente

    Unique

    A jour

    Valide

  • Solution iWay Data Quality Edition

    Une solution conue pour optimiser

    lintgrit de linformation au sein

    de lentreprise ou dun dpartement.

    Mise disposition de rgles

    de gestion entirement

    personnalises et dun portfolio

    de dictionnaires de donnes.

    ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring

  • ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring

    Rgles de validation

    Analyses statistiques

    Minimum

    Maximum

    Moyenne

    Nombre doccurrences

    Rapport et recommandations:

    Rapport statistique

    dtaill sur la qualit de vos donnes

    Actions ncessaires mettre en place.

    Etape 1: Profilage de la qualit des donnes

  • Parsing des donnes

    Validation des rgles mtier.

    Fonctions de Scoring et dexplication

    des traitements natifs.

    Traitements en temps rel et en diffr.

    Dictionnaires intgrs.

    ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring

    Etape 2: Nettoyage des donnes

  • Etape 3: Enrichissement des donnes

    Utilisation de librairies prtes a lemploi

    Utilisation de librairies personnalises

    Utilisation de rfrentiels (Look up)

    Rfrentiel de socit

    Nom standard de la socit

    Numro SIREN

    Adresse officielle

    Compte bancaire

    Classification

    Loqate

    Rfrentiel et validation dadresse

    Ajout dinformations manquantes:

    Rue

    Code Postal

    Ville

    Validation dadresses existantes

    Ajout de noms, prnoms, titres

    ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring

  • Etape 4: Rconciliation et Fusion des donnes

    Objectif

    Identifier des groupes

    denregistrements de nature

    identique provenant de

    diffrentes sources

    pour homogniser les donnes.

    Remarque

    Exercice assez complexe.

    Gestion des donnes manquantes,

    errones, en conflit.

    Solution

    Le Matching est un algorithme

    en deux tapes:

    Groupes Candidats

    Tous les enregistrements sont assembls

    en groupes selon des rgles au sens large.

    Groupes Clients

    Consiste diviser les groupes candidats

    en utilisant des rgles granularit

    plus fine.

    ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring

    Rconciliation

  • Etape 4: Rconciliation et Fusion des donnesFusion

    Utilisation des rgles mtier pour dterminer

    le meilleur champ ou enregistrement.

    Exemples

    Enregistrement provenant dun systme de rfrence.

    Enregistrement le plus rcent.

    Enregistrement de meilleure qualit (Scoring).

    Utilisation de fonctions dagrgation.

    SQL-like: count, sum, minimum, maximum, average.

    Lobjectif Crer le Golden Record!

    ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring

  • Etape 5: Suivi et contrle de la qualit de linformation

    ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring

  • La qualit des donnes dans le contexte Big DataData Preparation

    Unstructured

    Semi-Structured

    Structured

    External

    23

    Data Lake

    Raw Data

    Data Ponds

    BI Apps

    Raw Data Actionable Data World Class Analytics

    Data Marts

    Operational System

    Operational System

    Data Marts

    Profile, cleanse, master, etc.

    Profile, cleanse, master, etc.

    Ingest withoutcoding

    Ingest withoutcoding

    Create w/relevant data

    Create w/relevant data

    Data Swamp

  • Architecture Technique

    Data in Motion

    Data at Rest

    Flume

    Other Process

    Sqoop

    Agent 2

    Agent 1

    Agent 3

    Producers Data

    Preparation

    Data

    QualityHDFS

Recommended

View more >